深度学习与PyTorch入门实战 - 50. RNN训练难题0 码力 | 12 页 | 967.80 KB | 2 年前3
深度学习与PyTorch入门实战 - 18.2 LOSS及其梯度## PyTorch ## LOSS及其梯度 主讲人:龙良曲 ## Typical Loss ## Mean Squared Error ## Cross Entropy Loss binary multi-class +softmax Leave it to Logistic Regression Part ## MSE $$ \begin{aligned} ■ loss=\0 码力 | 14 页 | 989.18 KB | 2 年前3
深度学习与PyTorch入门实战 - 18.1 激活函数梯度## PyTorch ## 激活函数及其梯度 主讲人:龙良曲 ## Activation Functions  PITTS WITH LETTVIN: Pitts with Jerome Lettvin and one subject tensor([0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.1111, 0.3333, 0.5556, 0.7778, 1.0000]) ## 下一课时 Loss及其梯度 ## Thank You0 码力 | 14 页 | 724.00 KB | 2 年前3
常见函数梯度## PyTorch ## 常见函数梯度 主讲人:龙良曲 ## Common Functions |Common Functions|Function|Derivative| |---|---|---| |Constant|c|0| |Line|x|1| ||ax|a| |Square|$ x^{2} $|2x| |Square Root|$ \\sqrt{x} $|$ (\\frac{10 码力 | 9 页 | 282.15 KB | 2 年前3
什么是梯度## PyTorch ## 什么是梯度 主讲人:龙良曲 ## Clarification 导数, derive - 偏微分, partial derive 梯度, gradient $$ \nabla f=\left(\frac{\partial f}{\partial x_{1}};\frac{\partial f}{\partial x_{2}};\ldots;\frac{\partial jpg)  ## 下一课时 常见函数梯度 ## Thank You0 码力 | 17 页 | 1.49 MB | 2 年前3
【PyTorch深度学习-龙龙老师】-测试版2021126.7 神经网络类型 6.8 油耗预测实战 6.9 参考文献 第7章 反向传播算法 7.1 导数与梯度 7.2 导数常见性质 7.3 激活函数导数 7.4 损失函数梯度 7.5 全连接层梯度 7.6 链式法则 7.7 反向传播算法 7.8 Himmelblau 函数优化实战 7.9 反向传播算法实战 参考文献 第10章 卷积神经网络 10.1 全连接网络的问题 10.2 卷积神经网络 10.3 卷积层实现 10.4 LeNet-5 实战 10.5 表示学习 10.6 梯度传播 10.7 池化层 10.8 BatchNorm 层 10.9 经典卷积网络 10.10 CIFAR10 与 VGG13 实战 10.11 卷积层变种 10 15 参考文献 第11章 循环神经网络 11.1 序列表示方法 11.2 循环神经网络 11.3 梯度传播 11.4 RNN 层使用方法 11.5 RNN 情感分类问题实战 11.6 梯度弥散和梯度爆炸 11.7 RNN 短时记忆 11.8 LSTM 原理 11.9 LSTM 层使用方法 11.100 码力 | 439 页 | 29.91 MB | 2 年前3
动手学深度学习 v2.04.2 偏导数 ..... 68 2.4.3 梯度 ..... 68 2.4.4 链式法则 ..... 68 2.5 自动微分 ..... 69 2.5.1 一个简单的例子 ..... 70 2.5.2 非标量变量的反向传播 ..... 71 2.5.3 分离计算 ..... 71 2.5.4 Python控制流的梯度计算 ..... 72 2.6 概率 ..... 前向传播计算图 ..... 163 4.7.3 反向传播 ..... 164 4.7.4 训练神经网络 ..... 165 4.8 数值稳定性和模型初始化 ..... 166 4.8.1 梯度消失和梯度爆炸 ..... 166 4.8.2 参数初始化 ..... 168 4.9 环境和分布偏移 ..... 170 4.9.1 分布偏移的类型 ..... 171 4.9.2 分布偏移示例 4 预测 ..... 320 8.5.5 梯度裁剪 ..... 321 8.5.6 训练 ..... 322 8.6 循环神经网络的简洁实现 ..... 325 8.6.1 定义模型 ..... 326 8.6.2 训练与预测 ..... 328 8.7 通过时间反向传播 ..... 329 8.7.1 循环神经网络的梯度分析 ..... 330 8.7.2 通过时间反向传播的细节0 码力 | 797 页 | 29.45 MB | 2 年前3
机器学习课程-温州大学-06深度学习-优化算法本章目录 01 小批量梯度下降 02 优化算法 03 超参数调整和BatchNorm 04 Softmax ### 1. 小批量梯度下降 ## 01 小批量梯度下降 02 优化算法 03 超参数调整和BatchNorm 04 Softmax ## 小批量梯度下降 ## 小批量梯度下降(Mini-Batch Gradient Descent) 梯度下降的每一步中,用到了一定批量的训练样本 w_{j},\ (j=0,1,\ldots,n\text{)})\\\end{aligned} $$ b=1 (随机梯度下降,SGD) b=m (批量梯度下降,BGD) b=batch_size,通常是2的指数倍,常见有32,64,128等。 (小批量梯度下降,MBGD) ## 小批量梯度下降 Batch gradient descent  ### 2. 优化算法 01 小批量梯度下降 ## 02 优化算法 03 超参数调整和BatchNorm 04 Softmax ## 伦敦温度的例子 $$ \theta_{1}=40^{\circ}\mathrm{F} $$0 码力 | 31 页 | 2.03 MB | 2 年前3
机器学习课程-温州大学-08深度学习-深度卷积神经网络5190/p11_1.jpg) ### 2. 深度残差网络 01 经典网络 02 深度残差网络 03 其它现代网络 04 卷积神经网络使用技巧 ### 2. 深度残差网络 梯度消失和梯度爆炸问题  $$ \frac{\partial DenseNet是2017年CVPR会议上提出的一种卷积神经网络结构,其名字来源于“密集连接网络(Densely Connected Network)”。 DenseNet的创新点在于在网络结构中引入了密集连接,使特征复用和梯度传播更加容易,在处理图像分类、目标检测、分割等问题中都取得了不错的结果。  ### 2. 冻结模型权重 for param in net.parameters(): #遍历每个模型参数 param.requires_grad = False #参数梯度为False # 将最后的全连接层改成十分类 ### 3. 替换全连接层 ## 常见模型 • VGG • ResNet • SqueezeNet • DenseNet • Inception0 码力 | 32 页 | 2.42 MB | 2 年前3
Hello Agents V1.0.2 (从零开始构建智能体))规则并生成语义不通的回应,因为它无法理解否定词“not”的作用。 无上下文记忆:系统是无状态的(Stateless),每次回应仅基于当前单句输入,无法进行连贯的多轮对话。 规则的扩展性问题:尝试增加更多规则会导致规则库的规模爆炸式增长,规则间的冲突与优先级管理将变得极其复杂,最终导致系统难以维护。 然而,尽管存在这些显而易见的缺陷,ELIZA在当时却产生了著名的“ELIZA效应”,许多用户相信它能理解自己。这种智能的幻 户在对话中提到的关键信息(如姓名、年龄、职业),并在后续对话中引用 对比你扩展后的ELIZA与ChatGPT,列举至少3个维度上存在的本质差异 ○ 为什么基于规则的方法在处理开放域对话时会遇到"组合爆炸"问题并且难以扩展维护?能否使用数学的方法来说明? 马文·明斯基在"心智社会"理论[7]中提出了一个革命性的观点:智能源于大量简单智能体的协作,而非单一的完美系统。 在图2.6"搭建积木塔"的例子中,如果 Problem)。在训练过程中,模型需要通过反向传播算法根据输出端的误差来调整网络深处的权重。对于RNN而言,序列的长度就是网络的深度。当序列很长时,梯度在从后向前传播的过程中会经过多次连乘,这会导致梯度值快速趋向于零(梯度消失)或变得极大(梯度爆炸)。梯度消失使得模型无法有效学习到序列早期信息对后期输出的影响,即难以捕捉长距离的依赖关系。 为了解决长期依赖问题,长短时记忆网络(Long Short-Term0 码力 | 633 页 | 58.72 MB | 1 月前3
共 251 条
- 1
- 2
- 3
- 4
- 5
- 6
- 26













