MLP反向传播推导
MLP反向传播 主讲人:龙良曲 Chain rule ▪ ?? ???? ? = ?? ??? 1 ??? 1 ?? = ?? ??? 2 ??? 2 ??? 1 ??? 1 ?? ∑ E ?? ∑ ??? ? ??? ? ?? ? ?? ? Multi-output Perceptron ∑ σ E ?0 0 ?1 0 ?2 00 码力 | 15 页 | 940.28 KB | 1 年前3【PyTorch深度学习-龙龙老师】-测试版202112
4 创建张量 预览版202112 4.5 张量的典型应用 4.6 索引与切片 4.7 维度变换 4.8 Broadcasting 4.9 数学运算 4.10 前向传播实战 4.11 参考文献 第 5 章 PyTorch 进阶 5.1 合并与分割 5.2 数据统计 5.3 张量比较 5.4 填充与复制 5.5 数据限幅 5.6 油耗预测实战 6.9 参考文献 第 7 章 反向传播算法 7.1 导数与梯度 7.2 导数常见性质 7.3 激活函数导数 7.4 损失函数梯度 7.5 全连接层梯度 预览版202112 7.6 链式法则 7.7 反向传播算法 7.8 Himmelblau 函数优化实战 7.9 反向传播算法实战 7.10 参考文献 第 8 章 PyTorch 第 10 章 卷积神经网络 10.1 全连接网络的问题 10.2 卷积神经网络 10.3 卷积层实现 10.4 LeNet-5 实战 10.5 表示学习 10.6 梯度传播 10.7 池化层 10.8 BatchNorm 层 预览版202112 10.9 经典卷积网络 10.10 CIFAR10 与 VGG13 实战 10.11 卷积层变种0 码力 | 439 页 | 29.91 MB | 1 年前3DeepSeek从入门到精通(20250204)
DeepSeek:从入门到精通 @新媒沈阳 团队 :余梦珑博士后 清华大学新闻与传播学院 新媒体研究中心 元宇宙文化实验室 • Deepseek是什么? • Deepseek能够做什么? • 如何使用Deepseek? DeepSeek是什么? AI + 国产 + 免费 + 开源 + 强大 • DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应 构建融合提示:创建引导AI进行概念嫁接的提示语 应用示例 任务:尝试将“社交媒体”和“传统图书馆”这两个概念进行嫁接,以设计一 个创新的知识共享平台。 (1)输入概念: • 社交媒体:即时性、互动性、个性化、病毒传播 • 传统图书馆:知识储备、系统分类、安静学习、专业指导 (2)共同特征: • 信息存储和检索 • 用户群体链接 • 知识分享 (3)融合点: • 实时知识互动 • 知识深度社交网络 深入探讨极端假设带来的影响和机会 从极端假设中提取可能的创新点 任务:以“未来教育”为主题,运用极端假设策略来激发创新思维。 常规假设: (1)学校是学习的主要场所 (2)教师是知识的主要传播者 (3)学习需要长时间的努力 (4)考试是评估学习效果的主要方式 多重约束策略(MCS):激发创造性问题解决 �MCS的理论基础: MCS基于创造性问题解决理论和设计思维中的有限性思维概念,提出了以下关键步骤:0 码力 | 104 页 | 5.37 MB | 7 月前3清华大学 DeepSeek 从入门到精通
构建融合提示:创建引导AI进行概念嫁接的提示语 应用示例 任务:尝试将“社交媒体”和“传统图书馆”这两个概念进行嫁接,以设计一 个创新的知识共享平台。 (1)输入概念: • 社交媒体:即时性、互动性、个性化、病毒传播 • 传统图书馆:知识储备、系统分类、安静学习、专业指导 (2)共同特征: • 信息存储和检索 • 用户群体链接 • 知识分享 (3)融合点: • 实时知识互动 • 知识深度社交网络 深入探讨极端假设带来的影响和机会 从极端假设中提取可能的创新点 任务:以“未来教育”为主题,运用极端假设策略来激发创新思维。 常规假设: (1)学校是学习的主要场所 (2)教师是知识的主要传播者 (3)学习需要长时间的努力 (4)考试是评估学习效果的主要方式 多重约束策略(MCS):激发创造性问题解决 �MCS的理论基础: MCS基于创造性问题解决理论和设计思维中的有限性思维概念,提出了以下关键步骤: 的营销策划提示语,核心在于创新、精 准和可行。创新要求使用者激发AI的创造力,生成独特的创意概念;精准需要使用者引导AI制定符合目标受 众和市场环境的传播策略;可行则要求通过提示语设计,确保AI生成的执行方案具有实操性。 创意概念 传播策略 执行方案 创意概念:设计激发创新思维的提示语 �理论层面: �方法层面: 1. 跨领域联想指令 2. 品牌DNA融入 3. 记忆点设计0 码力 | 103 页 | 5.40 MB | 8 月前3机器学习课程-温州大学-04深度学习-深层神经网络
基本不会用它。 Tanh激活函数:tanh是非常优秀的,几乎适合所有 场合。 ReLu激活函数:最常用的默认函数,,如果不确定 用哪个激活函数,就使用ReLu或者Leaky ReLu。 11 4.反向传播算法 ൡ ? ? ? ⟹ ? = ??? + ? ⟹ ? = ?(?) ⟹ ? ?, ? ൡ ? ? ? ⏟ ??=??⋅?,??=?? ⟸ ? = ??? + ? ⏟ ??=??⋅ )=?′(?) ⟸ ) ? = ?(?) ⟸ ?(?, ? ⏟ ??= ? ??? ?,? =(−?log?−(1−?)log(1−?))′=−? ?+1−? 1−? 12 4.反向传播算法 因为 ??(?,?) ?? = ?? ?? = ( ?? ??) ⋅ ( ?? ??) 并且 ?? ?? = ? ⋅ (1 − ?), 而 ??(?,?) ?? = ? = ??(?,?) ?? = ?? ?? = ?? ?? ⋅ ?? ?? = (− ? ? + (1−?) (1−?)) ⋅ ?(1 − ?) = ? − ? 13 4.反向传播算法 第一步,计算?1 ሾ1], ?1 ሾ1] = ?1 ሾ1]?? + ?1 ሾ1]。 第二步,通过激活函数计算?1 ሾ1], ?1 ሾ1] = ?(?1 ሾ1])。 ?2 ሾ1]、0 码力 | 28 页 | 1.57 MB | 1 年前3动手学深度学习 v2.0
一个简单的例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 2.5.2 非标量变量的反向传播 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.5.3 分离计算 . . . . . . . . . 7 前向传播、反向传播和计算图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 4.7.1 前向传播 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 4.7.2 前向传播计算图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 4.7.3 反向传播 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 4.7.4 训练神经网络 . . . . .0 码力 | 797 页 | 29.45 MB | 1 年前3《Redis使用手册》(试读版)
复制功能的实现原理; 如何在主服务器不创建 RDB ⽂件的情况下实现数据同步; 如何通过复制功能提升不同类型 Redis 命令的执⾏效率; 在本章的最后, 我们还会看到 Redis 服务器通过复制传播 Lua 脚本的⽅法, ⾄于 Sentinel 相关的内容将在下⼀ 章再⾏介绍。 18.1 REPLICAOF:将服务器设置为从服务器 Note: 复制命令的命名变化 在很⻓的⼀段时间⾥, Redis 脚本复制 在了解了 Redis 服务器传播普通 Redis 命令的⽅法之后, 我们接下来要了解的将是 Redis 传播 Lua 脚本的具体 ⽅法。 Redis 服务器拥有两种不同的脚本复制模式, 第⼀种是从 Redis 2.6 版本开始⽀持的脚本传播模式(whole script replication), ⽽另⼀种则是从 Redis 3.2 版本开始⽀持的命令传播模式(script effect replication), replication), 本节接 下来将分别介绍这两种模式。 18.8.1 脚本传播模式 处于脚本传播模式的主服务器会将被执⾏的脚本及其参数(也即是 EVAL 命令本身)复制到 AOF ⽂件以及从服务 器⾥⾯。 因为带有副作⽤的函数在不同服务器上运⾏时可能会产⽣不同的结果, 从⽽导致主从服务器不⼀致, 所 以在这⼀模式下执⾏的脚本必须是纯函数: 换句话说, 对于相同的数据集, 相同的脚本以及参数必须产⽣相同的0 码力 | 352 页 | 6.57 MB | 1 年前3机器学习课程-温州大学-03深度学习-PyTorch入门
如果一个节点的requires_grad是True,那么所有依赖它的节点 requires_grad也会是True。 换言之,如果一个节点依赖的所有节点都不需要求导,那么它的 requires_grad也会是False。在反向传播的过程中,该节点所在的子图会被 排除在外。 21 2. Autograd自动求导 Function类 我们已经知道PyTorch使用动态计算图(DAG)记录计算的全过程,DAG的节 点是F 运算的结果,记录运算的发生,并且记录运算的输入。Tensor使用 .grad_fn属性记录这个计算图的入口。反向传播过程中,autograd引擎会 按照逆序,通过Function的backward依次计算梯度。 22 2. Autograd自动求导 backward函数 backward函数是反向传播的入口点,在需要被求导的节点上调用 backward函数会计算梯度值到相应的节点上。 backward函数是反向求导数,使用链式法则求导。 这是因为有些Tensor可能有多个输出,那么就需要调用多个backward。叠加的处理 方式使得backward不需要考虑之前有没有被计算过导数,只需要加上去就行了,这 使得设计变得更简单。 因此我们用户在反向传播之前,常常需要用zero_grad函数对导数手动清零,确保 计算出来的是正确的结果。 24 2. Autograd自动求导 l1 = input x w1 l2 = l1 + w2 l30 码力 | 40 页 | 1.64 MB | 1 年前3机器学习课程-温州大学-11深度学习-序列模型
RNN的前向传播 ?<0> =0 rnn=nn.RNN(input size=10,hidden size=20,num layers=2) 9 2.循环神经网络(RNN) RNN的前向传播 ?> = ?1(????−1> + ????> + ??) ̰? > = ?2(????> + ??) 10 2.循环神经网络(RNN) RNN的反向传播 11 2 lstm=nn.LSTM(input size=10,hidden size=20,num layers=2) 18 3.长短期记忆(LSTM) LSTM的前向传播 19 3.长短期记忆(LSTM) LSTM的反向传播 ??? ⟨?⟩ = ?????? ∗ tanh(?????) ∗ ?? ⟨?⟩ ∗ (1 − ?? ⟨?⟩) ? ǁ?⟨?⟩ = ?????? ∗ ?? ⟨ + ?? ⟨?⟩(1 − tanh(?????)2) ∗ ????? ∗ ?????? ∗ ?? ⟨?⟩ ∗ (1 − ?? ⟨?⟩) 20 3.长短期记忆(LSTM) LSTM的反向传播 参数求导 ??? = ??? ⟨?⟩ ∗ ????? ?? ? ??? = ? ǁ?⟨?⟩ ∗ ????? ?? ? ??? = ??? ⟨?⟩ ∗ ????? ?? ?0 码力 | 29 页 | 1.68 MB | 1 年前3pytorch 入门笔记-03- 神经网络
神经网络的典型训练过程如下: 1. 定义包含一些可学习的参数(或者叫权重)神经网络模型; 2. 在数据集上迭代; 3. 通过神经网络处理输入; 4. 计算损失(输出结果和正确值的差值大小); 5. 将梯度反向传播回网络的参数; 6. 更新网络的参数,主要使用如下简单的更新原则: weight = weight - learning_rate * gradient 原文链接:pytorch 入门笔记 -03- -0.0239, -0.0056, -0.0597, 0.0184, -0.0300]], grad_fn=) 将所有参数的梯度缓存清零,然后进行随机梯度的的反向传播: net.zero_grad() out.backward(torch.randn(1, 10)) note torch.nn 只支持小批量输入。整个 torch.nn 包都只支持小批量样本,而不支持单个样本。 反向传播 调用 loss.backward() 获得反向传播的误差。 但是在调用前需要清除已存在的梯度,否则梯度将被累加到已存在的梯度。 现在,我们将调用 loss.backward(),并查看 conv1 层的偏差(bias)项在反向传播前后的梯度。 net.zero_grad() 原文链接:pytorch 入门笔记 0 码力 | 7 页 | 370.53 KB | 1 年前3
共 328 条
- 1
- 2
- 3
- 4
- 5
- 6
- 33