Power 0 码力 |
10 页 |
610.60 KB
| 2 年前 3 0 码力 |
15 页 |
940.28 KB
| 2 年前 3 ### 3. BP算法
## 第三步,计算输出层阈值 $ \theta_{j} $ 的梯度 $ \frac{\partial E_{k}}{\partial \theta_{j}} $
利用链式法则,可得
$$ \frac{\partial E_{k}}{\partial\theta_{j}}=\frac{\partial E_{k}}{\partial\hat{y}_{j}^{k}}\ \theta_{j}} $
### 3. BP算法
第四步,计算隐层到输出层连接权值 $ w_{hj} $ 的梯度 $ \frac{\partial E_{k}}{\partial w_{hj}} $
利用链式法则,可得
$$ \frac{\partial E_{k}}{\partial w_{hj}}=\frac{\partial E_{k}}{\partial\hat{y}_{j}^{k}}\cdo $$
### 3. BP算法
第五步,计算隐层阈值 $ \gamma_{h} $ 的梯度 $ \frac{\partial E_{k}}{\partial \gamma_{h}} $
利用链式法则,可得
$$ \frac{\partial E_{k}}{\partial\gamma_{h}}=\frac{\partial E_{k}}{\partial b_{h}}\cdot\frac{\partial 0 码力 |
29 页 |
1.60 MB
| 2 年前 3 参考文献
第7章 反向传播算法
7.1 导数与梯度
7.2 导数常见性质
7.3 激活函数导数
7.4 损失函数梯度
7.5 全连接层梯度
7.6 链式法则
7.7 反向传播算法
7.8 Himmelblau 函数优化实战
7.9 反向传播算法实战
7.10 参考文献
第8章 PyTorch 高级用法
8 在介绍反向传播算法之前,我们先学习导数传播的一个核心法则:链式法则。
### 7.6 链式法则
前面我们介绍了输出层的梯度 $ \frac{\partial L}{\partial w_{jk}} $ 计算方法,我们现在来介绍链式法则,它是能在不显式推导神经网络的数学表达式的情况下,逐层推导梯度的核心公式,非常重要。
实际上,前面在推导梯度的过程中已经或多或少地用到了链式法则。考虑复合函数 $ y = f(u) $ o_{k}^{(K)} $ ,如下图7.9所示,其中输出节点 $ o_{k}^{(K)} $ 又与隐藏层的输出节点 $ o_{j}^{(J)} $ 相关联,因此链式法则非常适合于神经网络的梯度推导。让我们来考虑损失函数L如何应用链式法则。
 0 码力 |
439 页 |
29.91 MB
| 2 年前 3 场景:数学课上,老师正在讲解 “隐函数求导”, 步骤写到第三行时突然跳过了中间推导, 直接给出结果:“所以这里的dy/dx=(-2x-y)/(x+3y^{2})”。你盯着白板上的公式一脸懵——前两步的链式法则展开去哪了?为什么分母突然多了3y^{2}?周围同学纷纷点头, 老师已经翻到下一页讲应用题了。你手心冒汗, 想举手提问又怕被说“这么简单还不会”, 不提问又担心后面全听不懂……
深度思考
好的 求。他们可能是一名学生,或者需要帮助解决学习中的即时困惑,想要知道如何利用AI工具快速解决问题,避免在课堂上掉队。
接下来,我需要构建一个真实的生活场景。比如,老师正在讲解数学中的微积分概念,如链式法则,而学生突然无法理解导数的复合函数部分,导致后续内容跟不上。这种情况下,学生可能会感到焦虑,担心影响后续学习,但又不敢在课堂上立即提问,怕打断教学进度或显得自己理解能力不足。
然后,分析是否可以 在笔记软件中快速标注困惑点(如:“疑问:第二步到第三步如何展开?”)
➢ 输入精准问题:
“隐函数求导例题:从方程 $ x^{2} + xy + y^{3} = 0 $ 推导dy/dx,请展示完整的链式法则展开步骤,特别是分母 $ 3y^{2} $ 的来源。”
➢ 秒速获取步骤解析:
立即对照补全笔记,跟上老师进度。
### 2. 课间5分钟(深度追问)
☐ 适用场景:老师已下课,但10分钟后还有后续课程 0 码力 |
65 页 |
4.47 MB
| 1 年前 3 ... 62
2.4 微积分 ..... 63
2.4.1 导数和微分 ..... 64
2.4.2 偏导数 ..... 68
2.4.3 梯度 ..... 68
2.4.4 链式法则 ..... 68
2.5 自动微分 ..... 69
2.5.1 一个简单的例子 ..... 70
2.5.2 非标量变量的反向传播 ..... 71
2.5.3 分离计算 .. 的优化算法有很大用处。
#### 2.4.4 链式法则
然而,上面方法可能很难找到梯度。这是因为在深度学习中,多元函数通常是复合(composite)的,所以难以应用上述任何规则来微分这些函数。幸运的是,链式法则可以被用来微分复合函数。
让我们先考虑单变量函数。假设函数 $ y=f(u) $ 和 $ u=g(x) $ 都是可微的,根据链式法则:
$$ \frac{dy}{dx}=\fra x_{1}, x_{2}, \ldots, x_{n} $ 。注意,y是 $ x_{1}, x_{2}, \ldots, x_{n} $ 的函数。对于任意 $ i = 1, 2, \ldots, n $ ,链式法则给出:
$$ \frac{\partial y}{\partial x_{i}}=\frac{\partial y}{\partial u_{1}}\frac{\partial u_{1}}{\partial 0 码力 |
797 页 |
29.45 MB
| 2 年前 3 f(A)=\log|A| $ 。注意,我们必须将f的域限制为正定矩阵,因为这确保了 $ |A|>0 $ ,因此 $ |A| $ 的对数是实数。在这种情况下,我们可以使用链式法则(没什么奇怪的,只是单变量演算中的普通链式法则)来看看:
$$ \frac{\partial\log|A|}{\partial A_{ij}}=\frac{\partial\log|A|}{\partial|A|}\ 0 码力 |
19 页 |
1.66 MB
| 2 年前 3 0114, 0.1221, -0.2628, 0.0495, -0.3060, 0.2002, -0.0149,
-0.1027, -0.1266]])
## 下一课时 链式法则
## Thank You 0 码力 |
9 页 |
584.25 KB
| 2 年前 3 )
In [40]: torch.autograd.grad(p[2], [a])
Out[40]: (tensor([-0.0979, -0.1447, 0.2425]),)
## 下一课时 链式法则
## Thank You 0 码力 |
14 页 |
989.18 KB
| 2 年前 3 derivative, true)
10. }
11. } |> debug // 0.37851665401644224
12. }
## 后向微分
- 利用链式法则
。若有 $ w=f(x,y,z,\cdots),x=x(t),y=y(t),z=z(t),\cdots $ ,那么
$$ \begin{array}{l}\frac{\partial w}{\partial 0 码力 |
30 页 |
3.24 MB
| 2 年前 3
|