Machine Learning
944.40 KB
19 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
英语 | .pdf | 3 |
摘要 | ||
文档主要介绍了深度前馈网络(Feedforward Neural Networks)的结构和工作原理,包括输入层、隐藏层和输出层的组成。文中详细阐述了反向传播(Back-Propagation)算法在训练神经网络中的应用,特别是梯度下降(Gradient Descent)方法在优化损失函数过程中的重要性。此外,还讨论了激活函数(如Sigmoid函数)的作用以及损失函数在模型训练中的计算方法。神经网络通过调整参数θ来最小化损失函数,从而学习和逼近目标函数f*。 | ||
AI总结 | ||
《Machine Learning》第十讲总结:神经网络与深度学习
一、前馈深度网络
1. 前馈深度网络(Feedforward Neural Networks)也被称为多层感知机(MLPs),旨在逼近某个函数 \( f^* \)。
2. 网络通过定义映射 \( y = f(x; \theta) \) 并学习参数 \(\theta\) 来实现最佳函数逼近。
3. 通常使用非线性激活函数,能够处理复杂任务。
4. 在图像识别中,卷积神经网络(CNN)是一种专门的前馈网络;在自然语言处理中,可扩展为循环神经网络(RNN)。
二、反向传播算法
1. 反向传播是一种高效的训练神经网络的算法,用于计算损失函数对网络参数的梯度。
2. 假设损失函数可表示为单个样本损失的平均值:
\[
L = \frac{1}{m} \sum_{i=1}^{m} L_i
\]
3. 梯度计算:
- 单样本梯度:\(\frac{\partial L_i}{\partial w}\) 和 \(\frac{\partial L_i}{\partial b}\)
- 整体梯度:对多个样本的梯度求平均
4. 计算过程中使用哈达马积(Hadamard product)进行元素-wise 乘法。
5. 公式推导:
\[
\frac{\partial C}{\partial b} = \delta \quad \text{和} \quad \frac{\partial C}{\partial w} = a^{[l-1]} \odot \delta
\]
三、梯度下降算法
1. 梯度下降用于优化参数 \(\theta\),通过沿负梯度方向调整参数以最小化损失函数:
\[
\theta_j \leftarrow \theta_j - \alpha \frac{\partial L(\theta)}{\partial \theta_j}
\]
其中 \(\alpha\) 是学习率。
2. 常见变体包括:
- 梯度上升(Gradient Ascent)
- 随机梯度下降(SGD)
- 小批量梯度下降(Mini-batch GD)
四、网络结构与特性
1. 网络架构包括输入层、隐藏层和输出层,每层通过加权输入和偏置经过激活函数产生输出。
2. 激活函数的计算过程:
\[
z = w^T x + b \quad \text{和} \quad a = \sigma(z)
\]
3. 神经网络训练目标是通过足够的训练样本 \((x^{(i)}, y^{(i)})\) 学习参数,使输出逼近真实函数。
4. 由于内部特征提取难以解释,神经网络被认为是“黑箱”。
以上内容涵盖了神经网络的核心概念、训练算法及特性,是理解深度学习的基础。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
12 页请下载阅读 -
文档评分