Machine Learning
                
  
              944.40 KB
             
              19 页
               
              0 评论
              
| 语言 | 格式 | 评分 | 
|---|---|---|
英语  | .pdf  | 3  | 
| 摘要 | ||
文档主要介绍了深度前馈网络(Feedforward Neural Networks)的结构和工作原理,包括输入层、隐藏层和输出层的组成。文中详细阐述了反向传播(Back-Propagation)算法在训练神经网络中的应用,特别是梯度下降(Gradient Descent)方法在优化损失函数过程中的重要性。此外,还讨论了激活函数(如Sigmoid函数)的作用以及损失函数在模型训练中的计算方法。神经网络通过调整参数θ来最小化损失函数,从而学习和逼近目标函数f*。  | ||
| AI总结 | ||
《Machine Learning》第十讲总结:神经网络与深度学习
一、前馈深度网络
1. 前馈深度网络(Feedforward Neural Networks)也被称为多层感知机(MLPs),旨在逼近某个函数 \( f^* \)。
2. 网络通过定义映射 \( y = f(x; \theta) \) 并学习参数 \(\theta\) 来实现最佳函数逼近。
3. 通常使用非线性激活函数,能够处理复杂任务。
4. 在图像识别中,卷积神经网络(CNN)是一种专门的前馈网络;在自然语言处理中,可扩展为循环神经网络(RNN)。
二、反向传播算法
1. 反向传播是一种高效的训练神经网络的算法,用于计算损失函数对网络参数的梯度。
2. 假设损失函数可表示为单个样本损失的平均值:
   \[
   L = \frac{1}{m} \sum_{i=1}^{m} L_i
   \]
3. 梯度计算:
   - 单样本梯度:\(\frac{\partial L_i}{\partial w}\) 和 \(\frac{\partial L_i}{\partial b}\)
   - 整体梯度:对多个样本的梯度求平均
4. 计算过程中使用哈达马积(Hadamard product)进行元素-wise 乘法。
5. 公式推导:
   \[
   \frac{\partial C}{\partial b} = \delta \quad \text{和} \quad \frac{\partial C}{\partial w} = a^{[l-1]} \odot \delta
   \]
三、梯度下降算法
1. 梯度下降用于优化参数 \(\theta\),通过沿负梯度方向调整参数以最小化损失函数:
   \[
   \theta_j \leftarrow \theta_j - \alpha \frac{\partial L(\theta)}{\partial \theta_j}
   \]
   其中 \(\alpha\) 是学习率。
2. 常见变体包括:
   - 梯度上升(Gradient Ascent)
   - 随机梯度下降(SGD)
   - 小批量梯度下降(Mini-batch GD)
四、网络结构与特性
1. 网络架构包括输入层、隐藏层和输出层,每层通过加权输入和偏置经过激活函数产生输出。
2. 激活函数的计算过程:
   \[
   z = w^T x + b \quad \text{和} \quad a = \sigma(z)
   \]
3. 神经网络训练目标是通过足够的训练样本 \((x^{(i)}, y^{(i)})\) 学习参数,使输出逼近真实函数。
4. 由于内部特征提取难以解释,神经网络被认为是“黑箱”。
以上内容涵盖了神经网络的核心概念、训练算法及特性,是理解深度学习的基础。  | ||
 P1 
 P2 
 P3 
 P4 
 P5 
 P6 
 P7 
下载文档到本地,方便使用
    
                - 可预览页数已用完,剩余
                12 页请下载阅读 -
              
文档评分 
  












