深度学习与PyTorch入门实战 - 05. 手写数字问题
                
  
              569.56 KB
             
              10 页
               
              0 评论
              
| 语言 | 格式 | 评分 | 
|---|---|---|
中文(简体)  | .pdf  | 3  | 
| 摘要 | ||
文档介绍了用深度学习和PyTorch解决手写数字识别问题的实战,主要使用MNIST数据集。MNIST数据集包含60,000张训练图片和10,000张测试图片,每张图片对应0-9的数字。介绍了三层神经网络的结构,包括输入层、隐藏层和输出层,并通过矩阵乘法和偏置项进行前向传播。预测结果通过权重矩阵和偏置项的线性组合得到,并使用欧几里得距离计算损失。文档还提到了使用ReLU激活函数,梯度下降法优化目标函数,并简要讨论了非线性因素对模型的影响。  | ||
| AI总结 | ||
### 总结
本文档主要介绍了深度学习在手写数字识别问题(MNIST数据集)中的应用,并使用PyTorch进行实战。以下是核心内容的总结:
1. **MNIST数据集**  
   - MNIST数据集包含60,000张训练图像和10,000张测试图像,每张图像为手写数字(0-9)。  
   - 每个数字有7,000张图像。
2. **模型结构**  
   - 输入层:X的大小为[1, 784](即每张图像被展平成784个像素)。  
   - 隐藏层1(H1):通过权重矩阵W1和偏置b1计算,大小为[d1, 784]和[d1]。  
   - 隐藏层2(H2):通过权重矩阵W2和偏置b2计算,大小为[d2, d1]和[d2]。  
   - 输出层(H3):通过权重矩阵W3和偏置b3计算,大小为[10, d2]和[10]。
3. **推理过程**  
   - 对于一个新输入X,预测结果通过H3计算得出:  
     \[
     \text{pred} = W3 \cdot W2 \cdot W1 \cdot X + b1 + b2 + b3
     \]  
   - 预测结果是一个概率分布,通过取最大值(argmax)得到最终预测数字。
4. **损失函数与优化**  
   - 目标是最小化预测值与真实值之间的欧几里得距离。  
   - 使用梯度下降法优化权重矩阵(W1, W2, W3)和偏置(b1, b2, b3)。
5. **非线性因素**  
   - 引入ReLU激活函数以增加模型非线性:  
     \[
     H1 = \text{relu}(XW1 + b1)
     \]  
     \[
     H2 = \text{relu}(H1W2 + b2)
     \]  
     \[
     H3 = \text{relu}(H2W3 + b3)
     \]  
6. **下一课时**  
   - 实战部分将通过实现上述模型结构,训练MNIST数据集以完成手写数字识别任务。
总结来说,文档重点介绍了MNIST数据集的特点、深度学习模型的结构、推理过程及优化方法,并强调了非线性因素在模型中的重要性。  | ||
 P1 
 P2 
 P3 
 P4 
 P5 
 P6 
 P7 
下载文档到本地,方便使用
    
                - 可预览页数已用完,剩余
                3 页请下载阅读 -
              
文档评分 
  












