pdf文档 Machine Learning

944.40 KB 19 页 0 评论
语言 格式 评分
英语
.pdf
3
摘要
文档主要介绍了深度前馈网络(Feedforward Neural Networks)的结构和工作原理,包括输入层、隐藏层和输出层的组成。文中详细阐述了反向传播(Back-Propagation)算法在训练神经网络中的应用,特别是梯度下降(Gradient Descent)方法在优化损失函数过程中的重要性。此外,还讨论了激活函数(如Sigmoid函数)的作用以及损失函数在模型训练中的计算方法。神经网络通过调整参数θ来最小化损失函数,从而学习和逼近目标函数f*。
AI总结
《Machine Learning》第十讲总结:神经网络与深度学习 一、前馈深度网络 1. 前馈深度网络(Feedforward Neural Networks)也被称为多层感知机(MLPs),旨在逼近某个函数 \( f^* \)。 2. 网络通过定义映射 \( y = f(x; \theta) \) 并学习参数 \(\theta\) 来实现最佳函数逼近。 3. 通常使用非线性激活函数,能够处理复杂任务。 4. 在图像识别中,卷积神经网络(CNN)是一种专门的前馈网络;在自然语言处理中,可扩展为循环神经网络(RNN)。 二、反向传播算法 1. 反向传播是一种高效的训练神经网络的算法,用于计算损失函数对网络参数的梯度。 2. 假设损失函数可表示为单个样本损失的平均值: \[ L = \frac{1}{m} \sum_{i=1}^{m} L_i \] 3. 梯度计算: - 单样本梯度:\(\frac{\partial L_i}{\partial w}\) 和 \(\frac{\partial L_i}{\partial b}\) - 整体梯度:对多个样本的梯度求平均 4. 计算过程中使用哈达马积(Hadamard product)进行元素-wise 乘法。 5. 公式推导: \[ \frac{\partial C}{\partial b} = \delta \quad \text{和} \quad \frac{\partial C}{\partial w} = a^{[l-1]} \odot \delta \] 三、梯度下降算法 1. 梯度下降用于优化参数 \(\theta\),通过沿负梯度方向调整参数以最小化损失函数: \[ \theta_j \leftarrow \theta_j - \alpha \frac{\partial L(\theta)}{\partial \theta_j} \] 其中 \(\alpha\) 是学习率。 2. 常见变体包括: - 梯度上升(Gradient Ascent) - 随机梯度下降(SGD) - 小批量梯度下降(Mini-batch GD) 四、网络结构与特性 1. 网络架构包括输入层、隐藏层和输出层,每层通过加权输入和偏置经过激活函数产生输出。 2. 激活函数的计算过程: \[ z = w^T x + b \quad \text{和} \quad a = \sigma(z) \] 3. 神经网络训练目标是通过足够的训练样本 \((x^{(i)}, y^{(i)})\) 学习参数,使输出逼近真实函数。 4. 由于内部特征提取难以解释,神经网络被认为是“黑箱”。 以上内容涵盖了神经网络的核心概念、训练算法及特性,是理解深度学习的基础。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 12 页请下载阅读 -
文档评分
请文明评论,理性发言.