搜索

pdf文档 机器学习课程-温州大学-05深度学习-深度学习实践

1.09 MB 19 页 4 下载 141 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档主要讲述了深度学习实践中的数据处理方法,包括数据集的划分、制作、归一化/标准化以及正则化技术的应用。文中详细介绍了训练集、验证集和测试集的划分比例,强调了深度学习中数据量的重要性。同时,讨论了欠拟合的处理方法,如增加模型复杂度和调整正则化系数。还提到了L1和L2正则化的区别及其在模型优化中的作用,最后指出成功的机器学习应用依赖于大量数据。
AI总结
### 文档总结 #### 1. 数据集划分 - **训练集(Training Set)**:用于模型训练,确定拟合曲线的参数。 - **验证集(Validation Set)**:用于模型选择和优化,调整超参数。 - **测试集(Test Set)**:用于评估模型的最终性能。 - 划分比例: - 机器学习:60%训练集 + 20%验证集 + 20%测试集;或70%训练集 + 10%验证集 + 20%测试集。 - 深度学习:98%训练集 + 1%验证集 + 1%测试集(假设数据量为百万级)。 #### 2. 数据预处理 - **归一化/标准化**:对数据进行标准化处理,使数据具有相似的尺度。 - **正则化**:通过在损失函数中添加惩罚项(如L1或L2正则化),降低参数的大小,防止过拟合。 - **L1正则化**:使权重稀疏化。 - **L2正则化**:使权重平滑化,降低参数范数。 #### 3. 模型调优 - **欠拟合处理**: - 添加新特征。 - 增加模型复杂度(如增加网络层数或神经元数量)。 - 减小正则化系数。 - **过拟合处理**: - 增加数据量。 - 减少模型复杂度。 - 增大正则化系数。 #### 4. 交叉验证 - 通过多次划分训练集和验证集,评估模型的泛化能力,选择最优模型。 #### 5. 数据的重要性 - 数据量对模型性能的影响显著。当数据量达到一定规模时,不同算法的性能趋于一致。因此,成功的机器学习应用更依赖于高质量的数据,而非算法本身。 #### 6. 偏差与方差 - **高偏差**(欠拟合):模型过于简单,无法捕捉数据特征。解决方案:增加模型复杂度或添加特征。 - **高方差**(过拟合):模型过于复杂,对训练数据过拟合。解决方案:增加正则化或增大训练数据量。 ### 核心观点 - 数据集的划分和预处理是模型训练的基础。 - 正则化技术是防止过拟合的重要手段。 - 数据量对模型性能起决定性作用,尤其是深度学习模型。 - 模型调优需要在欠拟合与过拟合之间找到平衡。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 12 页请下载阅读 -
文档评分
请文明评论,理性发言.