搜索

pdf文档 机器学习课程-温州大学-05机器学习-机器学习实践

2.14 MB 33 页 8 下载 191 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档主要介绍了机器学习中的数据集划分方法,包括训练集、验证集和测试集的比例分配(如机器学习的60%、20%、20%和深度学习的98%、1%、1%)。此外,文档还讨论了正则化技术在减少过拟合中的作用,偏差与方差的关系,以及集成学习方法。文档强调了数据的重要性,并提到在处理不平衡数据时可以采用代价敏感学习等方法。
AI总结
### 文档总结 #### 1. 数据集划分 - **训练集**:用于模型训练,确定模型参数。 - **验证集**:用于模型选择和超参数调优。 - **测试集**:用于评估模型的最终性能。 **划分比例**: - 机器学习:60%(训练集) + 20%(验证集) + 20%(测试集)或 70% + 10% + 20%。 - 深度学习(大规模数据):98%(训练集) + 1%(验证集) + 1%(测试集)。 #### 2. 评价指标 - 常见评价指标包括准确率、精确率、召回率和F1值。 - 选择合适的评价指标需根据具体任务需求。 #### 3. 正则化 - 正则化技术通过减少参数大小来降低过拟合风险。 - 常见方法包括L1/L2正则化。 #### 4. 偏差与方差 - **偏差**:模型对训练数据的拟合程度,偏差高表示模型过于简单。 - **方差**:模型对训练数据的敏感程度,方差高表示模型过于复杂。 - 解决方法: - **高偏差**:增加模型复杂度。 - **高方差**:增加正则化程度。 #### 5. 不平衡数据处理 - **代价敏感学习**:为少类样本赋予更高权重,提高查全率但可能降低查准率。 - **SMOTE技术**:通过生成合成样本平衡数据分布。 #### 6. 交叉验证 - 通过k折交叉验证评估模型性能: 1. 将训练集划分为k个子集。 2. 每次使用一个子集作为验证集,其余子集训练模型。 3. 计算平均交叉验证误差,选择最优模型。 4. 使用最优模型评估测试集性能。 #### 7. 参考文献 - 文档引用了多本经典机器学习教材和论文,包括《机器学习实战》、《统计学习方法》等。 ### 总结 文档重点介绍了机器学习实践中的核心概念,包括数据集划分、评价指标、正则化技术、偏差与方差的平衡、交叉验证方法,以及不平衡数据的处理策略。这些内容为机器学习模型的训练、优化和评估提供了理论支持和实践指导。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 26 页请下载阅读 -
文档评分
请文明评论,理性发言.