机器学习课程-温州大学-05机器学习-机器学习实践

语言	格式	评分
中文（简体）	.pdf	3
摘要
文档主要介绍了机器学习中的数据集划分方法，包括训练集、验证集和测试集的比例分配（如机器学习的60%、20%、20%和深度学习的98%、1%、1%）。此外，文档还讨论了正则化技术在减少过拟合中的作用，偏差与方差的关系，以及集成学习方法。文档强调了数据的重要性，并提到在处理不平衡数据时可以采用代价敏感学习等方法。
AI总结
### 文档总结 #### 1. 数据集划分 - 训练集：用于模型训练，确定模型参数。 - 验证集：用于模型选择和超参数调优。 - 测试集：用于评估模型的最终性能。划分比例： - 机器学习：60%（训练集） + 20%（验证集） + 20%（测试集）或 70% + 10% + 20%。 - 深度学习（大规模数据）：98%（训练集） + 1%（验证集） + 1%（测试集）。 #### 2. 评价指标 - 常见评价指标包括准确率、精确率、召回率和F1值。 - 选择合适的评价指标需根据具体任务需求。 #### 3. 正则化 - 正则化技术通过减少参数大小来降低过拟合风险。 - 常见方法包括L1/L2正则化。 #### 4. 偏差与方差 - 偏差：模型对训练数据的拟合程度，偏差高表示模型过于简单。 - 方差：模型对训练数据的敏感程度，方差高表示模型过于复杂。 - 解决方法： - 高偏差：增加模型复杂度。 - 高方差：增加正则化程度。 #### 5. 不平衡数据处理 - 代价敏感学习：为少类样本赋予更高权重，提高查全率但可能降低查准率。 - SMOTE技术：通过生成合成样本平衡数据分布。 #### 6. 交叉验证 - 通过k折交叉验证评估模型性能： 1. 将训练集划分为k个子集。 2. 每次使用一个子集作为验证集，其余子集训练模型。 3. 计算平均交叉验证误差，选择最优模型。 4. 使用最优模型评估测试集性能。 #### 7. 参考文献 - 文档引用了多本经典机器学习教材和论文，包括《机器学习实战》、《统计学习方法》等。 ### 总结文档重点介绍了机器学习实践中的核心概念，包括数据集划分、评价指标、正则化技术、偏差与方差的平衡、交叉验证方法，以及不平衡数据的处理策略。这些内容为机器学习模型的训练、优化和评估提供了理论支持和实践指导。