机器学习课程-温州大学-05机器学习-机器学习实践
2.14 MB
33 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
摘要 | ||
文档系统阐述了机器学习实践的核心内容。首先介绍了数据集的划分,包括训练集、验证集和测试集的具体用途和划分比例。在模型优化方面,讨论了正则化、过拟合和欠拟合的处理方法。正则化通过减少参数大小来改善过拟合,而欠拟合可以通过添加新特征、增加模型复杂度或减小正则化系数等方式解决。此外,文档还涉及了交叉验证的步骤和不平衡数据的处理方法,如采样和代价敏感学习。最后,重点指出了数据量对模型精度的重要性,提出了'数据决定一切'的观点,并列举了解决高偏差和高方差的具体方法。 | ||
AI总结 | ||
以下是对文档内容的总结:
---
**《机器学习课程-温州大学-05机器学习-机器学习实践》**
**1. 数据集划分**
- **训练集(Training Set)**:用于训练模型,确定拟合曲线的参数。
- **验证集(Validation Set)**:用于模型选择和优化,帮助调整超参数。
- **测试集(Test Set)**:用于评估已经训练好的模型的性能。
- **划分比例**:
- 机器学习:训练集60%,验证集20%,测试集20%;或训练集70%,验证集10%,测试集20%。
- 深度学习:训练集98%,验证集1%,测试集1%(假设数据量为百万级)。
---
**2. 评价指标**
- **正则化**:保留所有特征,但通过减少参数大小(magnitude)来减少过拟合问题。
- **偏差与方差**:
- **高偏差**:模型过于简单,无法捕捉数据规律,解决方法包括:
1. 添加更多特征或多项式特征;
2. 减小正则化系数λ。
- **高方差**:模型过于复杂,解决方法包括:
1. 获得更多训练实例;
2. 减少特征数量;
3. 增加正则化系数λ。
---
**3. 交叉验证**
交叉验证用于模型选择和评估:
1. 使用训练集训练出k个模型。
2. 计算每个模型在验证集上的误差。
3. 选择误差最小的模型。
4. 使用最终模型在测试集上计算推广误差。
---
**4. 不平衡数据处理**
- 数据不平衡是指数据集中各类样本数量不均衡的情况。
- 处理方法:
1. **采样**:包括欠采样、过采样和综合采样。
2. **代价敏感学习**:为少类样本设置更高的学习权重。
- 应用场景:如风控或入侵检测等任务,数据不平衡问题严重时可采取上述方法。
---
**5. 其他核心观点**
- 数据量的重要性:数据决定了机器学习的成功,拥有更多数据比拥有更好的算法更关键。
- 算法选择:不同算法在数据量足够时,准确率会趋于相近。
---
总结内容涵盖了机器学习实践中的关键知识点,包括数据集划分、正则化、偏差方差、交叉验证以及不平衡数据处理方法,语言简洁,逻辑清晰。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
26 页请下载阅读 -
文档评分