| 训练集 | 验证集 | 测试集 | 三者划分:训练集、验证集、测试集
机器学习:60%,20%,20%;70%,10%,20%
深度学习:98%,1%,1%(假设百万条数据)
## 交叉验证

1. 使用训练集训练出 k 个模型
2. 用 k 个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值) 0 码力 |
33 页 |
2.14 MB
| 2 年前 3
## 机器学习-集成学习
黄海广 副教授
2022年12月
## 本章目录
01 集成学习方法概述
02 AdaBoost和GBDT算法
03 XGBoost
04 LightGBM
### 1. 集成学习方法概述
01 集成学习方法概述
02 AdaBoost和GBDT算法
03 XGBoost
04 LightGBM
## 集成学习
## Bagging
从 从训练集中进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果:

## 集成学习
## Boosting
训练过程为阶梯状,基模型按次序——进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转 91ae47bbea4a4089f601/p5_1.jpg)
## 集成学习
## Stacking
将训练好的所有基模型对训练基进行预测,第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值,最后基于新的训练集进行训练。同理,预测的过程也要先经过所有基模型的预测形成新的测试集,最后再对测试集进行预测。

训练
归纳
模型
预测
未知属性
新的问题
规律
## 机器学习的一般步骤
数据搜集

数据清洗

机器学习算法
可以设 $ x_{0}=1 $
则: $ h(x)=w_{0}x_{0}+w_{1}x_{1}+w_{2}x_{2}+\ldots+w_{n}x_{n}=w^{T}X $
注意:若表达式
0 码力 |
33 页 |
1.50 MB
| 2 年前 3
## 机器学习-引言
黄海广 副教授
2022年02月
## 目录
01 机器学习概述
02 机器学习的类型
03 机器学习的背景知识
04 机器学习的开发流程
### 1. 机器学习概述
01 机器学习概述
02 机器学习的类型
03 机器学习的背景知识
04 机器学习的开发流程
## 机器学习与人工智能、深度学习的关系
人工智能:机器展现的人类智能
机器学习:计算 机器学习:计算机利用已有的数据(经验),得出了某种模型,并利用此模型预测未来的一种方法。
深度学习:实现机器学习的一种技术

## 机器学习界的执牛耳者

李航, 现任字节跳动科技有限公司人工智能实验室总监, 北京大学、南京大学客座教授, IEEE 会士, ACM 杰出科学家, CCF 高级会员。
代表作: 《统计学习方法》

## 机器学习-第十一章 关联规则
黄海广 副教授
2021年06月
## 本章目录
01 关联规则概述
02 Apriori 算法
03 FP-Growth 算法
### 1. 关联规则概述
## 01 关联规则概述
02 25cb06e940b3cc/p4_1.jpg)
### 1. 关联规则概述
有没有发生过这样的事:你出去买东西,结果却买了比你计划的多得多的东西?这是一种被称为冲动购买的现象,大型零售商利用机器学习和Apriori算法,让我们倾向于购买更多的商品。
的项集。
Apriori算法就是基于一个先验:
如果某个项集是频繁的,那么它的所有子集也是频繁的。
### 2. Apriori算法
## 算法流程
输入:数据集合D,支持度阈值 $ \alpha $
输出:最大的频繁k项集
1)扫描整个数据集,得到所有出现过的
0 码力 |
49 页 |
1.41 MB
| 2 年前 3
## 机器学习-降维
黄海广 副教授
2022年02月
## 本章目录
01 降维概述
02 SVD(奇异值分解)
03 PCA(主成分分析)
### 1. 降维概述
## 01 降维概述
02 SVD(奇异值分解)
03 PCA(主成分分析)
### 1. 降维概述
维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。 加,计算量呈指数倍增长的一种现象。
在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话,不仅会让训练非常缓慢,还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。

是一种比较成熟也是最简单的机器学习算法,可以用于基本的分类与回归方法。
算法的主要思路:
如果一个样本在特征空间中与k个实例最为相似(即特征空间中最邻近),那么这k个实例中大多数属于哪个类别,则该样本也属于这个类别。
对于分 测。
对于回归问题:对新的样本,根据其k个最近邻的训练样本标签值的均值作为预测值。
### 2. KNN算法
k近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习算法,可以用于基本的分类与回归方法。
k近邻法的三要素:
• k值选择。
• 距离度量。
• 决策规则。
### 2. KNN算法
## 算法流程如下:
1. 计算测试对象到训练集中每个对象的距离
0 码力 |
26 页 |
1.60 MB
| 2 年前 3