机器学习课程-温州大学-机器学习项目流程## 机器学习-机器学习项目流程 黄海广 副教授 2021年06月 ## 本章目录 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 ### 1. 机器学习项目流程概述 ## 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 ## 机器学习的一般步骤 历史数据 经验  训练 归纳 模型 预测 未知属性 新的问题 规律 ## 机器学习的一般步骤 数据搜集  数据清洗  ## 不平衡数据的处理 数据不平衡是指数据集中各类样本数量不均衡的情况. 常用不平衡处理方法有采样和代价敏感学习 采样欠采样、过采样和综合采样的方法 训练集 验证集 测试集 0 码力 | 33 页 | 2.14 MB | 2 年前3
机器学习课程-温州大学-08机器学习-集成学习## 机器学习-集成学习 黄海广 副教授 2022年12月 ## 本章目录 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ### 1. 集成学习方法概述 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ## 集成学习 ## Bagging 从 ## 集成学习 ## Boosting 训练过程为阶梯状,基模型按次序——进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果。  ## 集成学习 ## Stacking 2. 易于并行化,在大数据集上有很大的优势; 3. 能够处理高维度数据,不用做特征选择。 ## 随机森林 Random Forest(随机森林)是 Bagging 的扩展变体,它在以决策树为基学习器构建 Bagging 集成的基础上,进一步在决策树的训练过程中引入了随机特征选择,因此可以概括随机森林包括四个部分: 1. 随机选择样本(放回抽样); 2. 随机选择特征; 3. 构建决策树;0 码力 | 50 页 | 2.03 MB | 2 年前3
机器学习课程-温州大学-02机器学习-回归## 机器学习-第二章 回归 黄海广 副教授 2022年09月 ## 本章目录 01 线性回归 02 梯度下降 03 正则化 04 回归的评价指标 ### 1. 线性回归 01 线性回归 02 梯度下降 03 正则化 04 回归的评价指标 ## 回归的概念 ## 监督学习分为回归和分类 ✓ 回归(Regression、Prediction) ✓ 如何预测上海浦东的房价? 代表特征的数量 x 代表特征/输入变量 y 代表目标变量/输出变量 $ (x,y) $ 代表训练集中的样本 $ (x^{(i)}, y^{(i)}) $ 代表第 i 个观察样本 h 代表学习算法的解决方案或函数也称为假设(hypothesis) $ \widehat{y} = h(x) $ , 代表预测的值 $ x^{(i)} $ 是特征矩阵中的第 i 行,是一个向量。 线性回归-算法流程 x 和 y 的关系 $$ \begin{array}{c}h(x)=w_{0}+w_{1}x_{1}+w_{2}x_{2}+\\ \cdots+w_{n}x_{n}\end{array} $$  机器学习算法 可以设0 码力 | 33 页 | 1.50 MB | 2 年前3
机器学习课程-温州大学-01机器学习-引言## 机器学习-引言 黄海广 副教授 2022年02月 ## 目录 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 ### 1. 机器学习概述 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 ## 机器学习与人工智能、深度学习的关系 人工智能:机器展现的人类智能 机器学习:计算 机器学习:计算机利用已有的数据(经验),得出了某种模型,并利用此模型预测未来的一种方法。 深度学习:实现机器学习的一种技术  ## 机器学习界的执牛耳者  李航, 现任字节跳动科技有限公司人工智能实验室总监, 北京大学、南京大学客座教授, IEEE 会士, ACM 杰出科学家, CCF 高级会员。 代表作: 《统计学习方法》  ## 机器学习-第十一章 关联规则 黄海广 副教授 2021年06月 ## 本章目录 01 关联规则概述 02 Apriori 算法 03 FP-Growth 算法 ### 1. 关联规则概述 ## 01 关联规则概述 02 25cb06e940b3cc/p4_1.jpg) ### 1. 关联规则概述 有没有发生过这样的事:你出去买东西,结果却买了比你计划的多得多的东西?这是一种被称为冲动购买的现象,大型零售商利用机器学习和Apriori算法,让我们倾向于购买更多的商品。 的项集。 Apriori算法就是基于一个先验: 如果某个项集是频繁的,那么它的所有子集也是频繁的。 ### 2. Apriori算法 ## 算法流程 输入:数据集合D,支持度阈值 $ \alpha $ 输出:最大的频繁k项集 1)扫描整个数据集,得到所有出现过的数据,作为候选频繁1项集。k=1,频繁0项集为空集。 2)挖掘频繁k项集0 码力 | 49 页 | 1.41 MB | 2 年前3
机器学习课程-温州大学-11机器学习-降维## 机器学习-降维 黄海广 副教授 2022年02月 ## 本章目录 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) ### 1. 降维概述 ## 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) ### 1. 降维概述 维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。 加,计算量呈指数倍增长的一种现象。 在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话,不仅会让训练非常缓慢,还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。  是一种比较成熟也是最简单的机器学习算法,可以用于基本的分类与回归方法。 算法的主要思路: 如果一个样本在特征空间中与k个实例最为相似(即特征空间中最邻近),那么这k个实例中大多数属于哪个类别,则该样本也属于这个类别。 对于分 测值。 ### 2. KNN算法 k近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习算法,可以用于基本的分类与回归方法。 k近邻法的三要素: • k值选择。 • 距离度量。 • 决策规则。 ### 2. KNN算法 ## 算法流程如下: 1. 计算测试对象到训练集中每个对象的距离 2. 按照距离的远近排序 3.选取与当前测试对象最近的k的训练对象,作为该测试对象的邻居0 码力 | 26 页 | 1.60 MB | 2 年前3
机器学习课程-温州大学-03机器学习-逻辑回归## 机器学习-逻辑回归 黄海广 副教授 2022年02月 ## 本章目录 01 分类问题 02 Sigmoid函数 03 逻辑回归求解 04 逻辑回归代码实现 ### 1. 分类问题 01 分类问题 02 Sigmoid函数 03 逻辑回归求解 04 逻辑回归代码实现 ## 分类问题 ## 监督学习的最主要类型 ## ✓ 分类(Classification) Machine Learning[EB/OL]. Stanford University, 2014. https://www.coursera.org/course/ml [3] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2019. [4] Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning[M]0 码力 | 23 页 | 1.20 MB | 2 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100













