机器学习课程-温州大学-05机器学习-机器学习实践## 机器学习-机器学习实践 黄海广 副教授 2022年02月 ## 本章目录 01 数据集划分 02 评价指标 03 正则化、偏差和方差 ### 1. 数据集划分 ## 01 数据集划分 02 评价指标 03 正则化、偏差和方差 ### 1. 数据集划分 训练集(Training Set):帮助我们训练模型,简单的说就是通过训练集的数据让我们确定拟合曲线的参数。 验证集(Validation colspan="3">数据集 三者划分:训练集、验证集、测试集 机器学习:60%,20%,20%;70%,10%,20% 深度学习:98%,1%,1%(假设百万条数据) ## 交叉验证  (c) 找到靠近k的n个少类样本 (d) 增加样本 ## 不平衡数据的处理 ## 代价敏感学习 代价敏感学习是指为不同类别的样本提供不同的权重,从而让机器学习模型进行学习的一种方法 比如风控或者入侵检测,这两类任务都具有严重的数据不平衡问题,可以在算法学习的时候,为少类样本设置更高的学习权重,从而让算法更加专注于少类样本的分类情况,提高对少类样本分训练集 验证集 测试集 0 码力 | 33 页 | 2.14 MB | 2 年前3
机器学习课程-温州大学-机器学习项目流程## 机器学习-机器学习项目流程 黄海广 副教授 2021年06月 ## 本章目录 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 ### 1. 机器学习项目流程概述 ## 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 ## 机器学习的一般步骤 历史数据 经验  训练 归纳 模型 预测 未知属性 新的问题 规律 ## 机器学习的一般步骤 数据搜集  数据清洗  机器学习算法 可以设 $ x_{0}=1 $ 则: $ h(x)=w_{0}x_{0}+w_{1}x_{1}+w_{2}x_{2}+\ldots+w_{n}x_{n}=w^{T}X $ 注意:若表达式 990e7845b4e774c84fea91a89b00e1cf/p25_1.jpg) 通过这张图可以看出,各种不同算法在输入的数据量达到一定级数后,都有相近的高准确度。于是诞生了机器学习界的名言: 成功的机器学习应用不是拥有最好的算法,而是拥有最多的数据! ## 欠拟合的处理 ### 1. 添加新特征 当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合。通过挖掘组合特征等新的特征,往往能够取得更好的效果。0 码力 | 33 页 | 1.50 MB | 2 年前3
机器学习课程-温州大学-01机器学习-引言## 机器学习-引言 黄海广 副教授 2022年02月 ## 目录 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 ### 1. 机器学习概述 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 ## 机器学习与人工智能、深度学习的关系 人工智能:机器展现的人类智能 机器学习:计算 机器学习:计算机利用已有的数据(经验),得出了某种模型,并利用此模型预测未来的一种方法。 深度学习:实现机器学习的一种技术  ## 机器学习界的执牛耳者  Andrew Ng 中文名吴恩达,斯坦福大学副教授,前“百度大脑”的负责人与百度首席科学家。 ## 机器学习界的国内泰斗  李航, 现任字节跳动科技有限公司人工智能实验室总监0 码力 | 78 页 | 3.69 MB | 2 年前3
机器学习课程-温州大学-12机器学习-关联规则 ## 机器学习-第十一章 关联规则 黄海广 副教授 2021年06月 ## 本章目录 01 关联规则概述 02 Apriori 算法 03 FP-Growth 算法 ### 1. 关联规则概述 ## 01 关联规则概述 02 225cb06e940b3cc/p4_1.jpg) ### 1. 关联规则概述 有没有发生过这样的事:你出去买东西,结果却买了比你计划的多得多的东西?这是一种被称为冲动购买的现象,大型零售商利用机器学习和Apriori算法,让我们倾向于购买更多的商品。  03 PCA(主成分分析) ### 1. 降维概述 ## 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) ### 1. 降维概述 维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。 加,计算量呈指数倍增长的一种现象。 在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话,不仅会让训练非常缓慢,还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。  ![Ima 7/p4_3.jpg) ### 1. 降维概述 ## 维数灾难 维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。在机器学习的建模过程中,通常指的是随着特征数量的增多,计算量会变得很大,如特征达到上亿维的话,在进行计算的时候是算不出来的。有的时候,维度太大也会导致机器学习性能的下降,并不是特征维度越大越好,模型的性能会随着特征的增加先上升后下降。 ### 1. 降维概述0 码力 | 51 页 | 3.14 MB | 2 年前3
机器学习课程-温州大学-10机器学习-聚类## 机器学习-聚类 黄海广 副教授 2023年04月 ## 本章目录 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 ### 1. 无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 ### 1. 无监督学习方法概述 ## 监督学习和无监督学习的区别 ## University, 2014. https://www.coursera.org/course/ml [4] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2019. [5] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016. [6] Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning[M]0 码力 | 48 页 | 2.59 MB | 2 年前3
机器学习课程-温州大学-08机器学习-集成学习## 机器学习-集成学习 黄海广 副教授 2022年12月 ## 本章目录 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ### 1. 集成学习方法概述 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ## 集成学习 ## Bagging 从 (best-first)策略来生长树。它将选取具有最大 delta loss 的叶节点来生长。 ## 参考文献 [1] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2019. [2] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016. [3] Quinlan J R. Bagging, Boosting, and C4.5[C]// Proceedings of the Thirteenth0 码力 | 50 页 | 2.03 MB | 2 年前3
机器学习课程-温州大学-06机器学习-KNN算法## 机器学习-KNN算法 黄海广 副教授 2021年04月 ## 本章目录 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 ### 1. 距离度量 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 ## 距离度量 欧氏距离(Euclidean distance) 电影分类 是一种比较成熟也是最简单的机器学习算法,可以用于基本的分类与回归方法。 算法的主要思路: 如果一个样本在特征空间中与k个实例最为相似(即特征空间中最邻近),那么这k个实例中大多数属于哪个类别,则该样本也属于这个类别。 对于 预测。 对于回归问题:对新的样本,根据其k个最近邻的训练样本标签值的均值作为预测值。 ### 2. KNN算法 k近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习算法,可以用于基本的分类与回归方法。 k近邻法的三要素: • k值选择。 • 距离度量。 • 决策规则。 ### 2. KNN算法 ## 算法流程如下: 1. 计算测试对象到训练集中每个对象的距离0 码力 | 26 页 | 1.60 MB | 2 年前3
机器学习课程-温州大学-03机器学习-逻辑回归## 机器学习-逻辑回归 黄海广 副教授 2022年02月 ## 本章目录 01 分类问题 02 Sigmoid函数 03 逻辑回归求解 04 逻辑回归代码实现 ### 1. 分类问题 01 分类问题 02 Sigmoid函数 03 逻辑回归求解 04 逻辑回归代码实现 ## 分类问题 ## 监督学习的最主要类型 ## ✓ 分类(Classification)0 码力 | 23 页 | 1.20 MB | 2 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100













