机器学习课程-温州大学-05机器学习-机器学习实践
1 2022年02月 机器学习-机器学习实践 黄海广 副教授 2 01 数据集划分 02 评价指标 03 正则化、偏差和方差 本章目录 3 01 数据集划分 02 评价指标 1.数据集划分 03 正则化、偏差和方差 4 训练集(Training Set):帮助我们训练模型,简单的说就是通过 训练集的数据让我们确定拟合曲线的参数。 selection),即做模型的最终优化及确定的, 用来辅助我们的模型的构建,即训练超参数,可选; 测试集(Test Set): 为了测试已经训练好的模型的精确度。 三者划分:训练集、验证集、测试集 机器学习:60%,20%,20%;70%,10%,20% 深度学习:98%,1%,1% (假设百万条数据) 1.数据集划分 数据集 训练集 验证集 测试集 5 交叉验证 1. 使用训练集训练出k个模型 (a)原始样本 (b)选定少类样本 (c)找到靠近?的 ?个少类样本 (d)增加样本 8 代价敏感学习 不平衡数据的处理 代价敏感学习是指为不同类别的样本提供不同的权重,从而让机器学习模 型进行学习的一种方法 比如风控或者入侵检测,这两类任务都具有严重的数据不平衡问题,可以 在算法学习的时候,为少类样本设置更高的学习权重,从而让算法更加专 注于少类样本的分类情况,提高对少类样本分类的查全率,但是也会将很0 码力 | 33 页 | 2.14 MB | 1 年前3机器学习课程-温州大学-02机器学习-回归
1 2022年09月 机器学习-第二章 回归 黄海广 副教授 2 本章目录 01 线性回归 02 梯度下降 03 正则化 04 回归的评价指标 3 1. 线性回归 01 认识Python 01 线性回归 02 梯度下降 03 正则化 04 回归的评价指标 4 监督学习分为回归和分类 ✓ 回归(Regression、Prediction) ?0?0 + ?1?1 + ?2?2+. . . +????=?T? 注意:若表达式 ℎ ? = ?0 + ?1?1 + ?2?2+. . . +???? + ?, 则?可以融入到?0 模型 机器学习算法 训练数据 特征 预测结果 8 线性回归-算法流程 ℎ ? = ?0 + ?1?1 + ?2?2 + . . . +???? 要找到一组 ?(?0, ?1, ?2, . . . 集成学习方法 集成学习是把多个模型集成在一起,来降低单一模型的过拟合风险。 25 通过这张图可以看出, 各种不同算法在输入的 数据量达到一定级数后 ,都有相近的高准确度 。于是诞生了机器学习 界的名言: 成功的机器学习应 用不是拥有最好的 算法,而是拥有最 多的数据! 数据决定一切 数据大小 准 确 率 26 欠拟合的处理 1.添加新特征 当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合。通0 码力 | 33 页 | 1.50 MB | 1 年前3机器学习课程-温州大学-01机器学习-引言
2022年02月 机器学习-引言 黄海广 副教授 2 目录 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 3 1. 机器学习概述 01 认识Python 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 4 机器学习与人工智能、深度学习的关系 人工智能:机器展现的人类智能 机器学习:计算机利用已有的数 据(经验),得出了某种模型,并利 用此模型预测未来的一种方法。 深度学习:实现机器学习的一种 技术 人工智能 机器学习 深度学习 5 杨立昆(Yann LeCun) 杰弗里·欣顿(Geoffrey Hinton) 本吉奥( Bengio ) 共同获得了2018年计算机科学的最高奖项 ——ACM图灵奖。 机器学习界的执牛耳者 出科学家,CCF 高级会员。 代表作:《统计学习方法》 机器学习界的国内泰斗 周志华,南京大学计算机科学与技 术系主任 、人工智能学院院长。 代表作:《机器学习》(西瓜书) 7 陈天奇,陈天奇是机器学习领域著名的青 年华人学者之一,本科毕业于上海交通 大学ACM班,博士毕业于华盛顿大学计 算机系。 主要贡献:设计了XGBoost算法。 机器学习界的青年才俊 何恺明,本科就读于清华大学,博士毕业于0 码力 | 78 页 | 3.69 MB | 1 年前3机器学习课程-温州大学-机器学习项目流程
1 2021年06月 机器学习-机器学习项目流程 黄海广 副教授 2 本章目录 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 3 1.机器学习项目流程概述 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 4 机器学习的一般步骤 5 机器学习的一般步骤 数据搜集 数据清洗 数据清洗 特征工程 数据建模 6 机器学习的一般步骤 数据搜集 数据清洗 特征工程 数据建模 • 基于性能指标比较几种机 器学习模型 • 对最佳模型执行超参数调 整 • 在测试集上评估最佳模型 • 解释模型结果 • 得出结论 • 数据清理和格式化 • 探索性数据分析(EDA) • 特征工程 • 特征选择 • 网络下载 • 网络爬虫 • 数据库读取 • 开放数据 • • …… 7 2.数据清洗 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 8 2.数据清洗 什么是数据清洗? 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包 括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后 的数据清理一般是由计算机而不是人工完成。 9 2.数据清洗 不合法值 空 值 异常检测0 码力 | 26 页 | 1.53 MB | 1 年前3机器学习课程-温州大学-11机器学习-降维
1 2022年02月 机器学习-降维 黄海广 副教授 2 本章目录 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 3 1.降维概述 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 4 1.降维概述 维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题 中,随着维数的增加,计算量呈指数倍增长的一种现象。 在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万 个特征。要处理这所有的特征的话,不仅会让训练非常缓慢,还会极大增 加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。 5 1.降维概述 维数灾难 维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库等诸 多领域。在机器学习的建模过程中,通常指的是随着特征数量的增多,计 ,计 算量会变得很大,如特征达到上亿维的话,在进行计算的时候是算不出来 的。有的时候,维度太大也会导致机器学习性能的下降,并不是特征维度 越大越好,模型的性能会随着特征的增加先上升后下降。 6 1.降维概述 什么是降维? 降维(Dimensionality Reduction)是将训练数据中的样本(实例)从高 维空间转换到低维空间,该过程与信息论中有损压缩概念密切相 关。同时要明白的,不存在完全无损的降维。0 码力 | 51 页 | 3.14 MB | 1 年前3机器学习课程-温州大学-10机器学习-聚类
1 2023年04月 机器学习-聚类 黄海广 副教授 2 本章目录 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 3 1.无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 4 1.无监督学习方法概述 监督学习 在一个典型的监督学习中,训练集有标签 University,2014. https://www.coursera.org/course/ml [4] 李航. 统计学习方法[M]. 北京: 清华大学出版社,2019. [5] 周志华. 机器学习[M]. 北京: 清华大学出版社,2016. [6] Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning[M]0 码力 | 48 页 | 2.59 MB | 1 年前3机器学习课程-温州大学-08机器学习-集成学习
1 2022年12月 机器学习-集成学习 黄海广 副教授 2 本章目录 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 3 1.集成学习方法概述 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 4 Bagging growth …… …… 基于最大深度的 Leaf-wise 的垂直生长算法 48 参考文献 [1] 李航. 统计学习方法[M]. 北京: 清华大学出版社,2019. [2] 周志华. 机器学习[M]. 北京: 清华大学出版社,2016. [3] Quinlan J R . Bagging, Boosting, and C4.5[C]// Proceedings of the Thirteenth0 码力 | 50 页 | 2.03 MB | 1 年前3机器学习课程-温州大学-06机器学习-KNN算法
1 2021年04月 机器学习-KNN算法 黄海广 副教授 2 01 距离度量 02 KNN算法 本章目录 03 KD树划分 04 KD树搜索 3 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 1.距离度量 4 距离度量 欧氏距离(Euclidean distance) ? ?, ? = KNN算法 03 KD树划分 04 KD树搜索 2.KNN算法 11 2.KNN算法 ?近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习算 法,可以用于基本的分类与回归方法。 算法的主要思路: 如果一个样本在特征空间中与?个实例最为相似(即特征空间中最邻近),那么这? 个实例中大多数属于哪个类别,则该样本也属于这个类别。 对于回归问题:对新的样本,根据其?个最近邻的训练样本标签值的均值作为预 测值。 12 2.KNN算法 ?近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是 最简单的机器学习算法,可以用于基本的分类与回归方法。 ?近邻法的三要素: • ?值选择。 • 距离度量。 • 决策规则。 13 2.KNN算法 算法流程如下: 1.计算测试对象到训练集中每个对象的距离0 码力 | 26 页 | 1.60 MB | 1 年前3机器学习课程-温州大学-03机器学习-逻辑回归
1 2022年02月 机器学习-逻辑回归 黄海广 副教授 2 本章目录 01 分类问题 02 Sigmoid函数 03 逻辑回归求解 04 逻辑回归代码实现 3 1.分类问题 01 分类问题 02 Sigmoid函数 03 逻辑回归求解 04 逻辑回归代码实现 4 监督学习的最主要类型 ✓ 分类(Classification)0 码力 | 23 页 | 1.20 MB | 1 年前3机器学习课程-温州大学-12机器学习-关联规则
1 2021年06月 机器学习-第十一章 关联规则 黄海广 副教授 2 本章目录 01 关联规则概述 02 Apriori 算法 03 FP-Growth算法 3 1.关联规则概述 01 关联规则概述 02 Apriori 算法 03 FP-Growth算法 4 1.关联规则概述 关联规则 关联规则(Association Rules)反映一个事物与其他事物之间的相互依存 , 商品B也被客户挑选的机会就被发现了。 5 1.关联规则概述 有没有发生过这样的事:你出去买东西, 结果却买了比你计划的多得多的东西?这 是一种被称为冲动购买的现象,大型零售 商利用机器学习和Apriori算法,让我们倾 向于购买更多的商品。 6 1.关联规则概述 购物车分析是大型超市用来揭示商品之间关联的关 键技术之一。他们试图找出不同物品和产品之间的 关联,这些物品和产品可以一起销售,这有助于正 身,如I5也算 进去,每个商品挖掘出来的频繁模式必然包括这商品本身) 3.FP-Growth算法 48 参考文献 1. 《统计学习方法》,清华大学出版社,李航著,2019年出版 2. 《机器学习》,清华大学出版社,周志华著,2016年出版 3. Christopher M. Bishop, Pattern Recognition and Machine Learning, Springer-Verlag0 码力 | 49 页 | 1.41 MB | 1 年前3
共 761 条
- 1
- 2
- 3
- 4
- 5
- 6
- 77