机器学习课程-温州大学-机器学习项目流程## 机器学习-机器学习项目流程 黄海广 副教授 2021年06月 ## 本章目录 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 ### 1. 机器学习项目流程概述 ## 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 ## 机器学习的一般步骤 历史数据 经验  训练 归纳 模型 预测 未知属性 新的问题 规律 ## 机器学习的一般步骤 数据搜集  数据清洗 数据集 训练集 验证集 测试集 0 码力 | 33 页 | 2.14 MB | 2 年前3
机器学习课程-温州大学-08机器学习-集成学习## 机器学习-集成学习 黄海广 副教授 2022年12月 ## 本章目录 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ### 1. 集成学习方法概述 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ## 集成学习 ## Bagging 从 从训练集中进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果:  ## 集成学习 ## Boosting 训练过程为阶梯状,基模型按次序——进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化。对所有 基模型预测的结果进行线性综合产生最终的预测结果。  ## 集成学习 ## Stacking 将训练好的所有基模型对训练基进行预测,第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值,最后基于新的训练集进行训练0 码力 | 50 页 | 2.03 MB | 2 年前3
机器学习课程-温州大学-02机器学习-回归## 机器学习-第二章 回归 黄海广 副教授 2022年09月 ## 本章目录 01 线性回归 02 梯度下降 03 正则化 04 回归的评价指标 ### 1. 线性回归 01 线性回归 02 梯度下降 03 正则化 04 回归的评价指标 ## 回归的概念 ## 监督学习分为回归和分类 ✓ 回归(Regression、Prediction) ✓ 如何预测上海浦东的房价? 如何预测上海浦东的房价? 标签连续 √ 未来的股票市场走向? ✓ 分类(Classification) ## 标签离散 ✓ 身高1.85m,体重100kg的男人穿什么尺码的T恤? ✓ 根据肿瘤的体积、患者的年龄来判断良性或恶性? ## 线性回归-概念 ## 线性回归(Linear Regression) 是一种通过属性的线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维 的超平面,使得预测值与真实值之间的误差最小化。  ## 线性回归-符号约定 m 代表训练集中样本的数量 n 代表特征的数量 x 代表特征/输入变量 y 代表目标变量/输出变量 $ (x,y) $ 代表训练集中的样本 $ (x^{(i)}0 码力 | 33 页 | 1.50 MB | 2 年前3
机器学习课程-温州大学-01机器学习-引言## 机器学习-引言 黄海广 副教授 2022年02月 ## 目录 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 ### 1. 机器学习概述 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 ## 机器学习与人工智能、深度学习的关系 人工智能:机器展现的人类智能 机器学习:计算 机器学习:计算机利用已有的数据(经验),得出了某种模型,并利用此模型预测未来的一种方法。 深度学习:实现机器学习的一种技术  ## 机器学习界的执牛耳者  共同获得了2018年计算机科学的最高奖项——ACM图灵奖。  Andrew Ng 中文名吴恩达,斯坦福大学副教授,前“百度大脑”的负责人与百度首席科学家。 ## 机器学习界的国内泰斗  ## 机器学习-第十一章 关联规则 黄海广 副教授 2021年06月 ## 本章目录 01 关联规则概述 02 Apriori 算法 03 FP-Growth 算法 ### 1. 关联规则概述 ## 01 关联规则概述 02 ## 关联规则 关联规则(Association Rules)反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。 关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买,那么在相同的交易ID下,商品B也被客户挑选的机会就被发现了。  ### 1. 关联规则概述 有没有发生过这样的事:你出去买东西,结果却买了比你计划的多得多的东西?这是一种被称为冲动购买的现象,大型零售商利用机器学习和Apriori算法,让我们倾向于购买更多的商品。  03 PCA(主成分分析) ### 1. 降维概述 ## 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) ### 1. 降维概述 维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。 ,计算量呈指数倍增长的一种现象。 在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话,不仅会让训练非常缓慢,还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。  =\sqrt{\sum_{i}(x_{i}-y_{i})^{2}} $$ 欧几里得度量(Euclidean Metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。 ## 距离度量 曼哈顿距离(Manhattan distance) ## 1 $$ d(x,y)=\sum_{i y)=\sum_{i}\left|x_{i}-y_{i}\right| $$ 想象你在城市道路里,要从一个十字路口开车到另外一个十字路口,驾驶距离是两点间的直线距离吗?显然不是,除非你能穿越大楼。实际驾驶距离就是这个“曼哈顿距离”。而这也是曼哈顿距离名称的来源,曼哈顿距离也称为城市街区距离(City Block distance)。 ## 距离度量 ## 切比雪夫距离(Chebyshev distance)0 码力 | 26 页 | 1.60 MB | 2 年前3
机器学习课程-温州大学-03机器学习-逻辑回归## 机器学习-逻辑回归 黄海广 副教授 2022年02月 ## 本章目录 01 分类问题 02 Sigmoid函数 03 逻辑回归求解 04 逻辑回归代码实现 ### 1. 分类问题 01 分类问题 02 Sigmoid函数 03 逻辑回归求解 04 逻辑回归代码实现 ## 分类问题 ## 监督学习的最主要类型 ## ✓ 分类(Classification) ## 标签离散 ✓ 身高1.85m,体重100kg的男人穿什么尺码的T恤? ✓ 根据肿瘤的体积、患者的年龄来判断良性或恶性? ✓ 根据用户的年龄、职业、存款数量来判断信用卡是否会违约? 输入变量可以是离散的,也可以是连续的。 ## 分类问题 ## 二 分类 我们先从用蓝色圆形数据定义为类型1,其余数据为类型2; 只需要分类1次 步骤:①->②  $ 代表一个常用的逻辑函数(logistic function)为S形函数(Sigmoid function) 则: $ \sigma(z)=g(z)=\frac{1}{1+e^{-z}}\quad z=w^{\mathrm{T}}x+b $ 合起来,我们得到逻辑回归模型的假设函数: $$ \mathrm{L}\big(\hat{y},0 码力 | 23 页 | 1.20 MB | 2 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100













