机器学习课程-温州大学-07机器学习-决策树1 2023年06月 机器学习-决策树 黄海广 副教授 2 本章目录 01 决策树原理 02 ID3算法 03 C4.5算法 04 CART算法 3 1.决策树原理 01 决策树原理 02 ID3算法 03 C4.5算法 04 CART算法 4 长相 能 帅 不帅 家庭背景 好 能 不好 人品 好 上进心 能 不能 有 不能 不好 1.决策树原理 ⚫ 决策树:从训练数据中学习得出一个树状 结构的模型。 ⚫ 决策树属于判别模型。 ⚫ 决策树是一种树状结构,通过做出一系列 决策(选择)来对数据进行划分,这类似 于针对一系列问题进行选择。 ⚫ 决策树的决策过程就是从根节点开始,测 试待分类项中对应的特征属性,并按照其 值选择输出分支,直到叶子节点,将叶子 节点的存放的类别作为决策结果。 根节点 node) 5 1.决策树原理 根节点 (root node) 非叶子节点 (non-leaf node) (代表测试条件,对数据属性的测试) 分支 (branches) (代表测试结果) 叶节点 (leaf node) (代表分类后所获得的分类标记) ⚫ 决策树算法是一种归纳分类算法 ,它通过对训练集的学习,挖掘 出有用的规则,用于对新数据进 行预测。 ⚫ 决策树算法属于监督学习方法。0 码力 | 39 页 | 1.84 MB | 1 年前3
阿里云上深度学习建模实践-程孟力阿里云深度学习实践 程孟力 花名: 杨熙 阿里巴巴-计算平台-PAI 个性化推荐 视频理解 智能对话系统 图像检索 更多场景 OCR识别 人脸核身 智能风控 自动驾驶 语音助手 • • • 优势: 效果 显著超越 传统模型(线性层模型 / 树模型 / SVM模型 / … ) 深度学习应用场景 沙漠 湖泊 旅行 深度学习应用主要的挑战: 2.模型效果优 化困难 开源 PAI平台(Platform of Artificial Intelligence) Deep Learning Container 数据量大而全 先进的模型结构 业务场景复杂 计算力强、性价比高 提供 支撑 支撑 支撑 促进 促进 开源生态 系统 硬件 模型 生态系统 外循环 内循环 贡献 对接 PAI平台的优势 1. 机器学习PAI: https://help0 码力 | 40 页 | 8.51 MB | 1 年前3
动手学深度学习 v2.0. . . . . . . . . . . . . 378 10 注意力机制 381 10.1 注意力提示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382 10.1.1 生物学中的注意力提示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383 10.1.3 注意力的可视化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384 10.2 注意力汇聚:Nadaraya‐Watson 核回归 . . . . . . . . . . . . . . . . 2.3 非参数注意力汇聚 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388 10.2.4 带参数注意力汇聚 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389 10.3 注意力评分函数 . .0 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112定的通用性,但是如何设计特征,以及特 征方法的优劣性非常的关键,同时也比较困难。神经网络的出现,使得人为设计特征这一 部分工作可以让机器自动完成学习,不需要人类干预。但是浅层的神经网络的特征提取能 力较为有限,而深层的神经网络擅长提取高层、抽象的特征,因此具有更好的性能表现。 针对特定任务 的检测逻辑 输出逻辑 人为设计的 特征检测方法 输出逻辑 特征提取网络 (浅层) 输出子网络 的算法模型是非常有用的一个方向。 预览版202112 第 1 章 人工智能绪论 8 图 1.10 数据集样本数趋势 图 1.11 数据集大小趋势 1.3.2 计算力 计算能力的提升是第三次人工智能复兴的一个重要因素。实际上,现代深度学习的基 础理论在 1980 年代就已经被提出,但直到 2012 年,基于两块 GTX580 GPU 训练的 AlexNet 率不高,灵活 性一般。 ❑ TensorFlow 是 Google 于 2015 年发布的深度学习框架,最初版本只支持符号式编程。 得益于发布时间较早,以及 Google 在深度学习领域的影响力,TensorFlow 很快成为最 流行的深度学习框架。但是由于 TensorFlow 接口设计频繁变动,功能设计重复冗余, 符号式编程开发和调试非常困难等问题,TensorFlow 1.x 版本一度被业界诟病。20190 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-05机器学习-机器学习实践线性模型,如基于距离度量的模型包括KNN(K近邻)、K-means聚类、 感知机和SVM、神经网络。另外,线性回归类的几个模型一般情况下也 是需要做数据归一化/标准化处理的。 不需要做数据归一化/标准化 决策树、基于决策树的Boosting和Bagging等集成学习模型对于特征取 值大小并不敏感,如随机森林、XGBoost、LightGBM等树模型,以及 朴素贝叶斯,以上这些模型一般不需要做数据归一化/标准化处理。 当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合。通 过挖掘组合特征等新的特征,往往能够取得更好的效果。 2.增加模型复杂度 简单模型的学习能力较差,通过增加模型的复杂度可以使模型拥有更强的拟合能 力。例如,在线性模型中添加高次项,在神经网络模型中增加网络层数或神经元 个数等。 3.减小正则化系数 正则化是用来防止过拟合的,但当模型出现欠拟合现象时,则需要有针对性地减 小正则化系数。 230 码力 | 33 页 | 2.14 MB | 1 年前3
机器学习课程-温州大学-02机器学习-回归线性模型,如基于距离度量的模型包括KNN(K近邻)、K-means聚类、 感知机和SVM。另外,线性回归类的几个模型一般情况下也是需要做数 据归一化/标准化处理的。 不需要做数据归一化/标准化 决策树、基于决策树的Boosting和Bagging等集成学习模型对于特征取 值大小并不敏感,如随机森林、XGBoost、LightGBM等树模型,以及 朴素贝叶斯,以上这些模型一般不需要做数据归一化/标准化处理。 当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合。通 过挖掘组合特征等新的特征,往往能够取得更好的效果。 2.增加模型复杂度 简单模型的学习能力较差,通过增加模型的复杂度可以使模型拥有更强的拟合能 力。例如,在线性模型中添加高次项,在神经网络模型中增加网络层数或神经元 个数等。 3.减小正则化系数 正则化是用来防止过拟合的,但当模型出现欠拟合现象时,则需要有针对性地减 小正则化系数。 270 码力 | 33 页 | 1.50 MB | 1 年前3
谭国富:深度学习在图像审核的应用森布拉特 发明 1980 2006 Hinton提出 “深度学习” 的神经网络 2013 深度学习算法在 语音和视觉识别 上有重大突破, 识别率超过99% 和95% 1970 受限于 计算能 力,进 入第一 个寒冬 XCON专 家系统出 现,每年 节约4000 万美元 第1阶段:人工智能起步 期 (1956-1980s) 第2阶段:专家系统推 广 (1980s-1990s) 第3阶段:深度学习 相对于传统机器学习方法的突破 图像表示:Gabor, SIFT, HOG, LBP, POEM, LGBP, LPQ 图像集表示:Manifold, GMM, Covariance 模式分类:SVM,Boosting,决策树, 子空间学习,度量学习: PCA/LDA,Manifold, LMNN, NCA….. 词典学习&稀疏编码 • 深度学习:多层神经网络对输入进行非线性变换的学习技术 鸟类 正常 SACC20170 码力 | 32 页 | 5.17 MB | 1 年前3
机器学习课程-温州大学-08机器学习-集成学习所有基模型的预测形成新的测试集,最后再对测试集进行预测。 测试 数据 7 Random Forest(随机森林) 用随机的方式建立一个森林。随机森林算法由很多决策树组成,每一棵决 策树之间没有关联。建立完森林后,当有新样本进入时,每棵决策树都会 分别进行判断,然后基于投票法给出分类结果。 优点 1. 在数据集上表现良好,相对于其他算法有较大的优势 2. 易于并行化,在大数据集上有很大的优势; 体,它在以决策树为基学习器构建 Bagging 集成的 基础上,进一步在决策树的训练过程中引入了随机特 征选择,因此可以概括 随机森林包括四个部分: 1. 随机选择样本(放回抽样); 2. 随机选择特征; 3. 构建决策树; 4. 随机森林投票(平均)。 随机森林 训练数据 Bootstrap随机抽取 决策树1 最终预测结果 测试 数据 决策树n …… 决策树2 预测1 根据权重1更新样本权重2 根据权重n-1更新样本权重n 强学 习器 相同方式更新…… 15 GBDT算法 GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算 法,该算法由多棵决策树组成,GBDT 的核心在于累加所有树的结果 作为最终结果,所以 GBDT 中的树都是回归树,不是分类树,它是属 于 Boosting 策略。GBDT 是被公认的泛化能力较强的算法。0 码力 | 50 页 | 2.03 MB | 1 年前3
机器学习课程-温州大学-Scikit-learn) clf.fit(X_train, y_train) y_pred = clf.predict(X_test) y_prob = clf.predict_proba(X_test) 使用决策树分类算法解决二分类问题, y_prob 为每个样本预测为 “0”和“1”类的概率 16 1.Scikit-learn概述 逻辑回归 支持向量机 朴素贝叶斯 K近邻 linear_model x_depth=5) scores = cross_val_score(clf, X_train, y_train, cv=5, scoring=’f1_weighted’) 使用5折交叉验证对决策树模型进行评估, 使用的评分函数为F1值 sklearn提供了部分带交叉验证功能的模型 类如LassoCV、LogisticRegressionCV等, 这些类包含cv参数 26 2.Scikit-learn主要用法0 码力 | 31 页 | 1.18 MB | 1 年前3
机器学习课程-温州大学-04机器学习-朴素贝叶斯朴素贝叶斯案例 04 朴素贝叶斯代码实现 8 判别模型和生成模型 判别模型(Discriminative Model) 生成模型(Generative Model) 由数据直接学习决策函数Y=f(X)或者条件概率分 布P(Y|X)作为预测的模型,即判别模型。基本思 想是有限样本条件下建立判别函数,不考虑样本 的产生模型,直接研究预测模型。 即:直接估计?(?|?) 由训练数据学习联合概率分布 )。具体来说,利用训练数 据学习?(?|?)和?(?)的估计,得到联合概率分布: ?(?, ?)=?(?)?(?|?),再利用它进行分类。 即:估计?(?|?) 然后推导?(?|?) 线性回归、逻辑回归、感知机、决策树、支持向 量机…… 朴素贝叶斯、HMM、深度信念网络(DBN)…… 监督学习方法又分 生成方法(Generative approach)和判别方法(Discriminative approach)0 码力 | 31 页 | 1.13 MB | 1 年前3
共 31 条
- 1
- 2
- 3
- 4













