机器学习课程-温州大学-07机器学习-决策树## 机器学习-决策树 黄海广 副教授 2023年06月 ## 本章目录 01 决策树原理 02 ID3算法 03 C4.5算法 04 CART算法 ### 1. 决策树原理 01 决策树原理 02 ID3算法 03 C4.5算法 04 CART算法 ### 1. 决策树原理  ● 决策树:从训练数据中学习得出一个树状结构的模型。 ● 决策树属于判别模型。 ● 决策树是一种树状结构,通过做出一系列决策(选择)来对数据进行划分,这类似于针对一系列问题进行选择。 ● 决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子节点,将叶子节点的存放的类别作为决策结果。 ### 1. 决策树原理  - 决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新数据进行预测。 ● 决策树算法属于监督学习方法。 ● 决策树归纳的基本算法是贪心算法,自顶向下来构建决策树。 ● 贪心算法:在每一步选择中都采取在当前状态下最好/优的选择。 ● 在决策树的生成过程中,分割方法即属性选择的度量是关键。 ### 1. 决策树原理 ## 决策树的特点 ## 优点:0 码力 | 39 页 | 1.84 MB | 2 年前3
机器学习课程-温州大学-08机器学习-集成学习bea4a4089f601/p6_1.jpg) ## 随机森林 ## Random Forest(随机森林) 用随机的方式建立一个森林。随机森林算法由很多决策树组成,每一棵决策树之间没有关联。建立完森林后,当有新样本进入时,每棵决策树都会分别进行判断,然后基于投票法给出分类结果。 ## 优点 1. 在数据集上表现良好,相对于其他算法有较大的优势 2. 易于并行化,在大数据集上有很大的优势; ## 随机森林 Random Forest(随机森林)是 Bagging 的扩展变体,它在以决策树为基学习器构建 Bagging 集成的基础上,进一步在决策树的训练过程中引入了随机特征选择,因此可以概括随机森林包括四个部分: 1. 随机选择样本(放回抽样); 2. 随机选择特征; 3. 构建决策树; 4. 随机森林投票(平均)。 是一种迭代的决策树算法,该算法由多棵决策树组成,GBDT 的核心在于累加所有树的结果作为最终结果,所以 GBDT 中的树都是回归树,不是分类树,它是属于 Boosting 策略。GBDT 是被公认的泛化能力较强的算法。 GBDT0 码力 | 50 页 | 2.03 MB | 2 年前3
基于 APM 的智能运维体系在京东物流的落地和实践-付正全智能告警 知识库 ## 相对成熟 ☐ 加强支持 ☐ 智能处理 库房运维 数据挖掘 网络探查 异常反馈 流量监控 配置管理 IDC应用 Jone应用 自定义统计报表 决策树 事件管理 远程工具 网络拓扑 系统监控 问题管理 国际化 监控大屏 网络巡检 深度学习 Jdos应用 库房应用 数据库操作 发布管理 变更管理 可视化 分拣 规避 jdstream 校验 筛选 open api snmp trap plugins ### 大规模实时监控平台V3.0 预测分类:故障预测、容量预测、性能预测 预测算法:LSTM、多元线性回归、决策树、随机森林、神经网络、朴素贝叶斯分类、最小二乘法、支持向量机... 重点关注:算法匹配度评分 Kpi自动分类并匹配预测算法 日历适配、基于节假日的机器学习算法 基于业务关联关系的预测算法 异常检测 异常反馈 KPI聚类分析 预算建议 故障树 深度学习 根因分析 决策树 故障止损 决策支持 发现问题 解决问题 规避问题 ## AIOPS落地规划 异常检测 根因分析 AIOPS应用层 事件预测 智能处理 决策支持 AIOPS组件层 KPI自动分类聚合 故障树构建 决策树构建 知识库构建 性能预测,故障预测,容量预测 AIOPS算法层 KPI分布预测0 码力 | 41 页 | 3.52 MB | 2 年前3
机器学习课程-温州大学-Scikit-learn) clf.fit(X_train, y_train) y_pred = clf.predict(X_test) y_prob = clf.predict_proba(X_test) 使用决策树分类算法解决二分类问题,y_prob 为每个样本预测为 “0” 和 “1” 类的概率 ### 1. Scikit-learn概述 ## 监督学习算法-分类 逻辑回归 linear model.LogisticRegression 5) scores = cross_val_score(clf, X_train, y_train, cv=5, scoring='f1_weighted') 使用5折交叉验证对决策树模型进行评估,使用的评分函数为F1值 sklearn提供了部分带交叉验证功能的模型类如LassoCV、LogisticRegressionCV等,这些类包含cv参数 |子集|数据集|验证错误|交叉验证错误|0 码力 | 31 页 | 1.18 MB | 2 年前3
机器学习课程-温州大学-05机器学习-机器学习实践线性模型,如基于距离度量的模型包括KNN(K近邻)、K-means聚类、感知机和SVM、神经网络。另外,线性回归类的几个模型一般情况下也是需要做数据归一化/标准化处理的。 ## 不需要做数据归一化/标准化 决策树、基于决策树的Boosting和Bagging等集成学习模型对于特征取值大小并不敏感,如随机森林、XGBoost、LightGBM等树模型,以及朴素贝叶斯,以上这些模型一般不需要做数据归一化/标准化处理。0 码力 | 33 页 | 2.14 MB | 2 年前3
机器学习课程-温州大学-特征工程➢ 利用正则化,如L1, L2 范数,主要应用于如线性回归、逻辑回归以及支持向量机(SVM)等算法;优点:降低过拟合风险;求得的 w 会有较多的分量为零,即:它更容易获得稀疏解。 使用决策树思想,包括决策树、随机森林、Gradient Boosting 等。 ### 4. 特征选择 ## 嵌入式 常见的嵌入式选择模型: ## 0 在 Lasso 中, $ \lambda $ 参数控制了稀疏性:0 码力 | 38 页 | 1.28 MB | 2 年前3
机器学习课程-温州大学-02机器学习-回归线性模型,如基于距离度量的模型包括KNN(K近邻)、K-means聚类、感知机和SVM。另外,线性回归类的几个模型一般情况下也是需要做数据归一化/标准化处理的。 ## 不需要做数据归一化/标准化 决策树、基于决策树的Boosting和Bagging等集成学习模型对于特征取值大小并不敏感,如随机森林、XGBoost、LightGBM等树模型,以及朴素贝叶斯,以上这些模型一般不需要做数据归一化/标准化处理。0 码力 | 33 页 | 1.50 MB | 2 年前3
Hello 算法 1.0.0b5 JavaScript版特性。因此我们通常会放宽条件,先观察问题是否适合使用回溯(穷举)解决。 适合用回溯解决的问题通常满足“决策树模型”,这种问题可以使用树形结构来描述,其中每一个节点代表一个决策,每一条路径代表一个决策序列。 换句话说,如果问题包含明确的决策概念,并且解是通过一系列决策产生的,那么它就满足决策树模型,通常可以使用回溯来解决。 在此基础上,动态规划问题还有一些判断的“加分项”。 · 问题包含最大(小)或最多(少)等最优化描述。 状态存在递推关系。相应地,也存在一些“减分项”。 · 问题的目标是找出所有可能的解决方案,而不是找出最优解。 · 问题描述中有明显的排列组合的特征,需要返回具体的多个方案。 如果一个问题满足决策树模型,并具有较为明显的“加分项”,我们就可以假设它是一个动态规划问题,并在求解过程中验证它。 #### 14.3.2 问题求解步骤 动态规划的解题流程会因问题的性质和难度而有所不同,但通常遵循以 34ea/p328_1.jpg) 图 14-17 0-1 背包的示例数据 我们可以将 0-1 背包问题看作是一个由 n 轮决策组成的过程,每个物体都有不放入和放入两种决策,因此该问题是满足决策树模型的。 该问题的目标是求解“在限定背包容量下的最大价值”,因此较大概率是个动态规划问题。 第一步:思考每轮的决策,定义状态,从而得到 dp 表 对于每个物品来说,不放入背包,背包容量不变;放0 码力 | 375 页 | 30.68 MB | 2 年前3
Hello 算法 1.0.0b5 Swift版特性。因此我们通常会放宽条件,先观察问题是否适合使用回溯(穷举)解决。 适合用回溯解决的问题通常满足“决策树模型”,这种问题可以使用树形结构来描述,其中每一个节点代表一个决策,每一条路径代表一个决策序列。 换句话说,如果问题包含明确的决策概念,并且解是通过一系列决策产生的,那么它就满足决策树模型,通常可以使用回溯来解决。 在此基础上,动态规划问题还有一些判断的“加分项”。 · 问题包含最大(小)或最多(少)等最优化描述。 状态存在递推关系。相应地,也存在一些“减分项”。 · 问题的目标是找出所有可能的解决方案,而不是找出最优解。 · 问题描述中有明显的排列组合的特征,需要返回具体的多个方案。 如果一个问题满足决策树模型,并具有较为明显的“加分项”,我们就可以假设它是一个动态规划问题,并在求解过程中验证它。 #### 14.3.2 问题求解步骤 动态规划的解题流程会因问题的性质和难度而有所不同,但通常遵循以 632a/p329_1.jpg) 图 14-17 0-1 背包的示例数据 我们可以将 0-1 背包问题看作是一个由 n 轮决策组成的过程,每个物体都有不放入和放入两种决策,因此该问题是满足决策树模型的。 该问题的目标是求解“在限定背包容量下的最大价值”,因此较大概率是个动态规划问题。 第一步:思考每轮的决策,定义状态,从而得到 dp 表 对于每个物品来说,不放入背包,背包容量不变;放0 码力 | 376 页 | 30.70 MB | 2 年前3
Hello 算法 1.0.0b4 Python版特性。因此我们通常会放宽条件,先观察问题是否适合使用回溯(穷举)解决。 适合用回溯解决的问题通常满足“决策树模型”,这种问题可以使用树形结构来描述,其中每一个节点代表一个决策,每一条路径代表一个决策序列。 换句话说,如果问题包含明确的决策概念,并且解是通过一系列决策产生的,那么它就满足决策树模型,通常可以使用回溯来解决。 在此基础上,还有一些动态规划问题的“加分项”,包括: · 问题包含最大(小)或最多(少)等最优化描述。 周围的状态存在递推关系。而相应的“减分项”包括: · 问题的目标是找出所有可能的解决方案,而不是找出最优解。 · 问题描述中有明显的排列组合的特征,需要返回具体的多个方案。 如果一个问题满足决策树模型,并具有较为明显的“加分项”,我们就可以假设它是一个动态规划问题,并在求解过程中验证它。 ##### 14.3.2. 问题求解步骤 动态规划的解题流程会因问题的性质和难度而有所不同,但通常遵 286_2.jpg) Figure 14-17. 0-1 背包的示例数据 我们可以将 0-1 背包问题看作是一个由 n 轮决策组成的过程,每个物体都有不放入和放入两种决策,因此该问题是满足决策树模型的。 该问题的目标是求解“在限定背包容量下的最大价值”,因此较大概率是个动态规划问题。 第一步:思考每轮的决策,定义状态,从而得到 dp 表 对于每个物品来说,不放入背包,背包容量不变;放0 码力 | 329 页 | 27.34 MB | 2 年前3
共 73 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8













