机器学习课程-温州大学-08机器学习-集成学习机器学习-集成学习 黄海广 副教授 2022年12月 ## 本章目录 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ### 1. 集成学习方法概述 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ## 集成学习 ## Bagging 从训练集中进行子抽 3/b/e/a3be2cf0225d91ae47bbea4a4089f601/p9_1.jpg) Bootstrapping ### 2. AdaBoost和GBDT算法 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ## AdaBoost算法 AdaBoost(Adaptive Boosting,自适应增强),其自适应在 基于学习的误差率n 更新学习器权重n ## GBDT算法 GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法,该算法由多棵决策树组成,GBDT 的核心在于累加所有树的结果作为最终结果,所以 GBDT 中的树都是回归树,不是分类树,它是属于 Boosting 策略。GBDT 是被公认的泛化能力较强的算法。 GBDT 由三个概念组成: Regression0 码力 | 50 页 | 2.03 MB | 2 年前3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博156/p6_3.jpg) 深度学习应用与实践 ## CTR概要介绍 ## CTR任务特点 - 大量离散特征、高维稀疏 - 特征关联性挖掘 ## CTR预估常用算法 • LR • GBDT • FM  ## 业务目标与模型选择 one-hot 表示 - 假设检验方式 - continues特征 - 离散化/归一化处理 - 相关系数评估 - 特征组合 - 手动组合——专家知识 - GBDT+互信息——有效挖掘非线性特征及组合 皮尔逊相关系数特征评估  训练样本 线上工程 ## 问题建模 ·GBDT ·非线性 ·High Level特征多 ·XGBoost ·泰勒展开,利用了二阶导数信息 ·对数据预排序,性能更高 ·多模型融合 ·GBDT模型+FFM模型 Hypothesis: $$ h_{M}(x)=\sum_{m=1}^{M}\beta_{m}T(x;\Theta_{m})0 码力 | 49 页 | 5.97 MB | 2 年前3
搜狗深度学习技术在广告推荐领域的应用简单、处理特征量大、稳定性好 ☐ 需借助交叉特征 Logistic Regression 模型类别 ## 线性 ## 非线性 ☐ 能够学习特征间 非线性关系 ☐ 模型复杂、计算耗时 □ DNN、GBDT ## 模型融合 ## CTR bagging - 将多个模型的输出CTR加权平均 · 实现方法简单,模型之间不产生耦合 - 可调参数有限,改进空间相对较小 ## 模型融合 · 任一模型的输出作为另一模型的特征输入0 码力 | 22 页 | 1.60 MB | 2 年前3
高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践• 奇异值分解算法 • 自回归算法 • 深度学习算法 ## 时间序列的分类特征 • 熵特征 • 值分布特征 • 小波分析特征 ## 单维时间序列分析 有监督异常检测算法 ( RF, GBDT, XGBoost, 深度学习 ) 0 码力 | 28 页 | 1.88 MB | 2 年前3
微博在线机器学习和深度学习实践-黄波深度学习-分布式模型推理 ## • 分布式模型推理框架:WeiServing 业务应用 排序模型服务 多媒体分析服务 自然语言分析服务 DNN/DeepFM/W&D 算法模型层 LR/GBDT CNN Embedding 特征映射 数据处理 模型服务框架 核心架构层 负载均衡/统一版本管理/动态加载/批量化机制 RPC服务框架 kubernetes/ol-submit0 码力 | 36 页 | 16.69 MB | 2 年前3
阿里云上深度学习建模实践-程孟力max(col2) group by col1 - CrossCount[2] select count (1) group by col1, col2 特征选择 Proxy task: GBDT特征选择 - Variational Dropout: 边训练边选择(NAS) ## 深度学习应用主要的挑战: • 多个环节 • 多种模型 1. 方案复杂 2. 模型效果优化困难 深度模型是非线性的:0 码力 | 40 页 | 8.51 MB | 2 年前3
2020美团技术年货 算法篇前面介绍了,我们的图灵平台集成了 Spark ML、XGBoost、TensorFlow 三种底层训练框架,基于此,我们的训练平台产出的机器学习模型种类也非常多,简单的有 LR、SVM,树模型有 GBDT、RF、XGB 等,深度学习模型有 RNN、DNN、LSTM、DeepFM 等等。而我们的模型管理平台的目标就是提供统一的模型注册、发现、部署、切换、降级等解决方案,并为机器学习和深度学习模型提供高可用的线上预测服务。 更强大、速度更快的模型。LightGBM 在传统的 GBDT 基础上有如下创新和改进: 采用 Gradient-based One-Side Sampling(GOSS) 技术去掉很大部分梯度很小的数据,只使用剩下的去估计信息增益,避免低梯度长尾部分的影响; 采用 Exclusive Feature Bundling(EFB) 技术以减少特征的数量; 传统 GBDT 算法最耗时的步骤是使用 Pre-Sorted Pre-Sorted 方式找到最优划分点,其会在排好序的特征值上枚举所有可能的特征点,而 LightGBM 中会使用 histogram 算法替换了 GBDT 传统的 Pre-Sorted,牺牲一定精度换取了速度。 LightGBM 采用 Leaf-Wise 生长策略,每次从当前所有叶子中找到分裂增益最大的一个叶子,然后分裂,如此循环。因此同 Level-Wise 相比,在分裂次数相同的情况下,Leaf-Wise0 码力 | 317 页 | 16.57 MB | 2 年前3
美团点评2018技术年货达式计算出最终的预测结果。 举例如下图所示,我们自上而下进行讲解: - 该模型有UserId、CityId、UserFeature、POI等特征。 - UserId和CityId特征分别通过GBDT和NN模型进行转换(Transform)。 - 转换后的特征和UserFeature、POI等原始特征一起交给NN和LR模型进行算分(Scoring)。 - 最终的预测分值通过表达式Prediction 原子模型(Atomic Model) 在这里原子模型指的是一种原子计算拓扑结构,比如线性模型、树模型和网络模型。 常用的模型像Logistic Regression和Linear Regression都是线性模型。GBDT、Random Forest都是树模型。MLP、CNN、RNN都是网络模型。 这里定义的原子模型主要的目的是为了工程实施的便利。一个模型被认定为原子模型有如下两个原因: 该模型经常做为独立预测模型被使用。0 码力 | 229 页 | 61.61 MB | 2 年前3
2022年美团技术年货 合辑序。该方法可以提前把商户向量计算保存好,所以在线预测快,但是两侧信息的交叉能力有限。 • 2019 年:为了解决双塔模型无法很好地建模交叉特征的问题,将双塔模型的输出作为特征与其他交叉特征通过 GBDT 树模型进行融合。 • 2020 年至今:由于算力的提升,开始探索 NN 端到端粗排模型并且持续迭代 NN 模型。 现阶段,工业界粗排模型常用的有双塔模型,比如腾讯 $ ^{[3]} $ 和爱奇艺0 码力 | 1356 页 | 45.90 MB | 2 年前3
共 10 条
- 1













