GBDT - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-08机器学习-集成学习

机器学习-集成学习黄海广副教授 2022年12月 ## 本章目录 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ### 1. 集成学习方法概述 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ## 集成学习 ## Bagging 从训练集中进行子抽 3/b/e/a3be2cf0225d91ae47bbea4a4089f601/p9_1.jpg) Bootstrapping ### 2. AdaBoost和GBDT算法 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ## AdaBoost算法 AdaBoost（Adaptive Boosting，自适应增强），其自适应在基于学习的误差率n 更新学习器权重n ## GBDT算法 GBDT（Gradient Boosting Decision Tree）是一种迭代的决策树算法，该算法由多棵决策树组成，GBDT 的核心在于累加所有树的结果作为最终结果，所以 GBDT 中的树都是回归树，不是分类树，它是属于 Boosting 策略。GBDT 是被公认的泛化能力较强的算法。 GBDT 由三个概念组成： Regression

0 码力 | 50 页 | 2.03 MB | 2 年前
3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

156/p6_3.jpg) 深度学习应用与实践 ## CTR概要介绍 ## CTR任务特点 - 大量离散特征、高维稀疏 - 特征关联性挖掘 ## CTR预估常用算法 • LR • GBDT • FM ![Image](/uploads/documents/5/1/0/2/510241bd830a2c27866da02b085a6156/p7_1.jpg) ## 业务目标与模型选择 one-hot 表示 - 假设检验方式 - continues特征 - 离散化/归一化处理 - 相关系数评估 - 特征组合 - 手动组合——专家知识 - GBDT+互信息——有效挖掘非线性特征及组合皮尔逊相关系数特征评估 ![Image](/uploads/documents/5/1/0/2/510241bd830a2c27866da02b085a6156/p9_1

0 码力 | 21 页 | 2.14 MB | 2 年前
3
美团点评旅游推荐系统的演进

6be25cd166e7ae6238e03c8/p25_1.jpg) 训练样本线上工程 ## 问题建模 ·GBDT ·非线性 ·High Level特征多 ·XGBoost ·泰勒展开，利用了二阶导数信息 ·对数据预排序，性能更高 ·多模型融合 ·GBDT模型+FFM模型 Hypothesis: $$ h_{M}(x)=\sum_{m=1}^{M}\beta_{m}T(x;\Theta_{m})

0 码力 | 49 页 | 5.97 MB | 2 年前
3
搜狗深度学习技术在广告推荐领域的应用

简单、处理特征量大、稳定性好 ☐ 需借助交叉特征 Logistic Regression 模型类别 ## 线性 ## 非线性 ☐ 能够学习特征间非线性关系 ☐ 模型复杂、计算耗时 □ DNN、GBDT ## 模型融合 ## CTR bagging - 将多个模型的输出CTR加权平均 · 实现方法简单，模型之间不产生耦合 - 可调参数有限，改进空间相对较小 ## 模型融合 · 任一模型的输出作为另一模型的特征输入

0 码力 | 22 页 | 1.60 MB | 2 年前
3
高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践

• 奇异值分解算法 • 自回归算法 • 深度学习算法 ## 时间序列的分类特征 • 熵特征 • 值分布特征 • 小波分析特征 ## 单维时间序列分析有监督异常检测算法 ( RF, GBDT, XGBoost, 深度学习 ) ![Image](/uploads/documents/2/3/c/0/23c0c16397f4066769d1a8436ab39823/p15_2.jpg)

0 码力 | 28 页 | 1.88 MB | 2 年前
3
微博在线机器学习和深度学习实践-黄波

深度学习-分布式模型推理 ## • 分布式模型推理框架：WeiServing 业务应用排序模型服务多媒体分析服务自然语言分析服务 DNN/DeepFM/W&D 算法模型层 LR/GBDT CNN Embedding 特征映射数据处理模型服务框架核心架构层负载均衡/统一版本管理/动态加载/批量化机制 RPC服务框架 kubernetes/ol-submit

0 码力 | 36 页 | 16.69 MB | 2 年前
3
阿里云上深度学习建模实践-程孟力

max(col2) group by col1 - CrossCount[2] select count (1) group by col1, col2 特征选择 Proxy task: GBDT特征选择 - Variational Dropout: 边训练边选择(NAS) ## 深度学习应用主要的挑战： • 多个环节 • 多种模型 1. 方案复杂 2. 模型效果优化困难深度模型是非线性的:

0 码力 | 40 页 | 8.51 MB | 2 年前
3
2020美团技术年货算法篇

前面介绍了，我们的图灵平台集成了 Spark ML、XGBoost、TensorFlow 三种底层训练框架，基于此，我们的训练平台产出的机器学习模型种类也非常多，简单的有 LR、SVM，树模型有 GBDT、RF、XGB 等，深度学习模型有 RNN、DNN、LSTM、DeepFM 等等。而我们的模型管理平台的目标就是提供统一的模型注册、发现、部署、切换、降级等解决方案，并为机器学习和深度学习模型提供高可用的线上预测服务。更强大、速度更快的模型。LightGBM 在传统的 GBDT 基础上有如下创新和改进：采用 Gradient-based One-Side Sampling(GOSS) 技术去掉很大部分梯度很小的数据，只使用剩下的去估计信息增益，避免低梯度长尾部分的影响；采用 Exclusive Feature Bundling(EFB) 技术以减少特征的数量；传统 GBDT 算法最耗时的步骤是使用 Pre-Sorted Pre-Sorted 方式找到最优划分点，其会在排好序的特征值上枚举所有可能的特征点，而 LightGBM 中会使用 histogram 算法替换了 GBDT 传统的 Pre-Sorted，牺牲一定精度换取了速度。 LightGBM 采用 Leaf-Wise 生长策略，每次从当前所有叶子中找到分裂增益最大的一个叶子，然后分裂，如此循环。因此同 Level-Wise 相比，在分裂次数相同的情况下，Leaf-Wise

0 码力 | 317 页 | 16.57 MB | 2 年前
3
美团点评2018技术年货

达式计算出最终的预测结果。举例如下图所示，我们自上而下进行讲解： - 该模型有UserId、CityId、UserFeature、POI等特征。 - UserId和CityId特征分别通过GBDT和NN模型进行转换（Transform）。 - 转换后的特征和UserFeature、POI等原始特征一起交给NN和LR模型进行算分（Scoring）。 - 最终的预测分值通过表达式Prediction 原子模型（Atomic Model）在这里原子模型指的是一种原子计算拓扑结构，比如线性模型、树模型和网络模型。常用的模型像Logistic Regression和Linear Regression都是线性模型。GBDT、Random Forest都是树模型。MLP、CNN、RNN都是网络模型。这里定义的原子模型主要的目的是为了工程实施的便利。一个模型被认定为原子模型有如下两个原因：该模型经常做为独立预测模型被使用。

0 码力 | 229 页 | 61.61 MB | 2 年前
3
2022年美团技术年货合辑

序。该方法可以提前把商户向量计算保存好，所以在线预测快，但是两侧信息的交叉能力有限。 • 2019 年：为了解决双塔模型无法很好地建模交叉特征的问题，将双塔模型的输出作为特征与其他交叉特征通过 GBDT 树模型进行融合。 • 2020 年至今：由于算力的提升，开始探索 NN 端到端粗排模型并且持续迭代 NN 模型。现阶段，工业界粗排模型常用的有双塔模型，比如腾讯 $ ^{[3]} $ 和爱奇艺

0 码力 | 1356 页 | 45.90 MB | 2 年前
3

共 10 条前往

页

搜索

分类

语言

格式