搜狗深度学习技术在广告推荐领域的应用2017年10月19–21日 咨询热线:010-64738142 ## 目录 CONTENTS 01 搜索广告背景知识 02 深度学习在搜狗搜索广告的一些应用 03 基于多模型融合的CTR预估 04 若干思考 ## 搜索广告背景知识  常规CTR方法排序 深度学习应用与实践 ## 微博Feed流产品介绍—排序场景  常规CTR方法排序  深度学习应用与实践 ## CTR概要介绍 ## CTR任务特点 - 大量离散特征、高维稀疏 - 特征关联性挖掘 ## CTR预估常用算法 • LR • GBDT • 线性模型LR+特征工程 • 排序基于pointwise的 learning to rank ➢ 模型优化目标 • 互动(转发/评论/赞) 点击(图片/视频/文章/链接等) 阅读时长 • 多目标预估 $$ p(y=1)=\frac{1}{1+\exp[-\left(\beta_{0}+\beta x\right)]}\left|\begin{array}{c}P 概率 \\ 1\end{array}\right|0 码力 | 21 页 | 2.14 MB | 2 年前3
2022年美团技术年货 合辑分析与审计系统性能优化之旅 1048 数据库异常智能分析与诊断 1059 美团外卖广告智能算力的探索与实践(二) 1079 Linux 下跨语言调用 C++ 实践 1101 GPU 在外卖场景精排模型预估中的应用实践 1130 美团集群调度系统的云原生实践 1149 广告平台化的探索与实践 | 美团外卖广告工程实践专题连载 1161 数据 1193 Kafka 在美团数据平台的实践 Factorization Machine(FFM) 算法 $ ^{[1]} $ 、ImageNet 比赛产出的 ResNet 模型 $ ^{[2]} $ 在业界都有着广泛的应用。 美团到店广告质量预估团队在美团内部算法大赛 MDD Cup 中获得了第一名,受大赛组委会的邀请,希望分享一些比较通用的比赛经验。本文是笔者 7 次 Kaggle/KDD Cup 冠军经验(如下图 1 所示)的分享,希望能帮助到更多的同学。 ### 2. 多领域建模优化 本部分将我们将以上比赛分为三个部分进行方案介绍,第一部分为推荐系统问题;第二部分为时间序列问题,跟第一部分的重要差别在于预测的是未来的多点序列,而非推荐系统的单点预估;第三部分为自动化机器学习问题,该问题比赛输入不为单一数据集,而是多问题的多数据集,并且在最终评估的 b 榜数据集问题也是未知的。因此,对于方案的鲁棒性要求非常高。如表 1 所示,后续将具体介绍七个0 码力 | 1356 页 | 45.90 MB | 2 年前3
2020美团技术年货 算法篇[Image](/uploads/documents/4/2/c/4/42c4fbcf187df0f624a5e70022348082/p1_1.jpg) 美团美团 ## 目录 算法 智能搜索模型预估框架 Augur 的建设与实践 1 Transformer 在美团搜索排序中的实践 23 BERT 在美团搜索核心排序的探索和实践 36 美团智能配送系统的运筹优化实战 60 一站式机器学习平台建设实践 对话任务中的“语言-视觉”信息融合研究 267 ICDM 论文:探索跨会话信息感知的推荐模型 278 自然场景人脸检测技术实践 289 技术解析 | 横纵一体的无人车控制方案 304 ## 算法 # 智能搜索模型预估框架 Augur 的建设与实践 作者:朱敏 紫顺 乐钦 洪晨 乔宇 武进 孝峰 俊浩等 ### 1. 背景 在过去十年,机器学习在学术界取得了众多的突破,在工业界也有很多应用落地。美团很早就开 机器学习模型在搜索场景下的应用,从最开始的线性模型、树模型,再到近两年的深度神经网络、BERT、DQN等,并在实践中也取得了良好的效果与产出。 本文将与大家探讨美团搜索与 NLP 部使用的统一在线预估框架 Augur 的设计思路、效果、优势与不足,希望对大家有所帮助或者启发。 搜索优化问题,是个典型的 AI 应用问题,而 AI 应用问题首先是个系统问题。经历近 10 年的技术积累和沉淀,美团搜索系统架构从传统检索引擎升级转变为0 码力 | 317 页 | 16.57 MB | 2 年前3
牟娜-阿里妈妈广告排序算法创新之旅DeepFM PNN Wide&Deep 兼容已有的代数式先验,增加模型拟合能力 人工特征设计 · 二阶特征组合 ’ alt=‘OCR图片’/> 电商场景预估问题特性&现有解法局限性 预估问题特性 个性化程度高,用户行为非常丰富 ·非线性强,代数式先验效率低,需要针对用户行为高效建模 用户兴趣特性 多样性,多峰分布 动态演化性 p(y=1|ad,scene {e}} _ {b} ^ {i} [ t + 1 ]\right)\right)), \ \end{array} $$ GRU隐层状态表达抽象兴趣 辅助loss来源于点击序列pattern,非ctr最后点击信号 有效解决长序列梯度传播问题 Embedding的学习能得到更多语义信息 ’ alt=‘OCR图片’/> 兴趣演化模型DIEN一一建模兴趣演化趋势 兴趣演化模块 综合序列随机跳转多,无规律可言 全量->增量训练频次过滤 训练资源节省20倍 RTP在线打分服务 复杂op支持半精度支持优化rt 内存优化4倍 在离线打分一致性 模型描述接口文件设计小样本打分自动化对比工具 Rt优化6倍 ·模型效果 CTR+20% RPM+14% GMV+15% Table 2: Results (AUC) on public datasets Model Electronics(AUC) Books(AUC)0 码力 | 34 页 | 43.43 MB | 1 月前3
TiDB v8.5 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 624 6.3.3 预估存储空间· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · --log. �→ crypter �→ .key 新增 设置日志 备份数据 的加密密 钥,十六 进制字符 串格式, aes128- �→ ctr 对 应 128 位 (16 字节) 密钥长度, aes192- �→ ctr 为 24 字节, aes256- �→ ctr 为 32 字节。 BR --log. �→ crypter �→ .key- �→ file 新增 设置日志 备份数据 的密钥文 件,可直 配置项 修改类型 描述 BR --log. �→ crypter �→ . �→ method 新增 设置日志 备份数据 的加密算 法,支持 aes128- �→ ctr、 aes192- �→ ctr 和 aes256- �→ ctr 三 种算法, 缺省值为 plaintext, 表示不加 密。 BR --master- �→ key 新增 设置日志 备份数据 的主密钥, 可以是基 于本地磁 盘的主密0 码力 | 5095 页 | 104.54 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波9f6e2dbb408c2311a61fa97fc/p17_2.jpg) ## 3 在线机器学习-模型服务部署 ## • 模型评估 • 模型上线部署前指标评估 • 周期使用验证样本进行点击率预估 • 待部署模型与线上模型进行指标对比,评估是否满足上线条件 ## · 一键部署 - 基于K8S的deployment模式,一键端口分配与模型服务部署 • 基于ZK的服务发现,一键进行流量灰度与发布 BPR ## 4 深度学习-深度学习模型训练 ## • 深度学习模型训练:WeiLearn 样本库 CTR样本 配置 超参数 自然语言样本 视频与图像样本 资源 算法 ## WeiLearn-深度学习模型训练 样本处理 CTR Spark Wide&Deep DeepFM Tensorflow Deep Cross Network0 码力 | 36 页 | 16.69 MB | 2 年前3
TiDB v7.1 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 567 6.3.3 预估存储空间· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 节点 读取副本,而无需在热点 TiKV 节点排队等待。你可以通过tidb_load_based_replica_read_threshold 系 统变量控制读请求的排队长度。当 leader 节点的预估排队时间超过该阈值时,TiDB 会优先从 follower 节 点读取数据。在读热点的情况下,与不打散读热点相比,该功能可提高读取吞吐量 70% ~ 200%。 更多信息,请参考用户文档。 • 增强缓存非 划提供更准确的参考。这有助于你更好地管理 TiDB 的资源分配,从而满足企业级场景的稳定性需求。 为了更好的用户体验,TiDB Dashboard 增加了资源管控的管理页面。你可以在该页面查看资源组配置, 并通过可视化的方式进行容量预估,便于合理配置资源。 更多信息,请参考用户文档。 • 支持 Fast Online DDL 的检查点机制,提升容错性和自动恢复能力 #42164 @tangenta TiDB v7.1.0 引入Fast0 码力 | 4369 页 | 98.92 MB | 2 年前3
TiDB v7.6 中文手册探索更多 ..... 563 6.3 50 TiB 数据导入最佳实践 ..... 564 6.3.1 关键因素 ..... 564 6.3.2 准备源文件 ..... 565 6.3.3 预估存储空间 ..... 565 6.3.4 配置参数 ..... 566 6.3.5 解决 “checksum mismatch” 问题 ..... 566 6.3.6 开启断点续传 .. 及以上),在使用并行导入的同时,还需要针对源数据特点、表定义、参数配置等进行一定的准备和调优,才能更好、更快地完成大规模的数据导入。 本文中的以下内容同时适用于导入多表和导入大单表: · 关键因素 准备源文件 ·预估存储空间 · 配置参数 解决“checksum mismatch”问题 · 开启断点续传 · 故障处理 由于导入大单表有一些特殊要求,以下章节单独介绍了相关最佳实践: · 导入大单表的最佳实践 实例进行导入,达到最佳导入效果。 · 在生成文件时,每个文件尽量控制在 96 MiB 以下。 如果文件特别大,超过 256 MiB,需要开启 strict-format。 #### 6.3.3 预估存储空间 目前有以下两种有效的空间预估方法: · 假设数据总大小为 A,索引总大小为 B,副本数为 3,压缩率为 $ \alpha $ (一般在 2.5 左右),则总的占用空间为: $ (A+B)*3/a $ 。0 码力 | 4666 页 | 101.24 MB | 2 年前3
TiDB v5.3 中文手册注意: · 如果没有挂载网盘或者使用其他共享存储,那么 BR 备份的数据会生成在各个 TiKV 节点上。由于 BR 只备份 leader 副本,所以各个节点预留的空间需要根据 leader size 来预估。 - 同时由于 TiDB 默认使用 leader count 进行平衡,所以会出现 leader size 差别大的问题,导致各个节点备份数据不均衡。 ## 使用限制 下面是使用 BR 进行备份恢复的几条限制: --crypter.method: 加密算法,支持 aes128-ctr/aes192-ctr/aes256-ctr 三种算法,缺省值为 plaintext,表示不加密 --crypter.key:加密密钥,十六进制字符串格式,aes128-ctr 对应 128 位(16 字节)密钥长度,aes192 → -ctr 为 24 字节,aes256-ctr 为 32 字节 • --crypter.key-fi br backup full\ --pd ${PDIP}:2379 \ -s local://home/tidb/backupdata/incr \ --crypter.method aes128-ctr \ --crypter.key 0123456789abcdef0123456789abcdef ## Raw KV 备份(实验性功能) 警告: Raw KV 备份功能还在实验中,没有经过完0 码力 | 2374 页 | 49.52 MB | 2 年前3
共 230 条
- 1
- 2
- 3
- 4
- 5
- 6
- 23













