从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱从推荐模型的基础特点看 袁镱 腾讯 个⼈简介 � ⽆量系统 � 项⽬于17年启动,先后经过了6个主要版本的 迭代 � 覆盖腾讯PCG全部业务的推荐场景,⽀持腾讯 IEG,CSIG,QQ⾳乐,阅⽂等业务的部分推 荐场景 � 袁镱 博⼠,专家⼯程师 � 研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, 上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 排序 混排 模型 管理 上线 管理 ⽆量 RGW/Cos/ kafka 样本 存储 实时样本 ⽣成服务 离线样本 ⽣成任务 请求 � 推荐场景的重要性 � PCG的图⽂,视频推荐(腾讯视频,腾讯新 闻,QQ看点,浏览器,微视, QQ⼩世界等) � 腾讯系内容推荐:阅⽂集团,QQ⾳乐 � Facebook推荐场景推理成本占AI推理成本的 >72% [ISCA2020 RecNMP] � 千亿级推荐模型应⽤ O1. 千亿级特征(TB级)的模型的在线/离 线训练,在线推理服务和持续上线 O2. 针对推荐特点的深度优化,达到业界先0 码力 | 22 页 | 6.76 MB | 1 年前3
搜狗深度学习技术在广告推荐领域的应用搜狗深度学习技术在广告推荐领域的应用 舒鹏 目录 CONTENTS 01 搜索广告背景知识 02 深度学习在搜狗搜索广告的一些应用 03 基于多模型融合的CTR预估 04 若干思考 搜索广告背景知识 信息需求 用户查询 查询理解 广告召回 点击率预估 排序计价 结果展示 点击及后续行为 广告库 日志收集 展示日志 点击日志 深度学习在搜狗搜索广告的一些应用 无需分词:基于字符粒度表达的问答系统设计 中长款 牛仔 外套 ResNet-50层 CNN-LSTM Encoder CNN CNN 中长款牛仔外套 Cosine-Loss 广告物料推荐 深度学习在搜狗搜索广告的一些应用 方向 用途 相关技术 图像理解 图片物料推荐 CNN 文本相关性 广告召回、创意生成 Word2Vec、CSR、LSTM CTR预估 广告排序、特征挖掘 DNN、MxNet、TensorFlow Google于16年6月份发表相应论文 用于应用商店中推荐APP的排序 基于TensorFlow平台,可兼具业界流行模型(LR、DNN)的优点 一次训练给出两个模型,流程简洁稳定,效果更佳 若干思考 若干思考 DL的强项 输入不规整 结果确定 容易获取的海量训练数据 1 CTR预估 特征有明确含义 场景相关,以用户为导向 很难界定“Ground Truth”0 码力 | 22 页 | 1.60 MB | 1 年前3
阿里云上深度学习建模实践-程孟力阿里云深度学习实践 程孟力 花名: 杨熙 阿里巴巴-计算平台-PAI 个性化推荐 视频理解 智能对话系统 图像检索 更多场景 OCR识别 人脸核身 智能风控 自动驾驶 语音助手 • • • 优势: 效果 显著超越 传统模型(线性层模型 / 树模型 / SVM模型 / … ) 深度学习应用场景 沙漠 湖泊 旅行 深度学习应用主要的挑战: 2.模型效果优 化困难 化困难 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 1.方案复杂 从FM到DeepFM rt 增 加了10倍怎么优化? 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 海量数据 深度学习应用主要的挑战: 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 从FM到DeepFM rt 增 加了10倍怎么优化?0 码力 | 40 页 | 8.51 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波目录 1.推荐篇 2.平台篇 3.总结篇 1 目录 • 推荐场景 • 推荐 • 在线机器学习 • 深度学习 • 平台背景 • 平台架构 • 平台效果 • 微博技术里程碑 • 微博业务生态 推荐篇 APPLICATION 推荐场景、在线机器学习和深度学习 11 1 推荐场景 • 信息流 热门流 视频流 关系流 • 推荐流 图片推荐流 正文推荐流 视频推荐流 1 1 推荐场景 • 推荐 • 在特定场景下,根据用户行为和特点,向用户推荐感兴趣的对象集 • 模型: • 趋势 • 实时化:在线机器学习 • 深度化:深度学习 • 平台化:机器学习平台 2 推荐 • 实时化 • 特征实时化:更及时反馈用户行为,更细粒度刻画用户 • 模型实时化:根据线上样本实时训练模型,及时地反映对象的线上变化 模型推理 预测服务 实时特征 实时数据 3 在线机器学习 多目标:点击FM+互动FM 排序损失:DeepFM+Pair-Wise Rank Loss 多目标 融合点击模型和 互动模型 单目标 LR、W&D、 FM和DeepFM 等模型排序 排序损失 针对信息流业务场景,从 点击损失升级到排序损 失,基础模型为 DeepFM,排序损失为 BPR 召 回 排 序 • 深度学习模型训练:WeiLearn 样本库 WeiLearn-深度学习模型训练 CTR样本0 码力 | 36 页 | 16.69 MB | 1 年前3
超大规模深度学习在美团的应用-余建平支持千亿 级别规模的深度学习系统,与推荐、搜索、广告业务深度合作,在算法上提供从召回到 排序的全系统优化方案,在工程上提供离线、近线、在线的全流程解决方案。 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台架构 • 模型场景应用 召回模型 排序模型 美团超大规模模型应用场景 美团推荐 美团搜索 美团广告 美团应用场景简介 • 场景特点 亿级的用户,千万级的O2O商品 海量的用户行为,完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX • 模型场景应用 召回模型 排序模型 超大规模模型的有效性 • VC维理论 描述模型的学习能力:VC维越大模型越复杂,学习能力越强 机器学习能力 = 数据 + 特征 + 模型 • 数据 海量数据: 美团的亿级用户、千万级POI • 特征 大规模离散特征 > 小规模泛化特征 • 模型 DNN > 树模型 > LR 美团超大规模模型应用场景 • 可扩展的机器学习架构0 码力 | 41 页 | 5.96 MB | 1 年前3
亚马逊AWSAI Services OverviewVision for Autonomous Driving Clarifai • Computer Vision APIs AWS 上的 AI 应用 • Pinterest Lens • Netflix 推荐引擎 数千名员工致力于人工智能领域 发现& 搜索 执行 &物流 现有产品的增强 定义新的产品分类 将机器学习拓 展更广领域 Amazon 的人工智能应用 在Amazon 最初的人 工智能应用 Rekognition 基于深度学习的图像识别服务 目标和场景检测 面部分析 人脸比对 人脸识别 集成了 S3, Lambda, Polly, Lex 对象和场景识别 为成千上万的对象、场景和概念生成标签,并配有可信度的数字 • 检索、过滤并对 图片库去粗取精 • 对用户生成的内 容进行智能检索 • 摄影、旅游、房 地产、度假以及 租赁等应用场景 Maple Plant Villa Garden Plant Backyard 面部分析 在图像中定位人脸并分析面部的情绪,检测情感、姿势、地 标等特性 • 剪裁图片和重叠广告时需 要避开的面孔 • 获得人口学以及情感的数 据推荐最佳照片 • 提高在线约会匹配的推荐 • 动态的个性化广告 人脸比对 测量两张图片中同一个人的可能性 • 为应用和设备添加人脸 验证 • 扩展了物理安全控制的 应用领域 • 客人对VIP 设施的使用 •0 码力 | 56 页 | 4.97 MB | 1 年前3
《TensorFlow 2项目进阶实战》3-方案设计篇:如何设计可落地的AI解决方案促销执行统计 客户需求:棚格图推荐设计与销量预测 如何落地项目第一期? 短期目标:自动化陈列审核和促销管理 业务落地基础:货架数字化 SKU 种类 数量 位置 品类 占比 货架 设计 场景 层数 编号 业务落地:自动化陈列审核和促销管理 陈列 必分销 新品 纯度 排面 SKU 种类 数量 位置 品类 占比 货架 设计 场景 层数 编号 销售执行三板斧:分销达标 通用物品识别平台架构 品 识 AI 中 台 AI 算法库 AI 核心模块 AI 行业模型 数据集 模型训练 模型管理 AutoML AI 物品库 服务管理 模型压缩 棚格图识别 货架巡检 商品推荐 陈列审核 入库审计 货物盘点 构件识别 CAD解析 规则审查 户型图识别 视频盘点 自动分拣 细粒度识别 目标检测 多目标跟踪 多标签分类 规 则 引 擎 数 据 沉 淀 服0 码力 | 49 页 | 12.50 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112动设计相应的特 预览版202112 第 1 章 人工智能绪论 10 征,以帮助算法更好地收敛到最优解。这类特征提取方法通常是与某些具体任务场景强相 关的,一旦场景发生了变动,这些依靠人工设计的特征和先验设定无法自适应新场景,因 此需要重新设计算法模型,模型的通用性不强。 设计一种像人脑一样可以自动学习、自我调整的通用智能机制一直是人类的共同愿 景。从目前来看,深度学习是最 29 CUDA 安装结果测试-2 1.6.3 PyTorch 安装 PyTorch 和其他的 Python 库一样,使用 Python 包管理工具 pip install 命令即可安装。 官方推荐采用 conda install 命令安装。打开 https://pytorch.org/网页,选择 Windows 操作系 统、Conda 安装方式、Python 语言和 CUDA 版本,即可生成对应的安装命令,如图 语言编写程序的方式非常多,可以使用 ipython 或者 ipython notebook 方式 交互式编写代码,也可以利用 Sublime Text、PyCharm 和 VS Code 等综合 IDE 开发中大型 项目。本书推荐使用 PyCharm 编写和调试,使用 VS Code 交互式开发,这两者都可以免费 使用,用户自行下载安装,并配置好 Python 解释器即可。限于篇幅,这里不再赘述。 预览版2021120 码力 | 439 页 | 29.91 MB | 1 年前3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博新浪微博机器学习研发部关系流算法负责人 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 微博Feed流产品介绍—排序场景 Ø 信息获取方式 • 主动获取(关注) Ø 内容形式 • 博文/文章/图片/视频/问答/话题/… • 被动获取(推荐) Ø 微博—社交媒体领跑者 • DAU:1.72亿,MAU:3.92亿 • 关注流基于关系链接用户与内容 指标量化 • 用户体验 • 内容更新快,实时性要求高 • 内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 CTR概要介绍 数据 特征 目标 模型 效果 Ø CTR任务特点 Ø CTR预估常用算法 • LR • GBDT • FM • 大量离散特征、高维稀疏 • 特征关联性挖掘 模型预测 CTR预估 排序策略 权值映射 业务排序 其他策略 特征工程 特征存储 特征查询 实时数据 自解释特征 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 为什么选择深度学习 Ø 线性CTR模型 • 优势:简单高效、可解释性强 • 局限性:特征工程繁琐、无法表达高维抽象特征 Ø 深度学习模型(DNN based model) •0 码力 | 21 页 | 2.14 MB | 1 年前3
Chatbots 中对话式交互系统的分析与应用[探索]聊天机器人 吴金龙@爱因互动 2017年04月17日 吴金龙 • 2005~2010:北大数学院 • 推荐系统 • 2010~2011:阿里云 • PC/手机输入法 • 2011~2017:世纪佳缘 • 用户推荐、网警等数据系统 • 技术部负责人 • 一个AI负责人 • 2017~现在:爱因互动 • 技术合伙人、算法负责人 • ChatbotsChina发起人 • EIN+ • 为企业提供人工智能对话解决方案 • Conversation as a Service Bot应用场景 • 清晰的知识结构和边界 • 非标准化服务,信息不对称 • 能够通过数据积累提升服务质量 • 能够建立知识和技术壁垒 • 对话作为粘合剂 • 用户画像,推荐系统,营销转化 爱因互动:API in, API out 各路API,快速对接 爱因互动合作示例 • 在线订餐位0 码力 | 39 页 | 2.24 MB | 1 年前3
共 39 条
- 1
- 2
- 3
- 4













