QCon北京2018-《深度学习在微博信息流排序的应用》-刘博深度学习在微博Feed流应用实践 刘博 新浪微博机器学习研发部关系流算法负责人 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 微博Feed流产品介绍—排序场景 Ø 信息获取方式 • 主动获取(关注) Ø 内容形式 • 博文/文章/图片/视频/问答/话题/… • 被动获取(推荐) Ø 微博—社交媒体领跑者 • DAU:1.72亿,MAU:3 72亿,MAU:3.92亿 • 关注流基于关系链接用户与内容 微博Feed流特点介绍—排序原因 Ø 产品特点 • 传播性强 Ø 存在问题 • 信息过载 • 互动性好 • 信噪比低 Ø 排序目标 • 提高用户的信息消费效率 • 提升用户黏性 技术挑战 Ø 规模大 • 用户和Feed内容数量大 Ø 指标量化 • 用户体验 • 内容更新快,实时性要求高 • 内容形式多样、非结构化 内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 CTR概要介绍 数据 特征 目标 模型 效果 Ø CTR任务特点 Ø CTR预估常用算法 • LR • GBDT • FM • 大量离散特征、高维稀疏 • 特征关联性挖掘 CTR一般流程 业务目标与模型选择 Ø 模型优化目标 •0 码力 | 21 页 | 2.14 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波• 平台效果 • 微博技术里程碑 • 微博业务生态 推荐篇 APPLICATION 推荐场景、在线机器学习和深度学习 11 1 推荐场景 • 信息流 热门流 视频流 关系流 • 推荐流 图片推荐流 正文推荐流 视频推荐流 1 推荐场景 • 推荐 • 在特定场景下,根据用户行为和特点,向用户推荐感兴趣的对象集 • 模型: • 趋势 • 实时化:在线机器学习 • 深度化:深度学习 WeiFlow 工作流 Task 模型训练 Task 模型训练 Task Metrics输出 3 在线机器学习-工作流 互动行为日志 数据处理 点击行为日志 阅读行为日志 曝光行为日志 数据过滤 样本拼接 定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光,互动,点击,真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 多目标:点击FM+互动FM 排序损失:DeepFM+Pair-Wise Rank Loss 多目标 融合点击模型和 互动模型 单目标 LR、W&D、 FM和DeepFM 等模型排序 排序损失 针对信息流业务场景,从 点击损失升级到排序损 失,基础模型为 DeepFM,排序损失为 BPR 召 回 排 序 • 深度学习模型训练:WeiLearn 样本库 WeiLearn-深度学习模型训练 CTR样本0 码力 | 36 页 | 16.69 MB | 1 年前3
《TensorFlow 快速入门与实战》4-实战TensorFlow房价预测扫描二维码 试看/购买《TensorFlow 快速入门与实战》视频课程 • 房价预测模型介绍 • 使用 TensorFlow 实现房价预测模型 • 使用 TensorBoard 可视化模型数据流图 • 实战 TensorFlow 房价预测 第四部分 目录 房价预测模型介绍 前置知识:监督学习(Supervised Learning) 监督学习是机器学习的一种方法,指从训练数据(输入和预期输出)中学到一个模型(函数), 63757 -0.22368 -0.78305 训练数据: 假设函数: 使用 TensorFlow 实现房价预测模型 使用 TensorFlow 训练模型的工作流 数据读入 数据分析 数据 规范化 创建模型 (数据流图) 创建会话 (运行环境) 训练模型 数据分析库:Pandas Pandas 是一个 BSD 开源协议许可的,面向 Python 用户的高性能和易于上手的数 维数组上实现了线性代数、傅立叶变换和其他丰富的函数运算。 X y 创建线性回归模型(数据流图) 创建会话(运行环境) 使用 TensorBoard 可视化模型数据流图 TensorBoard 可视化工具 在数据处理过程中,用户通常想要可视化地直观查看数据集分布情况。 在模型设计过程中,用户往往需要分析和检查数据流图是否正确实现。 在模型训练过程中,用户也常常需要关注模型参数和超参数变化趋势。0 码力 | 46 页 | 5.71 MB | 1 年前3
超大规模深度学习在美团的应用-余建平• Online Learning对数据流的要求 不重不丢:重复的数据会使模型有偏,数据的缺失 会使模型丢失重要信息 数据有序性:数据乱序会导致样本穿越的现象 • Log Join框架 双流拼接框架,通过组合方式支持多流拼接 基于Event Time的Window机制拼接方式 基于Low Watermark解决流乱序、流延迟等流式常 见问题 流式拼接框架 •0 码力 | 41 页 | 5.96 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱百TB数据 分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中,只有部分参数被⽤到 参数按需 获取/更新 Storage 异步训练流⽔线和多级存储:提升性能,降低内存成本 � 问题: � Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数 就绪,Parameter Server难以利⽤速度慢的存储 查询Dense Tensor 更新参数 � 常规训练流⽔线 样本读取 样本解析 参数拉取 参数更新 查询Sparse Table 查询Dense Tensor Reader Learner Worker 返回参数 Request Handler Parameter Server 更新参数 � 异步参数处理流⽔线 参数 预准备 Batch⼊队列 Batch⼊队列0 码力 | 22 页 | 6.76 MB | 1 年前3
动手学深度学习 v2.0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.5.4 Python控制流的梯度计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 2.6 概率 . . . . . . . . . . 名的。而高斯分布是由卡尔•弗里德里希•高斯(1777‐1855)17发现的,他发明了最小均方算法,至今仍用于解 决从保险计算到医疗诊断的许多问题。这些工具算法催生了自然科学中的一种实验方法——例如,电阻中电 流和电压的欧姆定律可以用线性模型完美地描述。 即使在中世纪,数学家对估计(estimation)也有敏锐的直觉。例如,雅各布·克贝尔 (1460–1533)18的几何学 书籍举例说明,通过平均16名 sum().backward() x.grad == 2 * x tensor([True, True, True, True]) 2.5.4 Python控制流的梯度计算 使用自动微分的一个好处是:即使构建函数的计算图需要通过Python控制流(例如,条件、循环或任意函数 调用),我们仍然可以计算得到的变量的梯度。在下面的代码中,while循环的迭代次数和if语句的结果都取 决于输入a的值。0 码力 | 797 页 | 29.45 MB | 1 年前3
《TensorFlow 2项目进阶实战》1-基础理论篇:TensorFlow 2设计思想模型格式 TensorFlow 2 vs TensorFlow 1.x Keras vs TensorFlow 1.x TensorFlow 1.x 工作流 Full of abstract notions TensorFlow 2 工作流 Native Friendly to TensorFlow 生产级 AI 方案 TensorFlow 2 落地应用 TensorFlow 与移动互联网的结合0 码力 | 40 页 | 9.01 MB | 1 年前3
亚马逊AWSAI Services OverviewAmazon 的人工智能&深度学习 围绕数据的“飞轮” 机器学习 深度学习 人工智能 更多的用户 更好的产品 更多的数据 更好的分析 对象存储 数据库 数据仓库 数据流分析 商业智能 Map/Reduce 内存数据库 数据检索 点击流 用户活动 内容生成 购买 点击 喜好 传感器数据 机器学习& 人工智能 大数据 更多的用户 更好的产品 更多的数据 更好的分析 围绕数据的“飞轮” 算法0 码力 | 56 页 | 4.97 MB | 1 年前3
PyTorch OpenVINO 开发实战系列教程第一篇而在深度学习框架中编程模式主要是基于计算图、张量数据、 自动微分、优化器等组件构成。面向对象编程运行的结果是交 互式可视化的,而深度学习通过训练模型生成模型文件,然后 再使用模型预测,本质数据流图的方式工作。所以学习深度学 习首先必须厘清深度学习编程中计算图、张量数据、自动微分、 优化器这些基本术语概念,下面分别解释如下: ● 张量 张量是深度学习编程框架中需要理解最重要的一个概念,张量 张量跟算子 / 操作数一起构成了计算图,它们是也是计算图的 基本组成要素。 ● 计算图 深度学习是基于计算图完成模型构建,实现数据在各个计算图 节点之间流动,最终输出,因此计算图又被称为数据流图。 根据构建计算图的方式不同还可以分为静态图与动态图, Pytorch 默认是基于动态图的方式构建计算图,动态图采用类 似 python 语法,可以随时运行,灵活修改调整;而静态图则 是效率0 码力 | 13 页 | 5.99 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据储格式 Worker和PS的资源同构 Worker和PS可以各自配置资源 不支持GPU调度 支持GPU调度 迁移成本较高 迁移成本低 嵌入到Spark计算框架里,方便打通 数据流 实现了一种新的Yarn Applica\on,可 以与TensorFlow灵活整合和功能定制 代码量几百行 代码量几千行 About MeYuance 0 码力 | 32 页 | 4.06 MB | 1 年前3
共 17 条
- 1
- 2













