从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱从推荐模型的基础特点看 袁镱 腾讯 个⼈简介 � ⽆量系统 � 项⽬于17年启动,先后经过了6个主要版本的 迭代 � 覆盖腾讯PCG全部业务的推荐场景,⽀持腾讯 IEG,CSIG,QQ⾳乐,阅⽂等业务的部分推 荐场景 � 袁镱 博⼠,专家⼯程师 � 研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, 上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 排序 混排 模型 管理 上线 管理 ⽆量 RGW/Cos/ kafka 样本 存储 实时样本 ⽣成服务 离线样本 ⽣成任务 请求 � 推荐场景的重要性 � PCG的图⽂,视频推荐(腾讯视频,腾讯新 闻,QQ看点,浏览器,微视, QQ⼩世界等) � 腾讯系内容推荐:阅⽂集团,QQ⾳乐 � Facebook推荐场景推理成本占AI推理成本的 >72% [ISCA2020 RecNMP] � 千亿级推荐模型应⽤ O1. 千亿级特征(TB级)的模型的在线/离 线训练,在线推理服务和持续上线 O2. 针对推荐特点的深度优化,达到业界先0 码力 | 22 页 | 6.76 MB | 1 年前3
搜狗深度学习技术在广告推荐领域的应用搜狗深度学习技术在广告推荐领域的应用 舒鹏 目录 CONTENTS 01 搜索广告背景知识 02 深度学习在搜狗搜索广告的一些应用 03 基于多模型融合的CTR预估 04 若干思考 搜索广告背景知识 信息需求 用户查询 查询理解 广告召回 点击率预估 排序计价 结果展示 点击及后续行为 广告库 日志收集 展示日志 点击日志 深度学习在搜狗搜索广告的一些应用 无需分词:基于字符粒度表达的问答系统设计 中长款 牛仔 外套 ResNet-50层 CNN-LSTM Encoder CNN CNN 中长款牛仔外套 Cosine-Loss 广告物料推荐 深度学习在搜狗搜索广告的一些应用 方向 用途 相关技术 图像理解 图片物料推荐 CNN 文本相关性 广告召回、创意生成 Word2Vec、CSR、LSTM CTR预估 广告排序、特征挖掘 DNN、MxNet、TensorFlow Google于16年6月份发表相应论文 用于应用商店中推荐APP的排序 基于TensorFlow平台,可兼具业界流行模型(LR、DNN)的优点 一次训练给出两个模型,流程简洁稳定,效果更佳 若干思考 若干思考 DL的强项 输入不规整 结果确定 容易获取的海量训练数据 1 CTR预估 特征有明确含义 场景相关,以用户为导向 很难界定“Ground Truth”0 码力 | 22 页 | 1.60 MB | 1 年前3
Istio + MOSN 在 Dubbo 场景下的探索之路多点生活在 Service Mesh 上的实践 Istio + MOSN 在 Dubbo 场景下的探索之路 陈鹏 多点生活 平台架构组研发工程师1/23 自我介绍 • 陈鹏、多点生活平台架构组研发工程师 • 开源项目与云原生爱好者 • 多年网上商城、支付系统相关开发经验 • 2019 年至今从事云原生和 Service Mesh 相关开发工作2/23 /01 /02 /03 为什么需要 为什么需要 Service Mesh 改造 探索 Istio 技术点 Dubbo 场景下 的改造 • 对比传统微服务架构 • 和 Service Mesh 化 之后有哪些优缺点 • MCP • Pilot • xDS • MOSN 结合 Istio 的技术点, 介绍多点生活目前的 探 索 以 及 服 务 发 现 Demo 的演示3/23 为什么需要 Service Mesh : RDS • cluster : CDS 和 EDS13/23 MOSN-listener14/23 MOSN-routers15/23 MOSN-cluster16/23 Dubbo 场景下的改造 /03 从数据面、控制面两个方面来介绍如何改造17/23 改造方案1 Istio+Envoy • 通过创建 EnvoyFilter 资源来给 xDS 资源打 patch • Envoy0 码力 | 25 页 | 3.71 MB | 6 月前3
函数计算在双11小程序场景中的应用函数计算在双11小程序场景中的应用 关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT自我介绍 •吴天龙(花名: 木吴) •阿里云函数计算技术专家 •2013 年加入阿里云,参与分布式数据库, 对象存储等产品的开发。现任阿里云函数 计算架构师,聚焦于 Serverless 产品功 能和大规模资源伸缩调度、性能优化等系 统核心能力的研发。❖ 函数计算介绍 ❖ 双11小程序场景介绍 ❖ 技术挑战 技术挑战 ❖ Demo 目录函数计算-介绍 • 通用Serverless计算平 台 • 与云端事件源无缝集成 • 弹性伸缩,按量付费函数计算-介绍双11小程序场景介绍小程序场景的挑战 n 安全隔离 n 开发效率 n 大量的小程序是不活跃的 n 活动高峰期流量激增函数计算-冷启动优化 Download & Extract Code User Code Init Logic Execution0 码力 | 13 页 | 6.95 MB | 6 月前3
运维上海2017-Kubernetes 在大规模场景下的service性能优化实战 - 杜军0 码力 | 38 页 | 3.39 MB | 1 年前3
阿里云上深度学习建模实践-程孟力阿里云深度学习实践 程孟力 花名: 杨熙 阿里巴巴-计算平台-PAI 个性化推荐 视频理解 智能对话系统 图像检索 更多场景 OCR识别 人脸核身 智能风控 自动驾驶 语音助手 • • • 优势: 效果 显著超越 传统模型(线性层模型 / 树模型 / SVM模型 / … ) 深度学习应用场景 沙漠 湖泊 旅行 深度学习应用主要的挑战: 2.模型效果优 化困难 化困难 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 1.方案复杂 从FM到DeepFM rt 增 加了10倍怎么优化? 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 海量数据 深度学习应用主要的挑战: 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 从FM到DeepFM rt 增 加了10倍怎么优化?0 码力 | 40 页 | 8.51 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波目录 1.推荐篇 2.平台篇 3.总结篇 1 目录 • 推荐场景 • 推荐 • 在线机器学习 • 深度学习 • 平台背景 • 平台架构 • 平台效果 • 微博技术里程碑 • 微博业务生态 推荐篇 APPLICATION 推荐场景、在线机器学习和深度学习 11 1 推荐场景 • 信息流 热门流 视频流 关系流 • 推荐流 图片推荐流 正文推荐流 视频推荐流 1 1 推荐场景 • 推荐 • 在特定场景下,根据用户行为和特点,向用户推荐感兴趣的对象集 • 模型: • 趋势 • 实时化:在线机器学习 • 深度化:深度学习 • 平台化:机器学习平台 2 推荐 • 实时化 • 特征实时化:更及时反馈用户行为,更细粒度刻画用户 • 模型实时化:根据线上样本实时训练模型,及时地反映对象的线上变化 模型推理 预测服务 实时特征 实时数据 3 在线机器学习 多目标:点击FM+互动FM 排序损失:DeepFM+Pair-Wise Rank Loss 多目标 融合点击模型和 互动模型 单目标 LR、W&D、 FM和DeepFM 等模型排序 排序损失 针对信息流业务场景,从 点击损失升级到排序损 失,基础模型为 DeepFM,排序损失为 BPR 召 回 排 序 • 深度学习模型训练:WeiLearn 样本库 WeiLearn-深度学习模型训练 CTR样本0 码力 | 36 页 | 16.69 MB | 1 年前3
超大规模深度学习在美团的应用-余建平支持千亿 级别规模的深度学习系统,与推荐、搜索、广告业务深度合作,在算法上提供从召回到 排序的全系统优化方案,在工程上提供离线、近线、在线的全流程解决方案。 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台架构 • 模型场景应用 召回模型 排序模型 美团超大规模模型应用场景 美团推荐 美团搜索 美团广告 美团应用场景简介 • 场景特点 亿级的用户,千万级的O2O商品 海量的用户行为,完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX • 模型场景应用 召回模型 排序模型 超大规模模型的有效性 • VC维理论 描述模型的学习能力:VC维越大模型越复杂,学习能力越强 机器学习能力 = 数据 + 特征 + 模型 • 数据 海量数据: 美团的亿级用户、千万级POI • 特征 大规模离散特征 > 小规模泛化特征 • 模型 DNN > 树模型 > LR 美团超大规模模型应用场景 • 可扩展的机器学习架构0 码力 | 41 页 | 5.96 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达我们发现,许多组件库之所以受到批评,是因为所有者团队无法快速响应消费者的需求,并且无法接受来自外 部的贡献。产品为中心的思维方式还要求组织思考是否应该允许和怎样向设计系统做出贡献,以及如何管理这 些贡献——在这个话题上,我们推荐采用设计系统决策记录。对我们来说,维护一个良好的设计系统或组件库 不光是技术工作,也同样是社交工作。 2. 轻量级的 RFCs 方法 采纳 Request for Comments(RFC) 首先,在测试验证元素时,通过 ARIA 角色或者元素的其它语义化属性查找元素,而不采用元素的 test id 或 class 属性。像 Testing Library 的一些测试库甚至已经在文档中推荐了这一实践。其次,不要仅仅测试点击交互,还 要考虑不能使用鼠标或看不到屏幕的人,并考虑增加针对键盘和其他交互方式的额外测试。在我们的团队中,上 述测试设计实践已十分成熟,并且我们已在不久前将其纳入测试闭环中。 Reserved. 14 7. OIDC for GitHub Actions 试验 推荐实现 CI/CD 的零信任安全的技术之一是通过使用 OpenID Connect(OIDC)等联合身份机制对流水线进行 身份验证,以访问云服务。这一重要的技术仍未被充分利用在 GitHub Actions 中,因此推荐 OIDC for GitHub Actions。通过这种方式,可以避免存储长期的访0 码力 | 43 页 | 2.76 MB | 1 年前3
Docker 从入门到实践 0.9.0(2017-12-31)章讨论了关于 Docker 安全和实现技术等高级 话题。后续章节则分别介绍包括 Etcd、CoreOS、Kubernetes、Mesos、容器云等热门开源 项目。最后,展示了使用容器技术的典型的应用场景和实践案例。 在线阅读:GitBook,Github,国内镜像 下载:pdf, epub 离线阅读 Docker 自身仍在快速发展中,生态环境也在蓬勃成长。建议初学者使用最新版的 Docker 64 位的 x86 平台或 ARM 平台上。Ubuntu 发行版中,LTS(Long- Term-Support)长期支持版本,会获得 5 年的升级维护支持,这样的版本会更稳定,因此在 生产环境中推荐使用 LTS 版本,当前最新的 LTS 版本为 Ubuntu 16.04。 卸载旧版本 旧版本的 Docker 称为 docker 或者 docker-engine ,使用以下命令卸载旧版本: linux-image-extra-* ) ,以 减少内核软件包的体积。正常安装的系统应该会包含可选内核模块包,而一些裁剪后的系统 可能会将其精简掉。 AUFS 内核驱动属于可选内核模块的一部分,作为推荐的 Docker 存储层 驱动,一般建议安装可选内核模块包以使用 AUFS 。 如果系统没有安装可选内核模块的话,可以执行下面的命令来安装可选内核模块包: $ sudo apt-get update0 码力 | 370 页 | 6.73 MB | 1 年前3
共 204 条
- 1
- 2
- 3
- 4
- 5
- 6
- 21













