从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱通讯量可以变⼩来提升训练速度么?---参数,梯度压缩 � 问题: � 参数w和梯度g占据主要的通讯量,拉⻓了请求时间 � 常规的数值⽆损的压缩⽅法效果不明显 � 业界主流做法: � 量化 � 稀疏化。累计发 送,需要做本地 梯度修正 float32->float16->int8->int4->2bit 直接压缩->训练算法补偿 [2020] Compressed Communication for Distributed 推荐技术 [KDD2020] DCAF: A Dynamic Computation Allocation Framework for Online Serving System � 推荐全链路⾃适应 � 统⼀建模,根据请求量削峰填⾕,资源利⽤最⼤化 [ijcai2021] UNBERT: User-News Matching BERT for News Recommendation GPT-3在CV/NLP⼤⾏其道, 相关技术正在进⼊推荐领域 问题1. 推荐链路的漏⽃ 是对资源的巨⼤浪费 问题2. 结果利⽤ 不充分,响应不 够快 [2021] MC2 -SF: Slow-Fast Learning for Mobile-Cloud Collaborative Recommendation 问题3. ⼏⼗个场 景,独⽴链路 总结 � 千亿级推荐模型应⽤ O1. 千亿级特征(TB级)的模型的在线/离线训练,0 码力 | 22 页 | 6.76 MB | 1 年前3
经典算法与人工智能在外卖物流调度中的应用构建模型综合评估用户体验与配 送成本打分 • 采用动态规划和模拟退火算法等 算法,求得最优路线 1 8 时间预估 用户下单 开始配送 骑士到店 骑士取餐 到达用户 完成交付 商户接单 商户出餐 到店时间 出餐时间 送餐时间 交付时间 等餐时间 2 到达识别,交付时间计算 数据积累,异常数据剔除 网格建立,分时段统计 交付时间预估 取餐/送餐分别回归拟合 骑士速度预估 个POI用户配送成本及 收益,指导商户配送 配送范围划分 分级配送缩短交付用户时长 根据不同POI的用户 交付时长及单量,测 算增加固定骑士进行 末端分级配送用户交 付成本和直接配送成 本,选取适合耳机配 送POI 精细指导骑士人数配置 根据仿真系统及历史 大数据精细模拟在不 同单量不同骑士数量 下配送体验,预估在 天气变化、运营活动 订单激增等情况下合 理骑士人数 商圈健康度诊断 综合分析商圈内用户、0 码力 | 28 页 | 6.86 MB | 1 年前3
机器学习课程-温州大学-14深度学习-Vision Transformer (ViT) 19 模型框架 最简洁的Vision Transformer模型 ,先将图片分成 16x16的patch块, 送入transformer encoder,第一个 cls token的输出送 入mlp head得到 预测结果。 2.模型介绍 20 来自输入空间的注意力表达 输入 输入 输入 注意力 注意力 注意力 2.模型介绍 21 左图展示了模型学习到的图嵌入,中图展0 码力 | 34 页 | 2.78 MB | 1 年前3
深度学习在电子商务中的应用有 人员 上门 帮忙 安装 调试 吗]; a : [安装 师傅 上门 安装 的] q : [零钱宝 没 得 钱 呢]; a : [您 可以 在 易付宝 里 申请 一下] q : [他 说 等下 就 送]; a : [那 您 可以 先 联系 下 厂家 的 电话] q : [不是 可以 上 网 看 优 酷 unk 吗]; a : [不支持 的 哦] q : [好 的 到 时候 再 说 吧]; a : [好0 码力 | 27 页 | 1.98 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒AI+智慧城市:以智能安防场景为例 特征向量 AI+智慧城市 2015-2017 l单机、简易分布式人脸检测、跟踪、比对平台 l处理数十路到数百路监控摄像头数据 l千万级别深度学习特征检索 l行业试水 2018-2019 l云原生Cloud-Native超大规模视图存储、处理、检 索 l处理数万到数十万路,城市范围级别监控、门禁摄 像头数据 l10-100 Billion级别深度学习特征检索 - PB以上级别数据库存储0 码力 | 23 页 | 9.26 MB | 1 年前3
动手学深度学习 v2.0∥x1 − x∗∥2是初始选择参数与最终结果之间距离的边界。简而言之,收敛速度取决于随机梯度标准 的限制方式(L)以及初始参数值与最优结果的距离(r)。请注意,边界由¯x而不是xT 表示。因为¯x是优化路 径的平滑版本。只要知道r, L和T,我们就可以选择学习率η = r/(L √ T)。这个就是上界rL/ √ T。也就是说, 我们将按照速度O(1/ √ T)收敛到最优解。 11.4.4 随机梯度和有限样本 ,数字分别是20(Ryzen9)和16(Core i9)。由 于GPU通常有16个通道,这就限制了以全带宽与CPU连接的GPU数量。毕竟,它们还需要与其他高带宽 外围设备(如存储和以太网)共享链路。与RAM访问一样,由于减少了数据包的开销,因此更适合大 批量数据传输。 • 以太网,连接计算机最常用的方式。虽然它比PCIe慢得多,但它的安装成本非常低,而且具有很强的弹 性,覆盖的距离也要长 :P2实例161就是将大量GPU连接到主机处理器。 • NVLink,是PCIe的替代品,适用于非常高带宽的互连。它为每条链路提供高达300Gbit/s的数据传输速 率。服务器GPU(Volta V100)有六个链路。而消费级GPU(RTX 2080Ti)只有一个链路,运行速度也 降低到100Gbit/s。建议使用NCCL162来实现GPU之间的高速数据传输。 12.4.7 更多延迟 表120 码力 | 797 页 | 29.45 MB | 1 年前3
Keras: 基于 Python 的深度学习库载后校验文件。 命令行程序 shasum 和 sha256sum 可以计算哈希。 参数 • fname: 文件名。如果指定了绝对路径 /path/to/file.txt,那么文件将会保存到那个路 径。 • origin: 文件的原始 URL。 • untar: 由于使用’extract’ 而已被弃用。布尔值,是否需要解压文件。 • md5_hash: 由于使用’file_hash’ 而已被弃用。用于校验的0 码力 | 257 页 | 1.19 MB | 1 年前3
共 7 条
- 1













