从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱Embedding以稀疏的⽅式表达信息 ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) 训练框架—基于参数服务器架构的分布式训练框架 TB级模型 分⽚ 存储/更新 百TB数据 分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中,只有部分参数被⽤到 参数按需 32/40/80GB 正在训练的参数 分布式训练的慢机与同步问题 � Feature 2.1: 短时间内只有部分item和user被命中, 只有部分参数被⽤到 � GPU训练的优势 � 更少的机器节点,更少的分布式系统相关问题 � 更⾼的性价⽐ 1. 减少节点数 2. 提升节点同 构性 推理服务—分布式Serving架构 � 读写架构 � 多线程⽆锁:基于模型版本的读写分离0 码力 | 22 页 | 6.76 MB | 1 年前3
超大规模深度学习在美团的应用-余建平案。 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 美团超大规模模型应用场景 美团推荐 美团搜索 美团广告 美团应用场景简介 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 超大规模模型的有效性 • VC维理论 描述模型的学习能力:VC维越大模型越复杂,学习能力越强 机器学习能力 = 数据 + 特征 + 美团的亿级用户、千万级POI • 特征 大规模离散特征 > 小规模泛化特征 • 模型 DNN > 树模型 > LR 美团超大规模模型应用场景 • 可扩展的机器学习架构 基于Parameter Server架构 数据并行 —— 支持超大规模训练集 模型并行 —— 支持超大规模模型 • 业界千亿级以上的机器学习平台 开源: PaddlePaddle、XDL,etc0 码力 | 41 页 | 5.96 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波@黄波_WB 资深技术专家 2019.5 目录 1.推荐篇 2.平台篇 3.总结篇 1 目录 • 推荐场景 • 推荐 • 在线机器学习 • 深度学习 • 平台背景 • 平台架构 • 平台效果 • 微博技术里程碑 • 微博业务生态 推荐篇 APPLICATION 推荐场景、在线机器学习和深度学习 11 1 推荐场景 • 信息流 热门流 视频流 关系流 • • PS&MPI:DistributionStrategy API,统一分布式语义,解耦分布式架构与模型训练框架 • 使用FP16通信,使用FP32做计算,带宽压力降低一倍 • IO优化 • 多线程样本并发读取,样本读取与计算PIPELINE,实现计算与IO的overlap 4 深度学习-深度学习模型训练 • 分布式模型推理框架:WeiServing 异构CPU集群 kubernetes/ol-submit 机制 特征映射 Embedding 数据处理 异构GPU集群 CNN 业务应用 模型服务 框架 排序模型服务 多媒体分析服务 自然语言分析服务 集群调度层 核心架构层 算法模型层 4 深度学习-分布式模型推理 • 推理性能优化 • 减少计算量: operator fusion/XLA/TVM/prune/float16/quantization • 加快计算速度: ba0 码力 | 36 页 | 16.69 MB | 1 年前3
动手学深度学习 v2.0分类问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.4.2 网络架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.4.3 全连接层的参数开销 训练模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 9.6 编码器‐解码器架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 9.6.1 编码器 . . 的例子都证明了这一进展。即使是业余的涂鸦者也可以根据描述 场景布局的草图生成照片级真实图像((Park et al., 2019) )。 • 在许多情况下,单个GPU不足以处理可用于训练的大量数据。在过去的十年中,构建并行和分布式训练 算法的能力有了显著提高。设计可伸缩算法的关键挑战之一是深度学习优化的主力——随机梯度下降, 它依赖于相对较小的小批量数据来处理。同时,小批量限制了GPU的效率。因此,在1024个GPU上进行0 码力 | 797 页 | 29.45 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒智慧城市与基于深度学习的 机器视觉 演讲者/陈宇恒 概要 • 我们是谁 • 智慧城市中机器视觉应用 • 我们是如何构建城市级AI+智慧城市系统 • 大规模深度学习实战系统的几点经验 l商汤科技联合创始人,架构师 lC++/Go/Rust/Ruby开发者 l多个开源项目贡献者 lNIPS国际会议论文作者 @chyh1990 2017.6 2016.3 2015.11 2014.6 2013 Google5000万美元招入 Hinton,发布基于深度学习的 搜索引擎 Microsoft 深度学习驱动的语音 识别大幅提升精度 软银孙正义设立1000亿美元人 工智能基金,320亿美元收购芯 片架构公司ARM 2016.7 公司简介 历史业绩 领先技术 20年 科研经验 800余位 技术研发人员 150余位 人工智能博士 唯一 深度学习 平台公司 累计融资 全球最大 共同发展 AI+金融 AI+智慧城市 AI+芯片 AI+无人驾驶 AI+智能手机 AI+医疗图像 AI+智慧城市:以智能安防场景为例 特征向量 AI+智慧城市 2015-2017 l单机、简易分布式人脸检测、跟踪、比对平台 l处理数十路到数百路监控摄像头数据 l千万级别深度学习特征检索 l行业试水 2018-2019 l云原生Cloud-Native超大规模视图存储、处理、检 索 l处0 码力 | 23 页 | 9.26 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据example.com:2222” ], “ps”: [ “ps0.example.com:2222”, “ps1.example.com:2222” ]}) 分布式版本ClusterSpec定义:� 带来的问题:� • ⼿动指定机器很繁琐� • 端⼝冲突� • 机器负载不均� TensorFlow使用现状及痛点 • ⼿动分发训练样本� • ⼿动拉取训练模型� 作业的统⼀管理、状态跟踪� • 资源组(Schedule Pool)的划分� • 作业进程的资源隔离� Yarn能解决什么问题:� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息,仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • --board-enable true \ #是否开启Tensorboard服务� --conf tf.file.download.thread.nums=10 #其他参数设置� 提交脚本示例(分布式版本):� TensorFlow on Yarn设计 Yarn首页作业信息:� 作业类型 集群GPU资源概况 作业分配到的GPU数量 TensorFlow on Yarn设计0 码力 | 32 页 | 4.06 MB | 1 年前3
AI大模型千问 qwen 中文文档llama.cpp llama.cpp 是一个 C++ 库,用于简化 LLM 推理的设置。它使得在本地机器上运行 Qwen 成为可能。该库是 一个纯 C/C++ 实现,不依赖任何外部库,并且针对 x86 架构提供了 AVX、AVX2 和 AVX512 加速支持。此 外,它还提供了 2、3、4、5、6 以及 8 位量化功能,以加快推理速度并减少内存占用。对于大于总 VRAM 容量的大规模模型,该库还支持 CPU+GPU install vLLM>=0.3.0 ,但如果你正在使用 CUDA 11.8,请查看官方文档中的注意事项以获取有关安装的帮助(链接 )。我们也建议你通过 pip install ray 安装 ray,以便支持分布式服务。 1.10. vLLM 19 Qwen 1.10.2 离线推理 Qwen2 代码支持的模型,例如 Qwen1.5,都被 vLLM 所支持。vLLM 最简单的使用方式是通过以下演示进行 离线批量推理。 something about large language models."}, ] ) print("Chat response:", chat_response) 1.10.4 多卡分布式部署 要提高模型的处理吞吐量,分布式服务可以通过利用更多的 GPU 设备来帮助您。特别是对于像 Qwen1. 5-72B-Chat 这样的大模型,单个 GPU 无法支撑其在线服务。在这里,我们通过演示如何仅通过传入参数0 码力 | 56 页 | 835.78 KB | 1 年前3
谭国富:深度学习在图像审核的应用经过多轮优化,可以准确快速地识别图片中所包含的 各类图标 l 烟雾,吸烟识别 Ø 基于视频直播监管需求, 提供吸烟,烟雾,涉嫌吸毒 等场景的识别能力 SACC2017 深度学习介绍 深度网络训练选择 加快训练 - 分布式训练系统 图像海量数据的积累 02 深度学习技术介绍 加快计算 - 深度学习算法加速 RPN SACC2017 技 术 发 展 应 用 突 破 1956 达特茅 斯会议 标志AI 诞生 生成样本数据 – 深度生成对抗网络 SACC2017 深度学习 训练框架 和 硬件选择 不同场景,不同框架 特性 GTX - 1080TI G7-P40 PCIe-V100 GPU核心 GPU微架构 Pascal Pascal Volta 核心代号 GP104 GP102 GV100 Tensor Cores NA NA 640 CUDA核数量 3456 3840 5120 处理器制程 client 管理数据 提取模型、 查看日志 提交/管理任务 用户 docker.oa.co m 自动拉取镜像 Redis 冷数据 热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网 络波动引起的异常 • 监控任务运行状况,当任务发生异常时,选 择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化,快速屏蔽/启动异常机器0 码力 | 32 页 | 5.17 MB | 1 年前3
经典算法与人工智能在外卖物流调度中的应用经典算法与深度学习 在外卖物流调度中的应用 SPEAKER / 徐明泉 百度外卖首席架构师 引言:外卖配送的背后 2 引言:外卖订单调度系统要考虑的因素 3 订单相关 骑士相关 • 商户、用户位置 • 用户期望时间 • 预计出餐时间.. • 现有订单的配送路线 • 新增订单后配送路线的改变情况 • 历史取送餐速度 • 完成每个订单的预计时间 • 熟悉的区域 • 配送工具 配送时长预估模型 • 基于现有状况、订单增速、消 化速度、天气、当前手段等多 维特征,使用XGBoost模型回 归预测未来五分钟进单的平均 配送时长 • 分商圈、分时段、多模型的精 细化预估 • 分布式、多线程、并行计算最 佳分割点,满足海量数据的实 时性要求 • 在供需失衡之前,即实施调控 手段 5 供需平衡 14 5.2 单量调控模型 • 通过价格平衡未来的进单量 和系统可承载的单量0 码力 | 28 页 | 6.86 MB | 1 年前3
《TensorFlow 2项目进阶实战》1-基础理论篇:TensorFlow 2设计思想TensorFlow 2 核心模块 TensorFlow 2 核心模块概览 tf.keras:分布式和高性能的 Keras • 构建和训练模型的高层次 API • API 完全兼容原生 Keras • 支持保存和加载 TensorFlow SavedModel • 支持 Eager Execution • 支持分布式训练 tf.data:功能强大的数据管理模块 支持多种数据处理 图像解码 Shuffle py_function 重采样 支持多种数据格式 图像文件 文本文件 CSV 文件 NumPy 数组 Python 生成器 TFRecord 支持多种数据来源 本地文件 分布式文件系统 对象存储系统 tf.distribute:一行代码实现分布式 Training API MirroredStrategy TPUStrategy MultiWorkerMirro redStrategy CentralStorageSt CPU 环境的分布式 YOLOv3 实现》 魂斗罗游戏中识别角色 K8s Pod K8s Pod K8s Pod Horovod(CPU) on Kubernetes model TensorFlow Serving Keras 模型训练 • DataGenerator • 随机读取 … … 图片训练集 Ceph 数据并行实现 基于 Horoved CPU 平台的分布式模型训练及部署0 码力 | 40 页 | 9.01 MB | 1 年前3
共 25 条
- 1
- 2
- 3













