分布式架构 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

Embedding以稀疏的⽅式表达信息⼤规模推荐模型深度学习系统基本解决维度分布式系统⼤规模模型优化算法 1. ⾼性能 2. 效果⽆损的优化 � Feature 1（基本特点） � Feature 2（数据的时空特点） � Feature3（机器学习的特点）⼤规模推荐模型深度学习系统基本解决维度分布式系统⼤规模模型优化算法 1. ⾼性能 2. 效果⽆损的优化 � Feature 1（基本特点） � Feature 2（数据的时空特点） � Feature3（机器学习的特点）训练框架—基于参数服务器架构的分布式训练框架 TB级模型分⽚存储/更新百TB数据分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中，只有部分参数被⽤到参数按需 32/40/80GB 正在训练的参数分布式训练的慢机与同步问题 � Feature 2.1: 短时间内只有部分item和user被命中，只有部分参数被⽤到 � GPU训练的优势 � 更少的机器节点，更少的分布式系统相关问题 � 更⾼的性价⽐ 1. 减少节点数 2. 提升节点同构性推理服务—分布式Serving架构 � 读写架构 � 多线程⽆锁：基于模型版本的读写分离

0 码力 | 22 页 | 6.76 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

案。目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型美团超大规模模型应用场景美团推荐美团搜索美团广告美团应用场景简介 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型超大规模模型的有效性 • VC维理论  描述模型的学习能力：VC维越大模型越复杂，学习能力越强  机器学习能力 = 数据 + 特征 + 美团的亿级用户、千万级POI • 特征  大规模离散特征 > 小规模泛化特征 • 模型  DNN > 树模型 > LR 美团超大规模模型应用场景 • 可扩展的机器学习架构  基于Parameter Server架构  数据并行 —— 支持超大规模训练集  模型并行 —— 支持超大规模模型 • 业界千亿级以上的机器学习平台  开源： PaddlePaddle、XDL，etc

0 码力 | 41 页 | 5.96 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

@黄波_WB 资深技术专家 2019.5 目录 1.推荐篇 2.平台篇 3.总结篇 1 目录 • 推荐场景 • 推荐 • 在线机器学习 • 深度学习 • 平台背景 • 平台架构 • 平台效果 • 微博技术里程碑 • 微博业务生态推荐篇 APPLICATION 推荐场景、在线机器学习和深度学习 11 1 推荐场景 • 信息流热门流视频流关系流 • • PS&MPI：DistributionStrategy API，统一分布式语义，解耦分布式架构与模型训练框架 • 使用FP16通信，使用FP32做计算，带宽压力降低一倍 • IO优化 • 多线程样本并发读取，样本读取与计算PIPELINE，实现计算与IO的overlap 4 深度学习-深度学习模型训练 • 分布式模型推理框架：WeiServing 异构CPU集群 kubernetes/ol-submit 机制特征映射 Embedding 数据处理异构GPU集群 CNN 业务应用模型服务框架排序模型服务多媒体分析服务自然语言分析服务集群调度层核心架构层算法模型层 4 深度学习-分布式模型推理 • 推理性能优化 • 减少计算量： operator fusion/XLA/TVM/prune/float16/quantization • 加快计算速度： ba

0 码力 | 36 页 | 16.69 MB | 1 年前
3
动手学深度学习 v2.0

分类问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.4.2 网络架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.4.3 全连接层的参数开销训练模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 9.6 编码器‐解码器架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 9.6.1 编码器 . . 的例子都证明了这一进展。即使是业余的涂鸦者也可以根据描述场景布局的草图生成照片级真实图像（(Park et al., 2019) ）。 • 在许多情况下，单个GPU不足以处理可用于训练的大量数据。在过去的十年中，构建并行和分布式训练算法的能力有了显著提高。设计可伸缩算法的关键挑战之一是深度学习优化的主力——随机梯度下降，它依赖于相对较小的小批量数据来处理。同时，小批量限制了GPU的效率。因此，在1024个GPU上进行

0 码力 | 797 页 | 29.45 MB | 1 年前
3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒

智慧城市与基于深度学习的机器视觉演讲者／陈宇恒概要 • 我们是谁 • 智慧城市中机器视觉应用 • 我们是如何构建城市级AI+智慧城市系统 • 大规模深度学习实战系统的几点经验 l商汤科技联合创始人，架构师 lC++/Go/Rust/Ruby开发者 l多个开源项目贡献者 lNIPS国际会议论文作者 @chyh1990 2017.6 2016.3 2015.11 2014.6 2013 Google5000万美元招入 Hinton，发布基于深度学习的搜索引擎 Microsoft 深度学习驱动的语音识别大幅提升精度软银孙正义设立1000亿美元人工智能基金，320亿美元收购芯片架构公司ARM 2016.7 公司简介历史业绩领先技术 20年科研经验 800余位技术研发人员 150余位人工智能博士唯一深度学习平台公司累计融资全球最大共同发展 AI+金融 AI+智慧城市 AI+芯片 AI+无人驾驶 AI+智能手机 AI+医疗图像 AI+智慧城市：以智能安防场景为例特征向量 AI+智慧城市 2015-2017 l单机、简易分布式人脸检测、跟踪、比对平台 l处理数十路到数百路监控摄像头数据 l千万级别深度学习特征检索 l行业试水 2018-2019 l云原生Cloud-Native超大规模视图存储、处理、检索 l处

0 码力 | 23 页 | 9.26 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

example.com:2222” ], “ps”: [ “ps0.example.com:2222”, “ps1.example.com:2222” ]}) 分布式版本ClusterSpec定义：� 带来的问题：� • ⼿动指定机器很繁琐� • 端⼝冲突� • 机器负载不均� TensorFlow使用现状及痛点 • ⼿动分发训练样本� • ⼿动拉取训练模型� 作业的统⼀管理、状态跟踪� • 资源组（Schedule Pool）的划分� • 作业进程的资源隔离� Yarn能解决什么问题：� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • --board-enable true \ #是否开启Tensorboard服务� --conf tf.file.download.thread.nums=10 #其他参数设置� 提交脚本示例（分布式版本）：� TensorFlow on Yarn设计 Yarn首页作业信息：� 作业类型集群GPU资源概况作业分配到的GPU数量 TensorFlow on Yarn设计

0 码力 | 32 页 | 4.06 MB | 1 年前
3
AI大模型千问 qwen 中文文档

llama.cpp llama.cpp 是一个 C++ 库，用于简化 LLM 推理的设置。它使得在本地机器上运行 Qwen 成为可能。该库是一个纯 C/C++ 实现，不依赖任何外部库，并且针对 x86 架构提供了 AVX、AVX2 和 AVX512 加速支持。此外，它还提供了 2、3、4、5、6 以及 8 位量化功能，以加快推理速度并减少内存占用。对于大于总 VRAM 容量的大规模模型，该库还支持 CPU+GPU install vLLM>=0.3.0 ，但如果你正在使用 CUDA 11.8，请查看官方文档中的注意事项以获取有关安装的帮助（链接）。我们也建议你通过 pip install ray 安装 ray，以便支持分布式服务。 1.10. vLLM 19 Qwen 1.10.2 离线推理 Qwen2 代码支持的模型，例如 Qwen1.5，都被 vLLM 所支持。vLLM 最简单的使用方式是通过以下演示进行离线批量推理。 something about large language models."}, ] ) print("Chat response:", chat_response) 1.10.4 多卡分布式部署要提高模型的处理吞吐量，分布式服务可以通过利用更多的 GPU 设备来帮助您。特别是对于像 Qwen1. 5-72B-Chat 这样的大模型，单个 GPU 无法支撑其在线服务。在这里，我们通过演示如何仅通过传入参数

0 码力 | 56 页 | 835.78 KB | 1 年前
3
谭国富：深度学习在图像审核的应用

经过多轮优化，可以准确快速地识别图片中所包含的各类图标 l 烟雾，吸烟识别 Ø 基于视频直播监管需求，提供吸烟，烟雾，涉嫌吸毒等场景的识别能力 SACC2017 深度学习介绍深度网络训练选择加快训练 - 分布式训练系统图像海量数据的积累 02 深度学习技术介绍加快计算 - 深度学习算法加速 RPN SACC2017 技术发展应用突破 1956 达特茅斯会议标志AI 诞生生成样本数据 – 深度生成对抗网络 SACC2017 深度学习训练框架和硬件选择不同场景，不同框架特性 GTX - 1080TI G7-P40 PCIe-V100 GPU核心 GPU微架构 Pascal Pascal Volta 核心代号 GP104 GP102 GV100 Tensor Cores NA NA 640 CUDA核数量 3456 3840 5120 处理器制程 client 管理数据提取模型、查看日志提交/管理任务用户 docker.oa.co m 自动拉取镜像 Redis 冷数据热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练，不可避免遇到由于硬件/网络波动引起的异常 • 监控任务运行状况，当任务发生异常时，选择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化，快速屏蔽/启动异常机器

0 码力 | 32 页 | 5.17 MB | 1 年前
3
经典算法与人工智能在外卖物流调度中的应用

经典算法与深度学习在外卖物流调度中的应用 SPEAKER / 徐明泉百度外卖首席架构师引言：外卖配送的背后 2 引言：外卖订单调度系统要考虑的因素 3 订单相关骑士相关 • 商户、用户位置 • 用户期望时间 • 预计出餐时间.. • 现有订单的配送路线 • 新增订单后配送路线的改变情况 • 历史取送餐速度 • 完成每个订单的预计时间 • 熟悉的区域 • 配送工具配送时长预估模型 • 基于现有状况、订单增速、消化速度、天气、当前手段等多维特征，使用XGBoost模型回归预测未来五分钟进单的平均配送时长 • 分商圈、分时段、多模型的精细化预估 • 分布式、多线程、并行计算最佳分割点，满足海量数据的实时性要求 • 在供需失衡之前，即实施调控手段 5 供需平衡 14 5.2 单量调控模型 • 通过价格平衡未来的进单量和系统可承载的单量

0 码力 | 28 页 | 6.86 MB | 1 年前
3
《TensorFlow 2项目进阶实战》1-基础理论篇：TensorFlow 2设计思想

TensorFlow 2 核心模块 TensorFlow 2 核心模块概览 tf.keras：分布式和高性能的 Keras • 构建和训练模型的高层次 API • API 完全兼容原生 Keras • 支持保存和加载 TensorFlow SavedModel • 支持 Eager Execution • 支持分布式训练 tf.data：功能强大的数据管理模块支持多种数据处理图像解码 Shuffle py_function 重采样支持多种数据格式图像文件文本文件 CSV 文件 NumPy 数组 Python 生成器 TFRecord 支持多种数据来源本地文件分布式文件系统对象存储系统 tf.distribute：一行代码实现分布式 Training API MirroredStrategy TPUStrategy MultiWorkerMirro redStrategy CentralStorageSt CPU 环境的分布式 YOLOv3 实现》魂斗罗游戏中识别角色 K8s Pod K8s Pod K8s Pod Horovod(CPU) on Kubernetes model TensorFlow Serving Keras 模型训练 • DataGenerator • 随机读取 … … 图片训练集 Ceph 数据并行实现基于 Horoved CPU 平台的分布式模型训练及部署

0 码力 | 40 页 | 9.01 MB | 1 年前
3

共 25 条前往

页

分类

语言

格式