多租户资源 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

被命中，只有部分参数被⽤到参数按需获取/更新 Storage 异步训练流⽔线和多级存储：提升性能，降低内存成本 � 问题： � Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数就绪，Parameter Server难以利⽤速度慢的存储介质样本读取样本解析参数拉取训练参数更新查询Sparse Table 查询Dense 多线程⽆锁：基于模型版本的读写分离 � 多机：多副本并⾏读取 � CPU：固定64位key，基于L1缓存的查询优化 � 业务需求 � 模型⼤⼩超TB � 单个请求需要15W个key � 耗时要求10ms以下 � 资讯业务请求量⼤（>10000请求/秒） � 模型有多个版本 � 原有在线分布式存储系统的问题 � 主备模式资源严重浪费 � 数据读写需要加锁 � ⽀持多模型和模型多版本困难 CPU型服务 Feature 2.2 Hotkey缓存优化 <10台内存型服务并发查询优化数⼗台⽹络型服务 TB级模型实时上线 � 问题：TB模型实时多地传输和加载成本⾼ � ⽅案：⾼低频分别上线 � 更灵活的⽤法：模型多切⽚，按需上线 � Dssm � wdl ... 分布式Serving集群副本1 副本2 Group 1 Group N 副本1 副本2 推理节点

0 码力 | 22 页 | 6.76 MB | 1 年前
3
动手学深度学习 v2.0

7 更多延迟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525 12.5 多GPU训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528 12 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533 12.6 多GPU的简洁实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536 12.6.1 12.7.2 环同步（Ring Synchronization） . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542 12.7.3 多机训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545 12.7.4 键值存储

0 码力 | 797 页 | 29.45 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

TensorFlow使用现状及痛点 • 多⼈多服务器使用混乱，计算资源如何划分？� • 没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 • 集群资源的管理（目前支持CPU、内存，需要扩展GPU 集群资源的管理（目前支持CPU、内存，需要扩展GPU 资源管理）� • 作业的统⼀管理、状态跟踪� • 资源组（Schedule Pool）的划分� • 作业进程的资源隔离� Yarn能解决什么问题：� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 和ps的数量� download.thread.nums=10 #其他参数设置� 提交脚本示例（分布式版本）：� TensorFlow on Yarn设计 Yarn首页作业信息：� 作业类型集群GPU资源概况作业分配到的GPU数量 TensorFlow on Yarn设计 TensorFlow作业AM页面：� Container所在的机器� 分配到的GPU物理设备号� tensorboard

0 码力 | 32 页 | 4.06 MB | 1 年前
3
谭国富：深度学习在图像审核的应用

FP32 (TFLOPS) 10.6 12 14 FP16 (TFLOPS) NA NA 113 Tensor (TFLOPS) NA NA 112 TDP 250W 250W 250W 预算多V100，预算少1080 TI SACC2017 深度学习 – 打通训练和应用的闭环 RapidFlow 训练平台底层硬件加速操作系统应用场景 add conv w x 2 WK Job 3 监控/启停任务调度/资源管理监控上报 cephfs存储集群本地文件系统数据模型/日志 client 管理数据提取模型、查看日志提交/管理任务用户 docker.oa.co m 自动拉取镜像 Redis 冷数据热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练，不可避免遇到由于硬件/网络波动引起的异常监控任务运行状况，当任务发生异常时，选择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化，快速屏蔽/启动异常机器 • 灵活的资源分配 • 支持以 GPU 或节点为粒度进行资源分配 • 用户配置任务所需最小资源 • 自动扩缩容，最大化资源使用率 • 支持不同计算框架 • 调度与任务松耦合，用户可以灵活定义任务 • 支持配置 docker 镜像，完全自定义运行环境 •

0 码力 | 32 页 | 5.17 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

关英文文献时，不至于感到陌生。尽管每天都有深度学习相关算法论文的发布，但是作者相信，深度学习的核心思想和基础理论是共通的。本书已尽可能地涵盖其中基础、主流并且前沿的算法知识，但是仍然有很多算法无法涵盖，读者学习完本书后，可以自行搜索相关方向的研究论文或资料，进一步学习。深度学习是一个非常前沿和广袤的研究领域，鲜有人士能够对每一个研究方向都有深刻的理解。作者自认才疏学浅，略懂游戏平台中的 49 个游戏上取得了与人类相当甚至超越人类的水平；在围棋领域，DeepMind 提出的 AlphaGo 和 AlphaGo Zero 智能程序相继打败人类顶级围棋专家李世石、柯洁等；在多智能体协作的 Dota2 游戏平台，OpenAI 开发的 OpenAI Five 智能程序在受限游戏环境中打败了 TI8 冠军队伍 OG 队，展现出了大量专业级的高层智能操作。图 1.9 列出了 2006 Learning 等方向上取得了不少进展。美国波士顿动力公司在机器人应用中取得喜人的成就，其制造的机器人在复杂地形行走、多智能体协作等任务上表现良好(图 1.19)。自动驾驶(Autonomous Driving) 被认为是强化学习短期内能技术落地的一个应用方向，很多公司投入大量资源在自动驾驶上，如百度、Uber、Google 等，其中百度的无人巴士“阿波龙”已经在北京、雄安、武汉等地展开试运营；在长沙，市民已经可以免费乘坐

0 码力 | 439 页 | 29.91 MB | 1 年前
3
AI大模型千问 qwen 中文文档

from_pretrained(model_path) model = AutoGPTQForCausalLM.from_pretrained(model_path, quantize_config) 但是，如果你想使用多 GPU 来读取模型，你需要使用 max_memory 而不是 device_map。下面是一段示例代码： model = AutoGPTQForCausalLM.from_pretrained( "Tell me something about large language models."}, ] ) print("Chat response:", chat_response) 1.10.4 多卡分布式部署要提高模型的处理吞吐量，分布式服务可以通过利用更多的 GPU 设备来帮助您。特别是对于像 Qwen1. 5-72B-Chat 这样的大模型，单个 GPU 无法支撑其在线服务。在这里，我们通过演示如何仅通过传入参数 llm = LLM(model="Qwen/Qwen1.5-72B-Chat", tensor_parallel_size=4) 您可以通过传递参数 --tensor-parallel-size 来运行多 GPU 服务： python -m vllm.entrypoints.api_server \ --model Qwen/Qwen1.5-72B-Chat \ --tensor-parallel-size

0 码力 | 56 页 | 835.78 KB | 1 年前
3
超大规模深度学习在美团的应用-余建平

Abacus、XPS， etc. • Online Learning的价值  用户的近期行为，更能表现意图和偏好  增强新item的模型感知能力 • 更快数据反馈、更少资源消耗  分钟级的数据反馈  增量训练、避免batch重训带来的资源消耗关于Online Learning MLX的模型能力 • 支持千亿级特征、千亿级样本 • 支持计算图模式，模型结构灵活多样  支持推荐、搜索、广告场景常用的深度学习模型 Ps分布式分片的均衡，避免分片大小不一致  NN网络矩阵按行切分，解决请求包不均衡问题  特征按照Hash方式分布式存储 • 模型并行调超参  grid search  random search PS的多模型训练 • 提高内存使用效率  model group内共享特征key的存储 • 超大规模模型 -> 高扇出的分布式PS • 长尾效应：单个分片的抖动（网络、CPU）对请求影响变大  单分片4个9的可用性 Learning对数据流的要求  不重不丢：重复的数据会使模型有偏，数据的缺失会使模型丢失重要信息  数据有序性：数据乱序会导致样本穿越的现象 • Log Join框架  双流拼接框架，通过组合方式支持多流拼接  基于Event Time的Window机制拼接方式  基于Low Watermark解决流乱序、流延迟等流式常见问题流式拼接框架 • Low Watermark机制  定义了流式数据的时钟，不可逆性

0 码力 | 41 页 | 5.96 MB | 1 年前
3
阿里云上深度学习建模实践-程孟力

训练推理:  高qps, 低rt  支持超大模型  性价比流程长、环节多:  推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动  实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸识别 … 模型构建: 问题: ✗ 方案复杂周期长/见效慢 ✗ 细节多难免踩坑解决方案: 标准化  标准化模型库  标准化解决方案 1.方案复杂  训练优化:  数据并行  模型并行  推理优化: Blade  推荐模型优化: 千亿特征 3. 工程优化 RingAllReduce + 层级级联 EasyVision 多机多卡性能对比工程优化: 数据并行  M6模型  Transformer模型: RapidFormer  人脸分类模型: 超大softmax  3D卷积模型 M6模型 RapidFormer性能解决方案:  智能标注  自监督学习  多模态预训练  小样本学习解决方案: 智能标注系统iTags 智能抠图智能抠图智能贴合智能预标注 + 人机协同解决方案: 自监督学习 Moby: swin-transformer based moco. Image features 推荐模型特征图像搜索解决方案: 多模态预训练 Swin transformer

0 码力 | 40 页 | 8.51 MB | 1 年前
3
搜狗深度学习技术在广告推荐领域的应用

搜狗深度学习技术在广告推荐领域的应用舒鹏目录 CONTENTS 01 搜索广告背景知识 02 深度学习在搜狗搜索广告的一些应用 03 基于多模型融合的CTR预估 04 若干思考搜索广告背景知识信息需求用户查询查询理解广告召回点击率预估排序计价结果展示点击及后续行为广告库日志收集展示日志点击日志深度学习在搜狗搜索广告的一些应用无需分词：基于字符粒度表达的问答系统设计用途相关技术图像理解图片物料推荐 CNN 文本相关性广告召回、创意生成 Word2Vec、CSR、LSTM CTR预估广告排序、特征挖掘 DNN、MxNet、TensorFlow 基于多模型融合的CTR预估 CTR预估流程原始数据领域特征模型训练查询日志点击日志查询特征广告特征匹配特征线性模型非线性模型 Data Feature Model 线上Server  加大数据量，提升模型稳定性  加大数据量，提升模型收益方案  MxNet支持多机多卡, 使用成本低  构建多机多卡 GPU集群，优化训练效率，提高加速比现状和计划现状  已经实现LR+DNN融合模型的上线，收益较好  受限于线上计算资源，模型复杂度有限  线下训练流程有依赖，繁琐易出错计划  线上服务拆分，独立出深度学习计算模块，采用低功耗GPU加速

0 码力 | 22 页 | 1.60 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

这被称为连续词袋结构，并在word2vec论文 one of the word2vec papers 中进行过描述。 18 3.Word2Vec 负采样计算的角度来看，SkipGram非常消耗资源：尤其是我们将在数据集中为每个训练样本做一次（很可能数千万次）。我们需要做一些事情来提高效率。一种方法是将目标分成两个步骤： 1.生成高质量的单词嵌入（不要担心下一个单词预测）。 2 务，尽管大量的未标记文本语料库非常丰富，但用于学习这些特定任务的标记数据却很少，这使得经过区分训练的模型很难充分执行。同时，大多数深度学习方法需要大量手动标记的数据，这限制了它们在许多缺少注释资源的领域的适用性。 ✓ 在考虑以上局限性的前提下，GPT论文中证明，通过对未标记文本的不同语料库进行语言模型的生成性预训练，然后对每个特定任务进行区分性微调，可以实现这些任务上的巨大收益。和之 GPT-3对GPT-2追求无监督与零次学习的特征进行了改进 ◼ GPT-3利用了过滤前45TB的压缩文本，在诸多NLP数据集中实现了强大性能 ✓ GPT-3是一个具有1750亿个参数的自回归语言模型，比之前的任何非稀疏语言模型多10倍。对于所有任务（在few-shot设置下测试其性能），GPT-3都是在没有任何梯度更新或微调的情况下应用的，仅通过与模型的文本交互来指定任务和few-shot演示。 ✓ GPT-3在许多

0 码力 | 44 页 | 2.36 MB | 1 年前
3

共 46 条前往

页

分类

语言

格式