多集群配置 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

微博在线机器学习和深度学习实践-黄波

数据处理点击行为日志阅读行为日志曝光行为日志数据过滤样本拼接定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光，互动，点击，真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制，先到先走 • 定时轮寻，最长N分钟等待 • Kafka 堆积监控，实时报警 • 如何解决内存问题 • 调整内存参数 +WeiPS 样本生成和特征处理 1.配置化 2.多标签样本 3.支持高维HASH 训练预处理 1.标签选择 2.标签UDF 3.样本过滤 4.特征过滤模型训练 1.支持回归和分类 2.支持LR、FM、 DeepFM等模型 3.支持SGD 、 FTRL 、 Adagrad等优化算法模型评估 1.独立模型评估 2.配置化 3.UI展示 3 在线机器学习-实时模型训练 HDFS Param Server System Model Serving System 3 在线机器学习-参数服务器 • 参数规模 • 支持百亿特征维度，千亿参数 • 模型版本 • 多模型多版本：多组实验并行执行，提高实验迭代效率 • 在线版本切换：基于ZK的版本感知机制，动态进行版本切换，实现BASE模型的热更新，实时训练与离线训练周期模型融合 • 模型结构训练与推理兼容：在线

0 码力 | 36 页 | 16.69 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

TensorFlow使用现状及痛点 • 多⼈多服务器使用混乱，计算资源如何划分？� • 没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 • 集群资源的管理（目前支持CPU、内存，需要扩展GPU 作业进程的资源隔离� Yarn能解决什么问题：� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� file.download.thread.nums=10 #其他参数设置� 提交脚本示例（分布式版本）：� TensorFlow on Yarn设计 Yarn首页作业信息：� 作业类型集群GPU资源概况作业分配到的GPU数量 TensorFlow on Yarn设计 TensorFlow作业AM页面：� Container所在的机器� 分配到的GPU物理设备号� tensorboard

0 码力 | 32 页 | 4.06 MB | 1 年前
3
谭国富：深度学习在图像审核的应用

FP32 (TFLOPS) 10.6 12 14 FP16 (TFLOPS) NA NA 113 Tensor (TFLOPS) NA NA 112 TDP 250W 250W 250W 预算多V100，预算少1080 TI SACC2017 深度学习 – 打通训练和应用的闭环 RapidFlow 训练平台底层硬件加速操作系统应用场景 add conv w x 冷数据热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练，不可避免遇到由于硬件/网络波动引起的异常 • 监控任务运行状况，当任务发生异常时，选择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化，快速屏蔽/启动异常机器 • 灵活的资源分配 • 支持以 GPU 或节点为粒度进行资源分配 • 用户配置任务所需最小资源 • 自动扩缩容，最大化资源使用率自动扩缩容，最大化资源使用率 • 支持不同计算框架 • 调度与任务松耦合，用户可以灵活定义任务 • 支持配置 docker 镜像，完全自定义运行环境 • 良好的用户体验 • 完善的客户端工具 • 任务进度微信提醒 SACC2017 proto model graph. pb 深度网络计算图 caffe Tensor Flow 公共计算库 X86 优化 Android

0 码力 | 32 页 | 5.17 MB | 1 年前
3
搜狗深度学习技术在广告推荐领域的应用

搜狗深度学习技术在广告推荐领域的应用舒鹏目录 CONTENTS 01 搜索广告背景知识 02 深度学习在搜狗搜索广告的一些应用 03 基于多模型融合的CTR预估 04 若干思考搜索广告背景知识信息需求用户查询查询理解广告召回点击率预估排序计价结果展示点击及后续行为广告库日志收集展示日志点击日志深度学习在搜狗搜索广告的一些应用无需分词：基于字符粒度表达的问答系统设计用途相关技术图像理解图片物料推荐 CNN 文本相关性广告召回、创意生成 Word2Vec、CSR、LSTM CTR预估广告排序、特征挖掘 DNN、MxNet、TensorFlow 基于多模型融合的CTR预估 CTR预估流程原始数据领域特征模型训练查询日志点击日志查询特征广告特征匹配特征线性模型非线性模型 Data Feature Model 线上Server 实现方法复杂，模型之间有依赖关系 • 实验方案较多，改进空间较大模型融合模型融合的工程实现 • 可支持多个不同模型的加载和计算 • 可支持模型之间的交叉和CTR的bagging • 可通过配置项随时调整模型融合方案 • 避免不必要的重复操作，减少时间复杂度目标 • 模型本身也看做一个抽象特征 • 模型特征依赖于其它特征，通过计算得到新的特征 • 模型特征输出可作为CTR，也可作为特征为其它模型使用

0 码力 | 22 页 | 1.60 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

. . . . . . . . . . . 6 2.4 Keras 支持多个后端引擎，并且不会将你锁定到一个生态系统中 . . . . . . . . . . 6 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 . . . . . . . . . . . . . . . . . . . . . . 6 2.6 Keras 的发展得到深度学习生态系统中的关键公司的支持 . . . . 26 3.3.3 如何在 GPU 上运行 Keras? . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.3.4 如何在多 GPU 上运行 Keras 模型? . . . . . . . . . . . . . . . . . . . . . . . 27 3.3.4.1 数据并行 . . . . . . . . . . 35 3.3.18 如何在 Keras 中使用 HDF5 输入？ . . . . . . . . . . . . . . . . . . . . . . . 35 3.3.19 Keras 配置文件保存在哪里？ . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.3.20 如何在 Keras 开发过程中获取可复现的结果？ .

0 码力 | 257 页 | 1.19 MB | 1 年前
3
动手学深度学习 v2.0

7 更多延迟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525 12.5 多GPU训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528 12 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533 12.6 多GPU的简洁实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536 12.6.1 12.7.2 环同步（Ring Synchronization） . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542 12.7.3 多机训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545 12.7.4 键值存储

0 码力 | 797 页 | 29.45 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

多线程⽆锁：基于模型版本的读写分离 � 多机：多副本并⾏读取 � CPU：固定64位key，基于L1缓存的查询优化 � 业务需求 � 模型⼤⼩超TB � 单个请求需要15W个key � 耗时要求10ms以下 � 资讯业务请求量⼤（>10000请求/秒） � 模型有多个版本 � 原有在线分布式存储系统的问题 � 主备模式资源严重浪费 � 数据读写需要加锁 � ⽀持多模型和模型多版本困难 Hotkey缓存优化 <10台内存型服务并发查询优化数⼗台⽹络型服务 TB级模型实时上线 � 问题：TB模型实时多地传输和加载成本⾼ � ⽅案：⾼低频分别上线 � 更灵活的⽤法：模型多切⽚，按需上线 � Dssm � wdl ... 分布式Serving集群副本1 副本2 Group 1 Group N 副本1 副本2 推理节点 SDK MB级别DNN部分 Sparse TB级别Embedding部分全量模型，TB级，低峰期（Cos存储）增量模型，GB级，20分钟（Cos存储）实时模型，KB级，秒（Kafka）分布式 Serving集群推理节点分布式 Serving集群推理节点召回索引服务业务服务 1. 获取⽤户向量 2. 向量召回异步刷库训练端⽣成⾼频参数集独⽴通道上线降低请求⽑刺 Feature 2.1:

0 码力 | 22 页 | 6.76 MB | 1 年前
3
AI大模型千问 qwen 中文文档

from_pretrained(model_path) model = AutoGPTQForCausalLM.from_pretrained(model_path, quantize_config) 但是，如果你想使用多 GPU 来读取模型，你需要使用 max_memory 而不是 device_map。下面是一段示例代码： model = AutoGPTQForCausalLM.from_pretrained( "Tell me something about large language models."}, ] ) print("Chat response:", chat_response) 1.10.4 多卡分布式部署要提高模型的处理吞吐量，分布式服务可以通过利用更多的 GPU 设备来帮助您。特别是对于像 Qwen1. 5-72B-Chat 这样的大模型，单个 GPU 无法支撑其在线服务。在这里，我们通过演示如何仅通过传入参数 llm = LLM(model="Qwen/Qwen1.5-72B-Chat", tensor_parallel_size=4) 您可以通过传递参数 --tensor-parallel-size 来运行多 GPU 服务： python -m vllm.entrypoints.api_server \ --model Qwen/Qwen1.5-72B-Chat \ --tensor-parallel-size

0 码力 | 56 页 | 835.78 KB | 1 年前
3
阿里云上深度学习建模实践-程孟力

训练推理:  高qps, 低rt  支持超大模型  性价比流程长、环节多:  推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动  实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸识别 … 模型构建: 问题: ✗ 方案复杂周期长/见效慢 ✗ 细节多难免踩坑解决方案: 标准化  标准化模型库  标准化解决方案 1.方案复杂智能推荐解决方案 > PAI-REC 推荐引擎 PAI-REC 推荐引擎多路召回曝光/状态过滤粗排/精排策略[类目打散、流量控制、…] 实时采集后端日志 PAI-REC 配置中心 AB实验实验工具拉取配置监控报警 Prometheus Grafana 读取metric 消息队列(datahub/kafka) PAI-REC平台自动化降级负载均衡灰度发布  训练优化:  数据并行  模型并行  推理优化: Blade  推荐模型优化: 千亿特征 3. 工程优化 RingAllReduce + 层级级联 EasyVision 多机多卡性能对比工程优化: 数据并行  M6模型  Transformer模型: RapidFormer  人脸分类模型: 超大softmax  3D卷积模型 M6模型 RapidFormer性能

0 码力 | 40 页 | 8.51 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

关英文文献时，不至于感到陌生。尽管每天都有深度学习相关算法论文的发布，但是作者相信，深度学习的核心思想和基础理论是共通的。本书已尽可能地涵盖其中基础、主流并且前沿的算法知识，但是仍然有很多算法无法涵盖，读者学习完本书后，可以自行搜索相关方向的研究论文或资料，进一步学习。深度学习是一个非常前沿和广袤的研究领域，鲜有人士能够对每一个研究方向都有深刻的理解。作者自认才疏学浅，略懂游戏平台中的 49 个游戏上取得了与人类相当甚至超越人类的水平；在围棋领域，DeepMind 提出的 AlphaGo 和 AlphaGo Zero 智能程序相继打败人类顶级围棋专家李世石、柯洁等；在多智能体协作的 Dota2 游戏平台，OpenAI 开发的 OpenAI Five 智能程序在受限游戏环境中打败了 TI8 冠军队伍 OG 队，展现出了大量专业级的高层智能操作。图 1.9 列出了 2006 Imitation Learning、Meta Learning、Few-shot Learning 等方向上取得了不少进展。美国波士顿动力公司在机器人应用中取得喜人的成就，其制造的机器人在复杂地形行走、多智能体协作等任务上表现良好(图 1.19)。自动驾驶(Autonomous Driving) 被认为是强化学习短期内能技术落地的一个应用方向，很多公司投入大量资源在自动驾驶上，如百度、Uber、Google

0 码力 | 439 页 | 29.91 MB | 1 年前
3

共 47 条前往

页

分类

语言

格式

微博在线机器学习和深度学习实践-黄波

TensorFlow on Yarn：深度学习遇上大数据

谭国富：深度学习在图像审核的应用

搜狗深度学习技术在广告推荐领域的应用

Keras: 基于 Python 的深度学习库

动手学深度学习 v2.0

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

AI大模型千问 qwen 中文文档

阿里云上深度学习建模实践-程孟力

【PyTorch深度学习-龙龙老师】-测试版202112