并行执行 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

动手学深度学习 v2.0

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 iv 5.1.3 在前向传播函数中执行代码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 5.1.4 效率 . . . . . . . . . . 3 训练模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 7.4 含并行连结的网络（GoogLeNet） . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 7.4.1 Inception块 . . . . . . . . . . . . . . . 511 12.3 自动并行 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 12.3.1 基于GPU的并行计算 . . . . . . . . . . . . . . . . . . . . .

0 码力 | 797 页 | 29.45 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

. . . . . . . . . . . . . . . . . . . . . . 27 3.3.4.1 数据并行 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.3.4.2 设备并行 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . • OpenGL 支持的 GPU, 比如 AMD, 通过 PlaidML Keras 后端。 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 • Keras 内置对多 GPU 数据并行的支持。 • 优步的 Horovod 对 Keras 模型有第一流的支持。 • Keras 模型可以被转换为 TensorFlow 估计器并在 Google Cloud 的 GPU 集群上训练。 3.3.4 如何在多 GPU 上运行 Keras 模型? 我们建议使用 TensorFlow 后端。有两种方法可在多个 GPU 上运行单个模型：数据并行和设备并行。在大多数情况下，你最需要的是数据并行。 3.3.4.1 数据并行数据并行包括在每个设备上复制一次目标模型，并使用每个模型副本处理不同部分的输入数据。 Keras 有一个内置的实用函数 keras.utils.multi_

0 码力 | 257 页 | 1.19 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

1.1 人工智能信息技术是人类历史上的第三次工业革命，计算机、互联网、智能家居等技术的普及极大地方便了人们的日常生活。通过编程的方式，人类可以将提前设计好的交互逻辑交给机器重复且快速地执行，从而将人类从简单枯燥的重复劳动工作中解脱出来。但是对于需要较高智能水平的任务，如人脸识别、聊天机器人、自动驾驶等任务，很难设计明确的逻辑规则，传统的编程方式显得力不从心，而人工智能(Artificial 神经网络算法是一类基于神经网络从数据中学习的算法，它仍然属于机器学习的范畴。受限于计算能力和数据量，早期的神经网络层数较浅，一般在 1~4 层左右，网络表达能力有限。随着计算能力的提升和大数据时代的到来，高度并行化的 GPU 和海量数据让大规模神经网络的训练成为可能。 2006 年，Geoffrey Hinton 首次提出深度学习的概念。2012 年，8 层的深层神经网络 AlexNet 发布，并在发布后，深度学习的真正潜力才得以发挥。传统的机器学习算法并不像神经网络这样对数据量和计算能力有严苛的要求，通常在 CPU 上串行训练即可得到满意结果。但是深度学习非常依赖并行加速计算设备，目前的大部分神经网络均使用 NVIDIA GPU 和 Google TPU 等并行加速芯片训练模型参数。如围棋程序 AlphaGo Zero 在 64 块 GPU 上从零开始训练了 40 天才得以超越所有的 AlphaGo 历史版本；自动网络结构搜索算法使用了

0 码力 | 439 页 | 29.91 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

Word2Vec 训练流程训练步骤到此结束。我们从这一步骤中得到稍微好一点的嵌入（`not` ，`thou`，`aaron`和`taco`）。我们现在进行下一步（下一个正样本及其相关的负样本）,并再次执行相同的过程。当我们循环遍历整个数据集多次时，嵌入继续得到改进。然后我们可以停止训练过程，丢弃`Context`矩阵，并使用`Embeddings`矩阵作为下一个任务的预训练嵌入。 27 4 资料来源：《Attention Is All You Need》,Ashish Vaswani et.al 2017 ◼ Transformer摆脱了人工标注数据集的缺陷，模型在质量上更优、更易于并行化，所需训练时间明显更少 ◼ Transformer通过成功地将其应用于具有大量和有限训练数据的分析，可以很好地推广到其他任务 ✓ 2017年，在Ashish Vaswani et.al 的论文《Attention 而《Attention Is All You Need》中提出了一种新的简单架构——Transformer，它完全基于注意力机制，完全不用重复和卷积，因而这些模型在质量上更优，同时更易于并行化，并且需要的训练时间明显更少。 ✓ Transformer出现以后，迅速取代了RNN系列变种，跻身主流模型架构基础。（RNN缺陷正在于流水线式的顺序计算）图：Transformer模型架构

0 码力 | 44 页 | 2.36 MB | 1 年前
3
机器学习课程-温州大学-13深度学习-Transformer

种LSTM/GRU等）来作为编解码器。RNN模块每次只能够吃进一个输入token和前一次的隐藏状态，然后得到输出。它的时序结构使得这个模型能够得到长距离的依赖关系，但是这也使得它不能够并行计算，模型效率十分低。在没有transformer的时候，我们都是用什么来完成这系列的任务的呢？ 5 1.Transformer介绍 Seq2Seq任务 Seq2Seq 任务指的是输入和输出都是参数少：相比于 CNN、RNN ，其复杂度更小，参数也更少。所以对算力的要求也就更小。 2.速度快：Attention 解决了 RNN及其变体模型不能并行计算的问题。Attention机制每一步计算不依赖于上一步的计算结果，因此可以和CNN一样并行处理。 3.效果好：在Attention 机制引入之前，有一个问题大家一直很苦恼：长距离的信息会被弱化，就好像记忆能力弱的人，记不住过去的事情是一样的。资料来源：《Attention Is All You Need》,Ashish Vaswani et.al 2017 ◼ Transformer摆脱了人工标注数据集的缺陷，模型在质量上更优、更易于并行化，所需训练时间明显更少 ◼ Transformer通过成功地将其应用于具有大量和有限训练数据的分析，可以很好地推广到其他任务 ◼ Transformer，它完全基于注意力机制，完全不用重复

0 码力 | 60 页 | 3.51 MB | 1 年前
3
AI大模型千问 qwen 中文文档

textgen python=3.11 conda activate textgen pip install torch torchvision torchaudio 接下来，您可以根据您的操作系统执行 pip install -r 命令来安装相应的依赖项，例如， pip install -r requirements_apple_silicon.txt 对于 requirements 中的 bitsandbytes �→awq.gguf 通过这种方式，您可以在 GGUF 格式的量化模型中应用 AWQ scales，这有助于提升模型的质量。我们通常将 fp16 模型量化为 2、3、4、5、6 和 8 位模型。要执行不同低比特的量化，只需在命令中替换量化方法即可。例如，如果你想将你的模型量化为 2 位模型，你可以按照下面所示，将 q4_0 替换为 q2_k ： ./quantize models/7B/qwen1_5-7b-chat-fp16 设备来帮助您。特别是对于像 Qwen1. 5-72B-Chat 这样的大模型，单个 GPU 无法支撑其在线服务。在这里，我们通过演示如何仅通过传入参数 tensor_parallel_size ，来使用张量并行来运行 Qwen1.5-72B-Chat 模型： from vllm import LLM, SamplingParams llm = LLM(model="Qwen/Qwen1.5-72B-Chat"

0 码力 | 56 页 | 835.78 KB | 1 年前
3
亚马逊AWSAI Services Overview

Clarifai • Computer Vision APIs AWS 上的 AI 应用 • Pinterest Lens • Netflix 推荐引擎数千名员工致力于人工智能领域发现& 搜索执行 &物流现有产品的增强定义新的产品分类将机器学习拓展更广领域 Amazon 的人工智能应用在Amazon 最初的人工智能应用 (1995) AWS 可以帮助客户把人工智能应用于每个应 K80 Accelerators, 每个运行一对 NVIDIA GK210 GPUs. ▪ 每块GPU 提供 12 GiB 内存 (内存存取带宽达到240 GB/秒), 以及 2,496 个并行处理核心 Instance Name GPU Count vCPU Count Memory Parallel Processing Cores GPU Memory Network Performance

0 码力 | 56 页 | 4.97 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

Server System Model Serving System 3 在线机器学习-参数服务器 • 参数规模 • 支持百亿特征维度，千亿参数 • 模型版本 • 多模型多版本：多组实验并行执行，提高实验迭代效率 • 在线版本切换：基于ZK的版本感知机制，动态进行版本切换，实现BASE模型的热更新，实时训练与离线训练周期模型融合 • 模型结构训练与推理兼容：在线PS与离线PS模型结构兼容，自动模型参数转换

0 码力 | 36 页 | 16.69 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

小规模泛化特征 • 模型  DNN > 树模型 > LR 美团超大规模模型应用场景 • 可扩展的机器学习架构  基于Parameter Server架构  数据并行 —— 支持超大规模训练集  模型并行 —— 支持超大规模模型 • 业界千亿级以上的机器学习平台  开源： PaddlePaddle、XDL，etc.  内部： Abacus、XPS， etc. • Online  计算图裁剪模型训练框架 • 应用场景——离线预计算  模型召回，ANN检索  粗排模型，降低线上计算量 • 分布式Sharding  模型分片存储，支持超大规模模型  数据并行计算，加速Optimizer计算 • 低频特征过滤  Counting Bloom Filter  概率方式 • 模型数据通路  Base + Delta方式  增量提供ACK机制，确保模型正确性  模型结构  模型参数 PS的参数放置策略 • Ps分布式分片的均衡，避免分片大小不一致  NN网络矩阵按行切分，解决请求包不均衡问题  特征按照Hash方式分布式存储 • 模型并行调超参  grid search  random search PS的多模型训练 • 提高内存使用效率  model group内共享特征key的存储 • 超大规模模型 -> 高扇出的分布式PS

0 码力 | 41 页 | 5.96 MB | 1 年前
3
阿里云上深度学习建模实践-程孟力

深度学习应用主要的挑战： 2.模型效果优化困难 1.方案复杂  训练优化:  数据并行  模型并行  推理优化: Blade  推荐模型优化: 千亿特征 3. 工程优化 RingAllReduce + 层级级联 EasyVision 多机多卡性能对比工程优化: 数据并行  M6模型  Transformer模型: RapidFormer  人脸分类模型: 人脸分类模型: 超大softmax  3D卷积模型 M6模型 RapidFormer性能工程优化: 模型并行(Whale)  FP16 / Int8  模型剪枝  Op融合(Fusion Stitch)  MILR: Blade Disc 工程优化: Blade模型推理 Dynamic Shape Compiler for Machine Learning Workloads

0 码力 | 40 页 | 8.51 MB | 1 年前
3

共 22 条前往

页

分类

语言

格式