块存储 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

动手学深度学习 v2.0

. . . . . . . . . 188 5 深度学习计算 191 5.1 层和块 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 5.1.1 自定义块 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 5.1.2 顺序块 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 iv 5.1.3 在前向传播函数中执行代码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 7.2 使用块的网络（VGG） . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 7.2.1 VGG块 . . . . . . . . . . . . . . . . . . . . . . . . .

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

12 年， Alex Krizhevsky 提出了 8 层的深层神经网络 AlexNet，它采用了 ReLU 激活函数，并使用 Dropout 技术来防止过拟合，同时抛弃了逐层预训练的方式，直接在两块 NVIDIA GTX580 GPU 上训练网络。AlexNet 在 ILSVRC-2012 图片识别比赛中获得了第一名的成绩，比第二名在 Top-5 错误率上降低了惊人的 10.9%。自 AlexNet 1.11 数据集大小趋势 1.3.2 计算力计算能力的提升是第三次人工智能复兴的一个重要因素。实际上，现代深度学习的基础理论在 1980 年代就已经被提出，但直到 2012 年，基于两块 GTX580 GPU 训练的 AlexNet 发布后，深度学习的真正潜力才得以发挥。传统的机器学习算法并不像神经网络这样对数据量和计算能力有严苛的要求，通常在 CPU 上串行训练即可得到满意结果。但是经网络均使用 NVIDIA GPU 和 Google TPU 等并行加速芯片训练模型参数。如围棋程序 AlphaGo Zero 在 64 块 GPU 上从零开始训练了 40 天才得以超越所有的 AlphaGo 历史版本；自动网络结构搜索算法使用了 800 块 GPU 同时训练才能优化出较好的网络结构。目前普通消费者能够使用的深度学习加速硬件设备主要来自 NVIDIA 的 GPU 显卡，图

0 码力 | 439 页 | 29.91 MB | 1 年前
3
机器学习课程-温州大学-08深度学习-深度卷积神经网络

经典网络 02 深度残差网络 03 其它现代网络 04 卷积神经网络使用技巧 4 经典网络-LeNet-5 • LeNet 分为两个部分组成： • 卷积层块：由两个卷积层块组成; • 全连接层块：由三个全连接层组成。 5 ? = 5 ? = 1 6 filter CONV1 POOL1 ? = 2 ? = 2 ? = 5 ? = 1 16 filter ? = 在最后一个卷积层后有两个全连接层，分别有4096个输出。这两个巨大的全连接层拥有将近 1GB 的模型参数。由于早期 GPU 显存有限，原版的 AlexNet 采用了双数据流设计，使得每个 GPU 只负责存储和计算模型的一半参数。幸运的是，现在GPU显存相对充裕，所以我们现在很少需要跨 GPU 分解模型 (因此，我们的AlexNet模型在这方面与原始论文稍有不同)。 LeNet (左)， AlexNet

0 码力 | 32 页 | 2.42 MB | 1 年前
3
亚马逊AWSAI Services Overview

AWS解决方案架构师 March 17, 2017 Amazon 的人工智能&深度学习围绕数据的“飞轮” 机器学习深度学习人工智能更多的用户更好的产品更多的数据更好的分析对象存储数据库数据仓库数据流分析商业智能 Map/Reduce 内存数据库数据检索点击流用户活动内容生成购买点击喜好传感器数据机器学习& 人工智能大数据更多的用户更好的产品 Theano Caffe Torch 预配置的 CUDA 驱动 Anaconda, Python3 + CloudFormation 模版 + 容器镜像文件全新的 EC2 P2 实例 | 高达16 块 GPUs ▪ 这款新实例类型包含了高达 8个 NVIDIA Tesla K80 Accelerators, 每个运行一对 NVIDIA GK210 GPUs. ▪ 每块GPU 提供 12 GiB 测量两张图片中同一个人的可能性 • 为应用和设备添加人脸验证 • 扩展了物理安全控制的应用领域 • 客人对VIP 设施的使用 • 在线考试以及民意调查时的用户验证人脸识别通过针对存储的面部向量的集合找到输入面部图像的最接近的匹配来识别图像中的人 • 社交应用、消息类应用中加入朋友标签 • 协助找到始终人口 • 确定可以访问敏感区域的员工 • 在历史和媒体的档案中找到“名人”

0 码力 | 56 页 | 4.97 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

19 Keras 配置文件保存在哪里？所有 Keras 数据存储的默认目录是： $HOME/.keras/ 注意，Windows 用户应该将 $HOME 替换为％USERPROFILE％。如果 Keras 无法创建上述目录（例如，由于权限问题），则使用 /tmp/.keras/ 作为备份。 Keras 配置文件是存储在 $HOME/.keras/keras.json 中的 JSON libhdf5-serial-dev 如果你不确定是否安装了 h5py，则可以打开 Python shell 并通过下面的命令加载模块 import h5py 快速开始 38 如果模块导入没有错误，那么模块已经安装成功，否则你可以在 http://docs.h5py.org/en/latest/build.html 中找到详细的安装说明。模型 39 4 yaml_string = model.to_yaml() model = model_from_yaml(yaml_string) • model.save_weights(filepath): 将模型权重存储为 HDF5 文件。 • model.load_weights(filepath, by_name=False): 从 HDF5 文件（由 save_weights 创建）中加载权重。默认情况

0 码力 | 257 页 | 1.19 MB | 1 年前
3
机器学习课程-温州大学-numpy使用总结

array([ 0, 1, 100, 101, 4, 5, 6, 7, 8, 9]) 19 ndarray的切片 ndarray通过切片产生一个新的数组b，b和a共享同一块数据存储空间。 > b = a[3:7] > b[2] = -10 b a --------------------

0 码力 | 49 页 | 1.52 MB | 1 年前
3
AI大模型千问 qwen 中文文档

max_new_tokens=512, streamer=streamer, ) 除了使用 TextStreamer 之外，我们还可以使用 TextIteratorStreamer ，它将可打印的文本存储在一个队列中，以便下游应用程序作为迭代器来使用： # Repeat the code above before model.generate() # Starting here, we add streamer 模板对文本进行处理。如果您倾向于使用其他 chat 模板，您也可以选择其他的，例如，仍然通过 “apply_chat_template()“函数配合另一个 tokenizer 进行应用。Chat 模板存储在 HF 仓库中的 tokenizer_config.json 文件中。此外，我们还将每个样本的序列填充到最大长度，以便于训练。 class SupervisedDataset(Dataset): 5“模型来检索英文文档，下载 “bge-base-zh-v1.5“模型以检索中文文档。根据您的计算资源，您还可以选择 “bge-large“或 “bge-small“作为向量模型，或调整上下文窗口大小或文本块大小。 Qwen 1.5 模型系列支持最大 32K 上下文窗口大小。现在我们可以从文档或网站构建索引。以下代码片段展示了如何为本地名为’document’的文件夹中的文件（无论是 PDF 格式还是

0 码力 | 56 页 | 835.78 KB | 1 年前
3
机器学习课程-温州大学-14深度学习-Vision Transformer (ViT)

为什么需要用transformer Transformer原本是用来做 NLP的工作的，所以ViT的首要任务是将图转换成词的结构，这里采取的方法是如上图左下角所示，将图片分割成小块，每个小块就相当于句子里的一个词。这里把每个小块称作 Patch，而Patch Embedding 就是把每个Patch再经过一个全连接网络压缩成一定维度的向量。 1.背景知识 7 为什么需要用transformer 位置embedding和tokensembedding相加 4.输入到Transformer模型 5.CLS输出做多分类任务 10 先将图片分成NxN的patch块(原始论文是16x16) patch块可以重叠(上图没有重叠，是9x9的patch块) 2.模型介绍 11 将patch打平，对每个 patch 进行线性映射，提取特征 2.模型介绍 12 提取特征 2.模型介绍 13 1 输入分类层 encoder 会输出多个上下文向量，对于图像分类，只需要 ?0。 19 模型框架最简洁的Vision Transformer模型，先将图片分成 16x16的patch块，送入transformer encoder，第一个 cls token的输出送入mlp head得到预测结果。 2.模型介绍 20 来自输入空间的注意力表达输入输入输入

0 码力 | 34 页 | 2.78 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

基于深度学习模型的推荐流程，场景与⽬标 Serving系统 HDFS 数据通道训练系统召回业务服务排序混排模型管理上线管理⽆量 RGW/Cos/ kafka 样本存储实时样本⽣成服务离线样本⽣成任务数据通道特征处理模型登记模型上线预测请求数据落地⽆量⽤户⾏为数据上报特征库内容获取请求 � 推荐场景的重要性的特点）训练框架—基于参数服务器架构的分布式训练框架 TB级模型分⽚存储/更新百TB数据分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中，只有部分参数被⽤到参数按需获取/更新 Storage 异步训练流⽔线和多级存储：提升性能，降低内存成本 � 问题： � Learner线程中参数拉取和参数更新对性能影响⼤ Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数就绪，Parameter Server难以利⽤速度慢的存储介质样本读取样本解析参数拉取训练参数更新查询Sparse Table 查询Dense Tensor Reader Learner Worker 返回参数 Request Handler Parameter Server 查询Sparse

0 码力 | 22 页 | 6.76 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

练周期模型融合 • 模型结构训练与推理兼容：在线PS与离线PS模型结构兼容，自动模型参数转换 • 稳定性优化 • 模型快照：基于ps-scheduler的周期模型版本探测与保存，模型稀疏化分片存储 • 冷备容灾：基于checkpoint机制(Local模式&Remote模式)，实现参数服务的高可用，支持基于模型的异构集群迁移，支持集群扩缩容 • 性能优化 • 通信优化：数据请求(P 引起的性能损耗，性能提升3-5倍 • 分区优化：支持多种分区策略（RANGE/HASH/MOD），解决数据倾斜导致的流量热点瓶颈问题，性能提升2-5倍 • 存储优化：自定义存储方式(ByRow&ByKey)，基于row进行矩阵压缩存储，参数内存占用减少90% 3 在线机器学习-参数服务器模型验证离线训练实时训练模型训练模型部署在线服务离线验证在线发布在线验证在线一致性/ 平台背景、平台架构和平台效果 12 • 平台背景-平台化成本效率效果实时机器人力时间开发运行迭代规模深度 1 平台背景算法/模型计算数据/特征存储基础/IDE 业务调度集群 2 平台架构计算机器学习平台 Feed排序推荐流文本分类/检测 Hadoop/Spark 集群数据仓库集群高性能GPU集群 Hdfs/Odps

0 码力 | 36 页 | 16.69 MB | 1 年前
3

共 29 条前往

页

分类

语言

格式