动手学深度学习 v2.0. . . . . . . . . 188 5 深度学习计算 191 5.1 层和块 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 5.1.1 自定义块 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 5.1.2 顺序块 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 iv 5.1.3 在前向传播函数中执行代码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 7.2 使用块的网络(VGG) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 7.2.1 VGG块 . . . . . . . . . . . . . . . . . . . . . . . . .0 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版20211212 年, Alex Krizhevsky 提出了 8 层的深层神经网络 AlexNet,它采用了 ReLU 激活函数,并使用 Dropout 技术来防止过拟合,同时抛弃了逐层预训练的方式,直接在两块 NVIDIA GTX580 GPU 上训练网络。AlexNet 在 ILSVRC-2012 图片识别比赛中获得了第一名的成绩,比第二 名在 Top-5 错误率上降低了惊人的 10.9%。 自 AlexNet 1.11 数据集大小趋势 1.3.2 计算力 计算能力的提升是第三次人工智能复兴的一个重要因素。实际上,现代深度学习的基 础理论在 1980 年代就已经被提出,但直到 2012 年,基于两块 GTX580 GPU 训练的 AlexNet 发布后,深度学习的真正潜力才得以发挥。传统的机器学习算法并不像神经网络 这样对数据量和计算能力有严苛的要求,通常在 CPU 上串行训练即可得到满意结果。但是 经网络均使用 NVIDIA GPU 和 Google TPU 等并行加速芯片训练模型参数。如围棋程序 AlphaGo Zero 在 64 块 GPU 上从 零开始训练了 40 天才得以超越所有的 AlphaGo 历史版本;自动网络结构搜索算法使用了 800 块 GPU 同时训练才能优化出较好的网络结构。 目前普通消费者能够使用的深度学习加速硬件设备主要来自 NVIDIA 的 GPU 显卡, 图0 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-08深度学习-深度卷积神经网络经典网络 02 深度残差网络 03 其它现代网络 04 卷积神经网络使用技巧 4 经典网络-LeNet-5 • LeNet 分为两个部分组成: • 卷积层块:由两个卷积层块组成; • 全连接层块:由三个全连接层组成。 5 ? = 5 ? = 1 6 filter CONV1 POOL1 ? = 2 ? = 2 ? = 5 ? = 1 16 filter ? = 在最后一个卷积层后有两个全连接层,分别有4096个输出。 这两个巨大的全连接层拥有将近 1GB 的模型参数。 由于 早期 GPU 显存有限,原版的 AlexNet 采用了双数据流设计, 使得每个 GPU 只负责存储和计算模型的一半参数。 幸运 的是,现在GPU显存相对充裕,所以我们现在很少需要跨 GPU 分解模型 (因此,我们的AlexNet模型在这方面与原始 论文稍有不同)。 LeNet (左), AlexNet0 码力 | 32 页 | 2.42 MB | 1 年前3
亚马逊AWSAI Services OverviewAWS解决方案架构师 March 17, 2017 Amazon 的人工智能&深度学习 围绕数据的“飞轮” 机器学习 深度学习 人工智能 更多的用户 更好的产品 更多的数据 更好的分析 对象存储 数据库 数据仓库 数据流分析 商业智能 Map/Reduce 内存数据库 数据检索 点击流 用户活动 内容生成 购买 点击 喜好 传感器数据 机器学习& 人工智能 大数据 更多的用户 更好的产品 Theano Caffe Torch 预配置的 CUDA 驱动 Anaconda, Python3 + CloudFormation 模版 + 容器镜像文件 全新的 EC2 P2 实例 | 高达16 块 GPUs ▪ 这款新实例类型包含了高达 8个 NVIDIA Tesla K80 Accelerators, 每个运行一对 NVIDIA GK210 GPUs. ▪ 每块GPU 提供 12 GiB 测量两张图片中同一个人的可能性 • 为应用和设备添加人脸 验证 • 扩展了物理安全控制的 应用领域 • 客人对VIP 设施的使用 • 在线考试以及民意调查 时的用户验证 人脸识别 通过针对存储的面部向量的集合找到输入面部图像的最接近 的匹配来识别图像中的人 • 社交应用、消息类应用 中加入朋友标签 • 协助找到始终人口 • 确定可以访问敏感区域 的员工 • 在历史和媒体的档案中 找到“名人”0 码力 | 56 页 | 4.97 MB | 1 年前3
Keras: 基于 Python 的深度学习库19 Keras 配置文件保存在哪里? 所有 Keras 数据存储的默认目录是: $HOME/.keras/ 注意,Windows 用户应该将 $HOME 替换为 %USERPROFILE%。如果 Keras 无法创建上述目录 (例如,由于权限问题),则使用 /tmp/.keras/ 作为备份。 Keras 配置文件是存储在 $HOME/.keras/keras.json 中的 JSON libhdf5-serial-dev 如果你不确定是否安装了 h5py,则可以打开 Python shell 并通过下面的命令加载模块 import h5py 快速开始 38 如 果 模 块 导 入 没 有 错 误, 那 么 模 块 已 经 安 装 成 功, 否 则 你 可 以 在 http://docs.h5py.org/en/latest/build.html 中找到详细的安装说明。 模型 39 4 yaml_string = model.to_yaml() model = model_from_yaml(yaml_string) • model.save_weights(filepath): 将模型权重存储为 HDF5 文件。 • model.load_weights(filepath, by_name=False): 从 HDF5 文件(由 save_weights 创 建)中加载权重。默认情况0 码力 | 257 页 | 1.19 MB | 1 年前3
机器学习课程-温州大学-numpy使用总结array([ 0, 1, 100, 101, 4, 5, 6, 7, 8, 9]) 19 ndarray的切片 ndarray通过切片产生一个新的数组b,b和a共享同一块数据存储空间。 > b = a[3:7] > b[2] = -10 b a --------------------0 码力 | 49 页 | 1.52 MB | 1 年前3
AI大模型千问 qwen 中文文档max_new_tokens=512, streamer=streamer, ) 除了使用 TextStreamer 之外,我们还可以使用 TextIteratorStreamer ,它将可打印的文本存储在一 个队列中,以便下游应用程序作为迭代器来使用: # Repeat the code above before model.generate() # Starting here, we add streamer 模板对文本进行处 理。如果您倾向于使用其他 chat 模板,您也可以选择其他的,例如,仍然通过 “apply_chat_template()“函数配 合另一个 tokenizer 进行应用。Chat 模板存储在 HF 仓库中的 tokenizer_config.json 文件中。此外,我 们还将每个样本的序列填充到最大长度,以便于训练。 class SupervisedDataset(Dataset): 5“模型来检索英文文档,下 载 “bge-base-zh-v1.5“模型以检索中文文档。根据您的计算资源,您还可以选择 “bge-large“或 “bge-small“作为向量模型,或调整上下文窗口大小或文本块大小。 Qwen 1.5 模型系列支持最大 32K 上下文窗口大小。 现在我们可以从文档或网站构建索引。 以下代码片段展示了如何为本地名为’document’的文件夹中的文件(无论是 PDF 格式还是0 码力 | 56 页 | 835.78 KB | 1 年前3
机器学习课程-温州大学-14深度学习-Vision Transformer (ViT) 为什么需要用transformer Transformer原本是用来做 NLP的工作的,所以ViT的 首要任务是将图转换成词 的结构,这里采取的方法 是如上图左下角所示,将 图片分割成小块,每个小 块就相当于句子里的一个 词。这里把每个小块称作 Patch,而Patch Embedding 就是把每个Patch再经过一 个全连接网络压缩成一定 维度的向量。 1.背景知识 7 为什么需要用transformer 位置embedding和tokensembedding相加 4.输入到Transformer模型 5.CLS输出做多分类任务 10 先将图片分成NxN的patch块(原始论文是16x16) patch块可以重叠(上图没有重叠,是9x9的patch块) 2.模型介绍 11 将patch打平, 对每个 patch 进行线性映射,提取特征 2.模型介绍 12 提取特征 2.模型介绍 13 1 输入分类层 encoder 会输出多个上 下文向量,对于图像分 类,只需要 ?0。 19 模型框架 最简洁的Vision Transformer模型 ,先将图片分成 16x16的patch块, 送入transformer encoder,第一个 cls token的输出送 入mlp head得到 预测结果。 2.模型介绍 20 来自输入空间的注意力表达 输入 输入 输入0 码力 | 34 页 | 2.78 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 排序 混排 模型 管理 上线 管理 ⽆量 RGW/Cos/ kafka 样本 存储 实时样本 ⽣成服务 离线样本 ⽣成任务 数据 通道 特征 处理 模型 登记 模型 上线 预测 请求 数据 落地 ⽆量 ⽤户⾏为数据上报 特征 库 内容 获取 请求 � 推荐场景的重要性 的特点) 训练框架—基于参数服务器架构的分布式训练框架 TB级模型 分⽚ 存储/更新 百TB数据 分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中,只有部分参数被⽤到 参数按需 获取/更新 Storage 异步训练流⽔线和多级存储:提升性能,降低内存成本 � 问题: � Learner线程中参数拉取和参数更新对性能影响⼤ Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数 就绪,Parameter Server难以利⽤速度慢的存储 介质 样本读取 样本解析 参数拉 取 训练 参数更新 查询Sparse Table 查询Dense Tensor Reader Learner Worker 返回参数 Request Handler Parameter Server 查询Sparse0 码力 | 22 页 | 6.76 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波练周期模型融合 • 模型结构训练与推理兼容:在线PS与离线PS模型结构兼容,自动模型参数转换 • 稳定性优化 • 模型快照:基于ps-scheduler的周期模型版本探测与保存,模型稀疏化分片存储 • 冷备容灾:基于checkpoint机制(Local模式&Remote模式),实现参数服务的高可用,支持基于模型的异构集群迁移,支持集 群扩缩容 • 性能优化 • 通信优化:数据请求(P 引起的性能损耗,性能提升3-5倍 • 分区优化:支持多种分区策略(RANGE/HASH/MOD),解决数据倾斜导致的流量热点瓶颈问题,性能提升2-5倍 • 存储优化:自定义存储方式(ByRow&ByKey),基于row进行矩阵压缩存储,参数内存占用减少90% 3 在线机器学习-参数服务器 模型验证 离线训练 实时训练 模型训练 模型部署 在线服务 离线验证 在线发布 在线验证 在线一致性/ 平台背景、平台架构和平台效果 12 • 平台背景-平台化 成本 效率 效果 实时 机器 人力 时间 开发 运行 迭代 规模 深度 1 平台背景 算法/模型 计算 数据/特征 存储 基础/IDE 业务 调度 集群 2 平台架构 计算 机器学习平台 Feed排序 推荐流 文本分类/检测 Hadoop/Spark 集群 数据仓库集群 高性能GPU集群 Hdfs/Odps0 码力 | 36 页 | 16.69 MB | 1 年前3
共 29 条
- 1
- 2
- 3













