Keras: 基于 Python 的深度学习库
8.1 评价函数的用法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.1.1 参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.1.2 返回值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 9.2 Keras 优化器的公共参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 9.2.1 SGD [source] . . . . 传递一个 input_shape 参数给第一层。它是一个表示尺寸的元组 (一个整数或 None 的元 组,其中 None 表示可能为任何正整数)。在 input_shape 中不包含数据的 batch 大小。 • 某些 2D 层,例如 Dense,支持通过参数 input_dim 指定输入尺寸,某些 3D 时序层支持 input_dim 和 input_length 参数。 • 如果你需要为你的输入指定一个固定的0 码力 | 257 页 | 1.19 MB | 1 年前3【PyTorch深度学习-龙龙老师】-测试版202112
机器学习的分类 有监督学习 有监督学习的数据集包含了样本?与样本的标签?,算法模型需要学习到 映射关系??: ? → ?,其中??代表模型函数,?为模型的参数。在训练时,通过计算模型的预 测值??(?)与真实标签?之间的误差来优化网络参数?,使得网络下一次能够预测更精准。常 见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。 无监督学习 收集带标签的数据往往代价较为昂贵,对于只有样本 身作为 监督信号,即模型需要学习的映射为??: ? → ?,称为自监督学习(Self-supervised Learning)。在训练时,通过计算模型的预测值??(?)与自身?之间的误差来优化网络参数?。 常见的无监督学习算法有自编码器、生成对抗网络等。 强化学习 也称为增强学习,通过与环境进行交互来学习解决问题的策略的一类算法。 与有监督学习、无监督学习不同,强化学习问题并没有明确的“正确的”动作监督信号, 年,美国心理学家 Frank Rosenblatt 提出了第一个可以自动学习权重的神经元模 型,称为感知机(Perceptron),如图 1.5 所示,输出值?与真实值 之间的误差用于调整神经 元的权重参数{? , ? , … , ? }。Frank Rosenblatt 随后基于“Mark 1 感知机”硬件实现感知 机模型,如图 1.6、图 1.7 所示,输入为 400 个单元的图像传感器,输出为 80 码力 | 439 页 | 29.91 MB | 1 年前3动手学深度学习 v2.0
读取数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 3.2.3 初始化模型参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.2.4 定义模型 . . . . . 定义模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 3.3.4 初始化模型参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 3.3.5 定义损失函数 . . . 网络架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.4.3 全连接层的参数开销 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 3.4.4 softmax运算 . . .0 码力 | 797 页 | 29.45 MB | 1 年前3从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱
hotkey现象,且训练与推理的 hotkey⾼度重合 百万级稠密 交叉参数 千亿级 稀疏输⼊ 层参数 单个样本命 中的key ⽐如:性别,年龄等取值少的特征; 热⻔⽂章的特征,活跃⽤户的特征 推荐系统 模型上线 在线推理 模型训练 ⽂章 新闻 视频 Item User Item特征 ⽤户反馈 Item推荐 Embedding参数 本⼩时访问过的key 上⼩时访问过的key 访 问 百 百 分 ⽐ 时间(⼩ 时) � Feature 2(数据的时空特点) 2.1 短时间内只有部分item和user被 命中,只有部分参数被⽤到 � Feature 3(机器学习的特点) Embedding以稀疏的⽅式表达信息 ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 训练框架—基于参数服务器架构的分布式训练框架 TB级模型 分⽚ 存储/更新 百TB数据 分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中,只有部分参数被⽤到 参数按需 获取/更新 Storage 异步训练流⽔线和多级存储:提升性能,降低内存成本 � 问题: � Learner线程中参数拉取和参数更新对性能影响⼤0 码力 | 22 页 | 6.76 MB | 1 年前3AI大模型千问 qwen 中文文档
apply_chat_template() 函数将消息转换为模型能够理解的格式。其中的 add_generation_prompt 参数用于在输入中添加生成提示,该提示指向 <|im_start|>assistant\n 。尤其需要注意的是,我们 遵循先前实践,对 chat 模型应用 ChatML 模板。而 max_new_tokens 参数则用于设置响应的最大长度。此 外,通过 tokenizer.batch_decode() 函数对响应进行解码。关于输入部分,上述的 qwen1_5-7b-chat-q5_k_m.gguf -n 512 --color -i -cml -f prompts/chat-with- �→qwen.txt -n 指的是要生成的最大 token 数量。这里还有其他超参数供你选择,并且你可以运行 ./main -h 以了解它们。 1.4.3 生成你的 GGUF 文件 We introduce the method of creating and quantizing convert-hf-to-gguf.py Qwen/Qwen1.5-7B-Chat --outfile models/7B/qwen1_5-7b-chat- �→fp16.gguf “其中,第一个参数指代的是预训练模型所在的路径或者 HF 模型的名称,第二个参数则指的是你想要生成 的 GGUF 文件的路径(此处我将其置于 models/7B 目录下)。请记住,在运行命令之前,需要先创建这个 目录。通过这种方式,你已经为你的 fp160 码力 | 56 页 | 835.78 KB | 1 年前3阿里云上深度学习建模实践-程孟力
数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 1.方案复杂 从FM到DeepFM rt 增 加了10倍怎么优化? 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 深度学习应用主要的挑战: 3.工程优化复 工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 从FM到DeepFM rt 增 加了10倍怎么优化? 2.模型效果优 化困难 数据获取困 难 挑战 深度模型是非线性的黑盒: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 从FM到DeepFM rt 增 加了10倍怎么优化? 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 深度学习应用主要的挑战: 2.模型效果优0 码力 | 40 页 | 8.51 MB | 1 年前3机器学习课程-温州大学-06深度学习-优化算法
深度学习-优化算法 黄海广 副教授 2 01 小批量梯度下降 本章目录 02 优化算法 03 超参数调整和BatchNorm 04 Softmax 3 01 小批量梯度下降 02 优化算法 03 超参数调整和BatchNorm 04 Softmax 1.小批量梯度下降 4 小批量梯度下降 小批量梯度下降(Mini-Batch Gradient Descent) 梯度下降的每一步中,用到了一定批量的训练样本 每计算常数?次训练实例,便更新一次参数 ? ?=1(随机梯度下降,SGD) ?=m(批量梯度下降,BGD) ?=batch_size,通常是2的指 数倍,常见有32,64,128等。 (小批量梯度下降,MBGD) 参数更新 ??: = ?? − ? 1 ? ?=? ?+?−1 ℎ ?(?) − ?(?) ?? (?) (同步更新?? ,(j=0,1,...,n )) 5 小批量梯度下降 6 01 小批量梯度下降 02 优化算法 03 超参数调整和BatchNorm 04 Softmax 2.优化算法 7 伦敦温度的例子 days temperature ?1 = 40°F ?2 = 49°F ?3 = 45°F ... ?180 = 60°F0 码力 | 31 页 | 2.03 MB | 1 年前3微博在线机器学习和深度学习实践-黄波
特征实时化:更及时反馈用户行为,更细粒度刻画用户 • 模型实时化:根据线上样本实时训练模型,及时地反映对象的线上变化 模型推理 预测服务 实时特征 实时数据 3 在线机器学习 实时样本 实时模型训练 实时更新参数 Task 训练预处理 Node 实时样本拼接 Node 在线模型训练 Node 离线样本拼接 Node 在线模型评估 Node 模型上线 Node 实时特征处理 Node 曝光,互动,点击,真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制,先到先走 • 定时轮寻,最长N分钟等待 • Kafka 堆积监控,实时报警 • 如何解决内存问题 • 调整内存参数 • 关闭多余的监控点 • 如何异常处理 • 自动化监控与修复系统 • Checkpoint 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练:Flink/Blink+WeiPS FM:大规模稀疏数据下的特征组合问题 • DeepFM • 优化算法选择 • FTRL:调节学习率,突出低频特征,非batch优化 • Adagrad : 调节学习率,突出低频特征,实现简单 • SGD: 参数少,效率高,固定学习率 • ID特征处理 • Hash:BKDRhash/CityHash,ID高维度稀疏+实时 3 在线机器学习-实时模型训练 serving serving server0 码力 | 36 页 | 16.69 MB | 1 年前3机器学习课程-温州大学-03深度学习-PyTorch入门
type()。但是更加推荐采用x.type()(这种方式能看到 更具体信息) 5 、 tensor 含 义 device ( 是 否 使 用 GPU ) , requires_grad(是否需要求导)等设置参数。 1.Tensors张量的概念 9 Tensor与NumPy的函数对比 . 操作类别 Numpy PyTorch 数据类型 np.ndarray torch.Tensor np.float32 #TensorFlow一 般使用梯度磁 带tf.GradientTape来记 录正向 运算过程,然后反播磁带自动 得到梯度值。 ②对常量也可求导,需要增加 watch。 ③对tf.Variable可以通过参数 trainable 控制是否可学习,缺 省是True。 是否支持GPU 不支持 支持 支持 常量示例 5.6 torch.tensor([5.6]) a=tf.constant([3.2, 4 乘法,可以认为该乘 法使用使用两个参数的后两个维度来计算,其他的维度都可以认为是batch维度。 假设两个输入的维度分别是input(1000×500×99×11), other(500×11×99)那么我 们可以认为torch.matmul(input, other, out=None)乘法首先是进行后两位矩阵乘法得 到(99×11)×(11×99)⇒(99×99),然后分析两个参数的batch size分别是0 码力 | 40 页 | 1.64 MB | 1 年前3PyTorch OpenVINO 开发实战系列教程第一篇
张量 张量是深度学习编程框架中需要理解最重要的一个概念,张量 的本质是数据,在深度学习框架中一切的数据都可以看成张量。 深度学习中的计算图是以张量数据为输入,通过算子运算,实 现对整个计算图参数的评估优化。但是到底什么是张量?可以 看下面这张图: 图 1-3(张量表示) PyTorch + OpenVINO 开发实战系列教程 第一篇 5 上图 1-3 中标量、向量、数组、3D、4D、5D 构建神经网络(计算图)模型之后,一般都是通 过反向传播进行训练,使用反向传播算法对神经网络中每个参 数根据损失函数功能根据梯度进行参数值的调整。为了计算这 些梯度完成参数调整,深度学习框架中都会自带一个叫做自动 微分的内置模块,来自动计算神经网络模型训练时候的各个参 数梯度值并完成参数值更新,这种技术就是深度学习框架中的 自动微分。 1.4 Pytorch 基础操作 前面我们已经安装并验证好了 Pytorch 解并掌握这些函数有助于进一步学习本书后续章节知识,更多 关于 Pytorch 基础操作的函数知识与参数说明,读者可以直接 参见官方的开发文档。 1.5 线性回归预测 上一小节介绍了 Pytorch 框架各种基础操作,本节我们学习一 个堪称是深度学习版本的 Hello World 程序,帮助读者理解模 型训练与参数优化等基本概念,开始我们学习 Pytorch 框架编 程的愉快旅程。 1.5.1 线性回归过程0 码力 | 13 页 | 5.99 MB | 1 年前3
共 54 条
- 1
- 2
- 3
- 4
- 5
- 6