参数配置 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Keras: 基于 Python 的深度学习库

. 35 3.3.18 如何在 Keras 中使用 HDF5 输入？ . . . . . . . . . . . . . . . . . . . . . . . 35 3.3.19 Keras 配置文件保存在哪里？ . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.3.20 如何在 Keras 开发过程中获取可复现的结果？ . 8.1 评价函数的用法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.1.1 参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.1.2 返回值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 9.2 Keras 优化器的公共参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 9.2.1 SGD [source] . . . .

0 码力 | 257 页 | 1.19 MB | 1 年前
3
PyTorch OpenVINO 开发实战系列教程第一篇

�� 5 1.4.1 PyCharm 的安装与配置 �� 其中第一行表示导入 pytorch 的包支持，第二行表示版本查询，第三行是执行结果（GPU 版本）。现在很多开发者喜欢使用 Ubuntu 开发系统，在 Ubuntu 系统下如下正确安装与配置 Pytorch，第一步同样是安装 python 语言依赖包 Python3.6，主要是执行一系列的安装命令行，具体步骤如下： 1. 导入第三方软件仓库 sudo add-apt-repository pytorch 安装校验测试。这样我们就完成了 Pytorch 的环境搭建，这里有个很特别的地方需要注意，就是 Pytorch 的 GPU 版本需要 CUDA 驱动支持与 CUDA 库的安装配置支持。关于这块的安装强烈建议参照英伟达官方网站的安装指导与开发者手册。 1.3 Pytorch 基础术语与概念很多人开始学习深度学习框架面临的第一个问题就是专业术语理解跟基本的编程概念与传统面向对象编程不一样，这个是初

0 码力 | 13 页 | 5.99 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

特征实时化：更及时反馈用户行为，更细粒度刻画用户 • 模型实时化：根据线上样本实时训练模型，及时地反映对象的线上变化模型推理预测服务实时特征实时数据 3 在线机器学习实时样本实时模型训练实时更新参数 Task 训练预处理 Node 实时样本拼接 Node 在线模型训练 Node 离线样本拼接 Node 在线模型评估 Node 模型上线 Node 实时特征处理 Node • Kafka 堆积监控，实时报警 • 如何解决内存问题 • 调整内存参数 • 关闭多余的监控点 • 如何异常处理 • 自动化监控与修复系统 • Checkpoint 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练：Flink/Blink+WeiPS 样本生成和特征处理 1.配置化 2.多标签样本 3.支持高维HASH 训练预处理 1.标签选择 1.独立模型评估 2.配置化 3.UI展示 3 在线机器学习-实时模型训练 • 模型选择 • LR : 基础模型，对特征工程依赖较强 • FM：大规模稀疏数据下的特征组合问题 • DeepFM • 优化算法选择 • FTRL：调节学习率，突出低频特征，非batch优化 • Adagrad : 调节学习率，突出低频特征，实现简单 • SGD：参数少，效率高，固定学习率 •

0 码力 | 36 页 | 16.69 MB | 1 年前
3
AI大模型千问 qwen 中文文档

apply_chat_template() 函数将消息转换为模型能够理解的格式。其中的 add_generation_prompt 参数用于在输入中添加生成提示，该提示指向 <|im_start|>assistant\n 。尤其需要注意的是，我们遵循先前实践，对 chat 模型应用 ChatML 模板。而 max_new_tokens 参数则用于设置响应的最大长度。此外，通过 tokenizer.batch_decode() 函数对响应进行解码。关于输入部分，上述的 qwen1_5-7b-chat-q5_k_m.gguf -n 512 --color -i -cml -f prompts/chat-with- �→qwen.txt -n 指的是要生成的最大 token 数量。这里还有其他超参数供你选择，并且你可以运行 ./main -h 以了解它们。 1.4.3 生成你的 GGUF 文件 We introduce the method of creating and quantizing convert-hf-to-gguf.py Qwen/Qwen1.5-7B-Chat --outfile models/7B/qwen1_5-7b-chat- �→fp16.gguf “其中，第一个参数指代的是预训练模型所在的路径或者 HF 模型的名称，第二个参数则指的是你想要生成的 GGUF 文件的路径（此处我将其置于 models/7B 目录下）。请记住，在运行命令之前，需要先创建这个目录。通过这种方式，你已经为你的 fp16

0 码力 | 56 页 | 835.78 KB | 1 年前
3
阿里云上深度学习建模实践-程孟力

数据获取困难挑战深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 1.方案复杂从FM到DeepFM rt 增加了10倍怎么优化？手里面只有5张图片，怎么搞出来一个效果还不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据深度学习应用主要的挑战： 3.工程优化复工程优化复杂 4.数据获取困难挑战深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大手里面只有5张图片，怎么搞出来一个效果还不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据从FM到DeepFM rt 增加了10倍怎么优化？ 2.模型效果优化困难智能推荐解决方案 > PAI-REC 推荐引擎 PAI-REC 推荐引擎多路召回曝光/状态过滤粗排/精排策略[类目打散、流量控制、…] 实时采集后端日志 PAI-REC 配置中心 AB实验实验工具拉取配置监控报警 Prometheus Grafana 读取metric 消息队列(datahub/kafka) PAI-REC平台自动化降级负载均衡灰度发布

0 码力 | 40 页 | 8.51 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

机器学习的分类有监督学习有监督学习的数据集包含了样本?与样本的标签?，算法模型需要学习到映射关系??: ? → ?，其中??代表模型函数，?为模型的参数。在训练时，通过计算模型的预测值??(?)与真实标签?之间的误差来优化网络参数?，使得网络下一次能够预测更精准。常见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。无监督学习收集带标签的数据往往代价较为昂贵，对于只有样本身作为监督信号，即模型需要学习的映射为??: ? → ?，称为自监督学习(Self-supervised Learning)。在训练时，通过计算模型的预测值??(?)与自身?之间的误差来优化网络参数?。常见的无监督学习算法有自编码器、生成对抗网络等。强化学习也称为增强学习，通过与环境进行交互来学习解决问题的策略的一类算法。与有监督学习、无监督学习不同，强化学习问题并没有明确的“正确的”动作监督信号，年，美国心理学家 Frank Rosenblatt 提出了第一个可以自动学习权重的神经元模型，称为感知机(Perceptron)，如图 1.5 所示，输出值?与真实值之间的误差用于调整神经元的权重参数{? , ? , … , ? }。Frank Rosenblatt 随后基于“Mark 1 感知机”硬件实现感知机模型，如图 1.6、图 1.7 所示，输入为 400 个单元的图像传感器，输出为 8

0 码力 | 439 页 | 29.91 MB | 1 年前
3
动手学深度学习 v2.0

读取数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 3.2.3 初始化模型参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.2.4 定义模型 . . . . . 定义模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 3.3.4 初始化模型参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 3.3.5 定义损失函数 . . . 网络架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.4.3 全连接层的参数开销 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 3.4.4 softmax运算 . . .

0 码力 | 797 页 | 29.45 MB | 1 年前
3
机器学习课程-温州大学-13深度学习-Transformer

征 Q: query，要去查询的 K: key，等着被查的 V: value，实际的特征信息 9 1.Transformer介绍 Attention的优点 1.参数少：相比于 CNN、RNN ，其复杂度更小，参数也更少。所以对算力的要求也就更小。 2.速度快：Attention 解决了 RNN及其变体模型不能并行计算的问题。Attention机制每一步计算不依赖于上一步的计算结果，因此可以和CNN一样并行处理。在Transformer提出之后，大模型的基础模型架构基本形成，注意力机制代替卷积神经网络称为主流基础模型组件 – 有利于模型向更大的参数量扩展 – Transformer有兼容多模态信息的天生优势特性，这有力地丰富了大模型的应用场景。参数少速度快效果好 13 2.Transformer的工作流程 01 Transformer介绍 03 Transformer的训练器叠在一起）。解码组件部分也是由相同数量（与编码器对应）的解码器（decoder）组成的。 17 2.Transformer的工作流程所有的编码器在结构上都是相同的，但它们没有共享参数。每个解码器都可以分解成两个子层。 18 2.Transformer的工作流程从编码器输入的句子首先会经过一个自注意力（self-attention）层，这层帮助编码器在对每个单词编码时关注输入句子的其他单词。

0 码力 | 60 页 | 3.51 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

析，可以很好地推广到其他任务 ✓ 2017年，在Ashish Vaswani et.al 的论文《Attention Is All You Need》中，考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积神经网络，性能最好的模型被证明还是通过注意力机制（attention mechanism）连接编码器和解码器，因而《Attention Is All You Need》词语或语段，让神经网络自主学习复原被遮挡部分，从而拥有“猜测”缺失内容的能力，产出预训练模型。再通过大规模预训练模型理解上文或给定条件，从概率层面推测最符合要求的输出结果。其本质是借助超大规模的训练参数猜测上下文的过程文本风格主流思路是分离文本属性及文本内容迁移隐式方法即使用某类无监督学习学习或强化学习模式将文本属性及内容自动分离，常见的有生成对抗方式，即通过GAN实现目标属性和习在不需要明确监督的情况下执行数量惊人的任务 ✓ 在GPT-2阶段，OpenAI去掉了GPT-1阶段的有监督微调（fine-tuning），成为无监督模型。 ✓ 大模型GPT-2是一个1.5B参数的Transformer，在其相关论文中它在8个测试语言建模数据集中的7个数据集上实现了当时最先进的结果。模型中，Transfomer堆叠至48层。GPT-2的数据集增加到8 million的网页、大小40GB的文本。

0 码力 | 44 页 | 2.36 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

作业进程的资源隔离� Yarn能解决什么问题：� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� #作业优先级� --board-enable true \ #是否开启Tensorboard服务� --conf tf.file.download.thread.nums=10 #其他参数设置� 提交脚本示例（分布式版本）：� TensorFlow on Yarn设计 Yarn首页作业信息：� 作业类型集群GPU资源概况作业分配到的GPU数量 TensorFlow Yarn系统架构图：� TensorFlow on Yarn技术细节揭秘 Yarn支持CPU调度 vs GPU调度：� CPU GPU 每个NodeManager配置可用CPU核心数量每个NodeManager配置可用GPU卡数量 ResourceManager统计计数并按数量分配 ResourceManager统计计数并按数量分配作业必须占用CPU资源作业可以不需要GPU资源

0 码力 | 32 页 | 4.06 MB | 1 年前
3

共 58 条前往

页

分类

语言

格式