键值对 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

AI大模型千问 qwen 中文文档

Qwen1.5 有以下特点： • 6 种模型规模，包括 0.5B、1.8B、4B、7B、14B 和 72B； • 针对每种尺寸提供基础模型和 Chat 模型，并确保聊天模型按照人类偏好进行校准； • 对基础模型和 Chat 模型的多语言支持 • 基础模型和聊天模型都支持多种语言； • 支持工具调用、RAG（检索增强文本生成）、角色扮演、AI Agent 等；想了解更多信息，欢迎访问： • 博客参数用于在输入中添加生成提示，该提示指向 <|im_start|>assistant\n 。尤其需要注意的是，我们遵循先前实践，对 chat 模型应用 ChatML 模板。而 max_new_tokens 参数则用于设置响应的最大长度。此外，通过 tokenizer.batch_decode() 函数对响应进行解码。关于输入部分，上述的 messages 是一个示例，展示了如何格式化对话历史记录和系统提示。默认倍，并将内存需求降低至原来的 1/3。AutoAWQ 实现了激活感知权重量化（AWQ）算法，可用于 LLM 的量化处理。在本文档中，我们将向您展示如何在 Transformers 框架下使用量化模型，以及如何对您自己的模型进行量化。 1.7.1 如何在 Transformers 中使用 AWQ 量化模型现在，Transformers 已经正式支持 AutoAWQ，这意味着您可以直接在 Transformers

0 码力 | 56 页 | 835.78 KB | 1 年前
3
动手学深度学习 v2.0

多机训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545 12.7.4 键值存储 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547 13 计算机视觉 549 训练和验证模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 639 13.13.7 在 Kaggle 上对测试集进行分类并提交结果 . . . . . . . . . . . . . . . . . . . . . . . 640 13.14 实战Kaggle比赛：狗的品种识别（ImageNet Dogs） 14.6 训练和验证模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646 13.14.7 对测试集分类并在Kaggle提交结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . 647 14 自然语言处理：预训练 649 14.1

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

数学符号推导，其中涉及到少量的概率与统计、线性代数、微积分等数学知识，一般要求读者对这些数学知识有初步印象或了解即可。比起理论基础，读者需要有少量的编程经验，特别是 Python 语言编程经验，显得更加重要，因为本书更侧重于实用性，而不是堆砌公式。总的来说，本书适合于大学三年级左右的理工科本科生和研究生，以及其他对人工智能算法感兴趣的朋友。本书共 15 章，大体上可分为 4 个部份：第 1~3 础理论是共通的。本书已尽可能地涵盖其中基础、主流并且前沿的算法知识，但是仍然有很多算法无法涵盖，读者学习完本书后，可以自行搜索相关方向的研究论文或资料，进一步学习。深度学习是一个非常前沿和广袤的研究领域，鲜有人士能够对每一个研究方向都有深刻的理解。作者自认才疏学浅，略懂皮毛，同时也限于时间和篇幅关系，难免出现理解偏差甚至错缪之处，若能大方指出，作者将及时修正，不胜感激。龙良曲 2021 年 10 月系与区别。 1.1.1 人工智能人工智能是让机器获得像人类一样具有思考和推理机制的智能技术，这一概念最早出现在 1956 年召开的达特茅斯会议上。这是一项极具挑战性的任务，人类目前尚无法对人脑的工作机制有全面、科学的认知，希望能制造达到人脑水平的智能机器无疑是难于上青天。即使如此，在某个方面呈现出类似、接近甚至超越人类智能水平的机器被证明是可行的。怎么实现人工智能是一个非常

0 码力 | 439 页 | 29.91 MB | 1 年前
3
机器学习课程-温州大学-特征工程

= ? − ? ? ?2 = 1 ? ෍ ?=1 ? (? ? −?)2 ? = 1 ? ෍ ?=1 ? ? ? 处理后的数据均值为0，方差为1 数据归一化的目的是使得各特征对目标变量的影响一致，会将特征数据进行伸缩变化，所以数据归一化是会改变特征数据分布的。数据标准化为了不同特征之间具备可比性，经过标准化变换之后的特征数据分布没有发生改变。就是当数据特征取值范围或单位差异较大时使用preproccessing库的OneHotEncoder类对数据进行哑编码的代码如下： 2. 特征构建 from sklearn.preprocessing import OneHotEncoder #哑编码，对IRIS数据集的目标值，返回值为哑编码后的数据 OneHotEncoder().fit_transform(iris.target.reshape((-1,1))) 12 分箱一般在建立分类 (63.6, 69.4] 4 (69.4, 84.0] 4 (84.0, 99.0] 4 13 2. 特征构建 • 聚合特征构造主要通过对多个特征的分组聚合实现，这些特征通常来自同一张表或者多张表的联立。 • 聚合特征构造使用一对多的关联来对观测值分组，然后计算统计量。 • 常见的分组统计量有中位数、算术平均数、众数、最小值、最大值、标准差、方差和频数等。聚合特征构造 14

0 码力 | 38 页 | 1.28 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

我们有一个窗口（比如说三个单词），我们会对所有文本进行滑动。 3.滑动窗口为我们的模型生成训练样本 16 3.Word2Vec （下图左边为CBOW，右边为Skip-Gram） CBOW对小型数据库比较合适，而Skip-Gram在大型语料中表现更好。 17 3.Word2Vec 我们实际构建和训练模型的数据集将如下所示：这被称为连续词袋结构，并在word2vec论文 one of Embedding)将字、词、句进行区分，然后基于特征评分、序列标注、分类模型等提取内容特征计算相关文本单元权重其次洗择相应的文本单元子集组成摘要候洗集，完成内容选择，最后针对字数要求等限定条件，对候选集的内容进行整理形成最终摘要，完成内容组织。其细分路径又包含生成式文本摘要(AATS)，即形成抽象认知并创造新词灵活概括，和抽取式文本摘要(EATS)，即直接抽取原始素材并拼接成简单概要习模式将文本属性及内容自动分离，常见的有生成对抗方式，即通过GAN实现目标属性和文本量性完全由不同的编码控制的状态。对话式文本生成适用于智能客服等任务型和闲聊型机器人等非任务型人机交互场景，可分类为管道模式及端对端模式。结构性的文本生成，首先通过注意力机制、多层感知器等系统进行语句内容预选，对数值、时间等类型数据进行推理。增强数据间的结构信息。其次通过Transformer等模式结合上下文进行推导，生成最终文本。

0 码力 | 44 页 | 2.36 MB | 1 年前
3
机器学习课程-温州大学-08机器学习-集成学习

从训练集中进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果：集成学习模型n …… 模型1 模型2 预测n …… 预测1 预测2 训练数据最终预测结果测试数据 5 Boosting 训练过程为阶梯状，基模型按次序一一进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性第二层数据 Stacking 最终预测结果 Stacking 将训练好的所有基模型对训练基进行预测，第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值，最后基于新的训练集进行训练。同理，预测的过程也要先经过所有基模型的预测形成新的测试集，最后再对测试集进行预测。测试数据 7 Random Forest（随机森林）用随机的方式建立一，为残差，所以第?棵决策树? ?: ?? 是对该残差的拟合回归使用平方误差损失注意：提升树算法中的基学习器CART树是回归树 ?? ? = ??−1 ? + ? ?: ?? GBDT算法 20 回归树问题的提升算法：输入：训练数据集? = ?1, ?1 , ?2, ?2 , … , ??, ?? 输出：提升树??(?) 1 初始化?0 ? = 0 2 对? = 1,2, … ? (?)计算残差

0 码力 | 50 页 | 2.03 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

h, y_batch) 只需一行代码就能评估模型性能： loss_and_metrics = model.evaluate(x_test, y_test, batch_size=128) 或者对新的数据生成预测： classes = model.predict(x_test, batch_size=128) 构建一个问答系统，一个图像分类模型，一个神经图灵机，或者其他的任何模型，就是这么 OpenGL 支持的 GPU, 比如 AMD, 通过 PlaidML Keras 后端。 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 • Keras 内置对多 GPU 数据并行的支持。 • 优步的 Horovod 对 Keras 模型有第一流的支持。 • Keras 模型可以被转换为 TensorFlow 估计器并在 Google Cloud 的 GPU 集群上训练。 • Keras 函数式 API 指引 3.2.1 开始使用 Keras 函数式 API Keras 函数式 API 是定义复杂模型（如多输出模型、有向无环图，或具有共享层的模型）的方法。这部分文档假设你已经对 Sequential 顺序模型比较熟悉。让我们先从一些简单的例子开始。 3.2.2 例一：全连接网络 Sequential 模型可能是实现这种网络的一个更好选择，但这个例子能够帮助我们进行一些

0 码力 | 257 页 | 1.19 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理（国内教材）

的求法一般有三种方法： 1)方程两边对?求导，要记住?是?的函数，则?的函数是?的复合函数.例如 1 ?，?2，???，e? 等均是?的复合函数. 对?求导应按复合函数连锁法则做。 2)公式法.由?(?, ?) = 0知 ?? ?? = − ?′?(?,?) ?′?(?,?),其中，?′?(?, ?)， ?′?(?, ?)分别表示?(?, ?)对 ?和?的偏导数。 3)利用微分形式不变性 lim ?→?0 ?′(?) ?′(?). 同理法则II’( ∞ ∞型不定式极限)仿法则I’可写出 11.泰勒公式设函数?(?)在点?0处的某邻域内具有? + 1阶导数，则对该邻域内异于?0的任意点?，在?0 与?之间至少存在一个?，使得： ?(?) = ?(?0) + ?′(?0)(? − ?0) + 1 2! ?″(?0)(? − ?0)2 + ⋯ + + ?(?−1) 2! ?2 + ⋯ + ?(?−1)⋯(?−?+1) ?! ?? + ?(??) 12.函数单调性的判断 Th1: 设函数?(?)在(?, ?)区间内可导，如果对∀? ∈ (?, ?)，都有? ′(?) > 0（或? ′(?) < 0），则函数?(?)在(?, ?)内是单调增加的（或单调减少）。 Th2: （取极值的必要条件）设函数?(?)在?0处可导，且在

0 码力 | 31 页 | 1.18 MB | 1 年前
3
机器学习课程-温州大学-03深度学习-PyTorch入门

requir e s_grad=True) 支持，①对变量求导示例 v=tf.Variable([3.2, 4.3], dtype=tf.float16)， #TensorFlow一般使用梯度磁带tf.GradientTape来记录正向运算过程，然后反播磁带自动得到梯度值。 ②对常量也可求导，需要增加 watch。 ③对tf.Variable可以通过参数 trainable 控制是否可学习，缺 o r的 requires_ g r a d 的属性为 True 定义函数 ( L) 使用函数的求导方法（L. b a c kwa rd( ) ）对标量求导对非标量求导直接使用 L.backward()函数配置 backward()函数中 g r a d i e n t 参数，使其形状与函数数 L形状一样，其权重一般为1（也可小于1）使用 t e n s o r.grad查看叶子节点的梯度如果需要保存非叶子节点梯度，需使对应张量调用 retain_graph （）使用 t e n s o r.grad.zero_() 清除张量梯度如果要保留计算图，可通过设置

0 码力 | 40 页 | 1.64 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra

这些不同方法的直接优势在于它们允许您在向量的级别/单位而不是标量上进行操作。为了完全理解线性代数而不会迷失在复杂的索引操作中，关键是要用尽可能多的概念进行操作。实际上所有的线性代数都处理某种矩阵乘法，花一些时间对这里提出的观点进行直观的理解是非常必要的。除此之外，了解一些更高级别的矩阵乘法的基本属性是很有必要的：矩阵乘法结合律: 矩阵乘法分配律: 矩阵乘法通常不是可交换的; 也就是说，通常 , , 为方阵, 则： , 同理，更多矩阵的积也是有这个性质。作为如何证明这些属性的示例，我们将考虑上面给出的第四个属性。假设和（因此是方阵）。观察到也是一个方阵，因此对它们进行迹的运算是有意义的。要证明，请注意：这里，第一个和最后两个等式使用迹运算符和矩阵乘法的定义，重点在第四个等式，使用标量乘法的可交换性来反转每个乘积中的项的顺序，以及标量加法的可交换性和相关性，以便重新排列求和的顺序。考虑通过采用行向量的所有可能线性组合形成的点的集合，其中线性组合的系数都在0和1之间; 也就是说，集合是受到系数的限制的线性组合，满足。从形式上看，事实证明，的行列式的绝对值是对集合的“体积”的度量。比方说：一个的矩阵(4)：它的矩阵的行是：对应于这些行对应的集合如图1所示。对于二维矩阵，通常具有平行四边形的形状。在我们的例子中，行列式的值是（可以

0 码力 | 19 页 | 1.66 MB | 1 年前
3

共 62 条前往

页

分类

语言

格式