AI大模型千问 qwen 中文文档最新版本 Qwen1.5 有以下特点: • 6 种模型规模,包括 0.5B、1.8B、4B、7B、14B 和 72B; • 针对每种尺寸提供基础模型和 Chat 模型,并确保聊天模型按照人类偏好进行校准; • 对基础模型和 Chat 模型的多语言支持 • 基础模型和聊天模型都支持多种语言; • 支持工具调用、RAG(检索增强文本生成)、角色扮演、AI Agent 等; 想了解更多信息,欢迎访问: 参数用于在输入中添加生成提示,该提示指向 <|im_start|>assistant\n 。尤其需要注意的是,我们 遵循先前实践,对 chat 模型应用 ChatML 模板。而 max_new_tokens 参数则用于设置响应的最大长度。此 外,通过 tokenizer.batch_decode() 函数对响应进行解码。关于输入部分,上述的 messages 是一个 示例,展示了如何格式化对话历史记录和系统提示。默认 现在,你可以选择流式模式或非流式模式与 Qwen1.5 进行对话。继续阅读文档,并尝试探索模型推理的更多 高级用法!” 1.4 llama.cpp llama.cpp 是一个 C++ 库,用于简化 LLM 推理的设置。它使得在本地机器上运行 Qwen 成为可能。该库是 一个纯 C/C++ 实现,不依赖任何外部库,并且针对 x86 架构提供了 AVX、AVX2 和 AVX512 加速支持。此 外,它还提供了 2、3、4、5、60 码力 | 56 页 | 835.78 KB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入合 上下文进行推导,生成最终文本。 ◼ Transformer架构可分为自回归系列(例如GPT-3,偏好生成性任务)、双向Transformer+Mask的自编码系列(例如BERT, 偏好自然语言理解)、Encoder-decoder架构(例如T5,使用双向/单向attention,偏好条件文本生成) 图:Transformer典型技术场景下的原理介绍如下所述 Transformer 34 GPT-3利用了过滤前45TB的压缩文本,在诸多NLP数据集中实现了强大性能 ✓ GPT-3是一个具有1750亿个参数的自回归语言模型,比之前的任何非稀疏语言模型多10倍。对于所有任务(在few-shot设置下测试其 性能),GPT-3都是在没有任何梯度更新或微调的情况下应用的,仅通过与模型的文本交互来指定任务和few-shot演示。 ✓ GPT-3在许多NLP数据集上都有很强的性能(包括翻译、问0 码力 | 44 页 | 2.36 MB | 1 年前3
机器学习课程-温州大学-07机器学习-决策树12 老年 是 否 好 是 13 老年 是 否 非常好 是 14 老年 否 否 一般 否 15 ID3算法 缺点 ID3 没有剪枝策略,容易过拟合; 信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征 其信息增益接近于 1; 只能用于处理离散分布的特征; 没有考虑缺失值。 16 3.C4.5算法 01 决策树原理 02 ID3算法 03 C4.5算法 于左侧区域是纯净的(仅Iris-Setosa),因此无法进一步拆分。 •然而,右侧区域是不纯的,因此深度为1的右侧节点将其分割成花瓣 宽度= 1.75厘米(由虚线表示)。由于max_depth设置为2,因此决策 树会在那里停止。 •但是,如果将max_depth设置为3,那么两个深度为2的节点将各自添 加另一个决策边界(由点虚线表示)。 150个鸢尾花样本进行分类,特 征为花萼的长度和宽度 决策树原理 33 CART算法-回归0 码力 | 39 页 | 1.84 MB | 1 年前3
房源质量打分中深度学习应用及算法优化-周玉驰一套房源的用户组成结构 客户潜在的热度,反映市场偏好 • • 2019 KE.COM ALL COPYRIGHTS RESERVED 31 v2.0+:持续优化 潜在热度 单套房源的客户潜在热度 • 商圈偏好 • 小区偏好 • 居室偏好 • 面积偏好 • 价格偏好 … 对房源偏好 购房意愿强度 � 潜在客户 对房源偏好 潜在客户 购房意愿强度 X ( ) 所有潜在客户 行为:浏览、带看 … 区域内排名 (门店/商圈) 2019 KE.COM ALL COPYRIGHTS RESERVED 33 v2.0+:持续优化 经纬度 房源地理位置信息 市场偏好 反映地段偏好 区域竞争力 结合体现竞争力的特征 反映某一距离范围内的竞争力 2019 KE.COM ALL COPYRIGHTS RESERVED 34 指标 • TopN去化率0 码力 | 48 页 | 3.75 MB | 1 年前3
超大规模深度学习在美团的应用-余建平业界千亿级以上的机器学习平台 开源: PaddlePaddle、XDL,etc. 内部: Abacus、XPS, etc. • Online Learning的价值 用户的近期行为,更能表现意图和偏好 增强新item的模型感知能力 • 更快数据反馈、更少资源消耗 分钟级的数据反馈 增量训练、避免batch重训带来的资源消耗 关于Online Learning MLX的模型能力0 码力 | 41 页 | 5.96 MB | 1 年前3
动手学深度学习 v2.0引言 看,它们似乎是相似的任务。然而,如果我们想处理完全不同的输入或输出,比如:从图像映射到字幕,或 从英语映射到中文,可能需要一个完全不同的模型族。 但如果模型所有的按钮(模型参数)都被随机设置,就不太可能识别出“Alexa”“Hey Siri”或任何其他单 词。在机器学习中,学习(learning)是一个训练模型的过程。通过这个过程,我们可以发现正确的参数集, 从而使模型强制执行所需 射到对应的已知字符之上。这种“哪一个”的问题叫做分类(classification)问题。分类问题希望模型能够预 测样本属于哪个类别(category,正式称为类(class))。例如,手写数字可能有10类,标签被设置为数字0~ 9。最简单的分类问题是只有两类,这被称之为二项分类(binomial classification)。例如,数据集可能由动 物图像组成,标签可能是{�, �}两类。回归是训练一个回归 户,推荐系统都可以检索得分最高的对象集,然后将其推荐 给用户。以上只是简单的算法,而工业生产的推荐系统要先进得多,它会将详细的用户活动和项目特征考虑 在内。推荐系统算法经过调整,可以捕捉一个人的偏好。比如,图1.3.4 是亚马逊基于个性化算法推荐的深度 学习书籍,成功地捕捉了作者的喜好。 14 http://bioasq.org/ 15 https://en.wikipedia.org/wiki/PageRank0 码力 | 797 页 | 29.45 MB | 1 年前3
Keras: 基于 Python 的深度学习库损失函数的字符串标识符,如 categorical_crossentropy 或 mse,也可以是一个目标函数。详见:losses。 • 评估标准 metrics。对于任何分类问题,你都希望将其设置为 metrics = ['accuracy']。 评估标准可以是现有的标准的字符串标识符,也可以是自定义的评估标准函数。 # 多分类问题 model.compile(optimizer='rmsprop' my_keras_script.py ”gpu” 可能需要根据你的设备标识符(例如 gpu0,gpu1 等)进行更改。 方法 2: 创建 .theanorc: 指导教程 方法 3: 在代码的开头手动设置 theano.config.device, theano.config.floatX: import theano theano.config.device = 'gpu' theano.config 更多信息请查看 callbacks 文档。 3.3.11 验证集划分是如何计算的? 如果您将 model.fit 中的 validation_split 参数设置为 0.1,那么使用的验证数据将是最 后 10%的数据。如果设置为 0.25,就是最后 25% 的数据。注意,在提取分割验证集之前,数据不 会被混洗,因此验证集仅仅是传递的输入中最后一个 x%的样本。 所有 epoch 都使用相同的验证集(在同一个0 码力 | 257 页 | 1.19 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112tensor(1.) b = torch.tensor(2.) 预览版202112 1.6 开发环境安装 17 c = torch.tensor(3.) # 需要求导的张量,要设置 requires_grad w = torch.tensor(4., requires_grad=True) # 构建计算过程 y = a * w**2+ b * w + c # 求导 自带的显卡驱动版本号“New Version”,如果“Current Version”大于“New Version”,则需要取消“Display Driver”的勾,如果小于或等于,则 默认勾选即可,如图 1.27 所示。设置完成后即可正常安装。 图 1.25 CUDA 安装界面-1 图 1.26 CUDA 安装界面-2 安装完成后,我们来测试 CUDA 软件是否安装成功。打开 cmd 命令行,输入“nvcc 函数值增大的方向,那么梯度的反方向−∇?则指向函数值减少的方向。利用这一性质,只 需要按照 ?′ = ? − ? ∙ ∇? (2.1) 来迭代更新?′,就能获得越来越小的函数值,其中?用来缩放梯度向量,一般设置为某较小 的值,如 0.01、0.001 等。特别地,对于一维函数,上述向量形式可以退化成标量形式: ?′ = ? − ? ∙ d? d? 通过上式迭代更新?′若干次,这样得到的?′处的函数值0 码力 | 439 页 | 29.91 MB | 1 年前3
PyTorch OpenVINO 开发实战系列教程第一篇sudo apt-get update sudo apt-get install python3.6 3. 删除默认 python 版本设置 zhigang@ubuntu:/usr/bin$ sudo rm python 4. 把安装好的 3.6 设置为默认版本 zhigang@ubuntu:/usr/bin$ sudo ln -s python3.6 /usr/bin/ python 6 点击【New Project】,输入项目名称,显示如下: 图 1-6(创建新项目) 点击【Create】按钮完成项目创建,选择文件 (File)-> 设置 (Setting) 选项: 图 1-7(设置选项) 图 1-8(设置系统 Python 解释器) 完成之后,在项目中创建一个空的 python 文件命名为 main. py,然后直接输入下面两行测试代码: import torch0 码力 | 13 页 | 5.99 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra的线性组合,其系数为 : 在第二个等式中,我们使用矩阵和向量相乘的方法。 实际上,这种 是唯一存在的: 换句话说,向量 可以作为向量 的另一种表示,与 定义的基有关。 “对角化”矩阵向量乘法。 通过上面的设置,我们将看到左乘矩阵 可以被视为左乘以对角矩阵关于特征 向量的基。 假设 是一个向量, 表示 的基。设 为矩阵向量积。现在让我们计算关于 的基 : 然后,再利用 和方程 ,我们得到: 我们可以看到,原始空间中的左乘矩阵 角化技术来证明这一点:注意,通过公式 推出 ,并利用公式: ,我们可以将上面那个优化问题改写为: 然后,我们得到目标的上界为 : 此外,设置 可让上述等式成立,这与设置 相对应。 4.矩阵微积分 虽然前面章节中的主题通常包含在线性代数的标准课程中,但似乎很少涉及(我们将广泛使用)的一个 主题是微积分扩展到向量设置展。尽管我们使用的所有实际微积分都是相对微不足道的,但是符号通常 会使事情看起来比实际困难得多。 在本节 。在这种情况下,我们将无法找到向量 , 由于 ,因此我们想要找到一个向量 ,使得 尽可能接近 ,用欧几里德范数的平方 来衡量。 使用公式 ,我们可以得到: 根据 的梯度,并利用上一节中推导的性质: 将最后一个表达式设置为零,然后解出 ,得到了正规方程: 这和我们在课堂上得到的相同。 4.5 行列式的梯度 现在让我们考虑一种情况,我们找到一个函数相对于矩阵的梯度,也就是说,对于 ,我们要 找到 。回想一下我们对行列式的讨论:0 码力 | 19 页 | 1.66 MB | 1 年前3
共 26 条
- 1
- 2
- 3













