监督微调 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

DeepSeek图解10页PDF

基础概念 …… 5 2.2 Transformer 基础架构 …… 6 2.3 LLM 基本训练方法 …… 7 2.3.1 预训练 (Pretraining) …… 7 2.3.2 监督微调 (Supervised Fine-Tuning, SFT) …… 7 2.3.3 强化学习 (Reinforcement Learning, RL) …… 7 3 DeepSeek-R1 DeepSeek）具有多个重要的优势，比如： 1. 保护隐私与数据安全。数据不外传：本地运行模型可以完全避免数据上传至云端，确保敏感信息不被第三方访问。 2. 可定制化与优化。支持微调（Fine-tuning）：可以根据特定业务需求对模型进行微调，以适应特定任务，如行业术语、企业内部知识库等。 3. 离线运行，适用于无网络环境。可在离线环境下运行：适用于无互联网连接或网络受限的场景。提高系统稳定性：即使云服务 (Pretraining) LLM 训练通常采用大规模无监督学习，即：1. 从互联网上收集大量文本数据，如书籍、新闻、社交媒体等。2. 让模型学习词语之间的概率分布，理解句子结构。3. 训练目标是最小化预测误差，使其能更好地完成语言任务。 #### 2.3.2 监督微调 (Supervised Fine-Tuning, SFT) 在预训练之后，通常需要对模型进行监督微调（SFT）：使用人工标注的数据集，让模型

0 码力 | 11 页 | 2.64 MB | 1 年前
3
机器学习课程-温州大学-Scikit-learn

嵌入式（Embedded），从模型中自动选择特征，任何具有coef_或者 feature_importances_的基模型都可以作为estimator参数传入 ### 2. Scikit-learn主要用法监督学习算法-回归 from sklearn.linear_model import LinearRegression 构建模型实例 lr = LinearRegression(normalize=True) Ridge ElasticNet linear_model.ElasticNet 回归树 tree.DecisionTreeRegressor ### 2. Scikit-learn主要用法 ## 监督学习算法-分类 from sklearn.tree import DecisionTreeClassifier clf = DecisionTreeClassifier(max_depth=5) 1. Scikit-learn概述 ## 监督学习算法-分类逻辑回归 linear model.LogisticRegression 支持向量机 svm.SVC 朴素贝叶斯 naive bayes.GaussianNB K近邻 neighbors.NearestNeighbors ### 2. Scikit-learn主要用法 ## 监督学习算法-集成学习 sklearn.ense

0 码力 | 31 页 | 1.18 MB | 2 年前
3
Lecture 1: Overview

0 码力 | 57 页 | 2.41 MB | 2 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

替原来的10000维的one-hot向量，现在你可以用一个300维更加紧凑的向量。第三步，当你在你新的任务上训练模型时，在你的命名实体识别任务上，只有少量的标记数据集上，你可以自己选择要不要继续微调，用新的数据调整词嵌入。 ### 2. 词嵌入 ## Analogies ||Man (5391)|Woman (9853)|King (4914)|Queen (7157)|Apple (456)|Orange 的训练参数猜测上下文的过程 ## 主流思路是分离文本属性及文本内容隐式方法即使用某类无监督学习学习或强化学习模式将文本属性及内容自动分离，常见的有生成对抗方式，即通过GAN实现目标属性和文本量性完全由不同的编码控制的状态。 ## GPT的发展 ## GPT-1：借助预训练，进行无监督训练和有监督微调 ■ GPT-1模型基于Transformer解除了顺序关联和依赖性的前提，采用生成式模型方式，重点考虑了从原始文本中有效学习的能力，这对于减轻自然语言处理（NLP）中对监督学习的依赖至关重要 ✓ GPT（Generative Pre-training Transformer）于2018年6月由OpenAI首次提出。GPT模型考虑到在自然语言理解中有大量不同的任务，尽管大量的未标记文本语料库非常丰富，但用于学习这些特定任务的标记数据却很少，这使得经过区分训练的模型很难充分执行。同时，

0 码力 | 44 页 | 2.36 MB | 2 年前
3
2020美团技术年货算法篇

年底，以 Google BERT $ ^{[1]} $ 为代表的预训练语言模型刷新了多项 NLP 任务的最好水平，开创了 NLP 研究的新范式：即先基于大量无监督语料进行语言模型预训练（Pre-training），再使用少量标注语料进行微调（Fine-tuning）来完成下游的 NLP 任务（文本分类、序列标注、句间关系判断和机器阅读理解等）。美团 AI 平台搜索与 NLP 部算法团队基于美团海量业务语料训练了 Fine-tuning 方式优化 Query-Doc 语义匹配任务。图 2 展示了基于 BERT 优化美团搜索核心排序相关性的技术架构图，主要包括三部分： - 数据样本增强：由于相关性模型的训练基于搜索用户行为标注的弱监督数据，我们结合业务经验对数据做了去噪和数据映射。为了更好地评价相关性模型的离线效果，我们构建了一套人工标注的 Benchmark 数据集，指导模型迭代方向。 • BERT 领域适配：美团业务场景中，Query Doc 覆盖多个业务领域，如果采用人工标注的方法为每个业务领域标注一批训练样本，时间和人力成本过高。我们的解决办法是使用美团搜索积累的大量用户行为数据（如浏览、点击、下单等），这些行为数据可以作为弱监督训练数据。在 DSSM 模型进行样本构造时，每个 Query 下抽取 1 个正样本和 4 个负样本，这是比较常用的方法，但是其假设 Query 下的 Doc 被点击就算是相关的，这个假设在实际的业务场景下会给模型引入一些噪声。

0 码力 | 317 页 | 16.57 MB | 2 年前
3
开源中国 2023 大模型(LLM)技术报告

LLMOps 大模型聚合平台 ## 工具和平台 ➢ 开发工具插件、IDE、终端代码生成工具 ## AI 编程 ## 算力 ## 基础设施向量数据库数据库向量支持 ➢ 大模型框架、微调 (Fine Tuning) ➢ 大模型训练平台与工具 ## LLM Agent ## 编程语言 ## LLM Tech Map 大模型技术图谱 ![Image](/uploads/doc elastic Search CASSANDRA redis Timescale ClickHouse SingleStore kinetica ## 大模型训练平台与工具大模型框架，微调（Fine Tuning） LMFLOW LoRA LLaMA-Efficient-Tuning OF xTuring YiVal P-tuning v2 h20-llmstudio PEFT ## LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心，随着大规模语言数据集的可用性和计算能力的提升，研究者们开始设计更大规模的神经网络，以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展，其预训练和微调的方法为语言任务提供了前所未有的性能，以此为基础，多模态融合的应用使得

0 码力 | 32 页 | 13.09 MB | 2 年前
3
动手学深度学习 v2.0

547 13 计算机视觉 …… 549 13.1 图像增广 …… 549 13.1.1 常用的图像增广方法 …… 550 13.1.2 使用图像增广进行训练 …… 554 13.2 微调 …… 557 13.2.1 步骤 …… 558 13.2.2 热狗识别 …… 559 13.3 目标检测和边界框 …… 564 13.3.1 边界框 …… 565 13.4 锚框 Dogs) ..... 641 13.14.1 获取和整理数据集 ..... 642 13.14.2 图像增广 ..... 643 13.14.3 读取数据集 ..... 644 13.14.4 微调预训练模型 ..... 644 13.14.5 定义训练函数 ..... 645 13.14.6 训练和验证模型 ..... 646 13.14.7 对测试集分类并在Kaggle提交结果 14 自然语言处理：预训练 ..... 649 14.1 词嵌入 (word2vec) ..... 650 14.1.1 为何独热向量是一个糟糕的选择 ..... 650 14.1.2 自监督的word2vec ..... 651 14.1.3 跳元模型 (Skip-Gram) ..... 651 14.1.4 连续词袋 (CBOW) 模型 ..... 652 14.2 近似训练

0 码力 | 797 页 | 29.45 MB | 2 年前
3
Hello Agents V1.0.2 (从零开始构建智能体)

可理解高层级、模糊的自然语言工作模式确定性的、可预测的概率性的、生成式的泛化/适应性弱，局限于预设框架强，具备强大的涌现能力和泛化能力开发范式规则设计、算法编程、知识工程模型训练、提示工程、微调这种差异使得LLM智能体可以直接处理高层级、模糊且充满上下文信息的自然语言指令。让我们以一个“智能旅行助手“为例来说明。在LLM智能体出现之前，规划旅行通常意味着用户需要在多个专用应用（如窄，难以将在一个任务中学到的知识泛化到另一个任务，并且每一个新任务都需要耗费大量的人力去标注数据。预训练与微调（Pre-training, Fine-tuning）范式的提出彻底改变了这一现状。其核心思想分为两步：预训练阶段：首先在一个包含互联网级别海量文本数据的通用语料库上，通过自监督学习（Selfsupervised Learning）的方式训练一个超大规模的神经网络模型。这个阶段的目标标是“预测下一个词”。微调阶段：完成预训练后，这个模型就已经学习到了和数据集有关的丰富知识。之后，针对特定的下游任务，只需使用少量该任务的标注数据对模型进行微调，即可让模型适应对应任务。如图2.9所示，直观地展示了这一预训练与微调的完整流程：通用文本数据经过自监督学习形成基础模型，随后通过特定任务数据进行微调，最终适应各项下游任务。图2.9“预训练-微调”范式示意图大型语言模型的诞生与涌现能力

0 码力 | 633 页 | 58.72 MB | 1 月前
3
AI大模型千问 qwen 中文文档

clone https://github.com/casper-hansen/AutoAWQ.git cd AutoAWQ pip install -e . 假设你已经基于 Qwen1.5-7B 模型进行了微调，并将其命名为 Qwen1.5-7B-finetuned，且使用的是你自己的数据集，比如 Alpaca。若要构建你自己的 AWQ 量化模型，你需要使用训练数据进行校准。以下，我们将为你提供一个简单的演示示例以便运行： →safetensors=True) 接下来，您需要准备数据以进行校准。您需要做的就是将样本放入一个列表中，其中每个样本都是一段文本。由于我们直接使用微调数据来进行校准，所以我们首先使用 ChatML 模板对其进行格式化。例如： data = [] for msg in messages: msg = c['messages'] clone https://github.com/AutoGPTQ/AutoGPTQ cd AutoGPTQ pip install -e . 假设你已经基于 Qwen1.5-7B 模型进行了微调，并将该微调后的模型命名为 Qwen1.5-7B-finetuned，且使用的是自己的数据集，比如 Alpaca。要构建你自己的 GPTQ 量化模型，你需要使用训练数据进行校准。以下是一个简单的演示示例，供你参考运行：

0 码力 | 56 页 | 835.78 KB | 2 年前
3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

Kimi k1.5 ☐ 垂直领域优化：针对特定领域（如医疗、法律）进行优化，提供高精度结果。 ☐ 长文本处理：擅长处理长文本和复杂文档，适合专业场景。 ☐ 定制化能力：支持用户自定义训练和微调，适应特定需求。 ## 爬虫数据采集 ## 任务 1、阅读网页源代码，提取特定网页内容； 2、撰写python脚本； 3、提取并合并网址； 4、提取网址内容； 5、写入文件。 ## DeepSeek 型的技术正在助力临床数据的解析与利用。此外，一些研究还关注大语言模型的安全性和伦理问题，例如越狱攻击、信任建构及伦理治理等。然而，大语言模型并非完美无缺。其在实际应用中仍面临一系列挑战，如模型的微调、融合其他技术（如图神经网络）、以及在特定领域（如中医药）中的关键技术与策略。同时，如何引导大语言模型生成计算机可解析的内容，如何在少量语料的情况下实现高效的语音转换，以及如何将其应用于质性研究等领域，都是当前研究的热点话题。是首个完全基于强化学习（RL）训练的推理模型，无需任何监督微调（SFT）步骤，打破传统模型依赖大量标注数据的惯例。DeepSeek-R1 采用强化学习作为核心训练方法，显著提升了模型的推理能力和语言表达的可读性。 - 推理能力专项提升：在除了利用强化学习模型结合跨领域训练提升模型综合技能以外，还重点提升了模型在数学、代码、逻辑推理等硬核任务上的能力。传统依赖：大规模监督微调（SFT） ![Image](/

0 码力 | 85 页 | 8.31 MB | 1 年前
3

共 336 条前往

页

搜索

分类

语言

格式