开源中国 2023 大模型(LLM)技术报告LLMOps 大模型聚合平台 ## 工具和平台 ➢ 开发工具 插件、IDE、终端代码生成工具 ## AI 编程 ## 算力 ## 基础设施 向量数据库 数据库向量支持 ➢ 大模型框架、微调 (Fine Tuning) ➢ 大模型训练平台与工具 ## LLM Agent ## 编程语言 ## LLM Tech Map 大模型技术图谱  LMFLOW LoRA LLaMA-Efficient-Tuning OF xTuring YiVal P-tuning v2 h20-llmstudio PEFT ## LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心,随着大规模语言数据集的可用性和计算能力的提升,研究者们开始设计更大规模的神经网络,以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展,其预训练和微调的方法为语言任务提供了前所未有的性能,以此为基础,多模态融合的应用使得0 码力 | 32 页 | 13.09 MB | 2 年前3
DeepSeek图解10页PDF基础概念 …… 5 2.2 Transformer 基础架构 …… 6 2.3 LLM 基本训练方法 …… 7 2.3.1 预训练 (Pretraining) …… 7 2.3.2 监督微调 (Supervised Fine-Tuning, SFT) …… 7 2.3.3 强化学习 (Reinforcement Learning, RL) …… 7 3 DeepSeek-R1 DeepSeek)具有多个重要的优势,比如: 1. 保护隐私与数据安全。数据不外传:本地运行模型可以完全避免数据上传至云端,确保敏感信息不被第三方访问。 2. 可定制化与优化。支持微调(Fine-tuning):可以根据特定业务需求对模型进行微调,以适应特定任务,如行业术语、企业内部知识库等。 3. 离线运行,适用于无网络环境。可在离线环境下运行:适用于无互联网连接或网络受限的场景。提高系统稳定性:即使云服务 媒体等。2. 让模型学习词语之间的概率分布,理解句子结构。3. 训练目标是最小化预测误差,使其能更好地完成语言任务。 #### 2.3.2 监督微调 (Supervised Fine-Tuning, SFT) 在预训练之后,通常需要对模型进行监督微调(SFT):使用人工标注的数据集,让模型在特定任务上优化表现。调整参数,使其更符合人类需求,如问答、对话生成等任务。 #### 2.3.3 强化学习(Reinforcement0 码力 | 11 页 | 2.64 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入替原来的10000维的one-hot向量,现在你可以用一个300维更加紧凑的向量。 第三步,当你在你新的任务上训练模型时,在你的命名实体识别任务上,只有少量的标记数据集上,你可以自己选择要不要继续微调,用新的数据调整词嵌入。 ### 2. 词嵌入 ## Analogies ||Man (5391)|Woman (9853)|King (4914)|Queen (7157)|Apple (456)|Orange 隐式方法即使用某类无监督学习学习或强化学习模式将文本属性及内容自动分离,常见的有生成对抗方式,即通过GAN实现目标属性和文本量性完全由不同的编码控制的状态。 ## GPT的发展 ## GPT-1:借助预训练,进行无监督训练和有监督微调 ■ GPT-1模型基于Transformer解除了顺序关联和依赖性的前提,采用生成式模型方式,重点考虑了从原始文本中有效学习的能力,这对于减轻自然语言处理(NLP)中对监督学习的依赖至关重要 ✓ 许多缺少注释资源的领域的适用性。 ✓ 在考虑以上局限性的前提下,GPT论文中证明,通过对未标记文本的不同语料库进行语言模型的生成性预训练,然后对每个特定任务进行区分性微调,可以实现这些任务上的巨大收益。和之前方法不同,GPT在微调期间使用任务感知输入转换,以实现有效的传输,同时对模型架构的更改最小。 图:GPT-1模型的核心手段是预训练(Pre-training)  接下来,您需要准备数据以进行校准。您需要做的就是将样本放入一个列表中,其中每个样本都是一段文本。由于我们直接使用微调数据来进行校准,所以我们首先使用 ChatML 模板对其进行格式化。例如: data = [] for msg in messages: msg = c['messages'] clone https://github.com/AutoGPTQ/AutoGPTQ cd AutoGPTQ pip install -e . 假设你已经基于 Qwen1.5-7B 模型进行了微调,并将该微调后的模型命名为 Qwen1.5-7B-finetuned,且使用的是自己的数据集,比如 Alpaca。要构建你自己的 GPTQ 量化模型,你需要使用训练数据进行校准。以下是一个简单的演示示例,供你参考运行:0 码力 | 56 页 | 835.78 KB | 2 年前3
AI PC 产业(中国)白皮书。这要求端侧计算架构的升级和AI算力的同步提升。 ## 需要基于个人数据和隐私信息进行微调和个性化服务 个人大模型的普及,必然带来用户对大模型的专属化需求的提高。而云端公共大模型无法满足用户千人千面的需求,专属化的成本也相当高昂。因此,个人大模型将需要用户根据自己的数据和业务需求,在一定程度上进行自主微调,以适应特定的应用场景,提供相对个性化的服务。 无论是企业客户还是个人客户,数据安全和隐 下,AI PC将在用户同意的情况下,调用云端公共大模型的能力,从而极大的扩展了本地模型的能力范畴。在很多情况下,边缘设备的出现,进一步分担了本地模型推理的负载,并且能够帮助AI PC完成个人大模型的微调,为本地模型的个性化提供了一种可行的解决方案。 混合大模型的优势在于,它能够根据终端设备的性能、资源限制以及用户的网络状况和任务复杂度,动态地调整端侧和云端的计算负载,实现最优的性能和效率。满足用 Application)有可能成为行业生态内的一种潮流。OpenAI近期发布的GPTs提出了专属定制模型的概念,允许用户基于自身的需求自行构建云端的定制化模型。在端侧,通过边缘AI主机提供的算力,用户也可以实现专属个人大模型的微调和定制。 - 新型用户社区兴起,应用生态供需关系翻转:随着UGA的增加,还将形成全新形态和运作模式的社区。用户可以在社区上分享自己利用AI创作的APP供其他用户下载和使用;用户可以在社区上对UGA0 码力 | 54 页 | 4.18 MB | 3 月前3
2023 中国开源开发者报告18 | 开源治理 ## 二、 2023 LLM 技术报告 46 | 向量数据库 62 | 插件、IDE、终端 47 | 数据库向量支持 63 | 代码生成工具 48 | 大模型框架、微调 64 | LLM Agent 51 | 大模型训练平台与工具 67 | LLMOps 53 | 编程语言 68 | 大模型聚合平台 57 | 知名大模型 69 | 开发工具 58 | ama 1,Llama 2的训练数据多了40%,上下文 长度是 Llama 1 的 2 倍,并采用了分组查询注意力机制。具体来说,Llama 2 预训练模型是在 2 万亿的 token 上训练的,微调 Chat 模型是在 100 万人类标记数据上训练的。  ➢ 大模型训练平台与工具 ## LLM Agent ## 编程语言 ## LLM Tech Map 大模型技术图谱  ..... 641 13.14.1 获取和整理数据集 ..... 642 13.14.2 图像增广 ..... 643 13.14.3 读取数据集 ..... 644 13.14.4 微调预训练模型 ..... 644 13.14.5 定义训练函数 ..... 645 13.14.6 训练和验证模型 ..... 646 13.14.7 对测试集分类并在Kaggle提交结果 针对序列级和词元级应用微调BERT ..... 731 15.6.1 单文本分类 ..... 731 15.6.2 文本对分类或回归 ..... 732 15.6.3 文本标注 ..... 732 15.6.4 问答 ..... 733 15.7 自然语言推断:微调BERT ..... 734 15.7.1 加载预训练的BERT ..... 735 15.7.2 微调BERT的数据集0 码力 | 797 页 | 29.45 MB | 2 年前3
2020美团技术年货 算法篇^{[1]} $ 为代表的预训练语言模型刷新了多项 NLP 任务的最好水平,开创了 NLP 研究的新范式:即先基于大量无监督语料进行语言模型预训练(Pre-training),再使用少量标注语料进行微调(Fine-tuning)来完成下游的 NLP 任务(文本分类、序列标注、句间关系判断和机器阅读理解等)。美团 AI 平台搜索与 NLP 部算法团队基于美团海量业务语料训练了 MT-BERT 模型,已经将 统就起到了非常好的作用。 下面是一个实际案例,我们用算法把一个城市做了重新的区域规划。当然,这里必须要强调的是,在这个过程中,人工介入还是非常必要的。对于一些算法很难处理好的边角场景,需要人工进行微调,使整个规划方案更加合理。中间的图是算法规划的结果。经过试点后,测试城市整体的单均行驶距离下降了5%,平均每一单骑手的行驶距离节省超过100米。可以想象一下,在这么庞大的单量规模下,每单平均减少10 作时段之间休息的时间不过短等等,有很多这样的业务约束,梳理之后可以发现,这个问题的约束太多了,求最优解甚至可行解的难度太大了。另外,站长在使用排班工具的时候,希望能马上给出系统排班方案,再快速做后续微调,因此对算法运行时间要求也比较高。 ## 算法核心思想 可理解高层级、模糊的自然语言 工作模式 确定性的、可预测的 概率性的、生成式的 泛化/适应性 弱,局限于预设框架 强,具备强大的涌现能力和泛化能力 开发范式 规则设计、算法编程、知识工程 模型训练、提示工程、微调 这种差异使得LLM智能体可以直接处理高层级、模糊且充满上下文信息的自然语言指令。让我们以一个“智能旅行助手“为例来说明。 在LLM智能体出现之前,规划旅行通常意味着用户需要在多个专用应用(如 翻译)在专门标注的中小规模数据集上从零开始独立训练的。这种模式导致了几个问题:模型的知识面狭窄,难以将在一个任务中学到的知识泛化到另一个任务,并且每一个新任务都需要耗费大量的人力去标注数据。预训练与微调(Pre-training, Fine-tuning)范式的提出彻底改变了这一现状。其核心思想分为两步: 预训练阶段:首先在一个包含互联网级别海量文本数据的通用语料库上,通过自监督学习(Selfsupervised 标是“预测下一个词”。 微调阶段:完成预训练后,这个模型就已经学习到了和数据集有关的丰富知识。之后,针对特定的下游任务,只需使用少量该任务的标注数据对模型进行微调,即可让模型适应对应任务。 如图2.9所示,直观地展示了这一预训练与微调的完整流程:通用文本数据经过自监督学习形成基础模型,随后通过特定任务数据进行微调,最终适应各项下游任务。 图2.9“预训练-微调”范式示意图 大型语言模型的诞生与涌现能力0 码力 | 633 页 | 58.72 MB | 1 月前3
共 265 条
- 1
- 2
- 3
- 4
- 5
- 6
- 27













