开源中国 2023 大模型(LLM)技术报告
大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM 在多个领域都取得了令人瞩目的成就。在自然语言处 基础设施 LLM Agent 备案上线的中国大模型 知名大模型 知名大模型应用 大模型 算力 工具和平台 LLMOps 大模型聚合平台 开发工具 AI 编程 插件、IDE、终端 代码生成工具 编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心,随着大规模语言数据集的可用性和计算能 力的提 i-in-the-enterprise/ 21 / 32 AI 编程工具:插件、IDE、终端 目前最常见的 AI 编程工具大多以插件、IDE 和终端 的形式出现,它们大多交互直观且使用门槛低,大大 提高了 AI 编程工具的使用率。 GitHub Copilot 和 Codeium 是比较常见的 AI 编程 插件,而 Cursor 和 Warp 分别是具有 AI 编程能力 的 IDE 和终端工具。0 码力 | 32 页 | 13.09 MB | 1 年前3DeepSeek从入门到精通(20250204)
计算推理、代码生成补全等应用场景, 支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。 文本生成 表格、列表生成(如日程安排、菜谱) 代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 营销文案、广告语生成 社交媒体内容(如推文、帖子) 剧本或对话设计 文本创作 长文本摘要(论文、报告) 文本简化(降低复杂度) 多语言翻译与本地化 摘要与改写 限于模式识别和优化,缺乏真正的创新能力 能够生成新的创意和解决方案,具备创新能力 人机互动能力 按照预设脚本响应,较难理解人类情感和意图 更自然地与人互动,理解复杂情感和意图 问题解决能力 擅长解决结构化和定义明确的问题 能够处理多维度和非结构化问题,提供创造性的解 决方案 伦理问题 作为受控工具,几乎没有伦理问题 引发自主性和控制问题的伦理讨论 CoT链式思维的出现将大模型分为了两类:“概率预测(快速反应)”模型和“链式推理(慢速思考)”模型。 根据任务需求选择合 适的模型,实现最佳效果。 提示语策略差异 1 2 推理模型 通用模型 • 提示语更简洁,只需明确任务目标和 需求(因其已内化推理逻辑)。 • 无需逐步指导,模型自动生成结构化 推理过程(若强行拆解步骤,反而可 能限制其能力)。 • 需显式引导推理步骤(如通过CoT提 示),否则可能跳过关键逻辑。 • 依赖提示语补偿能力短板(如要求分 步思考、提供示例)。0 码力 | 104 页 | 5.37 MB | 7 月前3清华大学 DeepSeek 从入门到精通
计算推理、代码生成补全等应用场景, 支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。 文本生成 表格、列表生成(如日程安排、菜谱) 代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 营销文案、广告语生成 社交媒体内容(如推文、帖子) 剧本或对话设计 文本创作 长文本摘要(论文、报告) 文本简化(降低复杂度) 多语言翻译与本地化 摘要与改写 限于模式识别和优化,缺乏真正的创新能力 能够生成新的创意和解决方案,具备创新能力 人机互动能力 按照预设脚本响应,较难理解人类情感和意图 更自然地与人互动,理解复杂情感和意图 问题解决能力 擅长解决结构化和定义明确的问题 能够处理多维度和非结构化问题,提供创造性的解 决方案 伦理问题 作为受控工具,几乎没有伦理问题 引发自主性和控制问题的伦理讨论 CoT链式思维的出现将大模型分为了两类:“概率预测(快速反应)”模型和“链式推理(慢速思考)”模型。 根据任务需求选择合 适的模型,实现最佳效果。 提示语策略差异 1 2 推理模型 通用模型 • 提示语更简洁,只需明确任务目标和 需求(因其已内化推理逻辑)。 • 无需逐步指导,模型自动生成结构化 推理过程(若强行拆解步骤,反而可 能限制其能力)。 • 需显式引导推理步骤(如通过CoT提 示),否则可能跳过关键逻辑。 • 依赖提示语补偿能力短板(如要求分 步思考、提供示例)。0 码力 | 103 页 | 5.40 MB | 8 月前3清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
多模态支持:支持文本和 图像处理,扩展应用场景。 可解释性:注重模型输出 的可解释性和透明性。 DeepSeek R1 高效推理:专注于低延迟和 高吞吐量,适合实时应用。 轻量化设计:模型结构优化, 资源占用少,适合边缘设备 和移动端。 多任务支持:支持多种任务, 如文本生成、分类和问答。 Kimi k1.5 垂直领域优化:针对特定领域 (如医疗、法律)进行优化, 提供高精度结果。 在群落范围内,捕食能够影响某一营养等级的动态,也能够影 响整个群落结构的动态。 Within a community, predation can affect thedynamics of a specific trophic level as well as thedynamics of the entire community structure. 对于整个群落来说,捕食对于保持种群结构稳定、食物网进程 及种群内物种数 态,也能够影响整个群落结构的动态。 在群落范围内,捕食能影响某一营养等级及整 个群落结构的动态。 删除了多余的"能够",并将两个 动态合并在一起,使句子更简洁。 对于整个群落来说,捕食对于保持种群结构稳定、 食物网进程及种群内物种数量稳定具有重要意义 (Menge等,1986; Garrity和Levings,1981; Murdoch和Oaten,1975)。 对整个群落而言,捕食对保持种群结构稳定、0 码力 | 85 页 | 8.31 MB | 7 月前3清华大学 普通人如何抓住DeepSeek红利
文章/故事/诗歌写作 营销文案 、广告语生成 社交媒体内容(如推文 、帖子) 剧本或对话设计 l 摘要与改写 长文本摘要(论文 、报告) 文本简化(降低复杂度) 多语言翻译与本地化 l 结构化生成 表格 、列表生成(如日程安排 、 菜谱) 代码注释 、文档撰写 文本生成 文本生成 03 02 01 语义分析 • 语义解析 • 情感分析(评论、反馈) • 意图识别(客服对话、用户查 流程图 · 组织架构图 常规绘图 DeepSeek的深度思考过程独树一帜 《香料三重奏》茄椒肠卷配酸奶薄荷酱 ??? 灵感地图:巴尔干半岛香料 × 地中海清新感 × 日式天妇罗手 法 ??? 结构解构: 1.青椒薄片 - 采用日式天妇罗手法炸至半透明,形成琥珀色脆网 2.茄泥慕斯 - 融入保加利亚红椒粉与希腊酸奶,制成空气感慕斯 3.香肠脆粒 - 伊比利亚辣肠低温烘烤后粉碎成黄金脆粒 4.薄荷冷萃油 宽,快速“膨胀”页数。 ü 若有时间,再精雕细琢 场景2:新员工快速熟悉公司情况和行业情况 场景:小李刚刚加入一家制造电子元器件的公司,作为一个新员工,他需要在短时间内熟悉公司的产品线、组织 结构、内部系统以及行业情况。然而,公司的产品手册复杂,部门间的职责不清晰,内部系统操作繁琐,行业信 息量庞大,这些都让小李感到不知所措。他担心自己无法在短时间内快速上手,影响工作效率和表现。 以往的解决方式:0 码力 | 65 页 | 4.47 MB | 7 月前3清华大学第二弹:DeepSeek赋能职场
DeepSeek 两种模型对比 V3 R1 如何提问?两种模型的提示语差异 • 基础模型(V3):“过程-结果”清晰(指令) • 深度思考(R1):目标清晰,结果可以模糊(推理) RTGO提示语结构 Role(角色) 定义AI的角色: 经验丰富的数据分析师 具备十年销售经验的SaaS系统商务 …… Task(任务) 具体任务描述: 写一份关于XXX活动的小红书宣推文案 写一份关于XX事件的舆论分析报告 (XX活动/事件相关背景信息如下……) Goal(目标) 期望达成什么目标效果: 通过该文案吸引潜在客户,促成消 费……通过该报告为相关企业管理 者提供……策略支撑 Objective(操作要 求) 字数要求、段落结构、用词风格、 内容要点、输出格式… CO-STAR提示语框架 新加坡 GPT-4 提示工程竞赛冠军提示词框架 "R",代表 "Response", 想要的回应类型。 一份详细的研究 报告?一个表格? "A"代表 "Audience", 受众是谁。 小 白用户?专业人 群?未成年群体? 女性群体? DeepSeek R1提示语技巧(开放性) • 不需要角色设定 • 不需要思维链提示 • 不需要结构化提示词 • 不需要给示例 • 不需要做太多解释 • …… 另一种路径:DeepSeek R1 作为智能体 ü 角色 ü 功能 ü 技能 ü 约束 ü 工作流程 ü 输出格式0 码力 | 35 页 | 9.78 MB | 7 月前3【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502
强大动能 大模型的进一步突破将引领人类社会进入智能化时代,对我们的生活方式、生产方式带来巨大变革 重塑经济图景 解决复杂问题 7政企、创业者必读 8 AI不仅是技术革新,更是思维方式和社会结构的变革 国家 产业 个人 企业政企、创业者必读 人工智能发展历程(一) 从早期基于规则的专家系统,走向基于学习训练的感知型AI 从基于小参数模型的感知型AI,走向基于大参数模型的认知型AI 冷冻电子显微镜 1. 利用Transformer的预测能力, 2. 直接从蛋白质的氨基酸序列 3. 中预测蛋白质的3D结构 靠肉眼观察,几年才能发现一个复杂蛋 白质结构,半个世纪预测了20多万种 从数年缩短到几分钟,解开了生物学密码 成功预测了地球存在的2亿种蛋白质结构 45政企、创业者必读 DeepSeek典型的四大安全问题:客户端安全、Agent安全、知识安全、模型安全 3 专业模型训练) 业务流程自动化( A g e n t框架) 组织协同( 工作流) 人机交互 赋能个人和 企业员工 生产力提升 多模态 能力 3 图片理解和处理 视频理解和处理 音频理解和处理 非结构化文档处理 47政企、创业者必读 DeepSeek能力很强大 个人使用绰绰有余 但要在政府、企业应用需要和场景结合 大模型要藏在产品后面 客户要的不是电动机,是「刮胡刀」「吹风机」0 码力 | 76 页 | 5.02 MB | 5 月前3DeepSeek图解10页PDF
就 是 80 亿,70 亿、80 亿是指大模型的神经元参数(权重参数 weight+bias)的 总量。目前大模型都是基于 Transformer 架构,并且是很多层的 Transformer 结构,最后还有全连接层等,所有参数加起来 70 亿,80 亿,还有的上千亿。 教程作者:郭震,工作 8 年目前美国 AI 博士在读,公众号:郭震 AI,欢迎关注获取更多原创教程。资 料用心打磨且开源,是为了帮助更多人了解获取 元化,模型最后就会越通用;即使包括噪声数据,模型仍能通过扩展规律提 取出通用的知识。而 Transformer 这种架构正好完美做到了 Scaling Laws, Transformer 就是自然语言处理领域实现扩展规律的最好的网络结构。 2.2 Transformer 基础架构 LLM 依赖于 2017 年 Google 提出的 Transformer 模型,该架构相比传统的 RNN(递归神经网络)和 LSTM(长短时记忆网络)具有更高的训练效率和 前 馈神经网络(FFN):非线性变换模块,提升模型的表达能力。4. 位置编码 (Positional Encoding):在没有循环结构的情况下,帮助模型理解单词的顺 序信息。 Transformer 结构的优势 1. 高效的并行计算:摒弃循环结构,使计算速度大幅提升。 2. 更好的上下文理解:注意力机制可捕捉长文本中的远程依赖关系。 3. 良好的可扩展性:可适配更大规模模型训练,增强0 码力 | 11 页 | 2.64 MB | 7 月前300 Deepseek官方提示词
主题分析能力,能准确提取关键信息和核心要点。具备丰富的文案写作知识储备,熟悉各种文体和题材的文案大 纲构建方法。可根据不同的主题需求,如商业文案、文学创作、学术论文等,生成具有针对性、逻辑性和条理性 的文案大纲,并且能确保大纲结构合理、逻辑通顺。该大纲应该包含以下部分: 引言:介绍主题背景,阐述撰写目的,并吸引读者兴趣。 主体部分:第一段落:详细说明第一个关键点或论据,支持观点并引用相关数据或案例。 第二段落:深入探讨第二个 即物体的速度保持不变且加速度为 零。 4. 角色扮演(情景续写):提供一个场景,让模型模拟该场景下的任务对话 USER 假设诸葛亮死后在地府遇到了刘备,请模拟两个人展开一段对话。 5. 结构化输出 :将内容转化为 Json,来方便后续程序处理 SYSTEM 用户将提供给你一段新闻内容,请你分析新闻内容,并提取其中的关键信息,以 JSON 的形式输出,输出的 JSON 需遵守以下的格式: #### 定位 - 智能助手名称 :新闻分类专家 - 主要任务 :对输入的新闻文本进行自动分类,识别其所属的新闻种类。 #### 能力 - 文本分析 :能够准确分析新闻文本的内容和结构。 - 分类识别 :根据分析结果,将新闻文本分类到预定义的种类中。 #### 知识储备 - 新闻种类 : - 政治 - 经济 - 科技 - 娱乐 - 体育 -0 码力 | 4 页 | 7.93 KB | 7 月前3国家人工智能产业综合标准化体系建设指南(2024版)
小企业融通发展的标准化模式。 坚持开放合作。深化国际标准化交流与合作,鼓励我国 企事业单位积极参与国际标准化活动,携手全球产业链上下 游企业共同制定国际标准。 三、建设思路 (一)人工智能标准体系结构 人工智能标准体系结构包括基础共性、基础支撑、关键 技术、智能产品与服务、赋能新型工业化、行业应用、安全 /治理等 7 个部分,如图 1 所示。其中,基础共性标准是人 工智能的基础性、框架性、总体性标准。基础支撑标准主要 业应用标准主要规范人工智能赋能各行业的技术要求,为人 工智能赋能行业应用,推动产业智能化发展提供技术保障。 安全/治理标准主要规范人工智能安全、治理等要求,为人 4 工智能产业发展提供安全保障。 图 1 人工智能标准体系结构图 (二)人工智能标准体系框架 人工智能标准体系框架主要由基础共性、基础支撑、关 键技术、智能产品与服务、赋能新型工业化、行业应用、安 全/治理等 7 个部分组成,如图 2 所示。 5 图0 码力 | 13 页 | 701.84 KB | 1 年前3
共 13 条
- 1
- 2