开源中国 2023 大模型(LLM)技术报告
LLM 技术报告 大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM 理领域,GPT 系列模型在文本生成、问答系统和对话生成 等任务中展现出色的性能。在知识图谱构建、智能助手开发 等方面,LLM 技术也发挥了关键作用。此外,它还在代码 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech Map 向量数据库 数据库向量支持 大模型框架、微调 大模型框架、微调 (Fine Tuning) 大模型训练平台与工具 基础设施 LLM Agent 备案上线的中国大模型 知名大模型 知名大模型应用 大模型 算力 工具和平台 LLMOps 大模型聚合平台 开发工具 AI 编程 插件、IDE、终端 代码生成工具 编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是0 码力 | 32 页 | 13.09 MB | 1 年前32023 中国开源开发者报告
1 1 /*使用电脑阅读,获得最佳体验 1 1 序 毫无疑问,开源开发者圈子来看,2023 年是大模型 LLM 年、生成式 AI GenAI 年。 一、 这自然要从 OpenAI 说起,前一年年底,ChatGPT 的横 空出世,标志着对话式 LLM 开始进入公众视野,为人们 提供了全新的人机交互方式。而 2023 年 3 月,同系 GPT-4.0 的发布则将 LLM 的规模和能力提升到一个新 Google 紧随其后推出 Bard,作为其首次亮相的对话 LLM 产品,无疑具有其里程碑意义,尽管它的首秀并不尽 如人意,车翻了又翻。 三、 Claude 2、PaLM 2、Llama 等模型与产品也展现了 LLM 在语言理解和多模态处理能力方面的探索,甚至 Claude 2 还一度被誉为实力可以硬刚 ChatGPT。而 Meta 开源的 Llama 2 更成为了 LLM 领域开源势力的典型代表,它的 广大的个人用户和创意行业提供了强有力的工具,彻底改变 了数字艺术内容的创作方式。同时,它们也引发了人工智能 在创作领域的伦理和法律讨论。LLM 杀进多媒体领域。往 后 DALL-E 3 模型升级、Adobe 产品整合 LLM 能力、 语音模型 whisper-3 更新、AI 虚拟主播创造等,都是在 这条路上的进一步发展。 五、 AI 编程方面,Copilot 可以根据开发者的代码提示自动补 全代码,大大0 码力 | 87 页 | 31.99 MB | 1 年前32023年中国基础软件开源产业研究白皮书
www.iresearch.com.cn 基础软件开源界限划分 操作系统、数据库、中间件、AI框架底层代码按规范进行共享与协作 本篇报告研究的基础软件开源范围,是指研究“开源”中“基础软件”板块的情况。开源过程中,参与者可以共享、协作完成开发, 正好与基础软件庞大的开发量需求 对于这四类基础软件(操作系统、数据库、AI框架、中间件),其编写者将实现功能的代码按照一定的开源规范 开放,任何人可以查看、使用、贡献,同时,使用者也要遵循一定的开源规范。 基础软件开源范畴界定 国内基础软件开源界定 基础软件 具备能衍生出并支撑 多个技术簇的一类根 技术软件,拥有技术 门槛高、衍生场景复 杂等特点 中间件:不同系统和应用程序之间交互 与协作的桥梁 AI框架:具备构建和部署人工智能模型 的基础的全套开发工具 的基础的全套开发工具 操作系统:是软硬件资源的资源管理者, 为用户与应用程序提供交互接口 数据库:通过对数据的访问与管理,支 持各种应用程序和业务的需求 编程语言:人与计算机交互的“语言”, 含编译器、基础编程语言、IED等 社区协作:鼓励各方在开放平台上协作 贡献,推动开源内容的发展 创新改进:通过资源共享与协作共生, 提升开源内容质量,并产生新的内容 自由共享:开源内容可以免费被任何人0 码力 | 43 页 | 4.69 MB | 1 年前3KiCad 8.0 原理图编辑器
a bill of materials 生成网表 符号和符号库 管理符号库 创建和编辑符号 浏览符号库 仿真器 值的表示 分配模型 SPICE 标识符 运行仿真 Helpful hints 高级主题 配置和定制 文本变量 数据库关联库文件 HTTP Libraries 自定义网表和 BOM 格式 操作参考 原理图编辑器 通用 91 91 91 93 每张原理图只使用一次。 复杂: 一些原理图被多次使用。 扁平化: 简单的 层次结构的一个子案例,在子原理图和其父原理图之间没有连接。扁平的层次结构可以用来表示 一种非层次结构设计。 每种层次结构模型都可能是有用的;最合适的模型取决于设计需求。 简单的层次结构 一个简单的层次结构的例子是 KiCad 包含的 video 演示工程。根原理图包含七个独特的子原理图,每个子原理图都 有层次化标签和原理图页面 时,将加载封装库。 关于封装过滤器的更多信息,请参阅符号编辑器文档。 用封装分配工具分配封装 封装分配工具允许你将原理图中的符号与印制电路板布线时用到的封装关联起来。它提供了封装列表过滤、封装查看 和3D元件模型查看,以确保将正确的封装与每个元件联系起来。 元件可以手动或通过创建等效文件(.equ 文件)自动分配到其相应的封装。等效文件是将每个元件与它的封装联系 起来的查找表。 点击 工具 → 分配封装…0 码力 | 190 页 | 10.16 MB | 1 年前3清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
能做什么? 要怎么做? 效果如何? 一 能做什么? 数据挖掘 数据分析 数据采集 数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 现数据纠错、数据整合、格式转换、特征提取等。 对数据进行诊断、预测、关联、聚类分析,常用于问题 本质:以多agent实现从数据采集到可视全流程 模型特点 Claude 3.5 sonnet 平衡性能:在模型大小和 性能之间取得平衡,适合 中等规模任务。 多模态支持:支持文本和 图像处理,扩展应用场景。 可解释性:注重模型输出 的可解释性和透明性。 DeepSeek R1 高效推理:专注于低延迟和 高吞吐量,适合实时应用。 轻量化设计:模型结构优化, 资源占用少,适合边缘设备 提供高精度结果。 长文本处理:擅长处理长文本 和复杂文档,适合专业场景。 定制化能力:支持用户自定义 训练和微调,适应特定需求。 Open AI o3 mini 小型化设计:轻量级模型, 适合资源有限的环境。 快速响应:优化推理速度, 适合实时交互场景。 通用性强:适用于多种自 然语言处理任务,如对话 生成和文本理解。 爬虫数据采集 1、阅读网页源代码,提取特定网页内容;0 码力 | 85 页 | 8.31 MB | 7 月前3网易数帆 领先的数字化转型技术与服务提供商 2021
云计算开源产业联盟云原生十大优秀案例 infoQ 中国技术力量年度榜单 InfoQ2020 最有价值技术团队 InfoQ2020 最佳技术社区驱动力奖 思否 SegmentFault 中国技术品牌影响力企业 DTCC 第十一届中国数据库技术大会创新产品奖 《Gartner 2021 中国 ICT 技术成熟度曲线》数据中台领域标杆厂商 信通院可信云计算最佳实践服务网格 2021 数博会“十佳大数据案例” 《Gartner 2019中国 PRODUCT 基于可视化编程语言 基于通用语言封装的可视化开发语言,具 备完善的静态类型系统和组件扩展机 制,适合 80% 企业级应用开发,灵活性 高,可靠性强。 数据模型驱动 可视化构建实体、数据结构、枚举等低 代码数据模型,自动生成数据库表和页 面交互。 支持企业集成 能够通过 API 集成企业内部的服务,实 现应用组装。 业务与流程融合 流程引擎基于 BPMN2.0 规范,可视化 流程开发,可支持如请假、入职、离职等 数仓设计中心 指标设计 模型设计 数据治理中心 数据质量 数据地图 数据资产 数据标准 UDF管理 任务开发 版本管理 任务运维 资源管理 任务上线 数据服务中心 智能BI 数据准备 大屏 自助取数 移动应用 数据填报 全渠道 数据融合 会员 标签管理 用户分群 营销 活动管理 投放数据 追踪 活动数据 分析 特征治理 模型管理 交互式建模 可视化建模0 码力 | 43 页 | 884.64 KB | 1 年前3KiCad 7.0 原理图编辑器
. . . . . . . . . . . 打印 绘制 生成物料清单 生成网表 符号和符号库 管理符号库 创建和编辑符号 浏览符号库 仿真器 Value notation 分配模型 SPICE directives Running simulations 高级主题 配置和定制 文本变量 数据基础库 自定义网表和 BOM 格式 操作参考 原理图编辑器 通用 每张原理图只使用一次。 复杂: 一些原理图被多次使用。 扁平化: 简单的 层次结构的一个子案例,在子原理图和其父原理图之间没有连接。扁平的层次结构可以用来表示 一种 非层次结构设计。 每种层次结构模型都可能是有用的;最合适的模型取决于设计。 简单的层次结构 一个简单的层次结构的例子是 KiCad 包含的 video 演示工程。根原理图包含七个独特的子原理图,每个子原理图都 有分层的标签和原理图页码,将 关于封装过滤器的更多信息,请参阅《封装过滤器,符号编辑器文档》。 用封装分配工具分配封装 封装分配工具允许你将原理图中的符号与铺设印制电路板时使用的封装联系起来。它提供了封装列表过滤、封装查看 和三维元件模型查看,以帮助确保将正确的封装与每个元件联系起来。 74 元件可以手动或通过创建等效文件(.equ 文件)自动分配到其相应的封装。等效文件是将每个元件与它的封装联系 起来的查找表。 用 工具 →0 码力 | 175 页 | 18.32 MB | 1 年前3全球开源发展态势洞察(2023年第八期)
Face、微软、英伟达与Stability AI等 顶尖人工智能提供商,共同参与对生成式人工 智能系统的公开安全评估。 AI Village组织方将这个合作活动描述为“有史 以来规模最大的人工智能模型红队演习”。将 有数千人参与对公共人工智能模型的评估,期 间使用的评估平台由Scale AI负责开发。 近日,微软发布了一个补丁,用于修复Secure Boot绕过漏洞。在2023年1月份,微软释出补 丁修复了编号为CVE-2022-21894的漏洞,但 多的人了解如何开展红队测试和评估人工智能模 型,才能解决这些模型中的各种问题。”通过对 人工智能模型组开展最大规模的红队演习,AI Village和DEF CON希望能培养出处理人工智能 系统漏洞的研究者社区。事实证明,大语言模型 的锁定难度远超想象,部分原因在于所谓“提示 词注入”技术。人工智能研究员Simon Willison 详细介绍了提示词注入的危险,这种技术可以令 语言模型偏离正轨,执行创建者想要回避的操 作。在DEF CON大会期间,参与者将通过主办方 提供的笔记本电脑定时访问多个大语言模型。并 将会有一个夺旗式的积分系统,促进测试各种潜 在威胁。积分最高的参与者将获得英伟达高端 GPU作为奖品。AI Village公告中写道,“我们将 公布从此次竞赛中得到的启发,帮助其他想要做 类似尝试的人们。希望越来越多的人能知晓该如 何使用大语言模型,了解这些模型的局限性。” 注释:“红队”测试,是指安全专家尝试在组织系0 码力 | 22 页 | 1.99 MB | 1 年前32021 中国开源年度报告
Python 开发框架 ………………………………………………………………………………… 23 3.14 前端开发框架 …………………………………………………………………………………… 24 3.15 数据库……………………………………………………………………………………………… 25 3.16 版本控制工具 …………………………………………………………………………………… 26 3.17 AI 开发框架 借鉴。 堵俊平:这两年,一个很明显的趋势是越来越多的初创企业参与开源。这一方面得益于 ToB 赛道成为市场和 政策导向的热点,另一方面开源所代表的开放式创新也被投资界所认可。尤其是开源与数据(数据库 & 大数据) 以及 AI 等热点技术相结合,更是为市场带来了极大的想象空间。 参与者所在企业类型 外企 国内初创公司 国内大型互联网企业 国企 / 央企 / 事业单位 其他 外企,25,10% 段夕华:这个数据有点意思,React 居然屈居 Vue 之后,好像跟国外的统计数据不太一致。不知道是样本容 量问题,还是因为国内开源项目对华人发起的 Vue 情有独钟。 2021 中国开源年度报告 25 3.15 数据库 数据库使用情况中,不出意外地,MySQL 以绝对优势遥遥领先,SQL Server 与 Oracle 跟随其后。 专家点评 段夕华:Mysql 和 Postgres 的对比关系也有国内外差异,估计还是惯性使然0 码力 | 132 页 | 14.24 MB | 1 年前32024 中国开源开发者报告
观 点 编委会 21 | 2024 年中国开源模型:崛起与变革 26 | 开源模型未必更先进,但会更长久 30 | 大模型撞上“算力墙”,超级应用的探寻之路 36 | AI 的三岔路口:专业模型和个人模型 40 | 2024 年 AI 编程技术与工具发展综述 45 | RAG 的 2024:随需而变,从狂热到理性 51 | 大模型训练中的开源数据和算法:机遇及挑战 57 | 2024 开发者中间件工具生态 2024 年总结 66 | AI Agent 逐渐成为 AI 应用的核心架构 68 | 谈开源大模型的技术主权问题 72 | 2024:大模型背景下知识图谱的理性回归 77 | 人工智能与处理器芯片架构 89 | 大模型生成代码的安全与质量 93 | 2024 年 AI 大模型如何影响基础软件行业中 的「开发工具与环境」 98 | 推理中心化:构建未来 AI 基础设施的关键 Part 高瞻,Gitee AI 运营 设计:张琪 开发者是开源生态的重要支柱。 本章结合 、 的数据分 析,勾勒 2024 年中国开源开发者的整体画像趋势轮廓,主要 反映中国开源开发者使用开源大模型概况、开源项目/组织健康 度,以及中国开源社区的生态评估等情况。 Gitee 数据篇 本报告数据来源:2024年1月至2024年12月 Gitee及Gitee AI平台相关公开数据 4 / 1110 码力 | 111 页 | 11.44 MB | 8 月前3
共 180 条
- 1
- 2
- 3
- 4
- 5
- 6
- 18