开源中国 2023 大模型(LLM)技术报告LLM 技术报告 大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM 理领域,GPT 系列模型在文本生成、问答系统和对话生成 等任务中展现出色的性能。在知识图谱构建、智能助手开发 等方面,LLM 技术也发挥了关键作用。此外,它还在代码 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech Map 向量数据库 数据库向量支持 代码生成工具 编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心,随着大规模语言数据集的可用性和计算能 力的提升,研究者们开始设计更大规模的神经网络,以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展,其预训练和微调的 方法为语言任务提供0 码力 | 32 页 | 13.09 MB | 1 年前3
网易数帆 领先的数字化转型技术与服务提供商 2021领先的数字化转型技术与服务提供商 网易数帆是网易集团旗下 TO B 企业服务品牌,定位于领先的数字化转型 技术与服务提供商,为客户提供创新、可靠的国产软件基础平台产品及相 应技术服务,业务覆盖云原生基础软件、数据智能全链路产品、人工智能 算法应用三大领域,旗下拥有轻舟、有数、易智三大产品线,致力于帮助 客户搭建无绑定、高兼容、自主可控的创新基础平台架构,快速应对新一 代信息技术下实现数字化转型的需求。 代信息技术下实现数字化转型的需求。 网易数帆依托网易二十余年互联网技术积累,系列软件基础平台产品和技 术方案,成熟应用于金融、零售、制造、能源、电信、物流等多个行业领 域,在技术先进性、性能优越性、产品成熟度及安全可靠性等方面得到了 各行业客户的验证。目前已服务各领域头部客户百余家,包括工商银行、 浙商银行、银监会、人保金服、深圳证券交易所、华泰证券、名创优品、 古茗、百胜集团、温氏集团、万向集团、大华股份、宁波钢铁、一汽解放、 以“开放、开源、跨云”为技术理念,网易数帆大力推动技术研究,先后取 得“工信部云计算服务能力标准首批试点单位”、“国家企业技术中心”、“信 通院云计算标准和开源推进委员会成员”、“信通院大数据技术标准推进委 员会成员”、“信创工委会成员”等机构资质。同时,网易数帆积极推动跨厂 商的数字化技术融合发展,与AWS、阿里云、百度云、华为鲲鹏云计算、 浪潮、新华三等多家企业完成技术兼容性认证。 数帆使命:帮助所有客户成功实现数字化转型0 码力 | 43 页 | 884.64 KB | 1 年前3
Moonshot AI 介绍卡集群全⾃动化硬件运维告警、数百亿特征检索、⼤规模(数⼗PB数据、百万台机器)分 布式系统数量级性能优化的经验。 c. ⽬前团队⼈数超过80⼈,每个⽉都有在全球某个领域有显著影响⼒的⼈加⼊。 2.团队聚焦底层技术创新,技术Vision强 a. 引领⼤模型的“⽆损⻓上下⽂”时代。2023年10⽉上旬,在产品Kimi智能助⼿中实现“⽆损 ⻓上下⽂窗⼝(LosslessLongContextWindow 和中⽂能⼒上Kimi智能助⼿依然领先。 b. 聚焦底层技术创新,不⾛技术捷径。最早提出“LosslessLongContext可以解决90%以上的 模型定制问题”,坚持对数据的⽆损压缩,实现模型能⼒的提升,不⾛技术捷径(通过滑动窗 ⼝、降采样、⼩模型等技术实现上下⽂窗⼝延⻓,都是“技术捷径”) c. 通过这篇⽂章,您可以了解更多技术⽅⾯信息:专访⽉之暗⾯杨植麟:losslesslongcontextis 互联⽹从业者:⾼效搜集信息,辅助竞品分析、运营策划等⽅案撰写。 • 程序员:辅助编程、问题解答、代码注释、API⽂档阅读,⽀持Python、C++、Java等多种编程语 ⾔,帮助你学习编程、解决技术问题。 • ⾃媒体与内容创作者:学习特定公众号、⽂件、⽹⻚链接的⻛格,辅助创作;快速搜集创作所需信 息,提供丰富的资料与灵感。 • ⾦融和咨询分析师:通过即时搜索,帮你第⼀时间掌握⾏业动态和市场信息,并提供洞察与分析。0 码力 | 74 页 | 1.64 MB | 1 年前3
2024 中国开源开发者报告40 | 2024 年 AI 编程技术与工具发展综述 45 | RAG 的 2024:随需而变,从狂热到理性 51 | 大模型训练中的开源数据和算法:机遇及挑战 57 | 2024 年 AI 编程工具的进化 62 | AI 开发者中间件工具生态 2024 年总结 66 | AI Agent 逐渐成为 AI 应用的核心架构 68 | 谈开源大模型的技术主权问题 72 | 2024:大模型背景下知识图谱的理性回归 量达到了40万个,越来越多的开 发者选择凝聚在一起,共同拥抱 开放透明的组织协同。 7 / 111 本年度最受开发者关注的开源组织 2024 年,技术大厂及其大型项 目依然备受关注,它们推动着技 术的快速发展和广泛应用。 同时,「民间」开源组织虽然在 关注度上不及大厂主导的项目, 但它们在某些技术细分领域中却 拥有非常强的影响力和活跃的开 发者社区。 两者的不同发展模式相互补充, 共同推动了国内开源生态的繁荣 与多样化。 Star 数方面,更加注重创 新和技术探索「民间」开源组织 更加「接地气」,受到了更多开 发者的喜爱。 虽然面临资源的挑战,但它们的 灵活性和社区驱动力使得它们获 得了更多开发者的支持。 9 / 111 本年度最活跃的开源组织 不同开源组织在 Issue 解决 和 PR 处理数量上的差异,反映了它 们在开发活跃度、社区参与度和 技术成熟度上的不同战略。 技术大厂主导的项目往往具有较 高的资源投入和社区管理效率,0 码力 | 111 页 | 11.44 MB | 8 月前3
国家人工智能产业综合标准化体系建设指南(2024版)加快构建满足人工智能产业高质量发展和“人工智能+”高水 平赋能需求的标准体系,夯实标准对推动技术进步、促进企 业发展、引领产业升级、保障产业安全的支撑作用,更好推 进人工智能赋能新型工业化,特制定本指南。 一、产业发展现状 人工智能是引领新一轮科技革命和产业变革的基础性 和战略性技术,正成为发展新质生产力的重要引擎,加速和 实体经济深度融合,全面赋能新型工业化,深刻改变工业生 要包括算力、算法和数据,框架层主要是指用于模型开发的 深度学习框架和工具,模型层主要是指大模型等技术和产 品,应用层主要是指人工智能技术在行业场景的应用。近年 来,我国人工智能产业在技术创新、产品创造和行业应用等 方面实现快速发展,形成庞大市场规模。伴随以大模型为代 2 表的新技术加速迭代,人工智能产业呈现出创新技术群体突 破、行业应用融合发展、国际合作深度协同等新特点,亟需 完善人工智能产业标准体系。 赋能新型工业化,以抢抓人工智能产业发展先机为目标,完 善人工智能标准工作顶层设计,强化全产业链标准工作协 同,统筹推进标准的研究、制定、实施和国际化,为推动我 国人工智能产业高质量发展提供坚实的技术支撑。 到 2026 年,标准与产业科技创新的联动水平持续提升, 新制定国家标准和行业标准 50 项以上,引领人工智能产业 高质量发展的标准体系加快形成。开展标准宣贯和实施推广 的企业超过 10000 码力 | 13 页 | 701.84 KB | 1 年前3
2023年中国基础软件开源产业研究白皮书码按照一定的开源规范 开放,任何人可以查看、使用、贡献,同时,使用者也要遵循一定的开源规范。 基础软件开源范畴界定 国内基础软件开源界定 基础软件 具备能衍生出并支撑 多个技术簇的一类根 技术软件,拥有技术 门槛高、衍生场景复 杂等特点 中间件:不同系统和应用程序之间交互 与协作的桥梁 AI框架:具备构建和部署人工智能模型 的基础的全套开发工具 操作系统:是软硬件资源的资源管理者, ,由艾瑞咨询研究院自主研 究及绘制。 中外软件开源对比(2) 国内九成以上开发者使用开源软件,其中近半数人员参与开源,新增贡 献者占比世界靠前 中国开源产业起步晚,发展尚不成熟的现象可以从信息技术发展环境、权威性组织的建立这两个角度看出。权威性组织的建立方面, 全球开源软件标准的权威发布机构OSI于1998年成立,但国内第一个权威性开源软件推进联盟成立于2004年;再如阿帕奇软件基金 会于1 量辅助:1)开源基金会可选择性接受项目的捐赠并运营项目;2)开源技术论坛通常会提供更广阔的开发者交流平台,提升开发者 能力水平;3)开源社区评估机构可对开源社区进行评分,辅助开发者选择要参与的开源项目;4)开源产业联盟往往会对行业贡献 技术指标、开源规范等,引导行业专业化发展。 来源:根据专家访谈、公开资料,由艾瑞咨询研究院自主研究及绘制。 开源产业链 运营: 发起者为运营者 开源技术论坛\开源社区评估机构\开源产业联盟0 码力 | 43 页 | 4.69 MB | 1 年前3
2023 中国开源开发者报告的广泛应用奠定了基础。再之后的 11 月份,OpenAI 再发力,GPTs 的到来,“用户自定义 ChatGPT”的能力,更是让世人领略了 OpenAI 作为 LLM 一哥的宏大叙事能力与强劲技术实力。 二、 New Bing(Bing AI)代表了微软在 LLM 领域的野心和 决心,它首次把当时世人能想到最有价值又可行的 LLM 应用场景——“智能对话+联网搜索”——无缝整合了起来, 从一开始就是应用的中枢,应用本身的架构、功能、 交互层是围绕 LLM 中枢来构建的。也许 ChatGPT 是最 经典的“AI 原生”应用。此概念目前还处在萌芽期,明确 的概念、应用场景、架构、技术栈细节等尚未完成自洽。 换一种视角来看,这个概念的提出其实都没技术什么事, 有人称之为“造商业概念”,这里按下不表。 十、 镜头给到国内。相比国际上当前逢 AI 必 GenAI,国内更 多地还是在 LLM 这一层面,Robin 百川智能的百川大模型、商汤的日日新大模型、MiniMax 的 ABAB 大模型、上海人工智能实验室的书生通用大模型、腾 讯的混元大模型、蚂蚁的百灵大模型等。 另一方面,除了大模型本身,中国在 LLM 相关技术领域也 快速迭代发展,诸如 Dify.AI 的 LLMOps、Milvus 的向量 数据库、CodeGeeX 与 Comate 的 AI 编程、对 LLM Prompt 的研究、OneFlow0 码力 | 87 页 | 31.99 MB | 1 年前3
中国开源软件产业研究报告公平性、中立性准则 • 开源项目不得对任何个人、组织以及用途等规定歧视性条款 • 开源项目的内容须在无需进一步许可的条件下适用于所有获得 该项目的主体 • 开源许可不得以某种特定技术或接口为前提,须保持技术中立 6 ©2022.2 iResearch Inc 立的RedHat公司以及在2008年开 源的谷歌Chromium浏览器内核架 构,本报告后文将有进一步介绍。 2010年之后互联网经济进入蓬勃发 展期,云计算、大数据计算、AI等 新兴技术的发展越来越多地开始基 于开源技术,开源对于企业打磨产 品、构建生态的战略意义也开始突 显 一种开放、非私有的软件开发 和运营方式的探索 • 但以美国市场为代表,80-90年代期间 软件产业加速发展,其商业价值已经 意味着将软件源代码 无偿在社区发布,此后二次开发者和使用者作为贡献方进行迭代,并在开源许可证的约束下使用迭代版本,社区中的其他 机构提供法律、行业发展等服务和指导,不同角色间互相配合,有效协作,达成技术交流或商业目的。开源运营和治理环 节,无论是由企业主导还是由基金会主导,在整个开源项目过程中都处于关键位置,包含软件开发和发行、市场推广、版 本迭代更新、版权管理和安全管理等内容,这些环节和商业企业0 码力 | 68 页 | 3.63 MB | 1 年前3
2021 中国开源年度报告COVID 之中。但是,从另一个角度来看,世界正在发生巨变, 我们所处的世界,正在高速朝着某个未知的方向前进。 对于中国开源而言,2021 年的关键词,应该是“助跑”。迹象已经 非常明显,工信部信息技术发展司发布了《“十四五”软件和信息技 术服务业发展规划》,就是一个典型的信号,开源领域即将起飞了。 从地面行走,到天空飞行,这是两个完全不同的阶段。而 2021 年, 则是起飞之前的助跑阶段。从地面到天空,意味着整个行为的模式 对抗的背景,很多人开始从国际政治、国家实力、国家安全的角度, 来探讨开源(这个原本是纯技术的范畴)。直到最近几起开源软件安 全事件,更是令大家议论纷纷。这样一个令人喜忧参半的现象,也 许还会继续持续下去。 生态责任 在开源还只是一个小众群体的业余爱好时,几乎做任何事情,都是 自由的。但是,在软件吞噬世界、开源吞噬软件的今天,开源技术, 2021 中国开源年度报告 3 已经成为整个世界的基础设施之一。能力越大,责任越大。应用越广, 受访者所在的企业类型 …………………………………………………………………………… 17 3.5 公司购买开源产品的决策 ………………………………………………………………………… 18 3.6 受访者所从事的技术方向 ………………………………………………………………………… 19 3.7 开发语言 …………………………………………………………………………………………… 20 3.8 Java 开发框架0 码力 | 132 页 | 14.24 MB | 1 年前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单情感分析,对数据进行深入解读,帮助市场调 研等领域理解消费者情感,优化产品和策略。 • 故事化数据呈现:借助o3mini将数据以 故事的形式呈现,增强数据的可读性和吸引力, 帮助公众理解复杂的科学和技术知识。 • 复杂数据模式识别:借助o3mini高效分 析复杂数据,帮助科学研究和工程领域发现 模式和规律,如天文学中的星系演化或地质 学中的地震数据分析。 • 多源数据融合分析:在智能交通和城市 容,帮助 用户更好理解和呈现研究成果。 无数据检索:以现有真实数据库作为支撑,通过关键词 检索,自动搜集相关文献并生成综述报告,目前只支持 英文检索。 低重复率:结合现有查重机制与AI技术,在内容生成阶 段引入重复检测与优化策略,从源头上降低重复率风险, 所生成的综述普通重复率与AIGC重复率均在5%以下。 无限双语数据导入:支持中文与英文文献的导入,并且 文献数据量没有限制,能够轻松处理中文文献的系统性 版(单图)、专业版(双图)。 文献导入:用户可从现有文献数据库中下载中英文数据后导入平台,或直接通过实时联网访问免费数据库 进行在线分析,操作简单便捷。 信息提取与分析:平台自动运用AI技术对导入的文献进行关键信息提取和深度梳理分析,用户无需进行复 杂操作,等待平台处理完成即可。 综述生成:根据智能分析结果,平台自动生成结构化的文献综述文本内容和可视化图表,用户可直接获取 完整的0 码力 | 85 页 | 8.31 MB | 8 月前3
共 147 条
- 1
- 2
- 3
- 4
- 5
- 6
- 15













