2024 中国开源开发者报告大模型撞上“算力墙”,超级应用的探寻之路 36 | AI 的三岔路口:专业模型和个人模型 40 | 2024 年 AI 编程技术与工具发展综述 45 | RAG 的 2024:随需而变,从狂热到理性 51 | 大模型训练中的开源数据和算法:机遇及挑战 57 | 2024 年 AI 编程工具的进化 62 | AI 开发者中间件工具生态 2024 年总结 66 | AI Agent 逐渐成为 AI MindSpore openGauss Ascend dromara anolis OpenCloudOS Stream UBML 解决 Issue 处理 PR 10 / 111 编程语言流行趋势 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 Java JavaScript Python PHP 着生命力,流行度已与十 年前不相上下。 TypeScript依然强势增 长,随着越来越多的开发 者从JavaScript转向 TypeScript,其未来的 发展更值得期待。 11 / 111 本年度增长最快编程语言 35.71% 33.04% 30.09% 27.93% 22.94% 21.03% 19.69% 19.56% 17.86% 16.91% 15.63% 15.41%0 码力 | 111 页 | 11.44 MB | 8 月前3
2023 中国开源开发者报告与“磁力链开源” Mistral 8x7B 两大神作,也凭借不输 GPT-4 的实力,将 LLM 狂 潮卷到天际。 四、 Stable Diffusion 和 Midjourney 这两大图像生成系统 的出现,极大地拓展和加速了 LLM 在计算机视觉领域的应 用,它们突破了传统图像生成方式的局限,仅需要用户提供 文字描述,就可以生成高质量的数字艺术作品。它们的图像 生成质量、样式多样性和用户便捷性都是极大的突破。这为 LLM 能力、 语音模型 whisper-3 更新、AI 虚拟主播创造等,都是在 这条路上的进一步发展。 五、 AI 编程方面,Copilot 可以根据开发者的代码提示自动补 全代码,大大提高了开发效率。这也引发了代码原创性的讨 论,但它已经实实在在将 LLM 拉进了编程应用领域。 六、 LangChain 的出现,实现了 LLM 之间的链式交互,使多 个 LLM 模型串联工作,发挥各自的优势,并且可以将 讯的混元大模型、蚂蚁的百灵大模型等。 另一方面,除了大模型本身,中国在 LLM 相关技术领域也 快速迭代发展,诸如 Dify.AI 的 LLMOps、Milvus 的向量 数据库、CodeGeeX 与 Comate 的 AI 编程、对 LLM Prompt 的研究、OneFlow 的深度学习框架。 值得一提的还有华为的盘古大模型,其中盘古气象大模型是 首个精度超过传统数值预报方法的 AI 模型,速度相比传统 数值预报提速0 码力 | 87 页 | 31.99 MB | 1 年前3
普通人学AI指南. . . . . . . . . 9 2.3.9 EBSynth . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.4 AI 编程工具 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.4.1 DEvv . . . . . . . . . . . 它可以理解、学习和应用知识跨越各种不同领域,功能上等同于人类智能。 与专用人工智能(AI)不同,AGI 能够执行任何智力任务,具备自我意识和 自适应学习能力。AGI 的研发目标是创造出可以广泛地模拟人类认知能力的智 能系统。 1.3 大模型 大模型通常指的是大规模的人工智能模型,这类模型通过训练大量的数据来获 得广泛的知识和能力。这些模型通常具有庞大的参数数量,能够处理复杂的任 务,如自然语言理解、图像识别、语音识别等。 工具太多,种类太多,老的还没用,新的就出来,头大得 很!有没有这种感觉?所以,在这一章,梳理主流的 AI 工具,注意不是穷举, 那些不经常用的工具,不浪费文字和耽误时间。 梳理总结六大类 AI 工具,分别包括:问答,图像,视频,AI 编程,AI 提 示词和 AI 大模型,一共梳理挑选共计 38 个 AI 工具,其中很多都是开源! 2.1 问答 2.1.1 ChatGPT ChatGPT 是一个由 OpenAI 开发的大型语言模型,它基于0 码力 | 42 页 | 8.39 MB | 8 月前3
开源中国 2023 大模型(LLM)技术报告是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM 在多个领域都取得了令人瞩目的成就。在自然语言处 理领域,GPT 系列模型在文本生成、问答系统和对话生成 等任务中展现出色的性能。在知识图谱构建、智能助手开发 Agent 备案上线的中国大模型 知名大模型 知名大模型应用 大模型 算力 工具和平台 LLMOps 大模型聚合平台 开发工具 AI 编程 插件、IDE、终端 代码生成工具 编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心,随着大规模语言数据集的可用性和计算能 力的提升,研究者们开 (Fine Tuning) 大模型框架提供基本能力和普适性,而微调 则是实现特定应用和优化性能的关键环节 大模型训练平台&工具 提供了在不同硬件和环境中训练大语言模型 所需的基础设施和支持 编程语言 以 Python 为代表 5 / 32 LLM 基础设施:向量数据库/数据库向量支持 向量数据库是专门用于存储和检索向量数据的数据库,它可以为 LLM 提供高效的存储和检索能力。通过数据向量化,实现了0 码力 | 32 页 | 13.09 MB | 1 年前3
2023年中国基础软件开源产业研究白皮书www.iresearch.com.cn 基础软件开源界限划分 操作系统、数据库、中间件、AI框架底层代码按规范进行共享与协作 本篇报告研究的基础软件开源范围,是指研究“开源”中“基础软件”板块的情况。开源过程中,参与者可以共享、协作完成开发, 正好与基础软件庞大的开 软件对上层软件生态有支 撑作用,基础软件的开源价值远超过单一产品的范畴,其意义惠及软件产业全领域。 注释:由于暂无国内厂商主导的开源编程语言,因而不列入本报告研究范围。 来源:根据专家访谈、公开资料,由艾瑞咨询研究院自主研究及绘制。 对于这四类基础软件(操作系统、数据库、AI框架、中间件),其编写者将实现功能的代码按照一定的开源规范 开放,任何人可以查看、使用、贡献,同时,使用者也要遵循一定的开源规范。 技术软件,拥有技术 门槛高、衍生场景复 杂等特点 中间件:不同系统和应用程序之间交互 与协作的桥梁 AI框架:具备构建和部署人工智能模型 的基础的全套开发工具 操作系统:是软硬件资源的资源管理者, 为用户与应用程序提供交互接口 数据库:通过对数据的访问与管理,支 持各种应用程序和业务的需求 编程语言:人与计算机交互的“语言”, 含编译器、基础编程语言、IED等 社区协作:鼓励各方在开放平台上协作 贡献,推动开源内容的发展0 码力 | 43 页 | 4.69 MB | 1 年前3
2020 中国开源年度报告
【专家点评】 陈阳:开源早期的时候, 开源 = Linux。 作为当时开源项⽬的主战场,Linux 操作系统、 桌⾯办公软件(GNOME, OpenOffice)和浏览器(Mozilla)掀起了第⼀波开源的浪 潮;近年来随着互联⽹的兴起,开源的项⽬和技术越来越百花⻬放,从数据库到中间 件,从前端到后端,从编程语⾔到编译器,从物联⽹到微服务,从⼤数据到⼈⼯智能, 开源的技术和项⽬越来越丰富和多样化。 有 32% 的参与者第⼀次接触的开源产品为互联⽹产品,紧随其后的便是操作系统相关的产品 与开发⼯具,调查结果与以往基本⼀致,说明互联⽹产品和操作系统相关产品仍然是⼤家了解 和接触开源的最初窗⼝。 4.7 最希望能够开源的产品 相⽐于 2019 年,开发⼯具在今年成为⼤家最希望能够开源的产品类型第⼀名,紧接着的是操 作系统,数据库产品与中间件产品也是很多⼈希望能够开源的产品类型。 4.8 企业对开源的贡献 成功。 6、开发者技术现状 6.1 开发语⾔ 开发语⾔呈现多超多强的状态,前三甲分别为 Java、JavaScript 和 Python,排名与去年基 本保持⼀致。 【专家点评】 王伟:编程语⾔是⼤家喜闻乐⻅的话题,排名⽅⾯没有太⼤的变化。值得⼀提的是 SQL 语 ⾔,这个平时存在感貌似不是很强,但实⽤性却⾮常强。实际上,本报告中的 GitHub 数据篇 中的基础数据全部都是⽤ SQL0 码力 | 46 页 | 4.09 MB | 1 年前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 现数据纠错、数据整合、格式转换、特征提取等。 对数据进行诊断、预测、关联、聚类分析,常用于问题 定位、需求预测、推荐系统、异常检测等。 对数据进行分类、社交网络分析或时序模式挖掘,常用 于客户细分、信用评分、社交媒体营销、股价预测等。 将数据转化为统计图、热力图、网络关系图、词云、树形 图等,用于揭示数据中蕴含的模式、趋势、异常和洞见。 和办公工具,提升企业竞争力。 • 开源AI教育平台:借助DeepSeek R1 的低成本特性,创建开源AI教育平台,提供 免费课程和实验资源,促进AI教育普及。 • 智能编程教育助手:为编程学生提供实 时编程指导,自动生成代码示例,帮助解决 编程难题。 • 自动化代码审查工具:自动审查代码, 发现潜在问题并提供优化建议,提升开发效 率与代码质量。 新思路:Open AI o3mini的数据应用 • 数据报告自动化生成:基于o3mini自动 生成格式化的数据报告,包括图表、表格和文 字说明,帮助管理者快速理解分析结果。 • 数据接口标准化:根据标准格式输出数据, 利用o3mini方便不同系统和平台之间的数据 共享,提升跨机构协作效率。 • 情感分析与数据解读:利用o3mini结合 情感分析,对数据进行深入解读,帮助市场调 研等领域理解消费者情感,优化产品和策略。 • 故事化数据呈现:借助o3mini将数据以0 码力 | 85 页 | 8.31 MB | 8 月前3
2021 中国开源年度报告五、中国开源走向世界,塑造新时代影响力 …………………………………………………………… 117 六、开源新创投资持续发光发热 ………………………………………………………………………… 117 七、开源操作系统迎来新一轮繁荣期 …………………………………………………………………… 117 八、Rust 迈上新征程 …………………………………………………………………………………… 117 九、AI & 低代码将会如何改变开源,值得关注 五、中国开源走向世界,塑造新时代影响力 …………………………………………………………… 122 六、开源新创投资持续发光发热 ………………………………………………………………………… 126 七、开源操作系统迎来新一轮繁荣期 …………………………………………………………………… 127 八、Rust 迈上新征程 …………………………………………………………………………………… 128 九、AI & 低代码将会如何改变开源,值得关注 的比例偏低,技术人员梯度不够合理,也是国内各大开源社区在吸引贡献者方面,可以优化的地方。 段夕华:近些年来,学生在开源人群中占比持续增多到今天接近一半,可能也是因为用人单位越来越认可学生 在开源中所展现出的编程技能、沟通能力及合作精神,因此这其中应该也不乏各种刷榜行为,需要开源项目所 有者更多关注学生贡献者增多所带来的质量、合规等问题。 杨丽蕴:我国开源人才后备力量足、基数大。 我国高校越来越重视开源人才的培养0 码力 | 132 页 | 14.24 MB | 1 年前3
Moonshot AI 介绍Schulman亲⾃邀请加盟。 iv. 基础设施⽅⾯。团队核⼼成员曾带领数⼗⼈从零开发世界领先的深度学习框架,也具备数千 卡集群全⾃动化硬件运维告警、数百亿特征检索、⼤规模(数⼗PB数据、百万台机器)分 布式系统数量级性能优化的经验。 c. ⽬前团队⼈数超过80⼈,每个⽉都有在全球某个领域有显著影响⼒的⼈加⼊。 2.团队聚焦底层技术创新,技术Vision强 a. 引领⼤模型的“⽆损⻓上下⽂ imi可以帮助你梳理⼤纲、续写⽂章、创作⽂ 案、写作周报、撰写⽅案,成为你的内容创作⼿脚架,提供⽆限灵感。 • 编程助⼿:Kimi可以帮你快速阅读API⽂档,定位所需信息,还可以根据你的需求⽣成代码、快 速Debug,覆盖Python、C++、Java等多种编程语⾔。 【适⽤⼈群】 • 学术科研⼈群:快速阅读并深⼊理解⼤量⽂献,⽤⺟语掌握⽂献的精髓,解释复杂学术概念,分析 析 研究结果,撰写论⽂,回应审稿⼈的建议。 • 互联⽹从业者:⾼效搜集信息,辅助竞品分析、运营策划等⽅案撰写。 • 程序员:辅助编程、问题解答、代码注释、API⽂档阅读,⽀持Python、C++、Java等多种编程语 ⾔,帮助你学习编程、解决技术问题。 • ⾃媒体与内容创作者:学习特定公众号、⽂件、⽹⻚链接的⻛格,辅助创作;快速搜集创作所需信 息,提供丰富的资料与灵感。 • ⾦融0 码力 | 74 页 | 1.64 MB | 1 年前3
2021 中国开源年度报告be optimized to attract contributors. 段夕华:近些年来,学生在开源人群中占比持续增多到今天接近一半,可能也是因为用人 单位越来越认可学生在开源中所展现出的编程技能、沟通能力及合作精神,因此这其中应 该也不乏各种刷榜行为,需要开源项目所有者更多关注学生贡献者增多所带来的质量、合 规等问题。 Duan Xihua: In recent years, the NixOS/nixpkgs Punch Chart for Work Time Distribution 每一位开发者在使用 Linux 的过程中想必都遭受过软件包版本冲突的痛苦折磨。NixOS 系统 以非常出色的包管理工具获取了一大批粉丝。一年过去了,NixOS/nixpkgs 仍然以非常高的 活跃度位居榜单前列,期待未来有更出色的表现。 Every developer who has Gitee 数据 Gitee Data 1. 概述 Gitee 是开源中国旗下的代码托管平台,至今已有超过 800 万开发者用户。我们对托管在 Gitee 的开源项目进行了统计分析,梳理和解读编程语言、功能分布的变化趋势,分析开发者 在 Gitee 参与开源的情况,以期为观察国内开源的演进提供一个 “本土平台” 视⻆。 Gitee is the code hosting platform0 码力 | 199 页 | 9.63 MB | 1 年前3
共 190 条
- 1
- 2
- 3
- 4
- 5
- 6
- 19













