2024 中国开源开发者报告
57 | 2024 年 AI 编程工具的进化 62 | AI 开发者中间件工具生态 2024 年总结 66 | AI Agent 逐渐成为 AI 应用的核心架构 68 | 谈开源大模型的技术主权问题 72 | 2024:大模型背景下知识图谱的理性回归 77 | 人工智能与处理器芯片架构 89 | 大模型生成代码的安全与质量 93 | 2024 年 AI 大模型如何影响基础软件行业中 的「开发工具与环境」 系列凭借灵活的多尺寸选项,强大的多语言支持以及友好的模型授权功能, 赢得了社区开发者的高度评价。DeepSeek 通过引入多头潜在注意力(Multi-head Latent Attention, MLA)技术,在性能和成本上实现了革命性突破,开创高性价比的 AI 新纪元。 智谱的 CogVideoX 系列文生视频模型,成为全球首批开源的文生视频模型之一,不仅在 技术方面让中国视频生成模型列入领先梯队,强化了中国模型在全球范围的竞争力,也为国际开 组织给予减轻或免承担法律责任;《生成式人工智能服务管理暂行办法》 则明确了人工智能技 术的使用和合规要求,促进了开源模型在合规框架下良性发展。 变革 端上模型的兴起与隐私保护 随着小型模型的性能逐步增强,更多高级 AI 正转向在个人设备上运行。这一趋势不仅显著 降低了云端推理成本,还提升了用户隐私控制。 中国 AI 社区在这一领域也做了重要贡献,推出了如 Qwen2-1.5B、MiniCPM0 码力 | 111 页 | 11.44 MB | 8 月前32023 中国开源开发者报告
等 作 者 联 合 撰 写 的 “ State of AI Report 2023”报告,从研究进展 (Research)、行业局 势 (Industry)、政策影响 (Politics)、安全问题 (Safety)、 未来预测 (Predictions) 五个维度出发,对人工智能发展 现状和未来预期进行了深度分析。从中我们看到: 英伟达凭借各国、初创公司、大型科技公司和研究人员 对其 行业面临的一个大方向上的问题是:还没有很好 地从“解决方案”的角度去做技术或者应用。 所谓“解决方案”,是指在设计和开发 LLM 技术和应用时, 首先明确用户的目标,然后围绕目标进行技术研发和应用设 计,并且它带有“整体解决”、“解决的不只是某个单点问题” 的含义。只有这样,才能确保 LLM 能够真正解决实际问题, 而不是成为“应付式”的工具。 “应付式”问题主要表现在以下几个方面: 往往是“一刀切”的,无法根据用户的具体需求进 行个性化定制。 LLM 往往是“碎片化”的,无法提供完整的解决方案。 LLM 往往是“被动式”的,需要用户不断完善输入。 什么意思呢?就是我找 AI 是要解决实际问题的,但它往往都 是给我“应付”一下,直接交货了事了,而不善于去追问本质, 去了解细节,去思考你最终想要的是一个什么样的东西。它需 要你不断完善自己的输入,甚至有时候可能要求在你自身都不 知道0 码力 | 87 页 | 31.99 MB | 1 年前3Moonshot AI 介绍
功 的关键组件;发明了Transformer-XL,是历史上第⼀个在词级别和字级别都全⾯超越RNN 的注意⼒语⾔模型,解决了语⾔建模上下⽂⻓度的关键问题,定义了语⾔建模的新标准;曾 与DeepMind和CMU合作研究,⾸次实现⼩样本性能逼近全监督学习的⾼效对⻬⽅法。 ii. 视觉⽅⾯。团队成员发明了MoCo,引爆了基于对⽐学习的视觉预训练范式,也是过去三年 CVPR引⽤量最⾼的⼯作; Schulman亲⾃邀请加盟。 iv. 基础设施⽅⾯。团队核⼼成员曾带领数⼗⼈从零开发世界领先的深度学习框架,也具备数千 卡集群全⾃动化硬件运维告警、数百亿特征检索、⼤规模(数⼗PB数据、百万台机器)分 布式系统数量级性能优化的经验。 c. ⽬前团队⼈数超过80⼈,每个⽉都有在全球某个领域有显著影响⼒的⼈加⼊。 2.团队聚焦底层技术创新,技术Vision强 a. 引领⼤模型的“⽆损⻓上下⽂”时代。2 在精度(⽆损记忆) 和中⽂能⼒上Kimi智能助⼿依然领先。 b. 聚焦底层技术创新,不⾛技术捷径。最早提出“LosslessLongContext可以解决90%以上的 模型定制问题”,坚持对数据的⽆损压缩,实现模型能⼒的提升,不⾛技术捷径(通过滑动窗 ⼝、降采样、⼩模型等技术实现上下⽂窗⼝延⻓,都是“技术捷径”) c. 通过这篇⽂章,您可以了解更多技术⽅⾯信息:专访⽉之0 码力 | 74 页 | 1.64 MB | 1 年前32023年中国基础软件开源产业研究白皮书
技术水平、提高自我认同、获得职业发 展机会排名前三,这也与开发者参与开源的方式相互印证。 7.7% 13.3% 18.2% 31.5% 33.6% 47.6% 挑战技术难题 维护程序问题/可拓展性 获得经济收益 了解前沿技术 实现互惠互利、共建共享 获得职业发展机会 提高自我认同 提升自身知识技术水平 占比(%) 56.6% 53.9% 参与开源贡献的原因 开 www.iresearch.com.cn 操作系统开源价值 开源的人才吸引力契合操作系统本身性能提升与生态适配的需求 操作系统的性能提升需要大量人力:从操作系统本身而言,其作为大型软件,庞杂的代码量需要相应规模的人分工合作才能共同完 成设计。加之国内的操作系统起步较晚,需要更多的人才不断迭代整体性能水平。 操作系统生态适配需要大量人力:操作系统需要对软硬件生态适配、兼容,才能更好的发挥其资源管理者的作用。这种适配是双向 理者的作用。这种适配是双向 的,不同应用场景操作系统适配的生态也有所差异,随着场景的不断创新增加,生态适配性问题日渐复杂,仅靠单个操作系统发行 商进行生态匹配难以解决问题,需要开源集合更多的开发者力量进行帮助。 开源帮助操作系统优化性能、提升使用体验:在常见的操作系统开源sig分布中,大量的开发者有序的渗入到不同功能板块的代码仓 中,帮助客户端进一步用好更好的操作系统,同时,sig常见的社区治理类0 码力 | 43 页 | 4.69 MB | 1 年前3中国开源软件产业研究报告
www.iresearch.com.cn 来源:OSI,Apache等,艾瑞咨询研究院根据公开资料研究及绘制。 开源许可证 开源许可证的“商用”问题本质上是“传染性”问题 开源许可证的主要分类及商用性/传染性阐释 企业最关心的开源许可证问题——使用该许可证的软件是否可以二次开发后“商用”? “完全可以” Apache-2.0 MIT BSD 2-clause BSD 3-clause EPL:没有修改过,可以直接商用;有修改过,必须在公布源代码的条件下商用,这种 情况下与GPL的发布条件类似。 • 从定义上看,所有的开源协议本质上都是允许“商用”的,之所以在实践中存在一系列开源软件商用后的侵权问题,本质上说 是由于开源许可证的“传染性”。带有“传染性”开源许可证的软件要求企业/个人在对其进行修改发布时保留原来的开源许 可证——这就意味着必须将修改后的软件也公开源代码,换言之,经修改后的软件无法“闭源”。也就是说,企业可以对这一 即为上表中右侧的LGPL、EPL。 • 各开源许可证通常还对代码修改后的发布、销售、宣传等环节有其他要求,但相比上述的“传染性”问题重要性较低,本报告 不一一列举,读者可通过OSI组织及对应开源组织官网进行了解。 开源软件的“商用”问题本质上说是“传染性”问题 9 ©2022.2 iResearch Inc0 码力 | 68 页 | 3.63 MB | 1 年前32021 中国开源年度报告
项左右问题的统计调查与分析,我们希望能够还原出当前中国开源社区的真实现状, 从而为开源的后来人提供权威的参考。 调查对象 :覆盖开发者、社区成员、贡献者、学生、政府企业管理人员 调查内容 :主要涵盖个人信息、工作状况、开源社区以及开发者技术 调查方法 :以在线问卷方式搜集样本和数据,交叉对比法分析数据 推广方法 :线上社交媒体、博客、开源社、开源中国网站 问题数量 :44 问题类型 :单选、多选、开放性 公司在购买开源产品时,多由工程团队负责人(技术总监 / 架构师 /TL)来进行产品的选择, 而且在同类型软件的购买中,半数的人会考虑软件供应商对开源社区的贡献,但不是主要 的考虑因素,只有在产品性能差别不大时,才会选择对开源社区贡献大的供应商。 参与者首次参与 / 转而参与开源项目的原因多为主观原因,例如更好的技能施展空间、更和谐的 社区氛围、更多的朋友,而应公司所在组织的要求来参与开源社区的占比很小。 今天接近一半,可能也是因为用人单位越来越认可学生 在开源中所展现出的编程技能、沟通能力及合作精神,因此这其中应该也不乏各种刷榜行为,需要开源项目所 有者更多关注学生贡献者增多所带来的质量、合规等问题。 杨丽蕴:我国开源人才后备力量足、基数大。 我国高校越来越重视开源人才的培养 , 越来越多的学生参与到开 源开发中,开源人才培养周期前置,越来越多的学校开设开源课程,希望后续可以实现在学习计算机、编译原0 码力 | 132 页 | 14.24 MB | 1 年前3网易数帆 领先的数字化转型技术与服务提供商 2021
代信息技术下实现数字化转型的需求。 网易数帆依托网易二十余年互联网技术积累,系列软件基础平台产品和技 术方案,成熟应用于金融、零售、制造、能源、电信、物流等多个行业领 域,在技术先进性、性能优越性、产品成熟度及安全可靠性等方面得到了 各行业客户的验证。目前已服务各领域头部客户百余家,包括工商银行、 浙商银行、银监会、人保金服、深圳证券交易所、华泰证券、名创优品、 古茗、百胜集团、 异构网络访问 支 持 异 构 协 议 转 换 为 HTTP 协 议 RESTFUL 接口,具备请求转换能力,有 效集成企业存量应用。 基于开源自主可控 基于社区开源版本,进行源码级内核优 化,性能增强,自主可控。 完备的监控 丰富的企业经验积累,支持完备的监控 指标。 多云混合云 统一视图管理多云、混合云集群,应用多 集群部署、运维。 可视化流水线 模块化能力,支持可视化拖拽,快速配 提供任务的全生命周期事件 管理,支持任务运行日志收集 与检索,支持任务运行状态各 维 度 metrics 的 汇 总 与 展 示,实现全链路监控与智能诊 断。 PRODUCT 基于 Apache Flink 构建的高性能、一站式实时大数据处理方案,广泛适用于流式数据处理场景。 有数实时计算平台 一站式、低门槛分析建模平台,帮助客户更快、更便捷、更智能地挖掘数据价值。 有数机器学习平台 19 产品能力 产品能力0 码力 | 43 页 | 884.64 KB | 1 年前32021 中国开源年度报告
information and developer technical information) and open source community participation. 通过 44 项左右问题的统计调查与分析,我们希望能够还原出当前中国开源社区的真实现状, 从而为开源的后来人提供权威的参考。 Through the statistical survey and analysis of 44 Online social media, blogs, open source community, open source China website 问题数量 :44 Number of questions: 44 问题类型 :单选、多选、开放性 Question type: single choice, multiple choices, open 样本量 :537 公司在购买开源产品时,多由工程团队负责人(技术总监 / 架构师 /TL)来进行产品的选 择,而且在同类型软件的购买中,半数的人会考虑软件供应商对开源社区的贡献,但不是 主要的考虑因素,只有在产品性能差别不大时,才会选择对开源社区贡献大的供应商。 When companies buy open source products, the engineering team leader (technical0 码力 | 199 页 | 9.63 MB | 1 年前3全球开源发展态势洞察(2023年第八期)
全球开源态势洞察|第十期 03 Azure AKS正式推出网络方案 Azure CNI Overlay Azure CNI Overlay可以利用覆盖的网络来降低 IP地址的使用率,同时提供更好的性能和可扩 展性。借助该功能,AKS集群可以扩展至非常 大的规模,并且用户定义的私有CIDR还可以在 不同AKS集群中重复使用,从而大幅扩展了 AKS中运行的容器化应用程序可用的IP空间。 02 前沿技术 助用户识别并解决容器镜像中的安全漏洞。它 支持多种容器镜像格式和操作系统,并提供全 面的漏洞扫描功能。Trivy能检测操作系统和软 件组件的漏洞,以及配置错误等安全问题。此 外,Trivy还具备对容器镜像中的文件权限和可 疑配置选项等安全配置问题进行全面检查的能 力。借助Trivy,用户能够轻松地进行容器镜像 的安全评估和漏洞修复工作。 近日,Trivy v0.41.0发布,版本特性更新如下: • 支持使用Vulnerability 程序,届时将导致旧的Windows启动媒介将会 无法使用。 AI Village创始人Sven Cattell表示,“只有让更 多的人了解如何开展红队测试和评估人工智能模 型,才能解决这些模型中的各种问题。”通过对 人工智能模型组开展最大规模的红队演习,AI Village和DEF CON希望能培养出处理人工智能 系统漏洞的研究者社区。事实证明,大语言模型 的锁定难度远超想象,部分原因在于所谓“提示0 码力 | 22 页 | 1.99 MB | 1 年前32020 中国开源年度报告
电脑 ⾯前⽅便地切换多种身份,以异步的⽅式处理多种事务,从⽽增加了开发者参与开源的时间和 机会。 当然,同样由于远程办公,虚拟世界在⼈类⽣活中的占⽐,变得更⼤了。这样是否更好,还会 引发哪些问题?作为站在隧道⼝的⼈类,其实是猜不透的。 2. 中国开源崛起以及开源世界分裂的趋势 随着越来越多中国开源项⽬的影响⼒不断增加、⽊兰协议的推出、开放原⼦基⾦会的成⽴, Gitee 的超⾼速增⻓,CODE 造的项⽬,积累的经验,总 结的教训,应该如何“整理、封装、模块化”,并为了今后的各种意外,做好准备呢?这些都是 值得⻓期思考并改进的领域。 作为⼀份⼒图完整、客观、全⾯、丰富的报告,值得探讨的问题当然不⽌上述这些,也欢迎朋 友们阅读下⾯的报告,并随时与我们交流。 庄表伟,开源社理事⻓ 2021 年 1 ⽉ 16 ⽇ 特邀点评专家: 吴晟,Apache 软件基⾦会 Member,Apache 60 项左右问题的统计调查与分析,我们希望能够还原出当前中国开源社区的真实现 状,从⽽为开源的后来⼈提供权威的参考。 调查对象:覆盖开发者、社区成员、贡献者、学⽣、政府企业管理⼈员 调查内容:主要涵盖个⼈信息、⼯作状况、开源社区以及开发者技术 调查⽅法:以在线问卷⽅式搜集样本和数据,交叉对⽐法分析数据 推⼴⽅法:线上社交媒体、博客、开源社、开源中国⽹站 问题数量:590 码力 | 46 页 | 4.09 MB | 1 年前3
共 11 条
- 1
- 2