2024 中国开源开发者报告开发者大会上放言“开源模型会越来越落后”。前 文我有提到,此时此刻的技术先进性并不重要。甚至在计算机发展史上,很多领域中笑到最后的 产品,并不是技术上最先进的。抛开成本和易用性,空谈技术先进性是最常见的错误。 那么具体到大模型领域,闭源与开源,两种方法孰优孰劣?我的回答是采取什么方法因人而 异,但开源会更有优势。 大模型赛道的核心制约条件是成本太高——训练成本高,运行成本高。如何尽可能降低成本, 、Gemini 虽然各有所长,但实际体验越来越让大家分不出差异,基座模型作为智能体核心,决定了智能体 效果下限,人人训练基座的可能性越来越低,“基座服务化”很可能是最合理的商业模式。 甚至,在错误不敏感的应用领域,出现一个开源、无商业限制的基座的可能性也很高。小应 用开发商很可能很容易获得一个低成本 serving 的“量化小基座”。 “7B”是一个 magic number!无论是 RAG 数据很可能需要显式地蕴 含任务思考和规划的拆解信息。然而,针对合成数据的问题,学术界早有预警,模型可能会在合 成数据上的持续训练中崩坏【14】。 33 / 111 这是因为合成数据往往携带“错误”和“幻觉”,在一些冷门的知识上尤甚。因此,合成数 据的实用秘诀是“去粗取精”,需要一定程度的“人机协同”。在如何构造大批量、高质量的合 成数据,让智能体能够在持续地与用户的交互中自我优化而不是劣化,将会成为众多无机器学习0 码力 | 111 页 | 11.44 MB | 8 月前3
全球开源发展态势洞察(2023年第八期)Kubernetes Platform v2.5发布 04 04 04 04 05 05 05 05 DEF CON将举办全球最大规模AI黑客大赛 微软将用近一年时间完成对0-day Secure Boot漏洞的修复工作 06 06 04 开源热点 芬兰南萨沃计划建立开源能力中心 Decidim参与式民主的开源平台正在被日本广泛使用 图林根继续支持开源替代方案 07 07 08 09 10 11 16 全态势管理平台。Kubernetes安全态势管理平 台可以通过实时上下文以及当前和历史信息准 确定位攻击活动,同时还可以根据集群的当前 状态提供可操作的补救措施。具体功能包括: • 实时态势管理,发现基于事件的错误配置; • 汇总并找到Kubernetes RBAC中的过度权限; • 防止部署不合规的工作负载,减少潜在爆炸 半径; • 扫描漏洞并为运行的容器生成SBOM。 OpenSIL的目标不是取代UEFI,而是集成在 Docker和Kubernetes开发公司Mirantis发布 了其轻量级开源Kubernete发行版的最新版本 k0s。新版本与全新的Kubernetes 1.27版本 兼容,并进行了各种其他改进和错误修复,版 本特性更新如下: • 兼容Kubernetes1.27; • 支持容器插件,如WebAssembly(WASM) 和gVisor容器沙箱; • k0s将用自建的镜像来运行所有的系统组件;0 码力 | 22 页 | 1.99 MB | 1 年前3
2023 中国开源开发者报告务型产业场景,解决真实产业问题。 2023 年 6 月,百度智能云推出了基于大模型的 “Comate”代码助手。 借助文心大模型的理解、推理能力,“Comate” 可实现代码的快速补齐、自然语言推荐代码、 自动查找代码错误,全面提升开发者研发效率。 谷歌官宣 ChatGPT 竞品:Bard 2023 年 4 月,陈天奇团队(MLC)发布了一个可将大型语言模型和基于 LLM 的聊天机器人引入 Web 浏览器的项目:Web 2023 年 9 月,蚂蚁集团正式开 源代码大模型 CodeFuse——基 于蚂蚁基础大模型研发。 这是蚂蚁自研的代码生成专属 大模型,帮助开发者自动生成代 码、自动增加注释、自动生成测 试用例、修复和优化代码等。 2023 年 8 月,阿联酋研究团队宣布开源阿拉伯语大模型 Jais。Jais 是一个 经过 130 亿个参数预训练的阿拉伯语和英语双语大型语言模型,在包含 720 亿个阿拉伯语词块和 在完成该项目的 3.0.0 版本发布后 表示,由于资金短缺,其未来的功能开发或将受到限制,可能永远不会有 libjpeg-turbo 3.1 版本。 他将继续修复 libjpeg-turbo 中的错误,并在 3.0.x 发行版系列中发布错 误修复版本;但不会再有 libjpeg-turbo 3.1 发行版系列,除非该项目可 以获得更多的通用资金。 自 2024 年 8 月 31 日起, Visual0 码力 | 87 页 | 31.99 MB | 1 年前3
2021 中国开源年度报告大企业员工用户,扩大用户基数 ;另一方面,通过 SLG 销售模式去面向中大型企业进行大单交易。 3.2.4 成熟阶段:维持开源社区运行 在项目成熟阶段,供应商主要任务是发布新版本、提供漏洞修复、维护社区的运行。开源社区是开源项 目的根基。自由包容、积极活跃的开源社区支持项目持续稳定的发展与迭代。 图表 17 :开源项目生命周期 资料来源:云启资本 3.3 商业化过程中的风险点 3 开源组件漏洞引起的安全风险也是开源风险中不可忽视的重要因素。开源代码具有公开易获取的特点, 这为开发者提供便利的同时,也隐含着漏洞反馈和修复滞后的潜在风险。开源项目一旦被广泛使用,一 方面漏洞信息散落在各类开发者手中,能否及时被官方收录是一个挑战 ;同时另一方面,如果软件使用 者跟踪漏洞修复不及时,则其被攻击的风险将大大提升。 专家点评 姜宁:开源组件的使用并不是没有成本的。 一般来说开源软件许可中都包含了一个不提供质保的声明。 工具,能自动发现代码中的 Bug。据 mspoweruser 报道,微 软公司的研究人员开发了一种新的人工智能(AI)工具,利用深度学习算法可以发现代码中的错误, 帮助开发者更准确、更高效地对程序进行调试。这种工具能够识别一些常见的错误,比如不正确的符 号 “<=” 和“<”,不正确的布尔运算符 “and” 和“or”,变量滥用等等。为了测试该系统,微软使用 了 Python 代码。与其它方法相比,经过训练后的模型发现0 码力 | 132 页 | 14.24 MB | 1 年前3
2021 中国开源年度报告成熟阶段:维持开源社区运行 Maturity stage: keeping the open source community running 在项目成熟阶段,供应商主要任务是发布新版本、提供漏洞修复、维护社区的运行。开源社区 是开源项目的根基。自由包容、积极活跃的开源社区支持项目持续稳定的发展与迭代。 In the maturity phase, the vendor's main tasks 开源组件漏洞引起的安全风险也是开源风险中不可忽视的重要因素。开源代码具有公开易获取 的特点,这为开发者提供便利的同时,也隐含着漏洞反馈和修复滞后的潜在风险。开源项目一 旦被广泛使用,一方面漏洞信息散落在各类开发者手中,能否及时被官方收录是一个挑战;同 时另一方面,如果软件使用者跟踪漏洞修复不及时,则其被攻击的风险将大大提升。 Security risks arising from vulnerabilities 工具,能自动发现代码中的 Bug。据 mspoweruser 报道,微软公司的研究人员开发了一种新的人工智能(AI)工具,利用深 度学习算法可以发现代码中的错误,帮助开发者更准确、更高效地对程序进行调试。这种 工具能够识别一些常见的错误,比如不正确的符号 “<=” 和“<”,不正确的布尔运算 符 “and” 和“or”,变量滥用等等。为了测试该系统,微软使用了 Python 代码。与 其它方法相比,经过训练后的模型发现0 码力 | 199 页 | 9.63 MB | 1 年前3
中国开源软件产业研究报告Apache软件基金会:项目成熟度模型 CNCF毕业标准1.2版本 共5条,主要强 调项目的开源 属性,代码的 可靠性 以及可 获得性 共5条,强调软 件项目的安全 性、兼容性 以 及对错误的响 应和修复机制 共5条,强调项 目的发布过程 可靠并便于获 取 共5条,强调项 目遵循Apache 开源许可证 , 并具备可靠的 版权约定 代码 独立 共识 许可证 发布 质量 社区 共7条,强调项0 码力 | 68 页 | 3.63 MB | 1 年前3
网易数帆 领先的数字化转型技术与服务提供商 2021文本生成 对话系统 意图识别 短文本相似度 视频指纹 人脸识别 水印识别 特征提取 OCR 智能抠图 质量分析 内容属性 内容分析理解 版权保护 字幕制作 视频生产 视频修复 内容生产管理 智能封面 自动歌词 语音交互 人机协作运营 创新体验 易智字幕工具 易智语音工具 音视频效率工具 行业应用 产品 解决方案 语音技术 自然语言处理 计算机视觉 会员价值,减少 会员流失率。 客户案例篇 CASE 客户案例篇 CASE 国有四大行之一,世界领先的大银行之一。 中国工商银行 客户需求: 突破集中式数据库事务支撑瓶颈 减少大量校验和修复交易数据局面 解决方案: 提供分布式事务的技术输出和技术支持 提供分布式事务的最佳实践等咨询服务 客户收益: 统一的分布式事务能力,成本低质量高 多场景支持,支持同步、异步场景 完备的异常处理机制节约人工成本0 码力 | 43 页 | 884.64 KB | 1 年前3
Moonshot AI 介绍实验,就是说你在不同的⻓度,在你不同的插⼊位置的情况,他的回答的准确率到底是什么样。 左边是GPT4的结果,这是在Twitter上⾮常⽕的⼀个测试。简单的说,就是你这个图⾥⾯红点越少越 好。红点多就表⽰你在这种情况下回答可能是错误的,可以看到,上下⽂⻓度变⻓之后,它其实对⽂ 档前半部分的理解,它是会出现⾮常多误差的。 我们把⼀样的实验放在Kimi智能助⼿⾥⾯。可以看到,除了左下⻆有⼀个红点之外,其他所有地⽅都 是绿的 理解模型还是⽣成模型,但现在不需要了。 36氪:不过,现在有很多团队的技术路线,可能会先做⽂字理解,在理解这⼀端做得更多些,⽣成可 能会靠后⼀点。 杨植麟:这些思考⽅向不够本质。现在任何说“只能做理解⽽⾮⽣成”都是错误的⽅向。正确的⽅向 应该是:理解和⽣成就是⼀个问题。如果能做很好的理解,那能做很好的⽣成,这两个应该是完全等 价的。 36氪:相当于这两者⽆法分开来。 杨植麟:对的。现在就只有⼀个问题。⽐ outsidethedocument”。 根据经验,在基于⽂档的问答场景下,新的Prompt表意更加明确。 在第⼆次实验中,Kimi智能助⼿虽然没有得到“全绿”那么惊艳的结果,但修改Prompt之后错误情 况的波动也在我们的预期之内 我们同样测试了在新的Prompt下,GPT-4Turbo表现: 以及Claude2.1的表现: 跟原始实验结果相⽐,GPT-4Turbo0 码力 | 74 页 | 1.64 MB | 1 年前3
共 8 条
- 1













