2024 中国开源开发者报告Part 2: TOP101-2024 大 模 型 观 点 编委会 21 | 2024 年中国开源模型:崛起与变革 26 | 开源模型未必更先进,但会更长久 30 | 大模型撞上“算力墙”,超级应用的探寻之路 36 | AI 的三岔路口:专业模型和个人模型 40 | 2024 年 AI 编程技术与工具发展综述 45 | RAG 的 2024:随需而变,从狂热到理性 51 | 大模型训练中的开源数据和算法:机遇及挑战 大模型训练中的开源数据和算法:机遇及挑战 57 | 2024 年 AI 编程工具的进化 62 | AI 开发者中间件工具生态 2024 年总结 66 | AI Agent 逐渐成为 AI 应用的核心架构 68 | 谈开源大模型的技术主权问题 72 | 2024:大模型背景下知识图谱的理性回归 77 | 人工智能与处理器芯片架构 89 | 大模型生成代码的安全与质量 93 | 2024 年 AI Part 1:中国开源开发者生态数据 04 | Gitee 数据篇 Part 3:国内 GenAI 生态高亮瞬间 104 | 中国 GenAI 消费应用人气榜 Top10 15 | OSS Compass Insight 106 | AI 创新应用开发大赛获奖作品 局长,OSCHINA 副主编 肖滢,OSCHINA 副主编 李泽辰,Gitee 主编 高瞻,Gitee AI 运营 设计:张琪0 码力 | 111 页 | 11.44 MB | 8 月前3
网易数帆 领先的数字化转型技术与服务提供商 2021应技术服务,业务覆盖云原生基础软件、数据智能全链路产品、人工智能 算法应用三大领域,旗下拥有轻舟、有数、易智三大产品线,致力于帮助 客户搭建无绑定、高兼容、自主可控的创新基础平台架构,快速应对新一 代信息技术下实现数字化转型的需求。 网易数帆依托网易二十余年互联网技术积累,系列软件基础平台产品和技 术方案,成熟应用于金融、零售、制造、能源、电信、物流等多个行业领 域,在技术先进性、性 华为鲲鹏技术兼容性测试认证 QUALIFICATION 数帆资质(部分) 06 及以前 《Gartner 2020 中国 ICT 技术成熟度曲线》数据中台领域标杆厂商 信通院“大数据'星河'案例-行业大数据应用优秀案例” 信通院 OSCAR 尖峰开源创新(二次开发)奖 云计算开源产业联盟云原生十大优秀案例 infoQ 中国技术力量年度榜单 InfoQ2020 最有价值技术团队 InfoQ2020 最佳技术社区驱动力奖 ICT 技术成熟度曲线》Cloud ABI 领域标杆厂商 CCF Top10 大数据应用最佳实践案例 中国长三角数字经济大会“数字经济优秀案例企业” CTDC 年度优秀微服务创新产品奖 浙江省大数据应用服务创新奖 信通院 OSCAR 尖峰开源用户奖 教育部科技进步一等奖( “海量混合时态数据融合处理关键技术及应用”项目) 全球云计算大会“全球最佳实践奖” 2021 2020 2019 20180 码力 | 43 页 | 884.64 KB | 1 年前3
2023 中国开源开发者报告的台阶,为 LLM 的广泛应用奠定了基础。再之后的 11 月份,OpenAI 再发力,GPTs 的到来,“用户自定义 ChatGPT”的能力,更是让世人领略了 OpenAI 作为 LLM 一哥的宏大叙事能力与强劲技术实力。 二、 New Bing(Bing AI)代表了微软在 LLM 领域的野心和 决心,它首次把当时世人能想到最有价值又可行的 LLM 应用场景——“智能对话+联网搜索”——无缝整合了起来, 全代码,大大提高了开发效率。这也引发了代码原创性的讨 论,但它已经实实在在将 LLM 拉进了编程应用领域。 六、 LangChain 的出现,实现了 LLM 之间的链式交互,使多 个 LLM 模型串联工作,发挥各自的优势,并且可以将 LLM 模型与外部数据源进行连接,产生更强大的语言理解 和生成效果。这开启了 LLM 集成应用的新方向,并诞生了 一个新的细分领域“LLMOps”。 七、 “提示词工程”,这是 LLM 从传 统的模型训练和应用模式,转向以 Agent 为中心的智能 化模式。LLM Agent 打破了传统 LLM 的被动性,使 LLM 能够主动学习和执行任务,从而提高了 LLM 的应用 范围和价值;它为 LLM 的智能化发展提供了新的方向, 使 LLM 能够更加接近于人类智能。 九、 AI 原生,目前还没有明确的定义,大致是说,不同于当前 各种应用在原本的基础上增加 AI 能力,使其智能化,但0 码力 | 87 页 | 31.99 MB | 1 年前3
DeepSeek从入门到精通(20250204)• DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。 Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景, 支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。 文本生成 表格、列表生成(如日程安排、菜谱) 代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 创建适应不同场景的元提示语 批判性思考 客观评估AI输出,识别潜在偏见和错误 设计反事实提示语,测试AI理解深度 构建验证机制,确保AI输出的可靠性 创新思维 探索非常规的提示语方法 结合最新AI研究成果,拓展应用边界 设计实验性提示语,推动AI能力的进化 伦理意识 在提示语中嵌入伦理考量 设计公平、包容的AI交互模式 预防和缓解AI可能带来的负面影响 掌握提示语设计:AIGC时代的必备技能 提示语设计的进阶技能 创建适应不同场景的元提示语 批判性思考 客观评估AI输出,识别潜在偏见和错误 设计反事实提示语,测试AI理解深度 构建验证机制,确保AI输出的可靠性 创新思维 探索非常规的提示语方法 结合最新AI研究成果,拓展应用边界 设计实验性提示语,推动AI能力的进化 伦理意识 在提示语中嵌入伦理考量 设计公平、包容的AI交互模式 预防和缓解AI可能带来的负面影响 提示语设计的核心技能体系不仅涵盖了技术层面的专0 码力 | 104 页 | 5.37 MB | 8 月前3
清华大学 DeepSeek 从入门到精通• DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。 Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景, 支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。 文本生成 表格、列表生成(如日程安排、菜谱) 代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 创建适应不同场景的元提示语 批判性思考 客观评估AI输出,识别潜在偏见和错误 设计反事实提示语,测试AI理解深度 构建验证机制,确保AI输出的可靠性 创新思维 探索非常规的提示语方法 结合最新AI研究成果,拓展应用边界 设计实验性提示语,推动AI能力的进化 伦理意识 在提示语中嵌入伦理考量 设计公平、包容的AI交互模式 预防和缓解AI可能带来的负面影响 掌握提示语设计:AIGC时代的必备技能 提示语设计的进阶技能 创建适应不同场景的元提示语 批判性思考 客观评估AI输出,识别潜在偏见和错误 设计反事实提示语,测试AI理解深度 构建验证机制,确保AI输出的可靠性 创新思维 探索非常规的提示语方法 结合最新AI研究成果,拓展应用边界 设计实验性提示语,推动AI能力的进化 伦理意识 在提示语中嵌入伦理考量 设计公平、包容的AI交互模式 预防和缓解AI可能带来的负面影响 提示语设计的核心技能体系不仅涵盖了技术层面的专0 码力 | 103 页 | 5.40 MB | 8 月前3
2023年中国基础软件开源产业研究白皮书具备能衍生出并支撑 多个技术簇的一类根 技术软件,拥有技术 门槛高、衍生场景复 杂等特点 中间件:不同系统和应用程序之间交互 与协作的桥梁 AI框架:具备构建和部署人工智能模型 的基础的全套开发工具 操作系统:是软硬件资源的资源管理者, 为用户与应用程序提供交互接口 数据库:通过对数据的访问与管理,支 持各种应用程序和业务的需求 编程语言:人与计算机交互的“语言”, 含编译器、基础编程语言、IED等 社区协作:鼓励各方在开放平台上协作 自由共享:开源内容可以免费被任何人 查看、学习、使用 透明与可审查:开源的源代码可以被任 何人审查验证、保持质量 开源精神 通过传递一种对于知 识分享、知识透明和 平等合作的价值观, 凝聚群众力量,促进 开源内容传播应用与 迭代升级,达到社会 集体效应最大化 5 ©2023.11 iResearch Inc. Apache许可证 百分比(%) 来源:Gitee《2022中国开源开发者报告》,结合专家访谈、公开资料,由艾瑞咨询研究院自主研究及绘制。 开发者对常见开源许可证了解情况 开源开发者对于许可证种类与应用的了解不全 17%的开源开发者对于所有开源许可证不了解但直接使用 开发者对于许可证的种类认知并不全面,了解程度最高的 Apache许可证占比仅有60%,对于常见开源许可证都了解且 自觉遵守的开发者占比只有11%。0 码力 | 43 页 | 4.69 MB | 1 年前3
人工智能安全治理框架 1.0……………………………… 3 3.2 人工智能应用安全风险 ……………………………… 5 4. 技术应对措施 ……………………………………………… 7 4.1 针对人工智能内生安全风险 ………………………… 7 4.2 针对人工智能应用安全风险 ………………………… 9 5. 综合治理措施 ……………………………………………… 10 6. 人工智能安全开发应用指引 ……………………………… 12 6.1 模型算法研发者安全开发指引 ……………………… 12 6.2 人工智能服务提供者安全指引 ……………………… 13 6.3 重点领域使用者安全应用指引 ……………………… 14 6.4 社会公众安全应用指引 ……………………………… 15 目 录- 1 - 人工智能安全治理框架 人工智能是人类发展新领域,给世界带来巨大机遇,也带来各类风险挑战。 落实《全球人工智能治理倡议 体安全责任,打造全过程全要素治理链条,培育安全、可靠、公平、透明的人 工智能技术研发和应用生态,推动人工智能健康发展和规范应用,切实维护国 家主权、安全和发展利益,保障公民、法人和其他组织的合法权益,确保人工 智能技术造福于人类。 1.1 包容审慎、确保安全。鼓励发展创新,对人工智能研发及应用采取 包容态度。严守安全底线,对危害国家安全、社会公共利益、公众合法权益的 风险及时采取措施。0 码力 | 20 页 | 3.79 MB | 1 月前3
开源中国 2023 大模型(LLM)技术报告处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM 在多个领域都取得了令人瞩目的成就。在自然语言处 理领域,GPT 系列模型在文本生成、问答系统和对话生成 等任务中展现出色的性能。在知识图谱构建、智能助手开发 等方面,LLM 技术也发挥了关键作用。此外,它还在代码 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 向量数据库 数据库向量支持 大模型框架、微调 (Fine Tuning) 大模型训练平台与工具 基础设施 LLM Agent 备案上线的中国大模型 知名大模型 知名大模型应用 大模型 算力 工具和平台 LLMOps 大模型聚合平台 开发工具 AI 编程 插件、IDE、终端 代码生成工具 编程语言 3 / 32 LLM 技术背景 Transformer (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展,其预训练和微调的 方法为语言任务提供了前所未有的性能,以此为基础,多模态融合的应用使得 LLM 更全面地处理各种 信息,支持更广泛的应用领域。 图源:https://postgresml.org/docs/.gitbook/assets/ml_system.svg 4 / 32 LLM 基础设施0 码力 | 32 页 | 13.09 MB | 1 年前3
国家人工智能产业综合标准化体系建设指南(2024版)和数字中国发挥重要的支撑作用。人工智能产业链包括基础 层、框架层、模型层、应用层等 4 个部分。其中,基础层主 要包括算力、算法和数据,框架层主要是指用于模型开发的 深度学习框架和工具,模型层主要是指大模型等技术和产 品,应用层主要是指人工智能技术在行业场景的应用。近年 来,我国人工智能产业在技术创新、产品创造和行业应用等 方面实现快速发展,形成庞大市场规模。伴随以大模型为代 2 表的 表的新技术加速迭代,人工智能产业呈现出创新技术群体突 破、行业应用融合发展、国际合作深度协同等新特点,亟需 完善人工智能产业标准体系。 二、总体要求 以习近平新时代中国特色社会主义思想为指导,全面贯 彻党的二十大和二十届二中全会精神,认真落实中央经济工 作会议和全国新型工业化推进大会部署要求,完整、准确、 全面贯彻新发展理念,统筹高质量发展和高水平安全,加快 赋能新型工业化,以抢抓人工智能产业发展先机为目标,完 坚持创新驱动。优化产业科技创新与标准化联动机制, 加快人工智能领域关键共性技术研究,推动先进适用的科技 创新成果高效转化成标准。 坚持应用牵引。坚持企业主体、市场导向,面向行业应 用需求,强化创新成果迭代和应用场景构建,协同推进人工 3 智能与重点行业融合应用。 坚持产业协同。加强人工智能全产业链标准化工作协 同,加强跨行业、跨领域标准化技术组织的协作,打造大中 小企业融通发展的标准化模式。0 码力 | 13 页 | 701.84 KB | 1 年前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单清华大学新闻学院与人工智能学 院双聘教授 沈阳团队博士后 何静 能做什么? 要怎么做? 效果如何? 一 能做什么? 数据挖掘 数据分析 数据采集 数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 现数据纠错、数据整合、格式转换、特征提取等。 sonnet 平衡性能:在模型大小和 性能之间取得平衡,适合 中等规模任务。 多模态支持:支持文本和 图像处理,扩展应用场景。 可解释性:注重模型输出 的可解释性和透明性。 DeepSeek R1 高效推理:专注于低延迟和 高吞吐量,适合实时应用。 轻量化设计:模型结构优化, 资源占用少,适合边缘设备 和移动端。 多任务支持:支持多种任务, 如文本生成、分类和问答。 Kimi k1.5 数据挖掘能力出色 快速读取文件数据,提取网址链接 长文本数据处理能力突出 爬虫数据采集存在代码错误问题 数据分析能力相对较弱 数据应用情况总结 新思路:优势互补,协同应用 Claude+DeepSeek 数据处理的“洗髓易筋” Claude 3.5 Sonnet 在文本提取 上较稳定,可用于数据清洗, DeepSeek R1 可确保数据完整性0 码力 | 85 页 | 8.31 MB | 8 月前3
共 163 条
- 1
- 2
- 3
- 4
- 5
- 6
- 17













