2024 中国开源开发者报告2024:大模型背景下知识图谱的理性回归 77 | 人工智能与处理器芯片架构 89 | 大模型生成代码的安全与质量 93 | 2024 年 AI 大模型如何影响基础软件行业中 的「开发工具与环境」 98 | 推理中心化:构建未来 AI 基础设施的关键 Part 1:中国开源开发者生态数据 04 | Gitee 数据篇 Part 3:国内 GenAI 生态高亮瞬间 104 | 中国 GenAI 消费应用人气榜 本年度最活跃的开源组织 不同开源组织在 Issue 解决 和 PR 处理数量上的差异,反映了它 们在开发活跃度、社区参与度和 技术成熟度上的不同战略。 技术大厂主导的项目往往具有较 高的资源投入和社区管理效率, 而民间组织则可能更注重技术问 题的快速解决,并逐步吸引更多 的开发者参与贡献。 OpenHarmony openEuler openKylin MindSpore openGauss 模 型 LLM 开发技术栈作为切入点,将深入探讨以下中国 AI 大模型领域的代表性开源项目社区。 这些开源项目社区覆盖了深度学习框架、向量数据库、AI辅 助编程、LLM 应用开发框架、模型微调、推理优化、LLM Agent,以及检索增强生成(RAG)等多个关键技术栈。 为了更全面客观地展示中国大模型 LLM 开发技术栈的开源 社区生态,我们使用了 对开源社区的生态评 估体系,希望通过这些数据洞察中国开源开发者在0 码力 | 111 页 | 11.44 MB | 8 月前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单平衡性能:在模型大小和 性能之间取得平衡,适合 中等规模任务。 多模态支持:支持文本和 图像处理,扩展应用场景。 可解释性:注重模型输出 的可解释性和透明性。 DeepSeek R1 高效推理:专注于低延迟和 高吞吐量,适合实时应用。 轻量化设计:模型结构优化, 资源占用少,适合边缘设备 和移动端。 多任务支持:支持多种任务, 如文本生成、分类和问答。 Kimi k1 和复杂文档,适合专业场景。 定制化能力:支持用户自定义 训练和微调,适应特定需求。 Open AI o3 mini 小型化设计:轻量级模型, 适合资源有限的环境。 快速响应:优化推理速度, 适合实时交互场景。 通用性强:适用于多种自 然语言处理任务,如对话 生成和文本理解。 爬虫数据采集 1、阅读网页源代码,提取特定网页内容; 2、撰写python脚本; 3、提取并合并网址; 长文本处理任务中,Kimi k1.5相较短文本处理表现更加突出,提取准确的同时数据维度更加全面;由于文本过长DeepSeek R1无法完成任务; 综合来看,Open AI o3mini响应最快效率最高,但在数据集成维度上稍显不足,同时与Claude 3.5 sonnet所输出的表格更为工整、简洁。 Claude 3.5 sonnet 一般文本(7000token): 能够准确提取文本数据,并0 码力 | 85 页 | 8.31 MB | 8 月前3
DeepSeek从入门到精通(20250204)DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应 用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。 Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景, 支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。 文本生成 社交媒体内容(如推文、帖子) 剧本或对话设计 文本创作 长文本摘要(论文、报告) 文本简化(降低复杂度) 多语言翻译与本地化 摘要与改写 02 01 03 文本生成 自然语言理解与分析 知识推理 知识推理 逻辑问题解答(数学、常识推 理) 因果分析(事件关联性) 语义分析 语义解析 情感分析(评论、反馈) 意图识别(客服对话、用户查询) 实体提取(人名、地点、事件) 文本分类 当人人都会用AI时,你如何用得更好更出彩? 推理模型 • 例如:DeepSeek-R1,GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。 推理大模型: 推理大模型是指能够在传统的大语言模型基础上,强化推理、逻辑分析和决策能力的模型。它 们通常具备额外的技术,比如强化学习、神经符号推理、元学习等,来增强其推理和问题解决能力。 非推理大模型: 适用于大多数任务,非推理大模型一般侧重于语言生成、上下文理解和自然语言处理,而不强0 码力 | 104 页 | 5.37 MB | 8 月前3
清华大学 DeepSeek 从入门到精通DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应 用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。 Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景, 支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。 文本生成 社交媒体内容(如推文、帖子) 剧本或对话设计 文本创作 长文本摘要(论文、报告) 文本简化(降低复杂度) 多语言翻译与本地化 摘要与改写 02 01 03 文本生成 自然语言理解与分析 知识推理 知识推理 逻辑问题解答(数学、常识推 理) 因果分析(事件关联性) 语义分析 语义解析 情感分析(评论、反馈) 意图识别(客服对话、用户查询) 实体提取(人名、地点、事件) 文本分类 当人人都会用AI时,你如何用得更好更出彩? 推理模型 • 例如:DeepSeek-R1,GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。 推理大模型: 推理大模型是指能够在传统的大语言模型基础上,强化推理、逻辑分析和决策能力的模型。它 们通常具备额外的技术,比如强化学习、神经符号推理、元学习等,来增强其推理和问题解决能力。 非推理大模型: 适用于大多数任务,非推理大模型一般侧重于语言生成、上下文理解和自然语言处理,而不强0 码力 | 103 页 | 5.40 MB | 8 月前3
清华大学 普通人如何抓住DeepSeek红利DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正 式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大 提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAl-o1正式版。 (Pass@1) Deepseek的能力图谱 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场 景, 支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。 决策支持 文体转换 个性化推荐 翻译与转换 多语言翻译 异常检测 多源信息融合 知识与推理 知识图谱构建 流程优化 数据可视化 数据分析 趋势分析 多模态交互 任务执行 任务执行 任务协调 工具调用 格式转换 关系抽取 语言理解 文案写作 代码注释 故事创作 通用问答 专业领域问答 因果推理 知识推理 问答系统 逻辑推理 自然语言处理 文本生成与创作 建议生成 风险评估 辅助决策 概念关联 知识整合 交互能力 情感分析 文本分类 图像理解 跨模态转换 专业建议 任务分解 情感回应 上下文理解 对话能力0 码力 | 65 页 | 4.47 MB | 8 月前3
DeepSeek图解10页PDF. . . . . . . . . . . . 7 3.1.1 核心创新 1:含 R1-Zero 的中间推理模型 . . . . . . . 8 3.1.2 核心创新 2:通用强化学习 . . . . . . . . . . . . . . . 8 3.2 含 R1-Zero 的中间推理模型训练过程 . . . . . . . . . . . . . . 9 3.3 通用强化学习训练过程 连接或网络受限的场景。提高系统稳定性:即使云服务宕机,本地大模型依 然可以正常工作,不受外部因素影响。 本教程搭建 DeepSeek 好处 本地搭建 DeepSeek 三个比较实际的好处: • 本教程接入的是 DeepSeek 推理模型 R1,开源免费,性能强劲 • 本教程搭建方法 零成本,不需花一分钱。 • 为了照顾到大部分读者,推荐的搭建方法已将电脑配置要求降 到最低,普通电脑也能飞速运行。 1.2 DeepSeek Transformer 基础架构 LLM 依赖于 2017 年 Google 提出的 Transformer 模型,该架构相比传统的 RNN(递归神经网络)和 LSTM(长短时记忆网络)具有更高的训练效率和 更强的长距离依赖建模能力。Transformer 由多个关键组件组成:1. 自注意 力机制(Self-Attention):模型在处理文本时,会自动关注句子中的重要单 词,理解不同词语间的联系。20 码力 | 11 页 | 2.64 MB | 8 月前3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502型AI 从擅长理解的认知型AI,发展到擅长文字生成的生成式AI 从语言生成式AI,发展到可理解和生成声音、图片、视频的多模态AI 从生成式AI,发展到推理型AI 专家系统 感知AI 认知AI 生成式AI 多模态AI 推理式AI 9政企、创业者必读 人工智能发展历程(二) 从单纯对话的大模型AI,发展到具有行动和执行能力的智能体AI 从数字空间中的AI,走向能理解和操控物理空间的AI Scaling Law边际效应递减 人类训练数据接近枯竭 合成数据无法创造新知识 推理能力难以泛化,成本高昂 全面超越人类的人工智能在逻辑上不成立政企、创业者必读 15 DeepSeek出现之前的十大预判 之二 慢思考成为新的发展模式 大模型发展范式正在从「预训练」转向「后训练」和「推理时计算」 大模型厂商都在探索慢思考、思维链技术政企、创业者必读 DeepSeek出现之前的十大预判 数规模前提下,大幅提升复杂推理能力 • 通过后训练算力和推理算力,在不增加 预训练算力前提下,大幅提升模型性能 DeepSeek颠覆式创新——技术创新 26政企、创业者必读 预训练模型如GPT——疯狂读书,积 累知识,Scaling law撞墙 预训练模型思考深度不够 算力见顶,变成少数巨头游戏 预训练大模型 推理大模型 预训练大模型难以通往AGI之路 推理模型如R1——通过逻辑链条推导答案,0 码力 | 76 页 | 5.02 MB | 6 月前3
Deepseek R1 本地部署完全手册版权归:HomeBrew Ai Club 作者wechat:samirtan 版本:V2.0 更新⽇期:2025年2⽉8⽇ ⼀、简介 Deepseek R1 是⽀持复杂推理、多模态处理、技术⽂档⽣成的⾼性能通⽤⼤语⾔模型。本⼿册 为技术团队提供完整的本地部署指南,涵盖硬件配置、国产芯⽚适配、量化⽅案、云端替代⽅ 案及完整671B MoE模型的Ollama部署⽅法。 核⼼提示: 中等复杂度问答、代码 调试 14B - RAM: 24GB - GPU: RTX 3090(24GB VRAM) - 存储: 20GB - 内存: 32GB(M3 Max) - 存储: 20GB 复杂推理、技术⽂档⽣ 成 32B+ 企业级部署(需多卡并联) 暂不⽀持 科研计算、⼤规模数据 处理 2. 算⼒需求分析 模型 参数规 模 计算精 度 最低显存需 求 最低算⼒需求 DeepSeek-R1 三、国产芯⽚与硬件适配⽅案 1. 国内⽣态合作伙伴动态 企业 适配内容 性能对标(vs NVIDIA) 华为昇 腾 昇腾910B原⽣⽀持R1全系列,提供端到端推理优化 ⽅案 等效A100(FP16) 沐曦 GPU MXN系列⽀持70B模型BF16推理,显存利⽤率提升 30% 等效RTX 3090 海光 DCU 适配V3/R1模型,性能对标NVIDIA A100 等效A100(BF16) 2. 国产硬件推荐配置0 码力 | 7 页 | 932.77 KB | 8 月前3
普通人学AI指南而在多种应用场景中提 供辅助,包括聊天机器人、写作辅助、信息查询等。 2.1.2 Claude Claude 是 Anthropic 公司开发的一系列大型语言模型,它设计用于执行多种涉 及语言、推理、分析和编码的任务。 2.1.3 通义千问 通义千问(Qwen)是阿里云开发的一系列预训练的大型语言模型,用于聊天、 生成内容、提取信息、总结、翻译、编码、解决数学问题等多种任务。这些模型 在多 2.4.1 DEvv 程序员的新一代 AI 搜索引擎,专为编程和技术问题检索设计。 2.4.2 JetBrains AI AI 编程开发助手,集成在 JetBrains 系列开发工具中,提升编码效率。 9 Figure 6: AI 编程工具 2.4.3 AirOps 用于生成和修改 SQL 语句的工具,旨在简化数据库操作。 2.4.4 ChatDev 面壁智能开发的 AI 智能体开发平台,支持创建和部署智能对话系统。 LlaMA3,2024 年 4 月 19 日,Meta 公司发布,共有 8B,70B 两种参数,分 为基础预训练和指令微调两种模型。 与 Llama2 相比,Llama3 使用了 15T tokens 的训练数据,在推理、数学、 代码生成、指令跟踪等能力获得大幅度提升。 3.1 大模型 Llama3 3.1.1 步骤 1:安装 Ollama Ollama 可以简单理解为客户端,实现和大模型的交互。ollama0 码力 | 42 页 | 8.39 MB | 8 月前3
人工智能安全治理框架 1.0,也面临不当 使用、滥用甚至恶意利用带来的安全风险。 3.1 人工智能内生安全风险 3.1.1 模型算法安全风险 (a)可解释性差的风险。以深度学习为代表的人工智能算法内部运行逻 辑复杂,推理过程属黑灰盒模式,可能导致输出结果难以预测和确切归因,如 有异常难以快速修正和溯源追责。 (b)偏见、歧视风险。算法设计及训练过程中,个人偏见被有意、无意引入, 或者因训练数据集质量问题,导致算法设计目的、输出结果存在偏见或歧视, 决策错误等诸多问题。- 4 - 人工智能安全治理框架 (d)被窃取、篡改的风险。参数、结构、功能等算法核心信息,面临被 逆向攻击窃取、修改,甚至嵌入后门的风险,可导致知识产权被侵犯、商业机 密泄露,推理过程不可信、决策输出错误,甚至运行故障。 (e)输出不可靠风险。生成式人工智能可能产生 “幻觉”,即生成看似合理, 实则不符常理的内容,造成知识偏见与误导。 (f)对抗攻击风险。攻击者通过创建精心设计的对抗样本数据,隐蔽地 作中不规范、不当使用人工智能服务,向大模型输入内部业务数据、工业信息, 导致工作秘密、商业秘密、敏感业务数据泄露。 (d)滥用于网络攻击的风险。人工智能可被用于实施自动化网络攻击或- 6 - 人工智能安全治理框架 提高攻击效率,包括挖掘利用漏洞、破解密码、生成恶意代码、发送钓鱼邮件、 网络扫描、社会工程学攻击等,降低网络攻击门槛,增大安全防护难度。 (e)模型复用的缺陷传导风险。依托基础模型进行二次开发或微调,是0 码力 | 20 页 | 3.79 MB | 1 月前3
共 95 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10













