推理效率 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

2024 中国开源开发者报告

2024:大模型背景下知识图谱的理性回归 77 | 人工智能与处理器芯片架构 89 | 大模型生成代码的安全与质量 93 | 2024 年 AI 大模型如何影响基础软件行业中的「开发工具与环境」 98 | 推理中心化：构建未来 AI 基础设施的关键 Part 1：中国开源开发者生态数据 04 | Gitee 数据篇 Part 3：国内 GenAI 生态高亮瞬间 104 | 中国 GenAI 消费应用人气榜本年度最活跃的开源组织不同开源组织在 Issue 解决和 PR 处理数量上的差异，反映了它们在开发活跃度、社区参与度和技术成熟度上的不同战略。技术大厂主导的项目往往具有较高的资源投入和社区管理效率，而民间组织则可能更注重技术问题的快速解决，并逐步吸引更多的开发者参与贡献。 OpenHarmony openEuler openKylin MindSpore openGauss 模型 LLM 开发技术栈作为切入点，将深入探讨以下中国 AI 大模型领域的代表性开源项目社区。这些开源项目社区覆盖了深度学习框架、向量数据库、AI辅助编程、LLM 应用开发框架、模型微调、推理优化、LLM Agent，以及检索增强生成（RAG）等多个关键技术栈。为了更全面客观地展示中国大模型 LLM 开发技术栈的开源社区生态，我们使用了对开源社区的生态评估体系，希望通过这些数据洞察中国开源开发者在

0 码力 | 111 页 | 11.44 MB | 8 月前
3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

平衡性能：在模型大小和性能之间取得平衡，适合中等规模任务。  多模态支持：支持文本和图像处理，扩展应用场景。  可解释性：注重模型输出的可解释性和透明性。 DeepSeek R1  高效推理：专注于低延迟和高吞吐量，适合实时应用。  轻量化设计：模型结构优化，资源占用少，适合边缘设备和移动端。  多任务支持：支持多种任务，如文本生成、分类和问答。 Kimi k1 和复杂文档，适合专业场景。  定制化能力：支持用户自定义训练和微调，适应特定需求。 Open AI o3 mini  小型化设计：轻量级模型，适合资源有限的环境。  快速响应：优化推理速度，适合实时交互场景。  通用性强：适用于多种自然语言处理任务，如对话生成和文本理解。爬虫数据采集 1、阅读网页源代码，提取特定网页内容； 2、撰写python脚本； 3、提取并合并网址；长文本处理任务中，Kimi k1.5相较短文本处理表现更加突出，提取准确的同时数据维度更加全面；由于文本过长DeepSeek R1无法完成任务；  综合来看，Open AI o3mini响应最快效率最高，但在数据集成维度上稍显不足，同时与Claude 3.5 sonnet所输出的表格更为工整、简洁。 Claude 3.5 sonnet 一般文本（7000token）：能够准确提取文本数据，并

0 码力 | 85 页 | 8.31 MB | 8 月前
3
DeepSeek从入门到精通(20250204)

DeepSeek是一家专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。 Deepseek可以做什么？直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容。文本生成社交媒体内容（如推文、帖子）剧本或对话设计文本创作长文本摘要（论文、报告）文本简化（降低复杂度）多语言翻译与本地化摘要与改写 02 01 03 文本生成自然语言理解与分析知识推理知识推理逻辑问题解答（数学、常识推理）因果分析（事件关联性）语义分析语义解析情感分析（评论、反馈）意图识别（客服对话、用户查询）实体提取（人名、地点、事件）文本分类当人人都会用AI时，你如何用得更好更出彩？推理模型 • 例如：DeepSeek-R1，GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。推理大模型：推理大模型是指能够在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强

0 码力 | 104 页 | 5.37 MB | 8 月前
3
清华大学 DeepSeek 从入门到精通

DeepSeek是一家专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。 Deepseek可以做什么？直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容。文本生成社交媒体内容（如推文、帖子）剧本或对话设计文本创作长文本摘要（论文、报告）文本简化（降低复杂度）多语言翻译与本地化摘要与改写 02 01 03 文本生成自然语言理解与分析知识推理知识推理逻辑问题解答（数学、常识推理）因果分析（事件关联性）语义分析语义解析情感分析（评论、反馈）意图识别（客服对话、用户查询）实体提取（人名、地点、事件）文本分类当人人都会用AI时，你如何用得更好更出彩？推理模型 • 例如：DeepSeek-R1，GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。推理大模型：推理大模型是指能够在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强

0 码力 | 103 页 | 5.40 MB | 8 月前
3
清华大学普通人如何抓住DeepSeek红利

DeepSeek是一家专注通用人工智能(AGI)的中国科技公司，主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩OpenAl-o1正式版。 (Pass@1) Deepseek的能力图谱直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容。决策支持文体转换个性化推荐翻译与转换多语言翻译异常检测多源信息融合知识与推理知识图谱构建流程优化数据可视化数据分析趋势分析多模态交互任务执行任务执行任务协调工具调用格式转换关系抽取语言理解文案写作代码注释故事创作通用问答专业领域问答因果推理知识推理问答系统逻辑推理自然语言处理文本生成与创作建议生成风险评估辅助决策概念关联知识整合交互能力情感分析文本分类图像理解跨模态转换专业建议任务分解情感回应上下文理解对话能力

0 码力 | 65 页 | 4.47 MB | 8 月前
3
DeepSeek图解10页PDF

. . . . . . . . . . . . 7 3.1.1 核心创新 1：含 R1-Zero 的中间推理模型 . . . . . . . 8 3.1.2 核心创新 2：通用强化学习 . . . . . . . . . . . . . . . 8 3.2 含 R1-Zero 的中间推理模型训练过程 . . . . . . . . . . . . . . 9 3.3 通用强化学习训练过程连接或网络受限的场景。提高系统稳定性：即使云服务宕机，本地大模型依然可以正常工作，不受外部因素影响。本教程搭建 DeepSeek 好处本地搭建 DeepSeek 三个比较实际的好处： • 本教程接入的是 DeepSeek 推理模型 R1，开源免费，性能强劲 • 本教程搭建方法零成本，不需花一分钱。 • 为了照顾到大部分读者，推荐的搭建方法已将电脑配置要求降到最低，普通电脑也能飞速运行。 1.2 DeepSeek Transformer 基础架构 LLM 依赖于 2017 年 Google 提出的 Transformer 模型，该架构相比传统的 RNN（递归神经网络）和 LSTM（长短时记忆网络）具有更高的训练效率和更强的长距离依赖建模能力。Transformer 由多个关键组件组成：1. 自注意力机制（Self-Attention）：模型在处理文本时，会自动关注句子中的重要单词，理解不同词语间的联系。2

0 码力 | 11 页 | 2.64 MB | 8 月前
3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502

型AI  从擅长理解的认知型AI，发展到擅长文字生成的生成式AI  从语言生成式AI，发展到可理解和生成声音、图片、视频的多模态AI  从生成式AI，发展到推理型AI 专家系统感知AI 认知AI 生成式AI 多模态AI 推理式AI 9政企、创业者必读人工智能发展历程（二）  从单纯对话的大模型AI，发展到具有行动和执行能力的智能体AI  从数字空间中的AI，走向能理解和操控物理空间的AI Scaling Law边际效应递减  人类训练数据接近枯竭  合成数据无法创造新知识  推理能力难以泛化，成本高昂全面超越人类的人工智能在逻辑上不成立政企、创业者必读 15 DeepSeek出现之前的十大预判之二慢思考成为新的发展模式  大模型发展范式正在从「预训练」转向「后训练」和「推理时计算」  大模型厂商都在探索慢思考、思维链技术政企、创业者必读 DeepSeek出现之前的十大预判数规模前提下，大幅提升复杂推理能力 • 通过后训练算力和推理算力，在不增加预训练算力前提下，大幅提升模型性能 DeepSeek颠覆式创新——技术创新 26政企、创业者必读  预训练模型如GPT——疯狂读书，积累知识，Scaling law撞墙  预训练模型思考深度不够  算力见顶，变成少数巨头游戏预训练大模型推理大模型预训练大模型难以通往AGI之路  推理模型如R1——通过逻辑链条推导答案，

0 码力 | 76 页 | 5.02 MB | 6 月前
3
Deepseek R1 本地部署完全手册

版权归：HomeBrew Ai Club 作者wechat：samirtan 版本：V2.0 更新⽇期：2025年2⽉8⽇⼀、简介 Deepseek R1 是⽀持复杂推理、多模态处理、技术⽂档⽣成的⾼性能通⽤⼤语⾔模型。本⼿册为技术团队提供完整的本地部署指南，涵盖硬件配置、国产芯⽚适配、量化⽅案、云端替代⽅案及完整671B MoE模型的Ollama部署⽅法。核⼼提示：中等复杂度问答、代码调试 14B - RAM: 24GB - GPU: RTX 3090（24GB VRAM） - 存储: 20GB - 内存: 32GB（M3 Max） - 存储: 20GB 复杂推理、技术⽂档⽣成 32B+ 企业级部署（需多卡并联）暂不⽀持科研计算、⼤规模数据处理 2. 算⼒需求分析模型参数规模计算精度最低显存需求最低算⼒需求 DeepSeek-R1 三、国产芯⽚与硬件适配⽅案 1. 国内⽣态合作伙伴动态企业适配内容性能对标（vs NVIDIA）华为昇腾昇腾910B原⽣⽀持R1全系列，提供端到端推理优化⽅案等效A100（FP16）沐曦 GPU MXN系列⽀持70B模型BF16推理，显存利⽤率提升 30% 等效RTX 3090 海光 DCU 适配V3/R1模型，性能对标NVIDIA A100 等效A100（BF16） 2. 国产硬件推荐配置

0 码力 | 7 页 | 932.77 KB | 8 月前
3
普通人学AI指南

而在多种应用场景中提供辅助，包括聊天机器人、写作辅助、信息查询等。 2.1.2 Claude Claude 是 Anthropic 公司开发的一系列大型语言模型，它设计用于执行多种涉及语言、推理、分析和编码的任务。 2.1.3 通义千问通义千问（Qwen）是阿里云开发的一系列预训练的大型语言模型，用于聊天、生成内容、提取信息、总结、翻译、编码、解决数学问题等多种任务。这些模型在多 2.4.1 DEvv 程序员的新一代 AI 搜索引擎，专为编程和技术问题检索设计。 2.4.2 JetBrains AI AI 编程开发助手，集成在 JetBrains 系列开发工具中，提升编码效率。 9 Figure 6: AI 编程工具 2.4.3 AirOps 用于生成和修改 SQL 语句的工具，旨在简化数据库操作。 2.4.4 ChatDev 面壁智能开发的 AI 智能体开发平台，支持创建和部署智能对话系统。 LlaMA3，2024 年 4 月 19 日，Meta 公司发布，共有 8B，70B 两种参数，分为基础预训练和指令微调两种模型。与 Llama2 相比，Llama3 使用了 15T tokens 的训练数据，在推理、数学、代码生成、指令跟踪等能力获得大幅度提升。 3.1 大模型 Llama3 3.1.1 步骤 1：安装 Ollama Ollama 可以简单理解为客户端，实现和大模型的交互。ollama

0 码力 | 42 页 | 8.39 MB | 8 月前
3
人工智能安全治理框架 1.0

，也面临不当使用、滥用甚至恶意利用带来的安全风险。 3.1 人工智能内生安全风险 3.1.1 模型算法安全风险（a）可解释性差的风险。以深度学习为代表的人工智能算法内部运行逻辑复杂，推理过程属黑灰盒模式，可能导致输出结果难以预测和确切归因，如有异常难以快速修正和溯源追责。（b）偏见、歧视风险。算法设计及训练过程中，个人偏见被有意、无意引入，或者因训练数据集质量问题，导致算法设计目的、输出结果存在偏见或歧视，决策错误等诸多问题。- 4 - 人工智能安全治理框架（d）被窃取、篡改的风险。参数、结构、功能等算法核心信息，面临被逆向攻击窃取、修改，甚至嵌入后门的风险，可导致知识产权被侵犯、商业机密泄露，推理过程不可信、决策输出错误，甚至运行故障。（e）输出不可靠风险。生成式人工智能可能产生 “幻觉”，即生成看似合理，实则不符常理的内容，造成知识偏见与误导。（f）对抗攻击风险。攻击者通过创建精心设计的对抗样本数据，隐蔽地作中不规范、不当使用人工智能服务，向大模型输入内部业务数据、工业信息，导致工作秘密、商业秘密、敏感业务数据泄露。（d）滥用于网络攻击的风险。人工智能可被用于实施自动化网络攻击或- 6 - 人工智能安全治理框架提高攻击效率，包括挖掘利用漏洞、破解密码、生成恶意代码、发送钓鱼邮件、网络扫描、社会工程学攻击等，降低网络攻击门槛，增大安全防护难度。（e）模型复用的缺陷传导风险。依托基础模型进行二次开发或微调，是

0 码力 | 20 页 | 3.79 MB | 1 月前
3

共 95 条前往

页

分类

语言

格式