DeepSeek图解10页PDFDeepSeek-R1 精华图解 …… 7 3.1 DeepSeek-R1 完整训练过程 …… 7 3.1.1 核心创新 1:含 R1-Zero 的中间推理模型 …… 8 3.1.2 核心创新 2:通用强化学习 …… 8 3.2 含 R1-Zero 的中间推理模型训练过程 …… 9 3.3 通用强化学习训练过程 …… 10 3.4 总结 DeepSeek-R1 …… 11 4 参考文献 使云服务宕机,本地大模型依然可以正常工作,不受外部因素影响。 ## 本教程搭建 DeepSeek 好处 本地搭建 DeepSeek 三个比较实际的好处: • 本教程接入的是 DeepSeek 推理模型 R1,开源免费,性能强劲 • 本教程搭建方法零成本,不需花一分钱。 - 为了照顾到大部分读者,推荐的搭建方法已将电脑配置要求降到最低,普通电脑也能飞速运行。 ### 1.2 DeepSeek DeepSeek-R1 精华图解 ### 3.1 DeepSeek-R1 完整训练过程 DeepSeek-R1 主要亮点在于出色的数学和逻辑推理能力,区别于一般的通用 AI 模型。其训练方式结合了强化学习(RL)与监督微调(SFT),创造了一种高效训练,高推理能力 AI 模型的方法。 整个训练过程分为核心两阶段,第一步训练基于 DeepSeek-V3 论文中的基础模型(而非最终版本),并经历了 SFT0 码力 | 11 页 | 2.64 MB | 1 年前3
DeepSeek从入门到精通(20250204)DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。 性能对齐 OpenAI-o1 正式版 DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。  AI + 国产 + 免费 + 开源 + 强大 ## Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景,支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。  ## 知识推理 知识推理 逻辑问题解答(数学、常识推理) 因果分析(事件关联性) ## 编程与代码相关 的实 作方式,亦尝试剖析其中与Windows 程序设计模型(注2)息息相关之特殊性质(注3)的 实作方式。 注1:此指runtime type information、dynamic c pplication framework 的设计蓝图。虽 然,99.99999% 的programmer 终其一生不会设计一个application framework,这样的蓝图仍 可以为你的对象导向观念带来许多面向的帮助。 我一直希望,能够为此书发行英文国际版。囿于个人的语文能力以及时间,终未能行。但是 看到来自世界各地的华人读者的信函(加拿大、纽西兰、越南、印尼、香港、中国大陆、美 国...),也是另一种安慰。在BBS sion control。事实上我亦从来没有忘记初学 MFC 的痛苦:C++ 语言本身的技术问题是其一,MFC 庞大类别库的命名规则是其二,熟知 的Windows 程序基本动作统统不见了是其三,对象导向的观念与application framework 的 包装是其四。初学MFC programming 时,我的脑袋犹如网目过大的筛子,什么东西都留不住; 各个类别及其代表意义,过眼即忘。 8 初初接触MFC0 码力 | 1009 页 | 11.08 MB | 2 年前3
Claude Opus 4.7 System Card 中文版White-Box Analysis and Evaluation Awareness 11 模型福祉:AI有感受吗? Model Welfare Assessment PART IV · 能力基准 12 编程与推理能力 Coding and Reasoning Capabilities 13 多模态、搜索与真实世界任务 Multimodal, Search and Real-World Tasks 14 附录 1关于自主性风险On Autonomy Risks 自主性威胁模型1:早期阶段的失对齐风险。该威胁模型关注的是高度依赖、拥有对敏感资产的广泛访问权限、且具备中等程度自主目标导向运行和欺骗能力的AI系统。这类系统有可能(无论是故意还是无意中被引导向此目标)执行导致后续全球灾难概率不可逆地大幅提高的行动。 核心建议 译者注:脚注原文指出,该阈值对应RSP中的"高风险破坏机会"威胁模型,与RSP v2.2中的" Preview类似。这些弱点包括缺乏预测性行为(模型需要持续引导而非主动建议替代路径)、协议开发深度不足以支持执行,以及对合成步骤可行性过度自信。尽管我们的评估者凭借专业知识能够构建他们认为基本可行的灾难性场景,但需要大量引导才能将模型导向这些场景。 我们用序列功能建模和设计评估补充了这些红队测试。Opus4.7在建模任务上略优于Sonnet4.6和Opus4.6,在设计任务上略弱于这两个模型,在两项任务上均落后于Claude Mythos0 码力 | 128 页 | 9.92 MB | 1 月前3
vLLM v0.4.2 Documentation0 码力 | 99 页 | 982.83 KB | 3 月前3
vLLM v0.5.0.post1 Documentation0 码力 | 144 页 | 1.09 MB | 3 月前3
Moonshot AI 介绍出来的 lossless long-context 技术在很多具体场景上要比 OpenAI 效果更好,因为用了无损压缩的技术。你可以用它去读一篇很长的文章,它可以很好地还原一些具体细节,还可以内容做推理。用户自己还会发现很多场景,比如扔给它 50 个简历,让它根据你的要求做分析和筛选。 要做差异化,我认为就是去看这里面的 tech space 有多大,tech space 越大,技术、产品、商业 GPT-4。我觉得这是片面的说法,最终更实质的可能还是如何有一个统一的表示空间以及可规模化的数据生产。 海外独角兽:如果算力足够,会有人想做一个万亿参数的 dense model 吗? 杨植麟:取决于推理成本的下降速度,但我觉得肯定会有。现在大家是因为推理成本太高,所以都在做 tradeoff。但是最终直接训练一个万亿的 dense model 肯定效果会比一个只有千亿参数的模型要好。 海外独角兽:Anthropic一直在 —— 模型的大部分计算量会发生在模型自己生成的数据上。 26 年的时候也许模型用于推理的计算量会远远大于训练本身,可能花 10 倍的成本去推理,推理完之后花一倍的成本来训练。会出现新的范式,推理即训练,而且这个推理不是为任何用户服务的,只为自己本身的合成数据服务。 出现这种情况的话,能源的问题也解决了,因为推理是可以分布式的。而且它不违背定律,本质还是个能源守恒。只不过我把计算范式改变了,让能源能够以分布式的方式解决。0 码力 | 74 页 | 1.64 MB | 2 年前3
清华大学 DeepSeek 从入门到精通DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。 性能对齐 OpenAI-o1 正式版 DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。  AI + 国产 + 免费 + 开源 + 强大 ## Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景,支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。  ## 知识推理 知识推理 逻辑问题解答(数学、常识推理) 因果分析(事件关联性) ## 编程与代码相关  ## DeepSeek 三种模式对比 • 基础模型(V3):通用模型(2024.12),高效便捷,适用于绝大多数任务,“规范性”任务 • 深度思考(R1):推理模型,复杂推理和深度分析任务,如数理逻辑推理和编程代码,“开放性”任务 • 联网搜索:RAG(检索增强生成),知识库更新至2024年7月 V3 还是 R1?过程驱动(规范约束)还是结果驱动(模糊目标)? ## DeepSeek 两种模型对比(5R) |维度|V3模型|R1模型| |---|---|---| |Regulation (规范性)|强规范约束 (操作路径明确)|弱规范约束 (操作路径开放)| |Result (结果导向)|目标确定性高 (结果可预期)|目标开放 (结果多)| |Route (路径灵活性)|线性路径 (流程标准化)|网状路径 (多路径)| |Responsiveness (响应模式)|被动适配 (按规则执行)|主动创新0 码力 | 35 页 | 9.78 MB | 1 年前3
共 271 条
- 1
- 2
- 3
- 4
- 5
- 6
- 28













