DeepSeek-V2: A Strong, Economical, and Efficient
Mixture-of-Experts Language ModelTraining costs and inference efficiency of DeepSeek 67B (Dense) and DeepSeek-V2. Contents 1 Introduction 4 2 Architecture 6 2.1 Multi-Head Latent Attention: Boosting Inference Efficiency . . . . . . . . . . 14 3.2.3 Training and Inference Efficiency . . . . . . . . . . . . . . . . . . . . . . . . 16 4 Alignment 16 4.1 Supervised Fine-Tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . boosts the maximum generation throughput to 5.76 times. We also evaluate DeepSeek-V2 Chat (SFT) and 4 … Router Input Hidden ???????????????????????? Output Hidden ???????????????????????? ′ 1 ????0 码力 | 52 页 | 1.23 MB | 1 年前3
 Trends Artificial Intelligence
Work Evolution = Real + Rapid 3 1 2 3 4 5 6 7 8 9-51 52-128 129-152 153-247 248-298 299-307 308-322 # 323-336 OutlineWeekly Active Users, MM 4 Charts Paint Thousands of Words… Seem Like Number of Developers, MM 0% 50% 100% Internet LLM 33 Years In 90% @ Year 3 90% @ Year 23 10/22 4/25 800MM Big Six* USA Technology Company CapEx *Apple, NVIDIA, Microsoft, Alphabet, Amazon (AWS only) measured across six leading global LLMs. Source: YipitData (5/25) Desktop User Share, % 2/24 2/25 4/25 75% 60% 10% 21% 15% 0% Details on Page 293 USA – LLM #1 China USA – LLM #2 AI Model Compute0 码力 | 340 页 | 12.14 MB | 5 月前3
 DeepSeek从入门到精通(20250204)并非全面更强,仅在其训练目标领域显著优于通用模型 通用场景更灵活,但专项任务需依赖提示语补偿能力 • 例如:GPT-3、GPT-4(OpenAI),BERT(Google),主要用于语言生成、语言理解、文本分类、翻译 等任务。 快思慢想:效能兼顾 全局视野 概率预测(快速反应模型,如ChatGPT 4o) 链式推理(慢速思考模型,如OpenAI o1) 性能表现 响应速度快,算力成本低 慢速思考,算力成本高 触发因果链推导与假设验 证 表层总结或分类 3. 创造性需求 需生成新颖内容(文本/ 设计/方案) 主题 + 风格/约束 + 创新 方向 结合逻辑框架生成结构化 创意 自由发散,依赖示例引导 4. 验证需求 需检查逻辑自洽性、数 据可靠性或方案可行性 结论/方案 + 验证方法 + 风险点 自主设计验证路径并排查 矛盾 简单确认,缺乏深度推演 5. 执行需求 需完成具体操作(代码/ 提示语的本质 1. 指令型提示语:直接告诉AI需要执行的任务。 2. 问答型提示语:向AI提出问题,期望得到相应的 答案。 3. 角色扮演型提示语:要求AI扮演特定角色,模拟 特定场景。 4. 创意型提示语:引导AI进行创意写作或内容生成。 5. 分析型提示语:要求AI对给定信息进行分析和推 理。 6. 多模态提示语:结合文本、图像等多种形式的 输入。 表1-1-1提示语的本质特征0 码力 | 104 页 | 5.37 MB | 8 月前3
 清华大学 DeepSeek 从入门到精通并非全面更强,仅在其训练目标领域显著优于通用模型 通用场景更灵活,但专项任务需依赖提示语补偿能力 • 例如:GPT-3、GPT-4(OpenAI),BERT(Google),主要用于语言生成、语言理解、文本分类、翻译 等任务。 快思慢想:效能兼顾 全局视野 概率预测(快速反应模型,如ChatGPT 4o) 链式推理(慢速思考模型,如OpenAI o1) 性能表现 响应速度快,算力成本低 慢速思考,算力成本高 触发因果链推导与假设验 证 表层总结或分类 3. 创造性需求 需生成新颖内容(文本/ 设计/方案) 主题 + 风格/约束 + 创新 方向 结合逻辑框架生成结构化 创意 自由发散,依赖示例引导 4. 验证需求 需检查逻辑自洽性、数 据可靠性或方案可行性 结论/方案 + 验证方法 + 风险点 自主设计验证路径并排查 矛盾 简单确认,缺乏深度推演 5. 执行需求 需完成具体操作(代码/ 提示语的本质 1. 指令型提示语:直接告诉AI需要执行的任务。 2. 问答型提示语:向AI提出问题,期望得到相应的 答案。 3. 角色扮演型提示语:要求AI扮演特定角色,模拟 特定场景。 4. 创意型提示语:引导AI进行创意写作或内容生成。 5. 分析型提示语:要求AI对给定信息进行分析和推 理。 6. 多模态提示语:结合文本、图像等多种形式的 输入。 表1-1-1提示语的本质特征0 码力 | 103 页 | 5.40 MB | 8 月前3
 Manus AI:Agent元年开启researchccoding agent pqrstuvwxyz{|}~•G)€>•JK‚ƒ Manus,•P„…†‡ ˆ‰Š‹xG'B,LJKŒkF,•mP$ŒŽ4••‘JK’3“”,\M•–P,Manus —˜•™&š›Gœ=> !"#$%Bloomberg*&'()4 Manus AI%*+,- !"#$%Bloomberg*&'()5 Manus AI%./01 • GAIA !"#%‡•ž$% AI §¨©ª°±²³{´µG SOTA œ=> • Manus AI ¶·fgG$%JKA+)€,¸¹!Lº»JK«Level 3¬°G-•¼½a‡¹T AI Ÿ >•)¾%‡ˆ¿ÀGÁ%ÂÃ,Ä Å'B|4ÆcÇ©ÈÉÊËcÌÍ•mÎÏJKG()A+> !"#$%Bloomberg*&'()6 Manus AI%2345 • ManusÐ!ÑÒÓ*GÔg<Õ5 • uvÖk5tAIןØAI AgentGÙÚÛ© AgentGÙÚÛ© • ÜÝÞßà5zChromeCEdgeÜÝÞáâAIŸ ßà,QŸ%ãLäå°æ3çècéœYouTubeêëcìíGmail/LinkedIn/Twitter•º p> • Ž4CîïÁ%5áâŽ4CîïÁ%kð,ñ%ã•ÌòPòóñ%AIŸ ôK> • AIdeAPIõö5z÷øÕáâAPIõö,ñTU)`ùÈúæGAIdeC…‰API> • AIçèûÞ&Šü5áâ'¶ý%ã)`Šü|þÿGChatGPT0 码力 | 23 页 | 4.87 MB | 6 月前3
 Google 《Prompt Engineering v7》experimenting with creative outputs. Top-K and top-P Top-K and top-P (also known as nucleus sampling)4 are two sampling settings used in LLMs to restrict the predicted next token to come from tokens with programming language, or you could use a system prompt to return a certain structure. Have a look into Table 4, where I return the output in JSON format. Prompt Engineering February 2025 20 Goal Classify movie "movie_reviews": [ { "sentiment": "NEGATIVE", "name": "Her" } ] } ``` Table 4. An example of system prompting with JSON format Prompt Engineering February 2025 21 There are some0 码力 | 68 页 | 6.50 MB | 6 月前3
 清华大学 普通人如何抓住DeepSeek红利com Z u N e P 6 7 K w S v L C q Y 4 Y V 1 T 8 0 u m B k k m O x d k C i y K r j i 6 n p Y d O w t v B 4 G 0 G p y 8 U I q e T 9 M 6 Deepseek的能力图谱 结构解构: 1.青椒薄片 - 采用日式天妇罗手法炸至半透明,形成琥珀色脆网 2.茄泥慕斯 - 融入保加利亚红椒粉与希腊酸奶,制成空气感慕斯 3.香肠脆粒 - 伊比利亚辣肠低温烘烤后粉碎成黄金脆粒 4.薄荷冷萃油 - 液态氮急冻薄荷叶萃取的翡翠色精油 ???️ 味觉风暴: •第1层:青椒脆片释放灯笼椒特有的清甜 •第2层:烟熏红椒粉在慕斯中爆破出暖意 •第3层:辣肠碎粒带来咸鲜微辣的颗粒感 •终章:薄荷冷萃油在舌尖炸开极地般的清凉 暗藏爆破脆粒 如何使用DeepSeek解决工作中的问题 “卷不动了?让DeepSeek帮你一键‘躺赢’!” 场景1:1小时内写完一个1万字的项目书 场景:下午3点,你突然接到领导通知:“今晚4点前必须交一份10000字的智能物流园区项目方案书,客户临时提 前会议!”你大脑一片空白——手头只有零散的会议记录、几份过时的模板,且对“智能物流”技术细节不熟。电 脑右下角显示时间:3:05 P0 码力 | 65 页 | 4.47 MB | 8 月前3
 普通人学AI指南普通人学 AI 指南 作者:郭震 日期:2024 年 6 月 8 日 Contents 1 AI 大模型基础 4 1.1 AIGC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 AGI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.6.1 AgentGPT . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.6.2 GPT-4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.6.3 Gemma . . . . . . . . . . . . . . . . . . . 18 3.3 总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2 4 零代码搭建本地 AI 前端 19 4.1 LobeChat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.20 码力 | 42 页 | 8.39 MB | 8 月前3
 清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单适合实时交互场景。  通用性强:适用于多种自 然语言处理任务,如对话 生成和文本理解。 爬虫数据采集 1、阅读网页源代码,提取特定网页内容; 2、撰写python脚本; 3、提取并合并网址; 4、提取网址内容; 5、写入文件。 任务 你需要完成以下两个任务: 1.阅读网页【网址】源代码【对应网页源代码】。提取所 有包含“春运2025丨X月X日,全社会跨区域人员流动量完 成X万人次”的网址进行去重、筛选,合并成网址列表 量信息,请从中读取每一天的信息,并整理成一张表格,要求包括以下几项信息:1.当天日期;2.当天的铁路客运量、 比2024年同期多或者少的百分比、环比的百分比。3.当天的公路客运量、比2024年同期多或者少的百分比、环比的百分 比。4.当天的民航客运量、比2024年同期多或者少的百分比、环比的百分比。 提示词 测试结果受到数据样本、测试环境、AI抽卡、提示词模板等因素影响,仅供参考,无法作为决策制定、质量评估或产品验证的最终依据。 支持绘图 提炼观点 元知基础版 不限篇数 4分 中文英文 不支持 基础提炼 元知增强版 不限篇数 5分 中文英文 支持 深入提炼 元知专业版 (单图) 不限篇数 5分 中文英文 支持 全面提炼 元知专业版 (双图) 不限篇数 5分 中文英文 支持 全面提炼 PubScholar 20篇 2分 中文英文 不支持 未有提炼 知网研学 50篇 4分 中文 不支持 未有提炼 斯坦福 STORM0 码力 | 85 页 | 8.31 MB | 8 月前3
 Deepseek R1 本地部署完全手册Windows 配置要求 Mac 配置要求 适⽤场景 1.5B - RAM: 4GB - GPU: 集成显卡/现代CPU - 存储: 5GB - 内存: 8GB (M1/M2/M3) - 存储: 5GB 简单⽂本⽣成、基础代 码补全 7B - RAM: 8-10GB - GPU: GTX 1680(4-bit量 化) - 存储: 8GB - 内存: 16GB(M2 Pro/M3) DeepSeek-R1 (671B) 671B FP8 ≥890GB 2*XE9680(16*H20 GPU) DeepSeek-R1-Distill- 70B 70B BF16 ≥180GB 4*L20 或 2*H20 GPU 三、国产芯⽚与硬件适配⽅案 1. 国内⽣态合作伙伴动态 企业 适配内容 性能对标(vs NVIDIA) 华为昇 腾 昇腾910B原⽣⽀持R1全系列,提供端到端推理优化 Studio) DeepSeek-R1-Q4_K_M 404 GB ≥500 GB ⾼性能服务器/云GPU 下载地址: HuggingFace模型库 Unsloth AI官⽅说明 2. 硬件配置建议 硬件类型 推荐配置 性能表现(短⽂本⽣成) 消费级设备 Mac Studio(192GB统⼀内存) 10+ token/秒 ⾼性能服务器 4×RTX 4090(96GB显存+384GB内存)0 码力 | 7 页 | 932.77 KB | 8 月前3
共 31 条
- 1
 - 2
 - 3
 - 4
 













