Lean 4 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

Training costs and inference efficiency of DeepSeek 67B (Dense) and DeepSeek-V2. Contents 1 Introduction 4 2 Architecture 6 2.1 Multi-Head Latent Attention: Boosting Inference Efficiency . . . . . . . . . . 14 3.2.3 Training and Inference Efficiency . . . . . . . . . . . . . . . . . . . . . . . . 16 4 Alignment 16 4.1 Supervised Fine-Tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . boosts the maximum generation throughput to 5.76 times. We also evaluate DeepSeek-V2 Chat (SFT) and 4 … Router Input Hidden ???????????????????????? Output Hidden ???????????????????????? ′ 1 ????

0 码力 | 52 页 | 1.23 MB | 1 年前
3
Trends Artificial Intelligence

Work Evolution = Real + Rapid 3 1 2 3 4 5 6 7 8 9-51 52-128 129-152 153-247 248-298 299-307 308-322 # 323-336 OutlineWeekly Active Users, MM 4 Charts Paint Thousands of Words… Seem Like Number of Developers, MM 0% 50% 100% Internet LLM 33 Years In 90% @ Year 3 90% @ Year 23 10/22 4/25 800MM Big Six* USA Technology Company CapEx *Apple, NVIDIA, Microsoft, Alphabet, Amazon (AWS only) measured across six leading global LLMs. Source: YipitData (5/25) Desktop User Share, % 2/24 2/25 4/25 75% 60% 10% 21% 15% 0% Details on Page 293 USA – LLM #1 China USA – LLM #2 AI Model Compute

0 码力 | 340 页 | 12.14 MB | 5 月前
3
DeepSeek从入门到精通(20250204)

并非全面更强，仅在其训练目标领域显著优于通用模型通用场景更灵活，但专项任务需依赖提示语补偿能力 • 例如：GPT-3、GPT-4（OpenAI），BERT（Google），主要用于语言生成、语言理解、文本分类、翻译等任务。快思慢想：效能兼顾全局视野概率预测（快速反应模型，如ChatGPT 4o）链式推理(慢速思考模型，如OpenAI o1) 性能表现响应速度快，算力成本低慢速思考，算力成本高触发因果链推导与假设验证表层总结或分类 3. 创造性需求需生成新颖内容（文本/ 设计/方案）主题 + 风格/约束 + 创新方向结合逻辑框架生成结构化创意自由发散，依赖示例引导 4. 验证需求需检查逻辑自洽性、数据可靠性或方案可行性结论/方案 + 验证方法 + 风险点自主设计验证路径并排查矛盾简单确认，缺乏深度推演 5. 执行需求需完成具体操作（代码/ 提示语的本质 1. 指令型提示语：直接告诉AI需要执行的任务。 2. 问答型提示语：向AI提出问题，期望得到相应的答案。 3. 角色扮演型提示语：要求AI扮演特定角色，模拟特定场景。 4. 创意型提示语：引导AI进行创意写作或内容生成。 5. 分析型提示语：要求AI对给定信息进行分析和推理。 6. 多模态提示语：结合文本、图像等多种形式的输入。表1-1-1提示语的本质特征

0 码力 | 104 页 | 5.37 MB | 8 月前
3
清华大学 DeepSeek 从入门到精通

并非全面更强，仅在其训练目标领域显著优于通用模型通用场景更灵活，但专项任务需依赖提示语补偿能力 • 例如：GPT-3、GPT-4（OpenAI），BERT（Google），主要用于语言生成、语言理解、文本分类、翻译等任务。快思慢想：效能兼顾全局视野概率预测（快速反应模型，如ChatGPT 4o）链式推理(慢速思考模型，如OpenAI o1) 性能表现响应速度快，算力成本低慢速思考，算力成本高触发因果链推导与假设验证表层总结或分类 3. 创造性需求需生成新颖内容（文本/ 设计/方案）主题 + 风格/约束 + 创新方向结合逻辑框架生成结构化创意自由发散，依赖示例引导 4. 验证需求需检查逻辑自洽性、数据可靠性或方案可行性结论/方案 + 验证方法 + 风险点自主设计验证路径并排查矛盾简单确认，缺乏深度推演 5. 执行需求需完成具体操作（代码/ 提示语的本质 1. 指令型提示语：直接告诉AI需要执行的任务。 2. 问答型提示语：向AI提出问题，期望得到相应的答案。 3. 角色扮演型提示语：要求AI扮演特定角色，模拟特定场景。 4. 创意型提示语：引导AI进行创意写作或内容生成。 5. 分析型提示语：要求AI对给定信息进行分析和推理。 6. 多模态提示语：结合文本、图像等多种形式的输入。表1-1-1提示语的本质特征

0 码力 | 103 页 | 5.40 MB | 8 月前
3
Manus AI：Agent元年开启

researchccoding agent pqrstuvwxyz{|}~•G)€>•JK‚ƒ Manus,•P„…†‡ ˆ‰Š‹xG'B,LJKŒkF,•mP$ŒŽ4••‘JK’3“”,\M•–P,Manus —˜•™&š›Gœ=> !"#$%Bloomberg*&'()4 Manus AI%*+,- !"#$%Bloomberg*&'()5 Manus AI%./01 • GAIA !"#%‡•ž$% AI §¨©ª°±²³{´µG SOTA œ=> • Manus AI ¶·fgG$%JKA+)€,¸¹!Lº»JK«Level 3¬°G-•¼½a‡¹T AI Ÿ >•)¾%‡ˆ¿ÀGÁ%ÂÃ,Ä Å'B|4ÆcÇ©ÈÉÊËcÌÍ•mÎÏJKG()A+> !"#$%Bloomberg*&'()6 Manus AI%2345 • ManusÐ!ÑÒÓ*GÔg<Õ5 • uvÖk5tAI×ŸØAI AgentGÙÚÛ© AgentGÙÚÛ© • ÜÝÞßà5zChromeCEdgeÜÝÞáâAIŸ ßà,QŸ%ãLäå°æ3çècéœYouTubeêëcìíGmail/LinkedIn/Twitter•º p> • Ž4CîïÁ%5áâŽ4CîïÁ%kð,ñ%ã•ÌòPòóñ%AIŸ ôK> • AIdeAPIõö5z÷øÕáâAPIõö,ñTU)`ùÈúæGAIdeC…‰API> • AIçèûÞ&Šü5áâ'¶ý%ã)`Šü|þÿGChatGPT

0 码力 | 23 页 | 4.87 MB | 6 月前
3
Google 《Prompt Engineering v7》

experimenting with creative outputs. Top-K and top-P Top-K and top-P (also known as nucleus sampling)4 are two sampling settings used in LLMs to restrict the predicted next token to come from tokens with programming language, or you could use a system prompt to return a certain structure. Have a look into Table 4, where I return the output in JSON format. Prompt Engineering February 2025 20 Goal Classify movie "movie_reviews": [ { "sentiment": "NEGATIVE", "name": "Her" } ] } ``` Table 4. An example of system prompting with JSON format Prompt Engineering February 2025 21 There are some

0 码力 | 68 页 | 6.50 MB | 6 月前
3
清华大学普通人如何抓住DeepSeek红利

com Z u N e P 6 7 K w S v L C q Y 4 Y V 1 T 8 0 u m B k k m O x d k C i y K r j i 6 n p Y d O w t v B 4 G 0 G p y 8 U I q e T 9 M 6 Deepseek的能力图谱结构解构： 1.青椒薄片 - 采用日式天妇罗手法炸至半透明，形成琥珀色脆网 2.茄泥慕斯 - 融入保加利亚红椒粉与希腊酸奶，制成空气感慕斯 3.香肠脆粒 - 伊比利亚辣肠低温烘烤后粉碎成黄金脆粒 4.薄荷冷萃油 - 液态氮急冻薄荷叶萃取的翡翠色精油 ???️ 味觉风暴： •第1层：青椒脆片释放灯笼椒特有的清甜 •第2层：烟熏红椒粉在慕斯中爆破出暖意 •第3层：辣肠碎粒带来咸鲜微辣的颗粒感 •终章：薄荷冷萃油在舌尖炸开极地般的清凉暗藏爆破脆粒如何使用DeepSeek解决工作中的问题 “卷不动了？让DeepSeek帮你一键‘躺赢’！” 场景1：1小时内写完一个1万字的项目书场景：下午3点，你突然接到领导通知：“今晚4点前必须交一份10000字的智能物流园区项目方案书，客户临时提前会议！”你大脑一片空白——手头只有零散的会议记录、几份过时的模板，且对“智能物流”技术细节不熟。电脑右下角显示时间：3:05 P

0 码力 | 65 页 | 4.47 MB | 8 月前
3
普通人学AI指南

普通人学 AI 指南作者：郭震日期：2024 年 6 月 8 日 Contents 1 AI 大模型基础 4 1.1 AIGC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 AGI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.6.1 AgentGPT . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.6.2 GPT-4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.6.3 Gemma . . . . . . . . . . . . . . . . . . . 18 3.3 总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2 4 零代码搭建本地 AI 前端 19 4.1 LobeChat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.2

0 码力 | 42 页 | 8.39 MB | 8 月前
3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

适合实时交互场景。  通用性强：适用于多种自然语言处理任务，如对话生成和文本理解。爬虫数据采集 1、阅读网页源代码，提取特定网页内容； 2、撰写python脚本； 3、提取并合并网址； 4、提取网址内容； 5、写入文件。任务你需要完成以下两个任务： 1.阅读网页【网址】源代码【对应网页源代码】。提取所有包含“春运2025丨X月X日，全社会跨区域人员流动量完成X万人次”的网址进行去重、筛选，合并成网址列表量信息，请从中读取每一天的信息，并整理成一张表格，要求包括以下几项信息：1.当天日期；2.当天的铁路客运量、比2024年同期多或者少的百分比、环比的百分比。3.当天的公路客运量、比2024年同期多或者少的百分比、环比的百分比。4.当天的民航客运量、比2024年同期多或者少的百分比、环比的百分比。提示词测试结果受到数据样本、测试环境、AI抽卡、提示词模板等因素影响，仅供参考，无法作为决策制定、质量评估或产品验证的最终依据。支持绘图提炼观点元知基础版不限篇数 4分中文英文不支持基础提炼元知增强版不限篇数 5分中文英文支持深入提炼元知专业版（单图）不限篇数 5分中文英文支持全面提炼元知专业版（双图）不限篇数 5分中文英文支持全面提炼 PubScholar 20篇 2分中文英文不支持未有提炼知网研学 50篇 4分中文不支持未有提炼斯坦福 STORM

0 码力 | 85 页 | 8.31 MB | 8 月前
3
Deepseek R1 本地部署完全手册

Windows 配置要求 Mac 配置要求适⽤场景 1.5B - RAM: 4GB - GPU: 集成显卡/现代CPU - 存储: 5GB - 内存: 8GB （M1/M2/M3） - 存储: 5GB 简单⽂本⽣成、基础代码补全 7B - RAM: 8-10GB - GPU: GTX 1680（4-bit量化） - 存储: 8GB - 内存: 16GB（M2 Pro/M3） DeepSeek-R1 (671B) 671B FP8 ≥890GB 2*XE9680（16*H20 GPU） DeepSeek-R1-Distill- 70B 70B BF16 ≥180GB 4*L20 或 2*H20 GPU 三、国产芯⽚与硬件适配⽅案 1. 国内⽣态合作伙伴动态企业适配内容性能对标（vs NVIDIA）华为昇腾昇腾910B原⽣⽀持R1全系列，提供端到端推理优化 Studio） DeepSeek-R1-Q4_K_M 404 GB ≥500 GB ⾼性能服务器/云GPU 下载地址： HuggingFace模型库 Unsloth AI官⽅说明 2. 硬件配置建议硬件类型推荐配置性能表现（短⽂本⽣成）消费级设备 Mac Studio（192GB统⼀内存） 10+ token/秒⾼性能服务器 4×RTX 4090（96GB显存+384GB内存）

0 码力 | 7 页 | 932.77 KB | 8 月前
3

共 31 条前往

页

分类

语言

格式