全局配置文件 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

开源中国 2023 大模型(LLM)技术报告

GPU 跑 1 天能完成单次训练，或者 2500 块 A100 GPU 跑 2 周。以每张卡 10 万人民币的价格计算，单次训练成本就将达到 25-35 亿人民币。 10月17日，美国商务部工业和安全局(BIS)公布新的先进计算芯片、半导体制造设备出口管制规则，限制中国购买和制造高端芯片的能力，受管制的包括但不限于 NVIDIA A100、H100、 A800、H800、L40、L40S 以及集成这些高性能计算的

0 码力 | 32 页 | 13.09 MB | 1 年前
3
DeepSeek从入门到精通(20250204)

通用场景更灵活，但专项任务需依赖提示语补偿能力 • 例如：GPT-3、GPT-4（OpenAI），BERT（Google），主要用于语言生成、语言理解、文本分类、翻译等任务。快思慢想：效能兼顾全局视野概率预测（快速反应模型，如ChatGPT 4o）链式推理(慢速思考模型，如OpenAI o1) 性能表现响应速度快，算力成本低慢速思考，算力成本高运算原理基于概率预测，通过大量数据训练来快速预测可能

0 码力 | 104 页 | 5.37 MB | 8 月前
3
清华大学 DeepSeek 从入门到精通

通用场景更灵活，但专项任务需依赖提示语补偿能力 • 例如：GPT-3、GPT-4（OpenAI），BERT（Google），主要用于语言生成、语言理解、文本分类、翻译等任务。快思慢想：效能兼顾全局视野概率预测（快速反应模型，如ChatGPT 4o）链式推理(慢速思考模型，如OpenAI o1) 性能表现响应速度快，算力成本低慢速思考，算力成本高运算原理基于概率预测，通过大量数据训练来快速预测可能

0 码力 | 103 页 | 5.40 MB | 9 月前
3

共 3 条前往

页

开源中国 2023 模型 LLM 技术报告 DeepSeek 入门精通 20250204 清华华大大学清华大学

分类

语言

格式

开源中国 2023 大模型(LLM)技术报告

DeepSeek从入门到精通(20250204)

清华大学 DeepSeek 从入门到精通