开源中国 2023 大模型(LLM)技术报告GPU 跑 1 天能完成单次训练,或者 2500 块 A100 GPU 跑 2 周。以每张卡 10 万人民币的价格计算,单 次训练成本就将达到 25-35 亿人民币。 10月17日,美国商务部工业和安全局(BIS)公布新的先进计算芯 片、半导体制造设备出口管制规则,限制中国购买和制造高端芯 片的能力,受管制的包括但不限于 NVIDIA A100、H100、 A800、H800、L40、L40S 以及集成这些高性能计算的0 码力 | 32 页 | 13.09 MB | 1 年前3
DeepSeek从入门到精通(20250204)通用场景更灵活,但专项任务需依赖提示语补偿能力 • 例如:GPT-3、GPT-4(OpenAI),BERT(Google),主要用于语言生成、语言理解、文本分类、翻译 等任务。 快思慢想:效能兼顾 全局视野 概率预测(快速反应模型,如ChatGPT 4o) 链式推理(慢速思考模型,如OpenAI o1) 性能表现 响应速度快,算力成本低 慢速思考,算力成本高 运算原理 基于概率预测,通过大量数据训练来快速预测可能0 码力 | 104 页 | 5.37 MB | 8 月前3
清华大学 DeepSeek 从入门到精通通用场景更灵活,但专项任务需依赖提示语补偿能力 • 例如:GPT-3、GPT-4(OpenAI),BERT(Google),主要用于语言生成、语言理解、文本分类、翻译 等任务。 快思慢想:效能兼顾 全局视野 概率预测(快速反应模型,如ChatGPT 4o) 链式推理(慢速思考模型,如OpenAI o1) 性能表现 响应速度快,算力成本低 慢速思考,算力成本高 运算原理 基于概率预测,通过大量数据训练来快速预测可能0 码力 | 103 页 | 5.40 MB | 9 月前3
共 3 条
- 1













