【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502应对 • 应对模型安全新挑战,打 赢未雨绸缪之战 • 大模型是能力而非产品, 结合场景才能发挥价值 • 中国拥有最完整的产业链、 最全的工业门类、最丰富 的场景 • 发挥场景优势,加速传统 产业数转智改,打赢弯道 超车之战 AGI是全球少数玩家的游戏,政府、企业、创业者更多创新的机会在应用之路 11政企、创业者必读 把大模型拉下神坛! 走入千家万户、百行千业,才能掀起新工业革命 • 当年IBM做出超级电脑,并没有带来工业 万亿参数规模之后,继续增大参数规 模难以带来质的提升 • 训练算力成本和工程化难度大幅上升 强化学习Scaling Law • 利用合成数据解决数据用尽问题 • 利用self-play强化学习,在不增大参 数规模前提下,大幅提升复杂推理能力 • 通过后训练算力和推理算力,在不增加 预训练算力前提下,大幅提升模型性能 DeepSeek颠覆式创新——技术创新 26政企、创业者必读 预训练模型如GPT——疯狂读书,积 创业公司得到DeepSeek加持,创业者拥有便宜领先的大模型,迎来 机遇,带来“iPhone时刻” 中国变成AI渗透率最高的国家,率先实现AI工业革命 37政企、创业者必读 人人智能 万物智能 数转智改 未来产业 科学研究 安全 应用爆发的六大方向 38政企、创业者必读 DeepSeek的开源和低成本使得个人也能够拥有自有大模型,实现超能力, 成长为超级个体 DeepSeek六大应用方向之一0 码力 | 76 页 | 5.02 MB | 5 月前3
清华大学 普通人如何抓住DeepSeek红利融入保加利亚红椒粉与希腊酸奶,制成空气感慕斯 3.香肠脆粒 - 伊比利亚辣肠低温烘烤后粉碎成黄金脆粒 4.薄荷冷萃油 - 液态氮急冻薄荷叶萃取的翡翠色精油 ???️ 味觉风暴: •第1层:青椒脆片释放灯笼椒特有的清甜 •第2层:烟熏红椒粉在慕斯中爆破出暖意 •第3层:辣肠碎粒带来咸鲜微辣的颗粒感 •终章:薄荷冷萃油在舌尖炸开极地般的清凉 ??? 分子料理技法: 1.反卷造型:将传统卷物内外翻转,脆网外露包裹柔嫩内馅 2.温 合问题,以达到10万个的问题数量。 这 些 数 据 集 包 含 大 量 的 问 答 对 , 例 如 使 用 d a t a s e t s 库 (Hugging Face的datasets库)来加载SQuAD数据集 (Stanford Question Answering Dataset),这个数据集 是一个著名的问答数据集,基于维基百科数据生成,并且数 据是2020年之前的。 AI幻觉问题抽取:多数据集 50个智能体的在线社区模拟仿真 场景3:多智能体在线社区模拟 场景4:无人区研究+快速出成果 素数位数关系理论及其思考—— 邵宇捷 各思路具体化及 Python验算 人类提供已有参考案例(拉马努金数、 阿姆斯特朗数等) AI提出可能思路 要求AI迭代调整或人 类介入提供具体设想 AI发现魔法数字的一般过程 思路可用,并非刻 意构造 有刻意构造嫌疑 方案可行 输出结果及理论 体系化0 码力 | 65 页 | 4.47 MB | 8 月前3
DeepSeek从入门到精通(20250204)从“下达指令”到“表达需求” 策略类型 定义与目标 适用场景 示例(推理模型适用) 优势与风险 指令驱动 直接给出明确步骤或 格式要求 简单任务、需快速执行 “用Python编写快速排序函 数,输出需包含注释。” ✅ 结果精准高效 ❌ 限制模型自主优化空 间 需求导向 描述问题背景与目标, 由模型规划解决路径 复杂问题、需模型自主 推理 “我需要优化用户登录流程, 请分析当前瓶颈并提出3种方 3. 创造性需求 需生成新颖内容(文本/ 设计/方案) 主题 + 风格/约束 + 创新 方向 结合逻辑框架生成结构化 创意 自由发散,依赖示例引导 4. 验证需求 需检查逻辑自洽性、数 据可靠性或方案可行性 结论/方案 + 验证方法 + 风险点 自主设计验证路径并排查 矛盾 简单确认,缺乏深度推演 5. 执行需求 需完成具体操作(代码/ 计算/流程) 任务 + 策略二:适当分解复杂任务,降低AI认知负荷 策略三:引入引导性问题,提升生成内容的深度 策略四:控制提示语长度,确保生成的准确性 策略五:灵活运用开放式提示与封闭式提示 分解任务的技巧:分段生成、逐层深入、设置逻 辑结构 引导性问题的设计要点:设置多个层次的问题、 促使AI对比或论证、引导思维的多样性 控制提示语长度的技巧:避免嵌套复杂的指令、 保持简洁性、使用分步提示 开放式提示:提出开放性问题,允许AI根据多个0 码力 | 104 页 | 5.37 MB | 8 月前3
清华大学 DeepSeek 从入门到精通从“下达指令”到“表达需求” 策略类型 定义与目标 适用场景 示例(推理模型适用) 优势与风险 指令驱动 直接给出明确步骤或 格式要求 简单任务、需快速执行 “用Python编写快速排序函 数,输出需包含注释。” ✅ 结果精准高效 ❌ 限制模型自主优化空 间 需求导向 描述问题背景与目标, 由模型规划解决路径 复杂问题、需模型自主 推理 “我需要优化用户登录流程, 请分析当前瓶颈并提出3种方 3. 创造性需求 需生成新颖内容(文本/ 设计/方案) 主题 + 风格/约束 + 创新 方向 结合逻辑框架生成结构化 创意 自由发散,依赖示例引导 4. 验证需求 需检查逻辑自洽性、数 据可靠性或方案可行性 结论/方案 + 验证方法 + 风险点 自主设计验证路径并排查 矛盾 简单确认,缺乏深度推演 5. 执行需求 需完成具体操作(代码/ 计算/流程) 任务 + 策略二:适当分解复杂任务,降低AI认知负荷 策略三:引入引导性问题,提升生成内容的深度 策略四:控制提示语长度,确保生成的准确性 策略五:灵活运用开放式提示与封闭式提示 分解任务的技巧:分段生成、逐层深入、设置逻 辑结构 引导性问题的设计要点:设置多个层次的问题、 促使AI对比或论证、引导思维的多样性 控制提示语长度的技巧:避免嵌套复杂的指令、 保持简洁性、使用分步提示 开放式提示:提出开放性问题,允许AI根据多个0 码力 | 103 页 | 5.40 MB | 8 月前3
清华大学第二弹:DeepSeek赋能职场备注 英伟达NIM微服务 https://build.nvidia.com/d eepseek-ai/deepseek-r1 671B(全量模型) 网页版直接使用,支持API调用,注册送1000点数,免费体验。 微软Azure https://ai.azure.com 671B(全量模型) 需注册微软账户并创建订阅,免费部署,支持参数调节。 亚马逊AWS https://aws.amazon Framework, CAP Framework) 核心层: 1.身份定义 (Identity) •角色属性 •专业背景 •交互特征 执行层: 2. 能力矩阵 (Capability Matrix) •功能范围 •专业技能 •决策权限 约束层: 3. 边界系统 (Boundary System) •伦理规范 •安全限制 •资源约束 操作层: 4. 工作引擎 (Operation 性和权威性,并将关键资料整理形成表格。 3.生成PPT大纲:根据用户需求和收集到的资料,构建PPT大纲,明确每一页 的内容和结构。要有每个章节的题目和每个页面的标题及内容要点。第一层级为封面、目录页、 章节页标题,页面标题为第二层级,页面内容要点为第三和第四层级。关键内容可以用流程图呈 现。不少于30页内容。 4. 生成关键页面的流程图,针对部分核心页面内容,生成流程图。 输出内容及格式: 1、研究资料摘要,表格0 码力 | 35 页 | 9.78 MB | 8 月前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单AI o3mini 响应速度快,能够高效提 取所有需求链接,输出完 整可运行python脚本,代 码运行后生成文件,但数 据采集结果为空。 DeepSeek R1 能够提取所有网址并进行 筛选、去重,所撰写代码 运行后完成数据爬虫任务, 所获取数据准确,少量数 据有所遗漏。 提示词 测试结果受到数据样本、测试环境、AI抽卡、提示词模板等因素影响,仅供参考,无法作为决策制定、质量评估或产品验证的最终依据。 代码支持,Claude 3.5 Sonnet 负责图表逻辑优化 数据采集 数据预处理 数据分析 可视化呈现 新思路:DeepSeek R1的数据应用 中 文 数 据 处 理 优 势 创 意 写 作 生 成 能 力 数 据 读 取 分 析 能 力 低 成 本 高 性 能 优 势 编 程 代 码 生 成 能 力 • 智 能 中 文 古 籍 修 复 与 注 释 : 利用 DeepSeek 发现潜在问题并提供优化建议,提升开发效 率与代码质量。 新思路:Open AI o3mini的数据应用 推 理 响 应 速 度 快 写 作 情 感 表 达 能 力 格 式 化 输 出 能 力 数 据 分 析 效 率 高 数 据 可 视 化 优 势 • 实时数据流处理与决策:利用o3mini在物 联网和工业自动化领域,快速处理来自传感器 和设备的实时数据,进行即时分析和决策,减 少停机时间,提高生产效率。0 码力 | 85 页 | 8.31 MB | 8 月前3
Deepseek R1 本地部署完全手册个⼈⽤户:不建议部署32B及以上模型,硬件成本极⾼且运维复杂。 企业⽤户:需专业团队⽀持,部署前需评估ROI(投资回报率)。 ⼆、本地部署核⼼配置要求 1. 模型参数与硬件对应表 模型参 数 Windows 配置要求 Mac 配置要求 适⽤场景 1.5B - RAM: 4GB - GPU: 集成显卡/现代CPU - 存储: 5GB - 内存: 8GB (M1/M2/M3) - 存储: com/install.sh | sh FROM /path/to/DeepSeek-R1-UD-IQ1_M.gguf PARAMETER num_gpu 28 # 每块RTX 4090加载7层(共4卡) PARAMETER num_ctx 2048 PARAMETER temperature 0.6 TEMPLATE "<|end▁of▁thinking|>{{ .Prompt0 码力 | 7 页 | 932.77 KB | 8 月前3
DeepSeek图解10页PDF亿,70 亿、80 亿是指大模型的神经元参数(权重参数 weight+bias)的 总量。目前大模型都是基于 Transformer 架构,并且是很多层的 Transformer 结构,最后还有全连接层等,所有参数加起来 70 亿,80 亿,还有的上千亿。 教程作者:郭震,工作 8 年目前美国 AI 博士在读,公众号:郭震 AI,欢迎关注获取更多原创教程。资 料用心打磨且开源,是为了帮助更多人了解获取 训练目标是最小化预测误差,使其能更好地完成语言任务。 2.3.2 监督微调(Supervised Fine-Tuning, SFT) 在预训练之后,通常需要对模型进行监督微调(SFT):使用人工标注的数 据集,让模型在特定任务上优化表现。调整参数,使其更符合人类需求,如 问答、对话生成等任务。 2.3.3 强化学习(Reinforcement Learning, RL) 采用强化学习(RL)0 码力 | 11 页 | 2.64 MB | 8 月前3
国家人工智能产业综合标准化体系建设指南(2024版)产模式和经济发展形态,将对加快建设制造强国、网络强国 和数字中国发挥重要的支撑作用。人工智能产业链包括基础 层、框架层、模型层、应用层等 4 个部分。其中,基础层主 要包括算力、算法和数据,框架层主要是指用于模型开发的 深度学习框架和工具,模型层主要是指大模型等技术和产 品,应用层主要是指人工智能技术在行业场景的应用。近年 来,我国人工智能产业在技术创新、产品创造和行业应用等 方面实现 新型数据中心、智算中心、基础网络通信、算力网络、数据存储 8 等基础设施的技术要求和评估方法,包括基础设施参考架构、计 算能力评估、技术要求、稳定性要求和业务服务接口等标准。 6. 系统软件标准。规范人工智能系统层的软硬件技术要求, 包括软硬件编译器架构和优化方法、人工智能算子库、芯片软件 运行时库及调试工具、人工智能软硬件平台计算性能等标准。 7. 开发框架标准。规范人工智能开发框架相关的技术要求,0 码力 | 13 页 | 701.84 KB | 1 年前3
开源中国 2023 大模型(LLM)技术报告基础设施:大模型框架及微调 (Fine Tuning) 大模型框架指专门设计用于构建、训练和部署大型机器 学习模型和深度学习模型的软件框架。这些框架提供了 必要的工具和库,使开发者能够更容易地处理大量的数 据、管理巨大的网络参数量,并有效地利用硬件资源。 微调(Fine Tuning)是在大模型框架基础上进行的一个 关键步骤。在模型经过初步的大规模预训练后,微调是 用较小、特定领域的数据集对模型进行后续训练,以使 抽象掉了许多底层细节,使开发者能 够专注于模型的设计和训练策略。 :这些框架经过优化,以充分利用 GPU、TPU 等高性能计算硬件,以加速模型 的训练和推理过程。 :为了处理大型数据集和大规模参 数网络,这些框架通常设计得易于水平扩展, 支持在多个处理器或多个服务器上并行处理。 :它们提供工具来有效地加 载、处理和迭代大型数据集,这对于训练大 型模型尤为重要。 国产深度学习框架 OneFlow Copilot 16 / 32 大模型应用现状:知名大模型 在全球范围内,已经发布了多款知名大模型,这些大模 型在各个领域都取得了突破性的进展。 处理文本数据的 GPT-4,能同时处理和理解多种类型数 据的多模态模型 DALL-E 3,以及开源大模型的代表 Lllama 2 都在短时间内获得了大量关注和用户,构成了 大模型领域的「第一梯队」。 讯飞星火 17 / 32 大模型应用现状:首批备案上线的中国大模型0 码力 | 32 页 | 13.09 MB | 1 年前3
共 12 条
- 1
- 2













