清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
将数据转化为统计图、热力图、网络关系图、词云、树形 图等,用于揭示数据中蕴含的模式、趋势、异常和洞见。 本质:以多agent实现从数据采集到可视全流程 模型特点 Claude 3.5 sonnet 平衡性能:在模型大小和 性能之间取得平衡,适合 中等规模任务。 多模态支持:支持文本和 图像处理,扩展应用场景。 可解释性:注重模型输出 的可解释性和透明性。 DeepSeek R1 高效推理:专注于低延迟和 供定制化的AI解决方案,如智能客服、营销 和办公工具,提升企业竞争力。 • 开源AI教育平台:借助DeepSeek R1 的低成本特性,创建开源AI教育平台,提供 免费课程和实验资源,促进AI教育普及。 • 智能编程教育助手:为编程学生提供实 时编程指导,自动生成代码示例,帮助解决 编程难题。 • 自动化代码审查工具:自动审查代码, 发现潜在问题并提供优化建议,提升开发效 率与代码质量。 新思路:Open 数据报告自动化生成:基于o3mini自动 生成格式化的数据报告,包括图表、表格和文 字说明,帮助管理者快速理解分析结果。 • 数据接口标准化:根据标准格式输出数据, 利用o3mini方便不同系统和平台之间的数据 共享,提升跨机构协作效率。 • 情感分析与数据解读:利用o3mini结合 情感分析,对数据进行深入解读,帮助市场调 研等领域理解消费者情感,优化产品和策略。 • 故事化数据呈现:借助o3mini将数据以0 码力 | 85 页 | 8.31 MB | 7 月前3国家人工智能产业综合标准化体系建设指南(2024版)
善人工智能标准工作顶层设计,强化全产业链标准工作协 同,统筹推进标准的研究、制定、实施和国际化,为推动我 国人工智能产业高质量发展提供坚实的技术支撑。 到 2026 年,标准与产业科技创新的联动水平持续提升, 新制定国家标准和行业标准 50 项以上,引领人工智能产业 高质量发展的标准体系加快形成。开展标准宣贯和实施推广 的企业超过 1000 家,标准服务企业创新发展的成效更加凸 显。参与制定国际标准 口协议、性能评定、试验方法等技术要求,包括智能传感器的架 构、指令、数据格式、信息提取方法、信息融合方法、功能集成 方法、性能指标和评价方法等标准。 4. 计算设备标准。规范人工智能加速卡、人工智能加速模 组、人工智能服务器等计算设备,及使能软件的技术要求和测试 方法,包括人工智能计算设备虚拟化方法,人工智能加速模组接 口协议和测试方法,及使能软件的访问协议、功能、性能、能效 的测试方法和运行维护要求等标准。 运行时库及调试工具、人工智能软硬件平台计算性能等标准。 7. 开发框架标准。规范人工智能开发框架相关的技术要求, 包括开发框架的功能要求,与应用系统之间的接口协议、神经网 络模型表达和压缩等标准。 8. 软硬件协同标准。规范智能芯片、计算设备等硬件与系 统软件、开发框架等软件之间的适配要求,包括智能芯片与开发 框架的适配要求、人工智能计算任务调度、分布式计算等软硬件 协同任务的交互协议、执行效率和协同性能等标准。0 码力 | 13 页 | 701.84 KB | 1 年前3【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502
DeepSeek出现之前的十大预判 之五 知识的质量和密度决定大模型能力 高质量数据、合成数据使模型知识密度的快速增长 大模型能以更少的参数量达到更高的性能 360联合北大研发:5%参数量逼近Deepseek-R1满血性能 18政企、创业者必读 DeepSeek出现之前的十大预判 之六 成本越来越低 过去一年,大模型成本「自由落体」 国外:GPT-4等效智能在过去18个月内价格下降240倍 Law瓶颈 导致大模型悲观论 认为大模型的能力无法进一步得到质的提升 开辟强化学习新范式 从预训练Scaling Law转变为强化学习Scaling Law 大数据+大参数+大算力的 预训练Scaling Law的边际效应递减 • 人类构造的训练数据已达上限 • 万亿参数规模之后,继续增大参数规 模难以带来质的提升 • 训练算力成本和工程化难度大幅上升 强化学习Scaling Law Law • 利用合成数据解决数据用尽问题 • 利用self-play强化学习,在不增大参 数规模前提下,大幅提升复杂推理能力 • 通过后训练算力和推理算力,在不增加 预训练算力前提下,大幅提升模型性能 DeepSeek颠覆式创新——技术创新 26政企、创业者必读 预训练模型如GPT——疯狂读书,积 累知识,Scaling law撞墙 预训练模型思考深度不够 算力见顶,变成少数巨头游戏0 码力 | 76 页 | 5.02 MB | 5 月前3DeepSeek从入门到精通(20250204)
维度 推理模型 通用模型 优势领域 数学推导、逻辑分析、代码生成、复杂问题拆解 文本生成、创意写作、多轮对话、开放性问答 劣势领域 发散性任务(如诗歌创作) 需要严格逻辑链的任务(如数学证明) 性能本质 专精于逻辑密度高的任务 擅长多样性高的任务 强弱判断 并非全面更强,仅在其训练目标领域显著优于通用模型 通用场景更灵活,但专项任务需依赖提示语补偿能力 • 例如:GPT-3、GPT-4(O le),主要用于语言生成、语言理解、文本分类、翻译 等任务。 快思慢想:效能兼顾 全局视野 概率预测(快速反应模型,如ChatGPT 4o) 链式推理(慢速思考模型,如OpenAI o1) 性能表现 响应速度快,算力成本低 慢速思考,算力成本高 运算原理 基于概率预测,通过大量数据训练来快速预测可能 的答案 基于链式思维(Chain-of-Thought),逐步推理 问题的每个步骤来得到答案 多轮 迭代促进创新 优化任务执行效率 任务指令元素 + 结构元素 + 格式 元素 长度元素 + 风格元素 通过清晰的任务指令和预定义的结构提高执行效率,同时确保输出符合特定的 格式和风格要求 提升输出一致性 风格元素 + 知识域元素 + 约束条 件元素 格式元素 + 质量控制元素 通过统一的风格和专业领域知识确保输出的一致性,同时使用约束条件和质量 控制维持标准 增强交互体验 迭代指令元素0 码力 | 104 页 | 5.37 MB | 7 月前3清华大学 DeepSeek 从入门到精通
维度 推理模型 通用模型 优势领域 数学推导、逻辑分析、代码生成、复杂问题拆解 文本生成、创意写作、多轮对话、开放性问答 劣势领域 发散性任务(如诗歌创作) 需要严格逻辑链的任务(如数学证明) 性能本质 专精于逻辑密度高的任务 擅长多样性高的任务 强弱判断 并非全面更强,仅在其训练目标领域显著优于通用模型 通用场景更灵活,但专项任务需依赖提示语补偿能力 • 例如:GPT-3、GPT-4(O le),主要用于语言生成、语言理解、文本分类、翻译 等任务。 快思慢想:效能兼顾 全局视野 概率预测(快速反应模型,如ChatGPT 4o) 链式推理(慢速思考模型,如OpenAI o1) 性能表现 响应速度快,算力成本低 慢速思考,算力成本高 运算原理 基于概率预测,通过大量数据训练来快速预测可能 的答案 基于链式思维(Chain-of-Thought),逐步推理 问题的每个步骤来得到答案 多轮 迭代促进创新 优化任务执行效率 任务指令元素 + 结构元素 + 格式 元素 长度元素 + 风格元素 通过清晰的任务指令和预定义的结构提高执行效率,同时确保输出符合特定的 格式和风格要求 提升输出一致性 风格元素 + 知识域元素 + 约束条 件元素 格式元素 + 质量控制元素 通过统一的风格和专业领域知识确保输出的一致性,同时使用约束条件和质量 控制维持标准 增强交互体验 迭代指令元素0 码力 | 103 页 | 5.40 MB | 8 月前3DeepSeek图解10页PDF
依 然可以正常工作,不受外部因素影响。 本教程搭建 DeepSeek 好处 本地搭建 DeepSeek 三个比较实际的好处: • 本教程接入的是 DeepSeek 推理模型 R1,开源免费,性能强劲 • 本教程搭建方法 零成本,不需花一分钱。 • 为了照顾到大部分读者,推荐的搭建方法已将电脑配置要求降 到最低,普通电脑也能飞速运行。 1.2 DeepSeek 本地部署三个步骤 一共只需要三步,就能做到 多个注意力头同时分析不同的语义信息,使得模型的理解能力更强。3. 前 馈神经网络(FFN):非线性变换模块,提升模型的表达能力。4. 位置编码 (Positional Encoding):在没有循环结构的情况下,帮助模型理解单词的顺 序信息。 Transformer 结构的优势 1. 高效的并行计算:摒弃循环结构,使计算速度大幅提升。 2. 更好的上下文理解:注意力机制可捕捉长文本中的远程依赖关系。 3. 良好 核心贡献:首次验证了通过纯强化学习也能大幅提升大模 型推理能力,开源纯强化学习推理模型 DeepSeek-R1-Zero R1-Zero 能生成高质量的推理数据,包括大量长链式思维(Chain-of-Thought, CoT)示例,用于支持后续的 SFT 阶段,如图7所示。更加详细介绍参考3.2节。 3.1.2 核心创新 2:通用强化学习 第一阶段 R1-Zero 虽然展现出惊人的推理能力提升,但是也出现了回复时0 码力 | 11 页 | 2.64 MB | 7 月前3开源中国 2023 大模型(LLM)技术报告
以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM 在多个领域都取得了令人瞩目的成就。在自然语言处 理领域,GPT 系列模型在文本生成、问答系统和对话生成 等任务中展现出色的性能。在知识图谱构建、智能助手开发 等方面,LLM 技术也发挥了关键作用。此外,它还在代码 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 架构和预训练与微调策略是 LLM 技术的核心,随着大规模语言数据集的可用性和计算能 力的提升,研究者们开始设计更大规模的神经网络,以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展,其预训练和微调的 方法为语言任务提供了前所未有的性能,以此为基础,多模态融合的应用使得 LLM 更全面地处理各种 信息,支持更广泛的应用领域。 02 04 向量数据库/数据库向量支持 为大模型提供高效的存储和检索能力 大模型框架及微调 (Fine Tuning) 大模型框架提供基本能力和普适性,而微调 则是实现特定应用和优化性能的关键环节 大模型训练平台&工具 提供了在不同硬件和环境中训练大语言模型 所需的基础设施和支持 编程语言 以 Python 为代表 5 / 32 LLM 基础设施:向量数据库/数据库向量支持0 码力 | 32 页 | 13.09 MB | 1 年前3人工智能安全治理框架 1.0
应用场景,梳理人工智能技术本身,及其在应用过程中面临的各种安全风险 隐患。 2.2 技术应对措施方面。针对模型算法、训练数据、算力设施、产品服务、 应用场景,提出通过安全软件开发、数据质量提升、安全建设运维、测评监测 加固等技术手段提升人工智能产品及应用的安全性、公平性、可靠性、鲁棒性- 3 - 人工智能安全治理框架 的措施。 2.3 综合治理措施方面。明确技术研发机构、服务提供者、用户、政府 部门、 存在偏见或歧视, 甚至输出存在民族、宗教、国别、地域等歧视性内容。 (c)鲁棒性弱风险。由于深度神经网络存在非线性、大规模等特点,人 工智能易受复杂多变运行环境或恶意干扰、诱导的影响,可能带来性能下降、 决策错误等诸多问题。- 4 - 人工智能安全治理框架 (d)被窃取、篡改的风险。参数、结构、功能等算法核心信息,面临被 逆向攻击窃取、修改,甚至嵌入后门的风险,可导致知识产权被侵犯、商业机 现实域安全风险 (a)诱发传统经济社会安全风险。人工智能应用于金融、能源、电信、交通、 民生等传统行业领域,如自动驾驶、智能诊疗等,模型算法存在的幻觉输出、 错误决策,以及因不当使用、外部攻击等原因出现系统性能下降、中断、失控 等问题,将对用户人身生命财产安全、经济社会安全稳定等造成安全威胁。 (b)用于违法犯罪活动的风险。人工智能可能被利用于涉恐、涉暴、涉赌、 涉毒等传统违法犯罪活动,包括传授违法犯罪技巧、隐匿违法犯罪行为、制作0 码力 | 20 页 | 3.79 MB | 29 天前3Deepseek R1 本地部署完全手册
作者wechat:samirtan 版本:V2.0 更新⽇期:2025年2⽉8⽇ ⼀、简介 Deepseek R1 是⽀持复杂推理、多模态处理、技术⽂档⽣成的⾼性能通⽤⼤语⾔模型。本⼿册 为技术团队提供完整的本地部署指南,涵盖硬件配置、国产芯⽚适配、量化⽅案、云端替代⽅ 案及完整671B MoE模型的Ollama部署⽅法。 核⼼提示: 个⼈⽤户:不建议部署 三、国产芯⽚与硬件适配⽅案 1. 国内⽣态合作伙伴动态 企业 适配内容 性能对标(vs NVIDIA) 华为昇 腾 昇腾910B原⽣⽀持R1全系列,提供端到端推理优化 ⽅案 等效A100(FP16) 沐曦 GPU MXN系列⽀持70B模型BF16推理,显存利⽤率提升 30% 等效RTX 3090 海光 DCU 适配V3/R1模型,性能对标NVIDIA A100 等效A100(BF16) 2. DeepSeek-R1-Q4_K_M 404 GB ≥500 GB ⾼性能服务器/云GPU 下载地址: HuggingFace模型库 Unsloth AI官⽅说明 2. 硬件配置建议 硬件类型 推荐配置 性能表现(短⽂本⽣成) 消费级设备 Mac Studio(192GB统⼀内存) 10+ token/秒 ⾼性能服务器 4×RTX 4090(96GB显存+384GB内存) 7-8 token/秒(混合推理)0 码力 | 7 页 | 932.77 KB | 7 月前3清华大学 普通人如何抓住DeepSeek红利
攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正 式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大 提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAl-o1正式版。 (Pass@1) 通过DeepSeek,个人可以在以下几个方面快速提升自己的工作效率和专业性: 快速响应客户问题: 无需手动查阅多个系统,DeepSeek可以帮助你在几秒钟内找到答案。 提供更专业的建议: DeepSeek的数据分析能力可以帮助你理解客户需求,并提供更有针对性的建议。 减少错误: 自动化回答和信息整合功能,减少了人工错误的可能性。 提升客户满意度: 通过快速、准确的响应,客户会感受到你的专业性和效率,从而提升对你的信任和满意度。 自动提取上周销售数据生成可视化图表框架 调取历史报告模板进行语义重组 ④ 风险预警: 灶台计时器同步手机震动提醒 通勤路况实时监控(若堵车超15分钟触发备用方案) 技术红利: 时间利用率提升40%,晨间压力值降低65%,关键事务完成率100% 情景还原:7:15分,被幼儿园家长群消息惊醒,发现今天轮到自己带班级手工材料。同时想起丈夫出差前嘱咐的干洗店取 衣,冰箱牛奶已空需采购,下午0 码力 | 65 页 | 4.47 MB | 7 月前3
共 11 条
- 1
- 2