清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单北京航空航天大学 高研院 助理教 授 清华大学新闻学院与人工智能学 院双聘教授 沈阳团队博士后 何静 能做什么? 要怎么做? 效果如何? 一 能做什么? 数据挖掘 数据分析 数据采集 数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 本质:以多agent实现从数据采集到可视全流程 模型特点 Claude 3.5 sonnet 平衡性能:在模型大小和 性能之间取得平衡,适合 中等规模任务。 多模态支持:支持文本和 图像处理,扩展应用场景。 可解释性:注重模型输出 的可解释性和透明性。 DeepSeek R1 高效推理:专注于低延迟和 高吞吐量,适合实时应用。 轻量化设计:模型结构优化, 资源占用少,适合边缘设备 (如医疗、法律)进行优化, 提供高精度结果。 长文本处理:擅长处理长文本 和复杂文档,适合专业场景。 定制化能力:支持用户自定义 训练和微调,适应特定需求。 Open AI o3 mini 小型化设计:轻量级模型, 适合资源有限的环境。 快速响应:优化推理速度, 适合实时交互场景。 通用性强:适用于多种自 然语言处理任务,如对话 生成和文本理解。 爬虫数据采集0 码力 | 85 页 | 8.31 MB | 8 月前3
开源中国 2023 大模型(LLM)技术报告是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM 在多个领域都取得了令人瞩目的成就。在自然语言处 理领域,GPT 系列模型在文本生成、问答系统和对话生成 等任务中展 (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展,其预训练和微调的 方法为语言任务提供了前所未有的性能,以此为基础,多模态融合的应用使得 LLM 更全面地处理各种 信息,支持更广泛的应用领域。 图源:https://postgresml.org/docs/.gitbook/assets/ml_system.svg 4 / 32 LLM 基础设施 LLM 基础设施:大模型框架及微调 (Fine Tuning) 大模型框架指专门设计用于构建、训练和部署大型机器 学习模型和深度学习模型的软件框架。这些框架提供了 必要的工具和库,使开发者能够更容易地处理大量的数 据、管理巨大的网络参数量,并有效地利用硬件资源。 微调(Fine Tuning)是在大模型框架基础上进行的一个 关键步骤。在模型经过初步的大规模预训练后,微调是 用较小、特定领域的数据集对模型进行后续训练,以使0 码力 | 32 页 | 13.09 MB | 1 年前3
国家人工智能产业综合标准化体系建设指南(2024版)协同任务的交互协议、执行效率和协同性能等标准。 (三)关键技术标准 关键技术标准主要包括机器学习、知识图谱、大模型、自然 语言处理、智能语音、计算机视觉、生物特征识别、人机混合增 强智能、智能体、群体智能、跨媒体智能、具身智能等标准。 1. 机器学习标准。规范机器学习的训练数据、数据预处理、 模型表达和格式、模型效果评价等,包括自监督学习、无监督学 习、半监督学习、深度学习、强化学习等标准。 2. 术要求,包括大模型通用技术要求、评测指标与方法、服务能力 成熟度评估、生成内容评价等标准。 4. 自然语言处理标准。规范自然语言处理中语言信息提取、 文本处理、语义处理等方面的技术要求和评测方法,包括语法分 析、语义理解、语义表达、机器翻译、自动摘要、自动问答、语 言大模型等标准。 5. 智能语音标准。规范前端处理、语音处理、语音接口、 数据资源等技术要求和评测方法,包括深度合成的鉴伪方法、全 双工交互、语音大模型等标准。 双工交互、语音大模型等标准。 6. 计算机视觉标准。规范图像获取、图像/视频处理、图像 内容分析、三维计算机视觉、计算摄影学、跨媒体融合等技术要 求和评价方法,包括功能、性能、可维护性等标准。 7. 生物特征识别标准。规范生物特征样本处理、生物特征 数据协议、设备或系统等技术要求,包括生物特征数据交换格式、 接口协议等标准。 8. 人机混合增强智能标准。规范多通道、多模式和多维度 的交互0 码力 | 13 页 | 701.84 KB | 1 年前3
清华大学 普通人如何抓住DeepSeek红利I)的中国科技公司,主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正 式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大 提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAl-o1正式版。 (Pass@1) 多模态交互 任务执行 任务协调 工具调用 格式转换 关系抽取 语言理解 文案写作 代码注释 故事创作 通用问答 专业领域问答 因果推理 知识推理 问答系统 逻辑推理 自然语言处理 文本生成与创作 建议生成 风险评估 辅助决策 概念关联 知识整合 交互能力 情感分析 文本分类 图像理解 跨模态转换 专业建议 任务分解 情感回应 上下文理解 对话能力 情感分析(评论、反馈) • 意图识别(客服对话、用户查 询) • 实体提取(人名、地点、事件) 知识推理 • 知识推理 • 逻辑问题解答(数学、常识 推 理 ) • 因果分析(事件关联性) 自然语言理解与分析 文本分类 • 文本分类 • 主题标签生成(如新闻分 类) • 垃圾内容检测 Mermaid图表 · 流程图 · 时序图 · 类图 · 状态图 · 实体关系图 · 思维导图0 码力 | 65 页 | 4.47 MB | 8 月前3
DeepSeek图解10页PDF生了大型语言模型((Large Language Model, LLM))的兴起。LLM 在自然语言处理(NLP)领域 发挥着越来越重要的作用,广泛应用于智能问答、文本生成、代码编写、机 器翻译等任务。LLM 是一种基于深度学习的人工智能模型,其核心目标是 通过预测下一个单词来理解和生成自然语言。训练 LLM 需要大量的文本数 据,使其能够掌握复杂的语言模式并应用于不同任务。 接下来,咱们先从较为基础的概念开始。 Group)训练的模型在本质上存在一些重要区别。主要区别之一,大模型更 加通用,这是因为它们基于大量多样化的数据集进行训练,涵盖了不同领域 和任务的数据。这种广泛的学习使得大模型具备了较强的知识迁移能力和 多任务处理能力,从而展现出“无所不知、无所不晓”的特性。相比之下, 我们基于单一数据集训练的模型通常具有较强的针对性,但其知识范围仅 限于该数据集的领域或问题。因此,这类模型的应用范围较为局限,通常只 能解决特定领域或单一任务的问题。 元化,模型最后就会越通用;即使包括噪声数据,模型仍能通过扩展规律提 取出通用的知识。而 Transformer 这种架构正好完美做到了 Scaling Laws, Transformer 就是自然语言处理领域实现扩展规律的最好的网络结构。 2.2 Transformer 基础架构 LLM 依赖于 2017 年 Google 提出的 Transformer 模型,该架构相比传统的 RNN(递归神经网络)和0 码力 | 11 页 | 2.64 MB | 8 月前3
普通人学AI指南的研发目标是创造出可以广泛地模拟人类认知能力的智 能系统。 1.3 大模型 大模型通常指的是大规模的人工智能模型,这类模型通过训练大量的数据来获 得广泛的知识和能力。这些模型通常具有庞大的参数数量,能够处理复杂的任 务,如自然语言理解、图像识别、语音识别等。 闭源大模型包括 OpenAI 的 GPT 系列和 Google 的 BERT。这些模型因其 高效的学习能力和强大的通用性而受到关注。 开源大模型以 Meta 1.4.1 上下文窗口 上下文窗口指的是模型一次可以处理的最大文本长度。这个长度通常用“to- kens”(标记)来表示,每个标记可以是一个单词、子词或单个字符,具体取决 于编码方式。 上下文窗口大小决定了模型在回答问题或生成文本时可以利用的上下文范 围。窗口越大,模型就能处理越长的上下文,对理解长文本内容非常重要。 较大的窗口允许模型处理更长的文本片段,从而提高在长文本任务中的表 现,如长篇对话、文档生成和分析等。 70B,Phi-3-mini 有 3.8B 参数等。 T(万亿,Trillion):在英文里是 Trillion 的缩写,表示万亿。在 AI 大模型 中,”T” 常用来表示模型在训练中处理的 Token 数量。Token 是指模型处理的 基本单元,可以是一个单词、子词,或者字符等。 在大规模预训练语言模型的训练中,通常会提到模型是在多少个 Token 上 进行学习的,以表明模型的训练规模和数据量。例如:LLaMA30 码力 | 42 页 | 8.39 MB | 8 月前3
DeepSeek从入门到精通(20250204)国产 + 免费 + 开源 + 强大 • DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应 用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。 Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景, 支持联网搜索与深度思考模式,同时支持文件上 营销文案、广告语生成 社交媒体内容(如推文、帖子) 剧本或对话设计 文本创作 长文本摘要(论文、报告) 文本简化(降低复杂度) 多语言翻译与本地化 摘要与改写 02 01 03 文本生成 自然语言理解与分析 知识推理 知识推理 逻辑问题解答(数学、常识推 理) 因果分析(事件关联性) 语义分析 语义解析 情感分析(评论、反馈) 意图识别(客服对话、用户查询) 实体提取(人名、地点、事件) 实体提取(人名、地点、事件) 文本分类 文本分类 主题标签生成(如新闻分类) 垃圾内容检测 编程与代码相关 代码调试 • 错 误 分 析 与 修 复 建议 • 代 码 性 能 优 化 提 示 技术文档处理 • API文档生成 • 代码库解释与示 例生成 代码生成 • 根 据 需 求 生 成 代 码片段(Python、 JavaScript) • 自 动 补 全 与 注 释 生成 常规绘图0 码力 | 104 页 | 5.37 MB | 8 月前3
清华大学 DeepSeek 从入门到精通国产 + 免费 + 开源 + 强大 • DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应 用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。 Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景, 支持联网搜索与深度思考模式,同时支持文件上 营销文案、广告语生成 社交媒体内容(如推文、帖子) 剧本或对话设计 文本创作 长文本摘要(论文、报告) 文本简化(降低复杂度) 多语言翻译与本地化 摘要与改写 02 01 03 文本生成 自然语言理解与分析 知识推理 知识推理 逻辑问题解答(数学、常识推 理) 因果分析(事件关联性) 语义分析 语义解析 情感分析(评论、反馈) 意图识别(客服对话、用户查询) 实体提取(人名、地点、事件) 实体提取(人名、地点、事件) 文本分类 文本分类 主题标签生成(如新闻分类) 垃圾内容检测 编程与代码相关 代码调试 • 错 误 分 析 与 修 复 建议 • 代 码 性 能 优 化 提 示 技术文档处理 • API文档生成 • 代码库解释与示 例生成 代码生成 • 根 据 需 求 生 成 代 码片段(Python、 JavaScript) • 自 动 补 全 与 注 释 生成 常规绘图0 码力 | 103 页 | 5.40 MB | 9 月前3
清华大学第二弹:DeepSeek赋能职场文、图、乐、剧 Innovator For Social 智能角色交互体 Innovator For Science & Industry 行业大模型 基座大模型 人机协同 Chatbot •自然语言对话 Reasoner •基本的推理和问 题解决能力 Agent •代表用户执行任 务,具备自主行 动能力 Innovator • 参与发明和创造, 增强人类的创造力 和创新能力 Organization 2021全球人工智能技术创新大赛-小布助手对话短文本语义匹配 一等奖 2022全球人工智能技术创新大赛-商品标题实体识别 一等奖 第十八届中国计算语言学大会-小牛杯中文幽默计算 一等奖 第十届全国社会媒体处理大会-中文隐式情感分析 一等奖 2021全球开放数据应用创新大赛-基于文本挖掘的企业隐患排查质量分析模型 第一名 2021中国计算机学会大数据与计算智能大赛-“千言〞 问题匹配鲁棒性评测 第一名 •决策权限 约束层: 3. 边界系统 (Boundary System) •伦理规范 •安全限制 •资源约束 操作层: 4. 工作引擎 (Operation Engine) •输入处理 •执行流程 •输出规范 如何使用DeepSeek制作可视化图表? 如何使用DeepSeek制作可视化图表? 角色: Mermaid图表代码生成器 功能: 根据用户提供的流程或架构描0 码力 | 35 页 | 9.78 MB | 8 月前3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502专家经验模型( 专业模型训练) 业务流程自动化( A g e n t框架) 组织协同( 工作流) 人机交互 赋能个人和 企业员工 生产力提升 多模态 能力 3 图片理解和处理 视频理解和处理 音频理解和处理 非结构化文档处理 47政企、创业者必读 DeepSeek能力很强大 个人使用绰绰有余 但要在政府、企业应用需要和场景结合 大模型要藏在产品后面 客户要的不是电动机,是「刮胡刀」「吹风机」 钢包挂钩挂实确认 • 中间包长水口区域 钢水裸露状态和渣 壳状态识别 • 铸胚编号识别 • 连铸漏钢及纵裂纹 预报 • 带材制品板坯号自 动识别 • 实时定位 • 转炉炼钢一次除尘 风机振幅故障分与 处理 • 连铸浇次计划优化 算法 • ·连铸过程多场耦 合 • 加热炉火焰识别 • 加热炉前字符识别自动核料 • 加热炉内字符识别自动核料 • 中厚板冷床钢板自动识别 & 排布 • 棒材板坯识別 中鑫联云商平台风险控制 场景选择示例——钢铁大模型 57政企、创业者必读 有了场景之后,只有DeepSeek还不够 大模型就像培养器中的大脑 会理解、能问答、能生成,但是没有记忆能力,不会使用工具, 不能处理复杂流程,无法下地干活儿 通用大模型不了解企业内部业务情况、行业情况 58政企、创业者必读 知识管理是大模型更 懂企业的基础 59 解决企业应用,需要打造专业大模型 要解决四个关键基础0 码力 | 76 页 | 5.02 MB | 6 月前3
共 13 条
- 1
- 2













