主动学习 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

DeepSeek从入门到精通(20250204)

例如：DeepSeek-R1，GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。推理大模型：推理大模型是指能够在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训缺乏迭代陷阱：期待一次性完美结果陷阱症状： ▪ 过度复杂的初始提示语 ▪ 对初次输出结果不满意就放弃 ▪ 缺乏对AI输出的分析和反馈应对策略： ▪ 采用增量方法：从基础提示语开始，逐步添加细节和要求。 ▪ 主动寻求反馈：要求AI对其输出进行自我评估，并提供改进建议。 ▪ 准备多轮对话：设计一系列后续问题，用于澄清和改进初始输出。过度指令和模糊指令陷阱：当细节淹没重点或意图不明确陷阱症状： ▪ 提示语异常冗长或过于简短（1）输入概念： • 社交媒体：即时性、互动性、个性化、病毒传播 • 传统图书馆：知识储备、系统分类、安静学习、专业指导（2）共同特征： • 信息存储和检索 • 用户群体链接 • 知识分享（3）融合点： • 实时知识互动 • 知识深度社交网络 • 数字化图书馆员服务 • 个性化学习路径输入空间定义明确要融合的两个或多个概念领域通用空间识别找出输入空间之间的共同特征选择性投射

0 码力 | 104 页 | 5.37 MB | 8 月前
3
Moonshot AI 介绍

ormer-XL和XLNet两篇重要论⽂的第⼀作者；两位联合创始⼈周昕宇和吴育昕都有10000+的GoogleScholar引⽤。 b. 团队成员囊括NLP,CV,RL（强化学习）,Infra⽅⾯新⽣代⼈才，主导了很多有世界影响⼒的⼯作，吸引了来⾃Google、Meta、Amazon等全球领先科技公司的海外⼈才加⼊： i. ⼤模型⽅⾯。团队成员发明了RoPE相对位本性能逼近全监督学习的⾼效对⻬⽅法。 ii. 视觉⽅⾯。团队成员发明了MoCo，引爆了基于对⽐学习的视觉预训练范式，也是过去三年 CVPR引⽤量最⾼的⼯作；发明了ShuffleNet，最⾼效的视觉⽹络结构之⼀；主导开发了 detectron2，⼀个被⼴泛使⽤的视觉开源项⽬并被集成到Meta全线VR/AR产品中。 iii. 强化学习⽅⾯。团队成员作为⼀作提出了基于关系学习的少样本⽅法，得到斯坦福⼤学、 Google、MIT、Amazon等团队的使⽤和扩展，并获得过OpenAIRL联创及负责⼈John Schulman亲⾃邀请加盟。 iv. 基础设施⽅⾯。团队核⼼成员曾带领数⼗⼈从零开发世界领先的深度学习框架，也具备数千卡集群全⾃动化硬件运维告警、数百亿特征检索、⼤规模（数⼗PB数据、百万台机器）分布式系统数量级性能优化的经验。 c. ⽬前团队⼈数超过80⼈，每个⽉都有在全球某个领域有显著影响⼒的⼈加⼊。

0 码力 | 74 页 | 1.64 MB | 1 年前
3
清华大学普通人如何抓住DeepSeek红利

普通人如何抓住DeepSeek红利 p Deepseek是什么？ p Deepseek能够做什么？ ——在工作、学习、生活和社会关系中解决问题 p 如何提问？让AI一次性生成你想要的东西卷不动了？DeepSeek帮你一键“躺赢”！学习太难？DeepSeek带你“开挂”逆袭！生活太累？DeepSeek帮你“减负”到家！社交障碍？DeepSeek教你“高情商”破局！，主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩OpenAl-o1正式版。 (Pass@1) 导致的误解和错误。通过DeepSeek的数据分析功能，新员工可以更深入地理解行业动态和公司运营，做出更明智的决策。成本更低：减少了对培训资源的依赖，新员工可以通过DeepSeek 自主学习，降低培训成本。通过提高工作效率，减少了人力资源的浪费，降低了整体运营成本。场景3：日常客户沟通与问题反馈处理常见问题：与甲方客户的沟通效率低，信息不对称，导致响应不及时或错误场景：

0 码力 | 65 页 | 4.47 MB | 8 月前
3
清华大学 DeepSeek 从入门到精通

例如：DeepSeek-R1，GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。推理大模型：推理大模型是指能够在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训缺乏迭代陷阱：期待一次性完美结果陷阱症状： ▪ 过度复杂的初始提示语 ▪ 对初次输出结果不满意就放弃 ▪ 缺乏对AI输出的分析和反馈应对策略： ▪ 采用增量方法：从基础提示语开始，逐步添加细节和要求。 ▪ 主动寻求反馈：要求AI对其输出进行自我评估，并提供改进建议。 ▪ 准备多轮对话：设计一系列后续问题，用于澄清和改进初始输出。过度指令和模糊指令陷阱：当细节淹没重点或意图不明确陷阱症状： ▪ 提示语异常冗长或过于简短（1）输入概念： • 社交媒体：即时性、互动性、个性化、病毒传播 • 传统图书馆：知识储备、系统分类、安静学习、专业指导（2）共同特征： • 信息存储和检索 • 用户群体链接 • 知识分享（3）融合点： • 实时知识互动 • 知识深度社交网络 • 数字化图书馆员服务 • 个性化学习路径输入空间定义明确要融合的两个或多个概念领域通用空间识别找出输入空间之间的共同特征选择性投射

0 码力 | 103 页 | 5.40 MB | 9 月前
3
网易数帆领先的数字化转型技术与服务提供商 2021

、零售大数据、制造业智慧供应链等行业解决方案。发布轻舟低代码平台 2.0 。大数据开源项目 Kyuubi 全票进入 Apache 软件基金会孵化器。有数 BI 个人版永久免费；发布机器学习平台、消费者运营平台、标签画像、流量分析等产品。 2020 2021 发布轻舟云原生软件生产力平台、有数全链路数据生产力平台。网易云品牌升级为网易数帆，发力数字化转型基础软件。深度参与社区实时数据传输运维中心离线开发平台实时计算平台集群运维任务运维文件管理任务开发租户管理自助分析权限管理可视化调度数据开发及管理平台标签画像消费者运营平台机器学习平台 BI 有数优势有数全链路数据生产力平台2.0能力全景图易用覆盖企业数据全链路的大数据产品，全面降低数据使用门槛。开放专注大数据技术领域，核心技术自主可控，支持多云和跨 Apache Flink 构建的高性能、一站式实时大数据处理方案，广泛适用于流式数据处理场景。有数实时计算平台一站式、低门槛分析建模平台，帮助客户更快、更便捷、更智能地挖掘数据价值。有数机器学习平台 19 产品能力产品能力全渠道数据融合支持多渠道数据整合，可灵活对接主流社交平台、品牌内部系统等数据源，为消费者运营平台奠定数据资产基础。消费者精准洞察基于敏捷标签应用体系及业

0 码力 | 43 页 | 884.64 KB | 1 年前
3
2023 中国开源开发者报告

发展的新阶段。LLM Agent 是一种基于 LLM 的智能代理，它能够自主学习和执行任务，具有一定的“认知能力和决策能力”。LLM Agent 的出现，标志着 LLM 从传统的模型训练和应用模式，转向以 Agent 为中心的智能化模式。LLM Agent 打破了传统 LLM 的被动性，使 LLM 能够主动学习和执行任务，从而提高了 LLM 的应用范围和价值；它为 LLM 的智能化发展提供了新的方向，快速迭代发展，诸如 Dify.AI 的 LLMOps、Milvus 的向量数据库、CodeGeeX 与 Comate 的 AI 编程、对 LLM Prompt 的研究、OneFlow 的深度学习框架。值得一提的还有华为的盘古大模型，其中盘古气象大模型是首个精度超过传统数值预报方法的 AI 模型，速度相比传统数值预报提速 10000 倍以上，能够提供全球气象秒级预报。盘古大模 GPT-2和GPT-3模型开发的前研究人员组建，专注于开发通用 AI 系统和语言模型，并秉持负责任的 AI 使用理念。李彦宏称：“无论是哪家公司，都不可能靠突击几个月就能做出这样的大语言模型。深度学习、自然语言处理，需要多年的坚持和积累，没法速成。” 长度是 Llama 1 的 2 倍，并采用了分组查询注意力机制。具体来说，Llama 2 预训练模型是在 2 万亿的 token 上训练的，微调

0 码力 | 87 页 | 31.99 MB | 1 年前
3
2024 中国开源开发者报告

Insight 2024 中国开源开发者报告重点聚焦大模型，本章节以大模型 LLM 开发技术栈作为切入点，将深入探讨以下中国 AI 大模型领域的代表性开源项目社区。这些开源项目社区覆盖了深度学习框架、向量数据库、AI辅助编程、LLM 应用开发框架、模型微调、推理优化、LLM Agent，以及检索增强生成（RAG）等多个关键技术栈。为了更全面客观地展示中国大模型 LLM 开发技术栈的开源通个人用户。OpenAI 在 ChatGPT 上一个重要且成功的操作就是把大模型从学术界、工业界直接推向了普通个体，让 C 端用户切实感受到了大模型的可能性与魅力。这一点被国内的大模型厂商广泛学习。在 B 站刷视频，国内知名的那几个大模型厂商的广告，你一个也不会落下。受到大家的认可与喜爱固然重要，但对于 C 端用户，有两个需要时刻牢记的问题：一是 C 端用户是没有忠诚度的，谁免费就云服务的接口是非常简单的，高度一致的。在这种情况下，如果开发者构建的大模型应用只是调用大模型的 API，那么大模型应用与某个具体的大模型之间很难形成强绑定。也就是说，面对各种大模型云服务，主动权在开发者这里。与之相对，开源的方法至少可以相当程度地省去为了拓展开发者生态而付出的大模型运行成本。开发者免费下载大模型以后，会在自己的计算机资源上进行大模型应用的开发和调试。大模型厂商

0 码力 | 111 页 | 11.44 MB | 9 月前
3
开源中国 2023 大模型(LLM)技术报告

LLM 技术报告大语言模型（LLM）技术作为人工智能领域的一项重要创新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统，专门设计来理解、生成和回应自然语言。这些模型通过分析大量的文本数据来学习语言的结构和用法，从而能够执行各种语言相关任务。以 GPT 系列为代表，LLM 以其在自然语言处理领域的卓越表现，成为推动语言理解、生成和应用的引擎。 LLM tructure- vector-database/） 7 / 32 LLM 基础设施：大模型框架及微调 (Fine Tuning) 大模型框架指专门设计用于构建、训练和部署大型机器学习模型和深度学习模型的软件框架。这些框架提供了必要的工具和库，使开发者能够更容易地处理大量的数据、管理巨大的网络参数量，并有效地利用硬件资源。微调（Fine Tuning）是在大模型框架基础上进行的一个：为了处理大型数据集和大规模参数网络，这些框架通常设计得易于水平扩展，支持在多个处理器或多个服务器上并行处理。：它们提供工具来有效地加载、处理和迭代大型数据集，这对于训练大型模型尤为重要。国产深度学习框架 OneFlow 架构（图源：https://www.oneflow.org/a/chanpin/oneflow/） 9 / 32 LLM 基础设施：大模型框架及微调 (Fine Tuning)

0 码力 | 32 页 | 13.09 MB | 1 年前
3
国家人工智能产业综合标准化体系建设指南（2024版）

产模式和经济发展形态，将对加快建设制造强国、网络强国和数字中国发挥重要的支撑作用。人工智能产业链包括基础层、框架层、模型层、应用层等 4 个部分。其中，基础层主要包括算力、算法和数据，框架层主要是指用于模型开发的深度学习框架和工具，模型层主要是指大模型等技术和产品，应用层主要是指人工智能技术在行业场景的应用。近年来，我国人工智能产业在技术创新、产品创造和行业应用等方面实现快速发展，形成庞大市场规模。伴随以大模型为代（三）关键技术标准关键技术标准主要包括机器学习、知识图谱、大模型、自然语言处理、智能语音、计算机视觉、生物特征识别、人机混合增强智能、智能体、群体智能、跨媒体智能、具身智能等标准。 1. 机器学习标准。规范机器学习的训练数据、数据预处理、模型表达和格式、模型效果评价等，包括自监督学习、无监督学习、半监督学习、深度学习、强化学习等标准。 2. 知识图谱标准。规范知识图谱的描述、构建、运维、共识演化、动态自适应、动态识别、人机协同感知、人机协同决策与控制等标准。 9. 智能体标准。规范以通用大模型为核心的智能体实例和 10 智能体基本功能、应用架构等技术要求，包括智能体强化学习、多任务分解、推理、提示词工程，智能体数据接口和参数范围，人机协作、智能体自主操作、多智能体分布式一致性等标准。 10. 群体智能标准。规范群体智能算法的控制、编队、感知、规划、决策、

0 码力 | 13 页 | 701.84 KB | 1 年前
3
清华大学第二弹：DeepSeek赋能职场

Lab - PII Data Detecti on 金牌金山办公2024中文文本智能校对大赛第二名 2024 法研杯法律要素争议焦点识别第二名 AFAC2024金融智能创新大赛金融工具学习三等奖 Googl e kaggl e全球专利文件短语相似性匹配金牌 Googl e kaggl e全球自动问答比赛金牌 Googl e kaggl e全球医疗对话理解金牌 2021 （结果可预期）目标开放性高（结果多样性） Route （路径灵活性）线性路径（流程标准化）网状路径（多路径探索） Responsiveness （响应模式）被动适配（按规则执行）主动创新（自主决策） Risk （风险特征）低风险（稳定可控）高风险（不确定性高）（限定于文本生成任务） DeepSeek 两种模型对比 V3 R1 DeepSeek 两种模型对比

0 码力 | 35 页 | 9.78 MB | 8 月前
3

共 149 条前往

页

分类

语言

格式