国家人工智能产业综合标准化体系建设指南(2024版)8 等基础设施的技术要求和评估方法,包括基础设施参考架构、计 算能力评估、技术要求、稳定性要求和业务服务接口等标准。 6. 系统软件标准。规范人工智能系统层的软硬件技术要求, 包括软硬件编译器架构和优化方法、人工智能算子库、芯片软件 运行时库及调试工具、人工智能软硬件平台计算性能等标准。 7. 开发框架标准。规范人工智能开发框架相关的技术要求, 包括开发框架的功能要求,与应用系统之间的接口协议、神经网 1. 智能机器人标准。规范人工智能在机器人领域应用的技 术要求,包括机器人智能认知、智能决策等标准。 2. 智能运载工具标准。规范智能运载工具感知、识别与预 判、协同与博弈、决策与控制、评价等技术要求,包括环境融合 感知、智能识别预判、智能决策控制、多模式测试评价等标准。 3. 智能移动终端标准。规范人工智能应用在移动终端领域 的技术要求,包括图像识别、人脸识别、智能语音交互,以及智0 码力 | 13 页 | 701.84 KB | 1 年前3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502我们对大模型发展趋势的十大预判 13政企、创业者必读 14 DeepSeek出现之前的十大预判 之一 传统AGI发展步伐在放慢 需要寻找新方向 Scaling Law边际效应递减 人类训练数据接近枯竭 合成数据无法创造新知识 推理能力难以泛化,成本高昂 全面超越人类的人工智能在逻辑上不成立政企、创业者必读 15 DeepSeek出现之前的十大预判 之二 慢思考成为新的发展模式 大模型发展范式正在从「预训练」转向「后训练」和「推理时计算」 大模型厂商都在探索慢思考、思维链技术政企、创业者必读 DeepSeek出现之前的十大预判 之三 模型越做越专 除了少数科技巨头,大多数公司都专注于做专业大模型 MoE架构盛行,本质是多个专家模型组成一个大模型 Deepmind的Alpha系列产品是这一趋势的最佳诠释 16政企、创业者必读 DeepSeek出现之前的十大预判 之四 先做得更大,然后探索能做多小政企、创业者必读 DeepSeek出现之前的十大预判 之五 知识的质量和密度决定大模型能力 高质量数据、合成数据使模型知识密度的快速增长 大模型能以更少的参数量达到更高的性能 360联合北大研发:5%参数量逼近Deepseek-R1满血性能 18政企、创业者必读 DeepSeek出现之前的十大预判 之六 成本越来越低 过去一年,大模型成本「自由落体」 0 码力 | 76 页 | 5.02 MB | 6 月前3
开源中国 2023 大模型(LLM)技术报告/ 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心,随着大规模语言数据集的可用性和计算能 力的提升,研究者们开始设计更大规模的神经网络,以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展,其预训练和微调的 方法为语言任务提供了前所未有的性能,以此为基础,多模态融合的应用使得 必要的工具和库,使开发者能够更容易地处理大量的数 据、管理巨大的网络参数量,并有效地利用硬件资源。 微调(Fine Tuning)是在大模型框架基础上进行的一个 关键步骤。在模型经过初步的大规模预训练后,微调是 用较小、特定领域的数据集对模型进行后续训练,以使 其更好地适应特定的任务或应用场景。这一步骤使得通 用的大型模型能够在特定任务上表现出更高的精度和更 好的效果。 大模型框架提供了 LLM 基础设施:大模型框架及微调 (Fine Tuning) 想要微调一个模型,一般包含以下关键步骤: 1.选择预训练模型:选取一个已经在大量数据上进 行过预训练的模型作为起点; 2.准备任务特定数据:收集与目标任务直接相关的 数据集,这些数据将用于微调模型; 3.微调训练:在任务特定数据上训练预训练的模型, 调整模型参数以适应特定任务; 4.评估:在验证集上评估模型性能,确保模型对新 数据有良好的泛化能力;0 码力 | 32 页 | 13.09 MB | 1 年前3
普通人学AI指南Trillion 的缩写,表示万亿。在 AI 大模型 中,”T” 常用来表示模型在训练中处理的 Token 数量。Token 是指模型处理的 基本单元,可以是一个单词、子词,或者字符等。 在大规模预训练语言模型的训练中,通常会提到模型是在多少个 Token 上 进行学习的,以表明模型的训练规模和数据量。例如:LLaMA3 语言模型使用 了超过 15T 个 token 进行训练。 2 AI 工具梳理 公司开发的一系列大型语言模型,它设计用于执行多种涉 及语言、推理、分析和编码的任务。 2.1.3 通义千问 通义千问(Qwen)是阿里云开发的一系列预训练的大型语言模型,用于聊天、 生成内容、提取信息、总结、翻译、编码、解决数学问题等多种任务。这些模型 在多种语言数据上进行预训练,包括中文和英文,覆盖广泛的领域。 2.2 图像 Figure 4: AI 图像工具 7 2.2.1 物体擦除 IOPaint 零代码本地部署 AI 后端 首先介绍一种最精简的本地部署大模型的方法。使用目前最强开源大模型 LlaMA3,2024 年 4 月 19 日,Meta 公司发布,共有 8B,70B 两种参数,分 为基础预训练和指令微调两种模型。 与 Llama2 相比,Llama3 使用了 15T tokens 的训练数据,在推理、数学、 代码生成、指令跟踪等能力获得大幅度提升。 3.1 大模型 Llama3 30 码力 | 42 页 | 8.39 MB | 8 月前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单知网研学平台 斯坦福STORM 数据来源 依托真实且可靠的学术数据库, 确保文献数据的准确性与可信 度,为综述内容的真实性提供 坚实保障 涵盖全球科技论文、专利文献、 科学数据、学位论文、预印本、 图书专著及开放资源 中国知网数据库,涵盖海量的 中文文献 通过必应搜索引擎收集数据, 确保来源的广泛性,但主要依 赖互联网主流来源,可能包含 推广内容,需进一步筛选和验 证 文本类型 深 化 , 如 通 过 流 程 优 化 , 提 高 诊 断 的 准 确 性 和 效 率 。 通 过 与 医 疗 设 备 的 结 合 , 实 现 更 精 准 的 医 学 影 像 分 析 和 疾 病 预 测 。 金融领域 未 来 , D e e p S e e k 可 能 会 进 一 步 拓 展 到 金 融 风 险 防 控 、 智 能 投 顾 、 金 融 产 品 创 新 等 领 域 , 通 过 法律领域 D e e p S e e k 在 法 律 文 书 处 理 方 面 已 经 具 备 一 定 的 能 力 。 未 来 , 其 有 望 进 一 步 拓 展 到 法 律 咨 询 、 案 件 预 测 、 法 律 知 识 图 谱 构 建 等 领 域 , 为 法 律 专 业 人 士 和 普 通 用 户 提 供 更 便 捷 、 高 效 的 法 律 服 务 。 工业领域 D e e p S e0 码力 | 85 页 | 8.31 MB | 8 月前3
DeepSeek图解10页PDF. . . . . . . . . . . . 6 2.3 LLM 基本训练方法 . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3.1 预训练(Pretraining) . . . . . . . . . . . . . . . . . . 7 2.3.2 监督微调(Supervised Fine-Tuning, SFT) . . . 基本训练方法 2.3.1 预训练(Pretraining) LLM 训练通常采用大规模无监督学习,即:1. 从互联网上收集大量文本数 据,如书籍、新闻、社交媒体等。2. 让模型学习词语之间的概率分布,理解 句子结构。3. 训练目标是最小化预测误差,使其能更好地完成语言任务。 2.3.2 监督微调(Supervised Fine-Tuning, SFT) 在预训练之后,通常需要对模型进行监督微调(SFT):使用人工标注的数0 码力 | 11 页 | 2.64 MB | 8 月前3
清华大学 普通人如何抓住DeepSeek红利强化共情:增加“我知道现在项目关键期,非常抱歉给您添麻烦”。 • 弱化模糊表述:将“家里有事”改为“家人突发重病需陪护”,避免领导误解为小事。 • 明确行动:补充“请假期间可随时联系我处理紧急问题”。 3. 预判领导反应并准备预案(用AI模拟问答) p 操作:输入:“如果领导说‘项目缺了你不行,能不能缩短假期?’如何回应?” p AI建议回应: • 共情+底线+替代方案: “我完全理解项目的重要性,但家人目 它执行什么任务。 • 上下文 (Context): 为Al提供背景信息,帮助它更准确地理 解和执行任务 。 • 期望 (Expectation): 明确或隐含地表达你对Al输出的要求 和 预 期 。 指令 (任务描述) 输入 (具体数据) 上下文 (背景信息) 输 出 格 式 (期望结果形式) 生成输出 根据提示语生成相应的回答或完成特定任务 提示语组成部分 还要不要学提示语0 码力 | 65 页 | 4.47 MB | 8 月前3
TVM工具组绝赞招聘中 TVM CAFFE 前端 2019·11·16绝赞招聘中 TVM 在平头哥 • 工具链产品 平头哥芯片平台发布的配套软件中, TVM 是工具链产品的重要组成部分: 负责将预训练好的 caffe 或者 tensorflow 的模型,转换到 LLVM IR,最后生成可以在无剑 SoC 平台上 执行的二进制。绝赞招聘中 为何添加 caffe 前端? 客户需求 评估0 码力 | 6 页 | 326.80 KB | 6 月前3
DeepSeek从入门到精通(20250204)利益相关者沟通计划(1800字内):设计一个定期向各利益相关者(如高管、 合作伙伴、媒体)汇报项目进展的机制。指明沟通频率、方式和关键信息点。 11. 应急预案(1000字内):为2—3个可能的重大意外情况(如重要环节延期、预 算超支、负面舆情等)制定详细的应急预案。包括触发条件、响应流程和补救措施。 12. 执行后评估机制(700字内):设计一个项目后评估框架,包括效果评估、经 验总结和持续优化建议。指明评估的时间点和主要维度。0 码力 | 104 页 | 5.37 MB | 8 月前3
清华大学 DeepSeek 从入门到精通利益相关者沟通计划(1800字内):设计一个定期向各利益相关者(如高管、 合作伙伴、媒体)汇报项目进展的机制。指明沟通频率、方式和关键信息点。 11. 应急预案(1000字内):为2—3个可能的重大意外情况(如重要环节延期、预 算超支、负面舆情等)制定详细的应急预案。包括触发条件、响应流程和补救措施。 12. 执行后评估机制(700字内):设计一个项目后评估框架,包括效果评估、经 验总结和持续优化建议。指明评估的时间点和主要维度。0 码力 | 103 页 | 5.40 MB | 9 月前3
共 10 条
- 1













