4 Python机器学习性能优化_2.jpg) ## model inference optimize · 终于到了我们直觉的优化部分 - 先补了补GPU和Cuda的知识 · 几个可以选择的方案: 1. 买更多更贵的机器——fp16、v100、cpu化 2. 优化算法——知识蒸馏 3. 优化实现——jit/TensorRT ## PyTorch jit ## · 原理介绍 • 转化为graph截图  ## 知识蒸馏 • Teacher Student 学的更快 • Huggingface Distill BERT · 12层 蒸出 6层 。 所以,通俗的来说,在AI system中:要么从原有的知识体系中直接提取信息来使用,要么进行推理。 将知识融合在机器中,使机器能够利用我们人类知识、专家知识解决问题,这就是知识工程(Knowledge Engineering)的核心内涵。 ## Preliminaries ## Explaining AI system system from the perspective of KE – Symbolism ## ● 符号主义的主要观点 认知即计算 • 知识是信息的一种形式,是构成智能的基础 • 知识表示、知识推理、知识运用是人工智能的核心 ● Physical Symbol System - A physical symbol system has the necessary and sufficient MYCIN专家系统中的人工参与部分 ## Major difficulties: ## 1、 知识获取困难 e.g.,领域知识难以表达(形式化),因为它往往是一种隐性知识、过程知识。 ## 2、 知识应用困难 (1)开放性应用易于超出预先设定的知识边界;(2)有的应用需要尝试知识的支撑,而常识知识往往难以定义、表达、表征。 3、很难处理异常情况 e.g., 鸵鸟不会飞 。这意味着:更多需要模型预估的文档,更多的特征,更深层次的模型,更多的模型处理层级,以及更多的业务。在这样的需求背景下,老框 Sentence Prediction,NSP)两个预训练任务,并在更大规模语料上进行预训练,在 11 项自然语言理解任务上刷新了最好指标。BERT 的成功启发了大量后续工作,总结如下: • 融合更多外部知识的百度 ERNIE $ ^{[8]} $ ,清华 ERNIE $ ^{[9]} $ 和 K-BERT $ ^{[10]} $ 等; • 优化预训练目标的 ERNIE 2.0 $ ^{[11]} Fine-tuning 阶段,我们对训练目标进行了优化,使得相关性任务和排序任务目标更加匹配,并进一步将两个任务结合进行联合训练。此外,由于 BERT 模型前向推理比较耗时,难以满足上线要求,我们通过知识蒸馏将 12 层 BERT 模型压缩为符合上线要求的 2 层小模型,且无显著的效果损失。 • 排序模型优化:核心排序模型(本文记为 L2 模型)包括 LambdaDNN[31]、Transforme0 码力 | 317 页 | 16.57 MB | 2 年前3
2022年美团技术年货 合辑美团技术团队精选论文解读 391 CVPR 2022 | 美团技术团队精选论文解读 404 ACM MM & ECCV 2022 | 美团视觉 8 篇论文揭秘内容领域的智能科技 413 前端 知识图谱可视化技术在美团的实践与探索 427 终端新玩法:技术栈无关的剧本式引导 459 自动化测试在美团外卖的实践与落地 483 深入理解函数式编程(上) 512 深入理解函数式编程(下) 未来我们会持续建设和完善 YOLOv6 生态,主要工作包括以下几个方面: 1) 完善 YOLOv6 全系列模型,持续提升检测性能。2) 在多种硬件平台上,设计硬件友好的模型。3) 支持 ARM 平台部署以及量化蒸馏等全链条适配。4) 横向拓展和引入关联技术,如半监督、自监督学习等等。5) 探索 YOLOv6 在更多的未知业务场景上的泛化性能。 同时也欢迎社区同学加入我们,共同建设一个适合工业应用的更快更准的目标检测框架。 YOLOv6 各尺寸模型与其他 YOLO 系列的性能对比图 注:YOLOv6 系列模型均在训练 300 epoch 且不使用预训练模型或额外检测数据集下获得,“ $ ^{*} $ ”表示采用了自蒸馏算法,“ $ ^{*} $ ”表示从官方代码库对发布模型进行重新测评的指标。以上速度指标均在 T4 TRT7.2 环境下测试。 |Method|Input Size|AP^{val}|AP^{val}\_{50}|FPS0 码力 | 1356 页 | 45.90 MB | 2 年前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单2d1a0d1d8addd115233c124fe2a5/p20_5.jpg) • 故事化数据呈现:借助o3mini将数据以故事的形式呈现,增强数据的可读性和吸引力,帮助公众理解复杂的科学和技术知识。 ## 二 要怎么做? ## 撰写文章标题指令 指令:我想让您担任学术期刊编辑,我将向您提供一份手稿摘要,您将向我提供5个好的研究论文英文标题,并解释为什么这个标题是好的。请将输出结果以Mark 指令:我想让你充当一名科研类的英汉翻译,我会向你提供一种语言的一些段落,你的任务是将这些段落准确地、学术性地翻译成另一种语言。翻译后不要重复原文提供的段落。您应使用人工智能工具(如自然语言处理)以及有关有效写作技巧的修辞知识和经验进行回复。我会给你如下段落,请告诉我是用什么语言写的,然后翻译。我希望你能以标记表的形式给出输出结果,其中第一列是原文,第二列是翻译后的句子,每行只给出一个句子 所提供段落的语言是中文,以下是按要求的标记表格式翻译成英文的译文: failure occurred.| ## 改写降重指令 指令:我想让你充当科研写作专家,并提供一些英文或中文段落,你的任务是用原文改写段落。你应该使用人工智能工具(如自然语言处理)、修辞知识和你在有效科学写作技巧方面的专业知识来回答。请只提供改写后的文本,不作任何解释,请用科研语气风格重写下面的文字: I want you to act as an expert in scientific writing0 码力 | 85 页 | 8.31 MB | 1 年前3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502DeepSeek出现之前的十大预判之一 传统AGI发展步伐在放慢 需要寻找新方向 全面超越人类的人工智能在逻辑上不成立 Scaling Law边际效应递减 人类训练数据接近枯竭 合成数据无法创造新知识 推理能力难以泛化,成本高昂 ## DeepSeek出现之前的十大预判 之二 慢思考成为新的发展模式 ➢ 大模型发展范式正在从「预训练」转向「后训练」和「推理时计算」 大模型厂商都在探索慢思考、思维链技术 Deepmind的Alpha系列产品是这一趋势的最佳诠释 ## DeepSeek出现之前的十大预判之四 模型越做越小 大模型进入「轻量化」时代,上车上终端,蒸馏小模型 先做得更大,然后探索能做多小 ## DeepSeek出现之前的十大预判之五 知识的质量和密度决定大模型能力 高质量数据、合成数据使模型知识密度的快速增长 ➢ 大模型能以更少的参数量达到更高的性能 360联合北大研发:5%参数量逼近Deepseek-R1满血性能 ## DeepSeek出现之前的十大预判 之八 智能体推动大模型快速落地 传统软件是辅助人的工具,Agent是能够自主工作的数字员工,是新的生产力 能够调用各种工具,具有行动能力 ➢ 调用企业专业知识,更懂企业 将日常重复性业务流程形成Playbook,实现流程自动化 通过目标拆解,多次调用大模型以及专家模型协同,形成慢思考能力 ## DeepSeek出现之前的十大预判 之九 开源效果追赶上闭源0 码力 | 76 页 | 5.02 MB | 1 年前3
《Efficient Deep Learning Book》[EDL] Chapter 3 - Learning Techniques0 码力 | 56 页 | 18.93 MB | 2 年前3
AI PC 产业(中国)白皮书个人大模型需要具备强大的AI能力,满足用户日益增长的AI需求和任务复杂度。这需要本地、公共大模型互为补充、各有所为。模型终端化的关键是将大模型压缩到适合终端的规模,以便实现本地推理和实时响应。为此,模型蒸馏、压缩等技术变得至关重要。 模型蒸馏通过训练“教师”网络监督“学生”网络进行学习;模型压缩则是通过剪裁、量化等方法对模型进行压缩。这些技术可以减小模型的尺寸和复杂度,同时保留其核心能力,而不会显著牺牲其AI能力。在保 ,在一定程度上进行自主微调,以适应特定的应用场景,提供相对个性化的服务。 无论是企业客户还是个人客户,数据安全和隐私问题都是重中之重。个人大模型还必须消除用户对数据安全和隐私保护的担忧。基于本地的知识库与以本地为主的推理是极致安全的保障。  PC长久以来都是人们最重要的生产力工具和内容消费的计算与交互平台。AI PC不仅承担原有的生产力工具和内容消费载体的职能,更在硬件上集成了混合AI算力单元,且能够本地运行“个人大模型”、创建个性化的本地知识库,实现自然语言交互,这将深刻颠覆传统PC的定义。AI PC是为每个人量身定制的个人AI助理,不仅提高生产效率,简化工作流程,而且更好的掌握用户的喜好,保护个人隐私数据安全。仿佛是用户的数字化拓展,如同用户的智能双胞胎。0 码力 | 54 页 | 4.18 MB | 3 月前3
《Efficient Deep Learning Book》[EDL] Chapter 6 - Advanced Learning Techniques - Technical Review0 码力 | 31 页 | 4.03 MB | 2 年前3
Gemma 4 完全指南 - 从入门到本地部署许可证:Apache2.0 信息来源:Google官方文档·Hugging Face·本地实测 文档版本:v1.0.0 发布时间:2026-04-03(build #0) 花叔 公众号「花叔」·B站「AI进化论-花生」 知识星球「AI编程:从入门到精通」专属内容 本手册基于Google官方博客、Model Card、Hugging Face发布文档及本地实测编写。所有技术细节以2026年4月最新资料为准。AI工具迭代极快,请结合官方文档验证。 8B,往上就是70B,中间存在一个巨大的空白。Gemma227B刚好插进去。 性能提升也确实明显。在多个benchmark上,Gemma227B的表现接近甚至超过了一些70B级别的模型。 Google在技术报告里反复强调的一个词是「知识密度」。 但Gemma2依然只支持纯文本。没有图片理解,没有长上下文,没有工具调用。它更强了,但它的能力边界没有扩展。 2025年3月:Gemma3,开始像个产品了 2025年3月10日,Gemma3发布。这一代的变化是质的。 Embeddings是Gemma 3n引入的技术,在Gemma4的E2B和E4B上继续使用。 传统模型的所有层共享同一套embedding。PLE让不同层可以有不同的embedding表示,等于用更多的参数存储知识,但不增加推理时的计算量。这就是为什么E2B的有效参数是2.3B,但总参数是5.1B。多出来的参数不是浪费,而是让每一层都能更精准地理解输入。 Shared KV Cache:长上下文的效率技巧 处理长文本时,KV0 码力 | 42 页 | 4.85 MB | 1 月前3
共 716 条
- 1
- 2
- 3
- 4
- 5
- 6
- 72













