-
0 码力 |
31 页 |
4.03 MB
| 2 年前 3
-
optimize
· 终于到了我们直觉的优化部分
- 先补了补GPU和Cuda的知识
· 几个可以选择的方案:
1. 买更多更贵的机器——fp16、v100、cpu化
2. 优化算法——知识蒸馏
3. 优化实现——jit/TensorRT
## PyTorch jit
## · 原理介绍
• 转化为graph截图


## 知识蒸馏
• Teacher Student 学的更快
• Huggingface Distill BERT
· 12层 蒸出 6层
 完善 YOLOv6 全系列模型,持续提升检测性能。2) 在多种硬件平台上,设计硬件友好的模型。3) 支持 ARM 平台部署以及量化蒸馏等全链条适配。4) 横向拓展和引入关联技术,如半监督、自监督学习等等。5) 探索 YOLOv6 在更多的未知业务场景上的泛化性能。
同时也欢迎社区同学加入我们,共同建设一个适合工业应用的更快更准的目标检测框架。 YOLOv6 各尺寸模型与其他 YOLO 系列的性能对比图
注:YOLOv6 系列模型均在训练 300 epoch 且不使用预训练模型或额外检测数据集下获得,“ $ ^{*} $ ”表示采用了自蒸馏算法,“ $ ^{*} $ ”表示从官方代码库对发布模型进行重新测评的指标。以上速度指标均在 T4 TRT7.2 环境下测试。
|Method|Input Size|AP^{val}|AP^{val}\_{50}|FPS YOLOv6 各尺寸模型与其他 YOLO 系列的性能对比结果
注:YOLOv6 系列模型均在训练 300 epoch 且不使用预训练模型或额外检测数据集下获得,“ $ ^{*} $ ”表示采用了自蒸馏算法,“ $ ^{*} $ ”表示从官方代码库对发布模型进行重新测评的指标。以上速度指标均在 T4 TRT7.2 环境下测试。
本次版本升级,主要有以下更新:
## 性能更强的全系列模型
1.
0 码力 |
1356 页 |
45.90 MB
| 2 年前 3
-
为动态语言添加类型系统需要考虑到过渡与历史包袱
一种叫做渐进式类型系统的东西完美的符合了这个应用场景
这种类型系统同时允许动态类型与静态类型的存在
声明类型系统、鸭子类型与结构类型系统
类型系统的分类——声明式类型系统与结构化类型系统
声明类型系统通过名字来检查类型
鸭子类型——一个object,你看它长得像鸭子,行为也像鸭子,那他就是鸭子。
结构类型系统检查类型的形状而非名字
PYTHON 30th
## MYPY与Python标准支持 计算规则:和(Sum)类型的大小是所有组件类型大小的和。
子类,以及类型的顶和底
一个类型的子集被称作这个类型的子类型
对于record(class)来说,这里可能有些奇怪,因为更"小"的类型却包含更多的字段。
子类型具有自反性和传递性
对于Top类型来说,所有其它的类型都是它的子类型。记为 T <: Top
是否存在一个类型,它是所有其他类型的子类型?Bottom! 记为 Bottom
0 码力 |
42 页 |
6.87 MB
| 2 年前 3
-
Fine-tuning 阶段,我们对训练目标进行了优化,使得相关性任务和排序任务目标更加匹配,并进一步将两个任务结合进行联合训练。此外,由于 BERT 模型前向推理比较耗时,难以满足上线要求,我们通过知识蒸馏将 12 层 BERT 模型压缩为符合上线要求的 2 层小模型,且无显著的效果损失。
• 排序模型优化:核心排序模型(本文记为 L2 模型)包括 LambdaDNN[31]、TransformerDNN[3]、MultiTaskDNN 压测实验,在线服务的 TP99 增加超过 100ms,不符合工程上线要求。我们从两方面进行了优化,通过知识蒸馏压缩 BERT 模型,优化排序服务架构支持蒸馏模型上线。
## 模型轻量化
为了解决 BERT 模型参数量过大、前向计算耗时的问题,常用轻量化方法有三种:
- 知识蒸馏:模型蒸馏是在一定精度要求下,将大模型学到的知识迁移到另一个轻量级小模型上,目的是降低预测计算量的同时保证预测效果。Hinton Hinton 在 2015 年的论文中阐述了核心思想 $ ^{[35]} $ ,大模型一般称作 Teacher Model,蒸馏后的小模型一般称作 Student Model。具体做法是先在训练数据上学习 Teacher Model,然后 Teacher Model 对无标注数据进行预测得到伪标注数据,最后使用伪标注数据训练 Student Model。HuggingFace 提出的 DistilBERT
0 码力 |
317 页 |
16.57 MB
| 2 年前 3
-
第三阶段:全场景强化学习
结合规则奖励(针对推理任务)和神经奖励模型(针对通用任务),对模型进行最终的强化学习,以对齐人类偏好。
## 降本提能:架构创新,技术增效
DeepSeek通过架构创新和模型蒸馏技术,在提升模型性能的同时,显著降低计算成本和内存占用。这些技术不仅在长文本处理、代码生成、数学推理等任务中表现出色,还为大模型的轻量化和实际应用提供了有力支持。
## ☑ 架构创新
## 混合专家(MoE)架构 模模型训练更加可行。
## ☑ 模型蒸馏技术
DeepSeek采用模型蒸馏技术,通过将知识从大型复杂模型(教师模型)迁移到小型高效模型(学生模型),实现性能和效率的双重优化。DeepSeek选择了多个开源模型作为蒸馏的目标模型,包括Qwen系列和Llama系列
## 教师模型生成数据 > 学生模型训练
## 微调与优化
- 推理效率提升:蒸馏后的模型参数量大幅减少,例如DeepSe ek-R1-Distill-Qwen-7B的参数量仅为7B,相比原始的DeepSeek-R1(671B参数),计算复杂度显著降低。
- 性能优化:在代码和数学基准测试中,蒸馏技术显著提升了模型性能。例如,在基准测试中,蒸馏后的DeepSeek-V2.5模型在Pass@1和Length指标上均显著优于基线模型。
## 策略优化:开源特性,成本优势
DeepSeek采用开源策略,公开模型权重和技术
0 码力 |
85 页 |
8.31 MB
| 1 年前 3
-
0 码力 |
65 页 |
702.78 KB
| 1 年前 3
-
MoE架构盛行,本质是多个专家模型组成一个大模型
Deepmind的Alpha系列产品是这一趋势的最佳诠释
## DeepSeek出现之前的十大预判之四 模型越做越小
大模型进入「轻量化」时代,上车上终端,蒸馏小模型
先做得更大,然后探索能做多小
## DeepSeek出现之前的十大预判之五 知识的质量和密度决定大模型能力
高质量数据、合成数据使模型知识密度的快速增长
➢ 大模型能以更少的参数量达到更高的性能 DeepSeek的优化降低对推理硬件的要求,减少推理成本
训练成本降低,堆显卡模式受质疑,探索新思路,算法优化空间大
无需训练自己的基座模型,直接部署在DeepSeek上,不用重复发明轮子
公开蒸馏方法,帮助其他模型提升能力,实现了模型制造模型,犹如工业母机
小模型可部署在企业内电脑或一体机上,使用成本降低,形成分布式推理网络
技术门槛降低,可标准化、SaaS化部署,下载就能用
## DeepSeek颠覆式创新——免费 DeepSeek开源,可本地部署,能力强,免费
## 利用DeepSeek打造专业模型 不用卷算力、卷数据、卷参数
可用本地算力(自有机房或一体机)
接入企业内部专业数据,无需互联网全量数据
通过蒸馏的小模型能力也很强
## DeepSeek打造企业应用最重要的是从何入手
选择场景
做过去只有人才能做的事
分解流程
四个方向
➢ 四个十倍
➢ 做人做的重复繁琐易出错的事 ➢ 拆解繁琐复杂的业
0 码力 |
76 页 |
5.02 MB
| 1 年前 3
-
于昇腾云的DeepSeek R1&V3推理服务!
| 2月1日 | 沐曦 | Gitee AI联合沐曦首发全套DeepSeek R1千问蒸馏模型,全免费体验! |
| 2月4日 | 天数智芯 | 一天适配!天数智芯联合Gitee AI正式上线DeepSeek R1模型服务 | 蒸馏模型
2月4日 火山引擎 全尺寸DeepSeek模型登陆火山引擎!
2月4日 青云科技 限时免费,一键部署!基石智算正式上线DeepSeek-R1系列模型
2月4日 算力互联 国产GPU与De 0 码力 |
7 页 |
932.77 KB
| 1 年前 3