pdf文档 机器学习课程-温州大学-14深度学习-Vision Transformer (ViT)

2.78 MB 34 页 0 评论
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档介绍了Vision Transformer (ViT) 的核心概念和结构,详细阐述了其背景知识、模型介绍、训练策略、缺点与改进以及代码实现。ViT 是基于 Transformer 编码器的图像分类模型,通过将图像分割为 Patch 块并进行 Patch Embedding 处理来模拟 NLP 中的词序列。文档指出,ViT 在大规模数据集(至少一亿张图像)下能比 CNN(如 ResNet)略胜一筹。ViT 的缺点包括对图像特异性归纳偏差较少,空间关系的处理较弱,但这些缺点可以通过大规模预训练来缓解。
AI总结
以下是对文档内容的总结: --- **Vision Transformer (ViT) 总结** **1. 背景知识** - **为什么用Transformer?** Transformer最初用于NLP任务,而ViT的目标是将图像转换为类似“词”的结构。具体方法是将图像分割成多个小块(Patch),每个Patch相当于句子中的一个词,然后通过Patch Embedding将这些小块压缩成向量。 - **与CNN的对比** 在图像分类任务中,CNN(如ResNet)是最佳方案。但如果预训练数据集足够大(至少1亿张图像),ViT的表现会略优于CNN。 **2. 模型介绍** - **模型框架** ViT的最简洁结构包括以下步骤: 1. 将图像分割成16x16的Patch块。 2. 将这些Patch块通过Transformer Encoder进行处理。 3. 使用cls token的输出,输入MLP头进行分类,最终得到预测结果。 - **注意力机制** ViT利用Transformer的编码器结构,通过自注意力机制捕获图像的全局信息。 **3. 模型的缺点与改进** - **缺点分析** 1. ViT缺乏图像特异性归纳偏差。相比CNN,ViT对二维邻域结构的利用较少,主要体现在初始的Patch分割和微调时的位置嵌入调整。 2. 通过全连接网络压缩Patch时,位置嵌入不携带二维位置信息,所有空间关系需要从头学习。 3. ViT在小数据集上表现不如CNN,需依赖海量数据(至少1亿张图像)进行预训练。 - **改进方向** 需要在模型中引入更多图像特异性归纳偏差,例如通过改进位置编码或利用二维邻域结构。 **4. 模型的核心逻辑** - **Patch Embedding** 每个Patch通过全连接网络压缩成固定维度的向量,类似于NLP中的词嵌入。 - **位置编码** 在初始阶段,位置嵌入不包含二维位置信息,空间关系需通过自注意力机制学习。 --- **总结** Vision Transformer(ViT)通过将图像分割为Patch,并类似于NLP中的词序列进行处理,利用Transformer的编码器结构捕获全局信息。ViT在海量数据下表现优于CNN,但在小数据集或需要图像特异性归纳偏差的任务中可能不如CNN。此外,ViT需要进一步改进以更好地利用二维邻域结构和空间信息。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 27 页请下载阅读 -
文档评分
请文明评论,理性发言.