机器学习课程-温州大学-14深度学习-Vision Transformer (ViT) - IT文库

语言	格式	评分
中文（简体）	.pdf	3
摘要
文档介绍了Vision Transformer (ViT) 的核心概念和结构，详细阐述了其背景知识、模型介绍、训练策略、缺点与改进以及代码实现。ViT 是基于 Transformer 编码器的图像分类模型，通过将图像分割为 Patch 块并进行 Patch Embedding 处理来模拟 NLP 中的词序列。文档指出，ViT 在大规模数据集（至少一亿张图像）下能比 CNN（如 ResNet）略胜一筹。ViT 的缺点包括对图像特异性归纳偏差较少，空间关系的处理较弱，但这些缺点可以通过大规模预训练来缓解。
AI总结
以下是对文档内容的总结： --- Vision Transformer (ViT) 总结 1. 背景知识 - 为什么用Transformer？ Transformer最初用于NLP任务，而ViT的目标是将图像转换为类似“词”的结构。具体方法是将图像分割成多个小块（Patch），每个Patch相当于句子中的一个词，然后通过Patch Embedding将这些小块压缩成向量。 - 与CNN的对比在图像分类任务中，CNN（如ResNet）是最佳方案。但如果预训练数据集足够大（至少1亿张图像），ViT的表现会略优于CNN。 2. 模型介绍 - 模型框架 ViT的最简洁结构包括以下步骤： 1. 将图像分割成16x16的Patch块。 2. 将这些Patch块通过Transformer Encoder进行处理。 3. 使用cls token的输出，输入MLP头进行分类，最终得到预测结果。 - 注意力机制 ViT利用Transformer的编码器结构，通过自注意力机制捕获图像的全局信息。 3. 模型的缺点与改进 - 缺点分析 1. ViT缺乏图像特异性归纳偏差。相比CNN，ViT对二维邻域结构的利用较少，主要体现在初始的Patch分割和微调时的位置嵌入调整。 2. 通过全连接网络压缩Patch时，位置嵌入不携带二维位置信息，所有空间关系需要从头学习。 3. ViT在小数据集上表现不如CNN，需依赖海量数据（至少1亿张图像）进行预训练。 - 改进方向需要在模型中引入更多图像特异性归纳偏差，例如通过改进位置编码或利用二维邻域结构。 4. 模型的核心逻辑 - Patch Embedding 每个Patch通过全连接网络压缩成固定维度的向量，类似于NLP中的词嵌入。 - 位置编码在初始阶段，位置嵌入不包含二维位置信息，空间关系需通过自注意力机制学习。 --- 总结 Vision Transformer（ViT）通过将图像分割为Patch，并类似于NLP中的词序列进行处理，利用Transformer的编码器结构捕获全局信息。ViT在海量数据下表现优于CNN，但在小数据集或需要图像特异性归纳偏差的任务中可能不如CNN。此外，ViT需要进一步改进以更好地利用二维邻域结构和空间信息。

来源	github.com/fengdu78

P1

P2

P3

P4

P5

P6

P7

下载文档到本地，方便使用

- 可预览页数已用完，剩余 27 页请下载阅读 -

文档评分

copilot

文档

3439

文章

0

码力

798

个性签名

暂无个性签名