搜索

pdf文档 机器学习课程-温州大学-14深度学习-Vision Transformer (ViT)

2.78 MB 34 页 2 下载 75 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档主要介绍了Vision Transformer(ViT)的基本原理及其在图像分类中的应用。文中首先讨论了为什么选择使用Transformer架构,指出尽管CNN在图像分类任务中表现优异,但当预训练数据集足够大时,ViT可能在性能上超越CNN。接着详细介绍了ViT的模型框架,包括将图像分割成Patch块并通过Patch Embedding转换为向量,随后送入Transformer编码器进行处理。最后,文章还探讨了ViT的缺点,如其对图像特异性归纳偏差的不足,并提出了改进方向。
AI总结
### Vision Transformer (ViT) 课程总结 #### 背景知识 - **CNN的局限性**:虽然CNN在图像分类中表现优异,但在数据量极大时,ViT可能超越CNN。 - **ViT的起源**:ViT借鉴了Transformer结构,用于图像处理,通过将图像分割成Patch进行处理。 #### 模型结构 - **Patch分割与嵌入**:将图像分割为16x16 Patch,每个Patch通过全连接层转换为向量。 - **位置嵌入**:加入位置嵌入,帮助模型理解Patch的位置信息。 - **Transformer编码器**:Patch向量与位置嵌入合并后送入编码器,输出用于分类。 #### 训练策略 - **数据增强**:使用随机裁剪、颜色抖动等提升模型泛化能力。 - **预训练与微调**:预训练需大量数据,微调针对特定任务调整模型。 #### 缺点与改进 - **计算复杂度高**:Patch数量多导致计算量大。 - **位置编码不足**:初始位置嵌入缺乏精细空间信息。 - **改进措施**: - 引入更深网络结构提升表达能力。 - 采用混合架构(如金字塔结构)优化计算效率。 - 使用相对位置编码增强位置信息。 #### 总结 ViT在大数据条件下表现优异,但计算复杂度和位置编码是主要挑战。通过结构优化和改进方法,ViT在图像分类中展现出潜力。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 27 页请下载阅读 -
文档评分
请文明评论,理性发言.