[AI] ViT(Vision Transformer)_ MLP-Mixer (2/6)

JAsmine_log·2024년 8월 4일
0

ViT

목록 보기
5/6

AI

MLP-Mixer

MLP-Mixer: An all-MLP Architecture for Vision[2]


MLP-Mixer를 Conv net에 의존하지 않고, MLP 만을 사용하여 네트워크를 구성한다. 여기서, 2개의 MLP 레이어를 구성한다. 하나는, 독립적으로 image patches에 적용되고, "per-location features를 mixing" 한다. 두번 째 레이어는 across-paches 서로가 연관되어 있으며, "spatial information을 mixing"한다.

Architecture


MLP-Mixer의 구조는 per-patch linear embeddings, Mixer alyers, classifier head로 이루어져 있다. Mixer layers는 하나의 token-mixing MLP와 1개 channel-mixing MLp로 이루어져 있고, 각각은 2개의 fully-connected layes와 GELU nonlinealrity를 구성한다. 다른 component는 skip-connections, dropout, layer norm이 채널에 있다.


[1] Alexey Dosovitskiy, et al, An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, ICLR, 2021.
[2] Ilya Tolstikhin, et al, MLP-Mixer: An all-MLP Architecture for Vision, CVPR, 2021.
[3] Andreas Steiner, et al, How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers, CVPR, 2022.
[4] Xiangning Chen, et al, When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations, CVPR, 2022.
[5] Xiaohua Zhai, et al, LiT: Zero-Shot Transfer with Locked-image text Tuning, CVPR, 2022.
[6] Juntang Zhuang, Surrogate Gap Minimization Improves Sharpness-Aware Training, ICLR, 2022.

profile
Everyday Research & Development

0개의 댓글