ViT-Implementation

Basic ViT implementation in PyTorch. Based on the paper "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" by Dosovitskiy et al. (2021) and Better plain ViT baselines for ImageNet-1k by Beyer et al. (2022).

All code is contained in the vit-implementation.ipynb file.

Achieves 80.74% accuracy in CIFAR-10 with 100 epochs, 8 layers, 8 heads, and 256 embedding dimensions. Disclaimer: Not much hyperparameter tuning was done.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.gitignore		.gitignore
README.md		README.md
attention-test.ipynb		attention-test.ipynb
model.pth		model.pth
requirements.txt		requirements.txt
vit-implementation.ipynb		vit-implementation.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ViT-Implementation

About

Releases

Packages

Languages

rodrigo-pedro/ViT-Implementation

Folders and files

Latest commit

History

Repository files navigation

ViT-Implementation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages