A visual exploration of vectors

A vector embedding encodes an input as a list of floating point numbers.

"dog" → [0.017198, -0.007493, -0.057982, 0.054051, -0.028336, 0.019245,…]

Different models output different embeddings, with varying lengths.

Model	Encodes	Vector length
word2vec	words	300
Sbert (Sentence-Transformers)	text (up to ~400 words)	768
OpenAI ada-002	text (up to 8191 tokens)	1536
Azure Computer Vision	image or text	1024

Vector embeddings are commonly used for similarity search, fraud detection, recommendation systems, and RAG (Retrieval-Augmented Generation).

This repository contains a visual exploration of vectors, using several embedding models.

Go through notebooks in this order:

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.devcontainer		.devcontainer
product_images		product_images
query_images		query_images
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
LICENSE.md		LICENSE.md
README.md		README.md
compare_vector_models.ipynb		compare_vector_models.ipynb
most-common-nouns-english.csv		most-common-nouns-english.csv
movie_vectors.ipynb		movie_vectors.ipynb
multimodal_vectors.ipynb		multimodal_vectors.ipynb
openai_movies.json		openai_movies.json
prep_multimodal.ipynb		prep_multimodal.ipynb
prep_openai_ada002.ipynb		prep_openai_ada002.ipynb
prep_word2vec_gnews.ipynb		prep_word2vec_gnews.ipynb
pyproject.toml		pyproject.toml
requirements-dev.txt		requirements-dev.txt
requirements.txt		requirements.txt
vector_distance.ipynb		vector_distance.ipynb
vector_quantization.ipynb		vector_quantization.ipynb
vectors_multimodal_images.json		vectors_multimodal_images.json
vectors_multimodal_words.json		vectors_multimodal_words.json
vectors_openai_ada.json		vectors_openai_ada.json
vectors_word2vec-google-news.json		vectors_word2vec-google-news.json

Provide feedback