Embeddings

Ein Embedding ist eine Übersetzung von Text in einen Zahlenvektor — so, dass ähnliche Bedeutung in der Geometrie nahe beieinander liegt. Klick auf ein Wort, um zu sehen, was „nah“ und „fern“ bedeutet.

Hier siehst du eine künstliche 2D-Welt mit 12 Wörtern. Echte Embedding-Modelle (z.B. text-embedding-3-small) nutzen 1536 Dimensionen — die Idee bleibt aber die selbe.
hundkatzevogelautofahrzeugfahrradliebefreudeschmerzbrotapfelpasta
Cosine-Ähnlichkeit zu „hund
katze
0.99
vogel
0.97
freude
0.12
fahrrad
0.05
liebe
-0.11
auto
-0.12
fahrzeug
-0.24
schmerz
-0.29
pasta
-0.96
apfel
-0.99
brot
-1.00
Warum eigentlich?Warum ist Cosine die richtige Wahl?
Cosine misst nur den Winkel zwischen zwei Vektoren, nicht ihre Länge. Bei Text-Embeddings ist die Länge oft irrelevant (länger ≠ bedeutsamer), während die Richtung die Semantik trägt. Für L2-normalisierte Embeddings (was die meisten Modelle ausgeben) ist Cosine außerdem mathematisch äquivalent zum Dot-Product — aber schneller zu rechnen.
Häufiger DenkfehlerEmbedding-Modelle nicht mischen
Wenn deine Wissensbasis mit text-embedding-3-small eingebettet wurde, muss auch die Query mit demselben Modell eingebettet werden. Die Vektor-Räume verschiedener Modelle (oder sogar verschiedener Versionen desselben Modells) sind nicht kompatibel — sie sind komplett anders trainiert.
Tiefer reinWie viele Dimensionen?
Klassisch: 768 (BERT-Stil), 1024, 1536 (OpenAI text-embedding-3-small), 3072 (text-embedding-3-large). Mehr Dimensionen = feinere Auflösung, aber teurer (Speicher in der Vektor-DB, Latenz beim Vergleich). OpenAI unterstützt dimensions als API-Parameter — du kannst 3072-dim Embeddings truncaten auf 256, mit minimalem Qualitäts-Verlust durch Matryoshka-Training.
GeschichteVom Wort zum Satz
Word2Vec (2013) war der Durchbruch: einzelne Wörter als Vektoren. Aber ein Wort hat in verschiedenen Kontexten verschiedene Bedeutungen („Bank“). BERT (2018) brachtekontextuelle Embeddings — derselbe Token bekommt unterschiedliche Vektoren je nach Satz. Heutige Embedding-Modelle für RAG (text-embedding-3, BGE, E5) sind speziell für Satz/Absatz-Ähnlichkeit trainiert, nicht für einzelne Wörter.