Embeddings
Ein Embedding ist eine Übersetzung von Text in einen Zahlenvektor — so, dass ähnliche Bedeutung in der Geometrie nahe beieinander liegt. Klick auf ein Wort, um zu sehen, was „nah“ und „fern“ bedeutet.
Hier siehst du eine künstliche 2D-Welt mit 12 Wörtern. Echte Embedding-Modelle (z.B.
text-embedding-3-small) nutzen 1536 Dimensionen — die Idee bleibt aber die selbe.Cosine-Ähnlichkeit zu „hund“
katze0.99
vogel0.97
freude0.12
fahrrad0.05
liebe-0.11
auto-0.12
fahrzeug-0.24
schmerz-0.29
pasta-0.96
apfel-0.99
brot-1.00
Warum eigentlich? — Warum ist Cosine die richtige Wahl?
Cosine misst nur den Winkel zwischen zwei Vektoren, nicht ihre Länge. Bei Text-Embeddings ist die Länge oft irrelevant (länger ≠ bedeutsamer), während die Richtung die Semantik trägt. Für L2-normalisierte Embeddings (was die meisten Modelle ausgeben) ist Cosine außerdem mathematisch äquivalent zum Dot-Product — aber schneller zu rechnen.
Häufiger Denkfehler — Embedding-Modelle nicht mischen
Wenn deine Wissensbasis mit
text-embedding-3-small eingebettet wurde, muss auch die Query mit demselben Modell eingebettet werden. Die Vektor-Räume verschiedener Modelle (oder sogar verschiedener Versionen desselben Modells) sind nicht kompatibel — sie sind komplett anders trainiert.Tiefer rein — Wie viele Dimensionen?
Klassisch: 768 (BERT-Stil), 1024, 1536 (OpenAI text-embedding-3-small), 3072 (text-embedding-3-large). Mehr Dimensionen = feinere Auflösung, aber teurer (Speicher in der Vektor-DB, Latenz beim Vergleich). OpenAI unterstützt
dimensions als API-Parameter — du kannst 3072-dim Embeddings truncaten auf 256, mit minimalem Qualitäts-Verlust durch Matryoshka-Training.Geschichte — Vom Wort zum Satz
Word2Vec (2013) war der Durchbruch: einzelne Wörter als Vektoren. Aber ein Wort hat in verschiedenen Kontexten verschiedene Bedeutungen („Bank“). BERT (2018) brachtekontextuelle Embeddings — derselbe Token bekommt unterschiedliche Vektoren je nach Satz. Heutige Embedding-Modelle für RAG (text-embedding-3, BGE, E5) sind speziell für Satz/Absatz-Ähnlichkeit trainiert, nicht für einzelne Wörter.