Embeddings

Ein Embedding ist eine Übersetzung von Text in einen Zahlenvektor — so, dass ähnliche Bedeutung in der Geometrie nahe beieinander liegt. Klick auf ein Wort, um zu sehen, was „nah“ und „fern“ bedeutet.

Hier siehst du eine künstliche 2D-Welt mit 12 Wörtern. Echte Embedding-Modelle (z.B. text-embedding-3-small) nutzen 1536 Dimensionen — die Idee bleibt aber die selbe.

Cosine-Ähnlichkeit zu „hund“

katze
0.99

vogel
0.97

freude
0.12

fahrrad
0.05

liebe
-0.11

auto
-0.12

fahrzeug
-0.24

schmerz
-0.29

pasta
-0.96

apfel
-0.99

brot
-1.00

Warum eigentlich? — Warum ist Cosine die richtige Wahl?

Cosine misst nur den Winkel zwischen zwei Vektoren, nicht ihre Länge. Bei Text-Embeddings ist die Länge oft irrelevant (länger ≠ bedeutsamer), während die Richtung die Semantik trägt. Für L2-normalisierte Embeddings (was die meisten Modelle ausgeben) ist Cosine außerdem mathematisch äquivalent zum Dot-Product — aber schneller zu rechnen.

Häufiger Denkfehler — Embedding-Modelle nicht mischen

Wenn deine Wissensbasis mit text-embedding-3-small eingebettet wurde, muss auch die Query mit demselben Modell eingebettet werden. Die Vektor-Räume verschiedener Modelle (oder sogar verschiedener Versionen desselben Modells) sind nicht kompatibel — sie sind komplett anders trainiert.

Tiefer rein — Wie viele Dimensionen?

Klassisch: 768 (BERT-Stil), 1024, 1536 (OpenAI text-embedding-3-small), 3072 (text-embedding-3-large). Mehr Dimensionen = feinere Auflösung, aber teurer (Speicher in der Vektor-DB, Latenz beim Vergleich). OpenAI unterstützt dimensions als API-Parameter — du kannst 3072-dim Embeddings truncaten auf 256, mit minimalem Qualitäts-Verlust durch Matryoshka-Training.

Geschichte — Vom Wort zum Satz

Word2Vec (2013) war der Durchbruch: einzelne Wörter als Vektoren. Aber ein Wort hat in verschiedenen Kontexten verschiedene Bedeutungen („Bank“). BERT (2018) brachtekontextuelle Embeddings — derselbe Token bekommt unterschiedliche Vektoren je nach Satz. Heutige Embedding-Modelle für RAG (text-embedding-3, BGE, E5) sind speziell für Satz/Absatz-Ähnlichkeit trainiert, nicht für einzelne Wörter.

← Chunking Metadaten & Filter →