Die RAG-Pipeline Schritt für Schritt

Sechs Schritte vom Klick bis zur Antwort. Klick einen an, um die Details zu sehen.

Warum eigentlich?Warum Re-Ranking trotz Embeddings?
Embeddings sind ein Bi-Encoder-Setup: Frage und Dokumente werden unabhängig voneinander in Vektoren übersetzt. Das ist schnell (man kann die Dokument-Vektoren vorab berechnen), aber unscharf. Cross-Encoder schauen sich Frage und Kandidat zusammen an und liefern viel feinere Scores — kosten dafür eine LLM-artige Inference pro Paar. Daher: erst Embedding-Top-50 retrieven, dann mit Cross-Encoder auf Top-5 re-ranken.
Häufiger DenkfehlerVerschiedene Embedding-Modelle für Query und Dokumente
Klassischer Fail. Wenn du die Wissensbasis mit text-embedding-3-small eingebettet hast, musst du die Query auch mit text-embedding-3-small einbetten — die Vektor-Räume sind nicht kompatibel zwischen verschiedenen Modellen oder Modell-Versionen.
Tiefer reinHybrid Retrieval
Beste Praxis in echten Systemen: BM25 (Volltextsuche) + Embedding-Suche parallel laufen lassen, beide Ergebnislisten mitReciprocal Rank Fusion zusammenmischen, dannre-ranken. BM25 fängt exakte Treffer (Eigennamen, Fachbegriffe), die Embeddings nicht zuverlässig finden.