Die Pipeline · RAG

Warum eigentlich? — Warum Re-Ranking trotz Embeddings?

Embeddings sind ein Bi-Encoder-Setup: Frage und Dokumente werden unabhängig voneinander in Vektoren übersetzt. Das ist schnell (man kann die Dokument-Vektoren vorab berechnen), aber unscharf. Cross-Encoder schauen sich Frage und Kandidat zusammen an und liefern viel feinere Scores — kosten dafür eine LLM-artige Inference pro Paar. Daher: erst Embedding-Top-50 retrieven, dann mit Cross-Encoder auf Top-5 re-ranken.

Häufiger Denkfehler — Verschiedene Embedding-Modelle für Query und Dokumente

Klassischer Fail. Wenn du die Wissensbasis mit text-embedding-3-small eingebettet hast, musst du die Query auch mit text-embedding-3-small einbetten — die Vektor-Räume sind nicht kompatibel zwischen verschiedenen Modellen oder Modell-Versionen.

Tiefer rein — Hybrid Retrieval

Beste Praxis in echten Systemen: BM25 (Volltextsuche) + Embedding-Suche parallel laufen lassen, beide Ergebnislisten mitReciprocal Rank Fusion zusammenmischen, dannre-ranken. BM25 fängt exakte Treffer (Eigennamen, Fachbegriffe), die Embeddings nicht zuverlässig finden.

Hängt zusammen mit… — Hängt zusammen mit…

Query Rewriting (HyDE: erst mit dem LLM eine hypothetische Antwort generieren, die einbetten und damit suchen), Context Window Management (zu viele Chunks → Modell ignoriert die Mitte — „lost in the middle“-Effekt), Citation Validation (post-hoc prüfen ob jede Aussage in den Quellen steht).

Die RAG-Pipeline Schritt für Schritt