RAG-Evaluation
Wie misst man, ob ein RAG-System gut ist? Zwei Schichten: Retrieval (holt es die richtigen Stücke?) und End-to-End (ist die Antwort korrekt + treu zum Kontext?).
Retrieval-Metriken (interaktiv)
10 Dokumente wurden retrieved. Davon sind insgesamt 5 relevant. Im Gesamtkorpus gibt es 6 relevante Dokumente (eines wurde nicht gefunden).
#1D1relevantin Top-5
#2D2irrelevantin Top-5
#3D3relevantin Top-5
#4D4relevantin Top-5
#5D5irrelevantin Top-5
#6D6irrelevant
#7D7relevant
#8D8irrelevant
#9D9irrelevant
#10D10relevant
Precision@5
0.60
3 von 5 sind relevant
Recall@5
0.50
3 von 6 insgesamt relevanten
MRR
1.00
1 / Position des ersten Treffers
nDCG@5
0.65
Ranking-Qualität (1.0 = optimal sortiert)
End-to-End-Metriken (RAGAS-Stil)
Warum eigentlich? — Warum nicht einfach nur Precision?
Precision allein ignoriert, wie viel du verpasst hast. Stell dir vor: 1 retrieved Dokument, 1 davon relevant → Precision = 1.0. Aber wenn es 9 weitere relevante Docs im Korpus gibt, hast du nur 10 % der Wahrheit gefunden — Recall = 0.1. Recall@k zwingt dich, beides zu balancieren.
Häufiger Denkfehler — Eval ohne Ground-Truth
Ohne ein per Hand gelabeltes Eval-Set (typisch 50–200 Query/Doc-Paare) kannst du Retrieval-Metriken nicht berechnen. Schritt 0 jedes RAG-Projekts: ein paar Stunden investieren, eine Gold-Standard-Liste bauen. Sonst optimierst du blind.
Tiefer rein — MRR vs. nDCG
MRR fokussiert auf das erste relevante Ergebnis — perfekt für Suchanwendungen, wo die Top-1-Antwort zählt. nDCG bewertet die ganze Liste mit Diskontierung (oben relevant = mehr Wert als unten relevant). Für RAG, wo das LLM mehrere Top-k Chunks bekommt, ist nDCG oft aussagekräftiger.