RAG-Evaluation

Wie misst man, ob ein RAG-System gut ist? Zwei Schichten: Retrieval (holt es die richtigen Stücke?) und End-to-End (ist die Antwort korrekt + treu zum Kontext?).

Retrieval-Metriken (interaktiv)

10 Dokumente wurden retrieved. Davon sind insgesamt 5 relevant. Im Gesamtkorpus gibt es 6 relevante Dokumente (eines wurde nicht gefunden).

#1D1relevantin Top-5
#2D2irrelevantin Top-5
#3D3relevantin Top-5
#4D4relevantin Top-5
#5D5irrelevantin Top-5
#6D6irrelevant
#7D7relevant
#8D8irrelevant
#9D9irrelevant
#10D10relevant
Precision@5
0.60
3 von 5 sind relevant
Recall@5
0.50
3 von 6 insgesamt relevanten
MRR
1.00
1 / Position des ersten Treffers
nDCG@5
0.65
Ranking-Qualität (1.0 = optimal sortiert)

End-to-End-Metriken (RAGAS-Stil)

Faithfulness:
Stehen alle Aussagen der Antwort auch im Kontext? (0 = alles halluziniert, 1 = alles belegt)
Answer Relevancy:
Beantwortet die Antwort die Frage überhaupt?
Context Precision:
Wie viel vom abgerufenen Kontext ist tatsächlich relevant für die Antwort?
Context Recall:
Wie viel der notwendigen Information ist im Kontext gelandet? (braucht Ground-Truth)
Warum eigentlich?Warum nicht einfach nur Precision?
Precision allein ignoriert, wie viel du verpasst hast. Stell dir vor: 1 retrieved Dokument, 1 davon relevant → Precision = 1.0. Aber wenn es 9 weitere relevante Docs im Korpus gibt, hast du nur 10 % der Wahrheit gefunden — Recall = 0.1. Recall@k zwingt dich, beides zu balancieren.
Häufiger DenkfehlerEval ohne Ground-Truth
Ohne ein per Hand gelabeltes Eval-Set (typisch 50–200 Query/Doc-Paare) kannst du Retrieval-Metriken nicht berechnen. Schritt 0 jedes RAG-Projekts: ein paar Stunden investieren, eine Gold-Standard-Liste bauen. Sonst optimierst du blind.
Tiefer reinMRR vs. nDCG
MRR fokussiert auf das erste relevante Ergebnis — perfekt für Suchanwendungen, wo die Top-1-Antwort zählt. nDCG bewertet die ganze Liste mit Diskontierung (oben relevant = mehr Wert als unten relevant). Für RAG, wo das LLM mehrere Top-k Chunks bekommt, ist nDCG oft aussagekräftiger.