Evaluation · RAG

RAG-Evaluation

Wie misst man, ob ein RAG-System gut ist? Zwei Schichten: Retrieval (holt es die richtigen Stücke?) und End-to-End (ist die Antwort korrekt + treu zum Kontext?).

Retrieval-Metriken (interaktiv)

10 Dokumente wurden retrieved. Davon sind insgesamt 5 relevant. Im Gesamtkorpus gibt es 6 relevante Dokumente (eines wurde nicht gefunden).

k (Anzahl betrachteter Top-Ergebnisse): 5

#1D1relevantin Top-5

#2D2irrelevantin Top-5

#3D3relevantin Top-5

#4D4relevantin Top-5

#5D5irrelevantin Top-5

#6D6irrelevant

#7D7relevant

#8D8irrelevant

#9D9irrelevant

#10D10relevant

Precision@5

0.60

3 von 5 sind relevant

Recall@5

0.50

3 von 6 insgesamt relevanten

MRR

1.00

1 / Position des ersten Treffers

nDCG@5

0.65

Ranking-Qualität (1.0 = optimal sortiert)

End-to-End-Metriken (RAGAS-Stil)

Faithfulness:

Stehen alle Aussagen der Antwort auch im Kontext? (0 = alles halluziniert, 1 = alles belegt)

Answer Relevancy:

Beantwortet die Antwort die Frage überhaupt?

Context Precision:

Wie viel vom abgerufenen Kontext ist tatsächlich relevant für die Antwort?

Context Recall:

Wie viel der notwendigen Information ist im Kontext gelandet? (braucht Ground-Truth)

Warum eigentlich? — Warum nicht einfach nur Precision?

Precision allein ignoriert, wie viel du verpasst hast. Stell dir vor: 1 retrieved Dokument, 1 davon relevant → Precision = 1.0. Aber wenn es 9 weitere relevante Docs im Korpus gibt, hast du nur 10 % der Wahrheit gefunden — Recall = 0.1. Recall@k zwingt dich, beides zu balancieren.

Häufiger Denkfehler — Eval ohne Ground-Truth

Ohne ein per Hand gelabeltes Eval-Set (typisch 50–200 Query/Doc-Paare) kannst du Retrieval-Metriken nicht berechnen. Schritt 0 jedes RAG-Projekts: ein paar Stunden investieren, eine Gold-Standard-Liste bauen. Sonst optimierst du blind.

Tiefer rein — MRR vs. nDCG

MRR fokussiert auf das erste relevante Ergebnis — perfekt für Suchanwendungen, wo die Top-1-Antwort zählt. nDCG bewertet die ganze Liste mit Diskontierung (oben relevant = mehr Wert als unten relevant). Für RAG, wo das LLM mehrere Top-k Chunks bekommt, ist nDCG oft aussagekräftiger.

← Halluzinationen trotz Kontext Lost in the Middle →