Lost in the Middle
LLMs verarbeiten lange Kontexte nicht gleichmäßig. Information am Anfang und Ende wird zuverlässig gefunden, in der Mitte oft übersehen. Stell die Position des relevanten Chunks ein und sieh, wie die Antwortgenauigkeit einbricht.
Die U-förmige Accuracy-Kurve wurde 2024 in Liu et al., „Lost in the Middle“ dokumentiert — und in praktisch jedem Long-Context-Modell seitdem repliziert, auch in den großen.
1
2
3
4
★ 5
6
7
8
9
10
55%
Geschätzte Antwortgenauigkeit
In der Senke — das Modell übersieht die relevante Info regelmäßig.
Warum eigentlich? — Woher kommt der Mittel-Dip?
Attention-Mechanismen in Transformern werden trainiert auf relativ kurze Kontexte; bei längeren Kontexten ist die Aufmerksamkeit oft oben (Anfang) und am Ende (Recency-Bias) konzentriert. Die Mitte ist ein „Gefahrenzonen“. Newer Modelle (Claude 3.5, GPT-4o, Gemini 1.5) sind besser, aber der Effekt bleibt messbar.
Häufiger Denkfehler — Mehr Kontext = bessere Antwort? Nein.
Verlockende Idee: stopf alle Top-20 Chunks rein, das Modell wird's schon herausfinden. Falsch. Mehr Chunks ohne Re-Ranking macht zwei Probleme: (1) die wirklich wichtige Info landet in der Mitte und wird übersehen, (2) das Modell wird vom irrelevanten Kontext abgelenkt. Weniger, gut sortierte Chunks schlagen mehr, schlecht sortierte.
Tiefer rein — Was hilft konkret
- Re-Ranking + Top-3: weniger, besser sortiert
- Relevante Info vorn platzieren: nach Re-Ranking den besten Chunk ganz oben in den Prompt setzen
- Wiederholung: kritische Info am Anfang UND am Ende des Kontexts duplizieren (klingt hacky, hilft messbar)
- Kontext-Komprimierung: LLMLingua o.ä. — irrelevante Tokens entfernen, bevor sie das Hauptmodell erreichen