Metadaten & Filter

Vektor-Ähnlichkeit findet semantisch passende Stücke — aber sie kennt weder Datum noch Berechtigung noch Dokumenttyp. Für diese Schichten braucht es strukturierte Metadaten + Pre-Filter.

Suche nach „Sales-Pipeline“ ohne Filter findet auch die alte Doku von 2022. Mit einem Datums-Filter („nach 2024“) verschwindet sie automatisch.
6 von 6 Dokumenten bleiben durch den Filter übrig — danach würde die Vektorsuche auf diesem Sub-Set laufen.
Q3 Sales-Pipeline-Auswertung
2024-09-15·sales·intern
Sales-Pipeline-Review für 2026 Q1
2026-04-20·sales·intern
Architektur-Doku Auth-Service v2
2026-03-08·engineering·intern
Produktroadmap H2/2026
2026-05-02·produkt·geheim
Onboarding-Guide für neue Engineers
2026-01-12·engineering·öffentlich
Alte Sales-Pipeline-Doku 2022
2022-11-03·sales·intern
Warum eigentlich?Pre-Filter vs. Post-Filter
Du kannst Metadaten entweder vor der Vektorsuche anwenden („suche nur in Dokumenten mit team=engineering“) oder nach der Suche aus den Top-k filtern. Pre-Filter ist korrekter (alle Treffer durchsucht), aber teurer für die Index-Struktur. Post-Filter ist schneller, kann aber leere Ergebnisse liefern, wenn die Top-k ausgerechnet vom Filter entfernt werden.
Häufiger DenkfehlerEmbeddings für Metadaten misbrauchen
Klassischer Fail: jemand schreibt „Sales-Pipeline 2026“ in den Embedding-Input, hoffend dass das Modell die Jahreszahl respektiert. Tut es nicht — Embeddings lernen Semantik, nicht Filter. Die Jahreszahl gehört in einyear-Feld, nicht in den Embedding-Text.
Tiefer reinBerechtigungen — der heikle Teil
ACLs (Access Control Lists) müssen im selben System wie die Vektor-DB leben, sonst sind sie umgehbar. Faustregel: filter auf Berechtigungs-Tags vor der Vektorsuche, niemals erst bei der Antwort „den Treffer darf der User eigentlich gar nicht sehen“ — das LLM hat ihn längst im Kontext und kann den Inhalt durchsickern lassen.