Metadaten & Filter

Vektor-Ähnlichkeit findet semantisch passende Stücke — aber sie kennt weder Datum noch Berechtigung noch Dokumenttyp. Für diese Schichten braucht es strukturierte Metadaten + Pre-Filter.

Suche nach „Sales-Pipeline“ ohne Filter findet auch die alte Doku von 2022. Mit einem Datums-Filter („nach 2024“) verschwindet sie automatisch.

Team

Erstellt nach

Maximale Sensibilität (was darfst du sehen?)

6 von 6 Dokumenten bleiben durch den Filter übrig — danach würde die Vektorsuche auf diesem Sub-Set laufen.

Q3 Sales-Pipeline-Auswertung

2024-09-15·sales·intern

Sales-Pipeline-Review für 2026 Q1

2026-04-20·sales·intern

Architektur-Doku Auth-Service v2

2026-03-08·engineering·intern

Produktroadmap H2/2026

2026-05-02·produkt·geheim

Onboarding-Guide für neue Engineers

2026-01-12·engineering·öffentlich

Alte Sales-Pipeline-Doku 2022

2022-11-03·sales·intern

Warum eigentlich? — Pre-Filter vs. Post-Filter

Du kannst Metadaten entweder vor der Vektorsuche anwenden („suche nur in Dokumenten mit team=engineering“) oder nach der Suche aus den Top-k filtern. Pre-Filter ist korrekter (alle Treffer durchsucht), aber teurer für die Index-Struktur. Post-Filter ist schneller, kann aber leere Ergebnisse liefern, wenn die Top-k ausgerechnet vom Filter entfernt werden.

Häufiger Denkfehler — Embeddings für Metadaten misbrauchen

Klassischer Fail: jemand schreibt „Sales-Pipeline 2026“ in den Embedding-Input, hoffend dass das Modell die Jahreszahl respektiert. Tut es nicht — Embeddings lernen Semantik, nicht Filter. Die Jahreszahl gehört in einyear-Feld, nicht in den Embedding-Text.

Tiefer rein — Berechtigungen — der heikle Teil

ACLs (Access Control Lists) müssen im selben System wie die Vektor-DB leben, sonst sind sie umgehbar. Faustregel: filter auf Berechtigungs-Tags vor der Vektorsuche, niemals erst bei der Antwort „den Treffer darf der User eigentlich gar nicht sehen“ — das LLM hat ihn längst im Kontext und kann den Inhalt durchsickern lassen.

← Embeddings Vector Databases →