Urteilsdatenbank: automatische Anonymisierung und Volltextsuche

Für eine Verbraucherrechtskanzlei habe ich eine durchsuchbare Urteilsdatenbank mit automatischer Anonymisierung aufgebaut. Gescannte Gerichtsentscheidungen werden anonymisiert, mit ihren Metadaten erfasst und über eine Volltextsuche zugänglich gemacht. Die Entscheidungen lagen zuvor verstreut und überwiegend als Scan vor; Ziel war ein strukturierter, durchsuchbarer Bestand, in dem Entscheidungen, Aktenzeichen und Fundstellen auffindbar sind.

Vor der weiteren Nutzung werden personenbezogene Daten wie Namen, Adressen und Datumsangaben entfernt. Die Anonymisierung läuft automatisiert und reproduzierbar über den gesamten Bestand, sodass die Entscheidungen DSGVO-konform gespeichert, geteilt und ausgewertet werden können.

Die Scans werden aufbereitet und per Texterkennung erschlossen, Aktenzeichen und Metadaten automatisch erkannt und in eine Datenbank mit Web-Oberfläche überführt. So wuchs der Bestand von über 1.000 auf eine perspektivisch fünfstellige Dokumentzahl, ohne zusätzlichen manuellen Aufwand. Technisch kommen Python für die Bild- und Textverarbeitung, eine Datenbank mit Volltextindex sowie ein Web-Front-end zum Einsatz.