Urteilsdatenbank: automatische Anonymisierung und Volltextsuche

Für eine Verbraucherrechtskanzlei habe ich eine durchsuchbare Urteilsdatenbank mit automatischer Anonymisierung aufgebaut. Gescannte Gerichtsentscheidungen werden anonymisiert, mit ihren Metadaten erfasst und über eine Volltextsuche zugänglich gemacht.

Aufgabe

Gerichtsentscheidungen lagen verstreut und überwiegend als Scan vor. Ziel war ein strukturierter, durchsuchbarer Bestand, in dem Entscheidungen, Aktenzeichen und Fundstellen über eine Volltextsuche auffindbar sind.

Anonymisierung (DSGVO)

Vor der weiteren Nutzung werden personenbezogene Daten (Namen, Adressen, Datumsangaben) entfernt. Die Anonymisierung läuft automatisiert und reproduzierbar über den gesamten Bestand, sodass die Entscheidungen DSGVO-konform gespeichert, geteilt und ausgewertet werden können.

Aufbau und Skalierung

Scans werden aufbereitet und per Texterkennung erschlossen, Aktenzeichen und Metadaten automatisch erkannt und in eine Datenbank mit Web-Oberfläche überführt. Der Bestand wuchs von über 1.000 auf eine perspektivisch fünfstellige Dokumentzahl ohne zusätzlichen manuellen Aufwand.

Technik

Python für Bild- und Textverarbeitung, eine Datenbank mit Volltextindex sowie ein Web-Front-end.