Für eine Verbraucherrechtskanzlei habe ich eine durchsuchbare Urteilsdatenbank mit automatischer Anonymisierung aufgebaut. Gescannte Gerichtsentscheidungen werden anonymisiert, mit ihren Metadaten erfasst und über eine Volltextsuche zugänglich gemacht.
Aufgabe
Gerichtsentscheidungen lagen verstreut und überwiegend als Scan vor. Ziel war ein strukturierter, durchsuchbarer Bestand, in dem Entscheidungen, Aktenzeichen und Fundstellen über eine Volltextsuche auffindbar sind.
Anonymisierung (DSGVO)
Vor der weiteren Nutzung werden personenbezogene Daten (Namen, Adressen, Datumsangaben) entfernt. Die Anonymisierung läuft automatisiert und reproduzierbar über den gesamten Bestand, sodass die Entscheidungen DSGVO-konform gespeichert, geteilt und ausgewertet werden können.
Aufbau und Skalierung
Scans werden aufbereitet und per Texterkennung erschlossen, Aktenzeichen und Metadaten automatisch erkannt und in eine Datenbank mit Web-Oberfläche überführt. Der Bestand wuchs von über 1.000 auf eine perspektivisch fünfstellige Dokumentzahl ohne zusätzlichen manuellen Aufwand.
Technik
Python für Bild- und Textverarbeitung, eine Datenbank mit Volltextindex sowie ein Web-Front-end.