Dokumente erschliessen, durchsuchen, einordnen, filtern und analysieren mit datenschutzfreundlichen Open Source Recherche-Tools

Ob grösserer Leak oder Zusammenwürfeln oder wieder Erschliessen umfangreicherer (kollaborativer) Recherche(n) oder Archive: Hin und wieder müssen größere Datenberge bzw. Dokumentenberge erschlossen werden, die so viele Dokumente enthalten, dass Mensch diese Masse an Dokumenten nicht mehr alle nacheinander durchschauen und einordnen kann.

Moderne Tools zur Datenanalyse in Verbindung mit Enterprise Search Suchlösungen und darauf aufbauender Recherche-Tools helfen (halb)automatisch.

In einem neuen Recherche, Textanalyse und Document Mining Tutorial wird anhand freier Software bzw. Recherche-Tools und verschiedenen kombinierten Methoden zur Datenanalyse, Anreicherung und Suche beschrieben, wie auch eine große heterogene und unstrukturierte Dokumentensammlung bzw. eine grosse Anzahl von Dokumenten in verschiedenen Formaten leicht durchsucht und analysiert werden kann.

Das Tutorial erklärt Methoden und Open Source Tools zum (halb)automatischen Erschliessen, Durchsuchen, Analysieren und Visualisieren vieler Dokumente durch automatische Extrahieren und Indexieren von Text, automatische Texterkennung (OCR), Tagging und Annotation, Extrahieren von Namen, Orten und Organisationen (Named Entities Extraction), Anreicherung mit weiteren Datenquellen, Listen und Wörterbüchern (Thesauri) oder Open Data sowie Text Mining und Document Mining Methoden.

Dank freier Software und Open Source Recherche-Tools müssen dazu sensible Daten nicht an sogenannte Cloud-Dienste bzw. fremde Computer und Festplatten der Industrie wie z.B. Amazon oder Google übermittelt werden.