Datenschutzfreundliche Recherche-Toolbox InvestigateIX mit vielen Neuerungen

Die datenschutzfreundliche Recherche-Toolbox InvestigateIX mit Suchmaschine für investigativen Journalismus ist in Version Beta 11 bzw. 15.03.15 erschienen.

Das Live-System ermöglicht Laien wie z.B. investigativ recherchierenden Journalisten eine abgeschottete und verschlüsselte Umgebung bzw. Suchmaschine zum Durchsuchen vieler Dokumente auf einem verschlüsselten USB-Stick oder einer verschlüsselten externen Festplatte aufzusetzen.

Es sendet weder Inhalte der Dokumente noch Suchbegriffe in die sogenannte Cloud (es gibt keine Cloud, nur Computer anderer Leute oder Konzerne).

Die freie Software InvestigateIX sowie die enthaltene Suchmaschine Open Semantic Search sind als freie Open Source Software ist inklusive Quellcode zum Download verfügbar.

Die neue Version bringt zahlreiche neue Features und Verbesserungen mit:

Named Entity Manager zum Strukturieren der explorativen Suche bzw. zum Verwalten und automatischen Taggen von Named Entities wie z.B. Organisationen, Personen und Orte

Das nützlichste Feature für Nutzer_innen wird wohl die Integration des Named Entities Manager sein, mit dem sich Entities wie z.B. Organisationen, Personen oder Orte verwalten lassen, die dann automatisch als Navigationsstruktur für explorative Suche bzw. Übersichten sowie als interaktive Filter (Facettensuche) verwendet werden. Damit gibt es neben den Suchtreffern in der Seitenleiste zum jeweiligen Suchkontext eine aggregierte Übersicht in wie vielen der gefundenen Dokumente bestimmte Entities wie Organisationen gefunden wurden. Zugleich lassen sich diese als interaktiver Filter nutzen und die Ergebnisse durch einfachen Klick auf die Entities wie z.B. Organisationen weiter einschränken.

OCR von Grafiken und Scans in PDF Dokumenten

Grafiken und Scans innerhalb von PDF Dokumenten werden nun per Default mit Texterkennung bzw. OCR indexiert und zudem auch mittels Scantailor entzerrt, was bei manchen schiefen Scanns bessere Ergebnisse bringt. Einfach wie bei anderen Dokumentenarten gewohnt das PDF in den Dokumentenordner kopieren und abwarten, bis das automatische OCR und indexieren erledigt sind.

Zudem gibt es bei der Suche nun einen Filter "PDF Page" mit dem nur einzelne PDF-Seiten gesucht werden, falls ein PDF mal hunderte oder tausende Seiten enthält.

Highlighting der aktivierten interaktiven Filter in den Suchergebnissen

In den Suchergebnissen bzw. Snippets (den kurzen Textschnippseln rund um die Suchbegriffe zum schnellen Abschätzen des Inhalts bzw. Kontextes in dem die Suchbegriffe vorkommen) werden neben den bis dato schon (ähnlich wie bei einem gelben Marker) hervorgehobenen Suchbegriffen auch die Inhalte der aktivierten interaktiven Filter bzw. Facetten hervorgehoben, da die Suche ja auch auf die aktivierten Filter eingeschränkt wurde und damit die Inhalte der Facetten bzw. Filter ja auch zu den gesuchten Inhalten gehören.

Scannen

Es wurden diverse Tools zum Scannen integriert. Neben dem möglichst einfachen Simple Scan auch das komplexere XSane für höhere aber komplexere Ansprüche.

Archivierung von Websites

Zum Crawlen und Archivieren ganzer Websites ist HTTrack sowie die grafische Benutzeroberfläche WebHTTrack integriert.

Quellen verwalten mit Zotero

Die mächtige Quellen- und Literaturverwaltung Zotero verwaltet Quellen, Literatur und Notizen und speichert auf Knopfdruck eine lokale Kopie der aktuell im Webbrowser geöffneten Seite.

Upgrade auf Solr 5

Unter der Haube wurde auf das neue Solr 5 upgegraded und wo möglich die neuen original Solr Installations- und Steuerskripte verwendet, so dass Solr Admins auch bei tieferen Problemen ohne grössere Einarbeitung mit der Solr Instanz zurecht kommen sollten, da diese immer weniger vom Original-Paket abweicht.

Usability

Damit ist ein wichtiger für IT-affine Menschen bereits jetzt super nützliche Release bzw. Meilenstein erreicht und wir können uns vermehrt den oberflächlichen Aspekten widtmen, damit auch Laien mit den neuen mächtigen Features besser zurecht kommen und diese genau so einfach werden, wie bisher schon das Indexieren neuer Dokumente durch einfachen Menüpunkt "Datei oder Verzeichnis für Suche indexieren" im Kontextmenü des Filemanagers oder durch noch einfacheres Ablegen im Dokumenten-Ordner.

So wird nun noch an der Usability bzw. den User Interfaces gearbeitet, damit der momentan noch mit einer teilweise noch zu komplex erscheinenden Adminoberfläche daher kommende Named Entities Manager auch für technische Laien einfacher zu verstehen ist. Als Scribble auf Papier existiert schon eine laiengerechter Entwurf, wird aber für die Umsetzung nach Django und HTML5 noch einige Tage brauchen.

Auch soll dank der geplanten Formulare auch das Anlegen und Verwalten eigener Notizen im Semantic Mediawiki genauso einfach und übersichtlicher werden, wie das Taggen oder Annotieren bei der Suche.

Auch eine deutsche Version bzw. Tools zum Umstellen auf verschiedene Sprachen sind für März und April geplant.

Wer die Weiterentwicklung des Projekt beschleunigen möchte, kann uns per Paypal eine Spende oder einen Auftrag für bestimmte Features zukommen lassen. Ansonsten vielen Dank an bisherige Spender_innen und alle, die das Projekt in anderer Form unterstützt haben.