Datenjournalismus Blog

Digitale datenjournalistische Datengeschichten eines für kritischen und unabhängigen Datenjournalismus bloggenden investigativen Datenjournalisten:

Suchmaschine Open Semantic Search integriert Datenvisualisierung von Verbindungen und Netzwerken bzw. Graphen

Die neue Version des Userinterfaces für Suche und Analyse der als Open Source Software frei verfügbaren Suchmaschine Open Semantic Search integriert nun weitere Datenvisualisierungen zur Visualisierung von Verbindungen und Netzwerken bzw. Graphen.

Dadurch wird ersichtlich, welche Entities wie z.B. Personen, Organisationen oder Tags mit welchen anderen zusammen in wie vielen Dokumenten vorkommen und damit Verbindungen und Zusammenhänge oder Gemeinsamkeiten und Ähnlichkeiten leichter sichtbar.

Dokumente erschliessen, durchsuchen, einordnen, filtern und analysieren mit datenschutzfreundlichen Open Source Recherche-Tools

Ob grösserer Leak oder Zusammenwürfeln oder wieder Erschliessen umfangreicherer (kollaborativer) Recherche(n) oder Archive: Hin und wieder müssen größere Datenberge bzw. Dokumentenberge erschlossen werden, die so viele Dokumente enthalten, dass Mensch diese Masse an Dokumenten nicht mehr alle nacheinander durchschauen und einordnen kann.

Moderne Tools zur Datenanalyse in Verbindung mit Enterprise Search Suchlösungen und darauf aufbauender Recherche-Tools helfen (halb)automatisch.

Tagging und Annotation für Suche und Recherche im investigativen Journalismus

Sogenanntes Social Tagging (kollaboratives Verschlagworten, Klassifizieren oder Kategorisieren) oder das Anhängen von Informationen oder Notizen (Annotieren) kann bei (kollaborativen) investigativen Recherchen sehr hilfreich sein, um nicht direkt auffindbare Inhalte besser auffindbar zu machen, indem sie auch über die zusätzlichen und bis dahin nicht im eigentlichen Inhalt vorhandenen aber dennoch für das Dokument und weitere Suchen relevanten Wörter auffindbar werden.

Automatisches Tagging bzw. sogenannte Named Entities Extraction hilft bzgl. automatisch generierter aggregierter Übersicht und Navigation durch automatisch generierte interaktive Filter (sogenannte Facettensuche).

Datenschutzfreundliche Recherche-Toolbox InvestigateIX mit vielen Neuerungen

Die neue Version der datenschutzfreundlichen Recherche-Toolbox InvestigateIX mit Suchmaschine für investigativen Journalismus bringt zahlreiche neue Features mit. Mit dem integrierten Named Entities Manager lassen sich Entities wie z.B. Organisationen, Personen oder Orte verwalten, die dann automatisch als Navigationsstruktur für explorative Suche bzw. Übersichten sowie als interaktive Filter (Facettensuche) verwendet werden. Dazu kommen Tools zum Scannen, die Literaturverwaltung Zotero und der Webcrawler HTTrack zum Crawlen und Archivieren ganzer Websites.

RSS-Feed Manager für Suchmaschine

Mit der Webapp RSS-Feed-Manager gibt es nun ein laiengerechtes User Interface für die Verwaltung und den Import von RSS-Newsfeeds in die Suchmaschine Open Semantic Search oder andere Apache Solr basierte Suchmaschinen.

Die damit importierten News können dann z.B. mittels weiterer Filter oder Regeln in differenzierte und aus passenden Inhalten bestehende andere oder neue Kanäle oder Rubriken geleitet werden.

Diese aus vielen verschiedenen Quellen zusammengestellten und nach eigenen Kriterien gefilterten, aufgesplitteten oder zusammengestellten neuen Kanäle können wiederum als RSS-Newsfeeds zur Verfügung gestellt werden.

Neue Version der datenschutzfreundlichen Recherche-Toolbox InvestigateIX erschienen

Die neue Version des Live-Systems InvestigateIX ist zum Download verfügbar.

Das Live-System ermöglicht Laien wie z.B. investigativen Journalisten eine abgeschottete und verschlüsselte Umgebung bzw. Suchmaschine zum Durchsuchen vieler Dokumente auf einem verschlüsselten USB-Stick oder einer verschlüsselten externen Festplatte aufzusetzen.

In der neuen Version ist nun auch das Recherche-Tool bzw. die Such-Applikation "Suche mit Listen" integriert, mit denen sich schnell und komfortabel abgleichen lässt, ob es zu den einzelnen Einträgen in Listen jeweils Treffer in der durchsuchbaren Dokumentensammlung gibt.

Mittels unscharfer Suche findet das Tool auch Ergebnisse, die in fehlerhaften oder unterschiedlichen Schreibweisen vorliegen

Unscharfe Suche mit Listen für umfangreichere Recherchen

If you have not only some search queries but a whole list (i.e. a list of company names) and you want to search for every entry of this list, if there are results in your data, you can use the listsearch webapp. The new version supports fuzzy search, so that your search with lists will find even results that are similar, i.e. because of typos, missing parts of the company name or OCR errors while automatic text recognition.

Mehr zur Suche mit Listen.

Tutorial: Grosse CSV Tabellen strukturiert indexieren, sichten, durchsuchen und filtern

Strukturierte Daten werden oft in Tabellenform im CSV-Format gespeichert oder können in diesem Format exportiert werden.

Meist lassen sich solche Dateien problemlos mit Tabellenkalkulationsprogrammen wie Excel oder OpenOffice Calc öffnen, anschauen und nach Stichworten durchsuchen.

Doch mittlerweile gibt es öfter mal Daten im CSV-Format, deren Datenmenge zu gross ist, um diese mit Tabellenkalkulationen wie Excel oder Open Office Calc öffnen und / oder komfortabel durchsuchen zu können.

Responsive tables

The table view of Open Semantic Search now is responsive, so you can scroll the columns to left or right using the swipe gesture or touch the icons to switch between columns if there are too many columns to display all of them on the screen.

Responsive tables are displayed by Tablesaw.

Search engine with automatic text recognition (OCR) for images inside PDF documents, Powerpoint presentations & ZIP archives

Text stored in image formats (i.e. scans, screenshots or photos) cant be found by standard fulltext search. So the search engine Open Semantic Search enriches meta data of images like filename, format and size with results from automatic text recognition (OCR).

Open-Source Whistleblowing-Plattform SecureDrop

Secure Drop

Die Open-Source Software SecureDrop ist ein digitaler Briefkasten für Whistleblower und Informanten, die Hinweise, Nachrichten, Dateien und Dokumente datenschutzfreundlich und verschlüsselt über das Tor-Anonymisierungsnetzwerk hochladen können.

Verschiedene Medien, investigative Journalisten und NGOs nutzen diese Einreichplattform bereits.

Im nun angebotenen SecureDrop Workshop ...

Anleitungen zu digitaler Selbstverteidigung und Selbstdatenschutz aktualisiert

Verschlüsseln

Dank Anregungen und Kritik aus den bereits zuvor statt gefundenen Workshops, Diskussionen und des in letzter Zeit durch Aufdeckung der Geheimdienst-Affairen um NSA, Prism, Tempora und co. noch breiteren Interesses gibt es nun die Anleitung für digitale Selbstverteidigung und Selbstdatenschutz aktualisiert und in etwas übersichtlichere bzw. auch mit kleineren Displays nutzbare Form gebracht.

Suchmaschine Open Semantic Search verfügbar

Open Semantic Search ist eine unabhängig und datenschutzfreundlich betreibbare Suchmaschine für JournalistInnen, Redaktionen, Bildungseinrichtungen, Vereine und NGOs die eine Suchlösung zum laiengerechten Durchsuchen auch sehr unübersichtlicher und/oder umfangreicher Datenbestände und Archive auf Fileservern (z.B. gewachsene Datenberge in Form von Dateien und Dokumenten in Verzeichnissen) und/oder im Intranet (z.B. Wiki oder CMS) oder für Recherchen in umfangreichen digitalen Dokumentenbeständen (z.B. PDF, Scans, Office-Dokumente oder Bilder) benötigen.

Kein blindes Vertrauen in Open Data

Bei allem Enthusiasmus wegen größerer Transparenz durch immer mehr zugängliche Daten ist in Zeiten von Greenwashing, Astroturfing, Suchmaschinenoptimierung und Neusprech gerade auch bei Daten, deren Veröffentlichung von vorne herein klar oder z.B. aufgrund aktueller Datenjournalismus und OpenData-Initiativen absehbar ist, die nötige Skepsis geboten.