Desktop Search Engines

Beim Vorbereiten auf Prüfungen missfiel es mir ständig manuell in PDF, Word und weiteren Dateien herumzusuchen. Deshalb habe ich mich auf die Suche nach Desktop Suchmaschinen gemacht.

Meine Anforderungen sind:

  • Die Möglichkeit einen Index aufzubauen, um eine schnelle Suche zu ermöglichen.
  • Mindestens die Unterstützung von PDF Dateien.
  • Vorschau Funktion.
  • Wenn möglich Open Source.

Nachfolgend die Programme welche ich getestet habe.

Docfetcher

Screenshot docfetcher Suchresultate.

Docfetcher benutzt Apache Lucene wodurch für Suchanfragen eine reichhaltige Syntax zur Verfügung steht, welche z.B. Wildcards, Phrasen- und Fuzzy-Suchen ermöglicht. Die Benutzeroberfläche ist übersichtlich und die Vorschaufunktion ist flüssig und schnell. Von allen getesteten Programmen ist Docfetcher mein Favorit. Leider existiert seit Java 8 Update 261 ein Bug wodurch das Programm nicht mehr lauffähig ist. Ein Bugfix für die Open Source Software ist auf Anfang 2021 angekündigt. Ab dann wird die Software in zwei Versionen weitergeführt. Einer Basic und kostenpflichtiger Pro Version.

Pro

  • Plattformunabhängig.
  • User Interface (Vorschaufunktion).
  • Komplexe Suchanfragen möglich.

Kontra

  • Zurzeit nur mit älterer Java Version ausführbar.

regain

Screenshot regain Suchresultate.

regain ist im Umfang sehr schlank. Betrieben wird die Suchmaschine mit Apache Lucene und erlaubt entsprechend die Verwendung von komplexen Suchoperatoren. Die Suchmaske wird über einen Browser erreicht. Die Suchresultate erscheinen als Liste mit einer kurzen aber nicht unbedingt hilfreichen Textvorschau. Praktisch ist allerdings, dass sich die Suchresultate, sofern das Format unterstützt wird, gleich im Browser öffnen lassen. Die Suche ist schnell, allerdings muss man im Dokument selbst, erneut suchen. Das Projekt wird nicht mehr aktiv weiterentwickelt. Die aktuellste Version stammt aus dem Jahr 2014.

Pro

  • Geschwindigekit.

Kontra

  • Sehr rudimentär (keine Filter, Vorschau nicht hilfreich).
  • Keine aktive Weiterentwicklung.
Screenshot Open Semantic Search Suchresultate.

Die freie Recherche-Software Open Semantic Search bietet eine Fülle an Werkzeugen, um unstrukturierte Daten zu analysieren, ordnen und durchsuchen. Bestandteile sind eine Volltext Suche (ink. Suchoperatoren, Fuzzy Search, etc.) oder exploratives Suchen durch Dokumentenvorschau in Suchresultaten und interaktiven Filter. Die Suchumgebung basiert auf Apache Solr und Elasticsearch und wird als «virtual machine image» angeboten was eine Virtual Box Installation voraussetzt. Die Dokumentation auf der Webseite vereinfacht den Einstieg.

Pro

  • Plattformunabhängig.
  • Vorschau Funktion bei Suchergebnissen (Plain Text und Embed möglich).
  • Unterstützung mehrerer Suchmodi.

Kontra

  • Abhängigkeit zu Virtual Box.
  • Dadurch langsam und rechenintensiv.

DocSearcher

Screenshot DocSearcher Suchresultate.

Das Plattformübergreifende Suchwerkzeug DocSearcher verwendet Apache Lucene, POI und PDF Box. Unterstütz wird die Suche in zahlreiche Textformaten. Installation ist keine nötig, es reicht das heruntergeladene Archiv zu entpacken und anschliessend die JAR Datei auszuführen. Die Suchresultate werden in einer Liste angezeigt, leider ohne Vorschau.

Pro

  • Plattformunabhängig.
  • komplexe Suchanfragen möglich.

Kontra

  • Keine Vorschau.

Terrier

Screenshot Terrier Demo App.

Terrier ist eine Open Source Suchmaschine, welche an der Universität Glasgow entwickelt wird. Terrier wird mit der Programmiersprache Java entwickelt. Der Funktionsumfang entspricht dem State of the Art des Information Retrieval. Konfiguration und Indexierung wird vornehmlich über die Kommandozeile vorgenommen. Für die Suche stehen eine «Desktop-Demo-App» und «Web-based-terrier» Version zur Verfügung, welche im Funktionsumfang beschränkt sind.

Pro

  • State of the Art Information Retrieval.

Kontra

  • Aufwendige Konfiguration.
  • Keine UI, Demo Apps nicht für produktiven Einsatz geeignet.