Desktop Search Engines
Beim Vorbereiten auf Prüfungen missfiel es mir ständig manuell in PDF, Word und sonstigen Dateien zu suchen. Deshalb habe ich mich auf die Suche nach Desktop Suchmaschinen gemacht.
Kriterien für die getesteten Anwendungen waren:
- Die Möglichkeit einen Index aufzubauen, um eine schnelle Suche zu ermöglichen.
- Mindestens die Unterstützung von PDF Dateien.
- Vorschau.
- Vorzugsweise Open Source.
Docfetcher

Docfetcher benutzt Apache Lucene wodurch für Suchanfragen eine reichhaltige Syntax zur Verfügung steht, welche z.B. Wildcards, Phrasen- und Fuzzy-Suchen ermöglicht. Die Benutzeroberfläche ist übersichtlich und die Vorschaufunktion ist flüssig und schnell. Von allen getesteten Programmen ist Docfetcher mein Favorit.
Leider existiert seit Java 8 Update 261 ein Bug wodurch das Programm nicht mehr lauffähig ist. Ein Bugfix für die Open Source Software ist auf Anfang 2021 angekündigt. Neben der Open Source Version gibt es eine Pro Version mit erweiterten Funktionsumfang.
Pro
- Plattformunabhängig.
- User Interface (Vorschaufunktion).
- Komplexe Suchanfragen möglich.
Kontra
Zurzeit nur mit älterer Java Version ausführbar.- Pro Version ist nicht Open Source.
regain

regain ist im Umfang sehr schlank. Betrieben wird die Suchmaschine mit Apache Lucene und erlaubt entsprechend die Verwendung von komplexen Suchoperatoren. Die Suchmaske wird über einen Browser erreicht. Die Suchresultate erscheinen als Liste mit einer kurzen aber nicht unbedingt hilfreichen Textvorschau. Praktisch ist allerdings, dass sich die Suchresultate, sofern das Format unterstützt wird, gleich im Browser öffnen lassen. Die Suche ist schnell, allerdings muss man im Dokument selbst, erneut suchen. Das Projekt wird nicht mehr aktiv weiterentwickelt. Die aktuellste Version stammt aus dem Jahr 2014.
Pro
- Geschwindigkeit.
Kontra
- Sehr rudimentär (keine Filter, Vorschau nicht hilfreich).
- Keine aktive Weiterentwicklung.
Open Semantic Search

Die freie Recherche-Software Open Semantic Search bietet eine Fülle an Werkzeugen, um unstrukturierte Daten zu analysieren, ordnen und durchsuchen. Bestandteile sind eine Volltext Suche (ink. Suchoperatoren, Fuzzy Search, etc.) oder exploratives Suchen durch Dokumentenvorschau in Suchresultaten und interaktiven Filter. Die Suchumgebung basiert auf Apache Solr und Elasticsearch und wird als «virtual machine image» angeboten was eine Virtual Box Installation voraussetzt. Die Dokumentation auf der Webseite vereinfacht den Einstieg.
Pro
- Plattformunabhängig.
- Vorschau Funktion bei Suchergebnissen (Plain Text und Embed möglich).
- Unterstützung mehrerer Suchmodi.
Kontra
- Abhängigkeit zu Virtual Box.
- Dadurch langsam und rechenintensiv.
DocSearcher

Das Plattformübergreifende Suchwerkzeug DocSearcher verwendet Apache Lucene, POI und PDF Box. Unterstütz wird die Suche in zahlreiche Textformaten. Installation ist keine nötig, es reicht das heruntergeladene Archiv zu entpacken und anschliessend die JAR Datei auszuführen. Die Suchresultate werden in einer Liste angezeigt, leider ohne Vorschau.
Pro
- Plattformunabhängig.
- komplexe Suchanfragen möglich.
Kontra
- Keine Vorschau.
Terrier
![Screenshot Terrier Demo App.]](terrier-screenshot.png)
Terrier ist eine Open Source Suchmaschine, welche an der Universität Glasgow entwickelt wird. Terrier wird mit der Programmiersprache Java entwickelt. Der Funktionsumfang entspricht dem State of the Art des Information Retrieval. Konfiguration und Indexierung wird vornehmlich über die Kommandozeile vorgenommen. Für die Suche stehen eine «Desktop-Demo-App» und «Web-based-terrier» Version zur Verfügung, welche im Funktionsumfang beschränkt sind.
Pro
- State of the Art Information Retrieval.
Kontra
- Aufwendige Konfiguration.
- Keine UI, Demo Apps nicht für produktiven Einsatz geeignet.