Motori di ricerca desktop

Durante la preparazione per esami non mi piaceva cercare manualmente in PDF, Word e altri file. Per questo ho iniziato a cercare motori di ricerca desktop.

Una lente d'ingrandimento si posa sui documenti digitali.
Illustrazione: Boxicons. Composizione: Gionathan Diani.

I criteri per le applicazioni testate erano:

  • La possibilità di costruire un indice per consentire ricerche rapide.
  • Almeno il supporto per i file PDF.
  • Funzione di anteprima.
  • Open source se possibile.

Docfetcher

Screenshot risultati ricerca docfetcher.

Docfetcher utilizza Apache Lucene che permette una ricca sintassi per le ricerche, per esempio wildcards, la ricerca frasi e ricerche fuzzy. L’interfaccia utente è organizzata perspicua e la funzione di anteprima è fluida e veloce. Tra tutti i programmi testati, Docfetcher è il mio preferito. Purtroppo c’è un bug dopo l’aggiornamento 261 di Java 8 che rende il programma non eseguibile. Un bugfix per il software open source è annunciato per l’inizio del 2021. Oltre alla versione open source, esiste una versione Pro con un’ampia gamma di funzioni.

Pro

  • Indipendente dalla piattaforma.
  • Interfaccia utente (funzione di anteprima).
  • Sono possibili ricerche complesse.

Contro

  • Attualmente eseguibile solo con la vecchia versione Java.
  • Versione Pro non é open source.

regain

Screenshot riacquista risultati di ricerca.

regain è molto snello in termini di entità. Il motore di ricerca è alimentato da Apache Lucene e di conseguenza consente l’utilizzo di operatori di ricerca complessi. L’accesso alla maschera di ricerca avviene tramite un browser. I risultati della ricerca appaiono come un elenco con una breve ma non necessariamente utile anteprima. Tuttavia, è pratico che i risultati della ricerca possano essere aperti immediatamente nel browser, se il formato è supportato. La ricerca è veloce, ma bisogna cercare di nuovo nel documento stesso. Il progetto sembra non essere più sviluppato attivamente. La versione più recente risale al 2014.

Pro

  • Velocità.
  • Sono possibili ricerche complesse.

Contro

  • Molto rudimentale (nessun filtro, anteprima non molto utile).
  • Nessun ulteriore sviluppo per un bel po’ di tempo.

Screenshot Open Semantic Search Suchresultate.

Il software di ricerca gratuito Open Semantic Search offre una vasta gamma di strumenti per analizzare, organizzare e cercare dati non strutturati. I componenti sono una ricerca full text (inclusi operatori di ricerca, ricerca fuzzy, ecc.) o una ricerca esplorativa per anteprima del documento nei risultati di ricerca e filtro interattivo. L’ambiente di ricerca è basato su Apache Solr ed Elasticsearch ed è offerto come “virtual machine image” che richiede un’installazione Virtual Box. La documentazione sul sito web rende facile l’inizio.

Pro

  • Indipendente dalla piattaforma.
  • Funzione di anteprima per i risultati della ricerca (possibile testo in chiaro e embed).
  • Supporto per modalità di ricerca multiple.

Contro

  • Dipendenza da Virtual Box.
  • Lentamente e computazionalmente intensivo.

DocSearcher

Screenshot DocSearcher risultati di ricerca.

Lo strumento di ricerca multipiattaforma DocSearcher utilizza Apache Lucene, POI e PDF Box. La ricerca in numerosi formati di testo è supportata. L’installazione non è necessaria, basta decomprimere l’archivio scaricato ed eseguire il file JAR. I risultati della ricerca vengono visualizzati in un elenco, purtroppo senza anteprima.

Pro

  • Indipendente dalla piattaforma.
  • Sono possibili ricerche complesse.

Contro

  • Nessuna anteprima.

Terrier

Screenshot Terrier Demo App.

Terrier è un motore di ricerca open source sviluppato a l’Università di Glasgow. Terrier è sviluppato utilizzando il linguaggio di programmazione Java. La serie di funzioni è allo stato dell’arte nel information retrieval. La configurazione e l’indicizzazione avviene principalmente dalla linea di comando. Per la ricerca sono disponibili una versione “desktop-demo app” e una versione “web-based-terrier”, la cui funzionalità è limitata.

Pro

  • Information retrieval sullo stato dell’arte.

Contro

  • Configurazione complessa.
  • Nessuna interfaccia utente, applicazioni demo non adatte ad un uso produttivo.