Motori di ricerca desktop
Durante la preparazione per esami non mi piaceva cercare manualmente in PDF, Word e altri file. Per questo ho iniziato a cercare motori di ricerca desktop.
I criteri per le applicazioni testate erano:
- La possibilità di costruire un indice per consentire ricerche rapide.
- Almeno il supporto per i file PDF.
- Funzione di anteprima.
- Open source se possibile.
Docfetcher
Docfetcher utilizza Apache Lucene che permette una ricca sintassi per le ricerche, per esempio wildcards, la ricerca frasi e ricerche fuzzy.
L’interfaccia utente è organizzata perspicua e la funzione di anteprima è fluida e veloce.
Tra tutti i programmi testati, Docfetcher è il mio preferito.
Purtroppo c’è un bug dopo l’aggiornamento 261 di Java 8 che rende il programma non eseguibile.
Un bugfix per il software open source è annunciato per l’inizio del 2021. Oltre alla versione open source, esiste una versione Pro con un’ampia gamma di funzioni.
Pro
- Indipendente dalla piattaforma.
- Interfaccia utente (funzione di anteprima).
- Sono possibili ricerche complesse.
Contro
Attualmente eseguibile solo con la vecchia versione Java.- Versione Pro non é open source.
regain
regain è molto snello in termini di entità. Il motore di ricerca è alimentato da Apache Lucene e di conseguenza consente l’utilizzo di operatori di ricerca complessi. L’accesso alla maschera di ricerca avviene tramite un browser. I risultati della ricerca appaiono come un elenco con una breve ma non necessariamente utile anteprima. Tuttavia, è pratico che i risultati della ricerca possano essere aperti immediatamente nel browser, se il formato è supportato. La ricerca è veloce, ma bisogna cercare di nuovo nel documento stesso. Il progetto sembra non essere più sviluppato attivamente. La versione più recente risale al 2014.
Pro
- Velocità.
- Sono possibili ricerche complesse.
Contro
- Molto rudimentale (nessun filtro, anteprima non molto utile).
- Nessun ulteriore sviluppo per un bel po’ di tempo.
Open Semantic Search
Il software di ricerca gratuito Open Semantic Search offre una vasta gamma di strumenti per analizzare, organizzare e cercare dati non strutturati. I componenti sono una ricerca full text (inclusi operatori di ricerca, ricerca fuzzy, ecc.) o una ricerca esplorativa per anteprima del documento nei risultati di ricerca e filtro interattivo. L’ambiente di ricerca è basato su Apache Solr ed Elasticsearch ed è offerto come “virtual machine image” che richiede un’installazione Virtual Box. La documentazione sul sito web rende facile l’inizio.
Pro
- Indipendente dalla piattaforma.
- Funzione di anteprima per i risultati della ricerca (possibile testo in chiaro e embed).
- Supporto per modalità di ricerca multiple.
Contro
- Dipendenza da Virtual Box.
- Lentamente e computazionalmente intensivo.
DocSearcher
Lo strumento di ricerca multipiattaforma DocSearcher utilizza Apache Lucene, POI e PDF Box. La ricerca in numerosi formati di testo è supportata. L’installazione non è necessaria, basta decomprimere l’archivio scaricato ed eseguire il file JAR. I risultati della ricerca vengono visualizzati in un elenco, purtroppo senza anteprima.
Pro
- Indipendente dalla piattaforma.
- Sono possibili ricerche complesse.
Contro
- Nessuna anteprima.
Terrier
Terrier è un motore di ricerca open source sviluppato a l’Università di Glasgow. Terrier è sviluppato utilizzando il linguaggio di programmazione Java. La serie di funzioni è allo stato dell’arte nel information retrieval. La configurazione e l’indicizzazione avviene principalmente dalla linea di comando. Per la ricerca sono disponibili una versione “desktop-demo app” e una versione “web-based-terrier”, la cui funzionalità è limitata.
Pro
- Information retrieval sullo stato dell’arte.
Contro
- Configurazione complessa.
- Nessuna interfaccia utente, applicazioni demo non adatte ad un uso produttivo.