On Tue, Mar 3, 2020 at 12:44 AM Uberto Barbini uberto.g...@gmail.com [it-torino-java-jug] <it-torino-java-jug@yahoogroups.com> wrote:
> > > Se hai piu' lingue, ognuna va gestita separatamente per via dello stemming. > La lista dei separatori delle parole la trovi facilmente online. Anche se > ne perdi qualcuna non e' un dramma comunque. > Per esperienza su un CMS in house piuttosto grosso (Vodafone): il fai da > te e' tranquillo e sicuro, ma limitato. Pero' noi in poche settimane lo > avevamo implementato, per integrarsi poi con Solr un altro team ci ha > lavorato per piu' di un anno. > Certo il risultato finale era molto piu' avanzato e permetteva query > "simil Google". > > Con Raf abbiamo lavorato per anni con Lucene direttamente. E non solo. Da ingegnere, grazie alle nostre linguiste, ho avuto l'opportunita' di scoprire il mondo magico delle lingue. Ed anche di imparare un po' di italiano :) Ricordo ancora con affetto il primo tokenizer per l'analisi linguistica: funzionava benissimo sui testi "puliti" di documenti scritti da esseri senzienti. Appena gli abbiamo dato in pasto testi presi a caso da internet, scritti dalle capre, e' semplicemente esploso. Per chi volesse approfondire l'argomento, un testo: https://www.manning.com/books/relevant-search FRANK -- Roberto Franchini "The impossible is inevitable" https://github.com/robfrank/ https://twitter.com/robfrankie https://www.linkedin.com/in/robfrank