:) si si chiaro. Nel nostro caso la ricerca era su prodotti, descrizioni ecc. del nostro database quindi comunque roba "pulita".
Uberto On Tue, 3 Mar 2020 at 08:59, Roberto Franchini [email protected] [it-torino-java-jug] <[email protected]> wrote: > > > > > On Tue, Mar 3, 2020 at 12:44 AM Uberto Barbini [email protected] > [it-torino-java-jug] <[email protected]> wrote: > >> >> >> Se hai piu' lingue, ognuna va gestita separatamente per via dello >> stemming. >> La lista dei separatori delle parole la trovi facilmente online. Anche se >> ne perdi qualcuna non e' un dramma comunque. >> Per esperienza su un CMS in house piuttosto grosso (Vodafone): il fai da >> te e' tranquillo e sicuro, ma limitato. Pero' noi in poche settimane lo >> avevamo implementato, per integrarsi poi con Solr un altro team ci ha >> lavorato per piu' di un anno. >> Certo il risultato finale era molto piu' avanzato e permetteva query >> "simil Google". >> >> > Con Raf abbiamo lavorato per anni con Lucene direttamente. E non solo. > Da ingegnere, grazie alle nostre linguiste, ho avuto l'opportunita' di > scoprire il mondo magico delle lingue. Ed anche di imparare un po' di > italiano :) > Ricordo ancora con affetto il primo tokenizer per l'analisi linguistica: > funzionava benissimo sui testi "puliti" di documenti scritti da esseri > senzienti. > Appena gli abbiamo dato in pasto testi presi a caso da internet, scritti > dalle capre, e' semplicemente esploso.. > > Per chi volesse approfondire l'argomento, un testo: > https://www.manning.com/books/relevant-search > > FRANK > > -- > Roberto Franchini > "The impossible is inevitable" > https://github.com/robfrank/ > https://twitter.com/robfrankie > https://www.linkedin.com/in/robfrank > > >
