On Tue, Mar 3, 2020 at 12:44 AM Uberto Barbini [email protected]
[it-torino-java-jug] <[email protected]> wrote:

>
>
> Se hai piu' lingue, ognuna va gestita separatamente per via dello stemming.
> La lista dei separatori delle parole la trovi facilmente online. Anche se
> ne perdi qualcuna non e' un dramma comunque.
> Per esperienza su un CMS in house piuttosto grosso (Vodafone): il fai da
> te e' tranquillo e sicuro, ma limitato. Pero' noi in poche settimane lo
> avevamo implementato, per integrarsi poi con Solr un altro team ci ha
> lavorato per piu' di un anno.
> Certo il risultato finale era molto piu' avanzato e permetteva query
> "simil Google".
>
>
Con Raf abbiamo lavorato per anni con Lucene direttamente. E non solo.
Da ingegnere, grazie alle nostre linguiste, ho avuto l'opportunita' di
scoprire il mondo magico delle lingue. Ed anche di imparare un po' di
italiano :)
Ricordo ancora con affetto il primo tokenizer per l'analisi linguistica:
funzionava benissimo sui testi "puliti" di documenti scritti da esseri
senzienti.
Appena gli abbiamo dato in pasto testi presi a caso da internet, scritti
dalle capre,  e' semplicemente esploso.

Per chi volesse approfondire l'argomento, un testo:
https://www.manning.com/books/relevant-search

FRANK

-- 
Roberto Franchini
"The impossible is inevitable"
https://github.com/robfrank/
https://twitter.com/robfrankie
https://www.linkedin.com/in/robfrank

Reply via email to