:) si si chiaro.

Nel nostro caso la ricerca era su prodotti, descrizioni ecc. del nostro
database quindi comunque roba "pulita".

Uberto

On Tue, 3 Mar 2020 at 08:59, Roberto Franchini [email protected]
[it-torino-java-jug] <[email protected]> wrote:

>
>
>
>
> On Tue, Mar 3, 2020 at 12:44 AM Uberto Barbini [email protected]
> [it-torino-java-jug] <[email protected]> wrote:
>
>>
>>
>> Se hai piu' lingue, ognuna va gestita separatamente per via dello
>> stemming.
>> La lista dei separatori delle parole la trovi facilmente online. Anche se
>> ne perdi qualcuna non e' un dramma comunque.
>> Per esperienza su un CMS in house piuttosto grosso (Vodafone): il fai da
>> te e' tranquillo e sicuro, ma limitato. Pero' noi in poche settimane lo
>> avevamo implementato, per integrarsi poi con Solr un altro team ci ha
>> lavorato per piu' di un anno.
>> Certo il risultato finale era molto piu' avanzato e permetteva query
>> "simil Google".
>>
>>
> Con Raf abbiamo lavorato per anni con Lucene direttamente. E non solo.
> Da ingegnere, grazie alle nostre linguiste, ho avuto l'opportunita' di
> scoprire il mondo magico delle lingue. Ed anche di imparare un po' di
> italiano :)
> Ricordo ancora con affetto il primo tokenizer per l'analisi linguistica:
> funzionava benissimo sui testi "puliti" di documenti scritti da esseri
> senzienti.
> Appena gli abbiamo dato in pasto testi presi a caso da internet, scritti
> dalle capre,  e' semplicemente esploso..
>
> Per chi volesse approfondire l'argomento, un testo:
> https://www.manning.com/books/relevant-search
>
> FRANK
>
> --
> Roberto Franchini
> "The impossible is inevitable"
> https://github.com/robfrank/
> https://twitter.com/robfrankie
> https://www.linkedin.com/in/robfrank
>
> 
>

Reply via email to