--- Marco Menardi wrote: > Salve, in passato ho collaborato alla realizzazione dell'ottimo > dizionario italiano per OOo, ma man mano che il lavoro progrediva, mi > sono reso conto di una grossa, inevitabile (con l'approccio corrente), > difficoltà : più lemmi erano inclusi, "peggio" funzionava.
Prima di tutto vorrei ringraziarti per l'aiuto :-) E poi ti dico come la penso io in proposito. In realtà fino a poco tempo fa è prevalsa l'azione di eliminazione di stringhe più che l'introduzione di nuove (erano presenti molti molte stringhe errate e purtroppo ce ne sono ancora ... vedere la documentazione per ulteriori dettagli). Infatti la dimesione del dizionario espansa si è notevolmente ridotta, attualmente vengono generate più di 22.000.000 di stringhe differenti (per maggiori informazioni puoi guardare il file statistiche.swc contenuto nelle ultime versioni del dizionario: http://sourceforge.net/projects/linguistico) > Se il dizionario è molto vasto, diventa sempre più probabile che una > parola di uso corrente, scritta male, corrisponda invece ad un'altra > parola meno comune, per cui non mi viene segnato l'errore. il problema principale è che per un gruppo di persone un termine può essere di uso comune e per altre non venir mai usato. Penso che in generale sia molto complesso stabilire se un termine è comune o meno. > es. mettiamo che "mama" sia una pianta sub-tropicale. come detto nel dizionario sono presenti generazioni errate ... è probabile che la stringa mama sia generata in modo errato, anche se poi il termine come dici esiste. Se devo essere sincero termini come questo che non vengono trovati su dizionari "generalistici" vengono di solito eliminati. Non vorrei che mama sia stato messo erroneamente come femminile di mamo. > Proposta: > ogni parola/verbo dovrebbe avere associato un "peso", un valore che > indica quanto sia comune. Le parole errate andrebbero sottolineate in > rosso, mentre quelle meno comuni con un altro colore, così da richiamare > l'attenzione. non dico che la tua proposta non sia valida, ma prima di prenderla in considerazione bisognerebbe convincere Kevin Handricks e chi gestisce il progetto OOo di questo cambio. In altre parole fino a quando non si è deciso per lo meno che verrà implementata tale funzionalità all'interno di MySpell mi sembra inutile pensare di creare un dizionario che presenti tali informazioni aggiuntive. Posso solo dire che la struttura attuale mal si adatta a inglobare in qualche modo tali informazioni perché le stringhe che compongono un dizionario sono in realtà "compresse". Come detto il dizionario italiano decompresso è composto da più di 22.000.000 di stringhe differenti, mentre quando è compresso le radici (parole che generano da 0 a n stringhe) sono poco più di 91.000 (questo è il file it_IT.dic); l'espansione si ha usando il file delle regole (it_IT.aff). Il problema principale è che ci sono parole generate da altre senza che la parola generata e quella "generante" abbiano tra loro nessuna affinità . Proporre un dizionario espanso (che occupa centinaia di mega) non penso sia proponibile. Quindi quello che penso è che se si vuole proporre una cosa del genere bisogna prima trovare una soluzione su come e dove inserire tale informazione senza generare file di dimensioni maggiori dell'intero OOo. Ciao Davide Linux User: 302090: http://counter.li.org Prodotti consigliati: Sistema operativo: Debian: http://www.it.debian.org Strumenti per l'ufficio: OpenOffice.org: http://it.openoffice.org Database: PostgreSQL: http://www.postgres.org Browser: FireFox: http://www.mozilla.org/products/firefox/ Client di posta: Thunderbird: http://www.mozilla.org/products/thunderbird/ -- Non autorizzo la memorizzazione del mio indirizzo di posta a chi usa outlook: non voglio essere invaso da spam __________________________________________________ Do You Yahoo!? Tired of spam? Yahoo! Mail has the best spam protection around http://mail.yahoo.com --------------------------------------------------------------------- To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]
