Lista completă de cuvinte presupun că aş putea să o scot din baza de date de la dexonline, cred că ar fi cel mai sigur că avem toate cuvintele din dicţionar, nu ?
Nu tocmai. Pe lângă posibilitatea de a fi introduse greşit mai este şi posibilitatea (zic eu foarte mare) ca unele cuvinte să nu fie în acea bază de date - şi aici mă refer la formele flexioanare: vezi http://www.archeus.ro/lingvistica/CautareTextDex?query=c%C4%83milelor&lang=ro.
On 27/04/07, Alexandru Szasz <[EMAIL PROTECTED]> wrote:
Eu pot ajuta tehnic pe oricine e dispus să colaboreze din punct de vedere lingvistic, cu fond de cuvinte, etc. Lista completă de cuvinte presupun că aş putea să o scot din baza de date de la dexonline, cred că ar fi cel mai sigur că avem toate cuvintele din dicţionar, nu ? În data de 27.04.2007, Ionut Paduraru <[EMAIL PROTECTED]> a scris: > Dispun de o listă destul de completă de cuvinte din limba română (inclusiv > forme flexionare). Cum pot ajunge de la această listă la un dicţionar > ortografic? Trebuie să elimin intrările care se pot determina pe baza > regulilor? Şi dacă da, cum obţin regulile? > Nu ştiu cum funcţionează corectorul ortografic, dar bănuiesc că o listă de > câteva sute de mii de cuvinte ar întreuna foarte mult viteza de procesare. > Mă poate ajuta cineva? > > Ionuţ Păduraru. > > > > On 27/04/07, Sorin Sbarnea <[EMAIL PROTECTED]> wrote: > > > > Salutari, > > > > M-am gandit sa va dau cateva hinturi legate de dictionarul ortografic: > > affix-urile sunt folosite doar pentru a compresa dictionarul si nu > > trebuie sa replice toate regulile gramaticale ci este doar un "algoritm" > > de compresie a unui dictionar ortografic sortat. (20 de reguli sunt > > arhi-suficiente pentru compresie). > > > > Numarul de reguli introduse nu trebuie sa fie prea mare deoarece va > > scadea exponential viteza de cautare in dictionar. > > > > PS. Realizarea unui dictionar folosind colectii de texte ar fi o mare > > greseala deoarece greselile identice sunt frecvente si nu vor putea fi > > identificare prin metode statistice. > > > > Acum daca colectia de texte ar fi un dictionar ortografic al limbii > > romane ar putea fi un punct de pornire ;) > > > > Sorin Sbarnea > > > > > -- Alexandru Szasz
