Lista completă de cuvinte presupun că aş putea să o scot din baza de
date de la dexonline, cred că ar fi cel mai sigur că avem toate
cuvintele din dicţionar, nu ?
Nu tocmai. Pe lângă posibilitatea de a fi introduse greşit mai este şi
posibilitatea (zic eu foarte mare) ca unele cuvinte să nu fie în acea bază
de date - şi aici mă refer la formele flexioanare: vezi
http://www.archeus.ro/lingvistica/CautareTextDex?query=c%C4%83milelor&lang=ro.


On 27/04/07, Alexandru Szasz <[EMAIL PROTECTED]> wrote:

Eu pot ajuta tehnic pe oricine e dispus să colaboreze din punct de
vedere lingvistic, cu fond de cuvinte, etc.

Lista completă de cuvinte presupun că aş putea să o scot din baza de
date de la dexonline, cred că ar fi cel mai sigur că avem toate
cuvintele din dicţionar, nu ?

În data de 27.04.2007, Ionut Paduraru <[EMAIL PROTECTED]> a
scris:
> Dispun de o listă destul de completă de cuvinte din limba română
(inclusiv
> forme flexionare). Cum pot ajunge de la această listă la un dicţionar
> ortografic? Trebuie să elimin intrările care se pot determina pe baza
> regulilor? Şi dacă da, cum obţin regulile?
> Nu ştiu cum funcţionează corectorul ortografic, dar bănuiesc că o listă
de
> câteva sute de mii de cuvinte ar întreuna foarte mult viteza de
procesare.
> Mă poate ajuta cineva?
>
> Ionuţ Păduraru.
>
>
>
> On 27/04/07, Sorin Sbarnea <[EMAIL PROTECTED]> wrote:
> >
> > Salutari,
> >
> > M-am gandit sa va dau cateva hinturi legate de dictionarul ortografic:
> > affix-urile sunt folosite doar pentru a compresa dictionarul si nu
> > trebuie sa replice toate regulile gramaticale ci este doar un
"algoritm"
> > de compresie a unui dictionar ortografic sortat. (20 de reguli sunt
> > arhi-suficiente pentru compresie).
> >
> > Numarul de reguli introduse nu trebuie sa fie prea mare deoarece va
> > scadea exponential viteza de cautare in dictionar.
> >
> > PS. Realizarea unui dictionar folosind colectii de texte ar fi o mare
> > greseala deoarece greselile identice sunt frecvente si nu vor putea fi
> > identificare prin metode statistice.
> >
> > Acum daca colectia de texte ar fi un dictionar ortografic al limbii
> > romane ar putea fi un punct de pornire ;)
> >
> > Sorin Sbarnea
> >
> >
>


--
Alexandru Szasz

Raspunde prin e-mail lui