Re: [ro-dev] Corectorul ortografic (myspell/hunspell dictionaries)

stan ioan-eugen Thu, 19 Apr 2007 12:56:04 -0700

Salut,

O idee de generare a unui dicţionar ar fi să se caute în bucăţi mari de
text (scrise în limba română, cu diacritice :P) şi să se scoata
cuvintele într-o bază de date (în care să se contorizeze şi numărul de
apariţii). din această bază de date se pot scoate familiile de cuvinte
pe baza asemănării între cuvinte, folosind expresii regulate (şi la
extragere şi la grupare). Din punct de vedere statistic, cuvintele
scrise greşit vor avea contorul mic şi vor putea fi eliminate (dacă
populaţia este mare) iar cele cu contor mare sunt cele mai comune (şi
care ar trebui introduse cât mai repede în dicţionar).


Din câte văd eu ar fi nevoie de:
- cunoştinţe de programare cu expresii regulate - eu nu prea am
- cunoştinţe de lingvistică (modul de formare al cuvintelor) - nici asta
- multă determinare şi timp liber - timp nu prea am.
- acces la net şi pc - rar şi dificil la ambele.

Singura problemă ar fi că dictionarul nu va fi cu afixe (iniţial cel
putin). Familiile de cuvinte (care sunt generate de la radical + sufixe
şi/sau prefixe) ar putea fi în mare măsură extrase tot cu expresii
regulate + sortare dacă ar fi un lingvist bun care să dea suficiente
informaţii despre formarea cuvintelor.

Un fond foarte bun ar fi dexonline, care contine atât cuvintele căt şi
definiţiile acestor (text corect cu diacritice). Am făcut reuşit să scot
cuvintele+ definiţiile de la dexonline.ro (dex.ro => baza de date în
format sqlite), dar sunt în formatul intern (conţine multe caractere
suplimentare) şi ar trebui filtrat.

Cred că mai sunt probleme care nu-mi vin acum în minte, dar cred că ar
fi un început bun.

-- 
stan ioan-eugen <[EMAIL PROTECTED]>

signature.asc
Description: Aceast fişier face parte dintr-un mesaj semnnat

Re: [ro-dev] Corectorul ortografic (myspell/hunspell dictionaries)

Raspunde prin e-mail lui