Salut, O idee de generare a unui dicţionar ar fi să se caute în bucăţi mari de text (scrise în limba română, cu diacritice :P) şi să se scoata cuvintele într-o bază de date (în care să se contorizeze şi numărul de apariţii). din această bază de date se pot scoate familiile de cuvinte pe baza asemănării între cuvinte, folosind expresii regulate (şi la extragere şi la grupare). Din punct de vedere statistic, cuvintele scrise greşit vor avea contorul mic şi vor putea fi eliminate (dacă populaţia este mare) iar cele cu contor mare sunt cele mai comune (şi care ar trebui introduse cât mai repede în dicţionar).
Din câte văd eu ar fi nevoie de: - cunoştinţe de programare cu expresii regulate - eu nu prea am - cunoştinţe de lingvistică (modul de formare al cuvintelor) - nici asta - multă determinare şi timp liber - timp nu prea am. - acces la net şi pc - rar şi dificil la ambele. Singura problemă ar fi că dictionarul nu va fi cu afixe (iniţial cel putin). Familiile de cuvinte (care sunt generate de la radical + sufixe şi/sau prefixe) ar putea fi în mare măsură extrase tot cu expresii regulate + sortare dacă ar fi un lingvist bun care să dea suficiente informaţii despre formarea cuvintelor. Un fond foarte bun ar fi dexonline, care contine atât cuvintele căt şi definiţiile acestor (text corect cu diacritice). Am făcut reuşit să scot cuvintele+ definiţiile de la dexonline.ro (dex.ro => baza de date în format sqlite), dar sunt în formatul intern (conţine multe caractere suplimentare) şi ar trebui filtrat. Cred că mai sunt probleme care nu-mi vin acum în minte, dar cred că ar fi un început bun. -- stan ioan-eugen <[EMAIL PROTECTED]>
signature.asc
Description: Aceast fişier face parte dintr-un mesaj semnnat
