----- Original Message -----
From: "Ionut Paduraru" <[EMAIL PROTECTED]>
To: <[email protected]>
Sent: Friday, April 27, 2007 9:11 PM
Subject: Re: [ro-dev] Corectorul ortografic (myspell/hunspell
dictionaries)
>>> >> Dintr-o listă completă de cuvinte care conţine şi formele
>>> >> fexionate
>>> >> se
> pot
>>> >> obţine pe bază de algoritm reguli bazate strict pe ideea de
>>> >> compresie.
>>> Nu sunt de-acord. Compresia este bună în cazul motoarelor de căutare,
> aici însă rezultatele ar fi departe de aşteptări
> Dacă mă gândesc mai bine... poate că mă înşel... Despre ce algoritm
> este
> vorba? Este deja implementat sau este încă la nivel teoretic. Adrian,
îmi
> poţi da mai multe detalii?
Descarcă http://lingucomponent.openoffice.org/MySpell-3.zip şi caută în
pachet "munch". Este scris în C. Nu l-am studiat, dar cred că conţine
algoritmul de compresie.
Eu nu am folosit decât "unmunch" pentru verificare.Pentru unmunch,
sintaxa
este "unmunch ro_RO.dic ro_RO.aff > ro_RO.txt", unde primul parametru
este
dicţionarul (sau partea din dicţionar pe care vrei să o verifici), al
doilea
parametru definiţiile de afixe. Rezultatul este lista de cuvinte. Munch
procedează invers: având lista completă de cuvinte încearcă să comprime
dicţionarul creând definiţii de afixe. Definiţiile astfel create nu au o
logică gramaticală ci încearcă doar să facă un dicţionar mai mic decât
lista
completă de cuvinte. Presupun că dacă îi dau o listă de cuvinte de genul:
pom, pomi, stejar, stejari, salcâm, salcâmi, va genera un dicţionar de 3
cuvinte pom, stejar, salcâm şi un sufix i pentru cele 3 cuvinte de bază.
Nu
am verificat asta. Este doar o presupunere. Oricum programul există şi
dacă
şti C, îl poţi studia.
În cazul în care ai lista completă de cuvinte, compilează-l şi
foloseşte-l.
Dacă nu, atunci cred că e mai bună varianta pe care am mers eu, cea cu
crearea aff-ului manual.
>
>
> On 27/04/07, Ionut Paduraru <[EMAIL PROTECTED]> wrote:
>>
>> >> Dintr-o listă completă de cuvinte care conţine şi formele fexionate
se
>> pot
>> >> obţine pe bază de algoritm reguli bazate strict pe ideea de
compresie.
>> Nu sunt de-acord. Compresia este bună în cazul motoarelor de căutare,
>> aici
>> însă rezultatele ar fi departe de aşteptări.
>>
>> On 27/04/07, Adrian Stoica <[EMAIL PROTECTED]> wrote:
>> >
>> > Dintr-o listă completă de cuvinte care conţine şi formele fexionate
se
>> > pot
>> > obţine pe bază de algoritm reguli bazate strict pe ideea de
compresie.
>> > În lipsa formelor flexionate însă, regulile gramaticale ajută la
>> > mărirea
>> >
>> > considerabilă a numărului de cuvinte din dicţionar.
>> >
>> > ----- Original Message -----
>> > From: "Ionut Paduraru" <[EMAIL PROTECTED]>
>> > To: < [email protected]>
>> > Sent: Friday, April 27, 2007 3:29 PM
>> > Subject: Re: [ro-dev] Corectorul ortografic (myspell/hunspell
>> > dictionaries)
>> >
>> >
>> > > Dispun de o listă destul de completă de cuvinte din limba română
>> > (inclusiv
>> > > forme flexionare). Cum pot ajunge de la această listă la un
dicţionar
>> > > ortografic? Trebuie să elimin intrările care se pot determina pe
baza
>> > > regulilor? Şi dacă da, cum obţin regulile?
>> > > Nu ştiu cum funcţionează corectorul ortografic, dar bănuiesc că o
>> > listă de
>> > > câteva sute de mii de cuvinte ar întreuna foarte mult viteza de
>> > procesare.
>> > > Mă poate ajuta cineva?
>> > >
>> > > Ionuţ Păduraru.
>> > >
>> > >
>> > >
>> > > On 27/04/07, Sorin Sbarnea < [EMAIL PROTECTED]> wrote:
>> > >>
>> > >> Salutari,
>> > >>
>> > >> M-am gandit sa va dau cateva hinturi legate de dictionarul
>> > ortografic:
>> > >> affix-urile sunt folosite doar pentru a compresa dictionarul si
>> > >> nu
>> > >> trebuie sa replice toate regulile gramaticale ci este doar un
>> > "algoritm"
>> > >> de compresie a unui dictionar ortografic sortat. (20 de reguli
sunt
>> > >> arhi-suficiente pentru compresie).
>> > >>
>> > >> Numarul de reguli introduse nu trebuie sa fie prea mare deoarece
va
>> > >> scadea exponential viteza de cautare in dictionar.
>> > >>
>> > >> PS. Realizarea unui dictionar folosind colectii de texte ar fi o
>> > >> mare
>> >
>> > >> greseala deoarece greselile identice sunt frecvente si nu vor
putea
>> > fi
>> > >> identificare prin metode statistice.
>> > >>
>> > >> Acum daca colectia de texte ar fi un dictionar ortografic al
limbii
>> > >> romane ar putea fi un punct de pornire ;)
>> > >>
>> > >> Sorin Sbarnea
>> > >>
>> > >>
>> > >
>> >
>> > ---------------------------------------------------------------------
>> > To unsubscribe, e-mail: [EMAIL PROTECTED]
>> > For additional commands, e-mail: [EMAIL PROTECTED]
>> >
>> >
>>
>
---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]