Re: [ro-dev] Corectorul ortografic (myspell/hunspell dictionaries)

Ionut Paduraru Mon, 30 Apr 2007 01:26:46 -0700

Superb, este întocmai ce căutam!
Din discuţia cu Alexandru Szasz am înţeles că, la limită, se poate crea un
dicţionar fară afixe (.aff) şi ca atare am creat pentru moment un dicţionar
'brut', am savlat lista de cuvinte într-un fişier cu extensia .dic şi i-am
ataşat un fişier .aff aproape gol. Rezultatul este excepţional: pentru cele
câteva texte pe care am testat, numărul de cuvinte care nu apar în dicţionar
este extrem de redus. Sunt de-a dreptul încântat! Fişierul are cam 6M, dar
cu siguranţă "munch" va face treabă bună.


Versiunea actuală este disponibilă la
http://www.archeus.ro/Download/OpenOffice/CorectorOrtografic/ro_RO.7z , are
doar cele două fişiere, fară kit de instalare - fişierele vor trebui
copiate/instalate manual în OpenOffice.
Repet, sunt de-a dreptul încântat de rezultat.

Mulţumesc tuturor pentru ajutor. Voi reveni cu detalii despre starea
dicţionarului.

Care sunt şansele de a-l întegra în versiunea standard de OpenOffice, cum
trebuie procedat? Cu siguranţă va fi util şi altora.


On 30/04/07, Adrian Stoica <[EMAIL PROTECTED]> wrote:


----- Original Message -----
From: "Ionut Paduraru" <[EMAIL PROTECTED]>
To: <[email protected]>
Sent: Friday, April 27, 2007 9:11 PM
Subject: Re: [ro-dev] Corectorul ortografic (myspell/hunspell
dictionaries)


>>> >> Dintr-o listă completă de cuvinte care conţine şi formele fexionate
>>> >> se
> pot
>>> >> obţine pe bază de algoritm reguli bazate strict pe ideea de
>>> >> compresie.
>>> Nu sunt de-acord. Compresia este bună în cazul motoarelor de căutare,
> aici însă rezultatele ar fi departe de aşteptări
> Dacă mă gândesc mai bine... poate că mă înşel... Despre ce algoritm este
> vorba? Este deja implementat sau este încă la nivel teoretic. Adrian,
îmi
> poţi da mai multe detalii?

Descarcă http://lingucomponent.openoffice.org/MySpell-3.zip şi caută în
pachet "munch". Este scris în C. Nu l-am studiat, dar cred că conţine
algoritmul de compresie.
Eu nu am folosit decât "unmunch" pentru verificare.Pentru unmunch, sintaxa
este "unmunch ro_RO.dic ro_RO.aff > ro_RO.txt", unde primul parametru este
dicţionarul (sau partea din dicţionar pe care vrei să o verifici), al
doilea
parametru definiţiile de afixe. Rezultatul este lista de cuvinte. Munch
procedează invers: având lista completă de cuvinte încearcă să comprime
dicţionarul creând definiţii de afixe. Definiţiile astfel create nu au o
logică gramaticală ci încearcă doar să facă un dicţionar mai mic decât
lista
completă de cuvinte. Presupun că dacă îi dau o listă de cuvinte de genul:
pom, pomi, stejar, stejari, salcâm, salcâmi, va genera un dicţionar de 3
cuvinte pom, stejar, salcâm şi un sufix i pentru cele 3 cuvinte de bază.
Nu
am verificat asta. Este doar o presupunere. Oricum programul există şi
dacă
şti C, îl poţi studia.
În cazul în care ai lista completă de cuvinte, compilează-l şi
foloseşte-l.
Dacă nu, atunci cred că e mai bună varianta pe care am mers eu, cea cu
crearea aff-ului manual.

>
>
> On 27/04/07, Ionut Paduraru <[EMAIL PROTECTED]> wrote:
>>
>> >> Dintr-o listă completă de cuvinte care conţine şi formele fexionate
se
>> pot
>> >> obţine pe bază de algoritm reguli bazate strict pe ideea de
compresie.
>> Nu sunt de-acord. Compresia este bună în cazul motoarelor de căutare,
>> aici
>> însă rezultatele ar fi departe de aşteptări.
>>
>> On 27/04/07, Adrian Stoica <[EMAIL PROTECTED]> wrote:
>> >
>> > Dintr-o listă completă de cuvinte care conţine şi formele fexionate
se
>> > pot
>> > obţine pe bază de algoritm reguli bazate strict pe ideea de
compresie.
>> > În lipsa formelor flexionate însă, regulile gramaticale ajută la
>> > mărirea
>> >
>> > considerabilă a numărului de cuvinte din dicţionar.
>> >
>> > ----- Original Message -----
>> > From: "Ionut Paduraru" <[EMAIL PROTECTED]>
>> > To: < [email protected]>
>> > Sent: Friday, April 27, 2007 3:29 PM
>> > Subject: Re: [ro-dev] Corectorul ortografic (myspell/hunspell
>> > dictionaries)
>> >
>> >
>> > > Dispun de o listă destul de completă de cuvinte din limba română
>> > (inclusiv
>> > > forme flexionare). Cum pot ajunge de la această listă la un
dicţionar
>> > > ortografic? Trebuie să elimin intrările care se pot determina pe
baza
>> > > regulilor? Şi dacă da, cum obţin regulile?
>> > > Nu ştiu cum funcţionează corectorul ortografic, dar bănuiesc că o
>> > listă de
>> > > câteva sute de mii de cuvinte ar întreuna foarte mult viteza de
>> > procesare.
>> > > Mă poate ajuta cineva?
>> > >
>> > > Ionuţ Păduraru.
>> > >
>> > >
>> > >
>> > > On 27/04/07, Sorin Sbarnea < [EMAIL PROTECTED]> wrote:
>> > >>
>> > >> Salutari,
>> > >>
>> > >> M-am gandit sa va dau cateva hinturi legate de dictionarul
>> > ortografic:
>> > >> affix-urile sunt folosite doar pentru a compresa dictionarul si nu
>> > >> trebuie sa replice toate regulile gramaticale ci este doar un
>> > "algoritm"
>> > >> de compresie a unui dictionar ortografic sortat. (20 de reguli
sunt
>> > >> arhi-suficiente pentru compresie).
>> > >>
>> > >> Numarul de reguli introduse nu trebuie sa fie prea mare deoarece
va
>> > >> scadea exponential viteza de cautare in dictionar.
>> > >>
>> > >> PS. Realizarea unui dictionar folosind colectii de texte ar fi o
>> > >> mare
>> >
>> > >> greseala deoarece greselile identice sunt frecvente si nu vor
putea
>> > fi
>> > >> identificare prin metode statistice.
>> > >>
>> > >> Acum daca colectia de texte ar fi un dictionar ortografic al
limbii
>> > >> romane ar putea fi un punct de pornire ;)
>> > >>
>> > >> Sorin Sbarnea
>> > >>
>> > >>
>> > >
>> >
>> > ---------------------------------------------------------------------
>> > To unsubscribe, e-mail: [EMAIL PROTECTED]
>> > For additional commands, e-mail: [EMAIL PROTECTED]
>> >
>> >
>>
>

---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]

Re: [ro-dev] Corectorul ortografic (myspell/hunspell dictionaries)

Raspunde prin e-mail lui