Se pare că "munch" nu este soluţia pe care o cauţi.
M-am mai gândit între timp şi am ajuns la concluzia că este totuşi o soluţie satisfăcătoare. Scopul - acela de a micşora lista - a fost atins în mare măsură. Comparativ cu celelalte dicţionare pe care le-am instalat, pare să fie suficient de mic: cel pentru limba ungară hu_HU.dic are 2.2M, de unde deduc că 2.6 este acceptabil. O altă posibilă problemă o reprezenta corectitudinea - îmi puneam problema dacă prin aplicarea afixelor la lista comprimată nu se va ajunge la forme invalide. Din fericire - nu, iar răspunsul se bazează pe unmunch: absolut toate cuvintele din lista obţinută de unmunch se regăsesc în lista iniţială.
Îmi amintesc că atunci când am studiat documentaţia myspell, am citit
undeva
că fişierul aff se poate crea manual sau automat.
Din comoditate, mă voi opri aici. Crearea de la zero a unui fişier de afixe cere foarte mult timp. Să sperăm că proiectul iniţiat de Alexandru Szasz va da roade. Încă odată, mulţumesc pentru ajutor. On 03/05/07, Adrian Stoica <[EMAIL PROTECTED]> wrote:
Se pare că "munch" nu este soluţia pe care o cauţi. Îmi amintesc că atunci când am studiat documentaţia myspell, am citit undeva că fişierul aff se poate crea manual sau automat. Dacă "munch" are nevoie de un fişier aff creat manual, înseamnă că nu aceasta era unealta despre care citisem eu. Dacă vrei să foloseşti dicţionarul acela complet pe care îl ai, cred că ar trebui să organizezi un proiect la care să participe şi alţii. Ar trebui în primul rând să găseşti soluţia de a creea un aff în mod automat. Poate Nicu îşi aminteşte ceva care te poate ajuta. Apoi va trebui să ceri ajutorul altora pentru a identifica cuvintele greşite din lista desfăşurată (dicţionarul pe care îl ai acum). ----- Original Message ----- From: "Ionut Paduraru" <[EMAIL PROTECTED]> To: <[email protected]> Sent: Wednesday, May 02, 2007 7:08 PM Subject: Re: [ro-dev] Corectorul ortografic (myspell/hunspell dictionaries) >>> Descarcă http://lingucomponent.openoffice.org/MySpell-3.zip şi caută în > >> >>pachet "munch". Este scris în C. Nu l-am studiat, dar cred că conţine >> >> algoritmul de compresie. > > Da, funcţionează. Din fişierul iniţial de 6M am obţinut un fişier de 2,6M. > A > fost nevoie însă de un fişier .aff - l-am folosit pe cel existent (cel de > la > http://www.cuvinte.ro/ooo). > Din câte am observat funcţionează bine - nu sunt pierderi de cuvinte şi > nici > adăugiri. Deci suntem pe drumul cel bun. > > Pentru cei interesaşi, am publicat dicţionarul la adresa > http://www.archeus.ro/Download/OpenOffice/CorectorOrtografic/1.1/ro_RO.zip > > > On 30/04/07, Adrian Stoica <[EMAIL PROTECTED]> wrote: >> >> ----- Original Message ----- >> From: "Ionut Paduraru" <[EMAIL PROTECTED]> >> To: <[email protected]> >> Sent: Friday, April 27, 2007 9:11 PM >> Subject: Re: [ro-dev] Corectorul ortografic (myspell/hunspell >> dictionaries) >> >> >> >>> >> Dintr-o listă completă de cuvinte care conţine şi formele >> >>> >> fexionate >> >>> >> se >> > pot >> >>> >> obţine pe bază de algoritm reguli bazate strict pe ideea de >> >>> >> compresie. >> >>> Nu sunt de-acord. Compresia este bună în cazul motoarelor de căutare, >> > aici însă rezultatele ar fi departe de aşteptări >> > Dacă mă gândesc mai bine... poate că mă înşel... Despre ce algoritm >> > este >> > vorba? Este deja implementat sau este încă la nivel teoretic. Adrian, >> îmi >> > poţi da mai multe detalii? >> >> Descarcă http://lingucomponent.openoffice.org/MySpell-3.zip şi caută în >> pachet "munch". Este scris în C. Nu l-am studiat, dar cred că conţine >> algoritmul de compresie. >> Eu nu am folosit decât "unmunch" pentru verificare.Pentru unmunch, >> sintaxa >> este "unmunch ro_RO.dic ro_RO.aff > ro_RO.txt", unde primul parametru >> este >> dicţionarul (sau partea din dicţionar pe care vrei să o verifici), al >> doilea >> parametru definiţiile de afixe. Rezultatul este lista de cuvinte. Munch >> procedează invers: având lista completă de cuvinte încearcă să comprime >> dicţionarul creând definiţii de afixe. Definiţiile astfel create nu au o >> logică gramaticală ci încearcă doar să facă un dicţionar mai mic decât >> lista >> completă de cuvinte. Presupun că dacă îi dau o listă de cuvinte de genul: >> pom, pomi, stejar, stejari, salcâm, salcâmi, va genera un dicţionar de 3 >> cuvinte pom, stejar, salcâm şi un sufix i pentru cele 3 cuvinte de bază. >> Nu >> am verificat asta. Este doar o presupunere. Oricum programul există şi >> dacă >> şti C, îl poţi studia. >> În cazul în care ai lista completă de cuvinte, compilează-l şi >> foloseşte-l. >> Dacă nu, atunci cred că e mai bună varianta pe care am mers eu, cea cu >> crearea aff-ului manual. >> >> > >> > >> > On 27/04/07, Ionut Paduraru <[EMAIL PROTECTED]> wrote: >> >> >> >> >> Dintr-o listă completă de cuvinte care conţine şi formele fexionate >> se >> >> pot >> >> >> obţine pe bază de algoritm reguli bazate strict pe ideea de >> compresie. >> >> Nu sunt de-acord. Compresia este bună în cazul motoarelor de căutare, >> >> aici >> >> însă rezultatele ar fi departe de aşteptări. >> >> >> >> On 27/04/07, Adrian Stoica <[EMAIL PROTECTED]> wrote: >> >> > >> >> > Dintr-o listă completă de cuvinte care conţine şi formele fexionate >> se >> >> > pot >> >> > obţine pe bază de algoritm reguli bazate strict pe ideea de >> compresie. >> >> > În lipsa formelor flexionate însă, regulile gramaticale ajută la >> >> > mărirea >> >> > >> >> > considerabilă a numărului de cuvinte din dicţionar. >> >> > >> >> > ----- Original Message ----- >> >> > From: "Ionut Paduraru" <[EMAIL PROTECTED]> >> >> > To: < [email protected]> >> >> > Sent: Friday, April 27, 2007 3:29 PM >> >> > Subject: Re: [ro-dev] Corectorul ortografic (myspell/hunspell >> >> > dictionaries) >> >> > >> >> > >> >> > > Dispun de o listă destul de completă de cuvinte din limba română >> >> > (inclusiv >> >> > > forme flexionare). Cum pot ajunge de la această listă la un >> dicţionar >> >> > > ortografic? Trebuie să elimin intrările care se pot determina pe >> baza >> >> > > regulilor? Şi dacă da, cum obţin regulile? >> >> > > Nu ştiu cum funcţionează corectorul ortografic, dar bănuiesc că o >> >> > listă de >> >> > > câteva sute de mii de cuvinte ar întreuna foarte mult viteza de >> >> > procesare. >> >> > > Mă poate ajuta cineva? >> >> > > >> >> > > Ionuţ Păduraru. >> >> > > >> >> > > >> >> > > >> >> > > On 27/04/07, Sorin Sbarnea < [EMAIL PROTECTED]> wrote: >> >> > >> >> >> > >> Salutari, >> >> > >> >> >> > >> M-am gandit sa va dau cateva hinturi legate de dictionarul >> >> > ortografic: >> >> > >> affix-urile sunt folosite doar pentru a compresa dictionarul si >> >> > >> nu >> >> > >> trebuie sa replice toate regulile gramaticale ci este doar un >> >> > "algoritm" >> >> > >> de compresie a unui dictionar ortografic sortat. (20 de reguli >> sunt >> >> > >> arhi-suficiente pentru compresie). >> >> > >> >> >> > >> Numarul de reguli introduse nu trebuie sa fie prea mare deoarece >> va >> >> > >> scadea exponential viteza de cautare in dictionar. >> >> > >> >> >> > >> PS. Realizarea unui dictionar folosind colectii de texte ar fi o >> >> > >> mare >> >> > >> >> > >> greseala deoarece greselile identice sunt frecvente si nu vor >> putea >> >> > fi >> >> > >> identificare prin metode statistice. >> >> > >> >> >> > >> Acum daca colectia de texte ar fi un dictionar ortografic al >> limbii >> >> > >> romane ar putea fi un punct de pornire ;) >> >> > >> >> >> > >> Sorin Sbarnea >> >> > >> >> >> > >> >> >> > > >> >> > >> >> > --------------------------------------------------------------------- >> >> > To unsubscribe, e-mail: [EMAIL PROTECTED] >> >> > For additional commands, e-mail: [EMAIL PROTECTED] >> >> > >> >> > >> >> >> > >> >> --------------------------------------------------------------------- >> To unsubscribe, e-mail: [EMAIL PROTECTED] >> For additional commands, e-mail: [EMAIL PROTECTED] >> >> > --------------------------------------------------------------------- To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]
