De ce în lexems sunt doar 136336 de cuvinte? Parcă în DEX98 erau vreo
200 de mii şi ceva, sau mă înşel ?

În data de 02.10.2007, Catalin Francu <[EMAIL PROTECTED]> a scris:
> Salut,
>
> Am tăcut mâlc vreo două zile :) Dacă aveți mysql instalat, puteți
> downloada baza de date de la
> http://dexonline.ro/download/dex-database.sql.gz . Structura
> tabelelor, foarte pe scurt, este:
>
> - lexems: cuvintele în forma de bază
> - wordlist: formele flexionare
> - inflection: diversele flexiuni existente, de exemplu "substantiv
> neutru, nominativ-acuzativ, singular, nearticulat"
> - LexemDefinitionMap: mapează lexeme la definiții (many-to-many)
>
> Câmpul lexem_model_type indică tipul lexemului: A = adjectiv, M/F/N =
> substantiv masc./fem./neutru, V = verb, VT = verb tranzitiv
> (participiul se declină ca adjectiv), I = invariabil, P =
> pronume/numeral, T = temporar (încă neetichetat).
>
> De exemplu, lista completă de lexeme ar fi
>
> select lexem_neaccentuat from lexems;
>
> iar lista completă de flexiuni, cu forme de bază și modul de derivare ar fi:
>
> select wl_neaccentuat, lexem_neaccentuat, infl_descr from wordlist,
> lexems, inflections where wl_lexem = lexem_id and wl_analyse = infl_id
> order by wl_neaccentuat;
>
> Dacă nu aveți mysql, am pus aceste liste la
> http://voronet.francu.com/~cata/cuvinte.txt și respectiv
> http://voronet.francu.com/~cata/flexiuni.zip . De remarcat că acolo
> sunt incluse și cuvinte trimise, dar încă nemoderate (circa 1000). Se
> pot filtra și alea, cu niște query-uri mai complexe un pic.
>
> Cum vi se pare? Chiar sunt curios, eu am așteptări mari de la acest
> generator. :)
>
> Cătălin
>
> On 10/1/07, Alexandru Szasz <[EMAIL PROTECTED]> wrote:
> > În data de 01.10.2007, Alexandru Szasz <[EMAIL PROTECTED]> a scris:
> > > În data de 30.09.2007, struct bylighting <[EMAIL PROTECTED]> a scris:
> > > > ...
> > > >
> > > > Pentru commabelow trebuie schimbat in iso8859-16
> > > >
> > >
> > > N-aș vrea să folosesc ISO-8859-16, n-aș vrea să folosesc niciun iso,
> > > nu sunt de acord cu posibilitatea de a afișa doar o limbă la un moment
> > > dat, deci aș folosi UTF-8, crezi că e vreo problemă în aspell? În
> > > myspell/hunspell am văzut că nu este.
> > >
> > > O să încerc să pun la punct o interfață cât pot de repede unde se
> > > poate vizualiza/edita/adăuga la lista de cuvinte, dar ar fi excelent
> > > dacă aș putea conecta-o la lista de cuvinte a dexonline-ului fără a
> > > descărca întreaga bază de date mereu să văd dacă au apărut schimbări.
> > >
> > > --
> > > Alexandru Szasz
> > >
> >
> > Am realizat interfaţa de care vorbeam, o s-o fac publică în curând.
> > Dintre listele care le-am folosit până acum, cea a lui Ionuţ Păduraru
> > are problema că este mult prea mare datorită faptului că nu prea a
> > folosit fişierul .aff .
> > Lista lui Lucian conţine nişte cuvinte cu - care din câte am testat eu
> > nu sunt necesare.
> >
> > Dacă Cătălin mai e prin preajmă şi poate trimite o listă completă de
> > cuvinte (fără definiţii) din DEX98 ar fi excelent. Ultima dată când am
> > încercat eu să extrag aşa ceva din DEX98 am găsit nişte cuvinte scrise
> > greşit pe care nu le-am putut izola după nişte parametrii.
> >
> > Dacă mai are altcineva alte liste separate cu nume proprii, nume de
> > oraşe, ţări, etc. poate să mi le trimită pe e-mail să mai testez
> > interfaţa cu ele.
> >
> > --
> > Alexandru Szasz
> >
>


-- 
Alexandru Szasz

Raspunde prin e-mail lui