De ce în lexems sunt doar 136336 de cuvinte? Parcă în DEX98 erau vreo 200 de mii şi ceva, sau mă înşel ?
În data de 02.10.2007, Catalin Francu <[EMAIL PROTECTED]> a scris: > Salut, > > Am tăcut mâlc vreo două zile :) Dacă aveți mysql instalat, puteți > downloada baza de date de la > http://dexonline.ro/download/dex-database.sql.gz . Structura > tabelelor, foarte pe scurt, este: > > - lexems: cuvintele în forma de bază > - wordlist: formele flexionare > - inflection: diversele flexiuni existente, de exemplu "substantiv > neutru, nominativ-acuzativ, singular, nearticulat" > - LexemDefinitionMap: mapează lexeme la definiții (many-to-many) > > Câmpul lexem_model_type indică tipul lexemului: A = adjectiv, M/F/N = > substantiv masc./fem./neutru, V = verb, VT = verb tranzitiv > (participiul se declină ca adjectiv), I = invariabil, P = > pronume/numeral, T = temporar (încă neetichetat). > > De exemplu, lista completă de lexeme ar fi > > select lexem_neaccentuat from lexems; > > iar lista completă de flexiuni, cu forme de bază și modul de derivare ar fi: > > select wl_neaccentuat, lexem_neaccentuat, infl_descr from wordlist, > lexems, inflections where wl_lexem = lexem_id and wl_analyse = infl_id > order by wl_neaccentuat; > > Dacă nu aveți mysql, am pus aceste liste la > http://voronet.francu.com/~cata/cuvinte.txt și respectiv > http://voronet.francu.com/~cata/flexiuni.zip . De remarcat că acolo > sunt incluse și cuvinte trimise, dar încă nemoderate (circa 1000). Se > pot filtra și alea, cu niște query-uri mai complexe un pic. > > Cum vi se pare? Chiar sunt curios, eu am așteptări mari de la acest > generator. :) > > Cătălin > > On 10/1/07, Alexandru Szasz <[EMAIL PROTECTED]> wrote: > > În data de 01.10.2007, Alexandru Szasz <[EMAIL PROTECTED]> a scris: > > > În data de 30.09.2007, struct bylighting <[EMAIL PROTECTED]> a scris: > > > > ... > > > > > > > > Pentru commabelow trebuie schimbat in iso8859-16 > > > > > > > > > > N-aș vrea să folosesc ISO-8859-16, n-aș vrea să folosesc niciun iso, > > > nu sunt de acord cu posibilitatea de a afișa doar o limbă la un moment > > > dat, deci aș folosi UTF-8, crezi că e vreo problemă în aspell? În > > > myspell/hunspell am văzut că nu este. > > > > > > O să încerc să pun la punct o interfață cât pot de repede unde se > > > poate vizualiza/edita/adăuga la lista de cuvinte, dar ar fi excelent > > > dacă aș putea conecta-o la lista de cuvinte a dexonline-ului fără a > > > descărca întreaga bază de date mereu să văd dacă au apărut schimbări. > > > > > > -- > > > Alexandru Szasz > > > > > > > Am realizat interfaţa de care vorbeam, o s-o fac publică în curând. > > Dintre listele care le-am folosit până acum, cea a lui Ionuţ Păduraru > > are problema că este mult prea mare datorită faptului că nu prea a > > folosit fişierul .aff . > > Lista lui Lucian conţine nişte cuvinte cu - care din câte am testat eu > > nu sunt necesare. > > > > Dacă Cătălin mai e prin preajmă şi poate trimite o listă completă de > > cuvinte (fără definiţii) din DEX98 ar fi excelent. Ultima dată când am > > încercat eu să extrag aşa ceva din DEX98 am găsit nişte cuvinte scrise > > greşit pe care nu le-am putut izola după nişte parametrii. > > > > Dacă mai are altcineva alte liste separate cu nume proprii, nume de > > oraşe, ţări, etc. poate să mi le trimită pe e-mail să mai testez > > interfaţa cu ele. > > > > -- > > Alexandru Szasz > > > -- Alexandru Szasz
