Nu, în DEX '98 erau vreo 65.000 de definiţii. DEX online conţine cu totul 360.000 de definiţii, dar evident multe sunt pentru acelaşi cuvânt, din dicţionare diferite.
Lista pe care am publicat-o e făcută cu un query la repezeală şi nu filtrează nişte lexeme care ar trebui filtrate. Bunăoară, oricine poate trimite o definiţie la mişto pentru cuvântul "bibibububobo", caz în care noi creăm lexemul, dar el nu este asociat cu nici o definiţie activă, ci doar cu una temporară (nemoderată). Ulterior, definiţia este respinsă (ştearsă), iar lexemul, nemaifiind asociat cu nici o definiţie, poate fi şters. Deci lista respectivă ar trebui filtrată după criteriul "lexeme asociate cu definiţii active", care ar mai tăia vreo mie de lexeme. Cătălin On 10/2/07, Alexandru Szasz <[EMAIL PROTECTED]> wrote: > Şi sunt multe „cuvinte" ciudate pe acolo, cum ar fi „aagăţaremorca" > scris întocmail „ab ovo" (cu spaţiu), care par mai degrabă expresii. > > În data de 03.10.2007, Alexandru Szasz <[EMAIL PROTECTED]> a scris: > > De ce în lexems sunt doar 136336 de cuvinte? Parcă în DEX98 erau vreo > > 200 de mii şi ceva, sau mă înşel ? > > > > În data de 02.10.2007, Catalin Francu <[EMAIL PROTECTED]> a scris: > > > Salut, > > > > > > Am tăcut mâlc vreo două zile :) Dacă aveți mysql instalat, puteți > > > downloada baza de date de la > > > http://dexonline.ro/download/dex-database.sql.gz . Structura > > > tabelelor, foarte pe scurt, este: > > > > > > - lexems: cuvintele în forma de bază > > > - wordlist: formele flexionare > > > - inflection: diversele flexiuni existente, de exemplu "substantiv > > > neutru, nominativ-acuzativ, singular, nearticulat" > > > - LexemDefinitionMap: mapează lexeme la definiții (many-to-many) > > > > > > Câmpul lexem_model_type indică tipul lexemului: A = adjectiv, M/F/N = > > > substantiv masc./fem./neutru, V = verb, VT = verb tranzitiv > > > (participiul se declină ca adjectiv), I = invariabil, P = > > > pronume/numeral, T = temporar (încă neetichetat). > > > > > > De exemplu, lista completă de lexeme ar fi > > > > > > select lexem_neaccentuat from lexems; > > > > > > iar lista completă de flexiuni, cu forme de bază și modul de derivare ar > > > fi: > > > > > > select wl_neaccentuat, lexem_neaccentuat, infl_descr from wordlist, > > > lexems, inflections where wl_lexem = lexem_id and wl_analyse = infl_id > > > order by wl_neaccentuat; > > > > > > Dacă nu aveți mysql, am pus aceste liste la > > > http://voronet.francu.com/~cata/cuvinte.txt și respectiv > > > http://voronet.francu.com/~cata/flexiuni.zip . De remarcat că acolo > > > sunt incluse și cuvinte trimise, dar încă nemoderate (circa 1000). Se > > > pot filtra și alea, cu niște query-uri mai complexe un pic. > > > > > > Cum vi se pare? Chiar sunt curios, eu am așteptări mari de la acest > > > generator. :) > > > > > > Cătălin > > > > > > On 10/1/07, Alexandru Szasz <[EMAIL PROTECTED]> wrote: > > > > În data de 01.10.2007, Alexandru Szasz <[EMAIL PROTECTED]> a scris: > > > > > În data de 30.09.2007, struct bylighting <[EMAIL PROTECTED]> a scris: > > > > > > ... > > > > > > > > > > > > Pentru commabelow trebuie schimbat in iso8859-16 > > > > > > > > > > > > > > > > N-aș vrea să folosesc ISO-8859-16, n-aș vrea să folosesc niciun iso, > > > > > nu sunt de acord cu posibilitatea de a afișa doar o limbă la un moment > > > > > dat, deci aș folosi UTF-8, crezi că e vreo problemă în aspell? În > > > > > myspell/hunspell am văzut că nu este. > > > > > > > > > > O să încerc să pun la punct o interfață cât pot de repede unde se > > > > > poate vizualiza/edita/adăuga la lista de cuvinte, dar ar fi excelent > > > > > dacă aș putea conecta-o la lista de cuvinte a dexonline-ului fără a > > > > > descărca întreaga bază de date mereu să văd dacă au apărut schimbări. > > > > > > > > > > -- > > > > > Alexandru Szasz > > > > > > > > > > > > > Am realizat interfaţa de care vorbeam, o s-o fac publică în curând. > > > > Dintre listele care le-am folosit până acum, cea a lui Ionuţ Păduraru > > > > are problema că este mult prea mare datorită faptului că nu prea a > > > > folosit fişierul .aff . > > > > Lista lui Lucian conţine nişte cuvinte cu - care din câte am testat eu > > > > nu sunt necesare. > > > > > > > > Dacă Cătălin mai e prin preajmă şi poate trimite o listă completă de > > > > cuvinte (fără definiţii) din DEX98 ar fi excelent. Ultima dată când am > > > > încercat eu să extrag aşa ceva din DEX98 am găsit nişte cuvinte scrise > > > > greşit pe care nu le-am putut izola după nişte parametrii. > > > > > > > > Dacă mai are altcineva alte liste separate cu nume proprii, nume de > > > > oraşe, ţări, etc. poate să mi le trimită pe e-mail să mai testez > > > > interfaţa cu ele. > > > > > > > > -- > > > > Alexandru Szasz > > > > > > > > > > > > > -- > > Alexandru Szasz > > > > > -- > Alexandru Szasz >
