Şi sunt multe „cuvinte" ciudate pe acolo, cum ar fi „aagăţaremorca" scris întocmail „ab ovo" (cu spaţiu), care par mai degrabă expresii.
În data de 03.10.2007, Alexandru Szasz <[EMAIL PROTECTED]> a scris: > De ce în lexems sunt doar 136336 de cuvinte? Parcă în DEX98 erau vreo > 200 de mii şi ceva, sau mă înşel ? > > În data de 02.10.2007, Catalin Francu <[EMAIL PROTECTED]> a scris: > > Salut, > > > > Am tăcut mâlc vreo două zile :) Dacă aveți mysql instalat, puteți > > downloada baza de date de la > > http://dexonline.ro/download/dex-database.sql.gz . Structura > > tabelelor, foarte pe scurt, este: > > > > - lexems: cuvintele în forma de bază > > - wordlist: formele flexionare > > - inflection: diversele flexiuni existente, de exemplu "substantiv > > neutru, nominativ-acuzativ, singular, nearticulat" > > - LexemDefinitionMap: mapează lexeme la definiții (many-to-many) > > > > Câmpul lexem_model_type indică tipul lexemului: A = adjectiv, M/F/N = > > substantiv masc./fem./neutru, V = verb, VT = verb tranzitiv > > (participiul se declină ca adjectiv), I = invariabil, P = > > pronume/numeral, T = temporar (încă neetichetat). > > > > De exemplu, lista completă de lexeme ar fi > > > > select lexem_neaccentuat from lexems; > > > > iar lista completă de flexiuni, cu forme de bază și modul de derivare ar fi: > > > > select wl_neaccentuat, lexem_neaccentuat, infl_descr from wordlist, > > lexems, inflections where wl_lexem = lexem_id and wl_analyse = infl_id > > order by wl_neaccentuat; > > > > Dacă nu aveți mysql, am pus aceste liste la > > http://voronet.francu.com/~cata/cuvinte.txt și respectiv > > http://voronet.francu.com/~cata/flexiuni.zip . De remarcat că acolo > > sunt incluse și cuvinte trimise, dar încă nemoderate (circa 1000). Se > > pot filtra și alea, cu niște query-uri mai complexe un pic. > > > > Cum vi se pare? Chiar sunt curios, eu am așteptări mari de la acest > > generator. :) > > > > Cătălin > > > > On 10/1/07, Alexandru Szasz <[EMAIL PROTECTED]> wrote: > > > În data de 01.10.2007, Alexandru Szasz <[EMAIL PROTECTED]> a scris: > > > > În data de 30.09.2007, struct bylighting <[EMAIL PROTECTED]> a scris: > > > > > ... > > > > > > > > > > Pentru commabelow trebuie schimbat in iso8859-16 > > > > > > > > > > > > > N-aș vrea să folosesc ISO-8859-16, n-aș vrea să folosesc niciun iso, > > > > nu sunt de acord cu posibilitatea de a afișa doar o limbă la un moment > > > > dat, deci aș folosi UTF-8, crezi că e vreo problemă în aspell? În > > > > myspell/hunspell am văzut că nu este. > > > > > > > > O să încerc să pun la punct o interfață cât pot de repede unde se > > > > poate vizualiza/edita/adăuga la lista de cuvinte, dar ar fi excelent > > > > dacă aș putea conecta-o la lista de cuvinte a dexonline-ului fără a > > > > descărca întreaga bază de date mereu să văd dacă au apărut schimbări. > > > > > > > > -- > > > > Alexandru Szasz > > > > > > > > > > Am realizat interfaţa de care vorbeam, o s-o fac publică în curând. > > > Dintre listele care le-am folosit până acum, cea a lui Ionuţ Păduraru > > > are problema că este mult prea mare datorită faptului că nu prea a > > > folosit fişierul .aff . > > > Lista lui Lucian conţine nişte cuvinte cu - care din câte am testat eu > > > nu sunt necesare. > > > > > > Dacă Cătălin mai e prin preajmă şi poate trimite o listă completă de > > > cuvinte (fără definiţii) din DEX98 ar fi excelent. Ultima dată când am > > > încercat eu să extrag aşa ceva din DEX98 am găsit nişte cuvinte scrise > > > greşit pe care nu le-am putut izola după nişte parametrii. > > > > > > Dacă mai are altcineva alte liste separate cu nume proprii, nume de > > > oraşe, ţări, etc. poate să mi le trimită pe e-mail să mai testez > > > interfaţa cu ele. > > > > > > -- > > > Alexandru Szasz > > > > > > > > -- > Alexandru Szasz > -- Alexandru Szasz
