On Thursday 18 August 2005 11:41, Asmo Koskinen wrote: > Miten tuon sanakirjan kokoaminen onnistuisi parhaiten? Voiko siinä käyttää > Pauli Virtasen luomaa Ispell-sanakirjaa? Sanakirja löytyy täältä: > > http://ispell-fi.sourceforge.net/finnish.html Kyllä voi käyttää, juuri tästä syystä valitsin GPL:n kaikkien uusien tiedostojen lisenssiksi. Tällä hetkellä tosin on mahdollista lisätä ainoastaan joitakin substantiiveja, muille sanoille ei vielä ole tehty affikseja. Siispä affiksitiedoston rakentaminen on tässä vaiheessa ehkä hyödyllisempää. Substantiivit saan varmaan itse käsiteltyä lähiviikkoina, ja muut nominit hoituvat sitten varmaan helposti samaan tapaan. Haluaako joku ryhtyä miettimään verbien taivutusta?
> Kun Hunspell on liitetty OOo2:een, niin se on myös mukana Pavelin versioissa > ja riittää, että miellä on kaksi toimivaa tiedostoa: sanasto ja > affiksitiedosto. Melkein näin. Tällä hetkellä minusta vaan vaikuttaa siltä, että yhdyssanojen täydellinen käsittely vaatisi pieniä muutoksia itse Hunspelliin, tai sitten en ole vain ymmärtänyt Hunspellin dokumentaatiota riittävän hyvin. Mutta ilman näitä muutoksiakin pitäisi olla mahdollista saada aikaan melkoisen hyvä oikoluku, se vaan hyväksyisi sellaisiakin yhdyssanoja jotka eivät ole kieliopillisesti mahdollisia. Lisäksi suunnitelmissani on tavutuksen toteuttaminen, se tietenkin vaatii ohjelmointia ja se pitäisi sitten erikseen saada mukaan OOo2:een. Mutta siis alkuvaiheessa, niin kauan kun emme halua aivan täydellisiä tuloksia, tuo sanaston ja affiksitiedoston lisääminen riittää kunhan Hunspell on ensin saatu mukaan OpenOfficeen. > Tässä vaiheessa testaukseen, sanaston kokoamiseen ja affiksisääntöjen > luomiseen käytetään Hunspellin itsenäistä versiota (hunmorph). Ja tämän > vaiheen voi tehdä kokonaan ilman OOo2:sta. Tuo UNO-komponentti vaatii OOo:n > lähdekoodiin ja dmake-ympäristön, ei ihan triviaalia. Huomasin saman asian, enkä siksi ole itse edes yrittänyt tuota UNO-komponenttia kääntää. Sama ongelma oli tosin Lingucomponent-fi:n kanssa, ja silti sain Soikon lopulta toimimaan. Eli on toki mahdollista tuo UNO-komponenttikin itse rakentaa, ja tarvittaessa yhdistää siihen myöhemmin uusi tavutusalgoritmi ja parannettu yhdyssanojen käsittely. > Olet merkinnyt ?-merkillä nimen hunspell-fi. Minusta se hyvä nimi > projektille. Kutsutaan tätä projektia sillä nimellä. Uutta > oikoluku-ohjelmaahan emme ole luomassa. Tuon kysymysmerkin tarkoitus oli lähinnä viestittää sitä, että en ollut vielä aivan varma onko tämä strategia ollenkaan järkevä. Nyt alan siihen itsekin jo uskoa, joten poistan tuon kysymysmerkin. > Ok, minulla on ainakin toimiva ympäristö, eikö vain: > [EMAIL PROTECTED]:~/Documents/hunspell-fi> hunmorph finnish.aff finnish.dict > teksti.txt > > Alussa > Unknown word. > > Jumala > Unknown word. > ... Jos käytit tekemääni esimerkkisanastoa, niin jotain taitaa olla pielessä, koska ainakin itselläni ja-sanat tunnistuvat oikein: > ja ja[PART_ERILLINEN] Muita tuon tekstin sanoista ei sanastossa vielä olekaan. En nyt kyllä heti keksi missä vika voisi olla. Jos et saa ongelmaa ratkeamaan, niin laita minulle postissa nuo tiedostot finnish.aff ja finnish.dict niin katson vastaavatko ne sisällöltään omiani. Yritän vielä tänään saada tuonne affiksitiedostoon joitakin uusia substantiivityyppejä lisää, joten jos innokkaita sanaston kerääjiä on, niin niitä voisi sitten lähiaikoina ryhtyä lisäämään mukaan sanastoon. Harri --------------------------------------------------------------------- To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]
