On Thursday 18 August 2005 11:41, Asmo Koskinen wrote:
> Miten tuon sanakirjan kokoaminen onnistuisi parhaiten? Voiko siinä käyttää
> Pauli Virtasen luomaa Ispell-sanakirjaa? Sanakirja löytyy täältä:
>
> http://ispell-fi.sourceforge.net/finnish.html
Kyllä voi käyttää, juuri tästä syystä valitsin GPL:n kaikkien uusien 
tiedostojen lisenssiksi. Tällä hetkellä tosin on mahdollista lisätä 
ainoastaan joitakin substantiiveja, muille sanoille ei vielä ole tehty 
affikseja. Siispä affiksitiedoston rakentaminen on tässä vaiheessa ehkä 
hyödyllisempää. Substantiivit saan varmaan itse käsiteltyä lähiviikkoina, ja 
muut nominit hoituvat sitten varmaan helposti samaan tapaan. Haluaako joku 
ryhtyä miettimään verbien taivutusta?

> Kun Hunspell on liitetty OOo2:een, niin se on myös mukana Pavelin versioissa 
> ja riittää, että miellä on kaksi toimivaa tiedostoa: sanasto ja 
> affiksitiedosto.
Melkein näin. Tällä hetkellä minusta vaan vaikuttaa siltä, että yhdyssanojen 
täydellinen käsittely vaatisi pieniä muutoksia itse Hunspelliin, tai sitten 
en ole vain ymmärtänyt Hunspellin dokumentaatiota riittävän hyvin. Mutta 
ilman näitä muutoksiakin pitäisi olla mahdollista saada aikaan melkoisen hyvä 
oikoluku, se vaan hyväksyisi sellaisiakin yhdyssanoja jotka eivät ole 
kieliopillisesti mahdollisia. Lisäksi suunnitelmissani on tavutuksen 
toteuttaminen, se tietenkin vaatii ohjelmointia ja se pitäisi sitten erikseen 
saada mukaan OOo2:een.
Mutta siis alkuvaiheessa, niin kauan kun emme halua aivan täydellisiä 
tuloksia, tuo sanaston ja affiksitiedoston lisääminen riittää kunhan Hunspell 
on ensin saatu mukaan OpenOfficeen.

> Tässä vaiheessa testaukseen, sanaston kokoamiseen ja affiksisääntöjen 
> luomiseen käytetään Hunspellin itsenäistä versiota (hunmorph). Ja tämän 
> vaiheen voi tehdä kokonaan ilman OOo2:sta. Tuo UNO-komponentti vaatii OOo:n 
> lähdekoodiin ja dmake-ympäristön, ei ihan triviaalia.
Huomasin saman asian, enkä siksi ole itse edes yrittänyt tuota 
UNO-komponenttia kääntää. Sama ongelma oli tosin Lingucomponent-fi:n kanssa, 
ja silti sain Soikon lopulta toimimaan. Eli on toki mahdollista tuo 
UNO-komponenttikin itse rakentaa, ja tarvittaessa yhdistää siihen myöhemmin 
uusi tavutusalgoritmi ja parannettu yhdyssanojen käsittely.

> Olet merkinnyt ?-merkillä nimen hunspell-fi. Minusta se hyvä nimi
> projektille. Kutsutaan tätä projektia sillä nimellä. Uutta
> oikoluku-ohjelmaahan emme ole luomassa.
Tuon kysymysmerkin tarkoitus oli lähinnä viestittää sitä, että en ollut vielä 
aivan varma onko tämä strategia ollenkaan järkevä. Nyt alan siihen itsekin jo 
uskoa, joten poistan tuon kysymysmerkin.

> Ok, minulla on ainakin toimiva ympäristö, eikö vain:
> [EMAIL PROTECTED]:~/Documents/hunspell-fi> hunmorph finnish.aff finnish.dict 
> teksti.txt
> > Alussa
> Unknown word.
> > Jumala
> Unknown word.
> ...
Jos käytit tekemääni esimerkkisanastoa, niin jotain taitaa olla pielessä, 
koska ainakin itselläni ja-sanat tunnistuvat oikein:
> ja
ja[PART_ERILLINEN]

Muita tuon tekstin sanoista ei sanastossa vielä olekaan. En nyt kyllä heti 
keksi missä vika voisi olla. Jos et saa ongelmaa ratkeamaan, niin laita 
minulle postissa nuo tiedostot finnish.aff ja finnish.dict niin katson 
vastaavatko ne sisällöltään omiani.

Yritän vielä tänään saada tuonne affiksitiedostoon joitakin uusia 
substantiivityyppejä lisää, joten jos innokkaita sanaston kerääjiä on, niin 
niitä voisi sitten lähiaikoina ryhtyä lisäämään mukaan sanastoon.

Harri

---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]

Reply via email to