On Monday 29 August 2005 10:30, Saku Seppälä wrote: > ... > Nyt kun tiedossa on mistä tuo oikeinkirjoituksen tarkistamiseen > tarvittava sanalista löytyy niin tehtäväksi jää vain Kotuksen > suostutteleminen vapauttamaan kyseinen sanalista sopivan > lisenssin alla kaiken kansan käyttöön.
Jos tämä onnistuisi, niin se olisi hienoa. En ole tosin käyttänyt mitään valmiita taivutusluokituksia affiksitiedostoa tehdessäni vaan olen luonut omaa luokitustani kielioppikirjojen avulla. Mutta en usko että tämä on ongelma, luultavasti näiden luokituksien muuntamiseksi toisikseen on mahdollista tarvittaessa tehdä yksinkertainen muunnosohjelma. Tilannetietoja sen verran, että täysin epätieteellisen 112 substantiivin satunnaisotoksen perusteella taivutussäännöt tämäniltaisessa affiksitiedoston versiossa kattavat 61 prosenttia suomen kielen substantiiveista (tähän ei ole otettu mukaan verbien partisiippimuotoja). Jatkan puuttuvien luokkien lisäämistä ainakin siihen asti että saavutan 80 prosentin kattavuuden. Tämän jälkeen voisi olla hyvä kerätä jonkin verran sanastoa jotta löydetään mahdollisia säännönmukaisuuksia jäljelle jäävien sanojen joukosta. Näin siksi että ei ole oikein järkevää luoda taivutusluokkia joihin lopulta kuuluisi vain yksi tai muutama sana. Jos tähän sanastotyöhön löytyy vapaaehtoisia, niin tuo Asmon aiemmin ehdottama tietokantapohjainen järjestely olisi varmasti järkevin. Minulla vaan ei ole mahdollisuutta tästä huolehtia, koska en voi tuonne people.cc.jyu.fi -koneelle mitään tietokantoja laittaa. Ilman tietokantaakin toki voidaan tulla toimeen jos sanaston kokoamiseen osallistuu vain vähän ihmisiä. Työn pohjana voi käyttää ainakin vanhaa Ispell-fi-sanastoa, mutta minulla on käytettävissäni pari muutakin lähdettä. Niihin olen saanut käyttöluvan periaatteella että itse lähteitä en voi tekijänoikeussyistä julkisesti levittää (ne sisältävät käsin tehdyn laajahkon sanalistan ja elokuun aikana julkaistuja sanomalehtijuttuja joita ei tavallisesti ollenkaan ole saatavissa sähköisessä muodossa), mutta niistä koottuja sanastoja voimme vapaasti julkaista GPL-lisenssin alaisuuteen. Täytyy myös katsoa saisinko Asmon lähettämän awk-skriptin jotenkin yhdistettyä hf-luolistat -ohjelmaan. Harri --------------------------------------------------------------------- To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]
