Den gang jeg startede med at lave den tagger vi har i dag, der kunne jeg ikke finde noget vedr. tagger/opmærkning af ord på dansk. Så jeg opfandt selv en syntaks hvor jeg prøvede at ligge mig op af de latinske betegnelser og den stil bl.a. polen bruger i LanguageTool.
Siden faldt jeg over korpusserne fra DSL, her har jeg kraftig overvejet om man kunne bruge deres tags royalty free, da mit påhit med tags-syntaks nok er blevet lidt rodet og man der udover letter ville kunne have personer der kunne have gavn af begge projekter. (CST bruger en lidt anderledes syntaks, men bestemt også noget man kunne lade sig inspirere af.) Jeg overvejede ikke at høste en tagger fra DSLs korpusser, da de inderholder en del stavefejl som også er opmærket. Den tagger fra CST ser ud til at være mere avanceret en det nogen af de andre sprog har i LanguageTool, da den prøver at gætte på hvilket opmærkning en homograf eller et homonym skal have, hvor vi bare giver den alle opmærkningerne. Denne forskel betyder også at der skal noget programmering til for at bruge deres, i steden for den flade fil der bruges i dag. Hvilket af de 2 fremgangs måder der er bedst til vores formål det ved jeg ikke! Nuværende: +svar overens med stavekontrollen +vi kan selv hurtig rette fejl -problemer med flertydigheden på en del ord CST: +mere præcis opmærkning -risikon for undertrykkelses af fejl, pga. gæt -hastigheden -kompleks programmering påkrævet Mængden af plusser og minusser skal ikke ses som at jeg er mere for den ene ide frem for den anden. Hvordan er det har du en god kontakt til CST, for det ville da aldrig skade og spørge uformel? Hvilket opmærkninger der er relevant i en Tagger ift. grammatikregler, ved jeg heller ikke. Jeg kan se at ½ af reglerne der bruger postag, kun spørger på ordklassen (sub., ver., adj. osv.). Med venlig hilsen Esben Aaberg ________________________________ Fra: Leif Lodahl <leiflod...@gmail.com> Til: Cc: "stavekontrol@da.libreoffice.org" <stavekontrol@da.libreoffice.org> Sendt: 15:56 lørdag den 30. marts 2013 Emne: Re: [da-stavekontrol] LanguageTools ... Leif skrev: En anden mulighed er at finde en eksisterende POS-tagger. Måske har Apertium-projektet en, ellers ved jeg tilfældigvis, at Københavns Universitet har en ( http://cst.dk/online/pos_tagger/index.html ). Esben skrev: Jeg har ikke fået taget hul på at ændre Taggeren til at være baseret på træk fra databasen. Vil dog fluks prikke til Jeppe, så jeg kan få fjernet den manglende tekniske forudsætning for at jeg kan komme i gang. Esben, har du overvejet, at det er muligt at bruge POS-taggeren fra CST frem for at vi (du) genererer en fra vores egen database? Vi kan evt. starte med at tage kontakt til CST for at afklare rettigheder o.s.v. /Leif -- Send en e-mail til stavekontrol+h...@da.libreoffice.org for instruktioner om hvordan du ophæver dit abonnement Problemer? http://da.libreoffice.org/kontakt-os/postlister/ Posting guidelines + more: http://wiki.documentfoundation.org/Netiquette Listens arkiv er tilgængelig på http://listarchives.libreoffice.org/da/stavekontrol/ Alle beskeder du sender til listen bliver publiseret her og kan ikke efterfølgende slettes