Den gang jeg startede med at lave den tagger vi har i dag, der kunne jeg ikke 
finde noget vedr. tagger/opmærkning af ord på dansk. Så jeg opfandt selv en 
syntaks hvor jeg prøvede at ligge mig op af de latinske betegnelser og den stil 
bl.a. polen bruger i LanguageTool.


Siden faldt jeg over korpusserne fra DSL, her har jeg kraftig overvejet om man 
kunne bruge deres tags royalty free, da mit påhit med tags-syntaks nok er 
blevet lidt rodet og man der udover letter ville kunne have personer der kunne 
have gavn af begge projekter. (CST bruger en lidt anderledes syntaks, men 
bestemt også noget man kunne lade sig inspirere af.)


Jeg overvejede ikke at høste en tagger fra DSLs korpusser, da de inderholder en 
del stavefejl som også er opmærket.

Den tagger fra CST ser ud til at være mere avanceret en det nogen af de andre 
sprog har i LanguageTool, da den prøver at gætte på hvilket opmærkning en 
homograf eller et homonym skal have, hvor vi bare giver den alle 
opmærkningerne. Denne forskel betyder også at der skal noget programmering til 
for at bruge deres, i steden for den flade fil der bruges i dag.

Hvilket af de 2 fremgangs måder der er bedst til vores formål det ved jeg ikke!

Nuværende:
+svar overens med stavekontrollen
+vi kan selv hurtig rette fejl
-problemer med flertydigheden på en del ord


CST:

+mere præcis opmærkning
-risikon for undertrykkelses af fejl, pga. gæt

-hastigheden
-kompleks programmering påkrævet

Mængden af plusser og minusser skal ikke ses som at jeg er mere for den ene ide 
frem for den anden.

Hvordan er det har du en god kontakt til CST, for det ville da aldrig skade og 
spørge uformel?

Hvilket opmærkninger der er relevant i en Tagger ift. grammatikregler, ved jeg 
heller ikke. Jeg kan se at ½ af reglerne der bruger postag, kun spørger på 
ordklassen (sub., ver., adj. osv.).



Med venlig hilsen


Esben Aaberg



________________________________
 Fra: Leif Lodahl <leiflod...@gmail.com>
Til: 
Cc: "stavekontrol@da.libreoffice.org" <stavekontrol@da.libreoffice.org> 
Sendt: 15:56 lørdag den 30. marts 2013
Emne: Re: [da-stavekontrol] LanguageTools ...
 
Leif skrev:
En anden mulighed er at finde en eksisterende POS-tagger. Måske har
Apertium-projektet en, ellers ved jeg tilfældigvis, at Københavns
Universitet har en ( http://cst.dk/online/pos_tagger/index.html ).


Esben skrev:
Jeg har ikke fået taget hul på at ændre Taggeren til at være baseret på
træk fra databasen. Vil dog fluks prikke til Jeppe, så jeg kan få fjernet
den manglende tekniske forudsætning for at jeg kan komme i gang.

Esben, har du overvejet, at det er muligt at bruge POS-taggeren fra CST
frem for at vi (du) genererer en fra vores egen database?

Vi kan evt. starte med at tage kontakt til CST for at afklare rettigheder
o.s.v.

/Leif
-- 
Send en e-mail til stavekontrol+h...@da.libreoffice.org for instruktioner om 
hvordan du ophæver dit abonnement
Problemer? http://da.libreoffice.org/kontakt-os/postlister/
Posting guidelines + more: http://wiki.documentfoundation.org/Netiquette
Listens arkiv er tilgængelig på 
http://listarchives.libreoffice.org/da/stavekontrol/
Alle beskeder du sender til listen bliver publiseret her og kan ikke 
efterfølgende slettes

Besvar via email