Hej Esben,
Av, der ramte du lige en akilleshæl.
Vi har ikke genereret ny thesaurus i mere end et år.
Historien er, at for et par år siden indgik jeg en aftale med DSL og KU
om at vi må høste ord fra deres databaser. DSL har en lille
synonymordbog og KU har en thesaurus (overord og underord) af meget høj
kvalitet. Juhu. Samtidig flettede vi ordene sammen med vores egne
synonymer fra synonym.oooforum.dk.
Når vi fletter de tre kilder, har vi besluttet at der ved sammenfald
altid bruges de eksterne kilder. Det skyldes at den sproglige kvalitet
er meget høj i disse kilder.
Vi fik udviklet en høstmaskine, som vi afviklede et par gange, men siden
har vi glemt alt om den ;-)
Jeg ved at der efterfølgende er kommet nye ord i begge kilder, og der er
muligvis også rettet i vores egen.
Vi skal naturligvis have indbygget dine kvalitetstjek i
kompileringsprogrammet. Alt andet vil være dumt.
Men spørgsmålet er i virkeligheden om ikke det ville være smart, at du
selv afvikler det program, der høster og pakker thesaurus? Der er jo
sket den ændring, at de to ordbøger nu er samlet i en pakke.
Programmet er udviklet af Magenta ApS (som jeg arbejder hos), men det er
åben sovs og vi overdrager med høj sandsynlighed gerne alle rettigheder
til Stavekontrolden.
Med hensyn til stavekontrol kontra synonymordbogen. Jeg mener at vi i
sin tid blev enige om, at ord der foreslås af synonymordbogen som
udgangspunkt skal godkendes af stavekontrollen. Det var før du kunne
differenciere mellem godkendte og foreslåede ord i stavekontrollen. Jeg
synes at vi skal holde os til den aftale (den giver god mening), men
også overveje hvordan vi skal håndtere undtagelser. Vi bruger eksterne
kilder, som vi ikke er herre over. Derfor kan der opstå en situation,
hvor thesaurus indeholder ord, som vi af en eller anden grund ikke vil
have ind i stavekontrollen. Skal vi håndtere det med manuelle
undtagelser i pakningen (disse ord udelades af vores synonymordbog),
eller skal vi acceptere at der er ord i synonymordbogen, som bliver
markeret som forkerte af stavekontrollen. Afgørelsen må afvejes op mod
antallet af tilfælde.
Mvh.
Leif
On 25-02-2012 10:38, Esben Aaberg wrote:
Hej Leif
I forbindelse med at lavede en supportsag på optagelse af udvidelse "Stavekontrolden
- Danish dictionary" ver. 2.0 i LibreOffice, blev der gjort opmærksom på at der var
en fejl i dat-filen til synonymordbogen.
https://bugs.freedesktop.org/show_bug.cgi?id=44841
Please note that your th_da_DK.dat contains a bug, there is an empty line at
line number 127756. It is corrected in LibreOffice sources.
Som en konsekvens har af er jeg begyndt af at udviden regressiontest'en til
også at teste på synonymordbogen.
Nedenfor kan det foreløbige resultat ses.
Jeg er begyndt at reducere antallet af ord i dat-filen, som stavekontrollen ikke vil
godtag, ved at tilføje ord til Stavekontrolden. Jeg regner med at jeg nemt kan finde
500-1000 "almindelige" ord inden version 2.1, og så må vi siden kigge på de
lidt mere kryptiske og sjældne ord.
De andre fejl skal jeg prøve at løse dem har fra eller er det noget I kan løse
når i fortager bygningen af synonymordbogen?
Med venlig hilsen
Esben Aaberg
--------------------- OpenThesaurus - Dansk synonymordbog -------------------
Indekseringstest:
Det ser ud til indekseringen er i orden.
Tomme linjer i dat-filen:
127756
Antal fejl: 1
Dobbeltmellemrum i dat-filen:
|skatte- og afgiftsminister|minister for og afgifter
Antal fejl: 1
Linjer med kun et tegn i dat-filen:
7855 |
19992 |
31704 |
31706 |
32649 |
39537 |
55545 |
87240 |
92445 |
95311 |
96246 |
104237 |
104349 |
104356 |
107233 |
107447 |
107457 |
107461 |
110245 |
110465 |
111483 |
113019 |
117043 |
119660 |
137020 |
147594 |
Antal fejl: 26
Ord i dat-filen som stavekontrollen ikke kender:
-
abebrødtræ
-abel
abelmoschus
abies
abild
abitur
abrahams
abramis
abraxas
abrotanum
abs
abs-bremser
absinthium
abstract
abstrus
abyssinier
abyssinierkat
acacia
acalypha
acanthias
acanthiformis
acanthus
acari
accessoirer
accessories
accidenser
accipiter
accise
accoucheur
account
acer
acetatrayon
acetatsilke
acetosa
acetosella
acherontia
achillea
acid
acidhouse
acidofilus
acidofiluskultur
acidophilus
acinonyx
acipenseriformes
aconitum
acontobetaling
acontobidrag
acorus
acrania
acrocephalus
acta
actaea
actiniaria
actitis
aculeata
acuta
acutorostrata
acutus
ada
adam
adamskostyme
adansonia
addend
addenda
addikt
adelbåren
adfærdsforstyrret
adiafora
adiantum
adipøs
adjunktur
adled
admirabel
adorabel
adoxa
adskilthed
adspredthed
adverbielt
adversarier
advocatus
aegithalos
aeglefinus
aegolius
aegopodium
aegypiinae
aeneus
aepyceros
aequoreus
aerobiccenter
aerobicinstruktør
aerofobi
aerolit
aeromekanik
aeruginosus
aesculus
aethiopica
aetiopicus
afbarbere
afbide
afbygger
afbyggergård
afdø
affaires
affiche
affiks
affiliere
affindelsessum
affirmere
afflå
affutage
afghanerpels
afgrundsvælg
afgrødeplante
afhoppe
aficionado
afinstallation
afjaske
afjasket
afjævne
afkappe
afkopiere
afkridte
afkæmme
afladelse
afleden
aflide
aflivningsmetode
aflønningsform
afplatte
afprikke
afpræge
afrejsedag
africanus
afrikke
afro
afrodisi
Afrodite
afrodite
afryste
afrøfle
afrømme
afsaltningsanlæg
afsending
afsi
afsigte
afskildre
afskrotte
afspillefunktion
afspændthed
afstandstagen
aftenlandsk
aftenskolekursus
aftne
aftning
afvekslingsrig
agaricus
agerhønsejagt
------
SNIP
-------
æolsharpe
ærekærhed
æresfrygt
æresloge
ærgerligvis
ærke-
ærkedum
ærkehertuginde
ætermedie
ætsnatron
ætstor
ætylenglykol
øjensynliggøre
øjenvidneskildring
økonomaassistent
ømfindlig
ømål
ønolog
øresundstold
ørle
øster
østtimoreser
åkandefamilien
åland
Ålandsøerne
ålandsøerne
aalge
åndsbolle
åndsværk
årfugl
årsagsmæssig
Antal fejl: 5908
--
Send en e-mail til stavekontrol+h...@da.libreoffice.org for instruktioner om
hvordan du ophæver dit abonnement
Problemer? http://da.libreoffice.org/kontakt-os/postlister/
Posting guidelines + more: http://wiki.documentfoundation.org/Netiquette
Listens arkiv er tilgængelig på
http://listarchives.libreoffice.org/da/stavekontrol/
Alle beskeder du sender til listen bliver publiseret her og kan ikke
efterfølgende slettes