Re: [Talk-dk] autoAWS første udkast

2018-04-18 Tråd Ole Laursen
18. april 2018 kl. 10.58 skrev Jonathan Hougaard :
> Jeg vil eksperimentere med at indhente vejnavne fra OISfixes - men jeg kan
> se dataet er formatteret så det er nemt at tilgå, så det burde være rimelig
> simpelt at få til at fungere :)
>
> Vil du foretrække, at jeg periodevis henter en komplet kopi af databasen ned
> og så kalder den, eller at jeg kalder din database for et enkelt vejstykke
> af gangen? Umiddelbart foretrækker jeg mulighed #2 da jeg helst ikke vil ud
> i noget duplikering af data hvor det ikke er nødvendigt - medmindre du er
> træt af at jeg laver nogle tusinde små anmodninger til databasen (alle vil
> være med en specifik kommunekode og vejkode).

Hvis du laver et kald per punkt du skal sammenligne, kommer du måske
til at dø i latency, men det er ikke noget problem at du f.eks. hiver
dataene ud hver gang du starter en kørsel på en række punkter. Jeg
tror alle rettelserne pt. fylder noget i stil med 50 kB som JSON... :)


Ole

___
Talk-dk mailing list
Talk-dk@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-dk


Re: [Talk-dk] autoAWS første udkast

2018-04-18 Tråd Jonathan Hougaard

Hej Ole


Jeg skal beklage, at jeg ikke lige fik kigget ordentligt på OIS fix 
siden da du sendte den sidst.


Jeg vil eksperimentere med at indhente vejnavne fra OISfixes - men jeg 
kan se dataet er formatteret så det er nemt at tilgå, så det burde være 
rimelig simpelt at få til at fungere :)


Vil du foretrække, at jeg periodevis henter en komplet kopi af databasen 
ned og så kalder den, eller at jeg kalder din database for et enkelt 
vejstykke af gangen? Umiddelbart foretrækker jeg mulighed #2 da jeg 
helst ikke vil ud i noget duplikering af data hvor det ikke er 
nødvendigt - medmindre du er træt af at jeg laver nogle tusinde små 
anmodninger til databasen (alle vil være med en specifik kommunekode og 
vejkode).



On 18/04/2018 09:16, Ole Laursen wrote:

Hej Jonathan

18. april 2018 kl. 08.13 skrev Jonathan Hougaard :

Jeg er med på, at data fra DAR ikke er 100% korrekt. Det ændrer ikke ved, at
det er den tilgang,  jeg er nødt til at have. Hvis jeg derimod skal antage,
at data fra DAR som udgangspunkt er forkert, kan vi jo lige så godt droppe
importen.

Beklager, jeg skulle måske have uddybet før - jeg havde indtryk af at
du havde læst tilbage på postlisten, det lød sådan på din første
email.

Den oprindelige robot havde nøjagtig den tilgang du skriver nu.

Det resulterede så i at flere tusinde adresseknuder havde absurde
vejnavne, som Niels lige har illustreret. En tid ignorerede vi
problemet og opkaldte bare vejene korrekt. Men så fik vi det problem
at inkonsistensværktøjerne jo sammenligner vejnavne med nærliggende
adresseknuder og melder fejl hvis der ikke er overensstemmelse.

Det gik vi så i fællesskab og spekulerede over et stykke tid indtil
jeg så lavede

https://oisfixes.iola.dk

Kan jeg overtale dig til at prøve at bruge bare 5 minutter inde på den side?

Løsningen var, som du kan se, at lave en database over fejl i DAR. Det
havde to formål: robotten kunne så rette vejnavnene til når den
importerede, og kommunerne kunne gå ind og se fejl i deres data.

Logikken er ret enkel: der er en JSON-grænseflade som importeren
starter med at hente data fra, putter i et associativt array og slår
op om der er en rettelse hver gang den processerer en knude.

Nu fandt jeg lige den email hvor Peter Brodersen skrev at han havde
fået importeren til at tage rettelser ind fra oisfixes:

https://lists.openstreetmap.org/pipermail/talk-dk/2011-September/001818.html

Så det er ikke sådan at du behøver at bruge lang tid på at genopfinde
fejlhåndtering - vi har allerede været det igennem. Det er muligt
arbejdsgangen kan være smartere - hvis du har et forslag, så vil jeg
gerne kigge på at omkode eller evt. afvikle oisfixes.


Du har helt ret i, at der sikkert både er og vil komme nye fejl i
DAR-dataen. 100% korrekt data findes i denne sammenhæng ikke. Jeg mener dog
stadig, at den 99% korrekte data vi kan hente fra DAR er langt bedre end
manuel tilretning af samtlige adresser i Danmark, hvilket er helt
urealistisk.

Jeg tror du lige skal et skridt tilbage og se at der er en mulighed mere:

auto-import + individuelle rettelser fra OSM-miljøet > auto-import >
manuel import


Ole

___
Talk-dk mailing list
Talk-dk@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-dk



___
Talk-dk mailing list
Talk-dk@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-dk


Re: [Talk-dk] autoAWS første udkast

2018-04-18 Tråd Jonathan Hougaard

Hej Niels


Jeg er med på, at data fra DAR ikke er 100% korrekt. Det ændrer ikke 
ved, at det er den tilgang,  jeg er nødt til at have. Hvis jeg derimod 
skal antage, at data fra DAR som udgangspunkt er forkert, kan vi jo lige 
så godt droppe importen.



Scriptet kan oversætte de forkortelser som vi fortæller det. Skal Dr. så 
være Doktor eller Dronning? Tja, hvis jeg var turist i en ny by ville 
jeg heller ikke selv kunne kende forskel. Så i den forstand er problemet 
jo ikke unikt. Dog kunne et udgangspunkt for oversættelse af 
forkortelser være Dansk Sprognævns vejledning i retskrivning af vejnavne 
(http://danmarksadresser.dk/file/383079/ds-vejledning-retskrivning.pdf). 
Har forkortes Doktor i øvrigt Dr. mens Dronning forkortes Dronn.



Du har helt ret i, at der sikkert både er og vil komme nye fejl i 
DAR-dataen. 100% korrekt data findes i denne sammenhæng ikke. Jeg mener 
dog stadig, at den 99% korrekte data vi kan hente fra DAR er langt bedre 
end manuel tilretning af samtlige adresser i Danmark, hvilket er helt 
urealistisk.



On 17/04/2018 14:18, Niels Elgaard Larsen wrote:

On Tue, 17 Apr 2018 11:13:12 +0200
Jonathan Hougaard  wrote:



Mht. 4 - som nævnt tidligere, er min tilgang generelt (nødt til at
være), at data fra DAR er korrekt.

Men det er data fra DAR altså ikke altid. Datakvaliteten er høj, men
det er ikke perfekt.


Jeg har ikke deltaget i den nævnte
diskussion, og kender derfor ikke argumenterne. Teknisk kan jeg godt,
hvis der er konsensus om det, rette forkortede vejnavne til deres
fulde navn før de importeres. Dette kræver, at der er en eller anden,
der laver en komplet liste med forkortelser og deres udvidede form
(Dr. = Doktor, Nr. = Nørre osv.)

Men er dit system så smart nok til at vide at "Dr. Dorothea" er Dronning
Dorothea og ikke Doktor Dorothea?


Umiddelbart har jeg lidt svært ved at forstå, hvorfor vi ønsker at
ændre de tilsyneladende officielle vejnavne fra DAR,

Fordi de ikke er korrekte. Og de er heller ikke officielle. Det er bare
en database. Mange af fejlene i DAR skyldes at vejnavnene oprindeligt
er indtastet i et system, hvor der kun var plads til 20 tegn for
vejnavne. Det gør ikke Borgm.Jespersensvej til et officielt vejnavn, så
kommunen kører ud og skifter alle skiltene.

Det ser ud til at de fleste fixes på OIS-fixes nu er rettet i
DAR, (fx Tengslemrk Strandvej => Tengslemark Strandvej).

Men der var jo så et stykke tid hvor navnene var korrekte i OSM, men
endnu ikke rettet i DAR/AWS. Og måske har de rettet det fordi de så
rettelsen i OSM. Under alle omstændigheder kommer der sikkert nye veje
med fejl i DAR, som de vil være lang til om at rette.



men som sagt
kender jeg ikke argumenterne.



Mht. position, som tidligere diskuteret et sted i forrige tråd, bør
fejl rettes direkte hos DAR.

Igen, der kan gå lang tid inden vi får rettet fejl i DAR.
Og hvis vi ved at data i OSM er forkerte, skal der være en måde at
rette dem i OSM indtil de bliver rettet i DAR.


Hvis der er helt exceptionelle tilfælde
hvor en adresseknude i OSM ikke skal placeres på den officielle
placering (jeg kan ikke umiddelbart komme på nogen!),

https://overpass-turbo.eu/s/xYk
Mange af dem er rettet i DAR, så vi burde gå dem igennem og rydde op.

Men der er stadig mærkelige ting i DAR.

Fx at der både er Gl. Strandvej 237 i Humlebæk og Gammel Strandvej 237 i
Espergærde.


  kan vi
eventuelt anvende et specielt tag, så knuden bliver ignoreret
(autoaws=ignore eller hvad ved jeg). Så vidt jeg forstår, har AWSbot
haft en tilsvarende funktion.

Vi kan vel fortsætte med ois:fixme
  

On 17/04/2018 10:26, Jakob Barfod wrote:

I må meget gerne kigge beskrivelsen igennem og komme med forslag og
kommentarer til dette.

1. Rigtig godt arbejde!

2. Foretrækker du, at diskussion foregåer her på talk-dk eller på
diskussionssiden på wiki'en? 2.a. Hvis her på talk-dk, så opretter
jeg lige en henvisning på wiki'en.

3. Henvisninger til AWSbot på diverse wiki-sider bør opdateres, så
AutoAWS nævnes i stedet. Ikke ment sådan, at _du_ skal gøre det,
men hermed efterlyses steder, hvor vi bør opdatere diverse tekster.
Fx... 3.a https://wiki.openstreetmap.org/wiki/Addresses#Denmark 3.b
https://www.openstreetmap.org/user/AWSbot 3.c
https://wiki.openstreetmap.org/wiki/Import/Catalogue/KMS 3.d Flere?

4. Konfliktende opdateringer? Hvem har ret, DAR eller OSM?
Jf. den gamle "Dr. Tværgade<>Doktor Tværgade"-diskussion, så lægger
jeg mærke til, at stavningen fra DAR bruges, hvis der er forskel:

 "Any one of the following conditions will trigger an update:
 [...]
 The position (lat and lon) of the node is not equal to the AWS
address position addr:street=* is not equal to the AWS street name "

Er det hensigtsmæssigt? Hvad nu hvis en OSM-bruger har tilrettet
forkerte data (fx position eller stavning af vejnavn)? Det kan jeg
simpelthen ikke gennemskue.


___
Talk-dk mailing list
Talk-dk@openstreetmap.org

Re: [Talk-dk] autoAWS første udkast

2018-04-17 Tråd Jakob Barfod
> > Mht. position, som tidligere diskuteret et sted i forrige tråd, bør
> > fejl rettes direkte hos DAR.
> 
> Igen, der kan gå lang tid inden vi får rettet fejl i DAR.
> Og hvis vi ved at data i OSM er forkerte, skal der være en måde at rette
> dem i OSM indtil de bliver rettet i DAR.

Bemærk følgende fra https://wiki.openstreetmap.org/wiki/Da:Adresser :

  "osak:street_name=* er kun benyttet i tilfælde hvor der er blevet oprettet en 
automatisk rettelse af vejnavne via OIS-fixes siden. Tagget vil da indeholde 
det oprindelige vejnavn som angivet i OIS hvorimod addr:street=* vil indeholde 
det korrekte vejnavn.

Så husk ikke at ændre i osak:street_name=* for ellers kan botten ikke finde ud 
af det og importere adressen 2 gange."

Det giver god mening...

-- 
Jakob


___
Talk-dk mailing list
Talk-dk@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-dk


Re: [Talk-dk] autoAWS første udkast

2018-04-17 Tråd Niels Elgaard Larsen
On Tue, 17 Apr 2018 11:13:12 +0200
Jonathan Hougaard  wrote:


> Mht. 4 - som nævnt tidligere, er min tilgang generelt (nødt til at 
> være), at data fra DAR er korrekt.

Men det er data fra DAR altså ikke altid. Datakvaliteten er høj, men
det er ikke perfekt.

> Jeg har ikke deltaget i den nævnte 
> diskussion, og kender derfor ikke argumenterne. Teknisk kan jeg godt, 
> hvis der er konsensus om det, rette forkortede vejnavne til deres
> fulde navn før de importeres. Dette kræver, at der er en eller anden,
> der laver en komplet liste med forkortelser og deres udvidede form
> (Dr. = Doktor, Nr. = Nørre osv.)

Men er dit system så smart nok til at vide at "Dr. Dorothea" er Dronning
Dorothea og ikke Doktor Dorothea?

> Umiddelbart har jeg lidt svært ved at forstå, hvorfor vi ønsker at
> ændre de tilsyneladende officielle vejnavne fra DAR,

Fordi de ikke er korrekte. Og de er heller ikke officielle. Det er bare
en database. Mange af fejlene i DAR skyldes at vejnavnene oprindeligt
er indtastet i et system, hvor der kun var plads til 20 tegn for
vejnavne. Det gør ikke Borgm.Jespersensvej til et officielt vejnavn, så
kommunen kører ud og skifter alle skiltene.

Det ser ud til at de fleste fixes på OIS-fixes nu er rettet i
DAR, (fx Tengslemrk Strandvej => Tengslemark Strandvej).

Men der var jo så et stykke tid hvor navnene var korrekte i OSM, men
endnu ikke rettet i DAR/AWS. Og måske har de rettet det fordi de så
rettelsen i OSM. Under alle omstændigheder kommer der sikkert nye veje
med fejl i DAR, som de vil være lang til om at rette.


> men som sagt
> kender jeg ikke argumenterne.


> Mht. position, som tidligere diskuteret et sted i forrige tråd, bør
> fejl rettes direkte hos DAR. 

Igen, der kan gå lang tid inden vi får rettet fejl i DAR.
Og hvis vi ved at data i OSM er forkerte, skal der være en måde at
rette dem i OSM indtil de bliver rettet i DAR.

> Hvis der er helt exceptionelle tilfælde
> hvor en adresseknude i OSM ikke skal placeres på den officielle
> placering (jeg kan ikke umiddelbart komme på nogen!),

https://overpass-turbo.eu/s/xYk
Mange af dem er rettet i DAR, så vi burde gå dem igennem og rydde op.

Men der er stadig mærkelige ting i DAR.

Fx at der både er Gl. Strandvej 237 i Humlebæk og Gammel Strandvej 237 i
Espergærde.

>  kan vi
> eventuelt anvende et specielt tag, så knuden bliver ignoreret
> (autoaws=ignore eller hvad ved jeg). Så vidt jeg forstår, har AWSbot
> haft en tilsvarende funktion.

Vi kan vel fortsætte med ois:fixme
 
> On 17/04/2018 10:26, Jakob Barfod wrote:
> >> I må meget gerne kigge beskrivelsen igennem og komme med forslag og
> >> kommentarer til dette.  
> > 1. Rigtig godt arbejde!
> >
> > 2. Foretrækker du, at diskussion foregåer her på talk-dk eller på
> > diskussionssiden på wiki'en? 2.a. Hvis her på talk-dk, så opretter
> > jeg lige en henvisning på wiki'en.
> >
> > 3. Henvisninger til AWSbot på diverse wiki-sider bør opdateres, så
> > AutoAWS nævnes i stedet. Ikke ment sådan, at _du_ skal gøre det,
> > men hermed efterlyses steder, hvor vi bør opdatere diverse tekster.
> > Fx... 3.a https://wiki.openstreetmap.org/wiki/Addresses#Denmark 3.b
> > https://www.openstreetmap.org/user/AWSbot 3.c
> > https://wiki.openstreetmap.org/wiki/Import/Catalogue/KMS 3.d Flere?
> >
> > 4. Konfliktende opdateringer? Hvem har ret, DAR eller OSM?
> > Jf. den gamle "Dr. Tværgade<>Doktor Tværgade"-diskussion, så lægger
> > jeg mærke til, at stavningen fra DAR bruges, hvis der er forskel:
> >
> > "Any one of the following conditions will trigger an update:
> > [...]
> > The position (lat and lon) of the node is not equal to the AWS
> > address position addr:street=* is not equal to the AWS street name "
> >
> > Er det hensigtsmæssigt? Hvad nu hvis en OSM-bruger har tilrettet
> > forkerte data (fx position eller stavning af vejnavn)? Det kan jeg
> > simpelthen ikke gennemskue. 
> 
> 
> ___
> Talk-dk mailing list
> Talk-dk@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-dk



-- 
Niels

___
Talk-dk mailing list
Talk-dk@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-dk


Re: [Talk-dk] autoAWS første udkast

2018-04-17 Tråd Jonathan Hougaard

Hej Jakob


Tak skal du have.

Lad os bare flytte diskussionen til wiki-siden, så undgår vi at sende en 
masse emails til folk der måske ikke er interesserede i projektet.


Mht. 4 - som nævnt tidligere, er min tilgang generelt (nødt til at 
være), at data fra DAR er korrekt. Jeg har ikke deltaget i den nævnte 
diskussion, og kender derfor ikke argumenterne. Teknisk kan jeg godt, 
hvis der er konsensus om det, rette forkortede vejnavne til deres fulde 
navn før de importeres. Dette kræver, at der er en eller anden, der 
laver en komplet liste med forkortelser og deres udvidede form (Dr. = 
Doktor, Nr. = Nørre osv.)


Umiddelbart har jeg lidt svært ved at forstå, hvorfor vi ønsker at ændre 
de tilsyneladende officielle vejnavne fra DAR, men som sagt kender jeg 
ikke argumenterne.


Mht. position, som tidligere diskuteret et sted i forrige tråd, bør fejl 
rettes direkte hos DAR. Hvis der er helt exceptionelle tilfælde hvor en 
adresseknude i OSM ikke skal placeres på den officielle placering (jeg 
kan ikke umiddelbart komme på nogen!), kan vi eventuelt anvende et 
specielt tag, så knuden bliver ignoreret (autoaws=ignore eller hvad ved 
jeg). Så vidt jeg forstår, har AWSbot haft en tilsvarende funktion.



On 17/04/2018 10:26, Jakob Barfod wrote:

I må meget gerne kigge beskrivelsen igennem og komme med forslag og
kommentarer til dette.

1. Rigtig godt arbejde!

2. Foretrækker du, at diskussion foregåer her på talk-dk eller på 
diskussionssiden på wiki'en?
2.a. Hvis her på talk-dk, så opretter jeg lige en henvisning på wiki'en.

3. Henvisninger til AWSbot på diverse wiki-sider bør opdateres, så AutoAWS 
nævnes i stedet. Ikke ment sådan, at _du_ skal gøre det, men hermed efterlyses 
steder, hvor vi bør opdatere diverse tekster. Fx...
3.a https://wiki.openstreetmap.org/wiki/Addresses#Denmark
3.b https://www.openstreetmap.org/user/AWSbot
3.c https://wiki.openstreetmap.org/wiki/Import/Catalogue/KMS
3.d Flere?

4. Konfliktende opdateringer? Hvem har ret, DAR eller OSM?
Jf. den gamle "Dr. Tværgade<>Doktor Tværgade"-diskussion, så lægger jeg mærke 
til, at stavningen fra DAR bruges, hvis der er forskel:

"Any one of the following conditions will trigger an update:
[...]
The position (lat and lon) of the node is not equal to the AWS address 
position
addr:street=* is not equal to the AWS street name "

Er det hensigtsmæssigt? Hvad nu hvis en OSM-bruger har tilrettet forkerte data 
(fx position eller stavning af vejnavn)? Det kan jeg simpelthen ikke gennemskue.




___
Talk-dk mailing list
Talk-dk@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-dk


Re: [Talk-dk] autoAWS første udkast

2018-04-17 Tråd Jakob Barfod
> I må meget gerne kigge beskrivelsen igennem og komme med forslag og
> kommentarer til dette.

1. Rigtig godt arbejde!

2. Foretrækker du, at diskussion foregåer her på talk-dk eller på 
diskussionssiden på wiki'en?
2.a. Hvis her på talk-dk, så opretter jeg lige en henvisning på wiki'en.

3. Henvisninger til AWSbot på diverse wiki-sider bør opdateres, så AutoAWS 
nævnes i stedet. Ikke ment sådan, at _du_ skal gøre det, men hermed efterlyses 
steder, hvor vi bør opdatere diverse tekster. Fx...
3.a https://wiki.openstreetmap.org/wiki/Addresses#Denmark
3.b https://www.openstreetmap.org/user/AWSbot
3.c https://wiki.openstreetmap.org/wiki/Import/Catalogue/KMS 
3.d Flere?

4. Konfliktende opdateringer? Hvem har ret, DAR eller OSM?
Jf. den gamle "Dr. Tværgade<>Doktor Tværgade"-diskussion, så lægger jeg mærke 
til, at stavningen fra DAR bruges, hvis der er forskel:

   "Any one of the following conditions will trigger an update: 
   [...]
   The position (lat and lon) of the node is not equal to the AWS address 
position 
   addr:street=* is not equal to the AWS street name "

Er det hensigtsmæssigt? Hvad nu hvis en OSM-bruger har tilrettet forkerte data 
(fx position eller stavning af vejnavn)? Det kan jeg simpelthen ikke gennemskue.

-- 
Jakob


___
Talk-dk mailing list
Talk-dk@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-dk


[Talk-dk] autoAWS første udkast

2018-04-17 Tråd Jonathan Hougaard

Hej alle


Tak for de mange input og kommentarer på min tidligere email om et nyt 
script til opdatering af adressedata i Danmark.


Jeg har opdateret wiki-siden, så den gerne skulle stemme overens med 
koden som den ser ud lige nu: https://wiki.openstreetmap.org/wiki/AutoAWS


I må meget gerne kigge beskrivelsen igennem og komme med forslag og 
kommentarer til dette.


Da enkelte af jer har været meget ivrige efter at få fingre i 
kildekoden, selvom den på ingen måde er færdig, har jeg uploadet den 
foreløbige kode her: https://pastebin.com/qtwkiUVa


Bemærk venligst, at de enkelte del-funktioner er nået et godt stykke 
vej, men jeg mangler stadig at samle det hele i main(). Desuden mangler 
jeg at indføre en hel del fejlhåndtering. Et par steder har jeg indført 
en die() for at undgå at arbejde med/indføre korrupt data, disse vil 
selvfølgelig blive erstattet af en lidt mere fornuftig fejlhåndtering.


Delelementer af koden er testet mod OSM's developer API. For eksempel 
vil i bemærke, at der nu findes næsten 1000 adresse-noder i Aalborg i 
denne ... (se 
https://master.apis.dev.openstreetmap.org/user/autoAWS/history)


Kommentarer på selve koden modtages også gerne, men som sagt er den 
stadig noget "grov i kanterne" da jeg egentlig ikke havde planer om at 
offentliggøre den i et så tidligt stadie.



Venligst

Jonathan


___
Talk-dk mailing list
Talk-dk@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-dk