Re: [OSM-talk-be] import AGIV CRAB-data

Thomas Sun, 26 Oct 2014 02:21:08 -0700

De validator geeft inderdaad netjes melding van de meerdere punten opelkaar. Ik vraag me af of we daar nog iets mee moeten. Veel (alle?) vande adressen zonder positie uit jouw script vallen nu samen met een anderpunt. Voor wat ik zo snel even kon bekijken zijn dat toch best veelpunten. Daar moet dus sowieso handmatig op ingegrepen worden (zoalseigenlijk op heel veel punten).

Moeten we nog iets doen met een hulptag over appartementsnummer,busnummers of huisnummerlabels? Over dat laatste zegt het AGIV in dedocumentatie: “Opgelet: Komen er op de coördinaat van het CRAB adresmeerdere huisnummers voor die in dezelfde straat liggen, dan bevat hetlabel het laagste en het hoogste huisnummer (bv. label 10-14 voor hetperceel met de huisnummers 10, 12 en 14 in de Molenstraat).”. Het zouook mogelijk moeten zijn om voor deze punten automatisch eensamengestelde addr:housenumber-value te maken die een samenstelling isvan de verschillende punten die samenvallen. Dat valt nog wel te coderen.

Los van de technische vraag is de inhoudelijke vraag dus eigenlijk: watdoen we met die samenvallende punten? Schuiven we de punten handmatiguit elkaar, of voegen we ze samen met een samengesteld label als 15A-Bvoor de adressen “15A” en “15B”. Dat laatste kan automatisch, maar hetis dan weer de vraag of dat wenselijk is. Er zullen vast situaties zijnwaarin je die punten niet wil mergen maar juist individueel houden. Hethele idee is ook dat we puur adressen (en eventuele bisnummers) in OSMstoppen en geen subadressen (busnummers en appartementnummers). Dus:indien de adrespositie voor twee adrespunten gelijk is, moeten deze danautomatisch worden samengevoegd tot 1 punt met een samengesteld label,of laten we dat ter beoordeling van de mapper?

Ik ga nog even kijken naar wat checks op die straatnamen met eengelijkaardige naam en een verschillende id. Het zou interessant zijn alsdie gevallen opgepikt worden. Ik ben het ermee eens dat veel van defoutopsporing in het algemeen best aan de JS-kant gebeurt. Daar heb jeook je overpass-query beschikbaar. Aan de andere kant vind ik dat eenaantal basis-integriteits-dingen toch al door het python-gedeelte mogenworden opgepikt. De loopduur van het script moet aan de andere kant ookweer zo kort mogelijk gehouden worden. Ik denk dat het een beetjezichzelf wijst. Een aantal checks (zoals zelfde straatnaamid,verschillende straatnaam) hebben geen of een zeer lage kost, terwijldeze toch een zekere basiskwaliteit van de dataset opleveren.

De scripts eerst vergelijken en evalueren lijkt me prima. Ik heb eeneigen github aangemaakt zodat het onderscheid tussen beide scripts nueerst helder is. Ik heb de data van de laatste conversie alvastopgeladen samen met de webpagina en het JS. Aan de webpagina heb ikhelemaal niets gewijzigd. Aan het JS heb ik enkel de extra tagtoegevoegd, binnen een conditional.

Ik ga nog wat kleine puntjes aanpakken en het python-script watrobuuster opbouwen. Misschien dat ik met een parallelle architectuur nogwat snelheidswinst kan boeken. Vanaf nu kan er in elk geval weer getestgaan worden. Ook alle problemen met de dataset die in de laatste mailsgemeld werden ga ik nader bekijken.

Bij deze dus het verzoek aan al diegenen die mee willen testen: julliekunnen op http://aptum.github.io/import.html mijn script testen. Hetverschil met de pagina van Sander is dat mijn pagina gebruik maakt vande adressenlijst in plaats van de adresposities. Uiterlijk is er nietsveranderd, maar het conversiescript is vrijwel compleet nieuw. Daarnaastheb ik een extra tag toegevoegd (CRAB:source) die weergeeft waar deinformatie uit het CRAB vandaan komt. Deze geeft aan hoe het adrespuntbepaald is, en zegt daarmee iets over de nauwkeurigheid van de plaatsvan het label. Deze tag mag niet naar OSM opgeladen worden! Graag hoorik het als er nog problemen gesignaleerd worden. Bij deze ook creditsvoor het vele en goede werk van Sander en voor het ter beschikkingstellen van alle code!


Groeten,
Thomas

Sander Deryckere schreef op 25-10-2014 21:17:

Op 25 oktober 2014 20:57 schreef Thomas <[email protected]<mailto:[email protected]>>:



    Inmiddels ook de codering in gehoorzaamheid gedwongen. Blijkt dat
    de codering van de shapefile gewoon Latin-1 is en niet die vage
    CP-720. Dat scheelt ook maar weer.

    De snelheid van mijn script valt me al bij al wel mee. Op dit
    moment gebruikt hij maar 1 thread. Het inlezen van het bestand in
    de dictionaries duurt zo'n 50 minuten. Het schrijven naar de
    JSON-bestanden een kleine 10 minuten (op een SSD'tje). Het
    schrijven gaat volgens mij wat trager omdat ik de adres-dictionary
    vervangen heb door een tuple. Dat scheelt toch een kleine 500MB in
    geheugengebruik. In totaal gebruikt het script maar iets van 2GB
    ram dacht ik, maar dat moet ik nog even nakijken. Sinds die
    wijziging heb ik in elk geval geen geheugenproblemen meer gehad.

    Qua tags hoeven we inderdaad enkel de addr:housenumber en
    addr:street over te nemen. Daarnaast wil ik graag het
    herkomst-veld als tag invoeren, zodat de punten gestyled kunnen
    worden op basis daarvan. Naar mijn idee is die herkomst zeer
    bepalend voor de “nauwkeurigheid” van de punten. Ik heb dat nu
    geïmplementeerd als een “CRAB:herkomst”-tag. De Engelse variant
    “CRAB:source” vond ik een beetje misleidend. Aan de andere kant
    gaat het natuurlijk wel over hoe ze de locatie van het punt
    bepaald hebben. Dat kun je dus wel als “source” zien.

CRAB:source=* lijkt me goed. Als de waarden enigszins duidelijk zijn,dan is alles ok.



    Daarnaast misschien nog iets van een tag om waarschuwingen mee te
    communiceren, bijvoorbeeld over de schrijfwijze van de straatnaam.
    Aan de andere kant heb ik geen enkel geval kunnen vinden waar twee
    adressen een zelfde straatnaam-id hebben maar een verschillende
    straatnaam (bijvoorbeeld een andere spelling). Dat soort fouten
    lijken me maar beperkt aanwezig en kunnen dus waarschijnlijk
    allemaal opgevangen worden met de FIXME-tag. Het huidige gebruik
    (om punten zonder locatie mee aan te geven) is in feite overbodig,
    omdat alle punten een locatie hebben.

De JOSM validator kan hier ook nuttig zijn. Als de coordinatenvolledig overeenkomen, dan zal de validator sowieso klagen denk ik.Dus is een fixme tag misschien niet volledig noodzakelijk

De straatnaam id is in de posities database de enige manier om destraatnaam te vinden. Dus als er enige overeenkomst tussen dedatabases is, dan is het normaal dat je geen straatnaam-id vindt mettwee verschillende namen. De andere kant kan wel voor komen: dezelfdestraatnaam (of bijna dezelfde) met een verschillende straat id.


    Ik ben nu nog wat aan het kijken welke fouten ik met het
    python-script moet opsporen en welke best in de javascript naar
    boven gehaald kunnen worden in combinatie met de overpass-query.
    Het belangrijkste zijn de punten die samenvallen. Dat is een
    situatie die niet ingevoerd mag worden in OSM, dus ook hier lijkt
    een FIXME-tag mij het meest geschikt. Dat ga ik in elk geval nog
    even netjes documenteren.

Ik zou het foutopsporen vooral voor de JS kant houden. Dan kunnen wedat gemakkelijker aanpassen (zonder een script van een uur te draaienom dan een klein tikfoutje te ontdekken).


    Nog een praktisch punt: hoe willen we deze tweede variant
    beschikbaar stellen? Moet dat naast de huidige komen te staan
    zodat we kunnen vergelijken, of moeten we juist vermijden dat er
    twee varianten in gebruik zijn en dat er verwarring ontstaat? Voor
    de gewone gebruiker is er eigenlijk geen verschil tussen beide
    systemen, dus dat is potentieel verwarrend. Anderzijds is het in
    de huidige beperkte opzet niet zo'n punt en misschien juist
    handig. Wat zijn jullie ideeën hierover?

Ik zou het nog even naast elkaar houden, kwestie van vergelijking. Nahet evalueren van de tools kunnen die dan onder een beter adresbeschikbaar gesteld worden.

Host je het onder je eigen server (desnoods je eigen github account)of wil je toegang tot de repo die ik nu heb?


Groeten,
Sander




_______________________________________________
Talk-be mailing list
[email protected]
https://lists.openstreetmap.org/listinfo/talk-be

_______________________________________________
Talk-be mailing list
[email protected]
https://lists.openstreetmap.org/listinfo/talk-be

Re: [OSM-talk-be] import AGIV CRAB-data

Reply via email to