Re: [OSM-talk-be] import AGIV CRAB-data

Thomas Tue, 28 Oct 2014 13:59:40 -0700

Over het beschikbaar maken van postcode en gemeentenaam: de postcodewordt reeds meegegeven in de JSON bestanden en de gemeentenaam kandaaraan worden toegevoegd. Met twee regels code heb ik dat voor elkaar.Echter, daarbij moet ik wel de nodige extra checks inbouwen voor degemeente-id en de naam en de mate waarin deze 1 op 1 matchen om ookhierin eenduidigheid te garanderen. Daarnaast biedt dit ook demogelijkheid om een extra verwantschap tussen gemeente en postcode tebestuderen. Zoals ik uit de voorgaande mails begrepen heb matchen dieniet overal. Dat zorgt voor gesplitste straten met potentieel andereschrijfwijzen. In de suggestie van Jo om iets met straat-relaties tedoen kan dit punt ook voor problemen zorgen. Mijn import-script kan dezegevallen signaleren. Daarmee kan weer een aanvullend stuk zekerheid overde kwaliteit van de brondata worden ingebouwd.

In de discussie over discardable keys denk ik dat de sleutel ligt in hetgebruik van de addr:flats tag die de lijst metbusnummers/appartementnummers weergeeft. Het is namelijk die informatiedie door de gebruikers echt gezien moet worden. Voor die functie is eendiscardable tag ook niet echt inzetbaar, juist omdat de informatie erinverborgen wordt voor de gebruiker. Met de lijst van busnr/apptnr is datafgedekt. De rest kan dan inderdaad met een discardable key en watmapCSS worden weergegeven.

De CRAB:huisnrlabel kan als als tag weggehaald worden uit de javascript.Voorlopig kan dit in de JSON blijven staan. Op die manier kan deinformatie gebruikt worden door het script van Sander om verder gegevensaan elkaar te matchen. CRAB:message verdwijnt dus met het toevoegen vande addr:flats. CRAB-source heeft weinig inhoudelijke betekenis en kanmet een discardable-tag worden vormgegeven met mapCSS ter ondersteuningbij het mappen. De fixme-tag inzetten bij specifieke herkomsten is ookeen goed idee, denk ik.

Die afwijkende huisnummerlabels zijn toch iets bijzonders. Dat wijsttoch op een vage integratie van verschillende databronnen. Mogelijk datdat probleem verholpen wordt als alle gemeenten eenmaal hunadressenbestand gevalideerd hebben.

Het standaardiseren van de letters is een lastige kwestie. Die functieinbouwen in het importeer-script is misschien niet heel handig, omdathet matchen met OSM sowieso in de javascript gebeurt. Ditstandaardiseren op 2 plaatsen regelen lijkt me zeer onhandig. Daarom benik voorstander van de gegevens uit het CRAB niet te standaardiseren naaral dan niet met hoofdletter bij het omzetten naar de JSON bestanden. Ikweet niet hoe consistent de gegevens in OSM zijn op dit punt. Als nu alin OSM beide varianten voor komen, dan zal dat ook in de toekomstmogelijk heel lastig te vermijden zijn, denk ik. Maar dat hangt dus afvan de huidige status van OSM en die ken ik niet. Verder deel ik devisie van Sander op de schrijfwijze.

Het script dat Jo beschrijft om gemakkelijker de CRAB-gegevens te mergenmet OSM lijkt mij ook zeer handig. Daarbij zou ik wel heel erg oplettenmet het inladen van informatie uit OSM in de laag die geïmporteerdwordt. Ook de tegenovergestelde handeling van het automatisch doorvoerenvan informatie uit de import in de OSM-data-laag lijkt me 'gevaarlijk'omdat eventuele fouten dan weer lastig te spotten zijn. Een wizard dievoor elk punt de match weergeeft en slechts een druk op de knop vereistom de tags over te laden lijkt me dan weer prima. Op welke manier ziejij die koppeling tussen de CRAB-adrespunten en de OSM-gebouwcontourenvoor je?

Het tweede script vind ik lastiger. Het omzetten van de tags vind ikrisicovol omdat op die manier een derde parse plaatsvindt. Er zijn nu altwee omzettingen: CRAB → JSON → JOSM. Ik denk dat die alternatieve tagsbeter in de javascript gerealiseerd kunnen worden. DeassociatedStreet-relatie is voor zover ik begrijp toch watcontroversieel vanwege de toegevoegde complexiteit en de problemen vanbeginnende mappers met relaties. Hoewel ik de meerwaarde van eendergelijke relatie zeker zie, is dit ook een extra verwevenheid tussende brondata en OSM die met de hoogste voorzichtigheid moet wordentoegepast. Ook de opmerking van Sander over de potentieel verkeerderelaties lijkt me een aandachtspunt. Wanneer het script hiermee rekeninghoudt lijkt het me potentieel een zeer waardevolle toevoeging!

Ik ga nu mijn conversie-script aanpassen met de bovengenoemdewijzigingen mbt de tags en de extra informatie. Ik ga een stukdocumentatie opstellen over de inhoud en de structuur van deJSON-bestanden zodat mensen die aan andere scripts werken die hieropaansluiten een duidelijke referentie hebben over het hoe en wat van debeschikbare data. Ik ga de extra controle inbouwen voorgemeente-postcode. Daarmee staat het conversie-script dan zo ongeveer oppunt. Als dat eenmaal getest is plaats ik mijn conversiescript ook opgithub. Alle command-line interactie heb ik nu ook bijna op orde,waarmee het script ook geschikt wordt om het daglicht te zien...

Sander: de aanpassingen die je al maakte aan de website vind ik zeergeslaagd. De herbestemming van de Missing w/o pos lijkt mij ookpositief. Een punt zonder locatie wordt al afgevangen door mijnconversiescript. Wat voorwaardelijke opmaak van de tabel kan er ook voorzorgen dat de “Wrong” kolom leeg blijft, tenzij er 1 of meer puntengevonden worden. Zo wordt het geheel wat rustiger en wordttegelijkertijd de aandacht meer gevestigd op specifieke potentiëlefouten in OSM. Het proces van de foute adrespunten inladen en OSMverbeteren staat immers wat los van de werkwijze van het toevoegen vannieuwe adrespunten. Door de opmaak echt te laten contrasteren kan daaralsnog de aandacht voor gevestigd worden. Lijkt het je wat om in elkgeval die conditional rond die <a> toe te voegen? Het stylen is dan vanondergeschikt belang.


Ik regel ook de toegang voor je tot de repo.

Groeten,
Thomas

Sander Deryckere schreef op 28-10-2014 17:39:

Ik heb mij bezig gehouden met het maken van unit tests. De veleregexen zorgden vaak voor bugs die al eens vroeger opgelost waren.
Er is ondertussen ook ondersteuning voor "bis", "ter" en "/1", "/2",... Ook straatnamen met een streepje verschil ("Sint-Jansstraat" en"Sint Jansstraat") worden nu vergeleken.
De dubbele huisnummers worden nu ook vergeleken op basis van hethuisnrlabel (wat enkel zal werken met de data van Thomas). Een adreswordt dus als "matching" beschouwd indien het huisnummer van OSMovereenkomt met het huisnummer van CRAB, of met het huisnummerlabelvan CRAB. Afhankelijk van de lokale situatie kan een mapper dan kiezenom meerdere samenvallende huisnummers te splitsen, of samen te laten.Beiden moeten herkend worden.
Thomas, aangezien het duidelijk is dat we met de adressenlijst gaanverder werken, zou ik commit access kunnen krijgen voor jouw repo? Dankan ik verder werken met jouw data, en kan mijn adres gesloten worden.Ik denk om de no-position lijst te vervangen door een lijst vansamenvallende adressen (a.d.h.v het huisnummerlabel eenvoudig tebepalen). Dat is net zoals vroeger, een simpele splitsing tussen degemakkelijke gevallen en de moeilijke gevallen, wat de productiviteitenkel maar ten goede kan komen. Daarvoor is natuurlijk jouw data nodig.
Jo, een script dat straten met dezelfde naam zoekt is idd handig.Vooral met straten zonder adres valt dit moeilijk te controleren op dewebpagina (tenzij ik een nieuwe overpass query maak, en de gebruikersnog wat langer moeten wachten). Dus is het maar al te gemakkelijk ombij een straat als "Guido Gezellestraat" de adressen met "G.Gezellestraat" te importeren. Dat is zeker iets wat we moetenvoorkomen. Ik denk echter niet dat die associatedStreet relaties nodigzijn (en dan heb je ook de postcode niet nodig).
Groeten,
Sander
Op 28 oktober 2014 14:44 schreef Jo <[email protected]<mailto:[email protected]>>:
    > 2) CRAB:message. Deze bevat informatie over het al dan niet aanwezig zijn 
van
    busnummers en appartementnummers op dat specifieke adrespunt. Deze
    gegevens hoeven niet in OSM opgenomen te worden maar kunnen (zeker
    nu in de testfase) verhelderend werken.

        Er is een addr:flats tag die kan gebruikt worden (
        
http://wiki.openstreetmap.org/wiki/Key:addr:housenumber#Detailed_subkeys).
        Ik weet niet wat nu net het verschil is tussen een busnummer
        en een appartementsnummer, maar het is volgens mij objectieve,
        verifieerbare een geografische info, dus als die beschikbaar
        is, dan moeten we ze niet persé uit OSM weren.


    Het lijkt mij ook het beste om deze info te parsen en onder te
    brengen onder addr:flats, waarbij we geen onderscheid hoeven te
    maken tussen apartmentnrs of busnrs.

    Wellicht best wel sorteren en dan gescheiden door komma's zonder
    verdere spaties.

    Mijn eerste CRAB: crap is ondertussen (per ongeluk) doorgestuurd
    naar de server. Daar gaan zeker en vast nog meer ongelukken mee
    gebeuren.

    Verder werk ik aan een Pythonscript dat binnen JOSM werkt om te
    helpen bij het integreren van de CRAB-data met wat er reeds in OSM
    zit. Om zoveel mogelijk adressen automatisch te koppelen aan
    gebouwcontouren. Zo blijft er meer tijd over om de gebouwcontouren
    zelf dan nauwkeuriger in te tekenen.

    De MapCSS is bijna klaar.

    Ik heb ook een pythonscriptje gemaakt (eigenlijk Jython) dat
    jullie output omzet naar data met discardable tags en dat een
    associatedStreetrelatie aanmaakt. Waarbij hij ook meteen op zoek
    gaat naar straten met dezelfde naam.
    Het zou daarbij helpen om postcode en gemeente ook aangeleverd te
    krijgen in discardable tags.

    Jo

    _______________________________________________
    Talk-be mailing list
    [email protected] <mailto:[email protected]>
    https://lists.openstreetmap.org/listinfo/talk-be




_______________________________________________
Talk-be mailing list
[email protected]
https://lists.openstreetmap.org/listinfo/talk-be

_______________________________________________
Talk-be mailing list
[email protected]
https://lists.openstreetmap.org/listinfo/talk-be

Re: [OSM-talk-be] import AGIV CRAB-data

Reply via email to