Re: [Talk-de] Relationen aus der Sicht der Auswertung - Segen oder Fluch??

Christian Müller Tue, 10 Jul 2012 06:44:59 -0700

Hi,


Am 10.07.2012 08:33, schrieb Sarah Hoffmann:

Kannst du konkrete Beispiele nennen von Anwendern, die irgendeiner Relation
ausser den drei wirklich gebrauchten (Routen, Abbiegerelation,
Multipolygon) nachweinen würden?

Es ist deine Ansicht, dass dies die drei einzigen sind, die wirklichgebraucht werden. Du kennst das Wiki, Leute haben sich über JahreGedanken darüber gemacht, wo deren Meinnung nach Relationen sinnvollsind. Ich denke nicht, dass Du intensiv genug geforscht hast, um derenArbeit mit ein bisschen m.E. zu entkräften. Ich persönlich habe inletzter Zeit waterway, bridge, site Relationen genutzt.

Speziell bei den waterways erhältst Du z.B. keinen eindeutigen Strangvon Quelle zur Mündung. Auch eine Relation garantiert da nichts, aberwenn ich mir vorstelle, dass ich mir einen Hauptflusslauf erstmal Wegfür Weg über Overpass oder einer lokalen DB ziehen müsste, mit einem gutmöglichen overhead von 2/3 falschen Positiven, kommt mir das Grauen.Z.B. gibt es viele gleich benannte Nebenarme, Fahrrinnen, Schleusenarme,etc. - ich verlasse mich auch nicht auf die Relation allein, verwendesie aber als Ausgangspunkt. Weiterhin siehst Du z.B. am Rhein-Delta,dass ein Tag-Matching+Node-Verbindung nutzender Algorithmus versagenwird, denn in den Niederlanden heißt der Rhein schonmal Rijn und fließtüber Waal, Lek, etc. ab. Das sind nur ein paar der Spezialitäten, diemir hier anwendungsspezifisch einfallen, es gibt sicher 'zig andere,aber nicht jeder hat die Zeit und die Muße auf dieser Liste gegen denMinimalismus anzukämpfen.

Wie Jochen bereits gesagt hat, muss man für die meisten Sachen den
Fall ohne Relationen ohnehin implementieren, weil es dieser Fall
immernoch der häufiger gebrauchte ist.

Ja, aber er ist die klar schlechtere Approximation gegen einegewissenhaft gepflegte Relation. Im Prinzip sollte das Fallback-Methodesein. Ich stimme zu, dass es für viele Relationstypen Nachholbedarf beider Spezifikation gibt, um etwa einen ähnlich guten Dokumentationsgrad,wie bei den MPs zu erreichen.

Relationen sind wesentlich leichter versehnlich kaputt zu machen alsNodes, Wege und Tags, weil sie unsichtbar im Hintergrund herumlungernund man nicht sofort sieht, dass man da etwas ändert.

Mit der von Dir erstellten Cycling-Map (Kompliment übrigens) weißt Dudoch, wie man sie sichtbar macht. Ich finde nicht, dass die"Unsichtbarkeit" ein Argument gegen Relationen ist und finde umgekehrt,dass z.B. auch nicht verbundene Nodes wenn sie Nahe beieinander oderaufeinander liegen, schwer identifizierbar sind. Zudem werden dieRouten auch in Editoren visualisiert, das kam auch nicht über Nacht.Visualisierungen für andere Relationen werden auch kommen, je nach Bedarf.

Wenn du dir zuviel dieser "Freiheiten" herausnimmst, schränkst dugewaltig die Freiheiten der anderen Mapper ein. Siehe oben. Relationensind in erster Linie ein Hindernis für deine Mitmapper. Es geht nichtdarum, 'einheitlich' zu mappen, es geht darum, das ganze so einfachwie möglich zu halten, damit es für alle verständlich bleibt.Ausserdem sind Relationen ein Motivationskiller, wenn es darum gehtFehler zu korrigieren. Wer mag schon einen Weg anfassen, der Mitgliedin 15 Relationen ist. Ein Weg mit 15 kryptischen Tags ist zwar auchein bisschen lästig, aber normalerweise kann man die Tags einfachignorieren, frei nach dem Motto 'leben und leben lassen'.

Das ist total subjektiv. Verlege ich den Weg mit 15 kryptischen Tags,ohne mir deren Inhalt anzuschauen, entstehen Fehler in evtl. größeremMaße, als wenn jemand Relationen bricht, die ein anderer nachpflegt.Natürlich bedeutet das alles Aufwand, der vergrößert sich aber ohneRelationen nur. Ich bin der Auffassung, dass in Gebieten mir hoherDatendichte und evtl. auch vielen Relationen es unabdingbar ist, dasssich ein Mapper Gedanken macht, /was/ er /wie/ ändert. Ob er da, fürden Fall er macht sich keine Kopf, 15 Relationen bricht oder 15kryptische Tags dorthin verlängert, wohin sie nicht gehören, spielt eineuntergeordnete Rolle. Es geht immer zu Lasten derer, die gewissenhaftarbeiten. So ist das nunmal - wie sagtest Du: das ist kein technischesProblem, sondern ein menschliches..

Für mich bedeuten Relationen Flexibilität - u.U. oft auch, dass ein und
der gleiche geografische Sachverhalt eben vielfältig modelliert werden
kann.  Warum begreifen wir das nicht weiterhin als Chance?  Warum wird
stattdessen der Perfektionismus in primitiveren, unstrukturierten Daten
gesucht, wie es Knoten und Weg nunmal sind?

Geografische Sachverhalte sollte man über Geometrie ausdrücken und
nicht durch irgendwelche künstlichen Strukturen. Natürlich könnten
wir für jede Bushaltestelle eine Relation erstellen, die besagt, ob
sie jetzt rechts von der Strasse liegt oder links. Aber was ist der
Sinn? Diese Information ist bereits in der DB, das heisst die Relation
bringt absolut nichts.

Siehe unten, Beispiel "Liste aller Brücken über die Elbe". Ich stimmeDir zu, dass es Grenzen geben muss, aber das sindEinzelfall-Entscheidungen. In Einzelfällen können Redundanzen durchausnützlich sein, da sind Vor- und Nachteil zu gewichten, Aufwandabzuschätzen, Alternativen zu bewerten. Ob das nun dem einfacherenDatenbezug dient, oder um die Küstenlinie von Russland zu prüfen.

Für dein fiktives Beispiel der geografischen Lage von Bushaltestellenstimme ich Dir zu - es ist aber eben nicht immer so einfach. Undmanchmal skaliert es auch schlecht - warum sollten diejenigen mit vielRechenpower bevorzugt werden?


nur nicht vom Menschen.

Jetzt wirfst du irgendwelche technischen Begriffe in den Raum ohne
dir wirklich mal einen Kopf gemacht zu haben, wie das ganze eigentlich
funktioniert.

Roland führte LUT an, um zu zeigen, dass der Fall wiederholender Tagsauf Wegen unkritisch ist, weil er in der Masse der existierendenSoftware druchoptimiert wird. Soweit mir bekannt ist, existiert dafüraber eben weder ein einheitliches Package, noch eine API, noch guteDokumentation, noch irgendein Standard, so dass man das im eigenenProjekt mal eben so verbauen könnte. Schau Dir Relationen an: sie sindgut dokumentiert, sie sind Teil der API, ergo finden sie ihreVerbreitung auch dorthin, wo sie der Informatiker undredundanzablehnende Mensch ablehnt. Es ist auch eine Frage derVerfügbarkeit und Verständlichkeit. Das Konzept der Relationen istnicht so schwer zu verstehen, wie es auf dieser Liste überwiegenddargestellt wird.

  Redundanz in den Tags ist bisher einfach kein grosses Problem
gewesen. Die Art und Weise wie Datenbanken das handhaben, ist effizient
genug. Wir haben ganz andere Ecken, wo wir ernsthafte Probleme mit der
Effizienz bekommen. In erster Linie bei der Berechnung der Weggeometrien
und dem Node-Lookup.

Wird auf Relationen verzichtet, entstehen mehr nodes und noch mehrways. Das ist also eher ein Argument für Relationen, weil Weggeometrienje nach Bezug durch Relationen "recyclet" werden.

Da die Daten, wie die Softwareprojekte drumrum vermutlich nie perfekt
sind, ist das mehr an Information und evtl. auch Redundanz eine Chance,
gute QM-Tools zu bauen.  Am Beispiel der Bundesstraßen z.B. könnte man
die Argumente derjenigen aufgreifen, die meinen

     "man könne den Verlauf der Bundesstraße auch programmatisch anhand
des ref= zusammenbauen und braucht die Relation gar nicht"

und gegen das prüfen, was manuell gepflegt wird.  In der Summe ergibt
das eine gewisse Robustness gegen die Fehler, die man beim Mappen machen
kann:

     - versehentlich Relation beschädigen
     - versehentlich ref löschen

Du argumentierst hier gerade gleichzeitig, dass wir Relationen brauchen,
um Redundanz zu vermeiden und um Redundanz zu haben. Was nun?

Ich schließe mich deiner Analyse meiner Argumentation an, denke abernicht, dass das ein Fall ist, der eine Entscheidung für/wider braucht.Ja, wir brauchen Relationen um (übermäßige) Redundanz zu vermeiden. Ja,wir können die Redundanz, die durch Überschneidung mancher Tagwerte, diesowohl auf dem Weg, als auch in der Relation gesetzt werden, z.B. für QAnutzen.

Beides simple Abfrage und das kleinste Problem für dein QA-Tool. Nutzen der 
Relation: null.

Hier kann ich Dir nicht folgen. Die Mengen r=(alle member der Relationxx) und w=(alle ways mit ref=xx) sollten in einem bestimmten Verhältnisstehen. Mindestens sollte w Untermenge von r sein, es muss aber nichtin jedem Fall eine echte sein (je nachdem, ob z.B. eine Landstraße,deren Verlauf streckenweise durch Bundesstraßen ersetzt wurde, auf denBundesstraßen mit im ref= erscheint, oder nicht).

Der einzige Grund, Bundesstrassen in eine Relation zu stecken wäre,
dass es Wege gibt über die mehrere Bundesstrassen gleichzeitig
verlaufen. Dann müsste man bei Tags auf unschöne Listen zurückgreifen.
Soetwas hat es in der Schweiz und den USA, aber in Dt. gibt es das, soweit
ich weiss, nicht.

Das gibt es auch in Deutschland. Das ist nach meiner Auffassung abernoch nicht einmal der Hauptgrund, weshalb B's als Relation angelegtwerden/wurden (schließlich ließe sich das ja auch mit mehreren Werten imref-Tag modellieren).

Weil er mit noch viel weniger Zauber und Zusatzarbeit aus der DB zu
holen ist. Nehmen wir mal eine osm2pgsql-DB. Dann würde das etwa so
aussehen:

SELECT ST_NumGeometries(ST_LineMerge(w.way))
        FROM planet_osm_way w, planet_osm_polygon p
  WHERE p.name = 'Deutschland' AND w.name = 'Goethestrasse'
    AND w.highway is not null
         AND ST_Within(w.way, p.way);

Das war ein 5-Zeiler, den ich in drei Minuten zusammengeschrieben
habe und der dir eine recht gute Approximation deiner Anfrage geben
sollte. Ein Stündchen mehr Arbeit und man kann auch noch eine Reihe
Spezialfälle abdecken. Warum also sollte man hunderte Mapper sinnlos
Zeit mit Relationen verschwenden lassen, wenn man die gleiche Info
mit ein bisschen Warten aus der DB bekommt?

Das habe ich schon geschrieben - Stichwort QM-Tools. Du hast alsInformatikerin das "kleine Welt"-Problem. Du denkst Dir diesen 5-Zeileraus und glaubst/hoffst, dass das "eine recht gute Approximation" ist.Beweisen kannst Du es nicht, weil Du gar keinen Überblick über allemöglichen Fälle der Realität hast und Dir eigentlich auch nur mit Toolseinen Überblick über die Daten in der DB verschaffst, die wiederum eineganze Menge an Spezialfällen wegabstrahieren.

Du hast einen Vorteil, wenn "hunderte Mapper" Zeit damit verschwenden,die Realität im kleinen auf robuste/redundante Weise zu modellieren,weil Du mit diesem Plus an Daten (etwas besser) prüfen kannst, ob deineApproximationen überhaupt brauchbar sind.

Wie stw schon anführte, ist diese Approximation mehr als schlecht, weilviele ways in der DB schon gesplittet sind, nicht immer einen nodeteilen müssen, je nach Straßenausbau oder Luftbildverfügbarkeitgetrennte Fahrbahnen und teilweise -spuren gemappt sind, etc. pp. (dasist aktueller Stand, keine Befürchtung). Von Jochen wurde weiterhinangeführt, dass zur Not die geografische Nähe genutzt werden könne - einBeispiel, das die Grenzen dieses Ansatzes klar aufzeigt, sind dieRelationen, die Powermapper bilden, um Brücken zu modellieren. DieRealität hält eine Vielzahl von Varianten vor, die einen Mix zwischendiesen beiden Extrema bilden:

- vollständig getrennte, aber räumlich eng aneinandergrenzende,physische Strukturen

    - eine physische Struktur, die alle multimodalen Transportwege trägt

Das ist nur ein Beispiel, das mir adhoc einfällt, anhand welchem eineHeuristik versagt, zu entscheiden, wie einfache Wege gruppiert werdenmüssen, um eine bestimmte Fragestellung (hier: welche Wege gehören zueiner Brücke / which ways make up one bridge) richtig zu beantworten.Weitere sind konstruierbar.

Vielleicht passt die Scheuklappen-Metapher am besten, um zuverdeutlichen, dass "vermeide Relationen" kein brauchbarer Weg ist, wennOSM eine detailgetreue Sicht auf den Planten sein will und bleibenmöchte. Indem wir nur in den Tunnel schauen, erhalten wir zwar einenguten Überblick darüber, was im Tunnel liegt und haben ein gutes Gefühl,was die Datenlage betrifft, hören aber auf, uns Gedanken darüber zumachen, was rechts und links davon liegt - im Fall der Relationen:welche Bezüge Mensch zwischen geografischen Objekten herstellt.

Ich stimme zu, dass es Grenzen geben muss, bin aber wie stw der Meinung,dass das fallbasiert entschieden werden sollte. Für mich persönlichsehe ich z.B. keinen Sinn darin, eine Wikipedia-ähnliche "Liste derBrücken über die Elbe" als Relation in OSM zu pflegen. Dennoch, es istohne eine solche Relation (momentan) mitnichten wirklich einfach

- mit seinem Lieblingseditor effizient alle Brücken entlang derElbe zu laden- du meintest es sei kein Argument für eine Relation, weildann Mapper X effizient Zugriff darauf hat-> dieses Mittel wird beobachtbar genutzt, weil esfunktioniert und weil Alternativen fehlen

            -> die Bundesstraßenrelationen sind ein gutes Beispiel dafür

-> Abhilfe kann hier eine stärkere Integration vonOverpass-Abfragen in die Editoren bringen, das gibt es aber noch nicht

- eine einfache, in drei Minuten geschriebene Anfrage z.B. für dieOverpass API zu erstellen, die diese Brücken zurückgibt-> imho ist das Konzept der Relationen für die meistenMenschen einfacher zu verstehen, als Overpass


    - zu zählen, wieviele Brücken über die Elbe führen - dazu
            - müssten alle gemappt sein
            - alle korrekt getaggt sein (bridge=..)

- multimodale, evtl. richtungsseparierte Wege der gleichenphys. Struktur in bridge-Relationen zusammengefasst sein

Sicher sind diese Aufgaben mit etwas SQL und einer spatialen DB zulösen, für den, der sich auskennt auch in weniger als einer Stunde. OSMist aber ein Massenprojekt. Wer tatsächlich daran interessiert ist, dieNutzung von Relationen einzudämmen, der sollte sich Gedanken machen, wiedie Dinge, zu deren Lösung sie momentan herangezogen werden (und dazugehört offenbar eben auch die Verwaltbarkeit von OSM-Objekten in Projektxyz), alternativ und ohne Mehraufwand gelöst werden können - dieangesprochene stärkere Integration von Overpass in Editoren wäre da einAnfang.

Momentan dürfte die Masse der Mappenden ein Problem damit haben, wennsie sich ihre zu editierenden Daten vorher über eine Overpass-Queryzusammensuchen oder, noch besser, ein paar Zeilen SQL schreiben soll, umeinfach einen Wasserlauf oder den Verlauf einer Bundesstraße zuerhalten. Da fällt es dann eben doch leichter, das über eine Relationzu organisieren, auch wenn sie theoretisch überflüssig ist und durch denDB'ler nicht genutzt wird, weil er sie sich selbst über dasentsprechende Statement zusammensetzt.

Wie gesagt, ich betrachte das eher als Chance für robustere Daten stattals Übel. Wenn die Relation, die mir ein spatiales DBMS mitentsprechendem Statement generiert dem gleicht, was Mapper angelegthaben, hätte ich höheres Vertrauen in die Daten, als ohne diesenVergleich, aber nat. bleibt auch das nicht frei von Fehlerquellen.




Gruß
Christian

_______________________________________________
Talk-de mailing list
Talk-de@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-de

Re: [Talk-de] Relationen aus der Sicht der Auswertung - Segen oder Fluch??

Antwort per Email an