Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-17 tråd Andreas Vilén
On Fri, Jan 17, 2020 at 9:36 PM Grigory Rechistov via Talk-se <
talk-se@openstreetmap.org> wrote:

> Hej Andreas, stort tack för feedback! Här är mina kommentarer.
>
> > Exempelvis förekommer Hjortseryd två gånger, med en brytlinje mellan två
> > kartblad mellan dem båda. Kommer sådana dubbletter kollas av?
> Sådan koll kan jag enkelt lägga till i skriptet. Men ditt exempel med
> Hjortseryd
> visar bara att det kan finnas två platser med samma namn på bara 1,16 km
> avstånd.
>
> Här är varför.
> Importsfilerna har tre noder med namn "Hjortseryd":
> tx_07.osm: lat="56.706179333" lon="13.412860079"
> tx_10.osm: lat="56.385103802" lon="15.291224794"
> tx_10.osm: lat="56.374758939" lon="15.292829751"
> En by ligger lång bortifrån andra, och två byar finns nära varandra.
> Här är de på Terrängkartan.
> Alla tre noder: https://i.stack.imgur.com/2hKsL.png
> De två nära: https://i.stack.imgur.com/yWzRN.png
>
> Trots att det verkligen är konstigt att man kallar två närliggande byar
> samma
> namn, är de verkligen två enstaka gårdar, men sina egna gränser osv.
> Även Ekonomiska kartan håller med detta:
> https://i.stack.imgur.com/NpZQw.png
> Nu får man kanske inte kolla på icke-öppna data... Hur som helst, andra
> källor
> tycker också att de är enstaka lika nämnda byar.
> 1. Eniro.se visar samma två byar som "Hjortseryd, ERINGSBODA".
> 2. Hitta.se visar dem som "Hjortseryd, Eringsboda" och "Hjortseryd,
> Ronneby".
>De har till och med olika postnummer.
>
> Oavsett alla bevis kan det ändå bli ett enormt fel i namn, men alla
> partier verkar
> tro på det.
>

Ditt resonemang visar tyvärr att du inte förstår vad datan visar. Det är
vanligt att ortnamn där kartblad bryts visar platsnamnen på båda
kartbladen, och dessa "ortnamn" syftar ofta på hela trakter. Det blir
missvisande att nödvändigtvis tala om dem som byar, samhällen eller
enskilda gårdar. Dessa områden sammanfaller dessutom långt ifrån alltid med
modern kommunindelning. Jag rekommenderar att du sätter dig in i
hemmansbegreppet och de olika skiftesreformer som gjorts i Sverige. Jag vet
att andra kan detta bättre än jag och hoppas de tar chansen att komma med
en mer utförlig förklaring i den här mailtråden.


>
> > Detta har jag gjort genom att rita en farmyard runt gården och sätta
> > name-tagg på denna. Dessa dubbletter måste det kontrolleras mot.
> På detta har jag redan funderat. Det är enkelt att implementera (jag
> utelämnar nu tekniska detaljer om hur), men frågan är om det verkligen
> behövs.
> Jag har sett flera exempel när t ex ett bostadsområde har sitt namn på den
> sträcka som omger det *samt* som en enstaka nod någonstans inuti. Det är
> vettigt
> när områdets logiska center inte sammanfaller med dess geometriskt center.
> Till
> exempel kan ett logiskt center finnas på ett torg medan det geometriska
> centret
> kan hamna i ett skogsparti.
>

Nej, så ska vi inte tagga. Ett objekt ska taggas en gång. Detta är en
grundläggande osm-regel:
https://wiki.openstreetmap.org/wiki/One_feature,_one_OSM_element. Att det
ser ut så på vissa ställen är fel och innebär inte att vi ska göra så på
fler ställen.

Några fler exempel som är fel är Skanörsgården, Falsterbo vång och
Falsterbohus. Den förstnämnda är namnet på ett bostadsområde, den andra är
knappt i allmänt bruk och den tredje syftar på ett känt före detta
badhotell: https://sv.wikipedia.org/wiki/Falsterbohus Något österut ligger
Videholm, som är ett alternativt namn för Lilla Hammar, taggat på samma
plats. Skillnaden mellan dessa yttrar sig främst i äldre
fastighetsindelning som inte är så relevant längre.


>
> > Dessa bör antagligen städas bort, då de naturligtvis inte ska
> > taggas som village eller liknande och datan troligen dubblerar sådant som
> > ligger inlagt med boundary-taggar.
>
> Jag har öppnat tx_01.osm för Stockholm och har laddat ner befintliga
> platser
> (med Overpass-API) för samma område. Här är jämförelsen.
>
> Befintliga data: https://i.stack.imgur.com/BCQ4i.jpg
> De flesta noderna är place=suburb, place=town, bara ett fåtal
> place=village.
>
> Nya data: https://i.stack.imgur.com/8DZn2.jpg
> Hela filen innehåller endast place=isolated_dwelling, place=hamlet
> (småort),
> place=locality och ett fall place=town. Inga place=village alls.
> Småort är ett officiellt begrepp vilket jag tror är rimligt att använda
> även nära
> stora städer: https://sv.wikipedia.org/wiki/Sm%C3%A5ort : "definieras som
> en
> samlad bebyggelse med 50–199 invånare, där det är högst 150 meter mellan
> husen."
> Om du kan förse mig med ett exempel där du tror etiketterna var felvalda
> då kan
> jag försöka åtgärda detta.
>

Jag har tittat i Malmö, Lund, Landskrona och Helsingborg. Samtliga
stadsdelar där är felaktigt angivna, och dessutom redan taggade på annat
sätt. Se ovan om one feature, one osm element. Jag utgår ifrån att det ser
i princip likadant ut i andra större städer. Vissa har ett namn som skiljer
sig något ifrån det namn som är taggat (Kobjärsvången vs Kobjer i Lund
exempelvis, där det 

Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-17 tråd Grigory Rechistov via Talk-se

Hej Andreas, stort tack för feedback! Här är mina kommentarer.
 
> Exempelvis förekommer Hjortseryd två gånger, med en brytlinje mellan två
> kartblad mellan dem båda. Kommer sådana dubbletter kollas av?
Sådan koll kan jag enkelt lägga till i skriptet. Men ditt exempel med Hjortseryd
visar bara att det kan finnas två platser med samma namn på bara 1,16 km 
avstånd.
 
Här är varför.
Importsfilerna har tre noder med namn "Hjortseryd":
tx_07.osm: lat="56.706179333" lon="13.412860079"
tx_10.osm: lat="56.385103802" lon="15.291224794"
tx_10.osm: lat="56.374758939" lon="15.292829751"
En by ligger lång bortifrån andra, och två byar finns nära varandra.
Här är de på Terrängkartan.
Alla tre noder:  https://i.stack.imgur.com/2hKsL.png
De två nära:  https://i.stack.imgur.com/yWzRN.png
 
Trots att det verkligen är konstigt att man kallar två närliggande byar samma
namn, är de verkligen två enstaka gårdar, men sina egna gränser osv.
Även Ekonomiska kartan håller med detta: https://i.stack.imgur.com/NpZQw.png
Nu får man kanske inte kolla på icke-öppna data... Hur som helst, andra källor
tycker också att de är enstaka lika nämnda byar.
1. Eniro.se visar samma två byar som "Hjortseryd, ERINGSBODA".
2. Hitta.se visar dem som "Hjortseryd, Eringsboda" och "Hjortseryd, Ronneby".
   De har till och med olika postnummer.
 
Oavsett alla bevis kan det ändå bli ett enormt fel i namn, men alla partier 
verkar
tro på det.
 
> Detta har jag gjort genom att rita en farmyard runt gården och sätta
> name-tagg på denna. Dessa dubbletter måste det kontrolleras mot.
På detta har jag redan funderat. Det är enkelt att implementera (jag
utelämnar nu tekniska detaljer om hur), men frågan är om det verkligen behövs.
Jag har sett flera exempel när t ex ett bostadsområde har sitt namn på den
sträcka som omger det *samt* som en enstaka nod någonstans inuti. Det är vettigt
när områdets logiska center inte sammanfaller med dess geometriskt center. Till
exempel kan ett logiskt center finnas på ett torg medan det geometriska centret
kan hamna i ett skogsparti.
 
> Dessa bör antagligen städas bort, då de naturligtvis inte ska
> taggas som village eller liknande och datan troligen dubblerar sådant som
> ligger inlagt med boundary-taggar.
 
Jag har öppnat tx_01.osm för Stockholm och har laddat ner befintliga platser
(med Overpass-API) för samma område. Här är jämförelsen.
 
Befintliga data:  https://i.stack.imgur.com/BCQ4i.jpg
De flesta noderna är place=suburb, place=town, bara ett fåtal place=village.
 
Nya data:  https://i.stack.imgur.com/8DZn2.jpg
Hela filen innehåller endast place=isolated_dwelling, place=hamlet (småort),
place=locality och ett fall place=town. Inga place=village alls.
Småort är ett officiellt begrepp vilket jag tror är rimligt att använda även 
nära
stora städer: https://sv.wikipedia.org/wiki/Sm%C3%A5ort : "definieras som en
samlad bebyggelse med 50–199 invånare, där det är högst 150 meter mellan husen."
Om du kan förse mig med ett exempel där du tror etiketterna var felvalda då kan
jag försöka åtgärda detta.
 
> I Lund såg jag att "Norra Fäladen" radbrutits och detta gjort att datan av
> någon anledning blivit dubblerad, med en place-tagg med namn "Norra" och en
> med namn "Fäladen".
Orsaken till detta förklarades i importplanen. Eventuell radbrytning är åtgärdad
i skriptet, jag behöver lära det känna igen fler mönster. Det kommer jag att 
göra.
 
> "Gullåkra" har inte fått träff mot "Gullåkra by", trots att noderna är
> placerade nästan på varandra.
Jag har sökt i Internet, och det verkar att "Gullåkra by" inte är byns
officiella namn, däremot är "Gullåkra" det korrekta namnet. Importen kan
inte rätta mänskliga fel i befintliga data, men den kan hjälpa med att upptäcka
dem, precis som du har gjort.
 
> efter att ha tvättat den i områden de har hyfsad lokalkännedom så
> de kan bedöma datans lämplighet.
Hela poängen i vilken import finns i att man inte behöver personligen undersöka
en plats. Istället använder man information samlad av myndigheterna (för vilket
betalar man skatt för, bland annat). Värför spendera hundratals människaår 
ideella
arbete för att kartlägga samtliga ortnamn när Lantmäteriet redan har spenderat
massor tid och pengar på detta?
 
Det kommer säkert att förekomma enstaka fel i importdatan, men fördelar
överstiger betydligt nackdelar. Låt mig illustrera det med siffror.
 
Sveriges OSM-kartan har just nu ungefär 68000 noder med ortnamn. Lantmäteriets 
data
innehåller cirka 154000 ortnamn. Om vi föreställer oss att Lantmäteriet känner
samtliga ortnamn, betyder det att OSM-kartan saknar 86000 noder,
eller har 55% fel. Då räknar jag en utebliven nod som fel. Här struntar vi i
OSM:s befintliga stavfel, positionsfel osv., annars skulle förhållandet ha 
blivit
ännu värre.
 
När vi importerar nya noder kommer vi säkert introducera nya fel:
dubbletter, felstavningar osv. Låt oss föreställa oss att importen går såpass
dåligt att vi introducerar 1% fel på nya noder. Det betyder att vi lägger till
860 nya fel in i 

Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-17 tråd Micke via Talk-se
Hej!

För herrgårdar kanske man kan passa på att lägga till historic=manor samtidigt.
Det finns nog en del sådana herrgårdar inlagda redan. Men då ligger nog taggen 
på huset eller på gården, inte på en nod. Bara så att det inte blir dubbletter 
där.

Vi har ju även en hel del ställen som har ett namn, men där det är ödehus eller 
sommarstugor eller fäbodar. Dessa borde även de klassas som locality.

Stadsdelar bör väl inte vara hamlet, utan neighbourhood?


Mvh

Anders Andersson

Från: Grigory Rechistov 
Skickat: den 16 januari 2020 18:19
Till: talk-se 
Ämne: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

Hej!
Jag har extraherat de ortnamn som nu saknas på Sveriges OSM-karta ifrån 
Lantmäteriets öppna data, daterade januari 2020. Det finns ungefär 95 tusen nya 
noder med namn och "place=*"-etiketter vilka jag så småningom hoppas ladda upp 
till OSM.

En såpass stor mängd nya data kräver att man följer vissa procedurer och 
förbereder vissa dokument. Jag hoppas att få er feedback och eventuell hjälp 
med valideringen, uppladdningen och med andra eventuella uppdrag.

Här finns importplan för projektet [1] på OSM-wikin. Den beskriver 
informationens härkomst, licens och format. Sedan beskriver jag hur de 
ursprungliga filerna bearbetas, hur nya punkter filtreras mot den befintliga 
OSM-databasen, hur ortnamn rensas och jämföras, vilka skript och program 
används vid alla steg osv. Till sist uppger jag vilka problem kvarstår att lösa 
under manuell bearbetning.

Importplanens bitar med viktigaste sektioner bifogar jag längst ner. Här är 
också en mindre bit av hela datasetet om du vill se hur det ska se ut: [2] [3]. 
Andra länkar till Lantmäteriets dokumentation, mina utvecklade skript, samtliga 
OSM-filer, kalkylblad osv finns på importplanens sida.

Tack!

[1] 
https://wiki.openstreetmap.org/wiki/Import/Catalogue/Lantm%C3%A4teriet_GSD-Terr%C3%A4ngkartans_ortnamnsimport
[2] https://drive.google.com/open?id=1np1TEDlEBWx1kt-u7A4Z_ZpkMOwOp80l
[3] https://drive.google.com/open?id=1pERx-U4rdOjhXmePoSxcbKRZsr-preh8

Importplanens utdrag följer.

===Goal===
To improve OSM completeness for toponymical dataset on territory Sweden using
an official map supplied by Swedish mapping, cadastral and land registration 
authority.
This import considers OSM data representable as nodes tagged with usual
key/value pairs: "place=city", "place=town", "place=village", "place=hamlet",
"place=isolated_dwelling", and "place=locality". However, it is not planned
(but not fully excluded either) to add/modify any nodes with "city" and "town"
values. They are expected to be already fully mapped.

 Data processing diagram 
See the diagram below. The conflation stage is described later in more details.
+---++--+
|   ||  |
|Lantmäteriet's SHP ||Geofabrik country |
|files  ||extract   |
|   ||  |
+-+-+++-+
  |   |
  |ogr2osm|osmconvert
  |   |osmfilter
  v   v
 ++-+ +---+-+
 |  | | |
 |OSM file with | |OSM fiele with   |
 |settlements   | |settlements  |
 |  | | |
 +-++ +---+-+
   |  |
   |  |
   | conflate-places.py   |
   +<--
   v
  +++
  | |
  |OSM file with|
  |only ready nodes |
  | |
  +++
   |
   | Manual corrections
   |
   v
Upload to JOSM


The employed algorithm operates on a set of old nodes marked with "place=*"
(from the OSM-extract, around 68 000 nodes for the country) and new nodes
(from SHP-extract). It produces ready nodes — a strict subset of new nodes.
No old nodes are modified in any way during the process. This means that 
existing
data has absolute priority, even in cases it is likely of lower quality than
new data.
The sequence of steps is as following.
1. Create a spatial index structure with old nodes to have fast spatial lookup.
2. For all new nodes validation/correction of the "name" tag is performed.
3. For each new node, find old nodes close enough to it to be candidate for 
duplicates.
4. For each candidate node, compare its name against the current new node name.
   Comparison is fuzzy to allow for some text variation typical for names.
   Alternative old names are also checked if present.
5. If a name match is found, the current new node is marked as "duplicate" and
   is excluded from further analysis and results.
6. An OSM file with ready data is generated.
7. The OSM file is 

Re: [Talk-se] Ortnamnsimport från Lantmäte?=riets =?utf-8?Q?GSD-Terr =?utf-8?Q?=C3=A4ngkarta?=n

2020-01-17 tråd Johan
Jag har också kollat i "mitt" område och det verkar som ett användbart dataset, 
även om jag själv hade föredragit en adress-import. Gissar att merparten av de 
nya namnen inte längre används i vardagen. Vissa platser ser mer ut som 
"locality" medan några namn har helt klart felakigt blivit "hamlet" fast det 
bara är en gård, om ens det. Men sådant gårt fort att städa.

Jag ser att platser som redan finns i OSM har sorterats bort, och på den 
fronten ser allt väldigt bra ut.
Efter lite bearbetning så kan det importeras i OSM (i "mitt" område) efter min 
bedöming. Måste bara avklaras med mina "grannar" eftersom tiles-filerna 
överlappar lite.

Alternativt kan man importera från hela kommunfilen. Är det i såna fall möjligt 
att genereras nya filer efterhand, så man ser vad som blir till övers på slutet?

Jag har i alla fall satt mitt namn på de tiles i spreadsheetet som jag har för 
avsikt att ansvara för. Jag väntar dock tills importen når allmän acceptans här 
innan jag börjar.

mvh
Johan / 


On 16 January 2020 at 22:17:08 +01:00, Andreas Vilén  
wrote:

> Tack!
> 
> Jag har granskat lite till och har lite kommentarer.
> 
> *I Skåne har jag taggat gårdar med de namn som finns på Ekonomiska kartan. 
> Detta har jag gjort genom att rita en farmyard runt gården och sätta 
> name-tagg på denna. Dessa dubbletter måste det kontrolleras mot.
> *I städerna ser det ut som att det gjorts ett slumpmässigt urval av 
> stadsdelar. Dessa bör antagligen städas bort, då de naturligtvis inte ska 
> taggas som village eller liknande och datan troligen dubblerar sådant som 
> ligger inlagt med boundary-taggar.
> *I Lund såg jag att "Norra Fäladen" radbrutits och detta gjort att datan av 
> någon anledning blivit dubblerad, med en place-tagg med namn "Norra" och en 
> med namn "Fäladen".
> *"Gullåkra" har inte fått träff mot "Gullåkra by", trots att noderna är 
> placerade nästan på varandra.
> 
> Jag tror det kan finnas en poäng att arbeta med den här datan, men att den 
> tillgängliggörs för nerladdning för användare som med eget omdöme laddar upp 
> datan efter att ha tvättat den i områden de har hyfsad lokalkännedom så de 
> kan bedöma datans lämplighet.
> 
> Jag tror inte det är lämpligt att importera det här datasetet.
> 
> 
> On Thu, Jan 16, 2020 at 9:18 PM Grigory Rechistov via Talk-se 
> <> wrote:
> 
> > Här är länken till samtliga filer, version 
> > 9:
> > Mappen "regions" innehåller OSM-filer som motsvarar till Lantmäteriets 
> > områdeskoder, i mappen "tiles" blev de delade i mindre rutor.
> > 
> > 
> > I versionen 9 åtgärdade jag även ytterligare förkortningar som träffades, t 
> > ex "V Kroken" blir till "Västra Kroken".
> > 
> > 
> > 
> > 
> > 
> > Med vänliga hälsningar,
> > Grigory Rechistov
> > With best regards,
> > Grigory Rechistov
> > 
> > ___
> > Talk-se mailing list
> > 
> > 
> > 
> > 
> ___
> Talk-se mailing list
> Talk-se@openstreetmap.org
> 
> 

___
Talk-se mailing list
Talk-se@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-se