Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-02-20 tråd Grigory Rechistov via Talk-se

Hej!
Lång historia kort: jag har skapad en privat OSM API server som nu innehåller
samtliga 118 tusen importnoder. Man kan använda den för att ladda ner, jämföra,
redigera, radera flytta och eventuellt ladda upp punkter till den offentliga
OSM-databasen. Man "öppnar" både servrarna som två JOSM:s lager och flyttar 
noder
mellan lagren.
Här följer ett utdrag ur importplanen 
https://wiki.openstreetmap.org/wiki/Import/Catalogue/Lantm%C3%A4teriet_GSD-Terr%C3%A4ngkartans_ortnamnsimport#Private_API_server_workflow
 som beskriver processen
steg för steg.
 

Private API server workflow
A private OSM API v0.6 server is created to host a live copy of import data. 
The server URL is http://atakua.org:3000/api and it can be specified in JOSM 
settings to download and upload ready nodes.
Notes about the private API server
    The private API server is a slow home computer behind an even weaker 
front-end VPS. Please do not overload it with work.
    There are no guarantees that the server is available at any time, or at 
all. Its power and/or network connection may be down for undefined periods of 
time.
    The server runs a rough copy of the official osm.org website software.
    Only the API v0.6 endpoint is supposed to work at the specified URL. If 
something else works, it does so by accident.
    There is no real gliding map, no Overpass/Nominatim etc. services, no 
users (except one), no way to register users, no online editor etc.
    There is currently no tile server to visualize the DB contents. Having 
one would definitely help to see what areas are still not covered.
    A single account mapper is created to allow collaborators to make edits via 
OSM API. See the mailing list thread for the account's password.
    Please report your problems with the server to the talk-se mailing list.
The workflow is to download a group of nodes from the private API, edit them as 
needed, copy them to the public DB, and delete them from the private DB.
Step-by-step workflow
A recommended workflow is described below. JOSM and two data layers are used to 
download, edit and transfer nodes from the private API to the public API. 
Certain steps of the workflow may be adjusted when needed.
It is recommended to set up and activate a JOSM filter with query text 
"place=*" and inverted flag in order to shade everything not related to objects 
with place tags. It will shade a lot of visual clutter.
1. Use the JOSM download dialog with gliding window to download a chunk of data 
from the OSM API server into a new data layer.
2. Create a second empty data layer (keyboard shortcut Ctrl-N).
3. Change JOSM settings to expert mode. In JOSM settings change connection 
options to the private API URL.
4. Use the download dialog with gliding window to download a chunk of data for 
the same bounding box from the private API server. Now you have two data 
layers: the first one with "old" and the second one with "new" data.
5. Edit the "new" data in the second layer as you see fit: move, rename, 
delete, retag etc. Set up an satellite imagery background layer as a reference 
if needed.
6. When satisfied with the result, it is time to move the new nodes. Do not use 
JOSM's Merge function to copy nodes between layers! It won't work correctly as 
object IDs of the private API are incompatible with the main OSM DB.
7. Select all nodes (Ctrl-A), copy them to the clipboard (Ctrl-C). Switch to 
the first layer, and use Paste at source position (shortcut Ctrl-Alt-V) command 
to insert them. A copy of selected nodes (treated as newly created objects by 
JOSM) will be created.
8. Get back to the second layer and delete selected nodes. Then upload your 
changes to the private API DB. To do that, user account in JOSM settings must 
be set to mapper, not your normal import account.
    Yes, this is awkward to switch back and forth between two API URLs and two 
accounts via JOSM options. A ticket for a feature enhancement to address this 
inconvenience has not been closed since 2009.
    The deletion step is required to prevent other collaborators from working 
on the same nodes after you've moved them. Please mention your "real" user 
account in the changeset message.
9. Change back to the public OSM API and your import account in JOSM settings. 
Make sure to use a separate account containing word "import" when uploading 
data to the main DB; it is dictated by the OSM requirements.
10. Open the first data layer and upload it to the public API DB.
As a result of these steps, a set of nodes was moved from one DB to another DB.

==
Den privata API:s kontouppgifter:
    användarnamn: mapper
    lösenord: at_at_how_med_cos
Ni kan leka med den! Rapportera gärna dina åsikter om hela ovanstående 
processen.
Tänk på att servern kan krascha när som helst. Jag håller på att semestra nästa
vecka och jag kommer troligen inte kunna åtgärda några uppstående problem tills
jag kommer tillbaka.
Om allt går bra ska jag snart inleda en 

Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-02-12 tråd Grigory Rechistov via Talk-se

 
Hej,
Om ni är intresserade följer Lantmäteriets svar på mitt ärende om avstavade 
ortnamn på GSD-terrängkartan.

 
Hej
 
Nu har jag fått svar från den kartingenjör som handlagt ditt ärende.
 
Tyvärr så saknas de fullständiga namnen (utan förkortningar och avstavningar) 
som attribut i våra produkter, utan endast den text som är anpassad för visning 
i kartan är med. Vi vet att det är en brist och i de nya produkterna som vi 
håller på att ta fram kommer både ”karttexten” och det fullständiga namnen 
finnas med.
Ingen åtgärd kommer att göras i den befintliga GSD-Terrängkartan, vektor. I den 
produkt som kommer att ersätta GSD-Terrängkartan (Preliminärt hösten 2021) 
kommer namnen att vara åtgärdade.
 
Vi avslutar nu ditt ärende.
 
Vänligen ange ärendenumret som står i rubriken om du vill kontakta oss igen i 
detta ärende.
 
 
Vänlig hälsning
 
 
Teresa 
Ärendekoordinator felanmälan
 
LANTMÄTERIET
E-POST felrapport.grunddataprod...@lm.se
TELEFON    026-63 33 36   
ADRESS    Lantmäteriet, 801 82 Gävle
WEBBPLATS    www.lantmateriet.se
 
www.linkedin.com/company/lantmateriet
www.facebook.com/lantmateriet
www.instagram.com/lantmateriet
 
Med vänliga hälsningar,
Grigory Rechistov
With best regards,
Grigory Rechistov
 ___
Talk-se mailing list
Talk-se@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-se


Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-02-01 tråd Grigory Rechistov via Talk-se

Hej!
Först några uppdateringar i importfilerna. Nu använder jag fuzzy 
namnjämförelsen för att
detektera liknande namn mellan gamla och nya noder, vilket skulle röja bort namn
med upp till en felstavelse per tio bokstäver. Detta är i och för sig ett 
tveeggat svärd: nu
producerar konflationen färre dubbletter för befintliga noder vilket är bra, men
samtidigt går det inte längre att hitta felstavningar i gamla noders namn (om
man inte tittar i "raderade"-filerna).
 
Jag fortsätter bläddra genom enstaka små kartavsnitt för att hitta nya
anomalimönster som effektivt går att rätta till i skriptet.
 
> Gådeå i importen, Gådeå by i osm, troligtvis är Gådeå rätt
Tack för din analys. Att ha (motstridiga) namn "Ngt by" mot "Ngt" verkar vara
ett vanligt mönster vilket jag behöver studera vidare. Jag tror att det vore
rimligt att namnjämförelsealgoritmen tar mönstret i hänsyn och att den taggar
sådana noder med extra kommentar, så att det blir enklare att upptäcka dem.
 
> För min del är vi redo för nästa steg, import listan och sedan import.
> När det är så bra som jag sett här, då kan vi för min del skippa både
> WMS och MapWithAI och bara importera varje fil i JOSM manuellt.
Just nu behöver jag tyvärr ägna mig åt andra saker i livet, så att ytterligare
importdatabearbetning och diskussion ska troligen löpa långsammare under någon
tid.
Jag hoppas ändå att ha allt igång i full fart inför sommarsemestrande.
 
> När vi är klara med denna import skulle jag gärna se en import av
> vattendrag från Fjällkartan
Det skulle bli cool. Det skulle säkert bli ännu ett större antal noder samt
sträckor än denna ortnamnsimport. Konflation samt manuell validering
ska bli lite mer beräkningsintensiv/jobbigare eftersom man ska se till att gamla
och nya vattendrag kopplas på rätt sätt, bland andra saker som gäller geometri.
Det vore då bli bra om fler kunde bidra.
 
Med vänliga hälsningar,
Grigory Rechistov
With best regards,
Grigory Rechistov
 ___
Talk-se mailing list
Talk-se@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-se


Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-29 tråd Grigory Rechistov via Talk-se

>>> 
Hej!
Jag fortsätter förbättra konflationens algorithm. Nu tar den hänsyn till stora
tätorters gränser. Till exempel, hamnar inga "hamlet"-noder inom tätortsgränser.
Istället blir de förvandlade till "neighbourhood"-noder för att stämma mot den 
rådande klassificeringen.
 
Jag använder de gränser som pangoSE nyligen omnämnt i en annan mejltråd. De 
krävde lite kompletterande bearbetning (t ex att kasta bort Oslos, Åbos m fl
polygoner) och bara runt 135 användbara tätorter fanns i filen, men det visade 
sig möjligt och nyttigt att basera klassificeringen på dem. Jag tänker förbättra
den vidare, bland annat att lägga till fler befintliga tätorter (ev. extrahera 
dem ur OSM-databasen) så att mindre felklassificerade noder kvarstår.
 
results-v21 innehåller nuvarande resultat.
 
En sak till som jag bör göra är att hoppa in i varggropen, det vill säga att
inleda diskussionen på den internationella importlistan. Vet inte när/om jag
vågar göra detta.
 
Ha trevlig dag!
 
Med vänliga hälsningar,
Grigory Rechistov
With best regards,
Grigory Rechistov
 ___
Talk-se mailing list
Talk-se@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-se


Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-27 tråd Grigory Rechistov via Talk-se

Hej!
Jag ville skicka detta mejl tidigare i fredags, men hann inte. Jag lägger till
ett par kommentar till diskussionen nere.
 
> Men oavsett om man har lokalkännedom eller inte så tror jag faktiskt inte
> att det BEHÖVS så mycket lokalkännedom, utan det som behövs är helt enkelt
> ett mänskligt öga som spanar på noderna och med lite sunt förnuft jämför
> med ekonomiska kartan och topografiska kartan.
Jag fick nyligen en idé om hur man kan bestämma importnoders aktualitet och 
position med (något) större förtroende. Om man har tre oberoende källor för att 
jämföra mot varandra blir resultatet kanske mer pålitligt.
 
Ett exempel. När jag jämförde 1) den befintliga OSM-kartan, 2) importdata,
3) satellitbilder, råkade jag, helt oavsiktligt, hitta en felplacerad  
Fjällbohög by [1]. OSM-kartan hade nämligen den byn på kartan, men enligt 
flygbilderna
hamnade den i skogen där några byggnader inte fanns, medan en motsvarande nod av
importen (och enligt Terrängkartan, förstås) placerades inom bebyggelsen.
 
Felets avstånd blev cirka 2,5 km [2]. Utan flygbilder vore det dock
omöjligt att bestämma sig vilken position var mer sannolik.
 
> (dvs. efter hand tar bort namn som redan finns i OSM)?
Konflationen har röjt bort noder som redan finns i OSM.
Jag kan även uppdatera data dagligen så att kopior till nyligen adderade noder 
och sträckor med samma ortnamn och position försvinner från importen.
Det kan visst förekomma fel orsakade av dåliga/föråldrade data i antingen 
befintliga OSM- eller nya importdatauppsättningen. See exemplet ovan.
Men sådana fel kan endast en människa åtgärda, oavsett om man importerar något
eller inte.
 
> Hade det gått att sätta upp en WMS-tjänst som uppdateras periodiskt
> Övriga/andra kunde sedan använda WMS-tjänsten som källa eller 
> dubbelkoll-tjänst.
Jag har aldrig förut satt upp en sådan server men jag kan försöka lära mig 
detta.
Det skulle bli intressant och dessutom nyttigt i framtiden för liknande 
diskussioner om eventuella  dataimporter. Att se levande resultat kan enklare 
övertyga, och det ska uppenbara problem på tydligare sätt.
 
> Kan förvisso bli ett problem med att inte visa place-noderna som av någon 
> tidigare förkastats som otjänliga.
Då kan man skapa ett lager till med "dåliga" noder.
 
> Finns det nåt sätt vi som jobbar med kartan effektivt kunde ge feedback på 
> datasetet? Både till dig och till Lantmäteriet. T.ex. tagga dålig data i 
> filerna och skicka tillbaks till dig?
Vet inte om det smidigaste sättet att åstadkomma detta. En idé är att placera
OSM-filerna under versionkontroll (Git), så att andra kan redigera dem och 
sedan 
skicka sina ändringar tillbaka. XML-formatet är dock begränsat i sin läsbarhet
när man behöver förstå vad skillnaden mellan versioner är.
Angående att skicka data tillbaka till Lantmäteriet se längst ner.
 
Nu funderar jag på en WMS-tjänst, och också röjer bort de befintliga varningar
som inte gick att korrigera på automatiskt sätt. Det finns även en 
(förhoppningsvis)
liten andel noder i Lantmäteriets filer med felaktig klassificering helt utanför
bostadsområden, t ex ett fåtal industriområden, naturreservaten och dylika 
taggades som ortnamn.
 
Jag vill se om det går att hitta och åtgärda dem i skriptet, lika som tidigare 
avstavade 
och förkortade namn blivit korrigerade.
 
P.S. Jag har anmält de problem med avstavade och förkortade namn i Lantmäteriets
terrängkarta genom dess e-tjänst  https://forbattrakartan.lantmateriet.se/ .
 
    Hej! Jag sysslade med ortnamn extraherade ur GSD-Terrängkartan när jag 
upptäckte att flera (drygt fem tusen) orter har tekniska fel i sina namn. 
Nämligen träffades följande problem i TX-skicket. 1. Förkortningar i namn, till 
exempel "St. Åttan" istället för "Stora Åttan", och "Andersg." istället för 
"Andersgården". 2. Ett namn blir avstavat med streck i två eller fler punkter 
som sedan placeras nära varandra. Till exempel "Rusthållare-" och "gården" 
istället för "Rusthållaregården". 3. Ett namn bestående av två ord hamnar i två 
intilliggande punkter, till exempel "Övre" och "Svederna" istället för "Övre 
Svederna". Jag använde SHP-filer gistext/tx_.shp som skulle ha haft 
"GIS-anpassade" ortnamn, men ändå förekommer felen i dem. Sådana fel hittades i 
samtliga Terrängkartans filer. Jag bifogar en SHP-fil i vilken jag har rättat 
till en del sådana träff. Jag undrar om det är möjligt att integrera dessa 
förbättringar i Terrängkartan. Kolla gärna även på fälten "short_name", "note" 
och "fixme" som förklarar åtgärdade problem för varje punkt. Om ni har några 
frågor återkom gärna.
 
Hittills fått jag ett svar:
    Av Felrapport Grunddataprodukt  24/1-2020
    Tema: Din anmälan är mottagen och har fått ärendenummer (202000270) 
Tekniska fel Ortnamn GSD-TK
    Tack för din anmälan! Din synpunkt är nu registrerad och kommer att 
analyseras. Vi återkommer därefter med svar.
    Vänligen ange ärendenumret som står i rubriken om du vill kontakta oss igen 
i detta ärende.
    Vänliga hälsningar
    

Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-26 tråd pangoSE

Hej igen!

Jag tog en tit på v14 både dropped och tx_22.osm som är för Västernorrland.

Jag tyckte det såg väldigt bra ut! Jag är imponerad av att du lyckats så 
bra med att sortera bort dupletter. Av alla 50-tals jag kollade manuellt 
hittade jag bara 1 duplett som jag manuellt skulle fixa till. (Gådeå i 
importen, Gådeå by i osm, troligtvis är Gådeå rätt)


För min del är vi redo för nästa steg, import listan och sedan import.

När det är så bra som jag sett här, då kan vi för min del skippa både 
WMS och MapWithAI och bara importera varje fil i JOSM manuellt.


När vi är klara med denna import skulle jag gärna se en import av 
vattendrag från Fjällkartan


Mvh

pangoSE

On 2020-01-22 01:34, Grigory Rechistov via Talk-se wrote:

Hej Ture, Andreas, Anders, pangoSE och andra,
Längst ner följer mina kommentarer till dina svar.
> Jag har för mig att LMV publicerade textlagren i två uppsättningar: en
”kart”-uppsättning med snygga avstavningar, radbrytningar och så, och en
”GIS”-uppsättning där namnen sitter ihop. Vilket av dem är det du 
tittar på?

Jag använder den "GIS"-uppsättningen, men, som du lagt märke till...
> Sedan misstänker jag att även ”GIS”-uppsättningen lider lite av att vara
> ”en karta i shapefile-format”, snarare än en geodatabas — namnen är 
placerade

> där det blir snyggt på en 50k-karta
...det har jag också märkt. Därför finns olika förkortningar och 
radbrytningar

i källfiler vilka jag har kunnat åtgärda. Jag har i planer att kontakta
Lantmäteriet med en lista på ortnamns korrigeringar som jag samlat. 
Kanske blir

någon intresserad i att uppdatera deras kartinformation för framtiden.
> För herrgårdar kanske man kan passa på att lägga till historic=manor 
samtidigt.
Jag har också tänkt på detta, men vågade inte räkna varje herrgård som 
en plats

av historiskt värde.
Då kanske missförstår jag "historic=manor":s betydelse. Den taggen används
förresten inte mycket i Sverige, enligt detta: 
http://overpass-turbo.eu/s/PY3 .

Endast 77 träffar.
> Vi har ju även en hel del ställen som har ett namn, men där det är 
ödehus
> eller sommarstugor eller fäbodar. Dessa borde även de klassas som 
locality.
Det är precis den ursprungliga meningen bakom "place=locality". Att 
importen
använder den taggen för herrgårdarna var en kompromiss som jag tillät 
eftersom
jag inte kunde hitta ett bättre alternativ för något mindre än 
"isolated_dwelling".
Då ansåg jag att "historic=manor" vore för specifikt. Men att bara 
kasta iväg

noderna ville jag inte heller.
Låt mig tänka på det lite mer, hur det bästa lösningen skulle se ut. 
Kanske skulle
jag omtagga dem till "isolated_dwelling", kanske till "manor", kanske 
kasta bort.


> Stadsdelar bör väl inte vara hamlet, utan neighbourhood?
Nej, "neighbourhood" är visst bättre för dem. För varje kartruta som 
ligger nära
en större stad ska en uppladdare se till att "hamlet" blir till 
"neighbourhood".

Det skulle vara uppenbart att upptäcka visuellt och fixa manuellt.
Det skulle inte finnas många sådana rutor som täcker stora städer. 
Stora städer
brukar dessutom vara mer färdigt kartlagda vilket betyder mindre nya 
noder att

importera runtom dem.
Jag kunde kanske ha löst problemet genom att tagga de noder som finns 
inom städers

gränser på ett annat etikettsschema... Men det skulle ha varit för
beräkningsintensivt, och jag är inte redo att skriva en sådan algoritm 
(ännu).

> även om jag själv hade föredragit en adress-import.
Det skulle jag ha också föredragit, om jag hade tillgång till en öppen 
databas

för ortnamn/adresser.
> Gissar att merparten av de nya namnen inte längre används i vardagen.
Här kan vi endast tro på Lantmäteriets kompetens att hålla sina kartor 
aktuella.
Men det gäller även själva OSM-projektet. Man litar nämligen på att 
andra OSM:s
bidragsgivare har ritat något som stämmer i verkligheten. En gång hade 
jag cyklat

till en skogsväg som visade sig vara ett dike på marken ¯\_(ツ)_/¯
Det är kanske också en ständig fråga för OSM: när blir historiska data
irrelevanta och bör suddas ur OSM-databasen? Jag är till exempel lätt 
irriterad
att man tillåter ha "abandoned=railway" (drygt 256 tusen sträckor 
enligt Taginfo!)

> Vissa platser ser mer ut som "locality" medan några namn har helt klart
> felaktigt blivit "hamlet" fast det bara är en gård, om ens det.
Det finns sådan risk som jag skrivit i importplanen. Jag bedömer att 
ett sådant
fel, om tillåtet vid importen, är av mindre vikt. Man kan väl strida 
om "rätta"
etiketter till världens slut. Att det finns en plats med ett namn 
skulle dock hjälpa
att upptäcka platsen och sedan att bedöma dess storlek och sedan rätta 
till

"place=hamlet" till "locality" eller tvärtom.

> Är det i såna fall möjligt att genereras nya filer efterhand, så man 
ser vad

> som blir till övers på slutet?
Att generera ny filer efter jag korrigerat skript/input tar liksom 20 
minuter
eller ännu mindre. Det är bara cirka 100 000 noder i hela landet vi 
talar om.
Den nuvarande uppdelningen beror på Lantmäteriets 

Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-22 tråd Tomas Marklund
Vad tusan, skulle det inte finnas nån OSMare som kommer norrifrån? Vad är
det här för fördomar? 

Men oavsett om man har lokalkännedom eller inte så tror jag faktiskt inte
att det BEHÖVS så mycket lokalkännedom, utan det som behövs är helt enkelt
ett mänskligt öga som spanar på noderna och med lite sunt förnuft jämför
med ekonomiska kartan och topografiska kartan. Jag kan garantera att det
inte finns nån i den här församlingen som har besökt *alla *noderna IRL
ändå, så det löser sig nog ändå, även om man inte pratar lokalbefolkningens
dialekt 

/Tomas

Den ons 22 jan. 2020 kl 10:58 skrev :

> Hej igen 
> Tusen tack för dina utförliga svar.
> Jag är nu mera positivt inställd till importen. Jag ska titta närmare på
> en fil och återkommer.
> Jag tror det går bra att vi med lokalkännedom laddar upp för ett område vi
> känner. Frågan är hur vi skal göra för dem delar av landet (i norr) där
> ingen av oss har lokalkännedom?
>
> On January 22, 2020 1:34:35 AM GMT+01:00, Grigory Rechistov via Talk-se <
> talk-se@openstreetmap.org> wrote:
>>
>> Hej Ture, Andreas, Anders, pangoSE och andra,
>> Längst ner följer mina kommentarer till dina svar.
>>
>> > Jag har för mig att LMV publicerade textlagren i två uppsättningar: en
>> ”kart”-uppsättning med snygga avstavningar, radbrytningar och så, och en
>> ”GIS”-uppsättning där namnen sitter ihop. Vilket av dem är det du tittar
>> på?
>>
>> Jag använder den "GIS"-uppsättningen, men, som du lagt märke till...
>>
>> > Sedan misstänker jag att även ”GIS”-uppsättningen lider lite av att vara
>> > ”en karta i shapefile-format”, snarare än en geodatabas — namnen är
>> placerade
>> > där det blir snyggt på en 50k-karta
>>
>> ...det har jag också märkt. Därför finns olika förkortningar och
>> radbrytningar
>> i källfiler vilka jag har kunnat åtgärda. Jag har i planer att kontakta
>> Lantmäteriet med en lista på ortnamns korrigeringar som jag samlat.
>> Kanske blir
>> någon intresserad i att uppdatera deras kartinformation för framtiden.
>>
>> > För herrgårdar kanske man kan passa på att lägga till historic=manor
>> samtidigt.
>> Jag har också tänkt på detta, men vågade inte räkna varje herrgård som en
>> plats
>> av historiskt värde.
>> Då kanske missförstår jag "historic=manor":s betydelse. Den taggen används
>> förresten inte mycket i Sverige, enligt detta:
>> http://overpass-turbo.eu/s/PY3 .
>> Endast 77 träffar.
>>
>> > Vi har ju även en hel del ställen som har ett namn, men där det är
>> ödehus
>> > eller sommarstugor eller fäbodar. Dessa borde även de klassas som
>> locality.
>> Det är precis den ursprungliga meningen bakom "place=locality". Att
>> importen
>> använder den taggen för herrgårdarna var en kompromiss som jag tillät
>> eftersom
>> jag inte kunde hitta ett bättre alternativ för något mindre än
>> "isolated_dwelling".
>> Då ansåg jag att "historic=manor" vore för specifikt. Men att bara kasta
>> iväg
>> noderna ville jag inte heller.
>> Låt mig tänka på det lite mer, hur det bästa lösningen skulle se ut.
>> Kanske skulle
>> jag omtagga dem till "isolated_dwelling", kanske till "manor", kanske
>> kasta bort.
>>
>> > Stadsdelar bör väl inte vara hamlet, utan neighbourhood?
>> Nej, "neighbourhood" är visst bättre för dem. För varje kartruta som
>> ligger nära
>> en större stad ska en uppladdare se till att "hamlet" blir till
>> "neighbourhood".
>> Det skulle vara uppenbart att upptäcka visuellt och fixa manuellt.
>> Det skulle inte finnas många sådana rutor som täcker stora städer. Stora
>> städer
>> brukar dessutom vara mer färdigt kartlagda vilket betyder mindre nya
>> noder att
>> importera runtom dem.
>> Jag kunde kanske ha löst problemet genom att tagga de noder som finns
>> inom städers
>> gränser på ett annat etikettsschema... Men det skulle ha varit för
>> beräkningsintensivt, och jag är inte redo att skriva en sådan algoritm
>> (ännu).
>>
>> > även om jag själv hade föredragit en adress-import.
>> Det skulle jag ha också föredragit, om jag hade tillgång till en öppen
>> databas
>> för ortnamn/adresser.
>>
>> > Gissar att merparten av de nya namnen inte längre används i vardagen.
>> Här kan vi endast tro på Lantmäteriets kompetens att hålla sina kartor
>> aktuella.
>> Men det gäller även själva OSM-projektet. Man litar nämligen på att andra
>> OSM:s
>> bidragsgivare har ritat något som stämmer i verkligheten. En gång hade
>> jag cyklat
>> till en skogsväg som visade sig vara ett dike på marken ¯\_(ツ)_/¯
>> Det är kanske också en ständig fråga för OSM: när blir historiska data
>> irrelevanta och bör suddas ur OSM-databasen? Jag är till exempel lätt
>> irriterad
>> att man tillåter ha "abandoned=railway" (drygt 256 tusen sträckor enligt
>> Taginfo!)
>>
>> > Vissa platser ser mer ut som "locality" medan några namn har helt klart
>> > felaktigt blivit "hamlet" fast det bara är en gård, om ens det.
>> Det finns sådan risk som jag skrivit i importplanen. Jag bedömer att ett
>> sådant
>> fel, om tillåtet vid importen, är av mindre vikt. Man kan väl strida om
>> 

Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-22 tråd pangose
Hej igen 
Tusen tack för dina utförliga svar.
Jag är nu mera positivt inställd till importen. Jag ska titta närmare på en fil 
och återkommer. 
Jag tror det går bra att vi med lokalkännedom laddar upp för ett område vi 
känner. Frågan är hur vi skal göra för dem delar av landet (i norr) där ingen 
av oss har lokalkännedom? 

On January 22, 2020 1:34:35 AM GMT+01:00, Grigory Rechistov via Talk-se 
 wrote:
>
>Hej Ture, Andreas, Anders, pangoSE och andra,
>Längst ner följer mina kommentarer till dina svar.
> 
>> Jag har för mig att LMV publicerade textlagren i två uppsättningar:
>en
>”kart”-uppsättning med snygga avstavningar, radbrytningar och så, och
>en
>”GIS”-uppsättning där namnen sitter ihop. Vilket av dem är det du
>tittar på?
> 
>Jag använder den "GIS"-uppsättningen, men, som du lagt märke till...
> 
>> Sedan misstänker jag att även ”GIS”-uppsättningen lider lite av att
>vara
>> ”en karta i shapefile-format”, snarare än en geodatabas — namnen är
>placerade
>> där det blir snyggt på en 50k-karta
> 
>...det har jag också märkt. Därför finns olika förkortningar och
>radbrytningar
>i källfiler vilka jag har kunnat åtgärda. Jag har i planer att kontakta
>Lantmäteriet med en lista på ortnamns korrigeringar som jag samlat.
>Kanske blir
>någon intresserad i att uppdatera deras kartinformation för framtiden.
> 
>> För herrgårdar kanske man kan passa på att lägga till historic=manor
>samtidigt.
>Jag har också tänkt på detta, men vågade inte räkna varje herrgård som
>en plats
>av historiskt värde.
>Då kanske missförstår jag "historic=manor":s betydelse. Den taggen
>används
>förresten inte mycket i Sverige, enligt detta:
>http://overpass-turbo.eu/s/PY3 .
>Endast 77 träffar.
> 
>> Vi har ju även en hel del ställen som har ett namn, men där det är
>ödehus
>> eller sommarstugor eller fäbodar. Dessa borde även de klassas som
>locality.
>Det är precis den ursprungliga meningen bakom "place=locality". Att
>importen
>använder den taggen för herrgårdarna var en kompromiss som jag tillät
>eftersom
>jag inte kunde hitta ett bättre alternativ för något mindre än
>"isolated_dwelling".
>Då ansåg jag att "historic=manor" vore för specifikt. Men att bara
>kasta iväg
>noderna ville jag inte heller.
>Låt mig tänka på det lite mer, hur det bästa lösningen skulle se ut.
>Kanske skulle
>jag omtagga dem till "isolated_dwelling", kanske till "manor", kanske
>kasta bort.
>
>> Stadsdelar bör väl inte vara hamlet, utan neighbourhood?
>Nej, "neighbourhood" är visst bättre för dem. För varje kartruta som
>ligger nära
>en större stad ska en uppladdare se till att "hamlet" blir till
>"neighbourhood".
>Det skulle vara uppenbart att upptäcka visuellt och fixa manuellt.
>Det skulle inte finnas många sådana rutor som täcker stora städer.
>Stora städer
>brukar dessutom vara mer färdigt kartlagda vilket betyder mindre nya
>noder att
>importera runtom dem.
>Jag kunde kanske ha löst problemet genom att tagga de noder som finns
>inom städers
>gränser på ett annat etikettsschema... Men det skulle ha varit för
>beräkningsintensivt, och jag är inte redo att skriva en sådan algoritm
>(ännu).
> 
>> även om jag själv hade föredragit en adress-import.
>Det skulle jag ha också föredragit, om jag hade tillgång till en öppen
>databas
>för ortnamn/adresser.
> 
>> Gissar att merparten av de nya namnen inte längre används i vardagen.
>Här kan vi endast tro på Lantmäteriets kompetens att hålla sina kartor
>aktuella.
>Men det gäller även själva OSM-projektet. Man litar nämligen på att
>andra OSM:s
>bidragsgivare har ritat något som stämmer i verkligheten. En gång hade
>jag cyklat
>till en skogsväg som visade sig vara ett dike på marken ¯\_(ツ)_/¯
>Det är kanske också en ständig fråga för OSM: när blir historiska data
>irrelevanta och bör suddas ur OSM-databasen? Jag är till exempel lätt
>irriterad
>att man tillåter ha "abandoned=railway" (drygt 256 tusen sträckor
>enligt Taginfo!)
> 
>> Vissa platser ser mer ut som "locality" medan några namn har helt
>klart
>> felaktigt blivit "hamlet" fast det bara är en gård, om ens det.
>Det finns sådan risk som jag skrivit i importplanen. Jag bedömer att
>ett sådant
>fel, om tillåtet vid importen, är av mindre vikt. Man kan väl strida om
>"rätta"
>etiketter till världens slut. Att det finns en plats med ett namn
>skulle dock hjälpa
>att upptäcka platsen och sedan att bedöma dess storlek och sedan rätta
>till
>"place=hamlet" till "locality" eller tvärtom.
>
>> Är det i såna fall möjligt att genereras nya filer efterhand, så man
>ser vad
>> som blir till övers på slutet?
>Att generera ny filer efter jag korrigerat skript/input tar liksom 20
>minuter
>eller ännu mindre. Det är bara cirka 100 000 noder i hela landet vi
>talar om.
>Den nuvarande uppdelningen beror på Lantmäteriets eget schema. Men jag
>kan enkelt
>skära de nuvarande "regionerna" i bitar som täcker enstaka kommuner
>eller till
>någon annan nivås administrativa gränser som nu finns.
> 
>> Jag rekommenderar att du sätter dig in i hemmansbegreppet och de
>olika
>> 

Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-21 tråd Grigory Rechistov via Talk-se

Hej Ture, Andreas, Anders, pangoSE och andra,
Längst ner följer mina kommentarer till dina svar.
 
> Jag har för mig att LMV publicerade textlagren i två uppsättningar: en
”kart”-uppsättning med snygga avstavningar, radbrytningar och så, och en
”GIS”-uppsättning där namnen sitter ihop. Vilket av dem är det du tittar på?
 
Jag använder den "GIS"-uppsättningen, men, som du lagt märke till...
 
> Sedan misstänker jag att även ”GIS”-uppsättningen lider lite av att vara
> ”en karta i shapefile-format”, snarare än en geodatabas — namnen är placerade
> där det blir snyggt på en 50k-karta
 
...det har jag också märkt. Därför finns olika förkortningar och radbrytningar
i källfiler vilka jag har kunnat åtgärda. Jag har i planer att kontakta
Lantmäteriet med en lista på ortnamns korrigeringar som jag samlat. Kanske blir
någon intresserad i att uppdatera deras kartinformation för framtiden.
 
> För herrgårdar kanske man kan passa på att lägga till historic=manor 
> samtidigt.
Jag har också tänkt på detta, men vågade inte räkna varje herrgård som en plats
av historiskt värde.
Då kanske missförstår jag "historic=manor":s betydelse. Den taggen används
förresten inte mycket i Sverige, enligt detta: http://overpass-turbo.eu/s/PY3 .
Endast 77 träffar.
 
> Vi har ju även en hel del ställen som har ett namn, men där det är ödehus
> eller sommarstugor eller fäbodar. Dessa borde även de klassas som locality.
Det är precis den ursprungliga meningen bakom "place=locality". Att importen
använder den taggen för herrgårdarna var en kompromiss som jag tillät eftersom
jag inte kunde hitta ett bättre alternativ för något mindre än 
"isolated_dwelling".
Då ansåg jag att "historic=manor" vore för specifikt. Men att bara kasta iväg
noderna ville jag inte heller.
Låt mig tänka på det lite mer, hur det bästa lösningen skulle se ut. Kanske 
skulle
jag omtagga dem till "isolated_dwelling", kanske till "manor", kanske kasta 
bort.

> Stadsdelar bör väl inte vara hamlet, utan neighbourhood?
Nej, "neighbourhood" är visst bättre för dem. För varje kartruta som ligger nära
en större stad ska en uppladdare se till att "hamlet" blir till "neighbourhood".
Det skulle vara uppenbart att upptäcka visuellt och fixa manuellt.
Det skulle inte finnas många sådana rutor som täcker stora städer. Stora städer
brukar dessutom vara mer färdigt kartlagda vilket betyder mindre nya noder att
importera runtom dem.
Jag kunde kanske ha löst problemet genom att tagga de noder som finns inom 
städers
gränser på ett annat etikettsschema... Men det skulle ha varit för
beräkningsintensivt, och jag är inte redo att skriva en sådan algoritm (ännu).
 
> även om jag själv hade föredragit en adress-import.
Det skulle jag ha också föredragit, om jag hade tillgång till en öppen databas
för ortnamn/adresser.
 
> Gissar att merparten av de nya namnen inte längre används i vardagen.
Här kan vi endast tro på Lantmäteriets kompetens att hålla sina kartor aktuella.
Men det gäller även själva OSM-projektet. Man litar nämligen på att andra OSM:s
bidragsgivare har ritat något som stämmer i verkligheten. En gång hade jag 
cyklat
till en skogsväg som visade sig vara ett dike på marken ¯\_(ツ)_/¯
Det är kanske också en ständig fråga för OSM: när blir historiska data
irrelevanta och bör suddas ur OSM-databasen? Jag är till exempel lätt irriterad
att man tillåter ha "abandoned=railway" (drygt 256 tusen sträckor enligt 
Taginfo!)
 
> Vissa platser ser mer ut som "locality" medan några namn har helt klart
> felaktigt blivit "hamlet" fast det bara är en gård, om ens det.
Det finns sådan risk som jag skrivit i importplanen. Jag bedömer att ett sådant
fel, om tillåtet vid importen, är av mindre vikt. Man kan väl strida om "rätta"
etiketter till världens slut. Att det finns en plats med ett namn skulle dock 
hjälpa
att upptäcka platsen och sedan att bedöma dess storlek och sedan rätta till
"place=hamlet" till "locality" eller tvärtom.

> Är det i såna fall möjligt att genereras nya filer efterhand, så man ser vad
> som blir till övers på slutet?
Att generera ny filer efter jag korrigerat skript/input tar liksom 20 minuter
eller ännu mindre. Det är bara cirka 100 000 noder i hela landet vi talar om.
Den nuvarande uppdelningen beror på Lantmäteriets eget schema. Men jag kan 
enkelt
skära de nuvarande "regionerna" i bitar som täcker enstaka kommuner eller till
någon annan nivås administrativa gränser som nu finns.
 
> Jag rekommenderar att du sätter dig in i hemmansbegreppet och de olika
> skiftesreformer som gjorts i Sverige.
Tack, det ska jag göra. Angående de dubbletter som troligen skapas vid
kartbladens kanter, kan de åtgärdas genom att märkas som tveksamma eller
till och med raderas bort för säkerhets skull. Någonting var inte kartlagt
förut, och det blir inte tillagd efter, right?
 
> Nej, så ska vi inte tagga. Ett objekt ska taggas en gång. Detta är en
grundläggande osm-regel
Ja, det är rimligt att importer följer denna regel. Då modifierar jag skriptet 
att
vara mer aggressivt med att radera 

Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-19 tråd Grigory Rechistov via Talk-se

Hej,
Jag fixade ett fel i skriptet. Det upptäcktes att gamla noders  
begränsningsramar var för stora (förväxlade latitud och longitud i en plats) 
vilket ledde till större antal falska positiva matchningar. Med andra ord, 
bestämdes ibland två lika nämnda noder som dubbletter trots att de var långt 
borta varandra. Efter rättelsen började fler nya noder "överleva" konflationen .
 
En ny förändring till är att gamla (multi)polygoner med namn (name=*, 
landuse=farmyard eller landuse=residential osv) nu matchas mot nya noder. Om 
deras koordinater och namn är lika markeras den nya noden med en etikett 
"import:note". Sedan kan man filtrera sådana nya noder och till exempel radera 
dem om man tror att endast nämnda polygoner bör finnas och inte noder.
 
Nya filer v13:  
https://drive.google.com/open?id=1pZhZhKhS_7JDqxal9QSjDTj1-YIM2LxW 
Kika i taggar för att se vilka nya noder matchade mot vilka gamla polygoner, t. 
ex. en beskrivning i en etikett lyder:

 
Jag har beskrivit dessa förändringar och andra omdiskuterade tillfällen i 
importplanen, här är utdraget:
Technical and diagnostic tags
In addition to the tags derived from the source dataset, auxiliary tags are 
added to all or some new nodes.
The following tags are added.
*  import=yes
*  source="GSD-Terrängkartan"
*  "lantmateriet:kkod" to store the original KKOD value.
*  fixme= for nodes with likely incorrect names, such as ending 
with a dash, starting from a lower case symbol etc.
*  note= for nodes which names were reconstructed.
*  short_name to keep the original abbreviated name
*  import:note =  for nodes having names similar to old 
(multi)polygons.
...
Node having same alternative name as existing node
For example, adding a node with name="Gullåkra by" near an old node with 
name="Gullåkra".
Probability: low. There should not be many variations of names. Existing 
conflation script checks for alternative names.
Impact: low. A human will easily be able to recognize the error and dismiss it.
Effort to discover: medium. Map has to be visually scanned for suspicious node 
pairs.
Effort to fix: low. Delete one node, add "alt_name" to the other. If needed, 
the conflation script can deal with it by utilizing more advanced fuzzy name 
comparison.
 
Node having same name as existing closed way
Tag "name=*" can be placed not only on nodes, but also on (multi)polygons 
encircling settlements, such as landuse=residential, landuse=farmyard etc.
Probability: high. There are regions with hundres of such (multi)polygons.
Impact: low to medium (currently being debated). It is customary for certain 
mappers to map settlements with  both a name on its closed way and as a 
separate node with "place=*" inside its border. One reason behind it is that a 
node can be placed at a "logical", "economical" or political center, such as 
the main square, train station etc. Compared to this, a geometric center of 
(multi)polygon is hard to control, and it may land somewhere completely 
non-representative for the settlement.
Effort to discover: low. It is automated (since b4973ffe) to treat closed named 
ways as pseudo-nodes, apply the same conflation strategy and mark matches with 
import:note = *
Effort to fix: low. If needed, the conflation script can be adjusted to address 
it.


Jag kommer att svara på frågor/anmärkningar i mejltråden senare. Tack!
 
 
Med vänliga hälsningar,
Grigory Rechistov
With best regards,
Grigory Rechistov
 ___
Talk-se mailing list
Talk-se@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-se


Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-18 tråd Ture Pålsson

> 18 jan. 2020 kl. 00:03 skrev Grigory Rechistov via Talk-se 
> :
> 
> Hej igen,
> Jag har uppdaterat mina skript för att upptäcka och slå samman ytterligare 
> nodpar som borde vara en nod, t ex "Stora" + "mosse" ska till "Stora mosse" 
> osv. Det fanns dock bara 5 (fem) noder att korrigera; de är nu taggade med 
> ett extra nyckelvärde note="Name is merged from parts, recheck it”.

En kommentar från sidolinjen, och utan att vilja lägga mig i diskussionen i 
stort: Jag har för mig att LMV publicerade textlagren i två uppsättningar: en 
”kart”-uppsättning med snygga avstavningar, radbrytningar och så, och en 
”GIS”-uppsättning där namnen sitter ihop. Vilket av dem är det du tittar på?

Sedan misstänker jag att även ”GIS”-uppsättningen lider lite av att vara ”en 
karta i shapefile-format”, snarare än en geodatabas — namnen är placerade där 
det blir snyggt på en 50k-karta, inte nödvändigtvis på den mest representativa 
punkten.

  — T






___
Talk-se mailing list
Talk-se@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-se


Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-18 tråd pangose
Hej
När det nu har lyfts så pass allvarlig kritik av importunderlaget så undrar jag 
om vi inte ska byta strategi och i stället sätta upp en server som via 
MapWithAI serverar datan per område för manuel bearbetning? 

Det skulle betyda att grigorys polerade data finns tillgängliga för alla med 
josm.
Då kringgår vi alla problem eftersom att det knappast behövs importeras nånting 
i Malmö, men mycket däremot saknas på Västernorrlands landsbygd och kan hämtas 
eftersom av nån med lokalkunskap.

Om jag förstått teknologin rätt så är den så smart att bara det som saknas i 
området som hämtas ind i mapwithai-lagret.

Mvh
pangoSE 

On January 18, 2020 12:03:27 AM GMT+01:00, Grigory Rechistov via Talk-se 
 wrote:
>
>Hej igen,
>Jag har uppdaterat mina skript för att upptäcka och slå samman
>ytterligare nodpar som borde vara en nod, t ex "Stora" + "mosse" ska
>till "Stora mosse" osv. Det fanns dock bara 5 (fem) noder att
>korrigera; de är nu taggade med ett extra nyckelvärde note="Name is
>merged from parts, recheck it".
> 
>Dessutom fick skripten och data mindre förbättringar att samtliga noder
>nu blir taggade med extra etiketter som dokumenterar vilka
>namnförändringar tillämpats av skriptet.
> 
>Länken till mappen results-v11: 
>https://drive.google.com/open?id=1SuAaC_uNJPzFb3lHquqDD3lQVWP_6iUu .
>Jag kommer även uppdatera importplanen men den feedback som redan
>finns.
> 
>Trevlig helg! Återkommer nästa vecka.
> 
> 
>Med vänliga hälsningar,
>Grigory Rechistov
>With best regards,
>Grigory Rechistov
> 
___
Talk-se mailing list
Talk-se@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-se


Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-17 tråd Andreas Vilén
On Fri, Jan 17, 2020 at 9:36 PM Grigory Rechistov via Talk-se <
talk-se@openstreetmap.org> wrote:

> Hej Andreas, stort tack för feedback! Här är mina kommentarer.
>
> > Exempelvis förekommer Hjortseryd två gånger, med en brytlinje mellan två
> > kartblad mellan dem båda. Kommer sådana dubbletter kollas av?
> Sådan koll kan jag enkelt lägga till i skriptet. Men ditt exempel med
> Hjortseryd
> visar bara att det kan finnas två platser med samma namn på bara 1,16 km
> avstånd.
>
> Här är varför.
> Importsfilerna har tre noder med namn "Hjortseryd":
> tx_07.osm: lat="56.706179333" lon="13.412860079"
> tx_10.osm: lat="56.385103802" lon="15.291224794"
> tx_10.osm: lat="56.374758939" lon="15.292829751"
> En by ligger lång bortifrån andra, och två byar finns nära varandra.
> Här är de på Terrängkartan.
> Alla tre noder: https://i.stack.imgur.com/2hKsL.png
> De två nära: https://i.stack.imgur.com/yWzRN.png
>
> Trots att det verkligen är konstigt att man kallar två närliggande byar
> samma
> namn, är de verkligen två enstaka gårdar, men sina egna gränser osv.
> Även Ekonomiska kartan håller med detta:
> https://i.stack.imgur.com/NpZQw.png
> Nu får man kanske inte kolla på icke-öppna data... Hur som helst, andra
> källor
> tycker också att de är enstaka lika nämnda byar.
> 1. Eniro.se visar samma två byar som "Hjortseryd, ERINGSBODA".
> 2. Hitta.se visar dem som "Hjortseryd, Eringsboda" och "Hjortseryd,
> Ronneby".
>De har till och med olika postnummer.
>
> Oavsett alla bevis kan det ändå bli ett enormt fel i namn, men alla
> partier verkar
> tro på det.
>

Ditt resonemang visar tyvärr att du inte förstår vad datan visar. Det är
vanligt att ortnamn där kartblad bryts visar platsnamnen på båda
kartbladen, och dessa "ortnamn" syftar ofta på hela trakter. Det blir
missvisande att nödvändigtvis tala om dem som byar, samhällen eller
enskilda gårdar. Dessa områden sammanfaller dessutom långt ifrån alltid med
modern kommunindelning. Jag rekommenderar att du sätter dig in i
hemmansbegreppet och de olika skiftesreformer som gjorts i Sverige. Jag vet
att andra kan detta bättre än jag och hoppas de tar chansen att komma med
en mer utförlig förklaring i den här mailtråden.


>
> > Detta har jag gjort genom att rita en farmyard runt gården och sätta
> > name-tagg på denna. Dessa dubbletter måste det kontrolleras mot.
> På detta har jag redan funderat. Det är enkelt att implementera (jag
> utelämnar nu tekniska detaljer om hur), men frågan är om det verkligen
> behövs.
> Jag har sett flera exempel när t ex ett bostadsområde har sitt namn på den
> sträcka som omger det *samt* som en enstaka nod någonstans inuti. Det är
> vettigt
> när områdets logiska center inte sammanfaller med dess geometriskt center.
> Till
> exempel kan ett logiskt center finnas på ett torg medan det geometriska
> centret
> kan hamna i ett skogsparti.
>

Nej, så ska vi inte tagga. Ett objekt ska taggas en gång. Detta är en
grundläggande osm-regel:
https://wiki.openstreetmap.org/wiki/One_feature,_one_OSM_element. Att det
ser ut så på vissa ställen är fel och innebär inte att vi ska göra så på
fler ställen.

Några fler exempel som är fel är Skanörsgården, Falsterbo vång och
Falsterbohus. Den förstnämnda är namnet på ett bostadsområde, den andra är
knappt i allmänt bruk och den tredje syftar på ett känt före detta
badhotell: https://sv.wikipedia.org/wiki/Falsterbohus Något österut ligger
Videholm, som är ett alternativt namn för Lilla Hammar, taggat på samma
plats. Skillnaden mellan dessa yttrar sig främst i äldre
fastighetsindelning som inte är så relevant längre.


>
> > Dessa bör antagligen städas bort, då de naturligtvis inte ska
> > taggas som village eller liknande och datan troligen dubblerar sådant som
> > ligger inlagt med boundary-taggar.
>
> Jag har öppnat tx_01.osm för Stockholm och har laddat ner befintliga
> platser
> (med Overpass-API) för samma område. Här är jämförelsen.
>
> Befintliga data: https://i.stack.imgur.com/BCQ4i.jpg
> De flesta noderna är place=suburb, place=town, bara ett fåtal
> place=village.
>
> Nya data: https://i.stack.imgur.com/8DZn2.jpg
> Hela filen innehåller endast place=isolated_dwelling, place=hamlet
> (småort),
> place=locality och ett fall place=town. Inga place=village alls.
> Småort är ett officiellt begrepp vilket jag tror är rimligt att använda
> även nära
> stora städer: https://sv.wikipedia.org/wiki/Sm%C3%A5ort : "definieras som
> en
> samlad bebyggelse med 50–199 invånare, där det är högst 150 meter mellan
> husen."
> Om du kan förse mig med ett exempel där du tror etiketterna var felvalda
> då kan
> jag försöka åtgärda detta.
>

Jag har tittat i Malmö, Lund, Landskrona och Helsingborg. Samtliga
stadsdelar där är felaktigt angivna, och dessutom redan taggade på annat
sätt. Se ovan om one feature, one osm element. Jag utgår ifrån att det ser
i princip likadant ut i andra större städer. Vissa har ett namn som skiljer
sig något ifrån det namn som är taggat (Kobjärsvången vs Kobjer i Lund
exempelvis, där det 

Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-17 tråd Grigory Rechistov via Talk-se

Hej Andreas, stort tack för feedback! Här är mina kommentarer.
 
> Exempelvis förekommer Hjortseryd två gånger, med en brytlinje mellan två
> kartblad mellan dem båda. Kommer sådana dubbletter kollas av?
Sådan koll kan jag enkelt lägga till i skriptet. Men ditt exempel med Hjortseryd
visar bara att det kan finnas två platser med samma namn på bara 1,16 km 
avstånd.
 
Här är varför.
Importsfilerna har tre noder med namn "Hjortseryd":
tx_07.osm: lat="56.706179333" lon="13.412860079"
tx_10.osm: lat="56.385103802" lon="15.291224794"
tx_10.osm: lat="56.374758939" lon="15.292829751"
En by ligger lång bortifrån andra, och två byar finns nära varandra.
Här är de på Terrängkartan.
Alla tre noder:  https://i.stack.imgur.com/2hKsL.png
De två nära:  https://i.stack.imgur.com/yWzRN.png
 
Trots att det verkligen är konstigt att man kallar två närliggande byar samma
namn, är de verkligen två enstaka gårdar, men sina egna gränser osv.
Även Ekonomiska kartan håller med detta: https://i.stack.imgur.com/NpZQw.png
Nu får man kanske inte kolla på icke-öppna data... Hur som helst, andra källor
tycker också att de är enstaka lika nämnda byar.
1. Eniro.se visar samma två byar som "Hjortseryd, ERINGSBODA".
2. Hitta.se visar dem som "Hjortseryd, Eringsboda" och "Hjortseryd, Ronneby".
   De har till och med olika postnummer.
 
Oavsett alla bevis kan det ändå bli ett enormt fel i namn, men alla partier 
verkar
tro på det.
 
> Detta har jag gjort genom att rita en farmyard runt gården och sätta
> name-tagg på denna. Dessa dubbletter måste det kontrolleras mot.
På detta har jag redan funderat. Det är enkelt att implementera (jag
utelämnar nu tekniska detaljer om hur), men frågan är om det verkligen behövs.
Jag har sett flera exempel när t ex ett bostadsområde har sitt namn på den
sträcka som omger det *samt* som en enstaka nod någonstans inuti. Det är vettigt
när områdets logiska center inte sammanfaller med dess geometriskt center. Till
exempel kan ett logiskt center finnas på ett torg medan det geometriska centret
kan hamna i ett skogsparti.
 
> Dessa bör antagligen städas bort, då de naturligtvis inte ska
> taggas som village eller liknande och datan troligen dubblerar sådant som
> ligger inlagt med boundary-taggar.
 
Jag har öppnat tx_01.osm för Stockholm och har laddat ner befintliga platser
(med Overpass-API) för samma område. Här är jämförelsen.
 
Befintliga data:  https://i.stack.imgur.com/BCQ4i.jpg
De flesta noderna är place=suburb, place=town, bara ett fåtal place=village.
 
Nya data:  https://i.stack.imgur.com/8DZn2.jpg
Hela filen innehåller endast place=isolated_dwelling, place=hamlet (småort),
place=locality och ett fall place=town. Inga place=village alls.
Småort är ett officiellt begrepp vilket jag tror är rimligt att använda även 
nära
stora städer: https://sv.wikipedia.org/wiki/Sm%C3%A5ort : "definieras som en
samlad bebyggelse med 50–199 invånare, där det är högst 150 meter mellan husen."
Om du kan förse mig med ett exempel där du tror etiketterna var felvalda då kan
jag försöka åtgärda detta.
 
> I Lund såg jag att "Norra Fäladen" radbrutits och detta gjort att datan av
> någon anledning blivit dubblerad, med en place-tagg med namn "Norra" och en
> med namn "Fäladen".
Orsaken till detta förklarades i importplanen. Eventuell radbrytning är åtgärdad
i skriptet, jag behöver lära det känna igen fler mönster. Det kommer jag att 
göra.
 
> "Gullåkra" har inte fått träff mot "Gullåkra by", trots att noderna är
> placerade nästan på varandra.
Jag har sökt i Internet, och det verkar att "Gullåkra by" inte är byns
officiella namn, däremot är "Gullåkra" det korrekta namnet. Importen kan
inte rätta mänskliga fel i befintliga data, men den kan hjälpa med att upptäcka
dem, precis som du har gjort.
 
> efter att ha tvättat den i områden de har hyfsad lokalkännedom så
> de kan bedöma datans lämplighet.
Hela poängen i vilken import finns i att man inte behöver personligen undersöka
en plats. Istället använder man information samlad av myndigheterna (för vilket
betalar man skatt för, bland annat). Värför spendera hundratals människaår 
ideella
arbete för att kartlägga samtliga ortnamn när Lantmäteriet redan har spenderat
massor tid och pengar på detta?
 
Det kommer säkert att förekomma enstaka fel i importdatan, men fördelar
överstiger betydligt nackdelar. Låt mig illustrera det med siffror.
 
Sveriges OSM-kartan har just nu ungefär 68000 noder med ortnamn. Lantmäteriets 
data
innehåller cirka 154000 ortnamn. Om vi föreställer oss att Lantmäteriet känner
samtliga ortnamn, betyder det att OSM-kartan saknar 86000 noder,
eller har 55% fel. Då räknar jag en utebliven nod som fel. Här struntar vi i
OSM:s befintliga stavfel, positionsfel osv., annars skulle förhållandet ha 
blivit
ännu värre.
 
När vi importerar nya noder kommer vi säkert introducera nya fel:
dubbletter, felstavningar osv. Låt oss föreställa oss att importen går såpass
dåligt att vi introducerar 1% fel på nya noder. Det betyder att vi lägger till
860 nya fel in i 

Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-17 tråd Micke via Talk-se
Hej!

För herrgårdar kanske man kan passa på att lägga till historic=manor samtidigt.
Det finns nog en del sådana herrgårdar inlagda redan. Men då ligger nog taggen 
på huset eller på gården, inte på en nod. Bara så att det inte blir dubbletter 
där.

Vi har ju även en hel del ställen som har ett namn, men där det är ödehus eller 
sommarstugor eller fäbodar. Dessa borde även de klassas som locality.

Stadsdelar bör väl inte vara hamlet, utan neighbourhood?


Mvh

Anders Andersson

Från: Grigory Rechistov 
Skickat: den 16 januari 2020 18:19
Till: talk-se 
Ämne: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

Hej!
Jag har extraherat de ortnamn som nu saknas på Sveriges OSM-karta ifrån 
Lantmäteriets öppna data, daterade januari 2020. Det finns ungefär 95 tusen nya 
noder med namn och "place=*"-etiketter vilka jag så småningom hoppas ladda upp 
till OSM.

En såpass stor mängd nya data kräver att man följer vissa procedurer och 
förbereder vissa dokument. Jag hoppas att få er feedback och eventuell hjälp 
med valideringen, uppladdningen och med andra eventuella uppdrag.

Här finns importplan för projektet [1] på OSM-wikin. Den beskriver 
informationens härkomst, licens och format. Sedan beskriver jag hur de 
ursprungliga filerna bearbetas, hur nya punkter filtreras mot den befintliga 
OSM-databasen, hur ortnamn rensas och jämföras, vilka skript och program 
används vid alla steg osv. Till sist uppger jag vilka problem kvarstår att lösa 
under manuell bearbetning.

Importplanens bitar med viktigaste sektioner bifogar jag längst ner. Här är 
också en mindre bit av hela datasetet om du vill se hur det ska se ut: [2] [3]. 
Andra länkar till Lantmäteriets dokumentation, mina utvecklade skript, samtliga 
OSM-filer, kalkylblad osv finns på importplanens sida.

Tack!

[1] 
https://wiki.openstreetmap.org/wiki/Import/Catalogue/Lantm%C3%A4teriet_GSD-Terr%C3%A4ngkartans_ortnamnsimport
[2] https://drive.google.com/open?id=1np1TEDlEBWx1kt-u7A4Z_ZpkMOwOp80l
[3] https://drive.google.com/open?id=1pERx-U4rdOjhXmePoSxcbKRZsr-preh8

Importplanens utdrag följer.

===Goal===
To improve OSM completeness for toponymical dataset on territory Sweden using
an official map supplied by Swedish mapping, cadastral and land registration 
authority.
This import considers OSM data representable as nodes tagged with usual
key/value pairs: "place=city", "place=town", "place=village", "place=hamlet",
"place=isolated_dwelling", and "place=locality". However, it is not planned
(but not fully excluded either) to add/modify any nodes with "city" and "town"
values. They are expected to be already fully mapped.

 Data processing diagram 
See the diagram below. The conflation stage is described later in more details.
+---++--+
|   ||  |
|Lantmäteriet's SHP ||Geofabrik country |
|files  ||extract   |
|   ||  |
+-+-+++-+
  |   |
  |ogr2osm|osmconvert
  |   |osmfilter
  v   v
 ++-+ +---+-+
 |  | | |
 |OSM file with | |OSM fiele with   |
 |settlements   | |settlements  |
 |  | | |
 +-++ +---+-+
   |  |
   |  |
   | conflate-places.py   |
   +<--
   v
  +++
  | |
  |OSM file with|
  |only ready nodes |
  | |
  +++
   |
   | Manual corrections
   |
   v
Upload to JOSM


The employed algorithm operates on a set of old nodes marked with "place=*"
(from the OSM-extract, around 68 000 nodes for the country) and new nodes
(from SHP-extract). It produces ready nodes — a strict subset of new nodes.
No old nodes are modified in any way during the process. This means that 
existing
data has absolute priority, even in cases it is likely of lower quality than
new data.
The sequence of steps is as following.
1. Create a spatial index structure with old nodes to have fast spatial lookup.
2. For all new nodes validation/correction of the "name" tag is performed.
3. For each new node, find old nodes close enough to it to be candidate for 
duplicates.
4. For each candidate node, compare its name against the current new node name.
   Comparison is fuzzy to allow for some text variation typical for names.
   Alternative old names are also checked if present.
5. If a name match is found, the current new node is marked as "duplica

Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-16 tråd Andreas Vilén
Tack!

Jag har granskat lite till och har lite kommentarer.

*I Skåne har jag taggat gårdar med de namn som finns på Ekonomiska kartan.
Detta har jag gjort genom att rita en farmyard runt gården och sätta
name-tagg på denna. Dessa dubbletter måste det kontrolleras mot.
*I städerna ser det ut som att det gjorts ett slumpmässigt urval av
stadsdelar. Dessa bör antagligen städas bort, då de naturligtvis inte ska
taggas som village eller liknande och datan troligen dubblerar sådant som
ligger inlagt med boundary-taggar.
*I Lund såg jag att "Norra Fäladen" radbrutits och detta gjort att datan av
någon anledning blivit dubblerad, med en place-tagg med namn "Norra" och en
med namn "Fäladen".
*"Gullåkra" har inte fått träff mot "Gullåkra by", trots att noderna är
placerade nästan på varandra.

Jag tror det kan finnas en poäng att arbeta med den här datan, men att den
tillgängliggörs för nerladdning för användare som med eget omdöme laddar
upp datan efter att ha tvättat den i områden de har hyfsad lokalkännedom så
de kan bedöma datans lämplighet.

Jag tror inte det är lämpligt att importera det här datasetet.

On Thu, Jan 16, 2020 at 9:18 PM Grigory Rechistov via Talk-se <
talk-se@openstreetmap.org> wrote:

> Här är länken till samtliga filer, version 9:
> https://drive.google.com/open?id=182NzEuSHM3fuYIVRErp7-GWYhum02UZN
> Mappen "regions" innehåller OSM-filer som motsvarar till Lantmäteriets
> områdeskoder, i mappen "tiles" blev de delade i mindre rutor.
>
> I versionen 9 åtgärdade jag även ytterligare förkortningar som träffades,
> t ex "V Kroken" blir till "Västra Kroken".
>
>
> Med vänliga hälsningar,
> Grigory Rechistov
> With best regards,
> Grigory Rechistov
>
> ___
> Talk-se mailing list
> Talk-se@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-se
>
___
Talk-se mailing list
Talk-se@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-se


Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-16 tråd Grigory Rechistov via Talk-se

Här är länken till samtliga filer, version 9: 
https://drive.google.com/open?id=182NzEuSHM3fuYIVRErp7-GWYhum02UZN
Mappen "regions" innehåller OSM-filer som motsvarar till Lantmäteriets 
områdeskoder, i mappen "tiles" blev de delade i mindre rutor.
 
I versionen 9 åtgärdade jag även ytterligare förkortningar som träffades, t ex 
"V Kroken" blir till "Västra Kroken".
 
 
Med vänliga hälsningar,
Grigory Rechistov
With best regards,
Grigory Rechistov
 ___
Talk-se mailing list
Talk-se@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-se


Re: [Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

2020-01-16 tråd Andreas Vilén
Hej!

Jag tog en snabb koll i en av dina testfiler och jämförde mot ekonomiska
kartan. Platsnamnen verkar ligga på ungefär samma plats men viktigt att
notera att det är inte alltid platsnamnen där är unika, dels pga
fastighetsindelningar och dels pga i kartbladsgränser eftersom ortnamn nära
gränserna ofta skrivs ut en gång per kartblad. Exempelvis förekommer
Hjortseryd två gånger, med en brytlinje mellan två kartblad mellan dem
båda. Kommer sådana dubbletter kollas av? Själv hade jag gärna velat titta
på en fil över Skåne som är jämförd med befintlig data för att se vad som
blir kvar. Är det möjligt att ordna fram en sådan?

MVH Andreas

On Thu, Jan 16, 2020 at 6:19 PM Grigory Rechistov via Talk-se <
talk-se@openstreetmap.org> wrote:

> Hej!
> Jag har extraherat de ortnamn som nu saknas på Sveriges OSM-karta ifrån
> Lantmäteriets öppna data, daterade januari 2020. Det finns ungefär 95 tusen
> nya noder med namn och "place=*"-etiketter vilka jag så småningom hoppas
> ladda upp till OSM.
>
> En såpass stor mängd nya data kräver att man följer vissa procedurer och
> förbereder vissa dokument. Jag hoppas att få er feedback och eventuell
> hjälp med valideringen, uppladdningen och med andra eventuella uppdrag.
>
> Här finns importplan för projektet [1] på OSM-wikin. Den beskriver
> informationens härkomst, licens och format. Sedan beskriver jag hur
> de ursprungliga filerna bearbetas, hur nya punkter filtreras mot
> den befintliga OSM-databasen, hur ortnamn rensas och jämföras, vilka skript
> och program används vid alla steg osv. Till sist uppger jag vilka problem
> kvarstår att lösa under manuell bearbetning.
>
> Importplanens bitar med viktigaste sektioner bifogar jag längst ner. Här
> är också en mindre bit av hela datasetet om du vill se hur det ska se ut:
> [2] [3]. Andra länkar till Lantmäteriets dokumentation, mina
> utvecklade skript, samtliga OSM-filer, kalkylblad osv finns
> på importplanens sida.
>
> Tack!
>
> [1]
> https://wiki.openstreetmap.org/wiki/Import/Catalogue/Lantm%C3%A4teriet_GSD-Terr%C3%A4ngkartans_ortnamnsimport
> [2] https://drive.google.com/open?id=1np1TEDlEBWx1kt-u7A4Z_ZpkMOwOp80l
> [3] https://drive.google.com/open?id=1pERx-U4rdOjhXmePoSxcbKRZsr-preh8
>
> Importplanens utdrag följer.
>
> ===Goal===
> To improve OSM completeness for toponymical dataset on territory Sweden
> using
> an official map supplied by Swedish mapping, cadastral and land
> registration authority.
> This import considers OSM data representable as nodes tagged with usual
> key/value pairs: "place=city", "place=town", "place=village",
> "place=hamlet",
> "place=isolated_dwelling", and "place=locality". However, it is not planned
> (but not fully excluded either) to add/modify any nodes with "city" and
> "town"
> values. They are expected to be already fully mapped.
>
>  Data processing diagram 
> See the diagram below. The conflation stage is described later in more
> details.
> +---++--+
> |   ||  |
> |Lantmäteriet's SHP ||Geofabrik country |
> |files  ||extract   |
> |   ||  |
> +-+-+++-+
>   |   |
>   |ogr2osm|osmconvert
>   |   |osmfilter
>   v   v
>  ++-+ +---+-+
>  |  | | |
>  |OSM file with | |OSM fiele with   |
>  |settlements   | |settlements  |
>  |  | | |
>  +-++ +---+-+
>|  |
>|  |
>| conflate-places.py   |
>+<--
>v
>   +++
>   | |
>   |OSM file with|
>   |only ready nodes |
>   | |
>   +++
>|
>| Manual corrections
>|
>v
> Upload to JOSM
>
>
> The employed algorithm operates on a set of old nodes marked with "place=*"
> (from the OSM-extract, around 68 000 nodes for the country) and new nodes
> (from SHP-extract). It produces ready nodes — a strict subset of new nodes.
> No old nodes are modified in any way during the process. This means that
> existing
> data has absolute priority, even in cases it is likely of lower quality
> than
> new data.
> The sequence of steps is as following.
> 1. Create a spatial index structure with old nodes to have fast spatial
> lookup.
> 2. For all new nodes validation/correction of the "name" tag is performed.
> 3. For each new node, find old nodes close enough to it to be candidate
> for duplicates.
> 4. For each candidate node, compare its name against the current new node
> name.
>Comparison is fuzzy to allow for