Jag har tidigare och med dystra resultat försökt mig på att OCR:a ekonomiska kartan med Tesseract. Nu provade jag med Google Cloud Vision. Jämfört med det tidigare är resultatet makabert. Åtminstone på landsbygden och i ödemark. Dessutom returnerar Google var i bilden texten står. Att omvandla det till koordinater är en baggis, och vidare till en OSM.xml-fil från det blir ännu enklare.
Personligen är jag intresserad av en OCRad EK för att göra det sökbart,
exempelvis när jag för postnummerupproret vill försäkra mig om att få fram
CC0:ad data om var en postort ligger som vi känner till namn men inte plats.
Det finns säkert många liknande användningsområden för andra.
Kan ni komma på fler anledningar till att det är bra med en OCRad EK?
Att jag frågar är för att det kostar en hel del att genomföra denna OCRning.
0,15 öre per uppslag för att vara exakt. Jag har ingen koll på hur många man
måste göra, men eftersom man inte vet var ord i bilder börjar och slutar innan
man OCR:at så måste man göra överlappande uppslag, vilket innebär att det
dessutom blir en hel del extra. Flera miljoner uppslag känns inte overkligt.
Potentiellt sett kan det kosta allt mellan 1 500kr och 150 000kr att genomföra
om man skall betala det själv. Men Google är snälla och ofta själva mycket
intresserade av att data görs tillgängligt, så har man tillräckligt med
anledningar och ber dem så kommer de säkert sponsra detta.
Så hjälp mig gärna hitta på lite anledningar till att vi vill genomföra en
OCRning av EK! :D
Här är ytterligare två spån:
Man kan leta upp alla inritade sjöar utan namn i OSM och se om de omsluter
enskild EK OCRad textsträng vars stil följer samma visuella mönster som namnet
på inritade sjöar med namn som stämmer med den OCRade texten. Det där är inget
man gör i en handvändning, men skulle troligen sätta namn på väldigt mycket
sjöar och tjärn, inte minst i Norrland.
En liknande analys skulle kunna ligga till grund för att hitta sjögränser och
rita in dem. Åter igen något som skulle ta tid att genomföra men skulle vara
bra för Norrland.
Kanske något av dessa två spån skulle kunna vara ett Google summer of
code-projekt för en computer vision student?
kalle
signature.asc
Description: Message signed with OpenPGP using GPGMail
_______________________________________________ Talk-se mailing list [email protected] https://lists.openstreetmap.org/listinfo/talk-se
