Non je n'ai pas regardé la dernière analyse, je ne suis pas très à jour
avec les outils proposés.

Je pense que pour distinguer ce qui est correct ou non d'une source ou de
l'autre il faut passer par du cas mais que l'on peut amoindrir l'effort
humain en définissant des règles syntaxiques (expressions régulières) afin
de gérer des "La rue de" et "Rue de" ou "Mésanges" et "Rue des Mésanges"
afin de diminuer l'effort humain et qu'il se concentre sur les "problèmes"
du 4ème type.

La part de distinction est petite par rapport à la volumétrie mais c'est
toujours irritant et très impactant dans le jugement d'une source de
données lorsque celle-ci comporte des fautes de reproduction, grammaire ou
orthographe. Ce n'est pas une critique, juste un avis ;)

Pour les fichiers CSV, j'ai importé d'un côté les données OSM, d'un autre
mes données BANO et ai effectué des requêtes PostgreSQL pour le
rapprochement. Sous PgAdmin le "copier" du résultat est sous format CSV.

Les premières lignes de "différences" :

Lati Longi BANO OSM 50.478027 2.258851 La Rue Guilbert Rue Guilbert 50.16838
3.881105 Rue de la Queue Noir Jean Rue de la Queue Noire Jean 50.745894
3.13725 Rue de la Latte Rue de Latte 50.745894 3.13725 Rue de la Latte Rue
de Latte 50.745565 3.104056 Avenue Ponthieux Avenue Ponthieu 50.745894
3.13725 Rue de la Latte Rue de Latte 50.745894 3.13725 Rue de la Latte Rue
de Latte 50.745894 3.13725 Rue de la Latte Rue de Latte 50.745894 3.13725 Rue
de la Latte Rue de Latte 50.735717 3.121181 Rue Jules Watteuw Rue Jules
Watteeuw 50.586371 2.668816 La Rue des Lobes Rue des Lobes 50.482092
2.266353 La Rue des Fresnes Rue des Fresnes 50.477794 2.266416 La Rue du
Moulin Rue du Moulin 50.579298 2.689841 La Rue de Saint Omer Rue de
Saint-Omer 50.571286 2.697869 La Rue des Wirions Rue des Wirions 50.567841
2.733673 La Rue des Chavattes Rue des Chavattes 50.588666 2.697297 La Rue
des Clabauts Rue des Clabauts 50.591284 2.697928 La Rue Picavet Rue Picavet
50.561432 2.706571 La Rue de Loisne Rue de Loisne 50.745894 3.13725 Rue de
la Latte Rue de Latte 50.745894 3.13725 Rue de la Latte Rue de Latte
50.745894 3.13725 Rue de la Latte Rue de Latte 50.745894 3.13725 Rue de la
Latte Rue de Latte 50.482092 2.266353 La Rue des Fresnes Rue des Fresnes
50.239255 2.441026 Au Chemin de Sombrin Chemin de Sombrin 50.36725 2.267188 La
Chapelle De La Chapelle 50.591099 2.690511 La Rue du Rabat Rue du Rabat
50.567841 2.733673 La Rue des Chavattes Rue des Chavattes 50.586371 2.668816 La
Rue des Lobes Rue des Lobes 50.638747 1.898124 Hameau de Dignopre Hameau de
Dignopré 50.61245 1.740777 Route Nationale Route Nationale N°1 50.609524
1.74237 Route Nationale N°1 Route Nationale 50.600124 3.076128 Chemin des
Margueritois Chemin des Margueritois / Chemin Rouge 50.27574 2.755416 La
Rue de Fontaine Rue La Fontaine 50.26947 2.755188 La Rue Pasteur Rue Pasteur


2015-08-23 12:26 GMT+02:00 Christian Quest <cqu...@openstreetmap.fr>:

> Le 23/08/2015 11:30, Aurélien .... a écrit :
>
> Bonjour,
>
> Je m'intéresse de près à la BANO pour le moment spécifiquement dans le
> Nord-Pas-De-Calais et à coups de requêtes dans tous les sens et j'ai pu
> sortir des "différences" entre les données BANO et les données OSM.
>
>
> As tu regardé la dernière analyse Osmose que j'ai ajouté qui fait
> justement le croisement BANO/OSM ?
>
> C'est une version "osmose" du rouge du rendu BANO, plus simple à utiliser
> pour faire les corrections les unes après les autres.
>
> http://osmose.openstreetmap.fr/fr/errors/?item=7170 classes 30 à 33
>
>
> J'en ai catalogué différents types :
>
> 1) BANO : "La rue des Mésanges" - OSM : "Rue des mésanges"
> 2) BANO : "L'Arbre de Guise" - OSM : "Rue de l'Arbre de Guise"
> 3) BANO : "Rue de l'Escalier Royal" - OSM : "Escalier Royal"
>
> Ce n'est pas bien méchant mais peut-être que nous pouvons établir un
> ensemble de règles syntaxiques afin de créer un process de correction
> automatique ?
>
>
> Et comment déterminer qui est correct ? Les données BANO issues du
> cadastres peuvent comporter des erreurs... le cadastre n'est pas parfait et
> n'est pas une source d'autorité (c'est uniquement la commune qui l'est).
>
>
> Il y a un quatrième type de différence qui est plus inquiétant, le
> résultat ressemble à ça :
>
> - BANO : "Rue de la Fontaine Al Tuerie" - OSM : "Rue de la Fontaine à
> l'Tuerie" => hein est bien din ch'nord lô
> - BANO : "Rue du Vieux Chemin de Fourmie"" - OSM : "Rue du Vieux Chemin de
> Fourmies"
> - BANO : "Rue Hector Sandrart" - OSM : "Rue Hector Sandrard"
> - BANO : "Rue du Maréchal Leclerc" - OSM : "Rue du Maréchal Leclercq"
>
>
> Certaines erreurs peuvent être éliminées en croisant avec encore plus de
> données, typiquement sur les noms de personnes... Il n'y a pas de "Général
> ou Maréchal Leclercq", Clemenceau ne comporte pas d'accent, etc...
>
> J'ai commencé à explorer cette piste, par l'extraction de tout les mots
> uniques afin de créer un dictionnaire. Là aussi le dictionnaire aura besoin
> d'être validé, le tout automatique me semble hasardeux.
>
> Il y a déjà un dictionnaire utilisé par l'analyse osmose sur les name,
> mais on pourrait reduire encore plus celui-ci en le spécialisant.
>
> En tout le nombre de "différences" sur la région s'élève à 1137 (en
> comptant les "faux positifs") sur 110.000 rues.
>
> Est-ce que ça vous intéresserait d'avoir un listing groupé par commune sur
> l'ensemble de la métropole afin d'avoir une base supplémentaire de
> nettoyage ?
>
> Si c'est le cas, comment puis-je vous transmettre des fichiers CSV ?
>
> Je continue mes investigation pour checker s'il n'y aurait pas des rues
> présentes dans la BANO et absentes dans OSM.
>
> Pardon par avance s'il y a déjà des outils qui existent pour faire ça.
>
> A bientôt
>
>
>
> Comment procèdes-tu pour sortir ce CSV ?
>
> --
> Christian Quest - OpenStreetMap France
>
>
> _______________________________________________
> Talk-fr mailing list
> Talk-fr@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-fr
>
>
_______________________________________________
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr

Répondre à