Re: [OSM-talk-fr] Regexp pour valider un nom de commune française

2017-03-29 Par sujet frem

Le 28/03/2017 à 23:32, Christian Quest a écrit :
Je ne suis pas chaud pour intégrer des logiques de typographie dans 
des logiques de contrôle de qualité des données.
Pas de soucis pour ne pas ajouter ça aux outils qualité, par contre, il 
le faudrait sur les outils de recherche, parce que quand je modifie une 
entrée qui a par ailleurs un problème de typo, il m’arrive de mettre de 
telles apostrophes. Rassurez-vous, je n’ai jamais eu la tentation de 
faire une telle modif sur l’ensemble du territoire français.  ;-)


--
Contributeur OpenStreetMap .
Retrouvez aussi une partie des contributeurs OpenStreetMap de la Vienne 
aux permanences de l’APP3L .


___
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr


Re: [OSM-talk-fr] Regexp pour valider un nom de commune française

2017-03-29 Par sujet frem

Le 28/03/2017 à 18:01, Charles Nepote a écrit :

Le 28/03/2017 à 17:14, frem a écrit :
J’ajouterais bien l’apostrophe typographique (« ’ », U+2019) qui est 
le caractère que nous devrions utiliser pour les apostrophes 
(recommandation Unicode) et en plus c’est joli  :-)
Merci frem. Je vais l'ajouter par acquis de conscience, sachant aussi 
que certains traitements de texte l'ajoutent automatiquement, non ? 
Des sachants pour confirmer ?

Charles.
Oui, c’est bien ça, les traitements de texte (Libre Office,…) 
convertissent automatiquement les apostrophes droites, au moins quand on 
est en langue française.
Mais par contre les outils d’édition d’OSM ne le font pas encore (ce qui 
serait d’ailleurs un beau bordel, déterminer si le nom entré est 
français est déjà une belle gageure).


--
Contributeur OpenStreetMap .
Retrouvez aussi une partie des contributeurs OpenStreetMap de la Vienne 
aux permanences de l’APP3L .


___
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr


Re: [OSM-talk-fr] Regexp pour valider un nom de commune française

2017-03-28 Par sujet Christian Quest
Je ne suis pas chaud pour intégrer des logiques de typographie dans des 
logiques de contrôle de qualité des données.


A mon avis, c'est un traitement à faire en aval si l'on veut une 
impression propre, mais en général les données ne sont pas saisies avec 
ce type de caractères... c'est déjà bien quand on a les accents et pas 
que des majuscules, ne poussons pas le bouchon trop loin ;)



Le 28/03/2017 à 18:01, Charles Nepote a écrit :

Le 28/03/2017 à 17:14, frem a écrit :

Bonjour,

J’ajouterais bien l’apostrophe typographique (« ’ », U+2019) qui est 
le caractère que nous devrions utiliser pour les apostrophes 
(recommandation Unicode) et en plus c’est joli  :-) 
(http://www.brunobernard.com/des-textes-plus-elegants-avec-les-apostrophes-typographiques/).


*Valides (communes existantes)**
*Saint-Martin-d’Hères
L’Île-Rousse

PS : pour les linuxiens, si vous voulez vous extraire de la pauvreté 
typographique de l’AZERTY standard, je vous recommande le disposition 
de clavier « Français (variante) », qui rend disponible, par exemple, 
l’apostrophe typographique avec la combinaison de touche « AltGr + g ».


Merci frem. Je vais l'ajouter par acquis de conscience, sachant aussi 
que certains traitements de texte l'ajoutent automatiquement, non ? 
Des sachants pour confirmer ?

Charles.



Le 28/03/2017 à 14:32, Charles Nepote a écrit :
Je cherche donc à vérifier a minima la syntaxe d'un nom de commune à 
travers une regexp. J'ai produit la regexp suivante qui passe mes 
tests sauf qu'elle me semble un peu trop permissive. Toute remarque 
ou aide appréciée :)
(J'ai utilisé la forme "extended" qui permet d'étaler la regexp sur 
plusieurs lignes et de la commenter.)


/
^
(   # Débute par un article
  Le\ |La\ |Les\ |Los\ |Aux\ |L'
  | # ou
)   # rien

([A-ZÉÇŒÈÎ])# Suivi d'une majuscule

(   # puis ...
 ((-|   #   un trait-d'union ou
  \ |   #   un espace ou
  \ -\ |#   un espace suivi d'un trait d'union 
suivi d'un espace ou

  ')#   une apostrophe
  [A-ZÉÇŒÈÎ])   #   suivi d'une majuscule
 |  #   ou bien
 ('|-|\ |)  #   une apostrophe ou un trait-d'union 
ou un espace ou rien

  [a-zàâéèêëïîÿôûüœç]   #   suivi d'une minuscule
)*  # 0 ou plusieurs fois

(   # terminé par
  \ \([A-Z][a-z]*\) # un espace suivi d'un mot entre 
parenthèse débutant par une majuscule

  | # ou
)   # rien
$
/gmx# global, multiline, extended

Vous pouvez la retrouver et la tester ici : 
https://regex101.com/r/knDFaB/4





___
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr



--
Christian Quest - OpenStreetMap France


___
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr


Re: [OSM-talk-fr] Regexp pour valider un nom de commune française

2017-03-28 Par sujet Charles Nepote

Le 28/03/2017 à 17:14, frem a écrit :

Bonjour,

J’ajouterais bien l’apostrophe typographique (« ’ », U+2019) qui est 
le caractère que nous devrions utiliser pour les apostrophes 
(recommandation Unicode) et en plus c’est joli  :-) 
(http://www.brunobernard.com/des-textes-plus-elegants-avec-les-apostrophes-typographiques/).


*Valides (communes existantes)**
*Saint-Martin-d’Hères
L’Île-Rousse

PS : pour les linuxiens, si vous voulez vous extraire de la pauvreté 
typographique de l’AZERTY standard, je vous recommande le disposition 
de clavier « Français (variante) », qui rend disponible, par exemple, 
l’apostrophe typographique avec la combinaison de touche « AltGr + g ».


Merci frem. Je vais l'ajouter par acquis de conscience, sachant aussi 
que certains traitements de texte l'ajoutent automatiquement, non ? Des 
sachants pour confirmer ?

Charles.



Le 28/03/2017 à 14:32, Charles Nepote a écrit :
Je cherche donc à vérifier a minima la syntaxe d'un nom de commune à 
travers une regexp. J'ai produit la regexp suivante qui passe mes 
tests sauf qu'elle me semble un peu trop permissive. Toute remarque 
ou aide appréciée :)
(J'ai utilisé la forme "extended" qui permet d'étaler la regexp sur 
plusieurs lignes et de la commenter.)


/
^
(   # Débute par un article
  Le\ |La\ |Les\ |Los\ |Aux\ |L'
  | # ou
)   # rien

([A-ZÉÇŒÈÎ])# Suivi d'une majuscule

(   # puis ...
 ((-|   #   un trait-d'union ou
  \ |   #   un espace ou
  \ -\ |#   un espace suivi d'un trait d'union 
suivi d'un espace ou

  ')#   une apostrophe
  [A-ZÉÇŒÈÎ])   #   suivi d'une majuscule
 |  #   ou bien
 ('|-|\ |)  #   une apostrophe ou un trait-d'union ou 
un espace ou rien

  [a-zàâéèêëïîÿôûüœç]   #   suivi d'une minuscule
)*  # 0 ou plusieurs fois

(   # terminé par
  \ \([A-Z][a-z]*\) # un espace suivi d'un mot entre 
parenthèse débutant par une majuscule

  | # ou
)   # rien
$
/gmx# global, multiline, extended

Vous pouvez la retrouver et la tester ici : 
https://regex101.com/r/knDFaB/4





___
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr


Re: [OSM-talk-fr] Regexp pour valider un nom de commune française

2017-03-28 Par sujet Charles Nepote

Le 28/03/2017 à 14:47, Philippe Verdy a écrit :

Il manque sans doute des majuscules accentuées (ÂÊ).

Oui bien vu, c'est une erreur de m part.




Tu peux toujours essayer avec la liste complète des communes et tenter 
un rapprochement, une requête Overpass sur les relation 
admin_level=8/9 (prendre en compte peut-être à part Wallis-et-Futuna 
qui n'a pas de communes mais des districts et villages, pour la 
Polynésie je pense qu'on a déjà les noms de communes et îles toutes 
présentes après en avoir fait le tour exhaustivement, mais si tu 
t'intéresses juste aux communes, la liste en outre-mer n'est pas aussi 
longue qu'en métropole). Après ça il y a des noms de quartiers et 
d'anciennes communes fusionnées au niveau 10.
Alors moi je suis vraiment nul en requête Overpass mais preneur d'une 
liste en CSV.



Concernant la fin (entre parenthèse) cela semble trop restrictif aussi 
de se limiter à l'alphabet de base sans accent et un seul mot.
La fin c'est Christian Quest qui me l'a soufflée pour gérer les deux 
seuls cas :

* Château-Chinon (Campagne)
* Château-Chinon (Ville)
(qui sont une hérésie, soit dit en passant).
Je pourrais en effet étendre aux capitales accentuées et lettre 
accentuées mais aussi, pourquoi-pas, aux noms composés, etc. Pourquoi ne 
pas continuer à mettre n'importe quoi dans les parenthèses ? On pourrait 
légitimement avoir :

**Château-Chinon - Ville Magne du Rotrou (Saint Martin et Villedieux)**
Un cas purement théorique mais une telle horreur est tout à fait 
possible si l'on tient compte des conneries précédentes. Je fais donc le 
pari, plus ou moins risqué, que les deux exemples tordus de 
Château-Chinon ne se reproduiront pas à brève échéance.


Charles.



Le 28 mars 2017 à 14:32, Charles Nepote > a écrit :


Bonjour à tous,


Un peu hors-sujet mais ça pourrait aider les outils de contrôle
qualité d'OSM.
Dans les divers outils et process informatiques il n'est pas
toujours possible d'aller appeler la BAN pour vérifier le nom
d'une commune.
Je cherche donc à vérifier a minima la syntaxe d'un nom de commune
à travers une regexp. J'ai produit la regexp suivante qui passe
mes tests sauf qu'elle me semble un peu trop permissive. Toute
remarque ou aide appréciée :)



___
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr


Re: [OSM-talk-fr] Regexp pour valider un nom de commune française

2017-03-28 Par sujet frem

Bonjour,

J’ajouterais bien l’apostrophe typographique (« ’ », U+2019) qui est le 
caractère que nous devrions utiliser pour les apostrophes 
(recommandation Unicode) et en plus c’est joli  :-) 
(http://www.brunobernard.com/des-textes-plus-elegants-avec-les-apostrophes-typographiques/).


*Valides (communes existantes)**
*Saint-Martin-d’Hères
L’Île-Rousse

PS : pour les linuxiens, si vous voulez vous extraire de la pauvreté 
typographique de l’AZERTY standard, je vous recommande le disposition de 
clavier « Français (variante) », qui rend disponible, par exemple, 
l’apostrophe typographique avec la combinaison de touche « AltGr + g ».


Le 28/03/2017 à 14:32, Charles Nepote a écrit :
Je cherche donc à vérifier a minima la syntaxe d'un nom de commune à 
travers une regexp. J'ai produit la regexp suivante qui passe mes 
tests sauf qu'elle me semble un peu trop permissive. Toute remarque ou 
aide appréciée :)
(J'ai utilisé la forme "extended" qui permet d'étaler la regexp sur 
plusieurs lignes et de la commenter.)


/
^
(   # Débute par un article
  Le\ |La\ |Les\ |Los\ |Aux\ |L'
  | # ou
)   # rien

([A-ZÉÇŒÈÎ])# Suivi d'une majuscule

(   # puis ...
 ((-|   #   un trait-d'union ou
  \ |   #   un espace ou
  \ -\ |#   un espace suivi d'un trait d'union 
suivi d'un espace ou

  ')#   une apostrophe
  [A-ZÉÇŒÈÎ])   #   suivi d'une majuscule
 |  #   ou bien
 ('|-|\ |)  #   une apostrophe ou un trait-d'union ou 
un espace ou rien

  [a-zàâéèêëïîÿôûüœç]   #   suivi d'une minuscule
)*  # 0 ou plusieurs fois

(   # terminé par
  \ \([A-Z][a-z]*\) # un espace suivi d'un mot entre 
parenthèse débutant par une majuscule

  | # ou
)   # rien
$
/gmx# global, multiline, extended

Vous pouvez la retrouver et la tester ici : 
https://regex101.com/r/knDFaB/4


--
Contributeur OpenStreetMap .
Retrouvez aussi une partie des contributeurs OpenStreetMap de la Vienne 
aux permanences de l’APP3L .


___
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr


Re: [OSM-talk-fr] Regexp pour valider un nom de commune française

2017-03-28 Par sujet Philippe Verdy
Il manque sans doute des majuscules accentuées (ÂÊ).

Tu peux toujours essayer avec la liste complète des communes et tenter un
rapprochement, une requête Overpass sur les relation admin_level=8/9
(prendre en compte peut-être à part Wallis-et-Futuna qui n'a pas de
communes mais des districts et villages, pour la Polynésie je pense qu'on a
déjà les noms de communes et îles toutes présentes après en avoir fait le
tour exhaustivement, mais si tu t'intéresses juste aux communes, la liste
en outre-mer n'est pas aussi longue qu'en métropole). Après ça il y a des
noms de quartiers et d'anciennes communes fusionnées au niveau 10.
Concernant la fin (entre parenthèse) cela semble trop restrictif aussi de
se limiter à l'alphabet de base sans accent et un seul mot.

Le 28 mars 2017 à 14:32, Charles Nepote  a écrit :

> Bonjour à tous,
>
>
> Un peu hors-sujet mais ça pourrait aider les outils de contrôle qualité
> d'OSM.
> Dans les divers outils et process informatiques il n'est pas toujours
> possible d'aller appeler la BAN pour vérifier le nom d'une commune.
> Je cherche donc à vérifier a minima la syntaxe d'un nom de commune à
> travers une regexp. J'ai produit la regexp suivante qui passe mes tests
> sauf qu'elle me semble un peu trop permissive. Toute remarque ou aide
> appréciée :)
>
___
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr