Bonjour,

le traitement du langage naturel est extrêmement complexe et c'est une
science à part entière.
J'espère pour toi qu'il n'y aura pas trop de réponses, que ce n'est
pas en plusieurs langues, etc.


Puisque tu a mis du quali, tu va être obligé ou presque de tout lire,
au cas où quelqu'un te mette des infos vraiment particulières : je
suis prêt à payer "pas plus cher qu'un fast-food" ou "autant qu'un jeu
vidéo" (mesures de prix psychologique tout à fait valides), "rien,
finance-toi grâce à la pub" (haha), ou des retours complexes et
détaillés comme "j'aimerais avoir la possibilité de souscrire un
abonnement et que ce soit moins cher pour les membres", que sais-je
encore...

On remarque aussi par expérience que les utilisateurs ont peur d'être
trop libres sur un questionnaire. Sur les formulaires un champ texte a
le même aspect qu'un champ numérique, peut-être ne sauront-ils pas
qu'ils peuvent faire du quali et qu'ils te mettront tous un chiffre,
surtout si tu ne les encadre pas. "Prix que vous êtes prêts à payer" ?
Oui mais en euros, en dollars, en bananes ? Certains utilisateurs
risquent d'avoir un doute, peur de faire une bêtise, et de ne pas
répondre à la question.



Ce que je ferais personnellement est un tableau de bord avec les
réponses les plus courantes et le nombre de fois qu'elles
apparaissent, listé par ordre de la plus à la moins fréquente. Ça te
fera comme souvent une répartition logarithmique avec beaucoup de
réponses identiques et une "longue traîne" : si 1000 utilisateurs
répondent et que 300 ont mis "5", cent "5€" et cent autres "cinq
euros", tu viens de faire la moitié de tes stats en 1% du temps de
travail.

Il te faut une étape de normalisation : transformer les "cinq" en "5",
séparer les unités ($, €...), réussir à ignorer les fautes de
frappe... là encore, quelques regexp te feront le gros du travail mais
il te restera la "longue traîne" à analyser à la main. Des outils de
stemming et correction orthographique peuvent t'aider.



Et enfin je remonterai toute cette liste dans une table administrable,
où tu puisses à la main définir le montant associé à telle ou telle
chaîne, par exemple pour toutes les variantes de zéro, ça donnerait :

occurrences : 21 ; montant : inconnu ; texte : rien
occurrences : 14 ; montant : inconnu ; texte : que dalle
occurrences : 5 ; montant : inconnu ; texte : peanuts
occurrences : 2 ; montant : inconnu ; texte : rien du tout
... et une centaine d'autres entrées sur d'autres prix

et une fois que tu auras rentré le montant équivalent "0" pour tout ça
tu finiras avec :

occurrences : 42 ; montant : 0 ; textes : "rien", "que dalle",
"peanuts", "rien du tout"
occurrences : 39 ; montant : 10 ; textes : "10", "10€", "dix"
occurrences : 18 ; montant : 5 ; textes : "5€", "un billet de 5", "5"
occurrences : 11 ; montant : 20 ; textes : "20",
occurrences : 3 ; montant : 30 ; textes : "30"

c'est à dire pile poil ce qu'il te faut pour faire ton rapport
graphique... et probablement découvrir une belle gaussienne, avec un
pic à zéro (que voulez-vous ma bonne dame, c'est la crise).


J'espère que c'est assez détaillé :)

-- 
Vous avez reçu ce message, car vous êtes abonné au groupe "Railsfrance" de 
Google Groups.
Pour transmettre des messages à ce groupe, envoyez un e-mail à l'adresse 
[email protected]
Pour résilier votre abonnement envoyez un e-mail à l'adresse 
[email protected]

Répondre à