Bonjour, le traitement du langage naturel est extrêmement complexe et c'est une science à part entière. J'espère pour toi qu'il n'y aura pas trop de réponses, que ce n'est pas en plusieurs langues, etc.
Puisque tu a mis du quali, tu va être obligé ou presque de tout lire, au cas où quelqu'un te mette des infos vraiment particulières : je suis prêt à payer "pas plus cher qu'un fast-food" ou "autant qu'un jeu vidéo" (mesures de prix psychologique tout à fait valides), "rien, finance-toi grâce à la pub" (haha), ou des retours complexes et détaillés comme "j'aimerais avoir la possibilité de souscrire un abonnement et que ce soit moins cher pour les membres", que sais-je encore... On remarque aussi par expérience que les utilisateurs ont peur d'être trop libres sur un questionnaire. Sur les formulaires un champ texte a le même aspect qu'un champ numérique, peut-être ne sauront-ils pas qu'ils peuvent faire du quali et qu'ils te mettront tous un chiffre, surtout si tu ne les encadre pas. "Prix que vous êtes prêts à payer" ? Oui mais en euros, en dollars, en bananes ? Certains utilisateurs risquent d'avoir un doute, peur de faire une bêtise, et de ne pas répondre à la question. Ce que je ferais personnellement est un tableau de bord avec les réponses les plus courantes et le nombre de fois qu'elles apparaissent, listé par ordre de la plus à la moins fréquente. Ça te fera comme souvent une répartition logarithmique avec beaucoup de réponses identiques et une "longue traîne" : si 1000 utilisateurs répondent et que 300 ont mis "5", cent "5€" et cent autres "cinq euros", tu viens de faire la moitié de tes stats en 1% du temps de travail. Il te faut une étape de normalisation : transformer les "cinq" en "5", séparer les unités ($, €...), réussir à ignorer les fautes de frappe... là encore, quelques regexp te feront le gros du travail mais il te restera la "longue traîne" à analyser à la main. Des outils de stemming et correction orthographique peuvent t'aider. Et enfin je remonterai toute cette liste dans une table administrable, où tu puisses à la main définir le montant associé à telle ou telle chaîne, par exemple pour toutes les variantes de zéro, ça donnerait : occurrences : 21 ; montant : inconnu ; texte : rien occurrences : 14 ; montant : inconnu ; texte : que dalle occurrences : 5 ; montant : inconnu ; texte : peanuts occurrences : 2 ; montant : inconnu ; texte : rien du tout ... et une centaine d'autres entrées sur d'autres prix et une fois que tu auras rentré le montant équivalent "0" pour tout ça tu finiras avec : occurrences : 42 ; montant : 0 ; textes : "rien", "que dalle", "peanuts", "rien du tout" occurrences : 39 ; montant : 10 ; textes : "10", "10€", "dix" occurrences : 18 ; montant : 5 ; textes : "5€", "un billet de 5", "5" occurrences : 11 ; montant : 20 ; textes : "20", occurrences : 3 ; montant : 30 ; textes : "30" c'est à dire pile poil ce qu'il te faut pour faire ton rapport graphique... et probablement découvrir une belle gaussienne, avec un pic à zéro (que voulez-vous ma bonne dame, c'est la crise). J'espère que c'est assez détaillé :) -- Vous avez reçu ce message, car vous êtes abonné au groupe "Railsfrance" de Google Groups. Pour transmettre des messages à ce groupe, envoyez un e-mail à l'adresse [email protected] Pour résilier votre abonnement envoyez un e-mail à l'adresse [email protected]
