Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine

Jean-Baptiste Faure Sun, 17 Apr 2011 09:32:22 -0700

Le 17/04/2011 17:45, Laurent BALLAND-POIRIER a écrit :
> Je poursuis la discussion car le sujet me tracasse... :)
> Le 17/04/2011 17:09, Jean-Baptiste Faure a écrit :
>>>
>>>>> Les données peuvent ne pas passer exactement par zéro (ou une autre
>>>>> valeur constituant un offset) alors que physiquement le phénomène doit
>>>>> passer par l'origine. Par exemple si le nombre de données est
>>>>> faible, il
>>>>> est peu probable que cela passe exactement par zéro.
>>>> Ok, mais dans ce cas la vraie question à se poser est : pourquoi ça ne
>>>> passe pas par zéro alors que ça devrait ?
>>> Mais parce que dans la vraie vie il y a forcément des incertitudes de
>>> mesure.
>> Certes, mais dans ce cas il faut évaluer ces incertitudes et en tenir
>> compte pour réaliser l'ajustement.
> Cela ne m'explique pas pourquoi il ne faut pas avoir la même démarche
> sur une régression linéaire y= mx+b


Je voulais simplement dire que si on invoque les inévitables
incertitudes il faut en tenir compte dans le processus d'ajustement.
Quel que soit le modèle utilisé, en effet.

> Tous tes points ne passent pas par ta droite. Pourquoi ? Pour les mêmes
> raisons, que si je choisis une régression proportionnelle y=mx, tous mes
> points ne passent pas par la droite.

Cela dépend des cas, mais dans mon exemple, les points expérimentaux ne
sont pas sur la droite de régression parce qu'ils ne suivent pas une loi
linéaire. Ce que permet justement de constater l'introduction du point
(0,0) dans le jeu de données.

>>>> Pas de torturer les données pour leur faire dire ce qu'on a décidé
>>>> qu'elles devaient dire.
>>> Il ne s'agit pas de "torturer". Est-ce que la relation linéaire trouvée
>>> (y=ax+b) a plus de sens que la relation proportionnelle (y=mx) ?
>> Oui parce qu'elle respecte les données.
> En quoi y=mx+b respecte plus les données que y=mx ou y=ax²+bx+c ? Là il
> faut m'expliquer car je ne comprends pas ce blocage sur une seule forme
> de l'équation.

Je raisonnais sur l'exemple que j'ai donné. Le R² donne une mesure de la
qualité de l'ajustement.

>> Si ensuite le modèle construit sur ces données ne permet pas de prédire
> Je crois que l'on tient là un point de départ pour expliquer notre
> différence d'approche. Je n'utilise pas de régression pour "prédire" mes
> valeurs de y ou x, mais parce que m représente physiquement quelque
> chose et que je veux la valeur de la propriété "m". 

D'une certaine façon si tu prédis cette valeur (0,0) : tu sais que ton
modèle doit passer par ce point. Si tes données expérimentales ne te
permettent pas de le retrouver c'est qu'il y a un problème quelque part.

Et c'est sans doute
> pour cela que je n'ai jamais eu besoin de la fonctionnalité
> d'extrapolation de la courbe de tendance, et sans doute aussi pour cela
> que les programmeurs se sont contentés au début de tracer la courbe de
> tendance sans en donner la valeur. J'ai donc le sentiment qu'en
> utilisant le même outil, on ne cherche pas tous la même chose.
>> Ce n'est pas la relation linéaire qui est ou n'est pas une démarche
>> scientifique, c'est la façon dont on construit une théorie à partir de
>> données qui l'est ou ne l'est pas.
>>
>> Dans le cas de l'exemple cité, forcer la droite à passer par l'origine
>> masque les deux conclusions possibles qu'il faudrait donc analyser plus
>> en détail :
>> - soit les données sont fausses c'est à dire qu'il y a des erreurs de
>> mesure anormales
>> - soit le modèle linéaire ne rend pas correctement compte des données,
>> ce qu'on peut effectivement facilement mettre en évidence puisqu'on peut
>> trouver un ajustement en loi puissance qui donne un R² meilleur.
> Je ne vois toujours pas pourquoi on propose y =mx+b, y = b.x^m, etc.
> mais pas y=mx ou y = ax²+bx+c

En général y=mx sur-détermine le problème.
À vrai dire dans mon domaine je ne me souviens pas avoir rencontré un
ajustement sur une loi polynomiale, ce sont toujours des lois puissance
ou exponentielle.

> Le problème de changer de loi est le même : tu regardes R² et tu
> décides. Plus tu ajoutes de paramètres et plus c'est facile de faire
> coller tes points à ta régression. Donc choisir y=mx+b pour avoir un
> meilleur R² qu'avec y=mx pourrait être fallacieux, puisque cela te
> masque les points aberrants.

Absolument. D'ailleurs dans mon exemple les deux modèles, linéaire ou
proportionnel, sont faux tous les deux.

> L'argument que cela tromperait l'utilisateur est le même quelle que soit
> la loi employée. Il faut certes regarder la valeur de R², mais également
> le sens physique de l'équation employée.

Évidemment mais on n'a pas toujours de quoi donner un sens physique à
l'équation obtenue. D'où l'importance de l'étape de validation du modèle.

>> Cela conforte l'idée qu'une extension est une bonne façon de satisfaire
>> la demande. D'ailleurs je pense que tu ne devrais pas te priver de faire
>> une entrée spéciale dans la FAQ de Calc sur le sujet. Ne signaler
>> l'extension CorelPolyGUI que dans l'article sur le solveur est
>> insuffisant à mon avis. Un article "Comment ajouter une courbe de
>> tendance" ou carrément "Comment ajuster une régression polynomiale" me
>> parait complètement justifié.
> Je l'ajoute à ma liste des choses à faire  ;-)

Merci. :-)

Bonne fin de journée
JBF

-- 
Seuls des formats ouverts peuvent assurer la pérennité de vos documents.

-- 
Envoyez un mail à [email protected] pour savoir comment vous 
désinscrire
Les archives de la liste sont disponibles à 
http://listarchives.libreoffice.org/fr/discuss/
Tous les messages envoyés sur cette liste seront archivés publiquement et ne 
pourront pas être supprimés

Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine

Répondre à