Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine

Jean-Baptiste Faure Sun, 17 Apr 2011 08:09:31 -0700

Re-bonjour Laurent,

Le 17/04/2011 15:36, Laurent BALLAND-POIRIER a écrit :
> Le 17/04/2011 09:56, Jean-Baptiste Faure a écrit :
>> Le 17/04/2011 00:01, Laurent BALLAND-POIRIER a écrit :
>>> Je suis heureux que tu lances le sujet car c'est une de mes issues
>>> favorites (issue 34093), avec la régression polynomiale (issue 20819).
>> Pour moi ce sont deux demandes d'ordres différents.
> Certes. Mais à partir du moment où on se décidera d'en résoudre une,
> l'autre résolution suivra.
>>> Les données peuvent ne pas passer exactement par zéro (ou une autre
>>> valeur constituant un offset) alors que physiquement le phénomène doit
>>> passer par l'origine. Par exemple si le nombre de données est faible, il
>>> est peu probable que cela passe exactement par zéro.
>> Ok, mais dans ce cas la vraie question à se poser est : pourquoi ça ne
>> passe pas par zéro alors que ça devrait ?
> Mais parce que dans la vraie vie il y a forcément des incertitudes de
> mesure.


Certes, mais dans ce cas il faut évaluer ces incertitudes et en tenir
compte pour réaliser l'ajustement.

>> Pas de torturer les données pour leur faire dire ce qu'on a décidé
>> qu'elles devaient dire.
> Il ne s'agit pas de "torturer". Est-ce que la relation linéaire trouvée
> (y=ax+b) a plus de sens que la relation proportionnelle (y=mx) ?

Oui parce qu'elle respecte les données.
Si ensuite le modèle construit sur ces données ne permet pas de prédire
que pour une abscisse de 0 on doit obtenir 0 alors qu'on sait par
ailleurs qu'il doit en être ainsi, c'est que le modèle qu'on vient de
construire est faux. Ou au moins n'est peut-être pas suffisant.

Ce qui est en jeu ici c'est la distinction entre l'ajustement d'un
modèle (calibration in English) et la validation du modèle "calibré".
Quand on construit un modèle, en principe on sépare à l'aveugle ses
données expérimentales en deux parts. On utilise la première pour
définir un type de modèle (choisir la forme) et en ajuster les
paramètres. Une fois cela fait on vérifie sur le reste des données que
le modèle obtenu permet de bien les reproduire. Si ça ne marche pas
assez bien (en un sens à définir), on recommence, soit au niveau de
l'ajustement (changer de mesure de l'erreur ou d'algorithme) soit même
au niveau du choix de la forme du modèle (passer d'un modèle linéaire à
un modèle en loi puissance ou exponentiel par exemple).

>> Imposer à une droite de passer par l'origine c'est ajouter des données
>> extérieures aux données expérimentales en leur donnant un poids bien
>> plus important que les autres. Et si ce sont des données valides
>> pourquoi ne pas les ajouter au jeu de données utilisé pour calculer la
>> régression linéaire ?
> Je ne suis pas d'accord : le résultat numérique n'est pas le même.
>> L'exemple donné dans la question sur la ML développeurs
>> (http://nabble.documentfoundation.org/needful-function-on-calc-tp2824180p2824180.html)
>>
>> est le suivant :
>> distance parcourue par une voiture en fonction de sa vitesse :
>> 1 m/s : 5 m
>> 2 m/s : 11 m
>> Si on ajoute (0,0) au jeu de données la relation n'est pas linéaire.
>> Pourquoi la forcer ?
> Et pourquoi pas ? Si l'utilisateur a envie ? Il a le droit de choisir le
> couleur de la police dans laquelle il va écrire l'équation (il peut même
> choisir en blanc sur fond blanc) et il ne pourrait pas choisir son
> équation ?
> De toute façon, l'utilisateur peut forcer l'ordonnée à l'origine à 0
> avec la fonction DROITEREG. Donc pourquoi lui interdire de faire la même
> chose avec la courbe de tendance ? S'il veut une autre valeur, c'est
> encore possible, juste un peu plus sioux.
>> Pour moi ce n'est pas une démarche scientifique.
> Parce qu'une relation linéaire est une démarche scientifique ? Il ne
> s'agit que d'une équation plus ou moins arbitraire. Je ne comprends pas
> pourquoi cela gêne davantage d'écrire y=mx plutôt que y=mx+b. 

Ce n'est pas la relation linéaire qui est ou n'est pas une démarche
scientifique, c'est la façon dont on construit une théorie à partir de
données qui l'est ou ne l'est pas.

Dans le cas de l'exemple cité, forcer la droite à passer par l'origine
masque les deux conclusions possibles qu'il faudrait donc analyser plus
en détail :
- soit les données sont fausses c'est à dire qu'il y a des erreurs de
mesure anormales
- soit le modèle linéaire ne rend pas correctement compte des données,
ce qu'on peut effectivement facilement mettre en évidence puisqu'on peut
trouver un ajustement en loi puissance qui donne un R² meilleur.


>>> En attendant, je rappelle que MS-Excel supporte une telle fonctionnalité
>>> depuis le siècle dernier (1993 avec MS-Excel 5.0), 

Certes, et depuis longtemps aussi des générations d'étudiants font dire
n'importe quoi à leurs données. :-)

>> D'un autre coté on peut bien ajouter toutes les formes d'ajustement que
>> l'on veut. Le problème est alors d'être bien clair sur ce que le
>> logiciel fait. Et dans le cas présent ce n'est plus une régression
>> linéaire. Il faut trouver un autre nom pour ne pas induire en erreur.
> Si tu forces l'ordonnée à l'origine à 0, il s'agit d'une régression
> proportionnelle. Si tu forces à une autre valeur, il s'agit toujours
> d'une régression linéaire.
>> Je te laisse le soin de répondre en ce sens à la question sur la liste
>> dév ? Tu le feras sans doute plus gentiment que moi ;-)
> Merci pour le lien. Je n'avais pas été fichu de trouver le fil dont tu
> parlais ;-) J'espère que cela pourra être un nouveau départ pour cette
> problématique qui me tient à cœur. Pourtant, je reste réaliste quant à
> l'importance de ces fonctionnalités pour une suite bureautique
> généraliste. Lorsque j'ai pris mon bâton de pèlerin sur les différents
> forums francophones et anglophones pour trouver des témoignages de
> personnes ayant des besoins concrets dans ce domaine, afin d'illustrer
> la demande de changement de format auprès d'OASIS, j'ai essuyé un grand
> silence respectueux.

Cela conforte l'idée qu'une extension est une bonne façon de satisfaire
la demande. D'ailleurs je pense que tu ne devrais pas te priver de faire
une entrée spéciale dans la FAQ de Calc sur le sujet. Ne signaler
l'extension CorelPolyGUI que dans l'article sur le solveur est
insuffisant à mon avis. Un article "Comment ajouter une courbe de
tendance" ou carrément "Comment ajuster une régression polynomiale" me
parait complètement justifié.

> 
> Bon je vais aller boire ma tisane pour me calmer.

Allons, une bonne discussion (en français c'est plus facile) permet
d'affiner ses arguments.

> 
> Bon dimanche au soleil !
Oui, mais un peu frisquet le soleil, je trouve. :-)

Bonne journée
JBF

-- 
Seuls des formats ouverts peuvent assurer la pérennité de vos documents.

-- 
Envoyez un mail à [email protected] pour savoir comment vous 
désinscrire
Les archives de la liste sont disponibles à 
http://listarchives.libreoffice.org/fr/discuss/
Tous les messages envoyés sur cette liste seront archivés publiquement et ne 
pourront pas être supprimés

Re: [fr-discuss] régression linéaire avec contrainte de passer par l'origine

Répondre à