La régression linéaire est une méthode statistique pour examiner la relation entre une variable dépendante, notée oui, et une ou plusieurs variables indépendantes, notées X. La variable dépendante doit être continue, en ce sens qu'elle peut prendre n'importe quelle valeur, ou au moins proche de continue. Les variables indépendantes peuvent être de n'importe quel type. Bien que la régression linéaire ne puisse pas montrer la causalité par elle-même, la variable dépendante est généralement affectée par les variables indépendantes.
La régression linéaire est limitée aux relations linéaires
De par sa nature, la régression linéaire examine uniquement les relations linéaires entre les variables dépendantes et indépendantes. C'est-à-dire qu'il suppose qu'il existe une relation linéaire entre eux. Parfois, c'est incorrect. Par exemple, la relation entre le revenu et l'âge est courbe, c'est-à-dire que le revenu a tendance à augmenter au début de l'âge adulte, à s'aplatir plus tard à l'âge adulte et à diminuer après la retraite. Vous pouvez savoir s'il s'agit d'un problème en examinant les représentations graphiques des relations.
La régression linéaire ne regarde que la moyenne de la variable dépendante
La régression linéaire examine une relation entre la moyenne de la variable dépendante et les variables indépendantes. Par exemple, si vous examinez la relation entre le poids à la naissance des nourrissons et le poids maternel caractéristiques telles que l'âge, la régression linéaire examinera le poids moyen des bébés nés de mères de âges différents. Cependant, vous devez parfois regarder les extrêmes de la variable dépendante, par exemple, les bébés sont à risque lorsque leur poids est faible, vous voudriez donc regarder les extrêmes dans cet exemple.
Tout comme la moyenne n'est pas une description complète d'une seule variable, la régression linéaire n'est pas une description complète des relations entre les variables. Vous pouvez résoudre ce problème en utilisant la régression quantile.
La régression linéaire est sensible aux valeurs aberrantes
Les valeurs aberrantes sont des données surprenantes. Les valeurs aberrantes peuvent être univariées (basées sur une variable) ou multivariées. Si vous examinez l'âge et le revenu, les valeurs aberrantes univariées seraient des choses comme une personne de 118 ans ou une personne qui a gagné 12 millions de dollars l'année dernière. Une valeur aberrante multivariée serait un jeune de 18 ans qui a gagné 200 000 $. Dans ce cas, ni l'âge ni le revenu ne sont très extrêmes, mais très peu de jeunes de 18 ans gagnent autant d'argent.
Les valeurs aberrantes peuvent avoir des effets énormes sur la régression. Vous pouvez régler ce problème en demandant des statistiques d'influence à votre logiciel de statistiques.
Les données doivent être indépendantes
La régression linéaire suppose que les données sont indépendantes. Cela signifie que les scores d'un sujet (comme une personne) n'ont rien à voir avec ceux d'un autre. C'est souvent, mais pas toujours, raisonnable. Deux cas courants où cela n'a pas de sens sont le regroupement dans l'espace et le temps.
Un exemple classique de regroupement dans l'espace est celui des résultats des tests des élèves, lorsque vous avez des élèves de différentes classes, classes, écoles et districts scolaires. Les élèves d'une même classe ont tendance à se ressembler à bien des égards, c'est-à-dire qu'ils viennent souvent des mêmes quartiers, qu'ils ont les mêmes professeurs, etc. Ainsi, ils ne sont pas indépendants.
Des exemples de regroupement dans le temps sont des études où vous mesurez les mêmes sujets plusieurs fois. Par exemple, dans une étude sur l'alimentation et le poids, vous pouvez mesurer chaque personne plusieurs fois. Ces données ne sont pas indépendantes car ce qu'une personne pèse à une occasion est lié à ce qu'elle pèse à d'autres occasions. Une façon de résoudre ce problème consiste à utiliser des modèles à plusieurs niveaux.