Lorsqu'un ensemble de données contient deux variables pouvant être liées, telles que la taille et le poids des individus, l'analyse de régression trouve une fonction mathématique qui se rapproche le mieux de la relation. La somme des résidus est une mesure de la qualité du travail de la fonction.
Dans l'analyse de régression, nous choisissons une variable pour être la « variable explicative », que nous appellerons x, et l'autre pour être la « variable de réponse » que nous appellerons y. L'analyse de régression crée la fonction y = f (x) qui prédit le mieux la variable de réponse à partir de sa variable explicative associée. Si x[i] est l'une des variables explicatives et y[i] sa variable de réponse, alors le résidu est l'erreur ou la différence entre la valeur réelle de y[i] et la valeur prédite de y[i]. En d'autres termes, résiduel = y[i] - f (x[i]).
Un ensemble de données contient les tailles en centimètres et les poids en kilogrammes de 5 personnes: [(152,54), (165,65), (175,100), (170,80), (140, 45)]. Un ajustement quadratique du poids, w, pour la taille, h, est w = f (h) = 1160 -15,5_h + 0,054_h^2. Les résidus sont (en kg): [2,38, 7,65, 1,25, 5,60, 3,40]. La somme des résidus est de 15,5 kg.
Le type de régression le plus simple est la régression linéaire, dans laquelle la fonction mathématique est une ligne droite de la forme y = m*x + b. Dans ce cas, la somme des résidus est 0 par définition.