Cuando un conjunto de datos contiene dos variables que pueden estar relacionadas, como la altura y el peso de los individuos, el análisis de regresión encuentra una función matemática que se aproxima mejor a la relación. La suma de los residuos es una medida de qué tan bien hace el trabajo la función.
En el análisis de regresión, elegimos una variable para que sea la "variable explicativa", a la que llamaremos x, y la otra para que sea la "variable de respuesta", a la que llamaremos y. El análisis de regresión crea la función y = f (x) que mejor predice la variable de respuesta a partir de su variable explicativa asociada. Si x [i] es una de las variables explicativas e y [i] su variable de respuesta, entonces el residual es el error, o la diferencia entre el valor real de y [i] y el valor predicho de y [i]. En otras palabras, residual = y [i] - f (x [i]).
Un conjunto de datos contiene las alturas en centímetros y los pesos en kilogramos de 5 personas: [(152,54), (165,65), (175,100), (170,80), (140, 45)]. Un ajuste cuadrático de peso, w, para la altura, h, es w = f (h) = 1160 -15.5_h + 0.054_h ^ 2. Los residuos son (en kg): [2,38, 7,65, 1,25, 5,60, 3,40]. La suma de los residuos es 15,5 kg.
El tipo de regresión más simple es la regresión lineal, en la que la función matemática es una línea recta de la forma y = m * x + b. En este caso, la suma de los residuos es 0 por definición.