Quando um conjunto de dados contém duas variáveis que podem se relacionar, como alturas e pesos dos indivíduos, a análise de regressão encontra uma função matemática que melhor se aproxima da relação. A soma dos resíduos é uma medida de quão bom é o trabalho da função.
Na análise de regressão, escolhemos uma variável para ser a “variável explicativa”, que chamaremos de x, e a outra para ser a “variável de resposta” que chamaremos de y. A análise de regressão cria a função y = f (x) que melhor prediz a variável de resposta a partir de sua variável explicativa associada. Se x [i] é uma das variáveis explicativas ey [i] sua variável de resposta, então o resíduo é o erro, ou diferença entre o valor real de y [i] e o valor previsto de y [i]. Em outras palavras, residual = y [i] - f (x [i]).
Um conjunto de dados contém as alturas em centímetros e os pesos em quilogramas de 5 pessoas: [(152,54), (165,65), (175,100), (170,80), (140, 45)]. Um ajuste quadrático de peso, w, para altura, h, é w = f (h) = 1160 -15,5_h + 0,054_h ^ 2. Os resíduos são (em kg): [2,38, 7,65, 1,25, 5,60, 3,40]. A soma dos resíduos é 15,5 kg.
O tipo mais simples de regressão é a regressão linear, na qual a função matemática é uma linha reta da forma y = m * x + b. Nesse caso, a soma dos resíduos é 0 por definição.