Quando un insieme di dati contiene due variabili che possono essere correlate, come l'altezza e il peso degli individui, l'analisi di regressione trova una funzione matematica che meglio approssima la relazione. La somma dei residui è una misura della qualità del lavoro svolto dalla funzione.
Nell'analisi di regressione, scegliamo una variabile come "variabile esplicativa", che chiameremo x, e l'altra come "variabile di risposta" che chiameremo y. L'analisi di regressione crea la funzione y = f (x) che meglio prevede la variabile di risposta dalla sua variabile esplicativa associata. Se x[i] è una delle variabili esplicative e y[i] la sua variabile di risposta, allora il residuo è l'errore, o differenza tra il valore effettivo di y[i] e il valore previsto di y[i]. In altre parole, residuo = y[i] - f (x[i]).
Un insieme di dati contiene le altezze in centimetri e i pesi in chilogrammi di 5 persone: [(152,54), (165,65), (175,100), (170,80), (140, 45)]. Un adattamento quadratico del peso, w, per l'altezza, h, è w = f (h) = 1160 -15,5_h + 0,054_h^2. I residui sono (in kg): [2.38, 7.65, 1.25, 5.60, 3.40]. La somma dei residui è di 15,5 kg.
Il tipo più semplice di regressione è la regressione lineare, in cui la funzione matematica è una retta della forma y = m*x + b. In questo caso, la somma dei residui è 0 per definizione.