Når et datasæt indeholder to variabler, der kan relateres, såsom individers højder og vægte, finder regressionsanalyse en matematisk funktion, der bedst tilnærmer forholdet. Summen af rester er et mål for, hvor godt et job funktionen udfører.
I regressionsanalyse vælger vi en variabel til at være den "forklarende variabel", som vi kalder x, og den anden til at være den "responsvariabel", som vi vil kalde y. Regressionsanalyse skaber den funktion y = f (x), der bedst forudsiger responsvariablen fra dens tilknyttede forklaringsvariabel. Hvis x [i] er en af de forklarende variabler, og y [i] dens responsvariabel, så er den resterende fejl eller forskellen mellem den aktuelle værdi af y [i] og den forudsagte værdi af y [i]. Med andre ord, rest = y [i] - f (x [i]).
Et datasæt indeholder højderne i centimeter og vægte i kg på 5 personer: [(152,54), (165,65), (175,100), (170,80), (140, 45)]. En kvadratisk tilpasning af vægten, w, for højden, h, er w = f (h) = 1160-15,5_h + 0,054_h ^ 2. Resterne er (i kg): [2,38, 7,65, 1,25, 5,60, 3,40]. Summen af rester er 15,5 kg.
Den enkleste form for regression er lineær regression, hvor den matematiske funktion er en lige linje af formen y = m * x + b. I dette tilfælde er summen af rester pr. Definition 0.