Ketika satu set data berisi dua variabel yang mungkin berhubungan, seperti tinggi dan berat badan individu, analisis regresi menemukan fungsi matematika yang paling mendekati hubungan tersebut. Jumlah residual adalah ukuran seberapa baik pekerjaan yang dilakukan fungsi tersebut.
Dalam analisis regresi, kita memilih satu variabel untuk menjadi “variabel penjelas”, yang akan kita sebut x, dan variabel lainnya sebagai “variabel respons” yang akan kita sebut y. Analisis regresi menciptakan fungsi y = f (x) yang paling baik memprediksi variabel respon dari variabel penjelas yang terkait. Jika x[i] merupakan salah satu variabel penjelas, dan y[i] variabel responnya, maka residualnya adalah error, atau selisih antara nilai aktual y[i] dan nilai prediksi y[i]. Dengan kata lain, sisa = y[i] - f (x[i]).
Satu set data berisi tinggi dalam sentimeter dan berat dalam kilogram dari 5 orang: [(152,54), (165,65), (175,100), (170,80), (140, 45)]. Kecocokan kuadrat dari berat, w, untuk tinggi, h, adalah w = f (h) = 1160 -15.5_h + 0,054_h^2. Residunya adalah (dalam kg): [2,38, 7,65, 1,25, 5,60, 3,40]. Jumlah residu adalah 15,5 kg.
Jenis regresi yang paling sederhana adalah regresi linier, dimana fungsi matematikanya berupa garis lurus berbentuk y = m*x + b. Dalam hal ini, jumlah residu adalah 0 menurut definisi.