Коли набір даних містить дві змінні, які можуть співвідноситись, такі як висота та вага людей, регресійний аналіз знаходить математичну функцію, яка найкраще наближує взаємозв'язок. Сума залишків - це показник того, наскільки хорошу роботу виконує функція.
В регресійному аналізі ми вибираємо одну змінну, яка буде «пояснювальною змінною», яку ми будемо називати x, а іншу - «змінною відповіді», яку ми будемо називати y. Регресійний аналіз створює функцію y = f (x), яка найкраще передбачає змінну відповіді з пов'язаної з нею пояснювальної змінної. Якщо x [i] - одна із пояснювальних змінних, а y [i] - її змінна відповіді, то залишок - це помилка або різниця між фактичним значенням y [i] та передбачуваним значенням y [i]. Іншими словами, залишковий = y [i] - f (x [i]).
Набір даних містить висоту в сантиметрах і вагу в кілограмах 5 людей: [(152,54), (165,65), (175,100), (170,80), (140, 45)]. Квадратичне прилягання ваги, w, для висоти, h, дорівнює w = f (h) = 1160 -15,5_h + 0,054_h ^ 2. Залишки складають (у кг): [2,38, 7,65, 1,25, 5,60, 3,40]. Сума залишків - 15,5 кг.
Найпростішим видом регресії є лінійна регресія, при якій математичною функцією є пряма лінія виду y = m * x + b. У цьому випадку сума залишків дорівнює 0 за визначенням.