Підходячи пряму лінію до набору даних, вам може бути цікаво визначити, наскільки отримана лінія відповідає даним. Один із способів зробити це - обчислити суму квадратів помилка (SSE). Це значення забезпечує показник того, наскільки рядок, що найкраще підходить, наближається до набору даних. SSE є важливим для аналізу експериментальних даних і визначається лише кількома короткими кроками.
Знайдіть рядок, який найкраще підходить для моделювання даних за допомогою регресії. Лінія, що найкраще підходить, має вигляд y = ax + b, де a і b - параметри, які потрібно визначити. Ви можете знайти ці параметри за допомогою простого лінійного регресійного аналізу. Наприклад, припустимо, що лінія, що найкраще підходить, має вигляд y = 0,8x + 7.
За допомогою рівняння визначте значення кожного значення y, передбаченого рядком, що найкраще підходить. Це можна зробити, підставивши кожне значення x у рівняння прямої. Наприклад, якщо x дорівнює 1, підставляючи це до рівняння y = 0,8x + 7, вийде 7,8 для значення y.
Визначте середнє значення величин, передбачених із рядка рівняння, що найкраще підходить. Це можна зробити, підсумувавши всі значення y, передбачені з рівнянь, і розділивши отримане число на кількість значень. Наприклад, якщо значення 7,8, 8,6 та 9,4, підсумовування цих значень дає 25,8, а ділення цього числа на кількість значень, 3 у цьому випадку, дає 8,6.
Відніміть кожне з окремих значень із середнього та отримане число обчисліть квадратом. У нашому прикладі, якщо відняти значення 7,8 із середнього значення 8,6, результуюче число дорівнює 0,8. Квадрат цього значення дає 0,64.
Підсумуйте всі квадратичні значення з кроку 4. Якщо застосувати інструкції на кроці 4 до всіх трьох значень у нашому прикладі, ви знайдете значення 0,64, 0 та 0,64. Підсумовуючи ці значення, вийде 1,28. Це сума похибки квадратів.