Кореляція не обов'язково дорівнює причинно-наслідковій зв'язці, але пошук кореляції між двома змінними в експерименті все ще є дуже важливою підказкою щодо зв'язку між ними. Ось чому тести на кореляцію є одним із найпоширеніших видів статистичних тестів, що використовуються в науці, причому найбільш відомим є коефіцієнт кореляції Пірсона.
Однак коефіцієнт детермінації є, мабуть, важливішим, оскільки він повідомляє вам про частку варіації однієї змінної, яку можна передбачити на основі іншої. Ось чому навчання виконанню коефіцієнта детермінації є важливим для тих, хто працює зі статистикою на основі кореляції.
Що таке коефіцієнт детермінації?
Основним коефіцієнтом детермінації є те, що це квадрат коефіцієнта кореляції Пірсона, р, і тому його часто називають R2.
Коефіцієнт Пірсона вимірює кореляції, де збільшення однієї змінної або супроводжує збільшення іншої (позитивна кореляція), або зменшення її (негативна кореляція). Значення для р може бути чим завгодно між −1 і +1, при цьому величина числа говорить вам про силу кореляції, а знак - про позитивну чи негативну кореляцію.
Р2 є квадратом цієї міри, тому вона коливається від 0 до 1, і вона повідомляє вам відсоток варіації в одній змінній, яку можна передбачити за допомогою корельованої змінної. Це корисно для багатьох речей, особливо для побудови математичних моделей для прогнозних цілей.
Коефіцієнт детермінації Розрахунок
Таким чином, процес обчислення коефіцієнта детермінації в основному такий самий, як і процес розрахунку коефіцієнта кореляції Пірсона, за винятком того, що в кінці ви вираховуєте результат. Формула коефіцієнта кореляції Пірсона є:
r = \ frac {n \ sum xy - \ sum x \ sum y} {\ sqrt {(n \ sum x ^ 2 - (\ sum x) ^ 2) - (n \ sum y ^ 2 - (\ sum y ) ^ 2)}}
Є кілька ключових відомостей, які вам потрібні, щоб пропрацювати цю (правда, страшно виглядає!) Формулу: ваша х і р значення для кожного спостереження (тобто ваших двох змінних), сума ваших х і р значення, сума кожного х змінна, помножена на відповідну р змінної та суми кожного х і р змінна в квадраті.
Зручний спосіб вирішити це - використовувати a електронна таблиця програма, як Microsoft Excel, зі стовпцями для х, р, xy, х2 і р2 і суми внизу для кожної колонки. Вам також знадобиться значення для п, розмір вибірки (кожна з яких має х і a р значення).
Пройдіть процес, зазначений формулою. По-перше, візьміть п помножене на суму вашого xy значень, а потім відніміть суму х значення, помножені на суму р значення.
Поділіть весь цей результат на нижній розділ: п помножена на суму квадратів вашого х значення, мінус сума х значення в квадраті, всі помножені на результат одного і того ж для вашого р значення, остаточно взявши квадратний корінь перед виконанням ділення. Це дає вам р, який ви просто квадрат, щоб отримати R2.
Інтерпретація коефіцієнта детермінації
Коефіцієнт детермінації - це число від 0 до 1, яке можна перетворити у відсоток, помноживши на 100. Стандартний коефіцієнт інтерпретації детермінації - це величина варіації у, яку можна пояснити х, іншими словами, наскільки дані відповідають моделі регресії, яку ви використовуєте, опишіть їх.
Однак важливо відзначити звичайні застереження, наявні в даних на основі кореляцій. Цілком можливо, що дві змінні мають кореляцію без причинно-наслідкових зв’язків.
Для прикладу візьмемо взаємозв'язок між використанням слухових апаратів і кількістю зморшок на шкірі. Існує сильна кореляція між ними, але, звичайно, обидва вони справді спричинені старістю. Це не є вадою підходу настільки, наскільки обмеження, яке потрібно враховувати, щоб правильно інтерпретувати результати.