Корреляция не обязательно равняется причинно-следственной связи, но обнаружение корреляции между двумя переменными в эксперименте по-прежнему является очень важным ключом к пониманию взаимосвязи между ними. Вот почему тесты на корреляцию являются одним из наиболее распространенных типов статистических тестов, используемых в науке, наиболее известным из которых является коэффициент корреляции Пирсона.
Однако коэффициент детерминации, возможно, более важен, потому что он показывает долю вариации одной переменной, которую можно предсказать на основе другой. Вот почему обучение вычислению коэффициента детерминации важно для любого, кто работает со статистикой на основе корреляции.
Что такое коэффициент детерминации?
Базовое определение коэффициента детерминации состоит в том, что это квадрат коэффициента корреляции Пирсона, р, поэтому его часто называют R2.
Коэффициент Пирсона измеряет корреляции, где увеличение одной переменной либо сопровождает увеличение другой (положительная корреляция), либо ее уменьшение (отрицательная корреляция). Значение для
р может быть любым в диапазоне от -1 до +1, причем величина числа указывает на силу корреляции, а знак указывает, является ли это положительной или отрицательной корреляцией.р2 - это квадрат этой меры, поэтому он варьируется от 0 до 1, и он сообщает вам процент вариации одной переменной, которую можно предсказать с помощью коррелированной переменной. Это полезно для многих вещей, особенно для построения математических моделей для целей прогнозирования.
Расчет коэффициента детерминации
Поэтому процесс вычисления коэффициента детерминации в основном такой же, как и процесс вычисления коэффициента корреляции Пирсона, за исключением того, что в конце вы возводите результат в квадрат. Формула коэффициента корреляции Пирсона:
r = \ frac {n \ sum xy - \ sum x \ sum y} {\ sqrt {(n \ sum x ^ 2 - (\ sum x) ^ 2) - (n \ sum y ^ 2 - (\ sum y ) ^ 2)}}
Чтобы проработать эту (правда, пугающую!) Формулу, вам нужно знать несколько ключевых моментов: ваш Икс а также у значений для каждого наблюдения (т.е. ваших двух переменных), сумма ваших Икс а также у значения, сумма каждого Икс переменная, умноженная на соответствующую у переменной, а суммы каждого Икс а также у переменная в квадрате.
Удобный способ решить эту проблему - использовать электронная таблица программа, такая как Microsoft Excel, с столбцами для Икс, у, ху, Икс2 а также у2 и суммы внизу для каждого столбца. Вам также понадобится значение для п, размер вашей выборки (каждая из которых имеет Икс и у значение).
Выполните процесс, указанный в формуле. Сначала возьмите п умноженное на сумму ваших ху значений, а затем вычтите сумму Икс значения, умноженные на сумму у значения.
Разделите весь результат на нижнюю часть: п умножить на сумму квадратов вашего Икс значений, за вычетом суммы Икс значения в квадрате, все умноженные на результат того же самого для вашего у значения, наконец, извлечение квадратного корня перед выполнением деления. Это дает вам р, который вы просто возведете в квадрат, чтобы получить R2.
Интерпретация коэффициента детерминации
Коэффициент детерминации - это число от 0 до 1, которое можно преобразовать в процент, умножив на 100. Стандартная интерпретация коэффициента детерминации - это величина вариации y, которая может быть объяснена следующим образом: Иксдругими словами, насколько хорошо данные соответствуют модели регрессии, которую вы используете, опишите их.
Однако важно отметить обычные предостережения, содержащиеся в данных, основанных на корреляциях. Вполне возможно, что две переменные коррелируют без причинной связи.
Например, возьмите взаимосвязь между использованием слуховых аппаратов и количеством морщин на вашей коже. Между ними существует сильная корреляция, но, конечно, оба действительно вызваны старостью. Это не столько недостаток подхода, сколько ограничение, которое вы должны принять во внимание, чтобы правильно интерпретировать результаты.