Корелацията не е задължително равна на причинно-следствена връзка, но намирането на корелация между две променливи в експеримента все още е много важна улика за връзката между тях. Ето защо тестовете за корелация са един от най-често срещаните видове статистически тестове, използвани в науката, като най-известният е коефициентът на корелация на Пиърсън.
Коефициентът на определяне обаче е безспорно по-важен, защото ви казва пропорцията на вариацията в едната променлива, която може да се предвиди въз основа на другата. Ето защо ученето за извършване на изчисляване на коефициента на детерминация е важно за всеки, който работи със статистика, базирана на корелация.
Какъв е коефициентът на определяне?
Основен коефициент на дефиниция е, че това е квадратът на коефициента на корелация на Пиърсън, r, и така често се нарича R2.
Коефициент на Пиърсън измерва корелациите, където увеличаването на една променлива или придружава увеличаване на друга (положителна корелация) или намаляване на нея (отрицателна корелация). Стойността за
R2 е квадратът на тази мярка, така че варира между 0 и 1 и ви казва процентът на вариацията в една променлива, която може да бъде предсказана от корелираната променлива. Това е полезно за много неща, особено за изграждане на математически модели за предсказуеми цели.
Коефициент на изчисляване на детерминацията
Следователно процесът на изчисляване на коефициента на детерминация е по същество същият като процеса на изчисляване на коефициента на корелация на Пиърсън, освен в края на квадратирането на резултата. Формулата за коефициента на корелация на Пиърсън е:
r = \ frac {n \ сума xy - \ сума x \ сума y} {\ sqrt {(n \ сума x ^ 2 - (\ сума x) ^ 2) - (n \ сума y ^ 2 - (\ сума y ) ^ 2)}}
Има няколко ключови информации, които са ви необходими, за да преодолеете тази (разбира се страшно изглеждаща!) Формула: your х и у стойности за всяко наблюдение (т.е. двете ви променливи), сумата от вашите х и у стойности, сумата на всяка х променлива, умножена по съответната у променлива и сумите на всеки х и у променлива на квадрат.
Удобен начин да се реши това е да се използва a електронна таблица програма като Microsoft Excel, с колони за х, у, xy, х2 и у2 и суми в долната част за всяка колона. Ще ви трябва и стойност за н, размера на вашата извадка (всяка от които има х и а у стойност).
Изпълнете процеса, посочен от формулата. Първо, вземете н умножен по сумата от вашия xy стойности и след това извадете сумата от х стойности, умножени по сумата от у стойности.
Разделете целия този резултат на долния раздел: н умножена по сумата на квадратите на вашия х стойности, минус сумата от х стойности на квадрат, всички умножени по резултата от едно и също нещо за вашите у стойности, като накрая взема квадратния корен преди да извърши разделянето. Това ви дава r, което просто квадрат, за да получите R2.
Тълкуване на коефициента на детерминация
Коефициентът на определяне е число между 0 и 1, което може да бъде преобразувано в процент, умножено по 100. Стандартният коефициент на интерпретация на детерминацията е размерът на вариацията на y, който може да се обясни с х, с други думи, колко добре данните отговарят на модела на регресия, който използвате, го опишете.
Важно е обаче да се отбележат обичайните предупреждения, налични в данните въз основа на корелации. Напълно възможно е две променливи да бъдат корелирани, без да са причинно-следствени.
Например, вземете връзката между използването на слухови апарати и броя на бръчките по кожата си. Има силна връзка между двете, но разбира се и двете наистина са причинени от старостта. Това не е недостатък на подхода, толкова ограничение, което трябва да вземете предвид, за да интерпретирате резултатите правилно.