Как да изчислим коефициента на определяне

Корелацията не е задължително равна на причинно-следствена връзка, но намирането на корелация между две променливи в експеримента все още е много важна улика за връзката между тях. Ето защо тестовете за корелация са един от най-често срещаните видове статистически тестове, използвани в науката, като най-известният е коефициентът на корелация на Пиърсън.

Коефициентът на определяне обаче е безспорно по-важен, защото ви казва пропорцията на вариацията в едната променлива, която може да се предвиди въз основа на другата. Ето защо ученето за извършване на изчисляване на коефициента на детерминация е важно за всеки, който работи със статистика, базирана на корелация.

Какъв е коефициентът на определяне?

Основен коефициент на дефиниция е, че това е квадратът на коефициента на корелация на Пиърсън, r, и така често се нарича R2.

Коефициент на Пиърсън измерва корелациите, където увеличаването на една променлива или придружава увеличаване на друга (положителна корелация) или намаляване на нея (отрицателна корелация). Стойността за

r може да бъде всичко между -1 и +1, като величината на числото ви казва силата на корелацията, а знакът ви казва дали е положителна или отрицателна корелация.

R2 е квадратът на тази мярка, така че варира между 0 и 1 и ви казва процентът на вариацията в една променлива, която може да бъде предсказана от корелираната променлива. Това е полезно за много неща, особено за изграждане на математически модели за предсказуеми цели.

Коефициент на изчисляване на детерминацията

Следователно процесът на изчисляване на коефициента на детерминация е по същество същият като процеса на изчисляване на коефициента на корелация на Пиърсън, освен в края на квадратирането на резултата. Формулата за коефициента на корелация на Пиърсън е:

r = \ frac {n \ сума xy - \ сума x \ сума y} {\ sqrt {(n \ сума x ^ 2 - (\ сума x) ^ 2) - (n \ сума y ^ 2 - (\ сума y ) ^ 2)}}

Има няколко ключови информации, които са ви необходими, за да преодолеете тази (разбира се страшно изглеждаща!) Формула: your х и у стойности за всяко наблюдение (т.е. двете ви променливи), сумата от вашите х и у стойности, сумата на всяка х променлива, умножена по съответната у променлива и сумите на всеки х и у променлива на квадрат.

Удобен начин да се реши това е да се използва a електронна таблица програма като Microsoft Excel, с колони за х, у, xy, х2 и у2 и суми в долната част за всяка колона. Ще ви трябва и стойност за н, размера на вашата извадка (всяка от които има х и а у стойност).

Изпълнете процеса, посочен от формулата. Първо, вземете н умножен по сумата от вашия xy стойности и след това извадете сумата от х стойности, умножени по сумата от у стойности.

Разделете целия този резултат на долния раздел: н умножена по сумата на квадратите на вашия х стойности, минус сумата от х стойности на квадрат, всички умножени по резултата от едно и също нещо за вашите у стойности, като накрая взема квадратния корен преди да извърши разделянето. Това ви дава r, което просто квадрат, за да получите R2.

Тълкуване на коефициента на детерминация

Коефициентът на определяне е число между 0 и 1, което може да бъде преобразувано в процент, умножено по 100. Стандартният коефициент на интерпретация на детерминацията е размерът на вариацията на y, който може да се обясни с х, с други думи, колко добре данните отговарят на модела на регресия, който използвате, го опишете.

Важно е обаче да се отбележат обичайните предупреждения, налични в данните въз основа на корелации. Напълно възможно е две променливи да бъдат корелирани, без да са причинно-следствени.

Например, вземете връзката между използването на слухови апарати и броя на бръчките по кожата си. Има силна връзка между двете, но разбира се и двете наистина са причинени от старостта. Това не е недостатък на подхода, толкова ограничение, което трябва да вземете предвид, за да интерпретирате резултатите правилно.

  • Дял
instagram viewer