Korrelation är inte nödvändigtvis lika kausal, men att hitta en korrelation mellan två variabler i ett experiment är fortfarande en mycket viktig ledtråd om förhållandet mellan dem. Därför är test för korrelation en av de vanligaste typerna av statistiska test som används i vetenskap, med den mest kända är Pearson's korrelationskoefficient.
Men bestämningskoefficienten är utan tvekan viktigare eftersom den berättar hur stor andel av variationen i en variabel som kan förutsägas baserat på den andra. Därför är det viktigt att lära sig att utföra beräkningskoefficienten för bestämningskoefficienten för alla som arbetar med korrelationsbaserad statistik.
Vad är bestämningskoefficienten?
En grundläggande definitionskoefficient för bestämning är att det är kvadraten för Pearsons korrelationskoefficient, r, och så kallas det ofta R2.
Pearsons koefficient mäter korrelationer, där en ökning av en variabel antingen åtföljer en ökning av en annan (en positiv korrelation) eller en minskning av den (en negativ korrelation). Värdet för
r kan vara allt mellan −1 och +1, med storleken på talet som berättar styrkan för korrelationen och tecknet berättar om det är en positiv eller en negativ korrelation.R2 är kvadraten för detta mått, så det varierar mellan 0 och 1, och det berättar procentandelen av variationen i en variabel som kan förutsägas av den korrelerade variabeln. Detta är användbart för många saker, särskilt att bygga matematiska modeller för prediktiva ändamål.
Beräkningskoefficient för bestämning
Processen med att beräkna bestämningskoefficienten är därför i princip densamma som processen för att beräkna Pearsons korrelationskoefficient, förutom i slutet du kvadrerar resultatet. Formeln för Pearsons korrelationskoefficient är:
r = \ frac {n \ sum xy - \ sum x \ sum y} {\ sqrt {(n \ sum x ^ 2 - (\ sum x) ^ 2) - (n \ sum y ^ 2 - (\ sum y ) ^ 2)}}
Det finns några viktiga uppgifter du behöver för att arbeta igenom denna (visserligen skrämmande utseende!) Formel: din x och y värden för varje observation (dvs. dina två variabler), summan av din x och y värden, summan av varje x variabel multiplicerad med motsvarande y variabler och summan av var och en x och y variabel kvadrat.
Ett bekvämt sätt att lösa detta är att använda en kalkylblad program som Microsoft Excel, med kolumner för x, y, xy, x2 och y2 och summor längst ner för varje kolumn. Du behöver också ett värde för n, storleken på ditt prov (var och en har en x och a y värde).
Kör igenom processen som anges av formeln. Ta först n multiplicerat med summan av din xy och sedan subtrahera summan av x värden multiplicerat med summan av y värden.
Dela hela resultatet med det nedre avsnittet: n gånger summan av rutorna på din x värden minus summan av x värden i kvadrat, alla multiplicerade med resultatet av samma sak för din y värden, slutligen ta kvadratroten innan uppdelningen utförs. Detta ger dig r, som du helt enkelt kvadrerar för att få R2.
Tolkning av bestämningskoefficienten
Bestämningskoefficienten är ett tal mellan 0 och 1, som kan omvandlas till en procentsats genom att multiplicera med 100. Standardtolkningskoefficienten för bestämningstolkning är mängden variation i y som kan förklaras med x, med andra ord, hur väl informationen passar den regressionsmodell du använder beskriver den.
Det är dock viktigt att notera de vanliga förbehållen som finns i data baserat på korrelationer. Det är fullt möjligt att två variabler kan korreleras utan att vara kausalt relaterade.
Ta till exempel förhållandet mellan användning av hörapparater och antalet rynkor på huden. Det finns en stark korrelation mellan de två men naturligtvis orsakas båda verkligen av ålderdom. Detta är inte ett fel med tillvägagångssättet så mycket som en begränsning du måste ta hänsyn till för att tolka resultaten korrekt.