Korrelasjon er ikke nødvendigvis lik årsakssammenheng, men å finne en sammenheng mellom to variabler i et eksperiment er fremdeles en veldig viktig ledetråd til forholdet mellom dem. Derfor er tester for korrelasjon en av de vanligste typene av statistisk test som brukes i vitenskap, med den mest kjente er Pearsons korrelasjonskoeffisient.
Imidlertid er bestemmelseskoeffisienten uten tvil viktigere fordi den forteller deg andelen av variasjonen i en variabel som kan forutsies ut fra den andre. Derfor er det viktig for alle som arbeider med korrelasjonsbasert statistikk å lære å utføre beregningskoeffisienten.
Hva er bestemmelseskoeffisienten?
En grunnleggende definisjon av bestemmelseskoeffisient er at den er kvadratet til Pearsons korrelasjonskoeffisient, r, og så kalles det ofte R2.
Pearsons koeffisient måler korrelasjoner, hvor en økning i en variabel enten følger med en økning i en annen (en positiv korrelasjon) eller en reduksjon i den (en negativ korrelasjon). Verdien for r kan være alt mellom −1 og +1, med størrelsen på tallet som forteller deg styrken på korrelasjonen og tegnet forteller deg om det er en positiv eller en negativ korrelasjon.
R2 er kvadratet til dette tiltaket, så det varierer mellom 0 og 1, og det forteller deg prosentandelen av variasjonen i en variabel som kan forutsies av den korrelerte variabelen. Dette er nyttig for mange ting, spesielt å bygge matematiske modeller for prediktive formål.
Beregningskoeffisient for bestemmelse
Prosessen med å beregne bestemmelseskoeffisienten er derfor i utgangspunktet den samme som beregningen av Pearsons korrelasjonskoeffisient, bortsett fra når du slutter kvadratet på resultatet. Formelen for Pearsons korrelasjonskoeffisient er:
r = \ frac {n \ sum xy - \ sum x \ sum y} {\ sqrt {(n \ sum x ^ 2 - (\ sum x) ^ 2) - (n \ sum y ^ 2 - (\ sum y ) ^ 2)}}
Det er noen viktige deler du trenger for å jobbe deg gjennom denne (riktignok skummel utseende!) Formelen: din x og y verdier for hver observasjon (dvs. dine to variabler), summen av din x og y verdier, summen av hver x variabel multiplisert med tilsvarende y variabel, og summen av hver x og y variabel kvadrat.
En praktisk måte å finne ut av dette er å bruke a regneark program som Microsoft Excel, med kolonner for x, y, xy, x2 og y2 og summer nederst for hver kolonne. Du trenger også en verdi for n, størrelsen på prøven din (som hver har en x og en y verdi).
Gjennomgå prosessen som er angitt av formelen. Først, ta n ganget med summen av din xy verdier, og trekk deretter summen av x verdier ganget med summen av y verdier.
Del hele resultatet med den nederste delen: n ganger summen av kvadratene dine x verdier, minus summen av x verdier i kvadrat, alle ganget med resultatet av det samme for deg y verdier, til slutt å ta kvadratroten før du utfører delingen. Dette gir deg r, som du bare kvadraterer for å få R2.
Tolke bestemmelseskoeffisienten
Bestemmelseskoeffisienten er et tall mellom 0 og 1, som kan konverteres til en prosentandel ved å multiplisere med 100. Standard-tolkningskoeffisienten er mengden variasjon i y som kan forklares med x, med andre ord, hvor godt dataene passer til regresjonsmodellen du bruker, beskriver det.
Det er imidlertid viktig å merke seg de vanlige advarslene som finnes i data basert på sammenhenger. Det er fullt mulig å korrelere to variabler uten å være årsakssammenhengende.
Ta for eksempel forholdet mellom bruk av høreapparater og antall rynker på huden din. Det er en sterk sammenheng mellom de to, men selvfølgelig er begge virkelig forårsaket av alderdom. Dette er ikke en feil med tilnærmingen så mye som en begrensning du må ta i betraktning for å tolke resultatene riktig.