La correlazione non è necessariamente uguale alla causalità, ma trovare una correlazione tra due variabili in un esperimento è ancora un indizio molto importante sulla relazione tra loro. Ecco perché i test per la correlazione sono uno dei tipi più comuni di test statistici utilizzati nella scienza, il più noto è il coefficiente di correlazione di Pearson.
Tuttavia, il coefficiente di determinazione è probabilmente più importante perché ti dice la proporzione della variazione in una variabile che può essere prevista in base all'altra. Ecco perché imparare a eseguire il calcolo del coefficiente di determinazione è importante per chiunque lavori con statistiche basate sulla correlazione.
Qual è il coefficiente di determinazione?
Una definizione di base del coefficiente di determinazione è che è il quadrato del coefficiente di correlazione di Pearson, r, e quindi è spesso chiamato R2.
Coefficiente di Pearson misura le correlazioni, dove un aumento di una variabile accompagna un aumento di un'altra (correlazione positiva) o una diminuzione di essa (correlazione negativa). Il valore per
R2 è il quadrato di questa misura, quindi varia tra 0 e 1, e ti dice la percentuale della variazione in una variabile che può essere prevista dalla variabile correlata. Questo è utile per molte cose, in particolare la costruzione di modelli matematici per scopi predittivi.
Calcolo del coefficiente di determinazione
Il processo di calcolo del coefficiente di determinazione è quindi sostanzialmente lo stesso del processo di calcolo del coefficiente di correlazione di Pearson, tranne che alla fine si eleva al quadrato il risultato. La formula per il coefficiente di correlazione di Pearson è:
r=\frac{n\sum xy -\sum x \sum y }{\sqrt{(n\sum x^2 -(\sum x)^2)-(n\sum y^2 -(\sum y )^2)}}
Ci sono alcune informazioni chiave di cui hai bisogno per elaborare questa formula (certamente spaventosa!): il tuo X e sì valori per ogni osservazione (cioè le tue due variabili), la somma delle tue X e sì valori, la somma di ciascuno X variabile moltiplicata per il corrispondente sì variabile, e le somme di ciascuno X e sì quadrato variabile.
Un modo conveniente per risolvere questo problema è usare a foglio di calcolo programma come Microsoft Excel, con colonne per X, sì, xy, X2 e sì2 e somme in fondo per ogni colonna. Avrai anche bisogno di un valore per n, la dimensione del tuo campione (ognuno dei quali ha un X e un sì valore).
Eseguire il processo indicato dalla formula. Per prima cosa, prendi n moltiplicato per la somma dei tuoi xy valori, quindi sottrarre la somma di X valori moltiplicati per la somma di sì valori.
Dividi l'intero risultato per la sezione inferiore: n volte la somma dei quadrati dei tuoi X valori, meno la somma di X valori al quadrato, tutti moltiplicati per il risultato della stessa cosa per il tuo sì valori, prendendo infine la radice quadrata prima di eseguire la divisione. Questo ti dà r, che devi semplicemente elevare al quadrato per ottenere R2.
Interpretazione del coefficiente di determinazione
Il coefficiente di determinazione è un numero compreso tra 0 e 1, che può essere convertito in percentuale moltiplicando per 100. Il coefficiente standard di interpretazione della determinazione è la quantità di variazione in y che può essere spiegata da X, in altre parole, quanto bene i dati si adattano al modello di regressione che stai utilizzando descrivendolo.
Tuttavia, è importante notare i soliti avvertimenti presenti nei dati basati sulle correlazioni. È del tutto possibile che due variabili siano correlate senza essere causalmente correlate.
Prendiamo ad esempio la relazione tra l'uso degli apparecchi acustici e il numero di rughe sulla pelle. C'è una forte correlazione tra i due, ma ovviamente entrambi sono davvero causati dalla vecchiaia. Questo non è un difetto dell'approccio, quanto una limitazione che devi prendere in considerazione per interpretare correttamente i risultati.