Correlatie is niet noodzakelijk gelijk aan oorzakelijk verband, maar het vinden van een correlatie tussen twee variabelen in een experiment is nog steeds een zeer belangrijke aanwijzing voor de relatie daartussen. Dat is de reden waarom tests voor correlatie een van de meest voorkomende soorten statistische tests zijn die in de wetenschap worden gebruikt, met als bekendste de correlatiecoëfficiënt van Pearson.
De determinatiecoëfficiënt is echter aantoonbaar belangrijker omdat deze aangeeft welk deel van de variatie in de ene variabele kan worden voorspeld op basis van de andere. Daarom is het belangrijk om de berekening van de determinatiecoëfficiënt te leren uitvoeren voor iedereen die met op correlatie gebaseerde statistieken werkt.
Wat is de bepalingscoëfficiënt?
Een basisdefinitie van determinatiecoëfficiënt is dat het het kwadraat is van de correlatiecoëfficiënt van Pearson, r, en daarom wordt het vaak R. genoemd2.
Pearson's coëfficiënt meet correlaties, waarbij een toename van de ene variabele ofwel gepaard gaat met een toename van een andere (een positieve correlatie) of een afname ervan (een negatieve correlatie). De waarde voor
r kan van alles zijn tussen -1 en +1, waarbij de grootte van het getal de sterkte van de correlatie aangeeft en het teken of het een positieve of een negatieve correlatie is.R2 is het kwadraat van deze maat, dus het varieert tussen 0 en 1, en het vertelt je het percentage van de variatie in één variabele dat kan worden voorspeld door de gecorreleerde variabele. Dit is handig voor veel dingen, met name het bouwen van wiskundige modellen voor voorspellende doeleinden.
Berekening van de bepalingscoëfficiënt
Het proces van het berekenen van de determinatiecoëfficiënt is daarom in principe hetzelfde als het proces van het berekenen van de correlatiecoëfficiënt van Pearson, behalve dat u het resultaat kwadrateert. De formule voor de correlatiecoëfficiënt van Pearson is:
r=\frac{n\som xy -\som x \som y }{\sqrt{(n\som x^2 -(\som x)^2)-(n\som y^2 -(\som y )^2)}}
Er zijn een aantal belangrijke stukjes informatie die je nodig hebt om deze (weliswaar eng ogende!) formule te verwerken: je X en ja waarden voor elke waarneming (d.w.z. uw twee variabelen), de som van uw X en ja waarden, de som van elk X variabele vermenigvuldigd met de corresponderende ja variabele, en de sommen van elk X en ja variabele kwadraat.
Een handige manier om dit uit te werken is om een spreadsheet programma zoals Microsoft Excel, met kolommen voor X, ja, xy, X2 en ja2 en sommen onderaan voor elke kolom. Je hebt ook een waarde nodig voor nee, de grootte van uw steekproef (die elk een X en een ja waarde).
Doorloop het proces dat wordt aangegeven door de formule. Neem eerst nee vermenigvuldigd met de som van jouw xy waarden, en trek dan de som van. af X waarden vermenigvuldigd met de som van ja waarden.
Deel dit hele resultaat door het onderste gedeelte: nee maal de som van de kwadraten van jouw X waarden, minus de som van X waarden in het kwadraat, allemaal vermenigvuldigd met het resultaat van hetzelfde voor jouw ja waarden, waarbij uiteindelijk de vierkantswortel wordt genomen voordat de deling wordt uitgevoerd. Dit geeft je r, die u eenvoudig kwadrateert om R. te verkrijgen2.
De bepalingscoëfficiënt interpreteren
De determinatiecoëfficiënt is een getal tussen 0 en 1, dat kan worden omgezet in een percentage door te vermenigvuldigen met 100. De interpretatie van de standaard determinatiecoëfficiënt is de hoeveelheid variatie in y die kan worden verklaard door X, met andere woorden, hoe goed de gegevens passen bij het regressiemodel dat u gebruikt, beschrijft het.
Het is echter belangrijk om rekening te houden met de gebruikelijke kanttekeningen in gegevens op basis van correlaties. Het is heel goed mogelijk dat twee variabelen gecorreleerd zijn zonder causaal gerelateerd te zijn.
Neem bijvoorbeeld de relatie tussen het gebruik van hoortoestellen en het aantal rimpels op je huid. Er is een sterke correlatie tussen de twee, maar beide worden natuurlijk echt veroorzaakt door ouderdom. Dit is niet zozeer een fout in de aanpak als wel een beperking waarmee je rekening moet houden om de resultaten correct te interpreteren.