Korelace nemusí nutně znamenat příčinu, ale nalezení korelace mezi dvěma proměnnými v experimentu je stále velmi důležitým vodítkem, pokud jde o vztah mezi nimi. Proto jsou testy korelace jedním z nejběžnějších typů statistických testů používaných ve vědě, přičemž nejznámější je Pearsonův korelační koeficient.
Koeficient determinace je však pravděpodobně důležitější, protože vám říká podíl variace v jedné proměnné, kterou lze předpovědět na základě druhé. Proto je pro každého, kdo pracuje se statistikami založenými na korelaci, důležité naučit se provádět výpočet koeficientu determinace.
Co je to koeficient stanovení?
Základní definice definičního koeficientu je, že je druhou mocninou Pearsonova korelačního koeficientu, r, a proto se často nazývá R.2.
Pearsonův koeficient měří korelace, kde zvýšení jedné proměnné buď doprovází zvýšení jiné (pozitivní korelace), nebo její snížení (negativní korelace). Hodnota pro r může být cokoli mezi −1 a +1, přičemž velikost čísla vám říká sílu korelace a znaménko vám řekne, zda se jedná o pozitivní nebo negativní korelaci.
R2 je čtverec této míry, takže se pohybuje mezi 0 a 1 a udává procento variace v jedné proměnné, které lze předpovědět korelovanou proměnnou. To je užitečné pro mnoho věcí, zejména pro vytváření matematických modelů pro prediktivní účely.
Výpočet koeficientu stanovení
Proces výpočtu koeficientu determinace je proto v zásadě stejný jako proces výpočtu Pearsonova korelačního koeficientu, s výjimkou toho, že výsledek umocníte na druhou. Vzorec pro Pearsonův korelační koeficient je:
r = \ frac {n \ součet xy - \ součet x \ součet y} {\ sqrt {(n \ součet x ^ 2 - (\ součet x) ^ 2) - (n \ součet y ^ 2 - (\ součet y ) ^ 2)}}
Existuje několik klíčových informací, se kterými se musíte prostřednictvím tohoto (jistě strašidelně vypadajícího) vzorce vypořádat: vaše X a y hodnoty pro každé pozorování (tj. vaše dvě proměnné), součet vašich X a y hodnoty, součet každého z nich X proměnná vynásobená odpovídajícím y proměnná a jejich součty X a y proměnná na druhou.
Pohodlným způsobem, jak to vyřešit, je použít a tabulkový kalkulátor program jako Microsoft Excel se sloupci pro X, y, xy, X2 a y2 a součty v dolní části každého sloupce. Budete také potřebovat hodnotu pro n, velikost vašeho vzorku (každý z nich má X a y hodnota).
Proveďte proces označený vzorcem. Nejprve si vezměte n vynásobený součtem vašich xy hodnoty a poté odečtěte součet X hodnoty vynásobené součtem y hodnoty.
Celý tento výsledek vydělte dolní částí: n krát součet čtverců vašeho X hodnoty, minus součet X hodnoty na druhou, všechny vynásobeny výsledkem stejné věci pro váš y hodnoty, nakonec vezměte druhou odmocninu před provedením dělení. To vám dává r, které jednoduše umocníte, abyste získali R2.
Interpretace koeficientu stanovení
Koeficient determinace je číslo mezi 0 a 1, které lze převést na procento vynásobením 100. Standardní koeficient interpretace determinace je velikost variace y, kterou lze vysvětlit Xjinými slovy, jak dobře to data odpovídají regresnímu modelu, který používáte, to popisují.
Je však důležité si uvědomit obvyklá upozornění obsažená v datech na základě korelací. Je zcela možné, aby dvě proměnné korelovaly, aniž by byly kauzálně příbuzné.
Vezměme si například vztah mezi používáním sluchadel a počtem vrásek na pokožce. Mezi nimi existuje silná korelace, ale obě jsou samozřejmě způsobeny stáří. Nejedná se o chybu v přístupu, spíše o omezení, které musíte vzít v úvahu, abyste správně interpretovali výsledky.