Korelacja niekoniecznie oznacza związek przyczynowy, ale znalezienie korelacji między dwiema zmiennymi w eksperymencie jest nadal bardzo ważną wskazówką co do związku między nimi. Dlatego testy na korelację są jednym z najczęstszych rodzajów testów statystycznych stosowanych w nauce, a najbardziej znanym jest współczynnik korelacji Pearsona.
Jednak współczynnik determinacji jest prawdopodobnie ważniejszy, ponieważ mówi o proporcji zmienności jednej zmiennej, którą można przewidzieć na podstawie drugiej. Dlatego nauka wykonywania obliczeń współczynnika determinacji jest ważna dla każdego, kto pracuje ze statystykami opartymi na korelacji.
Jaki jest współczynnik determinacji?
Podstawowa definicja współczynnika determinacji jest taka, że jest to kwadrat współczynnika korelacji Pearsona, r, dlatego często nazywa się go R2.
Współczynnik Pearsona mierzy korelacje, gdzie wzrostowi jednej zmiennej towarzyszy albo wzrost innej (korelacja dodatnia), albo jej spadek (korelacja ujemna). Wartość dla r
może wynosić od -1 do +1, przy czym wielkość liczby mówi o sile korelacji, a znak mówi, czy jest to korelacja dodatnia, czy ujemna.R2 jest kwadratem tej miary, więc waha się od 0 do 1, i mówi procent zmienności jednej zmiennej, którą można przewidzieć za pomocą zmiennej skorelowanej. Jest to przydatne w wielu sytuacjach, w szczególności w budowaniu modeli matematycznych do celów predykcyjnych.
Obliczanie współczynnika determinacji
Proces obliczania współczynnika determinacji jest zatem zasadniczo taki sam, jak proces obliczania współczynnika korelacji Pearsona, z wyjątkiem tego, że na końcu wynik jest podnoszony do kwadratu. Wzór na współczynnik korelacji Pearsona to:
r=\frac{n\sum xy -\sum x \sum y }{\sqrt{(n\sum x^2 -(\sum x)^2)-(n\sum y^2 -(\sum y )^2)}}
Jest kilka kluczowych informacji, których potrzebujesz, aby przejść przez tę (co prawda przerażająco wyglądającą!) formułę: twoja x i tak wartości dla każdej obserwacji (tj. twoich dwóch zmiennych), suma twojego x i tak wartości, suma każdego x zmienna pomnożona przez odpowiedni tak zmienna i sumy każdej z nich x i tak zmienna do kwadratu.
Wygodnym sposobem na rozwiązanie tego jest użycie arkusz program typu Microsoft Excel, z kolumnami dla x, tak, xy, x2 i tak2 i sumy na dole dla każdej kolumny. Będziesz także potrzebować wartości nie, rozmiar próbki (z których każda ma x i tak wartość).
Przeprowadź proces wskazany przez formułę. Pierwsze podejście nie pomnożone przez sumę twojego xy wartości, a następnie odejmij sumę x wartości pomnożone przez sumę tak wartości.
Podziel ten cały wynik przez dolną sekcję: nie razy suma kwadratów twojego x wartości minus suma x wartości do kwadratu, wszystkie pomnożone przez wynik tego samego dla twojego tak wartości, w końcu wyciągając pierwiastek kwadratowy przed wykonaniem podziału. To daje r, które po prostu podwajasz, aby uzyskać R2.
Interpretacja współczynnika determinacji
Współczynnik determinacji to liczba z zakresu od 0 do 1, którą można przeliczyć na wartość procentową, mnożąc przez 100. Standardowy współczynnik interpretacji determinacji to wielkość zmienności w y, którą można wytłumaczyć x, innymi słowy, jak dobrze dane pasują do używanego modelu regresji, opisz je.
Jednak ważne jest, aby zwrócić uwagę na zwykłe zastrzeżenia obecne w danych opartych na korelacjach. Całkowicie możliwe jest, aby dwie zmienne były skorelowane bez związku przyczynowego.
Weźmy na przykład związek między używaniem aparatów słuchowych a liczbą zmarszczek na skórze. Istnieje silna korelacja między tymi dwoma, ale oczywiście obie są spowodowane starością. Nie jest to wada podejścia, ale ograniczenie, które musisz wziąć pod uwagę, aby poprawnie zinterpretować wyniki.