A correlação não é necessariamente igual à causalidade, mas encontrar uma correlação entre duas variáveis em um experimento ainda é uma pista muito importante quanto à relação entre elas. É por isso que os testes de correlação são um dos tipos mais comuns de teste estatístico usados na ciência, sendo o mais conhecido o coeficiente de correlação de Pearson.
No entanto, o coeficiente de determinação é indiscutivelmente mais importante porque informa a proporção da variação em uma variável que pode ser prevista com base na outra. É por isso que aprender a realizar o cálculo do coeficiente de determinação é importante para qualquer pessoa que trabalhe com estatísticas baseadas em correlação.
Qual é o coeficiente de determinação?
Um coeficiente básico de definição de determinação é que é o quadrado do coeficiente de correlação de Pearson, r, e por isso é frequentemente chamado de R2.
Coeficiente de Pearson mede correlações, onde um aumento em uma variável acompanha um aumento em outra (uma correlação positiva) ou uma diminuição (uma correlação negativa). O valor para
r pode ser qualquer coisa entre -1 e +1, com a magnitude do número informando a força da correlação e o sinal informando se é uma correlação positiva ou negativa.R2 é o quadrado dessa medida, portanto, varia entre 0 e 1 e informa a porcentagem da variação em uma variável que pode ser prevista pela variável correlacionada. Isso é útil para muitas coisas, particularmente construir modelos matemáticos para fins preditivos.
Cálculo do coeficiente de determinação
O processo de cálculo do coeficiente de determinação é, portanto, basicamente o mesmo que o processo de cálculo do coeficiente de correlação de Pearson, exceto que no final você eleva o resultado ao quadrado. A fórmula para o coeficiente de correlação de Pearson é:
r = \ frac {n \ sum xy - \ sum x \ sum y} {\ sqrt {(n \ sum x ^ 2 - (\ sum x) ^ 2) - (n \ sum y ^ 2 - (\ sum y ) ^ 2)}}
Existem algumas informações importantes que você precisa para trabalhar com esta fórmula (reconhecidamente assustadora!): Seu x e y valores para cada observação (ou seja, suas duas variáveis), a soma de seus x e y valores, a soma de cada x variável multiplicada pelo correspondente y variável, e as somas de cada x e y variável ao quadrado.
Uma maneira conveniente de resolver isso é usar um planilha programa como o Microsoft Excel, com colunas para x, y, xy, x2 e y2 e somas na parte inferior de cada coluna. Você também precisará de um valor para n, o tamanho da sua amostra (cada um dos quais tem um x e um y valor).
Execute o processo indicado pela fórmula. Primeiro, pegue n multiplicado pela soma de seu xy valores e, em seguida, subtraia a soma de x valores multiplicados pela soma de y valores.
Divida todo este resultado pela seção inferior: n vezes a soma dos quadrados do seu x valores, menos a soma de x valores ao quadrado, todos multiplicados pelo resultado da mesma coisa para o seu y valores, finalmente obtendo a raiz quadrada antes de realizar a divisão. Isso dá a você r, que você simplesmente eleva ao quadrado para obter R2.
Interpretando o Coeficiente de Determinação
O coeficiente de determinação é um número entre 0 e 1, que pode ser convertido em uma porcentagem multiplicando por 100. O coeficiente padrão de interpretação de determinação é a quantidade de variação em y que pode ser explicada por x, em outras palavras, o quão bem os dados se ajustam ao modelo de regressão que você está usando, descreva-os.
No entanto, é importante observar as advertências usuais presentes nos dados com base em correlações. É inteiramente possível que duas variáveis sejam correlacionadas sem estar causalmente relacionadas.
Por exemplo, considere a relação entre o uso de aparelhos auditivos e o número de rugas em sua pele. Existe uma forte correlação entre os dois, mas é claro que ambos são realmente causados pela velhice. Isso não é uma falha da abordagem, mas uma limitação que você deve levar em consideração para interpretar os resultados corretamente.