Cómo calcular el coeficiente de determinación

La correlación no es necesariamente igual a la causalidad, pero encontrar una correlación entre dos variables en un experimento sigue siendo una pista muy importante sobre la relación entre ellas. Es por eso que las pruebas de correlación son uno de los tipos más comunes de pruebas estadísticas utilizadas en la ciencia, siendo el más conocido el coeficiente de correlación de Pearson.

Sin embargo, el coeficiente de determinación es posiblemente más importante porque le dice la proporción de la variación en una variable que se puede predecir en función de la otra. Es por eso que aprender a realizar el cálculo del coeficiente de determinación es importante para cualquiera que trabaje con estadísticas basadas en correlación.

¿Cuál es el coeficiente de determinación?

Un coeficiente básico de definición de determinación es que es el cuadrado del coeficiente de correlación de Pearson, r, por lo que a menudo se llama R2.

Coeficiente de Pearson mide las correlaciones, donde un aumento en una variable acompaña a un aumento en otra (una correlación positiva) o una disminución en ella (una correlación negativa). El valor de

instagram story viewer
r puede ser cualquier valor entre -1 y +1, con la magnitud del número indicando la fuerza de la correlación y el signo indicando si es una correlación positiva o negativa.

R2 es el cuadrado de esta medida, por lo que varía entre 0 y 1, y le indica el porcentaje de variación en una variable que puede predecirse mediante la variable correlacionada. Esto es útil para muchas cosas, en particular para la creación de modelos matemáticos con fines predictivos.

Cálculo del coeficiente de determinación

Por lo tanto, el proceso de cálculo del coeficiente de determinación es básicamente el mismo que el proceso de cálculo del coeficiente de correlación de Pearson, excepto que al final se eleva al cuadrado el resultado. La fórmula del coeficiente de correlación de Pearson es:

r = \ frac {n \ sum xy - \ sum x \ sum y} {\ sqrt {(n \ sum x ^ 2 - (\ sum x) ^ 2) - (n \ sum y ^ 2 - (\ sum y ) ^ 2)}}

Hay algunos datos clave que necesita para trabajar a través de esta fórmula (¡ciertamente que parece aterradora!): Su X y y valores para cada observación (es decir, sus dos variables), la suma de sus X y y valores, la suma de cada X variable multiplicada por la correspondiente y variable, y las sumas de cada X y y variable al cuadrado.

Una forma conveniente de resolver esto es utilizar un hoja de cálculo programa como Microsoft Excel, con columnas para X, y, xy, X2 y y2 y sumas en la parte inferior de cada columna. También necesitará un valor para norte, el tamaño de su muestra (cada uno de los cuales tiene un X y un y valor).

Ejecute el proceso indicado por la fórmula. Primer toma norte multiplicado por la suma de tu xy valores y luego restar la suma de X valores multiplicados por la suma de y valores.

Divida todo este resultado por la sección inferior: norte multiplicado por la suma de los cuadrados de tu X valores, menos la suma de X valores al cuadrado, todos multiplicados por el resultado de lo mismo para su y valores, finalmente sacando la raíz cuadrada antes de realizar la división. Esto te da r, que simplemente eleva al cuadrado para obtener R2.

Interpretación del coeficiente de determinación

El coeficiente de determinación es un número entre 0 y 1, que se puede convertir a un porcentaje multiplicando por 100. El coeficiente estándar de interpretación de la determinación es la cantidad de variación en y que se puede explicar por X, en otras palabras, qué tan bien se ajustan los datos al modelo de regresión que está utilizando, descríbalo.

Sin embargo, es importante tener en cuenta las advertencias habituales presentes en los datos basados ​​en correlaciones. Es completamente posible que dos variables estén correlacionadas sin estar relacionadas causalmente.

Por ejemplo, considere la relación entre el uso de audífonos y la cantidad de arrugas en su piel. Existe una fuerte correlación entre los dos pero, por supuesto, ambos son realmente causados ​​por la vejez. Esto no es un defecto del enfoque, sino una limitación que debe tener en cuenta para interpretar los resultados correctamente.

Teachs.ru
  • Cuota
instagram viewer