La regresión lineal es un método estadístico para examinar la relación entre una variable dependiente, denotada como y, y una o más variables independientes, denotadas como X. La variable dependiente debe ser continua, en el sentido de que puede tomar cualquier valor, o al menos cerca de continua. Las variables independientes pueden ser de cualquier tipo. Aunque la regresión lineal no puede mostrar la causalidad por sí misma, la variable dependiente generalmente se ve afectada por las variables independientes.
La regresión lineal se limita a relaciones lineales
Por su naturaleza, la regresión lineal solo considera las relaciones lineales entre variables dependientes e independientes. Es decir, asume que existe una relación lineal entre ellos. A veces esto es incorrecto. Por ejemplo, la relación entre los ingresos y la edad es curva, es decir, los ingresos tienden a aumentar en las primeras etapas de la edad adulta, se aplanan en la edad adulta tardía y disminuyen después de que las personas se jubilan. Puede saber si esto es un problema observando las representaciones gráficas de las relaciones.
La regresión lineal solo considera la media de la variable dependiente
La regresión lineal analiza una relación entre la media de la variable dependiente y las variables independientes. Por ejemplo, si observa la relación entre el peso al nacer de los bebés y el peso materno características como la edad, la regresión lineal considerará el peso promedio de los bebés nacidos de madres de diferentes edades. Sin embargo, a veces es necesario observar los extremos de la variable dependiente, p. Ej., Los bebés corren riesgo cuando su peso es bajo, por lo que le conviene observar los extremos en este ejemplo.
Así como la media no es una descripción completa de una sola variable, la regresión lineal no es una descripción completa de las relaciones entre variables. Puede resolver este problema mediante la regresión de cuantiles.
La regresión lineal es sensible a valores atípicos
Los valores atípicos son datos sorprendentes. Los valores atípicos pueden ser univariados (basados en una variable) o multivariados. Si observa la edad y los ingresos, los valores atípicos univariados serían cosas como una persona que tiene 118 años o una que ganó $ 12 millones el año pasado. Un valor atípico multivariado sería un joven de 18 años que ganara 200.000 dólares. En este caso, ni la edad ni los ingresos son muy extremos, pero muy pocas personas de 18 años ganan tanto dinero.
Los valores atípicos pueden tener enormes efectos en la regresión. Puede solucionar este problema solicitando estadísticas de influencia de su software estadístico.
Los datos deben ser independientes
La regresión lineal supone que los datos son independientes. Eso significa que las puntuaciones de un sujeto (como una persona) no tienen nada que ver con las de otro. Esto es a menudo, pero no siempre, sensato. Dos casos comunes en los que no tiene sentido son la agrupación en el espacio y el tiempo.
Un ejemplo clásico de agrupamiento en el espacio son los puntajes de las pruebas de los estudiantes, cuando tiene estudiantes de varias clases, grados, escuelas y distritos escolares. Los estudiantes de la misma clase tienden a ser similares en muchos aspectos, es decir, a menudo provienen del mismo vecindario, tienen los mismos maestros, etc. Por tanto, no son independientes.
Ejemplos de agrupamiento en el tiempo son los estudios en los que se miden los mismos sujetos varias veces. Por ejemplo, en un estudio de dieta y peso, puede medir a cada persona varias veces. Estos datos no son independientes porque lo que una persona pesa en una ocasión está relacionado con lo que pesa en otras ocasiones. Una forma de lidiar con esto es con modelos multinivel.