A regressão linear é um método estatístico para examinar a relação entre uma variável dependente, denotada como y, e uma ou mais variáveis independentes, denotadas como x. A variável dependente deve ser contínua, podendo assumir qualquer valor, ou pelo menos próximo a contínua. As variáveis independentes podem ser de qualquer tipo. Embora a regressão linear não possa mostrar a causalidade por si só, a variável dependente geralmente é afetada pelas variáveis independentes.
A regressão linear é limitada a relacionamentos lineares
Por sua natureza, a regressão linear olha apenas para as relações lineares entre variáveis dependentes e independentes. Ou seja, assume que existe uma relação linear entre eles. Às vezes, isso está incorreto. Por exemplo, a relação entre renda e idade é curva, ou seja, a renda tende a aumentar no início da idade adulta, diminuir no final da idade adulta e diminuir depois que as pessoas se aposentam. Você pode dizer se isso é um problema observando as representações gráficas dos relacionamentos.
A regressão linear olha apenas para a média da variável dependente
A regressão linear examina uma relação entre a média da variável dependente e as variáveis independentes. Por exemplo, se você olhar para a relação entre o peso do bebê ao nascer e o peso materno características como a idade, a regressão linear analisará o peso médio dos bebês nascidos de mães de Diferentes idades. No entanto, às vezes você precisa olhar para os extremos da variável dependente, por exemplo, bebês estão em risco quando seus pesos são baixos, então você deve olhar para os extremos neste exemplo.
Assim como a média não é uma descrição completa de uma única variável, a regressão linear não é uma descrição completa das relações entre as variáveis. Você pode lidar com esse problema usando a regressão quantílica.
A regressão linear é sensível a outliers
Outliers são dados surpreendentes. Outliers podem ser univariados (com base em uma variável) ou multivariados. Se você está olhando para idade e renda, valores discrepantes univariados seriam coisas como uma pessoa que tem 118 anos ou alguém que ganhou $ 12 milhões no ano passado. Um outlier multivariado seria um jovem de 18 anos que ganhou $ 200.000. Nesse caso, nem a idade nem a renda são muito extremas, mas muito poucas pessoas de 18 anos ganham tanto dinheiro.
Os valores discrepantes podem ter efeitos enormes na regressão. Você pode lidar com esse problema solicitando estatísticas de influência de seu software estatístico.
Os dados devem ser independentes
A regressão linear assume que os dados são independentes. Isso significa que as pontuações de um sujeito (como uma pessoa) não têm nada a ver com as de outro. Muitas vezes, mas nem sempre, isso é sensato. Dois casos comuns em que não faz sentido são os agrupamentos no espaço e no tempo.
Um exemplo clássico de agrupamento no espaço são as pontuações dos testes dos alunos, quando você tem alunos de várias classes, séries, escolas e distritos escolares. Os alunos na mesma classe tendem a ser semelhantes em muitos aspectos, ou seja, eles geralmente vêm da mesma vizinhança, têm os mesmos professores, etc. Portanto, eles não são independentes.
Exemplos de agrupamento no tempo são quaisquer estudos em que você mede os mesmos assuntos várias vezes. Por exemplo, em um estudo de dieta e peso, você pode medir cada pessoa várias vezes. Esses dados não são independentes porque o que uma pessoa pesa em uma ocasião está relacionado ao que ela pesa em outras ocasiões. Uma maneira de lidar com isso é com modelos de vários níveis.