La regressione lineare è un metodo statistico per esaminare la relazione tra una variabile dipendente, indicata come sì, e una o più variabili indipendenti, indicate come X. La variabile dipendente deve essere continua, in quanto può assumere qualsiasi valore, o comunque prossima alla continua. Le variabili indipendenti possono essere di qualsiasi tipo. Sebbene la regressione lineare non possa mostrare la causa da sola, la variabile dipendente è solitamente influenzata dalle variabili indipendenti.
La regressione lineare è limitata alle relazioni lineari
Per sua natura, la regressione lineare esamina solo le relazioni lineari tra variabili dipendenti e indipendenti. Cioè, presuppone che ci sia una relazione lineare tra di loro. A volte questo non è corretto. Ad esempio, il rapporto tra reddito ed età è curvo, cioè il reddito tende ad aumentare nelle prime fasi dell'età adulta, appiattirsi nella tarda età adulta e diminuire dopo il pensionamento. Puoi capire se questo è un problema guardando le rappresentazioni grafiche delle relazioni.
La regressione lineare guarda solo alla media della variabile dipendente
La regressione lineare esamina una relazione tra la media della variabile dipendente e le variabili indipendenti. Ad esempio, se si guarda alla relazione tra il peso alla nascita dei neonati e quello materno caratteristiche come l'età, la regressione lineare esaminerà il peso medio dei bambini nati da madri di età diverse. Tuttavia, a volte è necessario esaminare gli estremi della variabile dipendente, ad esempio, i bambini sono a rischio quando il loro peso è basso, quindi dovresti guardare gli estremi in questo esempio.
Proprio come la media non è una descrizione completa di una singola variabile, la regressione lineare non è una descrizione completa delle relazioni tra le variabili. Puoi affrontare questo problema usando la regressione quantile.
La regressione lineare è sensibile agli outlier
Gli outlier sono dati che sorprendono. Gli outlier possono essere univariati (basati su una variabile) o multivariati. Se guardi all'età e al reddito, i valori anomali univariati sarebbero cose come una persona che ha 118 anni o uno che ha guadagnato $ 12 milioni l'anno scorso. Un valore anomalo multivariato sarebbe un diciottenne che ha guadagnato $ 200.000. In questo caso, né l'età né il reddito sono estremi, ma pochissimi diciottenni guadagnano così tanto.
I valori anomali possono avere enormi effetti sulla regressione. Puoi affrontare questo problema richiedendo le statistiche di influenza dal tuo software statistico.
I dati devono essere indipendenti
La regressione lineare presuppone che i dati siano indipendenti. Ciò significa che i punteggi di un soggetto (come una persona) non hanno nulla a che fare con quelli di un altro. Questo è spesso, ma non sempre, sensato. Due casi comuni in cui non ha senso sono il raggruppamento nello spazio e nel tempo.
Un classico esempio di clustering nello spazio sono i punteggi dei test degli studenti, quando ci sono studenti di varie classi, classi, scuole e distretti scolastici. Gli studenti della stessa classe tendono ad essere simili in molti modi, cioè spesso provengono dagli stessi quartieri, hanno gli stessi insegnanti, ecc. Pertanto, non sono indipendenti.
Esempi di raggruppamento nel tempo sono gli studi in cui si misurano più volte gli stessi soggetti. Ad esempio, in uno studio su dieta e peso, potresti misurare ogni persona più volte. Questi dati non sono indipendenti perché ciò che una persona pesa in un'occasione è correlato a ciò che pesa in altre occasioni. Un modo per affrontare questo problema è con i modelli multilivello.