La regressione multipla viene utilizzata per esaminare la relazione tra diverse variabili indipendenti e una variabile dipendente. Mentre i modelli di regressione multipla consentono di analizzare le influenze relative di queste variabili indipendenti o predittive su la variabile dipendente, o criterio, questi set di dati spesso complessi possono portare a conclusioni false se non vengono analizzati propriamente.
Esempi di regressione multipla
Un agente immobiliare potrebbe utilizzare la regressione multipla per analizzare il valore delle case. Ad esempio, potrebbe utilizzare come variabili indipendenti la dimensione delle case, la loro età, il numero di camere da letto, il prezzo medio delle case nel quartiere e la vicinanza alle scuole. Tracciandoli in un modello di regressione multipla, potrebbe quindi utilizzare questi fattori per vedere la loro relazione con i prezzi delle case come variabile di criterio.
Un altro esempio di utilizzo di un modello di regressione multipla potrebbe essere qualcuno nelle risorse umane che determina lo stipendio delle posizioni dirigenziali - la variabile criterio. Le variabili predittive potrebbero essere l'anzianità di ciascun manager, il numero medio di ore lavorate, il numero di persone gestite e il budget dipartimentale del manager.
Vantaggi della regressione multipla
Ci sono due principali vantaggi nell'analizzare i dati utilizzando un modello di regressione multipla. Il primo è la capacità di determinare l'influenza relativa di una o più variabili predittive sul valore del criterio. L'agente immobiliare potrebbe scoprire che le dimensioni delle case e il numero di camere da letto hanno una forte correlazione con il prezzo di un a casa, mentre la vicinanza alle scuole non ha alcuna correlazione, o addirittura una correlazione negativa se si tratta principalmente di una pensione Comunità.
Il secondo vantaggio è la capacità di identificare valori anomali o anomalie. Ad esempio, durante la revisione dei dati relativi agli stipendi dei dirigenti, il responsabile delle risorse umane potrebbe scoprire che il il numero di ore lavorate, la dimensione del dipartimento e il suo budget avevano tutti una forte correlazione con gli stipendi, mentre l'anzianità sì non. In alternativa, potrebbe essere che tutti i valori dei predittori elencati fossero correlati a ciascuno degli stipendi in esame, ad eccezione di un manager che era sovrapagato rispetto agli altri.
Svantaggi della regressione multipla
Qualsiasi svantaggio dell'utilizzo di un modello di regressione multipla di solito si riduce ai dati utilizzati. Due esempi di ciò sono l'utilizzo di dati incompleti e la conclusione errata che una correlazione è una causalità.
Quando si esamina il prezzo delle case, ad esempio, supponiamo che l'agente immobiliare abbia esaminato solo 10 case, sette delle quali sono state acquistate da giovani genitori. In questo caso, il rapporto tra la vicinanza delle scuole può indurla a ritenere che ciò abbia influito sul prezzo di vendita di tutte le case vendute nella comunità. Questo illustra le insidie dei dati incompleti. Se avesse usato un campione più ampio, avrebbe potuto scoprire che, su 100 case vendute, solo il dieci percento dei valori delle case era correlato alla vicinanza di una scuola. Se avesse usato l'età degli acquirenti come valore predittivo, avrebbe potuto scoprire che gli acquirenti più giovani erano disposti a pagare di più per le case nella comunità rispetto agli acquirenti più anziani.
Nell'esempio degli stipendi dei dirigenti, supponiamo che ci fosse un outlier che aveva un budget più piccolo, meno anzianità e con meno personale da gestire ma guadagnava più di chiunque altro. Il responsabile delle risorse umane potrebbe esaminare i dati e concludere che questa persona viene pagata in eccesso. Tuttavia, questa conclusione sarebbe errata se non tenesse conto del fatto che questo manager era responsabile del sito Web dell'azienda e disponeva di competenze molto ambite nella sicurezza della rete.