Regresia multiplă este utilizată pentru a examina relația dintre mai multe variabile independente și o variabilă dependentă. În timp ce modelele de regresie multiple vă permit să analizați influențele relative ale acestor variabile independente sau predictive variabila dependentă sau criteriul, aceste seturi de date deseori complexe pot duce la concluzii false dacă nu sunt analizate corect.
Exemple de regresie multiplă
Un agent imobiliar ar putea folosi regresia multiplă pentru a analiza valoarea caselor. De exemplu, ea ar putea folosi ca variabile independente dimensiunea caselor, vârsta lor, numărul de dormitoare, prețul mediu al locuințelor în cartier și apropierea de școli. Plotând acestea într-un model de regresie multiplă, ea ar putea apoi utiliza acești factori pentru a vedea relația lor cu prețurile locuințelor ca fiind variabila criteriu.
Un alt exemplu de utilizare a unui model de regresie multiplă ar putea fi cineva din resursele umane care determină salariul funcțiilor de conducere - variabila criteriu. Variabilele predictive ar putea fi vechimea fiecărui manager, numărul mediu de ore lucrate, numărul de persoane gestionate și bugetul departamental al managerului.
Avantajele regresiei multiple
Există două avantaje principale în analiza datelor folosind un model de regresie multiplă. Prima este capacitatea de a determina influența relativă a uneia sau mai multor variabile predictive față de valoarea criteriului. Agentul imobiliar ar putea constata că dimensiunea locuințelor și numărul de dormitoare au o corelație puternică cu prețul unei acasă, în timp ce apropierea de școli nu are deloc o corelație sau chiar o corelație negativă dacă este în primul rând o pensie comunitate.
Al doilea avantaj este abilitatea de a identifica valori anormale sau anomalii. De exemplu, în timp ce examinează datele referitoare la salariile de conducere, managerul de resurse umane ar putea constata că numărul de ore lucrate, dimensiunea departamentului și bugetul său au avut o corelație puternică cu salariile, în timp ce vechimea a avut-o nu. Alternativ, s-ar putea ca toate valorile predictive enumerate să fie corelate cu fiecare dintre salariile examinate, cu excepția unui manager care era plătit în exces în comparație cu ceilalți.
Dezavantaje ale regresiei multiple
Orice dezavantaj al utilizării unui model de regresie multiplă se reduce de obicei la datele utilizate. Două exemple în acest sens sunt folosirea datelor incomplete și concluzia falsă că o corelație este o cauzalitate.
De exemplu, atunci când examinăm prețul caselor, să presupunem că agentul imobiliar a analizat doar 10 case, dintre care șapte au fost achiziționate de părinți tineri. În acest caz, relația dintre apropierea școlilor o poate determina să creadă că acest lucru a avut un efect asupra prețului de vânzare pentru toate casele vândute în comunitate. Aceasta ilustrează capcanele datelor incomplete. Dacă ar fi folosit un eșantion mai mare, ar fi putut constata că, din 100 de case vândute, doar zece la sută din valorile casei erau legate de apropierea unei școli. Dacă ar fi folosit vârstele cumpărătorilor ca valoare predictivă, ar fi putut constata că cumpărătorii mai tineri erau dispuși să plătească mai mult pentru casele din comunitate decât cumpărătorii mai în vârstă.
În exemplul salariilor de conducere, să presupunem că a existat un outlier care avea un buget mai mic, mai puțină vechime și cu personal mai puțin de gestionat, dar care făcea mai mult decât oricine altcineva. Managerul de resurse umane ar putea analiza datele și a concluzionat că această persoană este supraplătită. Cu toate acestea, această concluzie ar fi eronată dacă nu ar lua în considerare faptul că acest manager se ocupa de site-ul web al companiei și ar avea un set de competențe foarte râvnit în securitatea rețelei.