Vícenásobná regrese se používá ke zkoumání vztahu mezi několika nezávislými proměnnými a závislou proměnnou. Zatímco více regresních modelů vám umožňuje analyzovat relativní vlivy těchto nezávislých nebo predikčních proměnných závislá proměnná nebo kritérium, tyto často složité datové soubory mohou vést k nesprávným závěrům, pokud nebudou analyzovány správně.
Příklady vícenásobné regrese
Realitní agent mohl k analýze hodnoty domů použít vícenásobnou regresi. Mohla například použít jako nezávislé proměnné velikost domů, jejich věk, počet ložnic, průměrnou cenu domu v sousedství a blízkost škol. Při jejich zakreslení do modelu vícenásobné regrese by pak mohla pomocí těchto faktorů vidět jejich vztah k cenám domů jako proměnnou kritéria.
Dalším příkladem použití modelu vícenásobné regrese může být někdo, kdo v oblasti lidských zdrojů určuje plat manažerských pozic - proměnná kritéria. Proměnnými prediktorů by mohla být odpracovaná doba každého manažera, průměrný počet odpracovaných hodin, počet spravovaných lidí a rozpočet manažera na oddělení.
Výhody vícenásobné regrese
Existují dvě hlavní výhody analýzy dat pomocí modelu vícenásobné regrese. Prvním z nich je schopnost určit relativní vliv jedné nebo více predikčních proměnných na hodnotu kritéria. Realitní agent mohl zjistit, že velikost domů a počet pokojů mají silnou korelaci s cenou domu domov, zatímco blízkost ke školám nemá vůbec žádnou korelaci, nebo dokonce negativní korelaci, pokud se jedná primárně o důchod společenství.
Druhou výhodou je schopnost identifikovat odlehlé hodnoty nebo anomálie. Například při kontrole údajů týkajících se platů managementu by manažer lidských zdrojů mohl zjistit, že počet odpracovaných hodin, velikost oddělení a jeho rozpočet měly silnou korelaci s platy, zatímco počet odpracovaných let ano ne. Alternativně by se mohlo stát, že všechny uvedené hodnoty prediktorů byly korelovány s každým ze zkoumaných platů, s výjimkou jednoho manažera, který byl přeplacen ve srovnání s ostatními.
Nevýhody vícenásobné regrese
Jakákoli nevýhoda použití modelu vícenásobné regrese obvykle spočívá v použitých datech. Dva příklady toho jsou použití neúplných údajů a mylný závěr, že korelace je příčinou.
Při kontrole ceny domů například předpokládejme, že realitní agent zkoumal pouze 10 domů, z nichž sedm koupili mladí rodiče. V takovém případě ji vztah mezi blízkostí škol může vést k přesvědčení, že to mělo vliv na prodejní cenu všech domů prodávaných v komunitě. To ilustruje úskalí neúplných údajů. Kdyby použila větší vzorek, mohla by zjistit, že ze 100 prodaných domů pouze deset procent domácích hodnot souviselo s blízkostí školy. Kdyby použila věk kupujících jako predikční hodnotu, mohla by zjistit, že mladší kupující byli ochotni platit více za domovy v komunitě než starší kupující.
V příkladu platů managementu předpokládejme, že existoval jeden odlehlý pracovník, který měl menší rozpočet, menší počet odpracovaných let a méně personálu, který by řídil, ale vydělával více než kdokoli jiný. Manažer lidských zdrojů by mohl údaje zkontrolovat a dojít k závěru, že této osobě je přeplatek. Tento závěr by však byl mylný, pokud by nevzal v úvahu, že tento manažer má na starosti webové stránky společnosti a má vysoce vyhledávanou sadu dovedností v oblasti zabezpečení sítě.