Regresja wielokrotna służy do badania relacji między kilkoma zmiennymi niezależnymi a zmienną zależną. Podczas gdy modele regresji wielokrotnej umożliwiają analizę względnych wpływów tych zmiennych niezależnych lub predykcyjnych na zmienna zależna lub kryterium, te często złożone zbiory danych mogą prowadzić do fałszywych wniosków, jeśli nie są analizowane prawidłowo.
Przykłady regresji wielokrotnej
Agent nieruchomości może wykorzystać regresję wielokrotną do analizy wartości domów. Na przykład jako niezależne zmienne mogłaby wykorzystać wielkość domów, ich wiek, liczbę sypialni, średnią cenę domu w sąsiedztwie i bliskość szkół. Wykreślając je w modelu regresji wielokrotnej, mogła następnie wykorzystać te czynniki, aby zobaczyć ich związek z cenami domów jako zmienną kryterium.
Innym przykładem zastosowania modelu regresji wielokrotnej może być ktoś z działu kadr określający wynagrodzenie stanowisk kierowniczych – zmienna kryterium. Zmiennymi predykcyjnymi mogą być staż pracy każdego menedżera, średnia liczba przepracowanych godzin, liczba zarządzanych osób i budżet działu menedżera.
Zalety regresji wielokrotnej
Analizowanie danych przy użyciu modelu regresji wielokrotnej ma dwie główne zalety. Pierwsza to możliwość określenia względnego wpływu jednej lub większej liczby zmiennych predykcyjnych na wartość kryterium. Agent nieruchomości może stwierdzić, że wielkość domów i liczba sypialni mają silną korelację z ceną domu, podczas gdy bliskość szkół nie ma żadnego związku, a nawet jest ujemna, jeśli jest to przede wszystkim emerytura społeczność.
Drugą zaletą jest możliwość identyfikacji wartości odstających, czyli anomalii. Na przykład, podczas przeglądania danych dotyczących wynagrodzeń kierownictwa, kierownik ds. zasobów ludzkich może stwierdzić, że: liczba przepracowanych godzin, wielkość działu i jego budżet miały silną korelację z wynagrodzeniami, podczas gdy staż pracy miał silną korelację nie. Ewentualnie może się zdarzyć, że wszystkie wymienione wartości predyktorów były skorelowane z każdą badaną pensją, z wyjątkiem jednego menedżera, który był nadpłacany w porównaniu z innymi.
Wady regresji wielorakiej
Wszelkie wady stosowania modelu regresji wielokrotnej zwykle sprowadzają się do używanych danych. Dwa przykłady tego to wykorzystanie niekompletnych danych i fałszywe wnioskowanie, że korelacja jest przyczyną.
Na przykład, analizując ceny domów, załóżmy, że agent nieruchomości obejrzał tylko 10 domów, z których siedem zostało zakupionych przez młodych rodziców. W tym przypadku związek między bliskością szkół może prowadzić do przekonania, że miało to wpływ na cenę sprzedaży wszystkich domów sprzedawanych w społeczności. To ilustruje pułapki niekompletnych danych. Gdyby użyła większej próbki, mogłaby stwierdzić, że na 100 sprzedanych domów tylko dziesięć procent wartości domu było związanych z bliskością szkoły. Gdyby wykorzystała wiek kupujących jako wartość prognostyczną, mogłaby stwierdzić, że młodsi nabywcy byli skłonni zapłacić więcej za domy w społeczności niż starsi nabywcy.
W przykładzie wynagrodzeń kierownictwa załóżmy, że istniała jedna osoba odstająca, która miała mniejszy budżet, niższy staż pracy i mniejszą liczbę personelu do zarządzania, ale zarabiała więcej niż ktokolwiek inny. Menedżer HR może spojrzeć na dane i stwierdzić, że ta osoba jest nadmiernie opłacana. Jednak ten wniosek byłby błędny, gdyby nie wziął pod uwagę, że ten menedżer zarządzał stroną internetową firmy i posiadał bardzo pożądane umiejętności w zakresie bezpieczeństwa sieci.