Множественная регрессия используется для изучения взаимосвязи между несколькими независимыми переменными и зависимой переменной. Хотя множественные регрессионные модели позволяют анализировать относительное влияние этих независимых или предиктивных переменных на зависимая или критериальная переменная, эти часто сложные наборы данных могут привести к ложным выводам, если они не будут проанализированы должным образом.
Примеры множественной регрессии
Агент по недвижимости может использовать множественную регрессию для анализа стоимости домов. Например, она могла бы использовать в качестве независимых переменных размер домов, их возраст, количество спален, среднюю стоимость дома в районе и близость к школам. Построив их в модели множественной регрессии, она могла бы затем использовать эти факторы, чтобы увидеть их связь с ценами на дома в качестве критериальной переменной.
Другим примером использования модели множественной регрессии может быть кто-то из отдела кадров, определяющий зарплату на руководящих должностях - критериальную переменную. Прогнозирующими переменными могут быть трудовой стаж каждого менеджера, среднее количество отработанных часов, количество управляемых людей и бюджет отдела менеджера.
Преимущества множественной регрессии
У анализа данных с использованием модели множественной регрессии есть два основных преимущества. Во-первых, это способность определять относительное влияние одной или нескольких переменных-предикторов на значение критерия. Агент по недвижимости мог обнаружить, что размер домов и количество спален сильно коррелируют с ценой квартиры. дома, в то время как близость к школам не имеет никакой корреляции или даже отрицательной корреляции, если это в первую очередь выход на пенсию сообщество.
Второе преимущество - это способность определять выбросы или аномалии. Например, при просмотре данных, связанных с заработной платой руководителей, менеджер по персоналу может обнаружить, что количество отработанных часов, размер отдела и его бюджет сильно коррелировали с заработной платой, в то время как трудовой стаж нет. В качестве альтернативы может быть, что все перечисленные значения предикторов коррелировали с каждой из исследуемых зарплат, за исключением одного менеджера, которому переплачивали по сравнению с другими.
Недостатки множественной регрессии
Любой недостаток использования модели множественной регрессии обычно сводится к используемым данным. Два примера этого - использование неполных данных и ложный вывод о том, что корреляция является причиной.
Например, при пересмотре цен на дома предположим, что агент по недвижимости изучил только 10 домов, семь из которых были приобретены молодыми родителями. В этом случае связь между близостью школ может заставить ее поверить, что это повлияло на продажную цену всех домов, продаваемых в сообществе. Это иллюстрирует подводные камни неполных данных. Если бы она использовала более крупную выборку, она могла бы обнаружить, что из 100 проданных домов только десять процентов стоимости домов были связаны с близостью школы. Если бы она использовала возраст покупателей в качестве прогнозирующего значения, она могла бы обнаружить, что более молодые покупатели были готовы платить за дома в общине больше, чем пожилые покупатели.
В примере с заработной платой руководителей предположим, что есть один особняк с меньшим бюджетом, меньшим стажем работы и меньшим количеством управляющих, но зарабатывающий больше, чем кто-либо другой. Менеджер по персоналу может взглянуть на данные и сделать вывод, что этому человеку переплачивают. Однако этот вывод был бы ошибочным, если бы он не принял во внимание, что этот менеджер отвечал за веб-сайт компании и обладал очень желанными навыками в области сетевой безопасности.