Линейная регрессия - это статистический метод исследования взаимосвязи между зависимой переменной, обозначаемой как у, и одна или несколько независимых переменных, обозначенных как Икс. Зависимая переменная должна быть непрерывной в том смысле, что она может принимать любое значение или, по крайней мере, близкой к непрерывной. Независимые переменные могут быть любого типа. Хотя линейная регрессия не может показать причинно-следственную связь сама по себе, на зависимую переменную обычно влияют независимые переменные.
Линейная регрессия ограничивается линейными отношениями
По своей природе линейная регрессия рассматривает только линейные отношения между зависимыми и независимыми переменными. То есть предполагается, что между ними существует прямая связь. Иногда это неверно. Например, зависимость между доходом и возрастом искривлена, то есть доход имеет тенденцию расти в начале взрослого возраста, выравнивается в более позднем взрослом возрасте и снижается после выхода на пенсию. Вы можете определить, является ли это проблемой, посмотрев на графическое представление взаимосвязей.
Линейная регрессия рассматривает только среднее значение зависимой переменной
Линейная регрессия рассматривает взаимосвязь между средним значением зависимой переменной и независимых переменных. Например, если вы посмотрите на взаимосвязь между массой тела при рождении младенцев и материнской характеристики, такие как возраст, линейная регрессия будет смотреть на средний вес детей, рожденных от матерей разный возраст. Однако иногда вам нужно смотреть на крайние значения зависимой переменной, например, младенцы подвергаются риску, когда их вес низкий, поэтому вы можете посмотреть на крайние значения в этом примере.
Так же, как среднее значение не является полным описанием отдельной переменной, линейная регрессия не является полным описанием отношений между переменными. Вы можете решить эту проблему, используя квантильную регрессию.
Линейная регрессия чувствительна к выбросам
Выбросы - это данные, которые вызывают удивление. Выбросы могут быть одномерными (на основе одной переменной) или многомерными. Если вы посмотрите на возраст и доход, однофакторными выбросами будут такие вещи, как человек, которому 118 лет, или тот, кто заработал 12 миллионов долларов в прошлом году. Многовариантным выбросом будет 18-летний молодой человек, который заработал 200 000 долларов. В этом случае ни возраст, ни доход не являются очень высокими, но очень немногие 18-летние люди зарабатывают столько денег.
Выбросы могут иметь огромное влияние на регрессию. Вы можете решить эту проблему, запросив статистику влияния из своего статистического программного обеспечения.
Данные должны быть независимыми
Линейная регрессия предполагает, что данные независимы. Это означает, что оценки одного предмета (например, человека) не имеют ничего общего с оценками другого. Это часто, но не всегда разумно. Два распространенных случая, когда это не имеет смысла, - это кластеризация в пространстве и времени.
Классический пример кластеризации в космосе - это результаты тестов учащихся, когда у вас есть учащиеся из разных классов, классов, школ и школьных округов. Учащиеся в одном классе, как правило, во многом похожи, т. Е. Часто происходят из одних и тех же районов, у них одни и те же учителя и т. Д. Таким образом, они не независимы.
Примерами кластеризации по времени являются любые исследования, в которых вы измеряете одни и те же объекты несколько раз. Например, при изучении диеты и веса вы можете измерять каждого человека несколько раз. Эти данные не являются независимыми, потому что то, что человек весит в одном случае, зависит от того, что он или она весит в других случаях. Один из способов справиться с этим - использовать многоуровневые модели.