선형 회귀는 다음과 같이 표시되는 종속 변수 간의 관계를 조사하기위한 통계적 방법입니다. 와이, 및 다음과 같이 표시되는 하나 이상의 독립 변수 엑스. 종속 변수는 연속적이어야합니다. 즉, 임의의 값을 취할 수 있거나 적어도 연속에 가깝습니다. 독립 변수는 모든 유형이 될 수 있습니다. 선형 회귀는 그 자체로 인과 관계를 보여줄 수 없지만 일반적으로 종속 변수는 독립 변수의 영향을받습니다.
선형 회귀는 선형 관계로 제한됩니다.
본질적으로 선형 회귀는 종속 변수와 독립 변수 간의 선형 관계 만 살펴 봅니다. 즉, 그들 사이에 직선 관계가 있다고 가정합니다. 때때로 이것은 올바르지 않습니다. 예를 들어 소득과 연령의 관계는 곡선 형입니다. 즉, 소득은 성인기 초기에 증가하는 경향이 있고, 성인기 후기에 평평 해지고 퇴직 후 감소하는 경향이 있습니다. 관계의 그래픽 표현을 보면 이것이 문제인지 알 수 있습니다.
선형 회귀는 종속 변수의 평균 만 확인합니다.
선형 회귀는 종속 변수의 평균과 독립 변수 간의 관계를 살펴 봅니다. 예를 들어, 유아의 출생 체중과 산모의 관계를 살펴보면 연령, 선형 회귀와 같은 특성은 어머니에게서 태어난 아기의 평균 체중을 살펴 봅니다. 다른 연령대. 그러나 때로는 종속 변수의 극단을 살펴 봐야합니다. 예를 들어 아기가 체중이 낮을 때 위험에 처해 있으므로이 예에서 극단을보고 싶을 것입니다.
평균이 단일 변수에 대한 완전한 설명이 아닌 것처럼 선형 회귀는 변수 간의 관계에 대한 완전한 설명이 아닙니다. 분위수 회귀를 사용하여이 문제를 처리 할 수 있습니다.
선형 회귀는 특이 치에 민감합니다.
특이 치는 놀라운 데이터입니다. 특이 치는 일 변량 (한 변수 기준) 또는 다변량 일 수 있습니다. 나이와 소득을 살펴보면 일 변량 이상 치는 118 세 또는 작년에 1,200 만 달러를 벌어 들인 사람과 같은 것입니다. 다변량 이상 치는 $ 200,000를 벌어 들인 18 세입니다. 이 경우 나이도 소득도 극단적이지 않지만 18 세가 그렇게 많은 돈을 버는 사람은 거의 없습니다.
이상 치는 회귀에 큰 영향을 미칠 수 있습니다. 통계 소프트웨어에서 영향 통계를 요청하여이 문제를 처리 할 수 있습니다.
데이터는 독립적이어야합니다.
선형 회귀는 데이터가 독립적이라고 가정합니다. 즉, 한 과목 (예: 사람)의 점수는 다른 과목의 점수와 관련이 없습니다. 항상 그런 것은 아니지만 종종 이치에 맞습니다. 이치에 맞지 않는 두 가지 일반적인 경우는 공간과 시간의 클러스터링입니다.
우주 클러스터링의 고전적인 예는 다양한 학급, 학년, 학교 및 학군의 학생이있을 때 학생 시험 점수입니다. 같은 학급의 학생들은 여러면에서 비슷한 경향이 있습니다. 즉, 종종 같은 동네에서 왔거나 같은 선생님이 있습니다. 따라서 그들은 독립적이지 않습니다.
시간에 따른 클러스터링의 예는 동일한 대상을 여러 번 측정하는 모든 연구입니다. 예를 들어, 식단과 체중에 대한 연구에서 각 사람을 여러 번 측정 할 수 있습니다. 한 사람이 어떤 경우에 체중을 측정하는 것이 다른 경우에 체중을 측정하는 것과 관련이 있기 때문에 이러한 데이터는 독립적이지 않습니다. 이를 처리하는 한 가지 방법은 다단계 모델을 사용하는 것입니다.