이상 값을 계산하는 방법

특이 치는 다른 값과는 거리가 먼 데이터 세트의 값입니다. 특이 치는 실험 또는 측정 오류 또는 긴 꼬리 모집단으로 인해 발생할 수 있습니다. 전자의 경우 이상 값을 식별하고이를 수행하기 전에 데이터에서 제거하는 것이 바람직 할 수 있습니다. 통계 분석, 결과를 버려서 샘플을 정확하게 표현하지 못할 수 있기 때문입니다. 인구. 이상 치를 식별하는 가장 간단한 방법은 사 분위수 방법입니다.

데이터를 오름차순으로 정렬합니다. 예를 들어 {4, 5, 2, 3, 15, 3, 3, 5} 데이터 세트를 가져옵니다. 정렬 된 예제 데이터 세트는 {2, 3, 3, 3, 4, 5, 5, 15}입니다.

중앙값 찾기. 이것은 데이터 포인트의 절반이 더 크고 절반이 더 작은 숫자입니다. 데이터 포인트 수가 짝수이면 중간 2 개가 평균화됩니다. 예제 데이터 세트의 경우 중간 점은 3과 4이므로 중앙값은 (3 + 4) / 2 = 3.5입니다.

상위 사 분위수 Q2를 찾으십시오. 이것은 데이터의 25 %가 더 큰 데이터 포인트입니다. 데이터 세트가 짝수이면 사 분위수 주변의 두 점을 평균합니다. 예제 데이터 세트의 경우 이것은 (5 + 5) / 2 = 5입니다.

하위 사 분위수 Q1을 찾으십시오. 이것은 데이터의 25 %가 더 작은 데이터 포인트입니다. 데이터 세트가 짝수이면 사 분위수 주변의 두 점을 평균합니다. 예제 데이터의 경우 (3 + 3) / 2 = 3.

높은 사 분위수에서 낮은 사 분위수를 빼서 사 분위수 범위 IQ를 구합니다. 예제 데이터 세트의 경우 Q2 – Q1 = 5 – 3 = 2입니다.

사 분위수 범위에 1.5를 곱합니다. 이것을 상위 사 분위수에 더하고 하위 사 분위수에서 빼십시오. 이 값을 벗어난 모든 데이터 포인트는 약간의 특이 치입니다. 예제 세트의 경우 1.5 x 2 = 3; 따라서 3 – 3 = 0 및 5 + 3 = 8. 따라서 0보다 작거나 8보다 큰 값은 가벼운 이상 값이됩니다. 이는 15가 가벼운 이상치로 분류됨을 의미합니다.

사 분위수 범위에 3을 곱합니다. 이것을 상위 사 분위수에 더하고 하위 사 분위수에서 빼십시오. 이 값을 벗어난 모든 데이터 포인트는 극단적 인 이상 값입니다. 예제 세트의 경우, 3 x 2 = 6; 따라서 3 – 6 = –3 및 5 + 6 = 11. 따라서 -3보다 작거나 11보다 큰 값은 극단적 인 이상 값이됩니다. 이는 15가 극단적 인 이상 값으로 분류된다는 것을 의미합니다.

  • 공유
instagram viewer