비즈니스, 정부 및 학술 활동에는 거의 항상 데이터 수집 및 분석이 필요합니다. 숫자 데이터를 표현하는 방법 중 하나는 그래프, 히스토그램 및 차트를 사용하는 것입니다. 이러한 시각화 기술을 통해 사람들은 문제에 대한 더 나은 통찰력을 얻고 솔루션을 고안 할 수 있습니다. 간격, 클러스터 및 특이 치는 수학적 분석에 영향을 미치고 시각적 표현에서 쉽게 볼 수있는 데이터 세트의 특성입니다.
데이터의 구멍
간격은 데이터 세트에서 누락 된 영역을 나타냅니다. 예를 들어 과학 실험에서 화씨 50도 범위의 온도 데이터를 수집하는 경우 화씨 100도까지, 그러나 70도에서 80도 사이에는 데이터의 차이를 나타냅니다. 세트. 이 데이터 세트의 선 플롯에는 50에서 70 사이의 온도와 80에서 100 사이의 온도에 대해 "x"표시가 있지만 70에서 80 사이에는 아무것도 없습니다. 연구원은 수집 된 샘플에 특정 데이터 포인트가 표시되지 않는 이유를 더 깊이 파고 탐색 할 수 있습니다.
격리 된 그룹
클러스터는 격리 된 데이터 포인트 그룹입니다. 데이터 세트를 나타내는 방법 중 하나 인 선 그림은 데이터 세트에서 발생 빈도를 나타 내기 위해 특정 숫자 위에 "x"표시가있는 선입니다. 클러스터는 작은 간격 또는 데이터 하위 집합에서 이러한 "x"표시의 모음으로 표시됩니다. 예를 들어, 10 명의 학생으로 구성된 학급의 시험 점수가 74, 75, 80, 72, 74, 75, 76, 86, 88 및 73이면 선 플롯에서 가장 많은 "x"표시는 72- -76 점수 간격. 이것은 데이터 클러스터를 나타냅니다. 74와 75의 빈도는 2이지만 다른 모든 점수의 경우 1입니다.
극단에서
특이 치는 극단적 인 값, 즉 데이터 세트의 다른 값 밖에있는 데이터 포인트입니다. 특이 치는 데이터 세트에있는 대부분의 숫자보다 상당히 작거나 커야합니다. "극단적"의 정의는 연구에 참여한 분석가의 상황과 합의에 따라 달라집니다. 특이 치는 노이즈라고도하는 불량 데이터 포인트이거나 조사중인 현상 및 데이터 수집 방법 자체에 대한 중요한 정보를 포함 할 수 있습니다. 예를 들어, 클래스 점수가 대부분 70-80 범위에 있지만 몇 개의 점수가 낮은 50에 해당하는 경우 이는 특이 치를 나타낼 수 있습니다.
함께 모아서
데이터 세트의 간격, 특이 치 및 클러스터는 수학적 분석 결과에 영향을 미칠 수 있습니다. 갭과 클러스터는 데이터 수집 방법론의 오류를 나타낼 수 있습니다. 예를 들어, 전화 설문 조사에서 저소득 주택 단지 또는 고급 교외 지역과 같은 특정 지역 코드 만 조사하는 경우 인구의 넓은 단면이 아닌 주거 지역에서는 데이터에 격차와 클러스터가있을 가능성이 있습니다. 특이 치는 데이터 세트의 평균 또는 평균 값을 왜곡 할 수 있습니다. 예를 들어, 50, 55, 65 및 90의 4 개 숫자로 구성된 데이터 세트의 평균 또는 평균 값은 65입니다. 그러나 이상치 90이 없으면 평균은 약 57입니다.