클러스터 분석은 유사한 특성을 기반으로 데이터를 대표 그룹으로 구성하는 방법입니다. 클러스터의 각 구성원은 다른 그룹의 구성원보다 동일한 클러스터의 다른 구성원과 공통점이 더 많습니다. 그룹 내에서 가장 대표적인 점을 중심이라고합니다. 일반적으로 이것은 군집에있는 데이터 포인트 값의 평균입니다.
데이터를 구성합니다. 데이터가 단일 변수로 구성된 경우 히스토그램이 적절할 수 있습니다. 두 변수가 관련된 경우 좌표 평면에 데이터를 그래프로 표시합니다. 예를 들어, 교실에서 학교 아이들의 키와 몸무게를보고 있었다면 그래프의 각 어린이에 대한 데이터, 무게는 가로 축, 높이는 세로 중심선. 두 개 이상의 변수가 관련된 경우 데이터를 표시하기 위해 행렬이 필요할 수 있습니다.
데이터를 클러스터로 그룹화합니다. 각 클러스터는 가장 가까운 데이터 포인트로 구성되어야합니다. 키와 몸무게 예제에서 서로 가깝게 보이는 데이터 포인트를 그룹화합니다. 클러스터의 수와 모든 데이터 포인트가 클러스터에 있어야하는지 여부는 연구 목적에 따라 달라질 수 있습니다.
각 클러스터에 대해 모든 구성원의 값을 추가하십시오. 예를 들어 데이터 클러스터가 점 (80, 56), (75, 53), (60, 50) 및 (68,54)로 구성된 경우 값의 합은 (283, 213)이됩니다.
총계를 클러스터의 구성원 수로 나눕니다. 위의 예에서 283을 4로 나눈 값은 70.75이고 213을 4로 나눈 값은 53.25이므로 군집의 중심은 (70.75, 53.25)입니다.
군집 중심을 플로팅하고 자신의 군집 중심보다 다른 군집의 중심에 더 가까운 점이 있는지 확인합니다. 다른 중심에 더 가까운 점이 있으면 더 가까운 중심을 포함하는 군집에 재분배합니다.
모든 데이터 포인트가 가장 가까운 중심을 포함하는 군집에있을 때까지 3, 4, 5 단계를 반복합니다.