Кластерный анализ - это метод организации данных в репрезентативные группы на основе схожих характеристик. Каждый член кластера имеет больше общего с другими членами того же кластера, чем с членами других групп. Наиболее репрезентативная точка в группе называется центроидом. Обычно это среднее значение точек данных в кластере.
Организуйте данные. Если данные состоят из одной переменной, гистограмма может быть подходящей. Если задействованы две переменные, изобразите данные на координатной плоскости. Например, если вы смотрели на рост и вес школьников в классе, нарисуйте точки данные для каждого ребенка на графике, где вес - по горизонтальной оси, а высота - по вертикали ось. Если задействовано более двух переменных, для отображения данных могут потребоваться матрицы.
Сгруппируйте данные в кластеры. Каждый кластер должен состоять из ближайших к нему точек данных. В примере роста и веса сгруппируйте любые точки данных, которые кажутся близкими друг к другу. Количество кластеров и то, должна ли каждая точка данных находиться в кластере, может зависеть от целей исследования.
Для каждого кластера сложите значения всех членов. Например, если кластер данных состоит из точек (80, 56), (75, 53), (60, 50) и (68,54), сумма значений будет (283, 213).
Разделите сумму на количество членов кластера. В приведенном выше примере 283, разделенное на четыре, составляет 70,75, а 213, разделенное на четыре, составляет 53,25, поэтому центроид кластера равен (70,75, 53,25).
Постройте центроиды кластера и определите, находятся ли какие-либо точки ближе к центроиду другого кластера, чем к центроиду их собственного кластера. Если какие-либо точки находятся ближе к другому центроиду, перераспределите их в кластер, содержащий более близкий центроид.
Повторяйте шаги 3, 4 и 5, пока все точки данных не окажутся в кластере, содержащем центроид, к которому они ближе всего.