Кластерний аналіз - це метод організації даних у репрезентативні групи на основі подібних характеристик. Кожен член кластеру має більше спільного з іншими членами того ж кластера, ніж з членами інших груп. Найбільш репрезентативна точка в групі називається центроїдом. Зазвичай це середнє значення значень точок даних у кластері.
Впорядкуйте дані. Якщо дані складаються з однієї змінної, гістограма може бути доречною. Якщо задіяні дві змінні, графікуйте дані на координатній площині. Наприклад, якщо ви дивилися на зріст і вагу школярів у класі, нанесіть пункти дані для кожної дитини на графіку, причому вага - горизонтальна вісь, а зріст - вертикальна вісь. Якщо задіяно більше двох змінних, для відображення даних можуть знадобитися матриці.
Групуйте дані у кластери. Кожен кластер повинен складатися з найближчих до нього точок даних. У прикладі зростання та ваги згрупуйте будь-які точки даних, які здаються близькими. Кількість кластерів і те, чи кожна точка даних повинна бути в кластері, може залежати від цілей дослідження.
Для кожного кластера додайте значення всіх членів. Наприклад, якби кластер даних складався з балів (80, 56), (75, 53), (60, 50) та (68,54), сума значень становила б (283, 213).
Поділіть загальну кількість на кількість членів кластеру. У наведеному вище прикладі 283, поділене на чотири, дорівнює 70,75, а 213, поділене на чотири, - 53,25, отже, центроїд кластера дорівнює (70,75, 53,25).
Побудуйте графік центроїдів кластера та визначте, чи є точки ближче до центроїда іншого кластера, ніж до центроїда власного кластера. Якщо будь-які точки розташовані ближче до іншого центроїда, перерозподіліть їх у скупчення, що містить ближче центроїд.
Повторюйте кроки 3, 4 і 5, поки всі точки даних не опиняться в кластері, що містить центроїд, до якого вони найближчі.