Клъстерният анализ е метод за организиране на данни в представителни групи въз основа на подобни характеристики. Всеки член на клъстера има повече общо с други членове на същия клъстер, отколкото с членовете на другите групи. Най-представителната точка в групата се нарича центроид. Обикновено това е средната стойност на стойностите на точките от данни в клъстера.
Организирайте данните. Ако данните се състоят от една променлива, може да е подходяща хистограма. Ако са включени две променливи, изобразете данните на координатна равнина. Например, ако търсите височината и теглото на учениците в класната стая, начертайте точките на данни за всяко дете на графика, като теглото е хоризонталната ос, а височината е вертикалната ос. Ако са включени повече от две променливи, може да са необходими матрици за показване на данните.
Групирайте данните в клъстери. Всеки клъстер трябва да се състои от най-близките до него точки от данни. В примера за височина и тегло групирайте всички точки от данни, които изглеждат близо една до друга. Броят на клъстерите и дали всяка точка от данни трябва да бъде в клъстер, може да зависи от целите на изследването.
За всеки клъстер добавете стойностите на всички членове. Например, ако клъстер от данни се състои от точките (80, 56), (75, 53), (60, 50) и (68,54), сумата от стойностите ще бъде (283, 213).
Разделете общия брой на броя членове на клъстера. В горния пример 283, разделено на четири, е 70,75, а 213, разделено на четири, е 53,25, така че центроидът на клъстера е (70,75, 53,25).
Начертайте клъстерните центроиди и определете дали някои точки са по-близо до центроид на друг клъстер, отколкото до центроида на собствения им клъстер. Ако някои точки са по-близо до различен центроид, преразпределете ги в клъстера, съдържащ по-близкия центроид.
Повторете стъпки 3, 4 и 5, докато всички точки от данни са в клъстера, съдържащ центроида, до който са най-близо.