Кластер анализа је метода организовања података у репрезентативне групе на основу сличних карактеристика. Сваки члан кластера има више заједничког са осталим члановима истог кластера него са члановима осталих група. Најрепрезентативнија тачка у групи назива се центроид. Обично је ово средња вредност тачака података у кластеру.
Организујте податке. Ако се подаци састоје од једне променљиве, хистограм би могао бити прикладан. Ако су у питању две променљиве, графички прикажите податке на координатној равни. На пример, ако сте у учионици гледали висину и тежину школске деце, зацртајте тачке од подаци за свако дете на графикону, при чему је тежина хоризонтална ос, а висина вертикална ос. Ако је укључено више од две променљиве, можда ће бити потребне матрице за приказ података.
Групирајте податке у кластере. Сваки кластер треба да се састоји од тачака података које су му најближе. У примеру висине и тежине груписите све тачке података за које се чини да су близу. Број кластера и то да ли свака тачка података мора бити у кластеру, може зависити од сврхе студије.
За сваки кластер додајте вредности свих чланова. На пример, ако се кластер података састојао од тачака (80, 56), (75, 53), (60, 50) и (68,54), збир вредности био би (283, 213).
Поделите укупан број са бројем чланова кластера. У горњем примеру, 283 подељено са четири је 70,75, а 213 подељено са четири је 53,25, па је тежиште кластера (70,75, 53,25).
Нацртајте тежишта кластера и одредите да ли су неке тачке ближе тежишту другог кластера него што су тежишту њиховог сопственог јата. Ако су неке тачке ближе другом тежишту, распоредите их у групу која садржи тежиште ближе.
Понављајте кораке 3, 4 и 5 док се све тачке података не нађу у групи која садржи центроид којем су најближе.