Klaster analiza metoda je organiziranja podataka u reprezentativne skupine na temelju sličnih karakteristika. Svaki član klastera ima više zajedničkog s ostalim članovima istog klastera nego s članovima ostalih skupina. Najreprezentativnija točka unutar skupine naziva se centroid. Obično je to srednja vrijednost točaka podataka u klasteru.
Organizirajte podatke. Ako se podaci sastoje od jedne varijable, histogram bi mogao biti prikladan. Ako su uključene dvije varijable, grafički prikažite podatke na koordinatnoj ravnini. Na primjer, ako ste u učionici gledali visinu i težinu školske djece, ucrtajte točke podaci za svako dijete na grafikonu, pri čemu je težina vodoravna os, a visina okomita os. Ako je riječ o više od dvije varijable, matrice će možda biti potrebne za prikaz podataka.
Skupite podatke u klastere. Svaka klastera trebala bi se sastojati od točaka podataka koje su joj najbliže. U primjeru visine i težine grupirajte sve točke podataka za koje se čini da su blizu jedna drugoj. Broj klastera i mora li svaka točka podataka biti u klasteru, može ovisiti o svrhama studije.
Za svaki klaster dodajte vrijednosti svih članova. Na primjer, ako se skupina podataka sastojala od točaka (80, 56), (75, 53), (60, 50) i (68,54), zbroj vrijednosti bio bi (283, 213).
Podijelite ukupan broj s brojem članova klastera. U gornjem primjeru 283 podijeljeno s četiri je 70,75, a 213 podijeljeno s četiri 53,25, pa je težište nakupine (70,75, 53,25).
Nacrtajte centroide klastera i odredite jesu li neke točke bliže centroidu drugog klastera, nego što su težištu vlastitog klastera. Ako su bilo koje točke bliže drugom centroidu, rasporedite ih u nakupinu koja sadrži bliži centroid.
Ponavljajte korake 3, 4 i 5 dok se sve točke podataka ne nađu u grupi koja sadrži centroid kojem su najbliže.