Klastrová analýza je metoda organizace dat do reprezentativních skupin na základě podobných charakteristik. Každý člen klastru má více společného s ostatními členy stejného klastru než s členy ostatních skupin. Nejreprezentativnější bod ve skupině se nazývá těžiště. Obvykle se jedná o průměr hodnot hodnot datových bodů v klastru.
Uspořádejte data. Pokud se data skládají z jedné proměnné, může být vhodný histogram. Pokud jsou zahrnuty dvě proměnné, vytvořte graf dat na rovině souřadnic. Pokud jste se například dívali na výšku a váhu školních dětí ve třídě, zakreslete body údaje o každém dítěti v grafu, přičemž váha je vodorovná osa a výška je svislá osa. Pokud jsou zahrnuty více než dvě proměnné, může být pro zobrazení dat potřeba matice.
Seskupte data do klastrů. Každý klastr by měl sestávat z nejbližších datových bodů. V příkladu výšky a hmotnosti seskupte všechny datové body, které se zdají být blízko u sebe. Počet klastrů a to, zda každý bod dat musí být v klastru, může záviset na účelech studie.
Pro každý klastr přidejte hodnoty všech členů. Pokud by se například soubor dat skládal z bodů (80, 56), (75, 53), (60, 50) a (68,54), součet hodnot by byl (283, 213).
Vydělte celkem počtem členů klastru. Ve výše uvedeném příkladu je 283 děleno čtyřmi 70,75 a 213 děleno čtyřmi je 53,25, takže těžiště klastru je (70,75, 53,25).
Vyneste centroidy klastru a určete, zda jsou některé body blíže k těžišti jiného klastru než k těžišti jejich vlastního klastru. Pokud jsou některé body blíže k jinému těžišti, přerozdělte je do klastru obsahujícího bližší těžiště.
Opakujte kroky 3, 4 a 5, dokud nejsou všechny body dat v klastru obsahujícím těžiště, ke kterému jsou nejblíže.