Klusteranalys är en metod för att organisera data i representativa grupper baserat på liknande egenskaper. Varje medlem i klustret har mer gemensamt med andra medlemmar i samma kluster än med medlemmar i de andra grupperna. Den mest representativa punkten i gruppen kallas centroid. Vanligtvis är detta medelvärdet av värdena för datapunkterna i klustret.
Organisera data. Om data består av en enda variabel kan ett histogram vara lämpligt. Om två variabler är inblandade, grafera data i ett koordinatplan. Om du till exempel tittade på skolbarns längd och vikt i ett klassrum, plotta poängen för data för varje barn i ett diagram, med vikten som den horisontella axeln och höjden är den vertikala axel. Om mer än två variabler är inblandade kan matriser behövas för att visa data.
Gruppera data i kluster. Varje kluster ska bestå av de datapunkter som ligger närmast det. I höjd- och viktexemplet grupperar du alla datapunkter som verkar ligga nära varandra. Antalet kluster och om varje datapunkt måste vara i ett kluster kan bero på syftet med studien.
Lägg till värdena för alla medlemmar för varje kluster. Till exempel, om ett kluster av data bestod av punkterna (80, 56), (75, 53), (60, 50) och (68,54), skulle summan av värdena vara (283, 213).
Dela totalen med antalet medlemmar i klustret. I exemplet ovan är 283 dividerat med fyra 70,75 och 213 dividerat med fyra är 53,25, så klustrets centrum är (70,75, 53,25).
Plotta klustercentroiderna och avgöra om några punkter är närmare en centroid av ett annat kluster än de är för centrroid i sitt eget kluster. Om några punkter är närmare en annan centroid, omfördela dem till klustret som innehåller närmare centroid.
Upprepa steg 3, 4 och 5 tills alla datapunkter finns i klustret som innehåller den centrroid som de är närmast till.