Klyngeanalyse er en metode til at organisere data i repræsentative grupper baseret på lignende karakteristika. Hvert medlem af klyngen har mere til fælles med andre medlemmer af den samme klynge end med medlemmer af de andre grupper. Det mest repræsentative punkt i gruppen kaldes centroid. Normalt er dette gennemsnittet af værdierne for datapunkterne i klyngen.
Organiser dataene. Hvis dataene består af en enkelt variabel, kan et histogram muligvis være passende. Hvis to variabler er involveret, skal du tegne dataene i et koordinatplan. For eksempel, hvis du så på skolebørnenes højde og vægt i et klasseværelse, skal du plotte punkterne på data for hvert barn på en graf, hvor vægten er den vandrette akse og højden er lodret akse. Hvis der er mere end to variabler involveret, kan det være nødvendigt med matricer for at vise dataene.
Gruppér dataene i klynger. Hver klynge skal bestå af de datapunkter, der er tættest på den. I eksemplet højde og vægt grupperer du alle datapunkter, der ser ud til at være tæt på hinanden. Antallet af klynger, og om hvert punkt af data skal være i en klynge, kan afhænge af undersøgelsens formål.
For hver klynge skal du tilføje værdierne for alle medlemmer. For eksempel, hvis en klynge af data bestod af punkterne (80, 56), (75, 53), (60, 50) og (68,54), ville summen af værdierne være (283, 213).
Del det samlede antal efter antallet af medlemmer af klyngen. I eksemplet ovenfor er 283 divideret med fire 70,75, og 213 divideret med fire er 53,25, så klyngens centroid er (70,75, 53,25).
Plot klyngecentrroiderne og bestem, om nogen punkter er tættere på en centroid i en anden klynge, end de er i centrum af deres egen klynge. Hvis nogle punkter er tættere på en anden centroid, skal du omfordele dem til klyngen, der indeholder den tættere centroid.
Gentag trin 3, 4 og 5, indtil alle datapunkter er i klyngen, der indeholder den centroid, som de er tættest på.