A klaszteranalízis az adatok reprezentatív csoportokba rendezésének módszere hasonló jellemzők alapján. A klaszter minden tagjának több közös vonása van ugyanazon klaszter többi tagjával, mint a többi csoport tagjaival. A csoporton belül a legreprezentatívabb pontot centroidnak nevezik. Általában ez a fürt adatpontjainak átlaga.
Rendezze az adatokat. Ha az adatok egyetlen változóból állnak, megfelelő lehet egy hisztogram. Ha két változó vesz részt, ábrázolja az adatokat egy koordináta síkon. Például, ha az iskolás gyermekek magasságát és súlyát nézte az osztályteremben, ábrázolja a pontokat minden gyermek adatait egy grafikonon, a súly a vízszintes tengely, a magasság pedig a függőleges tengely. Ha kettőnél több változó szerepel, mátrixokra lehet szükség az adatok megjelenítéséhez.
Csoportosítsa az adatokat klaszterekbe. Minden fürtnek a hozzá legközelebb eső adatpontokból kell állnia. A magasság és súly példában csoportosítson minden olyan pontot, amely szorosnak tűnik. A klaszterek száma és az, hogy az adatok minden pontjának klaszterben kell-e lennie, a vizsgálat céljától függ.
Minden fürthöz adja hozzá az összes tag értékét. Például, ha egy adatfürt a (80, 56), (75, 53), (60, 50) és (68,54) pontokból állna, akkor az értékek összege (283, 213) lenne.
Osszuk el az összeget a fürt tagjainak számával. A fenti példában 283 néggyel osztva 70,75, és 213 néggyel elosztva 53,25, tehát a klaszter centroidja (70,75, 53,25).
Ábrázolja a fürt centridjait, és meghatározza, hogy vannak-e pontok közelebb egy másik fürt centroidjához, mint a saját fürtjük centroidjához. Ha bármelyik pont közelebb van egy másik centroidhoz, ossza el újra a közelebbi centroidot tartalmazó fürtön.
Ismételje meg a 3., 4. és 5. lépést mindaddig, amíg az összes adat azon a fürtön van, amely a centroidot tartalmazza, amelyhez a legközelebb van.