Klasteranalüüs on meetod andmete korraldamiseks esindusrühmadesse, tuginedes sarnastele omadustele. Igal klastri liikmel on rohkem ühist sama klastri teiste liikmetega kui teiste rühmade liikmetega. Rühma kõige esinduslikumat punkti nimetatakse tsentroidiks. Tavaliselt on see klastri andmepunktide väärtuste keskmine.
Korrastage andmeid. Kui andmed koosnevad ühest muutujast, võib sobida histogramm. Kui tegemist on kahe muutujaga, graafige andmed koordinaattasandil. Näiteks kui vaatasite klassilaste koolilaste pikkust ja kaalu, joonistage punktid üles iga lapse andmed graafikul, kusjuures kaal on horisontaaltelg ja kõrgus vertikaalne telg. Kui tegemist on rohkem kui kahe muutujaga, võib andmete kuvamiseks vaja minna maatriksit.
Grupeerige andmed klastritesse. Iga klaster peaks koosnema talle lähimatest andmepunktidest. Rühmitage näites pikkus ja kaal kõik andmete punktid, mis tunduvad olevat üksteise lähedal. Klastrite arv ja see, kas iga andmepunkt peab olema klastris, võib sõltuda uuringu eesmärkidest.
Lisage iga klastri jaoks kõigi liikmete väärtused. Näiteks kui andmekobar koosneks punktidest (80, 56), (75, 53), (60, 50) ja (68,54), oleks väärtuste summa (283, 213).
Jagage kogusumma klastri liikmete arvuga. Ülaltoodud näites on 283 jagatud neljaga 70,75 ja 213 jagatud neljaga 53,25, seega on klastri tsentroid (70,75, 53,25).
Joonistage klastri tsentriidid ja tehke kindlaks, kas mõni punkt on mõne teise klastri tsentroidile lähemal kui nende enda klastri tsentroidile. Kui mõni punkt on mõnele teisele tsentroidile lähemal, jaotage need ümber lähemale tsentroidile vastavasse klastrisse.
Korrake samme 3, 4 ja 5, kuni kõik andmepunktid asuvad tsentroidi sisaldavas klastris, millele need on kõige lähemal.