Klusterianalyysi on menetelmä tietojen järjestämiseksi edustaviin ryhmiin samankaltaisten ominaisuuksien perusteella. Jokaisella klusterin jäsenellä on enemmän yhteistä saman klusterin muiden jäsenten kanssa kuin muiden ryhmien jäsenten kanssa. Ryhmän edustavinta pistettä kutsutaan sentroidiksi. Yleensä tämä on klusterin datapisteiden keskiarvo.
Järjestä tiedot. Jos tiedot koostuvat yhdestä muuttujasta, histogrammi saattaa olla sopiva. Jos kyseessä on kaksi muuttujaa, piirrä tiedot koordinaattitasolle. Jos esimerkiksi katsot koululasten pituutta ja painoa luokassa, piirrä pisteet kunkin lapsen tiedot kaaviossa painon ollessa vaaka-akseli ja korkeuden pystysuoran akseli. Jos kyseessä on useampi kuin kaksi muuttujaa, matriiseja voidaan tarvita tietojen näyttämiseen.
Ryhmittele tiedot klustereihin. Jokaisen klusterin tulisi koostua sitä lähinnä olevista datapisteistä. Ryhmittele korkeus- ja painoesimerkissä tietopisteet, jotka näyttävät olevan lähellä toisiaan. Klustereiden määrä ja se, onko jokaisen datapisteen oltava ryhmässä, voi riippua tutkimuksen tarkoituksista.
Lisää jokaiselle klusterille kaikkien jäsenten arvot. Esimerkiksi, jos tietoryhmä koostuu pisteistä (80, 56), (75, 53), (60, 50) ja (68,54), arvojen summa olisi (283, 213).
Jaa kokonaismäärä klusterin jäsenten lukumäärällä. Yllä olevassa esimerkissä 283 jaettuna neljällä on 70,75 ja 213 jaettuna neljällä on 53,25, joten klusterin keskiö on (70,75, 53,25).
Piirrä klusterin keskiosat ja määritä, ovatko pisteet lähempänä toisen klusterin sentroidia kuin oman klusterinsa keskipistettä. Jos jokin pisteistä on lähempänä toista sentroidia, jaa ne uudelleen ryhmään, joka sisältää lähemmän sentroidin.
Toista vaiheet 3, 4 ja 5, kunnes kaikki datapisteet ovat ryhmässä, joka sisältää sentroidin, jota ne ovat lähinnä.