Clusteranalyse is een methode om gegevens te ordenen in representatieve groepen op basis van vergelijkbare kenmerken. Elk lid van het cluster heeft meer gemeen met andere leden van hetzelfde cluster dan met leden van de andere groepen. Het meest representatieve punt binnen de groep wordt het zwaartepunt genoemd. Meestal is dit het gemiddelde van de waarden van de gegevenspunten in het cluster.
Organiseer de gegevens. Als de gegevens uit één variabele bestaan, kan een histogram geschikt zijn. Als er twee variabelen bij betrokken zijn, zet u de gegevens in een grafiek op een coördinatenvlak. Als u bijvoorbeeld kijkt naar de lengte en het gewicht van schoolkinderen in een klaslokaal, plot dan de punten van gegevens voor elk kind in een grafiek, waarbij het gewicht de horizontale as is en de hoogte de verticale as. Als er meer dan twee variabelen bij betrokken zijn, kunnen matrices nodig zijn om de gegevens weer te geven.
Groepeer de gegevens in clusters. Elk cluster moet bestaan uit de gegevenspunten die er het dichtst bij liggen. Groepeer in het voorbeeld van lengte en gewicht alle gegevens die dicht bij elkaar lijken te liggen. Het aantal clusters, en of elk datapunt zich in een cluster moet bevinden, kan afhangen van de doeleinden van het onderzoek.
Voeg voor elk cluster de waarden van alle leden toe. Als een cluster van gegevens bijvoorbeeld zou bestaan uit de punten (80, 56), (75, 53), (60, 50) en (68,54), zou de som van de waarden (283, 213) zijn.
Deel het totaal door het aantal leden van het cluster. In het bovenstaande voorbeeld is 283 gedeeld door vier 70,75 en 213 gedeeld door vier is 53,25, dus het zwaartepunt van het cluster is (70,75, 53,25).
Teken de clusterzwaartepunten en bepaal of er punten dichter bij een zwaartepunt van een ander cluster liggen dan bij het zwaartepunt van hun eigen cluster. Als er punten dichter bij een ander zwaartepunt liggen, verdeel ze dan opnieuw over het cluster met het dichtstbijzijnde zwaartepunt.
Herhaal stap 3, 4 en 5 totdat alle gegevenspunten zich in het cluster bevinden met het zwaartepunt waar ze zich het dichtst bij bevinden.