Η ανάλυση συμπλέγματος είναι μια μέθοδος οργάνωσης δεδομένων σε αντιπροσωπευτικές ομάδες με βάση παρόμοια χαρακτηριστικά. Κάθε μέλος του συμπλέγματος έχει περισσότερα κοινά με άλλα μέλη του ίδιου συμπλέγματος από ό, τι με τα μέλη των άλλων ομάδων. Το πιο αντιπροσωπευτικό σημείο της ομάδας ονομάζεται κεντροειδές. Συνήθως, αυτός είναι ο μέσος όρος των τιμών των σημείων δεδομένων στο σύμπλεγμα.
Οργανώστε τα δεδομένα. Εάν τα δεδομένα αποτελούνται από μία μόνο μεταβλητή, ένα ιστόγραμμα μπορεί να είναι κατάλληλο. Εάν εμπλέκονται δύο μεταβλητές, γράψτε τα δεδομένα σε επίπεδο συντεταγμένων. Για παράδειγμα, εάν κοιτάζετε το ύψος και το βάρος των μαθητών σε μια τάξη, σχεδιάστε τα σημεία του δεδομένα για κάθε παιδί σε ένα γράφημα, με το βάρος να είναι ο οριζόντιος άξονας και το ύψος να είναι το κατακόρυφο άξονας. Εάν εμπλέκονται περισσότερες από δύο μεταβλητές, ενδέχεται να χρειαστούν πίνακες για την εμφάνιση των δεδομένων.
Ομαδοποιήστε τα δεδομένα σε ομάδες. Κάθε σύμπλεγμα πρέπει να αποτελείται από σημεία πλησιέστερα σε αυτό. Στο παράδειγμα ύψους και βάρους, ομαδοποιήστε τυχόν σημεία δεδομένων που φαίνεται να είναι κοντά. Ο αριθμός των συμπλεγμάτων, και αν κάθε σημείο δεδομένων πρέπει να βρίσκεται σε ένα σύμπλεγμα, μπορεί να εξαρτάται από τους σκοπούς της μελέτης.
Για κάθε σύμπλεγμα, προσθέστε τις τιμές όλων των μελών. Για παράδειγμα, εάν ένα σύμπλεγμα δεδομένων αποτελείται από τα σημεία (80, 56), (75, 53), (60, 50) και (68,54), το άθροισμα των τιμών θα είναι (283, 213).
Διαιρέστε το σύνολο με τον αριθμό των μελών του συμπλέγματος. Στο παραπάνω παράδειγμα, 283 διαιρούμενο με τέσσερα είναι 70,75, και 213 διαιρούμενο με τέσσερα είναι 53,25, έτσι το κεντροειδές του συμπλέγματος είναι (70,75, 53,25).
Σχεδιάστε τα κεντροειδή του συμπλέγματος και προσδιορίστε εάν κάποια σημεία είναι πιο κοντά σε ένα κεντροειδές ενός άλλου συμπλέγματος από αυτά του κεντροειδούς του δικού τους συμπλέγματος. Εάν κάποια σημεία είναι πιο κοντά σε ένα άλλο κεντροειδές, ανακατανέμετέ τα στο σύμπλεγμα που περιέχει το πλησιέστερο κεντροειδή.
Επαναλάβετε τα βήματα 3, 4 και 5 έως ότου όλα τα σημεία δεδομένων βρίσκονται στο σύμπλεγμα που περιέχει το κεντροειδές στο οποίο βρίσκονται πιο κοντά.