ניתוח אשכולות הוא שיטה לארגון נתונים לקבוצות מייצגות על בסיס מאפיינים דומים. לכל אחד מחברי האשכול יש יותר במשותף עם חברים אחרים באותו אשכול מאשר עם חברי הקבוצות האחרות. הנקודה המייצגת ביותר בקבוצה נקראת centroid. בדרך כלל זהו ממוצע הערכים של נקודות הנתונים באשכול.
ארגן את הנתונים. אם הנתונים מורכבים ממשתנה יחיד, היסטוגרמה עשויה להיות מתאימה. אם מעורבים שני משתנים, גרף את הנתונים במישור קואורדינטות. לדוגמא, אם היית מסתכל על הגובה והמשקל של ילדי בית הספר בכיתה, התווה את הנקודות של נתונים עבור כל ילד בגרף, כאשר המשקל הוא הציר האופקי והגובה הוא אנכי צִיר. אם מעורבים יותר משני משתנים, ייתכן שיהיה צורך במטריצות כדי להציג את הנתונים.
קיבץ את הנתונים לאשכולות. כל אשכול צריך להיות מורכב מנקודות הנתונים הקרובות אליו. בדוגמת הגובה והמשקל, קיבצו את כל נקודות הנתונים שנראות קרובות זו לזו. מספר האשכולות והאם כל נקודת נתונים צריכה להיות באשכול, עשויים להיות תלויים במטרות המחקר.
עבור כל אשכול, הוסף את הערכים של כל החברים. לדוגמא, אם מקבץ נתונים מורכב מהנקודות (80, 56), (75, 53), (60, 50) ו- (68,54), סכום הערכים יהיה (283, 213).
חלק את המספר הכולל במספר חברי האשכול. בדוגמה לעיל, 283 מחולק לארבע הוא 70.75, ו- 213 מחולק לארבעה הוא 53.25, כך שמרכז הצביר הוא (70.75, 53.25).
תכנן את מרכזי האשכול וקבע אם נקודות כלשהן קרובות יותר למרכז של אשכול אחר מאשר למרכז של האשכול שלהן. אם נקודות כלשהן קרובות יותר לסנטרואיד אחר, חלוק אותן מחדש לאשכול המכיל את סנטרואיד קרוב יותר.
חזור על שלבים 3, 4 ו -5 עד שכל נקודות הנתונים נמצאות באשכול המכיל את ה- centroid אליו הן הכי קרובות.