การวิเคราะห์คลัสเตอร์เป็นวิธีการจัดระเบียบข้อมูลเป็นกลุ่มที่เป็นตัวแทนตามลักษณะที่คล้ายคลึงกัน สมาชิกของคลัสเตอร์แต่ละคนมีความเหมือนกันกับสมาชิกอื่นในคลัสเตอร์เดียวกันมากกว่าสมาชิกของกลุ่มอื่น จุดที่เป็นตัวแทนมากที่สุดในกลุ่มเรียกว่าเซนทรอยด์ โดยปกติ นี่คือค่าเฉลี่ยของค่าของจุดข้อมูลในคลัสเตอร์
จัดระเบียบข้อมูล หากข้อมูลประกอบด้วยตัวแปรเดียว ฮิสโตแกรมอาจเหมาะสม หากเกี่ยวข้องกับสองตัวแปร ให้สร้างกราฟข้อมูลบนระนาบพิกัด ตัวอย่างเช่น หากคุณกำลังดูส่วนสูงและน้ำหนักของเด็กนักเรียนในห้องเรียน ให้พล็อตจุดของ ข้อมูลเด็กแต่ละคนบนกราฟ โดยน้ำหนักเป็นแกนนอนและส่วนสูงเป็นแนวตั้ง แกน. หากมีตัวแปรที่เกี่ยวข้องมากกว่า 2 ตัว อาจจำเป็นต้องใช้เมทริกซ์เพื่อแสดงข้อมูล
จัดกลุ่มข้อมูลเป็นกลุ่ม แต่ละคลัสเตอร์ควรประกอบด้วยจุดข้อมูลที่ใกล้เคียงที่สุด ในตัวอย่างส่วนสูงและน้ำหนัก ให้จัดกลุ่มจุดข้อมูลที่ดูเหมือนจะอยู่ใกล้กัน จำนวนคลัสเตอร์ และไม่ว่าจุดข้อมูลทุกจุดจะต้องอยู่ในคลัสเตอร์หรือไม่ อาจขึ้นอยู่กับวัตถุประสงค์ของการศึกษา
สำหรับแต่ละคลัสเตอร์ ให้เพิ่มค่าของสมาชิกทั้งหมด ตัวอย่างเช่น หากกลุ่มข้อมูลประกอบด้วยจุด (80, 56), (75, 53), (60, 50) และ (68,54) ผลรวมของค่าจะเป็น (283, 213)
หารผลรวมด้วยจำนวนสมาชิกของคลัสเตอร์ ในตัวอย่างข้างต้น 283 หารด้วยสี่คือ 70.75 และ 213 หารด้วยสี่คือ 53.25 ดังนั้นเซนทรอยด์ของคลัสเตอร์คือ (70.75, 53.25)
พล็อตเซนทรอยด์ของคลัสเตอร์และพิจารณาว่ามีจุดใดที่ใกล้กับเซนทรอยด์ของคลัสเตอร์อื่นมากกว่าจุดเซนทรอยด์ของคลัสเตอร์ของตัวเอง หากมีจุดใดใกล้กับเซนทรอยด์อื่น ให้แจกจ่ายซ้ำไปยังคลัสเตอร์ที่มีเซนทรอยด์ที่ใกล้กว่า
ทำซ้ำขั้นตอนที่ 3, 4 และ 5 จนกว่าจุดข้อมูลทั้งหมดจะอยู่ในคลัสเตอร์ที่มีเซนทรอยด์ที่อยู่ใกล้ที่สุด