क्लस्टरिंग विश्लेषण में सेंट्रोइड कैसे खोजें

क्लस्टर विश्लेषण समान विशेषताओं के आधार पर डेटा को प्रतिनिधि समूहों में व्यवस्थित करने की एक विधि है। क्लस्टर के प्रत्येक सदस्य में अन्य समूहों के सदस्यों की तुलना में समान क्लस्टर के अन्य सदस्यों के साथ अधिक समानता है। समूह के भीतर सबसे अधिक प्रतिनिधि बिंदु को केन्द्रक कहा जाता है। आमतौर पर, यह क्लस्टर में डेटा बिंदुओं के मानों का माध्य होता है।

डेटा व्यवस्थित करें। यदि डेटा में एक एकल चर होता है, तो एक हिस्टोग्राम उपयुक्त हो सकता है। यदि दो चर शामिल हैं, तो डेटा को एक समन्वय विमान पर ग्राफ़ करें। उदाहरण के लिए, यदि आप कक्षा में स्कूली बच्चों की ऊंचाई और वजन देख रहे थे, तो के बिंदुओं को आलेखित करें ग्राफ पर प्रत्येक बच्चे के लिए डेटा, वजन क्षैतिज अक्ष और ऊंचाई लंबवत है एक्सिस। यदि दो से अधिक चर शामिल हैं, तो डेटा प्रदर्शित करने के लिए मैट्रिक्स की आवश्यकता हो सकती है।

डेटा को समूहों में समूहित करें। प्रत्येक क्लस्टर में उसके निकटतम डेटा बिंदु शामिल होने चाहिए। ऊंचाई और वजन के उदाहरण में, डेटा के किसी भी बिंदु को समूहित करें जो एक साथ निकट प्रतीत होता है। क्लस्टरों की संख्या, और डेटा के प्रत्येक बिंदु को क्लस्टर में होना चाहिए या नहीं, यह अध्ययन के उद्देश्यों पर निर्भर हो सकता है।

प्रत्येक क्लस्टर के लिए, सभी सदस्यों के मान जोड़ें। उदाहरण के लिए, यदि डेटा के समूह में बिंदु (80, 56), (75, 53), (60, 50), और (68,54) शामिल हैं, तो मानों का योग (283, 213) होगा।

कुल को क्लस्टर के सदस्यों की संख्या से विभाजित करें। ऊपर के उदाहरण में, 283 को चार से विभाजित करके 70.75 है, और 213 को चार से विभाजित करने पर 53.25 है, इसलिए क्लस्टर का केंद्रक (70.75, 53.25) है।

क्लस्टर सेंट्रोइड्स को प्लॉट करें और निर्धारित करें कि क्या कोई बिंदु दूसरे क्लस्टर के सेंट्रोइड के करीब है, जितना कि वे अपने क्लस्टर के सेंट्रोइड के लिए हैं। यदि कोई बिंदु किसी भिन्न केन्द्रक के निकट हैं, तो उन्हें निकट केन्द्रक वाले समूह में पुनर्वितरित करें।

चरण ३, ४ और ५ को तब तक दोहराएं जब तक कि डेटा के सभी बिंदु उस क्लस्टर में न हों जिसमें केंद्रक होता है जिसके वे निकटतम होते हैं।

  • शेयर
instagram viewer