गणित में गैप, क्लस्टर और आउटलेयर क्या हैं?

व्यवसाय, सरकार और शैक्षणिक गतिविधियों में लगभग हमेशा डेटा के संग्रह और विश्लेषण की आवश्यकता होती है। संख्यात्मक डेटा का प्रतिनिधित्व करने का एक तरीका ग्राफ़, हिस्टोग्राम और चार्ट के माध्यम से है। ये विज़ुअलाइज़ेशन तकनीक लोगों को समस्याओं में बेहतर अंतर्दृष्टि प्राप्त करने और समाधान तैयार करने की अनुमति देती है। गैप, क्लस्टर और आउटलेयर डेटा सेट की विशेषताएं हैं जो गणितीय विश्लेषण को प्रभावित करते हैं और दृश्य अभ्यावेदन पर आसानी से दिखाई देते हैं।

डेटा में छेद

अंतराल डेटा सेट में अनुपलब्ध क्षेत्रों को संदर्भित करता है। उदाहरण के लिए, यदि कोई वैज्ञानिक प्रयोग ५० डिग्री फ़ारेनहाइट की सीमा में तापमान डेटा एकत्र करता है १०० डिग्री फ़ारेनहाइट, लेकिन ७० और ८० डिग्री के बीच कुछ भी नहीं, जो डेटा में एक अंतर का प्रतिनिधित्व करेगा सेट। इस डेटा सेट के एक लाइन प्लॉट में ५० और ७० के बीच और फिर ८० और १०० के बीच तापमान के लिए "x" अंक होंगे, लेकिन ७० और ८० के बीच कुछ भी नहीं होगा। शोधकर्ता गहरी खुदाई कर सकते हैं और यह पता लगा सकते हैं कि कुछ डेटा बिंदु एकत्रित नमूने में क्यों नहीं दिखाई देते हैं।

पृथक समूह

क्लस्टर डेटा बिंदुओं के पृथक समूह हैं। लाइन प्लॉट, जो डेटा सेट का प्रतिनिधित्व करने के तरीकों में से एक हैं, डेटा सेट में घटना की आवृत्ति को दर्शाने के लिए विशिष्ट संख्याओं के ऊपर "x" चिह्न वाली रेखाएं हैं। एक क्लस्टर को छोटे अंतराल या डेटा सबसेट में इन "x" चिह्नों के संग्रह के रूप में दर्शाया गया है। उदाहरण के लिए, यदि 10 छात्रों की कक्षा के लिए परीक्षा के अंक 74, 75, 80, 72, 74, 75, 76, 86, 88 और 73 हैं, तो एक लाइन प्लॉट पर सबसे अधिक "x" अंक 72- में होंगे। to-76 स्कोर अंतराल। यह एक डेटा क्लस्टर का प्रतिनिधित्व करेगा। ध्यान दें कि 74 और 75 के लिए बारंबारता दो है, लेकिन अन्य सभी अंकों के लिए, यह एक है।

instagram story viewer

चरम पर

आउटलेयर चरम मूल्य हैं - डेटा बिंदु जो डेटा सेट में अन्य मानों के बाहर महत्वपूर्ण रूप से झूठ बोलते हैं। एक आउटलेयर डेटा सेट में अधिकांश संख्याओं से काफी कम या अधिक होना चाहिए। "चरम" की परिभाषा शोध में शामिल विश्लेषकों की परिस्थिति और आम सहमति पर निर्भर करती है। आउटलेयर खराब डेटा बिंदु हो सकते हैं, जिन्हें शोर के रूप में भी जाना जाता है, या उनमें जांच की जा रही घटना और डेटा संग्रह पद्धति के बारे में मूल्यवान जानकारी हो सकती है। उदाहरण के लिए, यदि कक्षा के स्कोर अधिकतर 70-से-80 की सीमा में हैं, लेकिन कुछ स्कोर कम 50 के दशक में हैं, तो वे आउटलेयर का प्रतिनिधित्व कर सकते हैं।

यह सब एक साथ डालें

डेटा सेट में अंतराल, आउटलेयर और क्लस्टर गणितीय विश्लेषण के परिणामों को प्रभावित कर सकते हैं। अंतराल और क्लस्टर डेटा संग्रह पद्धति में त्रुटियों का प्रतिनिधित्व कर सकते हैं। उदाहरण के लिए, यदि कोई टेलीफोन सर्वेक्षण केवल कुछ निश्चित क्षेत्र कोडों का सर्वेक्षण करता है, जैसे कम आय वाले आवास परिसर या उच्च अंत उपनगरीय आवासीय क्षेत्र, और आबादी का एक व्यापक क्रॉस-सेक्शन नहीं, संभावना है कि डेटा में अंतराल और क्लस्टर होंगे। आउटलेयर डेटा सेट के माध्य या औसत मान को तिरछा कर सकते हैं। उदाहरण के लिए, चार संख्याओं - ५०, ५५, ६५ और ९० से युक्त डेटा सेट का माध्य या औसत मान ६५ है। बाहरी 90 के बिना, हालांकि, माध्य लगभग 57 है।

Teachs.ru
  • शेयर
instagram viewer