व्यवसाय, सरकार और शैक्षणिक गतिविधियों में लगभग हमेशा डेटा के संग्रह और विश्लेषण की आवश्यकता होती है। संख्यात्मक डेटा का प्रतिनिधित्व करने का एक तरीका ग्राफ़, हिस्टोग्राम और चार्ट के माध्यम से है। ये विज़ुअलाइज़ेशन तकनीक लोगों को समस्याओं में बेहतर अंतर्दृष्टि प्राप्त करने और समाधान तैयार करने की अनुमति देती है। गैप, क्लस्टर और आउटलेयर डेटा सेट की विशेषताएं हैं जो गणितीय विश्लेषण को प्रभावित करते हैं और दृश्य अभ्यावेदन पर आसानी से दिखाई देते हैं।
डेटा में छेद
अंतराल डेटा सेट में अनुपलब्ध क्षेत्रों को संदर्भित करता है। उदाहरण के लिए, यदि कोई वैज्ञानिक प्रयोग ५० डिग्री फ़ारेनहाइट की सीमा में तापमान डेटा एकत्र करता है १०० डिग्री फ़ारेनहाइट, लेकिन ७० और ८० डिग्री के बीच कुछ भी नहीं, जो डेटा में एक अंतर का प्रतिनिधित्व करेगा सेट। इस डेटा सेट के एक लाइन प्लॉट में ५० और ७० के बीच और फिर ८० और १०० के बीच तापमान के लिए "x" अंक होंगे, लेकिन ७० और ८० के बीच कुछ भी नहीं होगा। शोधकर्ता गहरी खुदाई कर सकते हैं और यह पता लगा सकते हैं कि कुछ डेटा बिंदु एकत्रित नमूने में क्यों नहीं दिखाई देते हैं।
पृथक समूह
क्लस्टर डेटा बिंदुओं के पृथक समूह हैं। लाइन प्लॉट, जो डेटा सेट का प्रतिनिधित्व करने के तरीकों में से एक हैं, डेटा सेट में घटना की आवृत्ति को दर्शाने के लिए विशिष्ट संख्याओं के ऊपर "x" चिह्न वाली रेखाएं हैं। एक क्लस्टर को छोटे अंतराल या डेटा सबसेट में इन "x" चिह्नों के संग्रह के रूप में दर्शाया गया है। उदाहरण के लिए, यदि 10 छात्रों की कक्षा के लिए परीक्षा के अंक 74, 75, 80, 72, 74, 75, 76, 86, 88 और 73 हैं, तो एक लाइन प्लॉट पर सबसे अधिक "x" अंक 72- में होंगे। to-76 स्कोर अंतराल। यह एक डेटा क्लस्टर का प्रतिनिधित्व करेगा। ध्यान दें कि 74 और 75 के लिए बारंबारता दो है, लेकिन अन्य सभी अंकों के लिए, यह एक है।
चरम पर
आउटलेयर चरम मूल्य हैं - डेटा बिंदु जो डेटा सेट में अन्य मानों के बाहर महत्वपूर्ण रूप से झूठ बोलते हैं। एक आउटलेयर डेटा सेट में अधिकांश संख्याओं से काफी कम या अधिक होना चाहिए। "चरम" की परिभाषा शोध में शामिल विश्लेषकों की परिस्थिति और आम सहमति पर निर्भर करती है। आउटलेयर खराब डेटा बिंदु हो सकते हैं, जिन्हें शोर के रूप में भी जाना जाता है, या उनमें जांच की जा रही घटना और डेटा संग्रह पद्धति के बारे में मूल्यवान जानकारी हो सकती है। उदाहरण के लिए, यदि कक्षा के स्कोर अधिकतर 70-से-80 की सीमा में हैं, लेकिन कुछ स्कोर कम 50 के दशक में हैं, तो वे आउटलेयर का प्रतिनिधित्व कर सकते हैं।
यह सब एक साथ डालें
डेटा सेट में अंतराल, आउटलेयर और क्लस्टर गणितीय विश्लेषण के परिणामों को प्रभावित कर सकते हैं। अंतराल और क्लस्टर डेटा संग्रह पद्धति में त्रुटियों का प्रतिनिधित्व कर सकते हैं। उदाहरण के लिए, यदि कोई टेलीफोन सर्वेक्षण केवल कुछ निश्चित क्षेत्र कोडों का सर्वेक्षण करता है, जैसे कम आय वाले आवास परिसर या उच्च अंत उपनगरीय आवासीय क्षेत्र, और आबादी का एक व्यापक क्रॉस-सेक्शन नहीं, संभावना है कि डेटा में अंतराल और क्लस्टर होंगे। आउटलेयर डेटा सेट के माध्य या औसत मान को तिरछा कर सकते हैं। उदाहरण के लिए, चार संख्याओं - ५०, ५५, ६५ और ९० से युक्त डेटा सेट का माध्य या औसत मान ६५ है। बाहरी 90 के बिना, हालांकि, माध्य लगभग 57 है।