रैखिक प्रतिगमन एक आश्रित चर के बीच संबंधों की जांच के लिए एक सांख्यिकीय विधि है, जिसे इस प्रकार दर्शाया गया है वाई, और एक या अधिक स्वतंत्र चर, जिन्हें के रूप में दर्शाया गया है एक्स. आश्रित चर निरंतर होना चाहिए, जिसमें यह किसी भी मूल्य पर, या कम से कम निरंतर के करीब हो सकता है। स्वतंत्र चर किसी भी प्रकार के हो सकते हैं। हालांकि रैखिक प्रतिगमन अपने आप में कार्य-कारण नहीं दिखा सकता है, आश्रित चर आमतौर पर स्वतंत्र चर से प्रभावित होता है।
रैखिक प्रतिगमन रैखिक संबंधों तक सीमित है
अपनी प्रकृति से, रैखिक प्रतिगमन केवल आश्रित और स्वतंत्र चर के बीच रैखिक संबंधों को देखता है। अर्थात्, यह मानता है कि उनके बीच एक सीधा-सीधा संबंध है। कभी-कभी यह गलत होता है। उदाहरण के लिए, आय और उम्र के बीच संबंध घुमावदार है, यानी, वयस्कता के शुरुआती हिस्सों में आय बढ़ने लगती है, बाद में वयस्कता में सपाट हो जाती है और लोगों के सेवानिवृत्त होने के बाद गिरावट आती है। रिश्तों के चित्रमय निरूपण को देखकर आप बता सकते हैं कि क्या यह एक समस्या है।
रेखीय प्रतिगमन केवल आश्रित चर के माध्य को देखता है
रैखिक प्रतिगमन आश्रित चर के माध्य और स्वतंत्र चर के बीच संबंध को देखता है। उदाहरण के लिए, यदि आप शिशुओं और मातृ के जन्म भार के बीच संबंध को देखें उम्र, रेखीय प्रतिगमन जैसी विशेषताएं. की माताओं से जन्म लेने वाले शिशुओं के औसत वजन को देखेंगी अलग अलग उम्र। हालांकि, कभी-कभी आपको आश्रित चर की चरम सीमाओं को देखने की आवश्यकता होती है, उदाहरण के लिए, शिशुओं का वजन कम होने पर जोखिम होता है, इसलिए आप इस उदाहरण में चरम सीमाओं को देखना चाहेंगे।
जिस प्रकार माध्य किसी एकल चर का पूर्ण विवरण नहीं है, उसी प्रकार रैखिक प्रतिगमन चरों के बीच संबंधों का पूर्ण विवरण नहीं है। आप क्वांटाइल रिग्रेशन का उपयोग करके इस समस्या से निपट सकते हैं।
रैखिक प्रतिगमन आउटलेर्स के प्रति संवेदनशील है
आउटलेयर ऐसे डेटा हैं जो आश्चर्यजनक हैं। आउटलेयर अविभाज्य (एक चर के आधार पर) या बहुभिन्नरूपी हो सकते हैं। यदि आप उम्र और आय को देख रहे हैं, तो यूनिवेरिएट आउटलेयर एक व्यक्ति की तरह होगा जो 118 वर्ष का है, या जिसने पिछले साल $ 12 मिलियन कमाए थे। एक बहुभिन्नरूपी बाहरी 18 वर्षीय व्यक्ति होगा जिसने 200,000 डॉलर कमाए। ऐसे में न तो उम्र और न ही आमदनी बहुत ज्यादा होती है, लेकिन 18 साल के बहुत कम लोग इतना पैसा कमाते हैं।
आउटलेयर का प्रतिगमन पर भारी प्रभाव पड़ सकता है। आप अपने सांख्यिकीय सॉफ़्टवेयर से प्रभाव के आँकड़ों का अनुरोध करके इस समस्या से निपट सकते हैं।
डेटा स्वतंत्र होना चाहिए
रैखिक प्रतिगमन मानता है कि डेटा स्वतंत्र हैं। इसका मतलब है कि एक विषय (जैसे एक व्यक्ति) के अंकों का दूसरे विषय से कोई लेना-देना नहीं है। यह अक्सर समझदार होता है, लेकिन हमेशा नहीं। दो सामान्य मामले जहां इसका कोई मतलब नहीं है, वे स्थान और समय में क्लस्टरिंग कर रहे हैं।
अंतरिक्ष में क्लस्टरिंग का एक उत्कृष्ट उदाहरण छात्र परीक्षण स्कोर है, जब आपके पास विभिन्न कक्षाओं, ग्रेड, स्कूलों और स्कूल जिलों के छात्र होते हैं। एक ही कक्षा के छात्र कई मायनों में एक जैसे होते हैं, यानी वे अक्सर एक ही पड़ोस से आते हैं, उनके पास एक ही शिक्षक होते हैं, आदि। इस प्रकार, वे स्वतंत्र नहीं हैं।
समय में क्लस्टरिंग के उदाहरण कोई भी अध्ययन हैं जहां आप एक ही विषय को कई बार मापते हैं। उदाहरण के लिए, आहार और वजन के अध्ययन में, आप प्रत्येक व्यक्ति को कई बार माप सकते हैं। ये आंकड़े स्वतंत्र नहीं हैं क्योंकि एक बार किसी व्यक्ति का वजन अन्य अवसरों पर उसके वजन से संबंधित होता है। इससे निपटने का एक तरीका बहुस्तरीय मॉडल है।