רגרסיה לינארית היא שיטה סטטיסטית לבחינת הקשר בין משתנה תלוי, המסומן כ- y, ומשתנה אחד או יותר בלתי תלוי, המסומן כ- איקס. המשתנה התלוי חייב להיות רציף, בכך שהוא יכול לקבל כל ערך, או לפחות קרוב לרציף. המשתנים הבלתי תלויים יכולים להיות מכל סוג שהוא. למרות שרגרסיה לינארית אינה יכולה להראות סיבתיות בפני עצמה, המשתנה התלוי מושפע בדרך כלל מהמשתנים הבלתי תלויים.
רגרסיה לינארית מוגבלת ליחסים לינאריים
מטבעו, רגרסיה לינארית מסתכלת רק על קשרים לינאריים בין משתנים תלויים ועצמאיים. כלומר, הוא מניח שיש ביניהם קשר ישר. לפעמים זה לא נכון. לדוגמא, הקשר בין הכנסה לגיל מעוקל, כלומר הכנסה נוטה לעלות בחלקים המוקדמים של הבגרות, להשתטח בבגרות מאוחרת יותר ולרדת לאחר שאנשים פורשים. אתה יכול לדעת אם זו בעיה על ידי התבוננות בייצוגים גרפיים של מערכות היחסים.
רגרסיה לינארית מסתכלת רק על הממוצע של המשתנה התלוי
רגרסיה לינארית בוחנת קשר בין ממוצע המשתנה התלוי למשתנים הבלתי תלויים. לדוגמא, אם אתה מסתכל על הקשר בין משקל הלידה של תינוקות לאמהות מאפיינים כמו גיל, רגרסיה לינארית יסתכלו על המשקל הממוצע של תינוקות שנולדו לאמהות של גילאים שונים. עם זאת, לפעמים אתה צריך להסתכל על הקצוות של המשתנה התלוי, למשל, תינוקות נמצאים בסיכון כאשר משקלם נמוך, ולכן תרצה להסתכל על הקצוות בדוגמה זו.
כשם שהממוצע אינו תיאור מלא של משתנה יחיד, רגרסיה לינארית אינה תיאור מלא של יחסים בין משתנים. אתה יכול להתמודד עם בעיה זו באמצעות רגרסיה כמותית.
רגרסיה לינארית רגישה לחריגים
חריגים הם נתונים מפתיעים. חריגים יכולים להיות חד-משתנים (על בסיס משתנה אחד) או רב-משתנים. אם אתה מסתכל על גיל והכנסה, חריגים חד-משתניים יהיו דברים כמו אדם בן 118, או אחד שהרוויח 12 מיליון דולר בשנה שעברה. יוצא דופן רב משתני יהיה צעיר בן 18 שהרוויח 200,000 דולר. במקרה זה, הגיל וההכנסה אינם קיצוניים מאוד, אך מעט מאוד אנשים בני 18 מרוויחים כל כך הרבה כסף.
לחריגים יש השפעות עצומות על הרגרסיה. אתה יכול להתמודד עם בעיה זו על ידי בקשה לסטטיסטיקה של השפעה מהתוכנה הסטטיסטית שלך.
הנתונים חייבים להיות עצמאיים
רגרסיה לינארית מניחה שהנתונים עצמאיים. פירוש הדבר שלציוני הנושא (כגון אדם) אין שום קשר לאלו של אחר. זה לעתים קרובות, אך לא תמיד, הגיוני. שני מקרים נפוצים שבהם זה לא הגיוני הם אשכולות במרחב ובזמן.
דוגמה קלאסית לאשכולות בחלל היא ציוני מבחני התלמידים, כאשר יש לך תלמידים מכיתות, כיתות, בתי ספר ומחוזי בית ספר שונים. תלמידים באותה כיתה נוטים להיות דומים במובנים רבים, כלומר, הם מגיעים לעתים קרובות מאותן שכונות, יש להם אותם מורים וכו '. לפיכך, הם אינם עצמאיים.
דוגמאות לאשכולות בזמן הן כל מחקרים שבהם מודדים את אותם נושאים מספר פעמים. לדוגמה, במחקר של דיאטה ומשקל, אתה יכול למדוד כל אדם מספר פעמים. נתונים אלה אינם עצמאיים מכיוון שמה שאדם שוקל בהזדמנות אחת קשור למה שהוא שוקל בהזדמנויות אחרות. אחת הדרכים להתמודד עם זה היא עם מודלים מרובי רמות.