Regresi linier adalah metode statistik untuk menguji hubungan antara variabel dependen, dilambangkan sebagai y, dan satu atau lebih variabel bebas, dinotasikan sebagai x. Variabel dependen harus kontinu, karena dapat mengambil nilai apa pun, atau setidaknya mendekati kontinu. Variabel independen dapat dari jenis apa pun. Meskipun regresi linier tidak dapat menunjukkan sebab akibat dengan sendirinya, variabel terikat biasanya dipengaruhi oleh variabel bebas.
Regresi Linier Terbatas pada Hubungan Linier
Sesuai sifatnya, regresi linier hanya melihat hubungan linier antara variabel terikat dan variabel bebas. Artinya, diasumsikan ada hubungan garis lurus di antara mereka. Terkadang ini tidak benar. Misalnya, hubungan antara pendapatan dan usia melengkung, yaitu pendapatan cenderung meningkat pada awal masa dewasa, mendatar pada masa dewasa akhir dan menurun setelah orang pensiun. Anda dapat mengetahui apakah ini masalah dengan melihat representasi grafis dari hubungan.
Regresi Linier Hanya Melihat Mean Variabel Dependen
Regresi linier melihat hubungan antara mean variabel dependen dan variabel independen. Misalnya, jika Anda melihat hubungan antara berat lahir bayi dan ibu karakteristik seperti usia, regresi linier akan melihat rata-rata berat badan bayi yang lahir dari ibu usia yang berbeda. Namun, terkadang Anda perlu melihat ekstrem dari variabel dependen, misalnya, bayi berisiko ketika berat badannya rendah, jadi Anda ingin melihat ekstrem dalam contoh ini.
Sama seperti mean bukanlah deskripsi lengkap dari variabel tunggal, regresi linier bukanlah deskripsi lengkap hubungan antar variabel. Anda dapat mengatasi masalah ini dengan menggunakan regresi kuantil.
Regresi Linier Sensitif terhadap Pencilan
Outlier adalah data yang mengejutkan. Pencilan bisa univariat (berdasarkan satu variabel) atau multivariat. Jika Anda melihat usia dan pendapatan, outlier univariat akan menjadi hal-hal seperti orang yang berusia 118 tahun, atau orang yang menghasilkan $ 12 juta tahun lalu. Pencilan multivariat adalah anak berusia 18 tahun yang menghasilkan $200.000. Dalam hal ini, baik usia maupun pendapatannya tidak terlalu ekstrem, tetapi sangat sedikit orang berusia 18 tahun yang menghasilkan uang sebanyak itu.
Pencilan dapat memiliki efek besar pada regresi. Anda dapat mengatasi masalah ini dengan meminta statistik pengaruh dari perangkat lunak statistik Anda.
Data Harus Independen
Regresi linier mengasumsikan bahwa data independen. Itu berarti bahwa nilai satu mata pelajaran (seperti seseorang) tidak ada hubungannya dengan mata pelajaran lain. Ini sering, tetapi tidak selalu, masuk akal. Dua kasus umum yang tidak masuk akal adalah pengelompokan dalam ruang dan waktu.
Contoh klasik pengelompokan dalam ruang adalah nilai ujian siswa, ketika Anda memiliki siswa dari berbagai kelas, kelas, sekolah, dan distrik sekolah. Siswa di kelas yang sama cenderung serupa dalam banyak hal, misalnya, mereka sering berasal dari lingkungan yang sama, mereka memiliki guru yang sama, dll. Dengan demikian, mereka tidak mandiri.
Contoh pengelompokan waktu adalah setiap studi di mana Anda mengukur subjek yang sama beberapa kali. Misalnya, dalam studi tentang diet dan berat badan, Anda mungkin mengukur setiap orang beberapa kali. Data ini tidak independen karena apa yang ditimbang seseorang pada satu kesempatan terkait dengan apa yang dia timbang pada kesempatan lain. Salah satu cara untuk mengatasinya adalah dengan model bertingkat.