Konten dari Pengguna

Bagaimana Memiliki Model Regresi yang Tepat Sesuai Data yang Dimiliki?

Pardomuan Robinson Sihombing
Seorang ASN, Fungsional Statistisi Ahli Muda, yang bekerja di Badan Pusat Statistik (BPS) Jakarta. Lulusan D-IV statistika ekonomi STIS dan S2 statistika terapan Unpad. Saat ini, melanjutkan studi doktoral statistika dan sains data di IPB University
14 Agustus 2021 15:51 WIB
comment
1
sosmed-whatsapp-white
copy-link-circle
more-vertical
Tulisan dari Pardomuan Robinson Sihombing tidak mewakili pandangan dari redaksi kumparan
Ilustrasi Pengajaran Tentang Regresi (Koleksi Pribadi Penulis)
zoom-in-whitePerbesar
Ilustrasi Pengajaran Tentang Regresi (Koleksi Pribadi Penulis)
ADVERTISEMENT
Analisis regresi merupakan salah satu metode dalam statistika yang digunakan untuk melihat pengaruh antara suatu variabel dengan variabel lainnya. Ada dua jenis variabel dalam penelitian yaitu variabel dependen/ terikat/ endogen/ respons/ yang dipengaruhi dan variabel independen/bebas/ eksogen/ prediktor/ yang mempengaruhi. Ada berbagai macam model analisis regresi, dilihat dari pola hubungan, banyaknya variabel dependen, banyaknya variabel independen, waktu penelitian, distribusi data, tipe variabel independen, teknik estimasi parameter dan lainnya. Berbeda jenis data yang digunakan, berbeda juga analisis regresi yang digunakan.
ADVERTISEMENT
Suatu model regresi, biasanya diawali dengan memplot hubungan antara variabel dependen dengan variabel independennya. Melalui plot yang dibuat misalkan dengan scatter plot maka dapat dilihat pola hubungan antar variabel tersebut apakah berbentuk linier atau tidak. Jika ditilik dari pola hubungan antar variabel maka model regresi dapat dibedakan menjadi model regresi linier dan model regresi nonlinier. Contoh model regresi nonlinier adalah penggunaan model regresi polynomial (jika variabel independen yang digunakan tidak linier/ berpangkat 1) atau model regresi nonparametrik (jika parameter yang digunakan tidak linier). Sebagai contoh regresi polynomial, apabila peneliti ingin mengetahui pengaruh variabel umur dan kuadrat umur terhadap produktivitas seseorang. Beberapa contoh regresi nonparametrik seperti Regresi Kernel dengan Nadaraya Watson Estimation (NEW) dan Local Polinomial Estimator (LPE), Regresi Spline dan Regresi B-Spline.
ADVERTISEMENT
Jika ditilik dari jumlah variabel dependennya, maka model regresi dapat dibagi menjadi univariat regresi (hanya menggunakan 1 variabel dependen) dan multivariat regresi (menggunakan lebih dari 1 variabel dependen). Sedangkan, jika ditilik berdasarkan jumlah variabel independennya, maka model regresi dapat dibagi menjadi regresi sederhana (hanya menggunakan 1 variabel independen) dan regresi berganda (menggunakan lebih dari 1 variabel independen). Sebagai contoh kasus pada model regresi linier berganda univariat, apabila peneliti ingin mengetahui pengaruh umur dan jenis kelamin terhadap pendapatan seseorang. Sedangkan contoh kasus pada model regresi linier berganda multivariat, apabila peneliti ingin mengetahui pengaruh umur dan jenis kelamin terhadap tekanan darah dan gula darah seseorang.
Jika ditilik dari sisi waktu penelitian, maka model regresi dapat dibagi menjadi regresi cross section/ data silang, regresi time series (runtun/ deret waktu), dan regresi panel. Model regresi cross section digunakan jika data yang digunakan terdiri dari sejumlah n individu dengan 1 periode waktu. Misalnya, peneliti ingin mengetahui pengaruh lingkungan kerja dan kompensasi terhadap kinerja 100 orang karyawan di PT X tahun 2020. Model regresi time series digunakan jika data yang digunakan terdiri dari 1 unit objek pengamatan dengan sejumlah t waktu. Model regresi time series ini juga dibagi lagi ke dalam sistem persamaan yaitu persamaan tunggal dan persaman sistem.
ADVERTISEMENT
Model persamaan tunggal pada regresi time series seperti model ARIMA-Garch (menggunakan 1 variabel beserta lag datanya) dan Error Correction Model (ECM). Misalnya, peneliti ingin mengetahui pengaruh ukuran perusahaan, jumlah dewan direksi terhadap kinerja Bank X tahun 2010 sampai 2020. Sedangkan, model persamaan sistem pada regresi time series seperti model Vector Autoregresive (VAR), Vector Error Correction Model (VECM) dan persamaan simultan. Dalam model sistem ini peneliti dapat melihat pengaruh bolak balik (granger causality) antar variabel. Misalnya, peneliti ingin hubungan antara jumlah uang beredar, inflasi dan suku bunga di Indonesia taun 2010-2020. Pada analisis regresi dengan model time series, dapat melihat hubungan jangka pendek dan jangka panjang antar variabel, respon suatu variabel apabila ada goncangan (shock) dan melakukan peramalan (forecasting).
ADVERTISEMENT
Model regresi panel digunakan jika data yang digunakan terdiri dari sejumlah n individu dengan t periode waktu. Misalnya, peneliti ingin mengetahui pengaruh ukuran perusahaan, jumlah dewan direksi terhadap kinerja Bank BUMN (BRI, BTN, BSI,Mandiri, BNI) tahun 2010 sampai 2020. Pada model regresi panel dapat dibagi menjadi 3 model yaitu Pooled/ Common Effect Model (PEM), Fixed Effect Model (FEM) dan Random Effect Model (REM).
Jika ditilik dari distribusi model, maka model regresi dapat dibagi menjadi regresi dengan basis normal yang diperkenalkan oleh Gaussian dan model regresi yang tidak berdistribusi normal tetapi masih dalam distribusi keluarga eksponensial. Model regresi standar (umum) yang diperkenalkan Gaussian, memiliki asumsi datanya merupakan data kuantitatif kontinu/ rasio, yang bernilai dari negatif tak hingga sampai positif tak hingga. Model ini memiliki asumsi yang dikenal dengan asumsi klasik yang terdiri dari asumsi kenormalan data, kehomogenan varian dan non autokorelasi.
ADVERTISEMENT
Apabila model yang terbentuk tidak memenuhi asumsi tersebut, maka dilakukan pengecekan terhadap distribusi variabel dependen, jika mengikuti distribusi keluarga eksponensial maka dapat menggunakan model linier terampat (generalized liniear model/ GLM). Beberapa model GLM yang sering digunakan adalah model regresi binari logistik, regresi multinomial, regresi ordinal, poisson, regresi beta, regresi survival dan lainnya. Regresi binary logistik digunakan jika variabel respon yang digunakan berbentuk kategori (dua pilihan) dan berdistribusi binomial/ bernouli dimana hanya terdapat dua nilai yaitu 0 dan 1. Misalnya, peneliti ingin mengetahui pengaruh pendidikan, jenis kelamin terhadap status miskin seseorang (miskin atau tidak miskin).
Regresi multinomial digunakan jika variabel respon yang digunakan berbentuk kategori (lebih dua pilihan/ nominal) dan berdistribusi multinomial. Misalnya, peneliti ingin mengetahui pengaruh pendidikan, jenis kelamin terhadap jenis tontonan seseorang (sinetron, berita, musik, olahraga). Regresi interval digunakan jika variabel respon yang digunakan berbentuk interval nilai. Misalnya, peneliti ingin mengetahui pengaruh nilai tulisan, peringkat dan jenis program (umum, vokasi dan akademis) terhadap variabel rata-rata IPK yang diwakili oleh dua nilai dari nilai Interval bawah (LGPA) dan nilai interval atas (ugpa).
ADVERTISEMENT
Regresi ordinal digunakan jika variabel respon yang digunakan berbentuk kategori (lebih dua pilihan/ ordinal), dimana ada urutan dari kategori yang digunakan. Misalnya, peneliti ingin mengetahui pengaruh pendidikan, jenis kelamin terhadap status miskin seseorang (miskin, hampir miskin, tidak miskin). Regresi poisson digunakan jika variabel respon yang digunakan merupakan data cacahan (count), dimana datanya berdistribusi poisson. Misalnya, peneliti ingin mengetahui pengaruh banyaknya jumla dokter, jumlah puskesmas di suatu desa teradap jumlah kematian bayi (neonatal).
Regresi beta digunakan jika variabel respon yang digunakan merupakan data rasio/proporsi yang nilainya diantara 0 sampai 1, dimana datanya berdistribusi bernouli. Misalnya, peneliti ingin mengetahui pengaruh banyaknya jumlah dokter, jumlah puskesmas di suatu desa terhadap rasio bayi lahir hidup per 1000 kelahiran. Regresi survival digunakan jika variabel respon yang digunakan merupakan data waktu hingga suatu kejadian terjadi. Misalnya, peneliti ingin mengetahui pengaruh jenis kelamin dan dosis obat terhadap daya tahan pasien kanker.
ADVERTISEMENT
Berdasarkan tipe variabel independen/ penjelas, model regresi dapat dibedakan regresi dengan menggunakan fixed independen variabel dan random independent variabel. Model regresi yang umum dan sering digunakan adala model regresi dengan fixed independen variabel. Model regresi dengan random independen variabel contohnya adalah model linier campuran (Linier Mixed Model/ LMM) dan model campuran linier terampat (generalized linear mixed model/ GLMM). Salah satu efek random yang digunakan dapat berupa individu yang diukur berulang kali dalam sutau penelitian atau efek dari spasial suatu daerah.
Jika ditilik dari teknik estimasi parameter yang digunakan model regresi dapat menggunakan teknik least square, maksimum likelihood dan Bayesian. Teknik least square, prinsipnya adalah dengan meminimumkan error/ galat dapat berupa ordinary least square (OLS), general least square (GLS), weighted least square (WLS) dan lainnya. Teknik maksimum likelihood, prinsipnya adalah dengan memaksimumkan fungsi likelihood dapat berupa standar maximum likelihood, quasy/pseudo likelihood, restricted likelihood dan lainnya. Teknik bayesian, prinsipnya adalah dengan memanfaatkan informasi distribusi parameter berdasarkan teori/ penelitian terdahulu atau data yang ada, dapat berupa empirical bayes dan hirarki bayes.
ADVERTISEMENT
Dari pembahasan di atas, dapat kita simpulkan bahwa ada banyak jenis model regresi yang bisa digunakan berdasarkan tipe data yang dimiliki. Dengan mengetahui berbagai jenis regresi berdasarkan tipe datanya, diharapkan para peneliti/ penulis dapat menggunakan model regresi yang tepat sesuai data yang dimiliki. Jika model yang dipilih tepat maka kesimpulan dari hasil yang didapat juga tepat, sehingga dapat diimplementasikan dengan kebijakan yang tepat pula.