Konten dari Pengguna

Regresi Binary Logistik dan Aplikasinya

Pardomuan Robinson Sihombing
Seorang ASN, Fungsional Statistisi Ahli Muda, yang bekerja di Badan Pusat Statistik (BPS) Jakarta. Lulusan D-IV statistika ekonomi STIS dan S2 statistika terapan Unpad. Saat ini, melanjutkan studi doktoral statistika dan sains data di IPB University
23 Agustus 2021 21:23 WIB
comment
1
sosmed-whatsapp-white
copy-link-circle
more-vertical
Tulisan dari Pardomuan Robinson Sihombing tidak mewakili pandangan dari redaksi kumparan
Ilustrasi: Statistik (Sumber: https://pixabay.com/id/illustrations/grafik-pie-chart-bisnis-keuangan-963016/)
zoom-in-whitePerbesar
Ilustrasi: Statistik (Sumber: https://pixabay.com/id/illustrations/grafik-pie-chart-bisnis-keuangan-963016/)
ADVERTISEMENT
Ketika seorang peneliti tertarik melihat hubungan sebab akibat antar variabel, dimana variabel dependen/ responnya berupa data kualitatif yang terdiri dari dua kategori maka model yang tepat adalah regresi binary logistik. Model regresi binary logistik merupakan salah satu bagian dari model linier terampat (genelized linear model/ GLM). Dalam hal ini variabel respon tidak mengikuti distribusi normal tetapi masih mengikuti distribusi keluarga eksponensial disebut. Dalam regresi binary logistik distribusi adalah bernouli atau binomial.
ADVERTISEMENT
Model regresi binary logistik dapat digunakan untuk data crosssection, time series maupun panel. Model ini juga dapat diaplikasikan pada model yang mengandung efek spasial. Selain itu model ini juga dapat diterapkan dengan teknik estimasi menggunakan maximum likelihood estimator (MLE) maupun teknik bayesian. Misalnya seorang peneliti ingin mengetahui faktor apa saja yang mempengaruhi status bekerja seseorang (bekerja atau menganggur). Contoh lainnya, seorang epidemolog ingin mengetahui faktor apa saja yang mempengaruhi status kesembuhan pasien terhadap suatu penyakit (sembuh atau sakit).
Sebagai salah satu model GLM, regresi binary logistik memiliki tiga komponen yaitu komponen acak, komponen sistematik dan link function. Komponen acak dalam GLM adalah variabel random respon, komponen sistematik dari dalam model adalah satu set parameter regresi dan kovariat X yang membentuk kombinasi linier. Sedangkan link function merupakan fungsi tautan antara komponen sistematik dengan nilai ekspektasi (rata-rata) dari komponen acak. Alternatif link function selain bentuk logit adalah bentuk probit dan complementary log-log.
ADVERTISEMENT
Pengujian Hipotesis
Dalam model regresi binary logistik beberapa pengujian yang sering dilakukan adalah pengujian kesesuaian model, uji pengaruh variabel independen secara simultan, dan uji pengaruh variabel independen secara parsial. Untuk menguji kesesuaian model digunakan uji Hosmer-Lemeshow, dengan hipotesis null: model sudah sesuai/ fit. Untuk menguji pengaruh variabel independen secara bersama-sama menggunakan uji omnibus atau uji chi square, dengan hipotesis null: tidak ada satu pun variabel independen yang berpengaruh signifikan. Sedangkan untuk menguji pengaruh masing-masing variabel independen secara parsial menggunakan uji wald, dengan hipotesis null: variabel independen ke-i tidak berpengaruh signifikan. Dalam hal intrepetasi koefisien regresi logistik menggunakan nilai odds rasio, yaitu peluang suatu kejadian terjadi dibandingkan kejadian lainnya. Misalnya peluang seorang dengan status tidak bekerja, untuk seseorang yang pendidikan rendah 1,2 kali lebih tinggi dibandingkan yang berpendidikan tinggi.
ADVERTISEMENT
Uji Ketepatan Model
Ada beberapa cara dalam menentukan ketepatan atau kebaikan suatu model yang digunakan untuk pengklasifikaasian diantaranya koefisien determinasi/ pseudo r square, kriteria dalam confussion matriks, kurva ROC dan nilai AUC serta koefisien kappa. Nilai koefisien determinasi dalam hal ini nilai pseudo r square menunjukkan seberapa besar variasi variabel dependen mampu dijelaskan oleh seluruh variabel independen. Nilai pseudo r square dapat berupa nilai Cox & Snell R Square maupun Nagelkerke R Square.
Confussion Matrix merupakan sebuah alat untuk mengetahui sejauh mana pengklasifikasian dapat mengenal atau memprediksi kelas data. Pada numumnya ketepatan pengklasifikasian digunakan ukuran akurasi yaitu proporsi frekuensi yang tepat diklasifikasikan dengan total sampel yang ada. Selain melihat akurasi kita dapat melihat sensitivity. Sensitivity + merupakan proporsi kelas yang menjadi perhatian/diinginkan terprediksi dengan benar. Specificity - merupakan proporsi kelas yang tidak menjadi perhatian/tidak diinginkan terprediksi dengan benar. Apabila tingkat akurasi tinggi, namun sensitivity dan specificity rendah, maka pengklasifikasian dapat dikatakan tidak baik.
ADVERTISEMENT
Ukuran evaluasi kinerja klasifikasi lain adalah kurva Receiver Operating Characteristic (ROC). Kurva ROC adalah kurva analisis yang menggambarkan kinerja suatu model klasifikasi pada dua dimensi antara sensitivity sebagai sumbu y dan (1-spesificity) sebagai sumbu x. Nilai tunggal yang dapat digunakan untuk mengukur kinerja klasifikasi pada kurva ROC adalah Area Under Curve the ROC (AUC). Dikatakan model sudah memiliki tingkat pengkasifikasian yang tepat jika nilai AUC di atas 0.7. Selain itu kebaikan model dapat dilihat dengan nilai Kappa dimana nilai yang dipakai untuk menentukan kekuatan kesepakatan/reliabilitas. Semakin tinggi nilai Kappa akan semakin baik model yang digunakan.
Permasalahan Dalam Model Regresi Logistik
Sebagaimana diketahui, regresi logistik mampu menjadi pengklasifikasian yang baik didasarkan pada asumsi bahwa banyaknya data terdistribusi secara merata antara kelas yang berbeda. Padahal dalam kehidupan nyata, terdapat peristiwa yang menunjukkan bahwa banyaknya data yang tidak seimbang antara kelas yang berbeda, yang dikenal dengan istilah imbalanced data. Jika regresi logistik digunakan pada kasus imbalanced data, maka pengklasifikasian cenderung menihilkan peluang dari kelas minoritas karena nilai prediksi akan cenderung pada kelas mayoritas, sehingga tingkat ketepatan klasifikasi yang dihasilkan menjadi kurang baik.
ADVERTISEMENT
Di sisi lain, salah satu asumsi dalam model GLM seperti model logistik adalah asumsi equidispertion dimana varian dari sampel sama dengan varian dari distribusi yang dihipotesiskan. Pengecekan daat dilakukan dengan membagi nilai residual deviance dengan derajat bebasnya diharapkan nilainya mendekati 1. Cara lain pengujian dispersi dengan menggunkan uji parametric dispersion test melalui statistik mean pearson-chisq atau uji nonparametric dispersion test melalui nilai standars of residuals fitted terhadap data simulasi.
Masalah lain yang sering terjadi adalah untuk kasus yang jarang terjadi (rare event). Misalnya dari 1000 percobaan, hanya terdaat 20 kasus yang memenuhi kriteria. Sehingga peluang suatu kejadian terjadi cukup kecil. Data ini ketika dimodelkan dengan regresi logistik akan mempengaruh kesimpulan yang ada.
ADVERTISEMENT
Solusi
Jika masalah yang dihadapi dalam pemodelan regresi logistik adalah rare event, maka dapat menggunakan model skew logistik regresion. Jika masalah yang dihadapi adalah masalah overdispersi maka dapat menggunakan regresi logistik terkoreksi (correctred binary regression). Sedangkan jika masalahnya adalah kasus imbalanced data maka dapat menggunakan teknik resampling.
Metode resampling digunakan untuk mengubah data yang tidak seimbang menjadi distribusi yang seimbang, dengan melakukan modifikasi diantaranya teknik undersampling, oversampling dan both/ combine sampling. Metode undersampling bekerja dengan kelas mayoritas yaitu mengurangi jumlah pengamatan dari kelas mayoritas untuk membuat kumpulan data seimbang. Metode oversampling, dimana metode ini bekerja dengan kelas minoritas yaitu dengan mereplikasi pengamatan dari kelas minoritas untuk menyeimbangkan data. Metode both/ combine sampling menggabungkan metode dari oversampling dan undersampling.
ADVERTISEMENT
Penutup
Dari pembahasan di atas, dapat kita simpulkan bahwa ada beberapa kriteria dan asumsi di dalam penggunaan regresi binary logistik. Dengan mengetahui berbagai kriteria dan asumsi yang digunakan, diharapkan para peneliti/ penulis dapat menggunakan model binary logistik yang tepat sesuai dengan kondisi data yang dimiliki. Jika uji yang dipilih tepat maka kesimpulan dari hasil yang didapat juga tepat, sehingga dapat diimplementasikan dengan kebijakan yang tepat pula.