Konten dari Pengguna

Alternatif Penyelesaian Data Hilang dalam Penelitian

Ade Marsinta Arsani
Seorang Statistisi di Badan Pusat Statistik Lulusan statistik ekonomi di STIS Jakarta, magister ekonomi terapan Unpad dan master MPMA di Jepang
31 Januari 2023 6:28 WIB
·
waktu baca 3 menit
comment
0
sosmed-whatsapp-white
copy-link-circle
more-vertical
Tulisan dari Ade Marsinta Arsani tidak mewakili pandangan dari redaksi kumparan
Ilustrasi data. Foto: Shutterstock
zoom-in-whitePerbesar
Ilustrasi data. Foto: Shutterstock
ADVERTISEMENT
sosmed-whatsapp-green
kumparan Hadir di WhatsApp Channel
Follow
Ketika seorang peneliti ingin menganalisis data terdapat sesuatu kendala di mana dalam set data tersebut tidak lengkap atau yang dikenal dengan data hilang (missing value).
ADVERTISEMENT
Secara umum, data yang hilang dapat diartikan sebagai nilai atau data yang tidak terdapat (atau tidak ada) untuk beberapa variabel dalam kumpulan data yang diteliti. Data yang hilang ini dapat berupa data numerik maupun data kategori.
Perlunya masalah data hilang ini dipelajari agar hasil analisis dan kesimpulan yang digunakan menjadi tepat. Sebab dalam beberapa kasus pemodelan jika terdapat data hilang maka model yang dihasilkan menjadi bias.
Selain itu juga akan mengurangi presisi dalam model yang dihasilkan. Oleh karena itu perlu diketahui terlebih dahulu cara penulisan, sebab adanya data hilang dan penyelesaian data hilang.
Ilustrasi data. Foto: Shutterstock
Pada umumnya penulisan data yang hilang dapat diberikan simbol NA (not available), atau dalam cell data tidak ditulis apa pun/ kosong. Ada beberapa penyebab data itu hilang.
ADVERTISEMENT
Salah satunya adalah data memang ada tetapi telah rusak atau catatannya hilang. Alasan lainnya bisa saja observasi memang tidak dicatat karena alasan tertentu, misalkan kesalahan dalam pengukuran.
Selain itu data hilang juga dapat disebabkan no respons dari responden, sehingga jawaban atau pertanyaan tertentu tidak diketahui.
Terdapat beberapa cara mengatasi data hilang. Pertama adalah dengan menghapus seluruh baris atau kolom pada data yang hilang. Akan tetapi terdapat dampak jika melakukan metode ini.
Ilustrasi data. Foto: Shutterstock
Di mana mungkin ada beberapa data yang berguna dari kumpulan data juga ikut terhapus. Pada beberapa referensi cara ini sangat tidak dianjurkan karena akan mengurangi informasi data yang ada.
Cara kedua yang dapat dilakukan adalah dengan melakukan imputasi. Metode ini memanfaatkan ukuran pemusatan data pada variabel yang terdapat data yang hilang.
ADVERTISEMENT
Peneliti dapat mengisi data yang hilang berdasarkan nilai rata-rata (mean), nilai tengah (median) dan modus datanya. Di sisi lain dapat memanfaatkan nilai pemusatan hanya menggunakan beberapa nilai terdekat dari data yang hilang, misalkan 5 nilai sebelum dan sesudah loasi data yang hilang.
Cara ketiga adalah dengan menggunakan metode regresi. Dalam hal ini berarti nilai data yang hilang diisi dengan nilai prediksi dari model yang dibentuk. Pembentukan model dilakukan dari data yang lengkap untuk semua variabel yang ada. Selanjutnya dapat dilakukan interpolasi terhadap data yang hilang. Di mana data yang hilang diisi dari nilai interpolasi dua titik nilai.
Cara keempat yang dapat dilakukan peneliti adalah dengan menggunakan metode-metode yang robust (kekar) terhadap data yang hilang. Beberapa model yang robust terhadap data hilang adalah K-nearest neighbourd and Naive Bayes.
ADVERTISEMENT
Dengan mengetahui penyebab data hilang, peneliti dapat menentukan metode yang tepat dalam menangani data hilang tersebut. Sehingga model yang dihasilkan tidak bias dan memiliki presisi yang tinggi. Dan akhirnya kesimpulan yang dihasilkan juga menjadi tepat sasaran.