Konten dari Pengguna

Bagaimana Mengecek dan Mengatasi Data Outlier (Pencilan)?

Ade Marsinta Arsani
Seorang Statistisi di Badan Pusat Statistik Lulusan statistik ekonomi di STIS Jakarta, magister ekonomi terapan Unpad dan master MPMA di Jepang
30 Desember 2022 18:24 WIB
comment
0
sosmed-whatsapp-white
copy-link-circle
more-vertical
Tulisan dari Ade Marsinta Arsani tidak mewakili pandangan dari redaksi kumparan
Sumber: https://www.istockphoto.com/id/vektor/memahami-dan-menafsirkan-boxplots-diagram-statistik-vektor-diisolasi-pada-putih-gm1344763952-423024803?phrase=outlier
zoom-in-whitePerbesar
Sumber: https://www.istockphoto.com/id/vektor/memahami-dan-menafsirkan-boxplots-diagram-statistik-vektor-diisolasi-pada-putih-gm1344763952-423024803?phrase=outlier
ADVERTISEMENT
Data outlier atau terkadang disebut dengan pencilan seringkali menjadi salah satu masalah dalam penelitian. Outlier dapat diartikan sebagai suatu amatan yang nilainya menyimpang sedemikian jauh dari pengamatan lainnya (Hawkins,1980). Akibat adanya data outlier dapat memberikan efek bagi pengambilan suatu keputusan atau kesimpulan pada penelitian. Misalkan saja peneliti memiliki 5 data dengan nilai 9,10,10,11 dan 1000. Jika diambil nilai rata-rata aritmatiknya menjadi 208. Nilai ini tidak mewakili dari kelima data karena umumnya datanya disekitaran nilai 10. Data ke-5 dapat dianggap sebagai data yang nilainya menyimpang dari nilai amatan lainnya.
ADVERTISEMENT
Outlier dalam data dapat dibagi menjadi outlier untuk data univariat yang menggunakan satu variabel maupun outlier multivariat yang menggunakan lebih dari satu variabel. Sebelum lebih lanjut melakukan analisis dalam statistik perlu dilakukan screening data. Hal yang dapat dilakukan dengan memastikan apakah data yang digunakan sudah benar, satuannya sesuai, adanya data missing dan lainnya. Hal ini dilakuakn sebagai Langkah awal memastikan kebenaran suatu data yang akan digunakan dalam analisis.
Jika sudah dilakukan screening data, dan didapat data yang dianggap sebagai data outlier bahwa selanjutnya dilakukan pengecekan secara statistik. Untuk data univariat, Menurut Triola (2018), terdapat beberapa cara dalam mengecek apakah observasi tersebut dianggap outlier atau tidak. Pengecekan dapat dilakukan baik secara visual, ukuran pemusatan serta keragaman dan pengujian. Pengecekan visual dengan menggunakan boxplot dan histogram data. Grafik boxplot menggunakan lima ukuran statistik yaitu nilai minimum, maksimum, kuartil satu, kuartil dua (median) dan kuartil tiga. Suatu data dianggap outlier jika berada diluar whisker data boxplox. Sedangkan boxplot digunakan sekaligus untuk melihat distribusi data.
ADVERTISEMENT
Penentuan suatu data outlier dengan pengukuran pemusatan dan keragaman data dapat dilakukan dengan membandingkan nilai observasi terhadap nilai rata-rata dan standar deviasi data. Suatu data dapat dikatakan sebagai data outlier jika nilai observasi lebih kecil dari µ-3σ atau nilainya lebih besar dari µ+3σ. Di sisi lain dapat melihat posisi data dengan menggunakan nilai kuartil dan interkuartil data (QR=Q3-Q1). Suatu data dapat dikatakan sebagai data outlier jika nilai observasi lebih kecil dari Q1-1,5* IQR atau nilainya lebih besar dari Q3+1,5*IQR.
Alternatif lain untuk melihat apakah suatu data outlier dengan mentranformasi observasi menjadi nilai baku (z score). Adapun langkah yang dilakukan adalah dengan cara nilai observasi dikurang dengan rata-rata data lalu dibagi nilai standar deviasi data. Suatu bervasi dianggap sebagai nilai outlier jika nilai z score lebih kecil dari -3,00 atau lebih besar dari 3,00 (Ghozali, 2016). Untuk lebih objektif Grubb (1969) mengembangkan suatu pengujian yang dikenal dengan uji Gubbs. Dimana suatu data dikatakan memiliki observasi outlier jika nilai probabilita uji kurang dari tingkat kesalagan (alpha) yang diinginkan.
ADVERTISEMENT
Untuk data multivariat misalkan saja peneliti menggunakan metode analisis regresi selain dengan metode univait di atas, terdapat metode lainnya yang dapat digunakan misalkan dengan menggunakan metode leverage, cook distance dan residual jacknife. Metode nilai leverage menampilkan nilai leverage (pengaruh) terpusat, dikatakan mengandung pencilan jika nilai leverage lebih besar dari (2p-1)/n, dengan p adalah jumlah parameter yang diestimasi. Sedangkan metode Cook’s Distance, menampilkan nilai jarak cook, dikatakan mengandung outlier jika nilai cook lebih ebsar dari F tabel. Dalam metode Jacknife, metode ini menampilkan nilai residual jackknife, dikatakan mengandung pencilan jika nilai jacknife lebih besar dari t tabel.
Setelah mengatahui adanya data outlier maka diperlukan metode untuk mengatasinya. Terdapat beberapa cara juga yang dapat dilakuan untuk mengatasi adanya outlier data misalnya dengan melakukan tranformasi data dengan teknik box cox (Box & Cox, 1964). Di sisi lain dapat melakukan teknik winsorizing dan trimming data. Hastings et al. (1947) menyatakan teknik winsorizing merupakan teknik transformasi statistik dengan membatasi nilai ekstrim dalam data statistik untuk mengurangi efek kemungkinan outlier. Sedangkan Barnett & Lewis (1994) menyatakan trimming data suatu metode dengan menghapus data yang dianggap outlier pada persentil tertentu. Untuk data multivariat, dapat menggunakan metode robust estimasi msialnya regresi robust. Dengan dilakukan penanganan data outlier diharapkan data dapat mengikuti distribusi tertentu misalnya distribusi normal.
ADVERTISEMENT
Dengan mengetahui pengecekan dan penyelesaian adanya data outlier peneliti dapat menggunakan metode analisis yang tepat. Dengan demikian maka kesimpulan dan keputusan yang dihasilkan menjadi tepat sasaran.