Konten dari Pengguna

Analisis Klasifikasi

Pardomuan Robinson Sihombing

Seorang ASN, Fungsional Statistisi Ahli Muda, yang bekerja di Badan Pusat Statistik (BPS) Jakarta. Lulusan D-IV statistika ekonomi STIS dan S2 statistika terapan Unpad. Saat ini, melanjutkan studi doktoral statistika dan sains data di IPB University

13 September 2021 13:28 WIB·waktu baca 5 menit

Ikuti kumparan di Google

Jadikan kumparan sebagai preferensi terpercayamu di Google

0

Tulisan dari Pardomuan Robinson Sihombing tidak mewakili pandangan dari redaksi kumparan

Ilustrasi: Model Jaringan Syaraf (ANN) (Sumber: https://pixabay.com/id/illustrations/jaringan-syaraf-3637503/)

Salah satu kegunaan dalam melakukan analisis regresi adalah melakukan analisis prediksi (predictive) selain melakukan pengujian hipotesis pengaruh antar variabel. Model prediksi untuk data respons kuantitatif/numerik dapat berupa prediksi nilai variabel respons tersebut. Sedangkan model prediksi untuk data respons kategorik/ kualitatif berupa prediksi klasifikasi variabel respons (baik dari data sampel atau data baru). Selanjutnya akan disebut analisis klasifikasi.

Teknik klasifikasi berdasarkan distribusi datanya dapat dibagi menjadi dua bagian yaitu berdasarkan distribusi tertentu (model statistik klasik) dan tanpa distribusi tertentu (model pembelajaran mesin/ machine learning). Model dengan distribusi tertentu dibagi menjadi distribusi normal (model diskriminan) dan distribusi keluarga eksponensial (model GLM).

Model Klasifikasi Klasik

Model diskriminan digunakan untuk memodelkan hubungan antara satu variabel dependen/respons (𝑌) yang bersifat kualitatif (kategori) dengan sejumlah 𝑝 variabel bebas 𝑋 yang bersifat kuantitatif baik berupa linier diskriminan maupun kuadratik diskriminan. Data variabel independen harus mengikuti distribusi multivariat normal. Contoh seorang peneliti ingin melihat variabel sosial ekonomi apa saja yang membedakan provinsi di Indonesia bagian barat, tengah dan timur

Model GLM yang digunakan untuk analisis klasifikasi dapat berupa model regresi binary/binomial regresi, multinomial regresi dan ordinal regresi. Regresi binary/binomial digunakan jika variabel respons terdiri dari dua nilai kategori yaitu 0 dan 1. Misalnya, peneliti ingin mengetahui pengaruh pendidikan, jenis kelamin terhadap status miskin seseorang (miskin atau tidak miskin).

Regresi multinomial digunakan jika variabel respons yang digunakan berbentuk kategori (lebih dua pilihan/nominal) dan berdistribusi multinomial. Misalnya, peneliti ingin mengetahui pengaruh pendidikan, jenis kelamin terhadap jenis tontonan seseorang (sinetron, berita, musik, olahraga). Regresi ordinal digunakan jika variabel respon yang digunakan berbentuk kategori (lebih dua pilihan/ ordinal), di mana ada urutan dari kategori yang digunakan. Misalnya, peneliti ingin mengetahui pengaruh pendidikan, jenis kelamin terhadap status miskin seseorang (miskin, hampir miskin, tidak miskin)

Model Klasifikasi Pembelajaran Mesin

Untuk teknik klasifikasi tanpa melihat distribusi data yang sering digunakan antara lain: Classification and Regression Tree (CART), Naïve Bayes, Random Forest, Rotation Forest, Support Vector Machine (SVM), Analysis Neural Network (ANN), OneR, dan Boosting. Masing-masing metode sudah tersedia di dalam berbagai software terutama di dalam software R.

Model ANN memiliki keunggulan mampu mengakuisisi pengetahuan walau tidak ada kepastian, memiliki fault tolerance dan kemampuan perhitungan secara paralel sehingga proses lebih singkat. Salah satu package dalam R adalah “nnet” yang dikembangkan oleh Venables dan Ripley (2002). Model Random Rorest memiliki keunggulan di mana model ini tidak sensitive dengan adanya data outlier sehingga tidak ada masalah overfitting. Salah satu package dalam R untuk metode Random Forest adalah paket “randomForest” yang dikembangkan oleh Liaw dan Wiener (2002).

Metode oneR memiliki keunggulan menghasilkan model yang cukup akurat untuk menetapkan dasar yang baik, efisien dalam pemrosesan data besar. Salah satu paket One R menggunakan paket “OneR” yang dikembangkan oleh Jouanne (2017). Model Rotation Forest memiliki keunggulan memperbaiki kemampuan prediksi pada decision tree dengan memanfaatkan prinsip komponen utama dan menjaga keragaman data. Salah satu paket dalam R untuk metode Rotation Forest adalah paket “rotationForest” yang dikembangkan oleh Balling dan Poel (2017).

Metode CART memiliki keunggulan tidak memerlukan normalisasi atau penskalaan data, dapat menangani masalah missing value. Salah satu paket dalam R untuk metode CART adalah paket “rpart” yang dikembangkan oleh Therneau dan Atkinson (Therneau & Atkinson, 2019). Metode SVM memiliki keunggulan berkinerja baik dalam mengklasifikasikan dengan variabel yang berdimensi tinggi, misalnya data gambar, data gen, data medis.

Metode Naïve Bayes memiliki keunggulan dalam efisiensi waktu di mana sangat cepat dalam pengolahan data, dapat diskalakan dengan kumpulan data besar dan dapat digunakan untuk prediksi multi kelas. Salah satu paket dalam R untuk metode SVM dan naïve Bayes adalah paket “e1071” yang dikembangkan oleh Meyer dkk (2021).

Metode Boosting memiliki keunggulan rekayasa fitur yang lebih sedikit diperlukan (tidak perlu penskalaan, normalisasi data, juga dapat menangani nilai yang hilang dengan baik), mudah dalam penafsiran, baik untuk data besar dan efisien. Salah satu paket dalam R untuk metode Boosting adalah paket “xgbost” yang dikembangkan oleh Chen dkk (2021).

Uji Performa Model

Untuk menghasilkan performa yang baik, data dapat dibagi menjadi data latih (training) dan data uji (testing). Data training digunakan untuk membentuk model sedangkan data uji digunakan untuk menguji performa dari model yang telah dibentuk.

Pembagian data latih dan data uji dapat menggunakan teknik deterministik (hold out) maupun menggunakan teknik K-Fold cross validation . Teknik deterministik di mana peneliti menentukan sendiri pembagian proporsinya biasanya perbandingan data untuk data latih dengan data uji (70:30) atau (80:20).

Teknik menggunakan k-fold digunakan dengan cara membagi data menjadi k bagian yang sama secara acak bisanya menggunakan 5 fold atau 10 fold. Di mana salah satu fold digunakan untuk data uji dan sisanya digunakan untuk data latih, dilakukan secara bergantian. Misalkan data dibagi menjadi 5 fold, maka set data 1 digunakan untuk data uji, set data 2 sampai 5 untuk data latih. Selanjutnya set data 2 digunakan untuk data uji, set data 1 serta 3 sampai 5 untuk data latih. Hingga set data 5 digunakan untuk data uji, set data 1 sampai 4 untuk data latih.

Ada beberapa cara dalam menentukan ketepatan atau kebaikan suatu model yang digunakan untuk pengklasifikaasian di antaranya koefisien determinasi/pseudo r square, kriteria dalam confussion matriks, kurva ROC dan nilai AUC serta koefisien kappa. Untuk confussion matrik terdiri dari kriteria akurasi, sensitivity, dan specificity. Diharapkan ketiga kriteria memiliki nilai yang besar dan seimbang.

Kendala yang umum terjadi pada data untuk model klasifikasi adalah data yang tidak seimbang (imbalanced data). Solusi dalam kasus ini ialah dengan menggunakan metode resampling. Teknik resampling dapat berupa oversampling, undersampling, maupun both/ combine sampling.

Penutup

Dari pembahasan di atas, dapat kita simpulkan bahwa ada beberapa kriteria dan asumsi di dalam teknik analisis klasifikasi. Dengan mengetahui berbagai kriteria dan asumsi yang digunakan, diharapkan para peneliti/penulis dapat menggunakan analisis klasifikasi yang tepat sesuai dengan kondisi data yang dimiliki. Jika uji yang dipilih tepat maka kesimpulan dari hasil yang didapat juga tepat, sehingga dapat diimplementasikan dengan kebijakan yang tepat pula