Analisis Klaster dan Aplikasinya

Ilustrasi: Mencari Kemiripan Data dalam Verifikasi (Sumber: https://pixabay.com/id/illustrations/mengaudit-laporan-verifikasi-3737447/)

Analisis klaster (cluster) merupakan salah satu dalam metode analisis data multivariat. Analisis klaster (cluster) atau kadang disebut analisis gerombol digunakan untuk mengelompokkan objek (misalnya, responden, produk, metode atau entitas). Pengelompokan ini berdasarkan karakteristik yang dimiliki. Misalkan dalam bidang kesehatan, ingin diteliti karakterisasi pasien berdasarkan kumpulan gejala sehingga dapat berguna dalam mengidentifikasi terapi yang tepat. Seorang ekonom, ingin mengelompokkan provinsi di Indonesia berdasarkan karakteristik sosial ekonomi yang dimiliki masing-masing provinsi.

Analisis klaster dapat diterapkan baik untuk data cross section maupun data time series. Analisis klaster juga dapat dilakukan secara satu tahap (one step) maupun dua tahap (two step). Selain itu analisis klaster dapat diterapkan secara satu arah maupun dua arah. Terkadang analisis klaster dianggap sebagai salah satu analisis deskriptif karena tidak melakukan inferensia dan solusinya tidak selalu unik.

Analisis klaster juga termasuk analisis antara, karena dalam melakukan anilisis seringkali didahulu dengan analisis komponen utama, dan setelah analisis klaster terbentuk dapat dilanjutkan dengan anilisis logistik maupun diskriminan. Data yang digunakan dalam analisis klaster sebaiknya memiliki besaran yang tidak terlalu heterogen, jika terdapat satuan yang sangat heterogen sebaiknya dilakukan standarisasi data menggunakan nilai z score untuk masing-masing variabel. Perlu diperhatikan juga untuk variabel yang mengandung data outlier/ pencilan. Selain itu variabel yang digunakan dalam analisis klater sebaiknya tidak memiliki multikolinearitas yang tinggi, bila terdapat multikolinearitas yang tinggi dapat didahului dengan analisis komponen utama. Dari hasil analisis klaster, untuk melihat variabel mana saja yang mampu membedakan antar klaster digunakan analisis diskriminan, sedangkan jika ingin melihat seberapa besar peluang klasifikasi terhadap suatu klaster dengan variabel penjelasnya, dapat menggunakan analisis logistik (baik binary , multinomial maupun ordinal).

Apa perbedaan Analisis Klaster dengan Analisis Faktor dan Diskriminan?

Perbedaan analisis klaster dengan analisis faktor adalah dalam analisis klaster pengelompokan berdasarkan kedekatan jarak sedangkan analisis faktor pengelompokan berdasarkan pada pola variasi korelasi datanya. Pada analisis cluster yang dikelompokkan adalah objeknya sedangkan analisis faktor yang dikelompokkan variabelnya. Perbedaan analisis klaster dengan analisis diskriminan adalah dalam analisis klaster kita tidak tahu objeknya akan menjadi kelompok yang mana dan berapa jumlah kelompoknya (dalam machine learning dikenal dengan istilah unsupervised). Sedangkan analisis diskriminan justru mengharuskan kita mengetahui keanggotaan kelompok sehingga dapat dibuat pola/ aturan klasifikasinya (dalam machine learning dikenal dengan istilah supervised).

Pengukuran Kedekatan Jarak

Ada beberaa pengukuran kedekatan (similiary) jarak dalam analisis klaster yaitu jarak Euclidean, Squared Euclidean, City- block (Manhattan), Chebychev dan Mahalanobis. Jarak Euclidean adalah metode yang paling umum dikenal sebagai jarak garis lurus. Squared Euclidean menggunakan jumlah jumlah selisih kuadrat tanpa mengambil akar kuadratnya. Jarak City- block (Manhattan) menggunakan jumlah dari absolut jarak variabel. Jarak Chebychev menggunakan nilai maksimum dari perbedaan nilai jarak mutlak antar nilai variabel yang dikelompokan. Jarak Mahalanobis merupakan ukuran jarak umum yang menjelaskan korelasi antar variabel dengan cara yang memberi bobot masing-masing variabel sama.

Teknik Dalam Analisis Cluster

Pada data cross section satu tahap dapat dibagi menjadi teknik berhierarki (Hierarchical) dan Tidak Berhierarki (K-Means). Dalam teknik ini jenis semua variabel homogen, baik data kategori semua atau kuantitatif/ kontinu semua. Dalam teknik berhierarki jumlah klaster yang terbentuk maksimal adalah sebanyak jumlah observasi sedangkan dalam teknik tidak berhierarki, kita sudah menentukan berapa jumlah sampel yang diinginkan berdasarkan teori yang dimiliki.

Teknik berhierarki dapat dibagi lagi menjadi dua yaitu teknik penggabungan (agglomerative) dan teknik pembagian (divisive). Teknik aggromerative menganggap awalnya tiap-tiap obyek merupakan satu klaster tersendiri, lalu mulai menggabungkan yang paling mirip, kemudian gabungan dua obyek tersebut akan bergabung lagi dengan satu atau lebih obyek yang paling mirip lainnya. Teknik penggabunganya dapat berupa metode single, complete, average, centroid dan ward linkage.Pada metode diviside, awalnya semua objek berada dalam satu cluster, selanjutnya dibagi menjadi dua klaster, dan kemudian masing-masing klaster tersebut dibagi lagi menjadi dua klaster, dan seterusnya. Untuk melihat berapa banyak klaster yang optimum sekaligus validtas dalam jumlah klaster digunakan koefisien koefisien silhouette. Metode dengan koefisien silhouette terbesar dianggap yang lebih baik dan diharapkan nilainya di atas 0.6 dianggap good classification.

Selanjutnya adalah analisis klaster tidak berhierarki dimana kita sudah menentukan jumlah klaster di awal. Dua metode yang sering digunakan dalam analisis klaster tidak berhierarki adalah K-Means dan K-Median klaster. Metode K-Means bertujuan untuk mempartisi n pengamatan menjadi k cluster yang masing-masing pengamatan termasuk dalam klaster dengan mean (nilai rata-rata) terdekat. Akan tetapi karena penggunan nilai rataan, cukup rentan dengan data pencilan/ outlier sehingga alternatifnya menggunakan nilai median dan analisisnya menjadi K-Median klaster

Dalam analisis klaster juga dapat dilakukan dengan metode campuran (mixed). Misal tahap awal menggunakan hierarki dilanjutkan dengan klaster tidak berhierarki. Akan tetapi pada umumnya dalam analisis klaster baik berhierarki maupun tidak maka skala data yang digunakan sama, yaitu baik kategori saja atau data kontiniu saja. Apabila datanya merupakan data gabungan kategori dan kontinu sebaiknya menggunakan analisis klaster dua tahap. Prosedur analisis klaster dua tahap ini merupakan teknik eksplorasi untuk mengungkapkan pengelompokan alami. Dalam prosedurnya menggunakan ukuran kemungkinan jarak yang mengasumsikan bahwa variabel dalam model klaster independen. Selanjutnya, setiap variabel kontinu diasumsikan memiliki distribusi normal (Gaussian) dan masing-masing variabel kategorik diasumsikan memiliki distribusi multinomial.

Perkembangan Teknik Klaster

Pembahasan klaster yang disebutkan dalam pembahasan di atas adalah analisis klaster satu arah. Pada klaster satu arah mengasumsikan bahwa objek-objek memiliki karakteristik di semua baris atau kolom, sehingga objek pada baris dikelompokkan berdasarkan kemiripan pada kolom atau peubah pada kolom dikelompokkan berdasarkan kemiripan pada baris. Perkembangan selanjutnya adalah klaster dua arah dimana awalnya digunakan untuk melihat matriks ekspresi gen, yaitu data matriks berisi bilangan riil yang menunjukkan aktivitas dari sejumlah gen (baris) dan kondisi percobaan (kolom) yang berbeda-beda. Kelebihan analisis bicluster pada data dua arah karena melibatkan dua karakteristik objek pada baris dan kolom secara bersama-sama sehingga dapat mengidentifikasi subkelompok baris atau subkelompok kolom yang saling berkaitan yang tidak dapat ditemukan oleh penggerombolan satu arah.

Pembahasan cluster di atas mencakup klaster dalam data cross section dan umumnya yang dikelompokkan adalah objek berdasarkan variabel. Salah satu analisis klaster lainnya yang dapat digunakan dalam data time series adalah klaster time series. Dalam analisis ini yang dikelompokan adalah objek ke dalam metode analisis time series misalkan saja dalam model ARIMA. Sebagai contoh kita ingin melihat cluster time series ARIMA pada data inflasi untuk setiap komoditas. Dengan menggunakan klaster time series maka kita tidak menggunakan model ARIMA masing-masing komoditas, tetapi akan terdapat beberapa klaster metode ARIMA yang di dalamnya terdapat beberapa komoditas yang dianggap memiliki pola ARIMA yang sama.

Penutup

Dari pembahasan di atas, dapat kita simpulkan bahwa ada beberapa jenis metode klaster. Dengan mengetahui berbagai kriteria dan asumsi yang digunakan dalam analisis klaster, diharapkan para peneliti/ penulis dapat menggunakan metode analisis klaster yang tepat sesuai dengan kondisi data yang dimiliki. Jika uji yang dipilih tepat maka kesimpulan dari hasil yang didapat juga tepat.