Konten dari Pengguna

Asumsi Klasik dalam Model Regresi Linier Klasik

Pardomuan Robinson Sihombing
Seorang ASN, Fungsional Statistisi Ahli Muda, yang bekerja di Badan Pusat Statistik (BPS) Jakarta. Lulusan D-IV statistika ekonomi STIS dan S2 statistika terapan Unpad. Saat ini, melanjutkan studi doktoral statistika dan sains data di IPB University
16 Agustus 2021 12:56 WIB
comment
1
sosmed-whatsapp-white
copy-link-circle
more-vertical
Tulisan dari Pardomuan Robinson Sihombing tidak mewakili pandangan dari redaksi kumparan
Ilustrasi Distribusi Normalitas 9Sumber: https://pixabay.com/id/illustrations/analisis-statistik-diagram-grafis-810025/)
zoom-in-whitePerbesar
Ilustrasi Distribusi Normalitas 9Sumber: https://pixabay.com/id/illustrations/analisis-statistik-diagram-grafis-810025/)
ADVERTISEMENT
Salah satu metode analisis yang sering digunakan peneliti dalam penelitian adalah model regresi. Apa itu model regresi? Analisis regresi merupakan metode dalam statistika yang digunakan untuk menguji hubungan sebab akibat antar variabel. Dalam pemodelan regresi sendiri, ada dua hal yang dapat kita lakukan yaitu menguji hipotesis pengaruh antar variabel serta memprediksi baik nilai maupun klasifikasi variabel dependennya berdasarkan model yang terbentuk. Regresi yang paling umum yang dikenal dalam penelitian adalah model regresi linier klasik yang berbasis pada data yang terdistribusi normal (classical normal linier regression model/ CNLRM). Seperti diketahui, model regresi klasik ini di dalam melakukan estimasi nilai parameternya menggunakan metode ordinary least square (OLS) maupun maximum likelihood estimator (MLE). Ketika peneliti ingin melakukan pengujian hipotesis terhadap pengaruh antar variabel dan memprediksi nilai variabel dependen berdasarkan data yang ada, maka model yang digunakan harus mengikuti asumsi dalam model CNLRM ini.
ADVERTISEMENT
Nah, mengapa perlu dilakukan pengujian asumsi klasik pada CNLRM? Alasan paling mendasar adalah agar parameter regresi yang didapat bersifat Best Liniear Unbias Estimator (BLUE) artinya bahwa nilai parameter yang didapat adalah nilai yang bersifat tidak bias, linier dan memiliki varian yang paling kecil/ minimum dari berbagai kemungkinan estimator lainnya. Terkadang istilah BLUE juga ditulis dengan istilah model yang Uniformly Minimum Variance Unbias Estimator (UMVUE). Pengujian asumsi klasik berupa linieritas, normalitas, heterokedastisitas, dan autokorelasi. Selain dari sisi asumsi klasik, hal yang perlu diperhatikan dalam pengujian model CNLRM adalah bahwa hubungan antara variabel independen bersifat hubungan satu ke satu (one to one) artinya kita hanya melihat hubungan antara masing-masing variabel independen terhadap variabel dependen, sehingga tidak boleh ada hubungan dan pengaruh yang kuat antar variabel independen, jika terjadi maka akan terjadi kolinearitas yang tinggi dan disebut dengan multikolinearitas. Hal lain yang dapat diperhatikan dalam model CNLRM adalah ada tidaknya data outlier/ pencilan pada model baik pencilan pada data variabel dependen maupun pada data independennya.
ADVERTISEMENT
Uji Normalitas
Sebagaimana, menurut Gujarati (2006) bahwa prosedur pengujian statistik didasarkan pada asumsi bahwa faktor kesalahan ε didistribusikan secara normal. Karena kesalahan ε yang sebenarnya tidak dapat diamati secara langsung, maka direkomendasikan untuk menggunakan residu e yang merupakan taksiran ε. Tidak terpenuhinya asumsi normalitas maka koefisien regresi yang dihasilkan akan bias dan error-nya akan semakin besar. Selanjutnya untuk pengujian hipotesis menggunakan uji T (untuk uji parsial) mapupun uji F (untuk uji simultan) menjadi tidak relevan, karena kedua uji itu diturunkan dari distribusi normal.
Bagaimana kita dapat mendeteksi kenormalan data? Ada dua cara yaitu secara subjektif dan secara objektif. Secara subjektif dengan menggambarkan plot residual dengan distribusi probability normal data (PP Plot) atau dengan kuantil dari distribusi normal data (QQ Plot). Suatu data dikatakan mengikuti distribusi normal jika plot data berada di sekitar garis y=x (45 derajat). Secara objektif yaitu dengan menggunakan pengujian seperti uji Kolmogorov Smirnov, Shapiro-Fransia, Shapiro-Wilk, Liliefor, Anderson Daring, Jarque Berra, Chi Quadrat dan lainnya. Suatu data dikatakan normal jika nilai probability value dari hasil uji lebih besar dari alpa (tingkat signifikansi) yang ditetapkan.
ADVERTISEMENT
Lalu, bagaimana cara mengatasinya data yang tidak terdistribusi normal? Hal pertama kali yang dilakukan adalah kembali melakukan screening (pengecekan) terhadap data. Pengecekan dapat dilakukan terhadap satuan data dan adanya data pencilan. Selain itu jika memungkinkan dapat menambah data. Jika masih belum normal maka perlu dilakukan transformasi data dengan menggunakan nilai standar data (z score) maupun menggunakan transformasi Box Cox salah satunya dengan menggunakan nilai logaritma natural (ln) dari data. Hal lain yang dapat dilakukan adalah mengecek distribusi data dari variabel dependen, apakah mengikuti distribusi keluarga eksponensial, jika iya maka dapat menggunakan model linier terampat (genelized linear model /GLM).
ADVERTISEMENT
Uji Heterokedastisitas
Apa itu heterokedastisitas? Uji heterokedastisitas bertujuan menguji apakah dalam model regresi terjadi ketidaksamaan varian dari residual satu pengamatan ke pengamatan yang lain. Jika varian tetap maka disebut homoskedastisitas dan jika berbeda maka terjadi masalah heterokedastisitas. Jika asumsi normalitas terpenuhi, adanya heterokedastisitas, maka penaksir OLS tetap tak bias dan konsisten, namun penaksir tersebut tidak lagi efisien baik dalam sampel kecil maupun sampel besar (secara asimtotik). Dalam hal ini varian penaksir parameter koefisien regresi akan underestimate (menaksir terlalu rendah) atau overestimate (menaksir terlalu tinggi).
Bagaimana kita dapat mendeteksi heterokedastisitas model? Ada dua cara yaitu secara subjektif dan secara objektif. Secara subjektif dengan menggambarkan scatter plot antara nilai residual dengan nilai prediksi dari model. Dikatakan bebas asumsi heterokedastisitas jika plot yang dihasilkan berada di sekitar garis y=0 dan berbentuk acak/ tidak berpola. Jika terdapat pola misal pola linier, kuadratik, kubik atau lainnya maka terdapat gejala heterokedastisitas. Secara objektif yaitu dengan menggunakan pengujian dari hasil meregresikan nilai residual/ e (berbagai kondisi) dengan seluruh variabel independennya. Beberapa kondisi residual yang digunakan seperti nilai ln residual kuadarat pada uji Park, residual kuadarat pada uji white, absolut residual pada uji gletzer. Uji lainnya yang dapat digunakan adala uji rank spearman, uji Goldfeld-Quandt; uji breuch pagan; uji koenker–bassett. Suatu data dikatakan bebas asumsi heterokedastisitas jika nilai probability value dari hasil uji lebih besar dari alpha (tingkat signifikansi) yang ditetapkan.
ADVERTISEMENT
Lalu, bagaimana cara mengatasinya data yang mengalami heterokedastisitas? Salah satu caranya adalah dengan menggunakan penimbang nilai varian data menggunakan model weigted least square (WLS) dan generalized least squares (GLS). Pada kasus data menggunakan data spasial (melibatkan aspek spasial/ koordinat lokasi) maka dapat menggunakan model geographically weighted regression (GWR), sehingga akan terdapat koefisien yang berbeda untuk setiap lokasi yang berbeda.
Uji Autokorelasi
Apa itu autokolerasi? Uji autokorelasi digunakan untuk data time series dan panel data. Pengujian autokorelasi juga dapat dilakukan pada data cross section, jika pada model ditambahkan efek spasial pada datanya. Non Autokorelasi berarti tidak adanya hubungan antara residual satu observasi dengan observasi lain yang berlainan waktu untuk data time series, atau antar lokasi untuk data spasial. Uji autokorelasi bertujuan menguji apakah model regresi linier ada korelasi antara kesalahan pengganggu/error pada periode t dengan kesalahan pengganggu/error pada periode sebelumnya (t-1) untuk data time series, atau antar lokasi untuk data cross section spasial. Jika asumsi normalitas terpenuhi, adanya autokorelasi maka penaksir OLS menjadi bias.
ADVERTISEMENT
Bagaimana kita dapat mendeteksi autokerasi model? Ada dua cara yaitu secara subjektif dan secara objektif. Secara subjektif dengan nilai durbin watson (DW). Dikatakan bebas asumsi autokorelasi jika nilai DW di antara du<dw<4-du, nilai du dapat dilihat pada tabel durbin watson. Secara objektif yaitu dengan menggunakan pengujian run test, Bruesch-Godfrey, yang lebih umum dikenal dengan uji lagrange multiplier (LM test), dan uji Grey. Suatu data dikatakan bebas asumsi autokolerasi jika nilai probability value dari hasil uji lebih besar dari alpa (tingkat signifikansi) yang ditetapkan.
Lalu, bagaimana cara mengatasinya data yang mengalami autokorelasi? Salah satu caranya adalah dengan menambahkan lag data atau differencing data jika menggunakan data time series. Selain itu untuk data panel dapat menggunakan model panel dinamis jika datanya masih terdistribusi normal, tetapi jika tidak normal (tetapi masih dalam distribusi keluarga eksponensial) serta mengalami autokolerasi dapat menggunakan model generalized linier mixed model (GLMM). Pada data spasial maka dapat menggunakan model regresi spasial pada data autokorelasi.
ADVERTISEMENT
Uji Linieritas
Apa itu linieritas? Uji linieritas dipergunakan untuk melihat apakah model yang dibangun sudah mempunyai hubungan linier atau tidak. Yang dimaksud linier di sini dalam dua hal yaitu linier dalam variabel independen maupun linier dalam parameter. Jika model yang tidak memenuhi asumsi linieritas maka model yang digunakan akan bias dan error prediksi juga akan besar.
Bagaimana kita mendeteksi linieritas model? Ada dua cara yaitu secara subjektif dan secara objektif. Secara subjektif dengan melakukan plot antara variabel dependen dan independen. Secara objektif yaitu dengan menggunakan pengujian ramsey test atau uji Lagrange Multiplier. Suatu model dikatakan bebas asumsi linieritas jika nilai probability value dari hasil uji lebih besar dari alpa (tingkat signifikansi) yang ditetapkan.
ADVERTISEMENT
Lalu, bagaimana cara mengatasinya model yang tidak memenuhi asumsi linieritas? Jika hubungan antara variabel dependen dan independen plotnya tidak linier dan spesifikasi modelnya tidak eksplisit diketahui maka dapat menggunakan model regresi nonparametrik. Jika yang tidak linear adalah variabel independennya maka dapat menggunakan regresi polynomial.
Uji Multikolinieritas
Apa itu multikolinieritas? Multikolinieritas menunjukkan adanya hubungan linier di antara beberapa atau semua variabel independen yang menyusun model regresi. Multikolinieritas sebenarnya bukanlah uji asumsi klasik melainkan persyaratan dalam model regresi karena yang diuji adalah variabel independennya bukan model atau residual pada model. Jika asumsi normalitas, heterokedastisitas dan autokolerasi terpenuhi, adanya multikolinieritas masih menghasilkan estimator tak bias, tetapi menyebabkan suatu model mempunyai varian yang besar sehingga sulit mendapatkan estimasi yang tepat. Meski penaksir OLS bisa diperoleh, standard error (kesalahan baku) cenderung semakin besar dengan meningkatnya korelasi antar variabel bebas. Besarnya standard error berakibat, selang keyakinan (confidence interval) untuk suatu parameter menjadi lebih lebar, dan kesalahan tipe II meningkat. Pada multikolinieritas yang tinggi tapi tidak sempurna, estimator koefisien regresi bisa diperoleh, tetapi estimator dan standard error menjadi sensitif terhadap perubahan data. Pada multikolinieritas yang tinggi tetapi tidak sempurna, bisa terjadi R kuadrat (koefisien determinasi) tinggi namun tidak satupun variabel signifikan secara statistik.
ADVERTISEMENT
Bagaimana kita dapat mendeteksi multikolinieritas data pada variabel independen? Adanya multikolineariatas dapat dilihat dari nilai matriks korelasi antar variabel bebas, apakah terdapat nilai korelasi yang tinggi. Jika korelasi antara dua variabel independen lebih besar dari 0.8 maka dikatakan ada gejala multikolinieritas. Selain itu dapat melihat nilai Variance Inflation Factor (VIF). Jika terdapat nilai variabel independen dengan nilai VIF > 10 maka diindikasikan bahwa ada masalah multikolinearitas.
Lalu, bagaimana cara mengatasinya multikolinieritas? Hal yang dapat dilakukan adalah dengan menggunakan informasi apriori (hubungan antara variabel independen secara teori), lalu menggabungkan variabel tersebut dengan analisis komponen utama atau analisis faktor. Mengeluarkan satu atau beberapa variabel bebas yang memiliki korelasi tinggi. Selain itu dapat menggunakan model ridge regression.
ADVERTISEMENT
Uji Data Pencilan/ Outlier
Apa itu data pencilan? Data pencilan/ outlier adalah data yang nilainya cukup berbeda/ ekstrim terhadap nilai lainnya. Pencilan dapat terjadi pada variabel dependen maupun variabel independen. Dengan adanya data pencilan akan mempengaruhi model yang dihasilkan. Model yang dihasilkan dengan adanya data pencilan menjadi tidak efisien, atau error-nya akan besar.
Bagaimana kita dapat mendeteksi adanya outlier? Ada dua cara yaitu secara subjektif dan secara objektif. Secara subjektif dengan melakukan plot antara variabel dependen dan independen atau menggunakan box plot. Secara objektif pada data variabel dependen dilakukan standarisasi data (nilai z-score) jika nilainya di atas 2.5 atau di bawah minus 2.5 maka ada indikasi pencilan/ outlier. Pada variabel independen dapat memanfaatkan Heissan Matrik untuk melihat nilai leverage, nilai discrepancy, dan nilai influence pada data.
ADVERTISEMENT
Lalu, bagaimana cara mengatasinya adanya data pencilan/ outlier? Hal yang dapat dilakukan adalah melakukan screening data, memastikan bahwa nilai pencilan/ outlier merupakan nilai sebenarnya bukan karena kesalahan perhitungan/ rumus maupun salah input data. Jika nilai tersebut tidak menjadi interest dalam penelitian maka nilai pencilan dapat dibuang/ diabaikan. Tetapi jika peneliti tertarik dengan nilai tersebut dapat diberikan penimbang (weighting) pada data. Selain itu dapat menggunakan regresi median, atau model LMS (least median square) atau model regresi robust (kekar) lainnya. Jika adanya pencilan bersamaan dengan adanya multikolinieritas maka dapat menggunakan model RobusPCA.
Dari pembahasan di atas, dapat kita simpulkan bahwa perlu kehati-hatian dalam penggunaan suatu model statistik karena setiap model didasarkan kepada asumsi tertentu. Dengan pengetahuan yang baik dan benar akan asumsi yang mendasari suatu model statistik, maka akan mempermudah peneliti/ dosen dalam menyelesaikan masalah penelitian yang dilakukan. Selain itu model yang terbentuk akan memberikan kesimpulan yang benar terkait hasil statistik yang dihasilkan.
ADVERTISEMENT