Konten dari Pengguna

Krisis Data AI: Apakah Inovasi Dunia Akan Terhenti di Tangan Raksasa Teknologi?

Arif Perdana
Arif adalah Dosen Digital Strategy & Data Science di Monash University. Dia memiliki pengalaman akademis, industri, dan konsultansi di berbagai negara.
31 Mei 2025 13:15 WIB
·
waktu baca 5 menit
comment
0
sosmed-whatsapp-white
copy-circle
more-vertical
Kiriman Pengguna
Krisis Data AI: Apakah Inovasi Dunia Akan Terhenti di Tangan Raksasa Teknologi?
Krisis data melanda pengembangan AI karena pembatasan akses data. Solusi seperti data sintetik, data commons, dan tata kelola baru dibutuhkan untuk masa depan AI yang inklusif dan bertanggung jawab.
Arif Perdana
Tulisan dari Arif Perdana tidak mewakili pandangan dari redaksi kumparan
Krisis Data AI, Gambar dibuat dengan GPT 4o
zoom-in-whitePerbesar
Krisis Data AI, Gambar dibuat dengan GPT 4o
ADVERTISEMENT
Bayangkan menulis buku, tetapi sebagian besar perpustakaan dunia tiba-tiba ditutup aksesnya. Itulah gambaran situasi yang kini dihadapi para pengembang akal imitasi (AI). Studi terbaru dari Data Provenance Initiative di Massachusetts Institute of Technology (MIT) mengungkap tren mengkhawatirkan, ketersediaan data untuk melatih model AI terus menurun drastis.
ADVERTISEMENT
Menurut laporan tersebut, lima persen dari seluruh data, dan seperempat dari sumber data berkualitas tinggi, yang sebelumnya digunakan dalam pelatihan AI kini dibatasi aksesnya. Bahkan, hampir separuh data dalam himpunan C4 telah dikekang oleh ketentuan layanan. Himpunan C4 (Common Crawl-based Colossal Clean Crawled Corpus) adalah kumpulan data besar yang terdiri dari teks yang dikumpulkan secara otomatis dari web, yang sangat sering digunakan dalam pelatihan model bahasa besar (Large Language Models/LLM) seperti GPT, BERT, dan lainnya.
Fenomena ini terjadi karena banyak penerbit dan pemilik data memperketat aksesnya dengan memasang paywall, memperbarui syarat layanan, memblokir crawler otomatis, hingga mengambil langkah hukum terhadap penggunaan data tanpa izin. Beberapa platform besar seperti Reddit dan Stack Overflow kini mulai mengenakan biaya untuk akses data mereka.
ADVERTISEMENT
MIT mencatat lonjakan signifikan dalam pembatasan penggunaan data. Dalam satu tahun terakhir, jumlah token yang dibatasi meningkat hingga 500 persen untuk himpunan data C4 dan RefinedWeb, bahkan 1.000 persen untuk distribusi utama mereka. Pembatasan ini tak hanya berdampak pada pengembang AI komersial, tetapi juga bagi riset akademik dan pengembangan non-profit yang selama ini bergantung pada data terbuka.
Musim Dingin bagi Data AI
Menipisnya pasokan data berkualitas bisa berdampak langsung pada kinerja dan akurasi model AI, terutama bagi generative AI seperti ChatGPT, Gemini, atau Claude yang membutuhkan input dalam jumlah besar dari teks, gambar, dan video. Sementara perusahaan teknologi besar masih memiliki sumber daya untuk mengakses data berbayar, banyak peneliti independen dan institusi kecil tertinggal karena tidak mampu bersaing.
ADVERTISEMENT
Krisis ini juga memunculkan risiko monopoli data oleh raksasa teknologi, yang dapat mengonsolidasikan kekuatan mereka untuk mengontrol narasi dan inovasi AI. Ketimpangan ini tidak hanya soal akses, tetapi juga tentang siapa yang menentukan arah perkembangan AI di masa depan. Jika hanya segelintir perusahaan yang mampu melatih model canggih, AI berpotensi menjadi alat yang melayani kepentingan komersial semata, mengesampingkan kebutuhan masyarakat yang lebih luas, seperti solusi untuk perubahan iklim atau kesehatan global.
Ini berpotensi memperlebar jurang antara perusahaan raksasa dan komunitas riset yang lebih luas. Inovasi bisa tersendat, dan potensi AI untuk kepentingan publik ikut terhambat. Dalam jangka panjang, kekeringan data ini dapat memengaruhi berbagai sektor, termasuk riset ilmiah, pengembangan teknologi untuk kepentingan masyarakat, hingga layanan publik berbasis AI.
ADVERTISEMENT
Solusi: Data Sintetik dan Data Commons
Di tengah krisis ini, beberapa pengembang mulai melirik data sintetik, data buatan yang dihasilkan oleh AI sendiri, sebagai alternatif. Namun, tantangannya adalah kualitas: data buatan harus bisa menyamai, bahkan melampaui, kompleksitas dan keragaman data asli buatan manusia. Hingga kini, pencapaian itu masih belum merata.
Data sintetik juga membawa risiko baru, seperti bias yang diperkuat dari model yang menghasilkannya atau kurangnya representasi data dari komunitas yang kurang terwakili. Penelitian juga menunjukkan bahwa model yang dilatih dengan data sintetik sering kali menunjukkan penurunan akurasi pada tugas-tugas yang membutuhkan pemahaman kontekstual mendalam, seperti analisis budaya atau bahasa lokal. Oleh karena itu, data sintetik harus diimbangi dengan strategi validasi ketat untuk memastikan keandalan.
ADVERTISEMENT
Pendekatan lain yang menjanjikan adalah pembentukan data commons, kumpulan data yang dikelola bersama untuk kepentingan publik. Ini memungkinkan akses data yang lebih adil melalui tata kelola kolaboratif. Meski demikian, membangun data commons yang andal memerlukan kerangka hukum yang kuat, pendanaan berkelanjutan, dan partisipasi masyarakat luas.
Data berukuran kecil (small data) juga bisa menjadi alternatif. Meski tak sebesar big data, small data lebih kontekstual, lebih mudah dianalisis, dan sangat berguna untuk aplikasi yang bersifat lokal atau spesifik. Dalam konteks ini, small language models (SLM) yang lebih ringan dari large language models (LLM) seperti GPT-4 menjadi solusi yang lebih hemat sumber daya namun tetap efektif.
Perlu Tata Kelola Baru
Untuk menghadapi tantangan ini, perlu dibentuk ulang kerangka tata kelola data yang lebih sesuai dengan dinamika digital saat ini. Misalnya, memungkinkan pemilik situs web menentukan secara lebih rinci bagaimana data mereka boleh digunakan, hanya untuk mesin pencari, untuk AI non-komersial, atau AI yang memberikan atribusi sumber.
ADVERTISEMENT
Tata kelola baru ini juga harus mengatasi ketidakseimbangan kekuatan antara pemilik data dan pengembang AI. Salah satu pendekatan adalah mengadopsi model berbasis blockchain untuk melacak asal-usul dan penggunaan data, memastikan transparansi dan kompensasi yang adil bagi pencipta konten. Selain itu, regulasi global yang seragam, seperti yang sedang digodok oleh Uni Eropa melalui AI Act, dapat menetapkan standar etika penggunaan data, mencegah eksploitasi, dan mempromosikan kolaborasi lintas batas.
Protokol baru juga bisa mencakup masa berlaku larangan penggunaan data, agar data yang masih "segar" tidak langsung diambil tanpa izin. Semua ini bertujuan memastikan data yang digunakan tetap berkualitas, mutakhir, dan sesuai dengan niat pembuatnya.
Upaya kolektif sangat diperlukan agar AI tetap berkembang secara inklusif. Akses yang setara terhadap data harus menjadi prioritas. Kolaborasi antara pembuat kebijakan, komunitas teknologi, dan masyarakat sipil menjadi kunci. Edukasi publik, model bisnis yang berkelanjutan, dan semangat berbagi data secara etis akan sangat menentukan arah masa depan AI.
ADVERTISEMENT
Namun, tantangan terbesar adalah membangun kepercayaan publik terhadap penggunaan data untuk AI. Skandal privasi data di masa lalu, seperti kasus Cambridge Analytica, telah membuat masyarakat skeptis. Oleh karena itu, komunikasi transparan tentang bagaimana data digunakan, siapa yang mengaksesnya, dan bagaimana manfaatnya kembali ke masyarakat harus menjadi bagian dari strategi tata kelola. Inisiatif seperti laporan tahunan tentang dampak sosial AI dapat membantu membangun akuntabilitas.
Studi MIT menegaskan bahwa komunikasi tentang niat dan persetujuan penggunaan data harus lebih transparan. Banyak berkas robots.txt tidak mencerminkan ketentuan layanan sebenarnya, sehingga pesan yang dikirim ke pengembang AI kerap membingungkan. Diperlukan standarisasi protokol agar AI menghormati hak digital dan tetap bertanggung jawab. Dengan langkah-langkah ini, harapan masih terbuka untuk menjaga agar ekosistem AI tidak hanya bertahan di tengah krisis data, tetapi juga terus melayani kepentingan publik.
ADVERTISEMENT