Cara DeepSeek Bikin AI-nya Lebih Murah dari LLM Raksasa Teknologi Lain

Ilustrasi DeepSeek. Foto: Dado Ruvic/REUTERS

DeepSeek menjadi topik hangat dalam perbincangan. Produk AI large language model (LLM) dari startup asal China ini mampu menciptakan LLM hebat yang bahkan mampu bersanding dengan OpenAI dengan harga murah.

Asisten artificial intelligence (AI) DeepSeek sempat menjadi salah satu dari jajaran teratas aplikasi populer di Apple App Store. Hadirnya DeepSeek juga membuat saham-saham raksasa teknologi AS 'jungkir balik'

Tim riset DeepSeek-AI melalui paper laporan teknisnya menyebut bahwa mereka melakukan sejumlah pendekatan, serangkaian uji coba dan benchmark dalam melatih model AI mereka, apa saja?

DeepSeek melakukan training model AI pada hal-hal penting saja. Metode ini memangkas proses training konvensional yang biasanya melalui proses update parts model AI secara keseluruhan, bahkan pada bagian yang kecil dan tak berkontribusi banyak.

Mereka menggunakan teknik Auxiliary-Load Free Load Balancing. Pakar AI sekaligus Manager - Content and Growth Analytics Vidhya, Himanshi Sinhg dalam analisisnya mengatakan bahwa, DeepSeek hanya melatih 5 persen dari parameter modelnya per token.

Teknik ini mampu mengurangi kinerja GPU sebanyak 95 persen, tanpa mengurangi akurasi model AI. Cara ini lebih efisien dibandingkan apa yang dilakukan perusahaan seperti Meta. Minimnya load GPU tentu berkontribusi pada hemat pemakaian daya listrik.

Tak perlu GPU AI mahal

Kemunculan DeepSeek terjadi di tengah upaya AS membatasi penjualan chip canggih yang mendukung AI ke China. AS khawatir, startup China bakal tumbuh lebih hebat dibandingkan perusahaan asal AS dalam hal pengembangan AI global.

Para pendiri startup AI China telah berbagi tugas satu sama lain dan bereksperimen dengan pendekatan baru terhadap teknologi termasuk menghasilkan model AI yang membutuhkan daya komputasi jauh lebih sedikit daripada sebelumnya.

DeepSeek R1, yang dirilis minggu lalu, 20 hingga 50 kali lebih murah untuk digunakan daripada model o1 milik OpenAI, tergantung pada tugasnya.

Kantor perusahaan Nvidiadi Taiwan. Foto: AlmondYue/Shutterstock

DeepSeek AI merupakan LLM hasil optimasi menggunakan GPU terjangkau. Mereka tidak bergantung pada GPU AI kelas dewa seperti NVIDIA H100.

DeepSeek menggunakan NVIDIA H800. Ini merupakan H100 versi China dengan berbagai pengurangan spesifikasi karena regulasi ekspor. GPU ini punya chip-to-chip data transfer rate 300 GBps, separuh dari H100 yang punya kecepatan 600 GBps.

Menjalankan Model AI terutama inferensi butuh banyak memori dan sangat mahal. Ketimbang cara konvensional, mereka melakukan metode Low-Rank Key-Value (KV) Joint Compression yaitu mengkompresi key-value vectors menggunakan down-projection matrix.

Cara ini mampu mengurangi penggunaan memori, mempercepat proses inferens serta memotong biaya operasional karena hardware yang digunakan tidak perlu spesifikasi mahal.

DeepSeek juga meningkatkan efisiensi pembelajaran model melalui metode reinforcement learning. Alih-alih hanya mengandalkan metode training tradisional, mereka berfokus pada tugas-tugas yang memiliki jawaban yang jelas dan dapat diverifikasi, seperti soal matematika dan coding.

AI diberi tugas-tugas kompleks yang mudah diverifikasi (misalnya, tantangan coding). Saat model menghasilkan hasil yang benar, ia diberi reward dan akan belajar lagi untuk memperkuat pola tersebut.

Jika terjadi kesalahan, penyesuaian akan dilakukan untuk meningkatkan kinerja pada iterasi berikutnya. Metode ini memungkinkan DeepSeek meningkatkan akurasi dengan sumber daya terbatas.

Perusahaan yang mengembangkan DeepSeek didirikan oleh Liang Wenfeng di Hangzhou, China pada tahun 2023. Pria berusia 40 tahun itu merupakan lulusan teknik informasi dan elektronik. Wenfeng juga mendirikan dana lindung nilai yang mendukung DeepSeek.