Google Bikin AI Baru, Bisa Bikin Lagu Full Cuma dari Sepotong Audio

Perbesar

Logo Google Foto: REUTERS/Thomas Peter

Google menambah koleksi AI mereka. Setelah tahun lalu meluncurkan AI percakapan LaMDA—yang sempat diklaim berakal, kali ini Google memperkenalkan AI yang dapat membuat satu lagu penuh (termasuk suara manusia) hanya dengan memanfaatkan cuplikan audio beberapa detik.

AI ini diberi nama AudioLM. Ia diumumkan Google pada 6 Oktober 2022 melalui blog setelah studinya dipublikasikan dalam jurnal non peer-reviewed ArXiv bulan lalu.

AudioLM dapat menghasilkan lagu hanya bermodalkan beberapa detik audio. Ini mirip dengan AI generator teks seperti GPT-3 yang menghasilkan paragraf atau artikel hanya dengan satu kalimat awal.

AudioLM bekerja secara langsung membongkar pasang audio bit per bit, ketimbang membutuhkan proses transkrip teks terlebih dahulu. Untuk menghasilkan audio yang begitu cair dan realistis, AudioLM tidak membutuhkan anotasi not musik —seperti yang dibutuhkan beberapa AI penghasil musik lain.

Roger Dannenberg, seorang peneliti musik yang dihasilkan komputer di Carnegie Mellon University, mengatakan kepada MIT Technology Review bahwa AudioLM telah memiliki kualitas suara yang jauh lebih baik daripada program generasi musik sebelumnya.

Secara khusus, katanya, AudioLM secara mengejutkan punya kualitas bagus dalam menciptakan kembali beberapa pola pengulangan yang melekat pada musik buatan manusia. Untuk menghasilkan musik piano yang realistis, AudioLM harus menangkap banyak getaran halus yang terkandung dalam setiap nada saat tuts piano ditekan.

“Itu sangat mengesankan, sebagian karena itu menunjukkan bahwa mereka mempelajari beberapa jenis struktur di berbagai tingkatan,” kata Dannenberg kepada MIT Technology Review.

AudioLM tak hanya dilatih untuk menghasilkan musik. Pustakanya juga memuat audio ucapan manusia. Namun, meski menghasilkan aksen dan irama yang sesuai dengan prompt, AudioLM belum bisa menghasilkan kalimat yang terstruktur dan punya maksud, alias kalimatnya masih acak-acakan.

AudioLM, dalam menghasilkan audio tidak membutuhkan anotasi seperti not musik dalam data training. AudioLM telah mempelajari tersebut secara otomasi, yang menambah realistis hasilnya.

Logo Google. Foto: Aulia Rahman Nugraha/kumparan

Tentu ada pro kontra dan implikasi yang perlu dipertimbangkan. Rupal Patel, yang meneliti ilmu informasi dan pidato di Universitas Northeastern, kepada MIT Technology Review mengatakan bahwa penting untuk menentukan apakah musisi yang memproduksi klip yang digunakan sebagai data pelatihan akan mendapatkan atribusi atau royalti dari produk final.

Perdebatan ini juga muncul pada kasus AI teks-ke-gambar sebelumnya. Kualitas audio final yang sangat realistis juga bisa disalahgunakan, seperti pidato hoax—yang kemudian memperkuat deep fake.

Dalam makalah penelitian yang terbit di ArXiv 7 September tersebut, para peneliti menulis bahwa mereka sudah mempertimbangkan dan mengambil langkah untuk meminimalisasi dampak ini—misalnya, dengan mengembangkan teknik untuk membedakan suara alami dari suara yang dihasilkan menggunakan AudioLM. Patel juga menyarankan untuk menyertakan watermark audio dalam produk yang dihasilkan AI untuk membuatnya lebih mudah dibedakan dari audio alami.