Jakarta, Titik Kumpul – Kecerdasan buatan (AI) semakin mempercepat terciptanya suara-suara palsu yang mendalam sehingga menimbulkan kekhawatiran di banyak industri. Mulai dari politik hingga penipuan finansial.
Pemerintah federal Amerika Serikat (AS) telah melarang robocall yang menggunakan suara kecerdasan buatan dan menawarkan hadiah uang tunai untuk solusi yang dapat mengurangi dampak negatif penipuan kloning suara.
Sementara itu, para peneliti dan sektor swasta berlomba mengembangkan perangkat lunak untuk mendeteksi kloning suara, yang sering dipasarkan sebagai alat pendeteksi penipuan.
Namun, solusi teknis tidak selalu efektif dalam mendeteksi suara yang dihasilkan oleh kecerdasan buatan. Dalam pengujian yang dilakukan NPR, NPR mengirimkan 84 rekaman suara berdurasi lima hingga delapan detik ke tiga penyedia pendeteksi suara palsu, yaitu Pindrop Security, AI or Not, dan AI Voice Detector.
Sekitar setengah dari klip tersebut merupakan kutipan dari berita radio asli, sedangkan sisanya merupakan kloningan suara dari reporter yang sama.
Eksperimen menunjukkan bahwa perangkat lunak pengenalan sering kali gagal mengenali klip yang dihasilkan AI atau salah mengidentifikasi suara asli sebagai suara AI.
Pindrop Security memiliki tingkat keberhasilan tertinggi, sementara AI atau Not gagal mengidentifikasi sebagian besar klip yang dihasilkan AI.
Abdellah Azzouzi, CEO AI Voice Detector, menjelaskan bahwa jika model tersebut memperkirakan bahwa sebuah klip memiliki kemungkinan 60 persen atau lebih dibuat oleh AI, maka klip tersebut dianggap diproduksi oleh AI.
Namun, alat tersebut salah mengidentifikasi 20 dari 84 sampel yang disediakan oleh NPR. Meskipun penerapan kecerdasan buatan pada deteksi AI merupakan pendekatan yang menjanjikan, ada beberapa tantangan yang harus diatasi.
Salah satu tantangan terbesarnya adalah melatih model pembelajaran mesin di setiap generator suara AI baru yang ada di pasaran untuk mendeteksi perbedaan halus antara model tersebut dan suara manusia sebenarnya.
Amit Gupta, manajer produk keamanan di Pindrop, menjelaskan bahwa salah satu cara kerja algoritme mereka adalah dengan merekayasa balik saluran vokal, suatu properti fisik tubuh manusia yang diperlukan untuk menghasilkan suara.
Selain itu, model pembelajaran mesin mudah diganggu di dunia nyata. Akurasi dapat menurun jika audionya lemah atau terdapat kebisingan di latar belakang.
Menurut Sarah Barrington, peneliti kecerdasan buatan dan forensik di Universitas California, Berkeley, algoritma khusus dapat mendeteksi kepalsuan mendalam dari para pemimpin dunia yang suaranya terkenal dan terdokumentasi dengan baik, seperti Presiden AS Joe Biden. Namun, hal ini tidak berlaku bagi orang-orang yang kurang dikenal.
Perusahaan teknologi besar seperti Meta, TikTok, dan X juga berupaya mengembangkan teknologi yang dapat menandai, mendeteksi, dan menandai konten realistis yang dibuat dengan AI.
Namun, sebagian besar upaya ini tampaknya lebih fokus pada video, dan tidak jelas apakah upaya tersebut menyertakan audio. Tidak ada deteksi teknologi tinggi yang efektif untuk panggilan penipuan yang melibatkan orang yang Anda cintai.
FTC merekomendasikan untuk mempersiapkan pertanyaan terlebih dahulu yang tidak diketahui jawabannya oleh penipu dan menelepon kembali untuk memastikan panggilan tersebut tidak palsu.
Meskipun ada kemajuan dalam teknologi spoofing suara dalam, tantangannya tetap ada. Perangkat lunak pendeteksi yang salah dapat menimbulkan konsekuensi serius, dan dengan munculnya deepfake baru yang sering terjadi, ini adalah permainan yang terus berkembang.