RAY BLoG: Microsoft Research Mendemokan Penerjemahan Pidato Realtime Menggunakan Suara Asli dari Bahasa Inggris ke Mandarin

Luar biasa, sebagaimana kita ketahui sekarang bahwa teknologi penerjemahan memang sangat membantu, terutama dari lahirnya translate.google.com atau Bing translator yang saya kira pasti sangat disukai oleh banyak pengguna internet, di mana dengan copy paste teks atau mengetikkan teks yang ingin diterjemahkan kita bisa mendapatkan hasil penerjemahan dalam hitungan detik saja. Tapi sayangnya teknologi penerjemahan teks, seringkali tidak mencukupi dan tidak bisa mengatasi kebutuhan “penerjemah” manusia apabila seseorang ingin berbicara pada audiens dalam bahasa yang berbeda secara instan.

Tapi akhirnya masalah kebutuhan penerjemah manusia pun bakal hilang nantinya dengan adanya demo hasil riset dari Microsoft Research yang mendemokan penerjemahan secara realtime/instan di mana secara instan pidato bahasa Inggris yang disampaikan diterjemahkan dalam bahasa Mandarin melalui mesin/sistem penerjemah Microsoft dan pidato yang didengar audien pun tidak menggunakan suara orang lain atau seperti suara mesin yang kaku atau aneh, tapi sistem ini menghasilkan pidato/perkataan seperti suara asli pembicaranya, maka pendengar pun seakan-akan mendengar langsung dari pembicara aslinya.

Demo ini memang menunjukkan kecanggihan teknologi dan kecepatan perkembangan teknologi di masa kita sangatlah cepat dan luar biasa. Rick Rashid, sang kepala Microsoft Research menggunakan teknologi ini pada saat beliau berbicara pada acara Asia’s 21st Century Computing di Tianjin, China
belum lama ini.

Teknologi penerjemahan pidato/pembicaraan secara realtime memang susah, dan selama ini tidak menghasilkan hasil yang benar-benar memuaskan. Teknologi atau cara yang digunakan pada awalnya menggunakan pengenalan pola gelombang suara untuk tiap kata namun cara ini tidak memuaskan karena tidak stabil, karena perbedaan suara manusia yang sangat bervariasi.

Lalu pada tahun 1970-an sekelompok peneliti di Carnegie Mellon University membuat terobosan signifikan dalam pengenalan suara dengan menggunakan teknik yang disebut model hidden Markov yang memungkinkan mereka untuk menggunakan data pelatihan dari banyak orang/speaker untuk membangun model statistik speech/pidato yang jauh lebih kuat. Akibatnya, selama 30 tahun terakhir sistem pengenalan suara mendapatkan hasil lebih baik. Dan kemudian dalam 10 tahun terakhir kombinasi metode yang lebih baik, komputer yang lebih cepat dan kemampuan komputasi untuk memproses data lebih cepat secara dramatis lebih telah memungkinkan penggunaan teknologi ini secara praktis.

Memang teknologi pengenalan suara/speech saat ini bukan sesuatu yang wah, namun sebenarnya tingkat error atau kesalahan dari sistem pengenalan suara terbaik saat ini pun masih menghasilkan persentase 20-25% error.

Menurut Rick Rashid, sejak tahun 2010/dua tahun yang lalu, para peneliti di Microsoft Research dan University of Toronto telah membuat terobosan baru dengan menggunakan teknik yang disebut Deep Neural Networks yang mampu bekerja seperti perilaku otak manusia, sehingga peneliti mampu melatih sistem recognizer suara lebih diskriminatif dan lebih baik dari metode sebelumnya. Hasilnya error atau kesalahan penerjemahan bisa turun sampai 15% saja.

Akhirnya hasil para peneliti ini didemokan oleh Rick Rashid di hadapan kurang lebih 2000 siswa di China yang merespon dengan sorak sorai walau sebenarnya masih ada kesalahan penerjemahan dan kadang kala ada yang lucu juga.

Supaya tidak penasaran, silakan lihat video berikut: