Analisis dan Perancangan Speech Recognition Translate Bahasa Inggris-Indonesia-Gorontalo Berbasis Android

ISSN: 2088-4591

  Vol. 6 No. 1 Edisi Mei 2016

   

  

Analisis dan Perancangan Speech Recognition

Translate Bahasa Inggris-Indonesia-Gorontalo Berbasis Android

  

Ismail Mohidin

  Program Studi Teknik Informatika, Politeknik Gorontalo Jl. JL. Muchlis Rahim, Desa Panggulo, Kec. Botupingge, Kab. Bone Bolango 60111

  

Ema

Terima Naskah : 5 April 2016 Terima Revisi : 29 April 2016

  

ABSTRAK

  Aplikasi Translate merupakan sebuah rancang bangun aplikasi speech recognition yang dibangun pada sistem operasi Android. Aplikasi ini dirancang menggunakan sebuah smartphone sebagai perangkat keras untuk menerima input berupa kata yang diucapkan oleh user. Metode yang digunakan adalah Hidden Markov Model (HMM) yang terdapat pada library Pocketsphinx. Fonem yang digunakan adalah aturan fonem Indonesia. Kelebihan dari aplikasi ini adalah dapat digunakan tanpa akses internet.

  Penulis mencoba membangun aplikasi Translate bahasa Inggris-Indonesia-Gorontalo menggunakan

  

speech to text berbasis android yang akan mengenalkan kata yang akan diucapkan oleh user dalam tiga

  bahasa dan dikuti pengucapan, Aplikasi ini diharapkan dapat membantu dan menunjang perkembangan budaya dan bahasa daerah Gorontalo.

  Kata kunci: Speech Recognition, Translate Bahasa, Hidden Markov Model, Pocketsphinx, Android

  

ABSTRACT

Translate app is a plan to build speech recognition applications built on the Android operating

system. This application is designed to use a smartphone as a hardware to receive input in the form of

words spoken by the user. The method used is the Hidden Markov Model (HMM) contained in

Pocketsphinx library. Phoneme used are phonemes Indonesian rule. The advantages of this application is

that it can be used without internet access.

  

The author tries to build applications Translate English Indonesian-Gorontalo using speech to text-

based android that will introduce the word to be spoken by the user in three languages and followed the

pronunciation, this application is expected to assist and support the development of local culture and

language Gorontalo. Keywords: Speech Recognition, Translate, Hidden Markov Model, Pocketsphinx, Android

  PENDAHULUAN memiliki beragam bahasa, masyarakat gorontalo umumnya menggunakan bahasa asli Gorontalo.

  Seiring berkembangnya waktu, ponsel cerdas Dengan beragam daerah dan bahasa terdapat

  (smart phone) sudah bukan lagi barang baru bagi beberapa kendala saat berkominikasi salah satunya masyarakat saat ini karena semua aktifitas manusia adalah perbedaan bahasa. Penggunaan buku tidak lepas dari penggunaan ponsel cerdas (smart kamus bahasa masih menjadi salah satu pilihan

  phone) . varian yang paling banyak diminati, hal ini

  dalam menerjemahkan bahasa. Namun dalam dikarenakan banyak aplikasi populer dan banyak penggunaannya sebagian masyarakat memiliki digunakan salah satu contoh aplikasi yang populer kendala yaitu ketika akan menerjemahkan bahasa digunakan adalah aplikasi penerjemah bahasa. asing yang sulit untuk ditulis dan diucapkan seperti

  Provinsi Gorontalo adalah provinsi yang bahasa Gorontalo, Inggris dan Indonesia dan lain memiliki beragam bahasa yang digunakan sebagai sebagainya akan mempersulit masyarakat dalam contoh bahasa bone, tilamuta, suwawa. Meskipun menerjemahkan bahasa. Selain itu Penggunaan

  12

ISSN: 2088-4591

  sering digunakan pada saat berkomunikasi yang terdiri dari beberapa kategori yang dapat digunakan secara offline, serta bagaimana membuat sebuah aplikasi berbasis mobile yang dapat diakses. Data yang akan digunakan dalam dalam penelitian ini berupa data suara berbahasa Indonesia, Inggris dan Gorontalo sebanyak 30 data suara.

  13

  mengidientifikasikan setiap karakter pada katanya lalu menconvertnya menjadi sebuah text : contoh aplikasi sederhananya adalah aplikasi Speech

  text menerima gelombang suara manusia lalu

  yang dapat mengidentifikasi seseorang melalui suaranya, Voice Recognition tidak mengidentifikasi siapa yang akan berbicara, tetapi speech recognition mengidentifikasi apa yang diucapkan. Prinsip kerja aplikasi speech to

  recognition . Voice Recognition adalah suatu sistem

  dengan respons suara. Speech to text juga sering kali digunakan bersamaan dengan program voice

  enablede-mail dan perangkat suara pada sistem

  speech synthesis digunakan untuk membuat versi suara dari teks mencakup juga voice-

  Text Merupakan salah satu tipe dari aplikasi

  Menurut Taylor dan Paul (2007) Speech To

  Speech To Text

  Vol. 6 No. 1 Edisi Mei 2016  

   

  Gorontalo, Inggris dan Indonesia dengan memanfaatkan pocketsphinx guna membantu dalam menerjemahkan bahasa yang sulit untuk ditulis dan diucapkan, bagaimana membuat fitur

  speech to text pada aplikasi penterjemah bahasa

  application dari sistem Sphinx. aplikasi yang akan dibangun diharapkan dapat menangani kendala tersebut, proses penterjemahan dapat dilakaukan melalui suara (ucapan). Kedua, dibutuhkan suatu aplikasi yang dapat digunakan dalam kondisi terhubung internet (online) maupun tidak terhubung internet (offline). Dalam hal ini, untuk dibangun sebuah fitur Phrasebook yang berisi files kata umum yang sering digunakan pada saat berkomunikasi yang terdiri dari beberapa kategori. Ketiga, dengan dibangunnya sebuah aplikasi berbasis mobile, maka aplikasi dapat digunakan kapanpun dan dimanapun. Berdasarkan uraian yang dikemukakan, maka terdapat masalah yaitu bagaimana menerapkan teknologi

  library pengenalan ucapan versi mobile

  Dengan memanfaatkan Pocketsphinx merupakan

  Untuk mengatasi kendala-kendala tersebut, pertama dibutuhkan sebuah aplikasi penterjemah bahasa yang menerapkan teknologi speech to text yang dapat mengkonversi ucapan menjadi teks membantu masyarakat dalam menerjemahkan bahasa yang sulit untuk ditulis dan diucapkan.

  Gambar 2. Alur Penggunaan Situs Penterjemah Bahasa

  diharuskan memiliki koneksi internet dalam pengoperasiannya.

  Translator ataupun Bing Translator, pengguna

  Gambar 1. Alur Penggunaan Buku Kamus Bahasa Penggunaan situs penterjemah bahasa seperti Google Translator ataupun Bing Translator yang tersedia pada http://translate.google.com/ dan http://www.bing.com/translator sangat familiar dalam menerjemahkan bahasa. Dalam penggunaannya, cara/prosedur ini relatif lebih cepat dalam menerjemahkan bahasa dibanding menggunakan buku kamus bahasa. Untuk dapat menerjemahkan bahasa menggunakan Google

  buku kamus bahasa masih menjadi salah satu media dalam menangani perbedaan bahasa. Dalam proses penggunaannya, pengguna diharuskan mencari satu persatu kata/kalimat dari sebuah percakapan yang hendak di terjemahkan yang pada umumnya tersusun berdasarkan abjad. Prosedur ini membutuhkan waktu yang relatif lama dikarenakan dalam pencariannya dilakukan secara manual. Selain itu, pengguna akan disulitkan dengan lawan bicara yang memiliki bahasa bahasa china, korea, jepang, rusia dan lain sebagainya.

  Phrasebook yang berisi files kata umum yang

ISSN: 2088-4591

  Gambar 3. Alur Penggunaan Aplikasi Penterjemahan Bahasa

   

  Recognition yang bisa mengidientifikasi suara kita berdasarkan tiap karakterya menjadi text.

  Pocketsphinx

  Pocketsphinx merupakan library pengenalan ucapan versi mobile application dari sistem Sphinx yang dirancang oleh Carnegie Mellon University. Metode yang digunakan dalam sistem speech

  recognition Pocketphinx ini yaitu metode Hidden Markov Model . Proses pembelajaran unit-unit

  suara disebut training, sedangkan proses menyimpulkan urutan yang paling mungkin dari unit dalam sinyal yang diberikan disebut decoding, atau secara sederhana disebut pengenalan (recognition). Karena terdapat dua proses tersebut maka diperlukan SPHINX trainerdan SPHINX

  decoder.

  Android

  Android adalah system operasi berbasiskan linux. Android memiliki keunggulan sebagai perangkat lunak yang dapat didistribusikan secara terbuka (open source) sehingga pengguna bisa membuat aplikasi baru di dalamnya. Amrin Hakim, Muhammad. (2011) Fitur yang tersedia di Android adalah:

  Sistem yang akan dibangun adalah aplikasi translate berbasis mobile yang dapat dioperasikan menggunakan platform Android. Dalam pembangunannya, aplikasi ini mengimplementasi teknologi speech to text yang bertujuan untuk mempermudah pengguna dalam berkomunikasi dengan lawan bicara yang memiliki bahasa yang sulit untuk ditulis dan diucapkan, seperti bahasa Inggris, Indonesia dan Gorontalo. Untuk menunjang kegiatan yang memiliki mobilitas tinggi, aplikasi yang akan dibangun dapat digunakan dalam kondisi online maupun offline. Dalam penggunaan online, Bahasa dan hasil terjemahan bahasa dapat disimpan kedalam fitur Favourites yang nantinya dapat diakses secara

  Vol. 6 No. 1 Edisi Mei 2016

  Analisis Sistem Yang Dibangun

  • Kerangka aplikasi: itu memungkinkan penggunaan dan penghapusan komponen yang tersedia.
  • Dalvik mesin virtual: mesin virtual dioptimalkan untuk perangkat mobile.
  • Grafik: grafik di 2D dan grafis 3D berdasarkan pustaka OpenGL.
  • SQLite: untuk penyimpanan data.

  Saat ini tersedia aplikasi mobile yang menyediakan fasilitas penterjemahan bahasa. Dalam penggunaannya, cara/prosedur ini lebih praktis karena pengguna tidak terlebih dahulu harus membuka aplikasi browser untuk dapat menerjemahkan bahasa.

  dengan bahasa yang akan digunakan, karena teks yang dimasukkan case sensitive. Bahasa atau audio yang dihasilkan sesuai dengan bahasa yang diinputkan. Kemudian untuk suara yang dimasukkan juga harus sesuai dengan bahasa yang dipilih.

  text ). Teks yang dimasukkan juga harus sesuai

  METODE

  offline . pengguna dapat menerjemahkan

  percakapan melalui Speech Recognition. Gambar 4. menunjukan gambaran umum sistem yang akan dibangun.

  Gambar 4. Alur Kerja Sistem Yang Akan Dibangun

  Dalam analisis pengolahan sinyal suara dibagi menjadi beberapa tahap. Tahap pertama adalah pemilteran sinyal suara yang berupa sinyal analog dan mengubah sinyal analog ke digital, yaitu dengan proses konversi analog ke digital (ADC). Tahap kedua adalah tahap mengekstrak file suara yang menghasilkan sebuah informasi

  14

  Sistem yang digunakan pada aplikasi ini menitik beratkan pada pengguna. Pengguna harus memasukkan data suara (untuk proses speech to

ISSN: 2088-4591

  3. Gambar 6. Flowchart sampling Dalam proses sampling ini dilakukan pada perintah suara sebanyak 30 kata antara lain untuk pengucapan bahasa Indonesia, inggris dan gorontalo dengan panjang durasi rekaman selama 3 detik. Data berupa sinyal suara diperoleh dengan cara merekam suara melalui microfon

  15

    Gambar 8 Flowchart coding

  Pada proses ini, tiap nilai diskrit yang telah didapat, dipresentasikan dengan angka biner. Gambar 8. di bawah ini merupakan alur proses coding.  

  Coding

  Gambar 7. Flowchart kuantisasi

  format .wav dengan frekuensi sampling adalah 800Hz. Kuantisasi merupakan proses pemetaan dari nilai sinyal kontinyu menjadi nilai-nilai yang diskrit sehingga didapatkan sinyal nilai diskrit, dan sinyal diskrit diambil dari hasil sampling.

  smartphone Android. Suara tersebut mempunyai

  Vol. 6 No. 1 Edisi Mei 2016  

   

  1. Sampling Pada tahap ini yang pertama dilakukan ialah mengambil sample yaitu dengan amplitudo yang mengarah ke atas dari sumbu x, lalu mengambil nilai titik -titik diskrit dari sinyal waktu kontinyu supaya mudah untuk dikuantisasi. Titik diskrit merupakan data yang satuannya selalu bulat dalam bilangan asli, tidak berbentuk pecahan.

  Keterangan konsep kerja ADC :

  Gambar 5. Konsep Kerja ADC (Analog to Digital Converter)

  Sinyal suara yang akan diproses bersifat analog sehingga jika dilakukan pengolahan secara digital, sinyal suara tersebut harus angka dengan tingkat presisi tertentu yang dinamakan analog to digital conversion dengan menggunakan analog-to-digital converter (ADC). Konsep kerja ADC terdiri dari tiga proses, yaitu:

  Konversi Analog ke Digital (ADC)

  mencocokan file suara tersebut dengan sample yang sesuai menggunakan Hidden Markov Models (HMM).

  Transform (FFT). Tahap ketiga adalah

  dari file suara tersebut dengan Fast Fourier

  Proses sampling ini mempunyai alur yang digambarkan pada gambar 6 berikut.

  Vol. 6 No. 1 Edisi Mei 2016

   

  ISSN: 2088-4591 HASIL DAN PEMBAHASAN Analisis Ekstraksi Informasi

  Analisis sinyal adalah kegiatan melakukan ekstraksi terhadap semua informasi yang terdapat di suatu sinyal. Adapun langkah -langkah analisis LPC untuk pengenalan suara adalah sebagai berikut:

  Gambar 9. Diagram blok langkah-langkah LPC 1. Preemphasis (penekanan sinyal) adalah suatu proses produksi suara manusia, radiasi pada bibir dan lidah ketika proses phonation mengakibatkan komponen frekuensi tingginya. Tujuan preemphasis adalah untuk memperbaiki sinyal dari gangguan noise sehingga meningkatkan akurasi pengenalan suara untuk tahap selanjutnya.

  3. Result Sistem akan merespon dengan memberikan data sesuai apa yang telah direquest sebelumnya dalam bentuk ArrayList dan menampilkannya dalam bentuk ListView. Data tersebut meliputi teks percakapan asal, bahasa asal, teks percakapan hasil terjemahan, dan bahasa tujuan. Ketika pengguna memilih salah satu ListView sistem akan membaca alamat/path audio yang berada pada database yang kemudian menjalankan file audio berformat .wav (percakapan hasil terjemahan).

  Favourites sistem akan membaca seluruh data yang berada pada database.

  2. Request Ketika pengguna menjalankan fungsi

  kedalam database yaitu bahasa asal, bahasa tujuan, teks percakapan asal, teks percakapan hasil terjemahan, dan alamat/path audio dari percakapan hasil terjemahan. sistem akan membuka koneksi database, lalu memproses kemudian sistem akan menutup koneksi database.

  Favourites terdapat 5 parameter yang disimpan

  1. Save Conversation Ketika pengguna menjalankan fungsi Add To

  SQLite Database Favourites yang nantinya akan digunakan pada fitur Favourites.

2. Framming

  yang cepat serta memanfaatkan sifat periodikal dari transformasi fourier.

  Pada fitur ini memungkinkan pengguna untuk mengakses kembali terjemahan percakapan yang telah dilakukan sebelumnya pada fitur Translator secara offline. Output pada fitur Translator berupa percakapan awal, percakapan hasil terjemahan, dan suara hasil terjemahan akan menjadi input pada fitur Favourites. Pesan percakapan tersebut akan di-input-kan ke dalam

  Transform (DFT) dengan teknik perhitungan

  (FFT) merupakan algoritma yang mengimplementasikan Discreet Fourier

  Fourier Transform

  mengekstrak file suara yang menghasilkan sebuah informasi dari file suara tersebut. Fast

  Transform (FFT) Fast Fourier Transform (FFT) tujuan adalah

  3. Windowing Melakukan windowing terhadap setiap frame yang telah dibentuk untuk meminimalkan diskontinuitas pada ujung awal dan ujung akhir setiap frame. Proses Fast Fourier

  Pada tahap ini sinyal hasil preemphasis dikelompokkan ke dalam bingkai dengan ukuran masing-masing bingkai sebesar N data. Bingkai ini berurutan dengan pemisahan antara kedua bingkai sebesar M data. Biasanya M = 1/3 N.  

  Analisis Pencocokan Kata

  Dalam pencocokan kata menggunakan metode Hidden Markov Models (HMM), dimana HMM ini bertugas untuk memastikan pencocokan file suara dengan template suara yang tersedia. Ada beberapa tahap yaitu ekstraksi sinyal suara dengan menggunakan FFT dan menentukan nilai probabilitas yang maksimum dengan menggunakan Hidden Markov Models (HMM). Pencocokan data suara baru dan hasil ekstraksi akan menggunakan teknik binary search.

  Gambar 10. Alur Proses Pencocokan Kata

  16

  Analisis SQLite Database

  Vol. 6 No. 1 Edisi Mei 2016  

  1. Suara pengguna berupa sinyal analog dikonversi oleh device kedalam bentuk diskrit yang kemuadian di ubah bentuk kedalam bentuk biner dan secara realtime dikirim ke HMM untuk dilakukan proses konversi

   

  4. Aplikasi ini menggunakan teknologi Speech To Text sebagai sarana pelatihan pengucapan yang tepat.

DAFTAR PUSTAKA

  recording or end detect ) /HMM menerima

  seluruh data percakapan dalam bentuk digital / biner, kemudian HMM akan melakukan proses konversi. Dalam proses konversi terdapat beberapa tahapan, diantaranya:

  [1] Fahri Firdausillah, Ika Novita Dewi, Catur Supriyanto. Sphinx-4 Indonesian Isolated Digit Speech Recognition. Journal of Theoretical and Applied Information Technology.Volume 53.No.1. Halaman 40. 2013.

  [2] Safaat H., N. 2012. Pemrograman Aplikasi Mobile Smartphone dari Tablet PC Berbasis Android. Bandung: Informatika.

  [3] Atik Charisma. Sistem Verifikasi Penutur Menggunakan Metoda Mel Frequency Cepstral Coefficients-Vector Quantisation (Mfcc-Vq) Serta Sum Square Error (Sse) Dan Pengenalan Kata Menggunakan Metoda Logika Fuzzy. Jurnal Teknik Elektro ITP. Volume 2. No. 2. Halaman 24-25. 2013.

  17 ISSN: 2088-4591 Proses pengenalan ucapan (recognition) dilakukan pada HMM. Dalam pemrosesannya untuk dapat mengkonversi suara ke dalam bentuk teks terdapat beberapa tahapan, diantaranya:

  [4] Danny Sulestio, Mayer Aristo, Linda Wijaya. Perancangan Aplikasi Pengenalan Suara untuk Menjalankan Beberapa Perintah Windows dengan Metode Back Propagation. Jurnal Publikasi Ilmiah Binus. Halaman 7. 2004.

  [5] Rabiner LR. 1989. A Tutorial in Hidden

  Markov Models and Selected Applications in Speech Recognition. IEEE 1989; 77: 257-287.

  Gambar 11. Perbandingan Data Biner dengan Template

  b) Tiap data biner yang telah dibandingkan dengan template suara, kemudian disatukan kembali dan dianalisis secara keseluruhan, kemudian akan dicocokan dari segi tata bahasa dan apakah data yang diucapkan sesuai dengan kata yang tersedia pada template data pada dataset.

  SIMPULAN

  Dari hasil penelitian yang telah dilakukan dapat ditarik kesimpulan bahwa.

  1. Library PocketSphinx dapat digunakan untuk melakukan perubahan suara menjadi teks dengan akurasi kata sebesar 93,3% 2. Aplikasi dapat berjalan tanpa koneksi internet ketika melakukan pencarian kata.

  3. Aplikasi speech ini dapat digunakan sebagai alat bantu untuk menterjemahkan bahasa Inggris, Indonesia dan gorontalo.

  a) Data biner yang diterima oleh HMM akan dibandingkan dengan template data suara