Speech Recognition LANDASAN TEORI

8 Banyak anak-anak yang belum mengetahui mana yang menjadi kata baku dan mana yang menjadi kata tidak baku dari sebuah kata. Hal ini dikarenakan penggunaan kata baku tidak begitu sering diterapkan kepada anak dalam bentuk penulisan. Selain pada anak-anak, penggunaan kata baku juga sering salah penggunaannya oleh orang yang sudah dewasa, akan tetapi kesalahan tersebut sudah lebih minim daripada kesalahan yang ditemukan pada anak yang berusia 9 sampai 15 tahun.

2.2 Speech Recognition

Speech Recognition pertama kali muncul di tahun 1952 dan terdiri dari device untuk pengenalan satu digit yang diucapkan. Kemudian pada tahun 1964, muncul IBM Shoebox. Salah satu teknologi yang cukup terkenal di Amerika dalam bidang kesehatan adalah Medical Transcriptionist MT merupakan aplikasi komersial yang menggunakan speech recognition. Sekarang banyak aplikasi yang dikembangkan menggunakan speech recognition, antara lain di bidang kesehatan terdapat MT, di bidang militer terdapat High-performance fighter aircraft, Training air traffic controllers, sampai pada alat yang membantu orang-orang yang memiliki kesulitan dalam menggunakan tangan, maka diciptakannya komputer yang dapat dioperasikan menggunakan deteksi pengucapan user Sunny, A.S. 2009. Speech recognition merupakan teknik dimana perangkat akan mengenali masukan berupa suara, setelah itu perangkat melakukan respon yang sesuai dengan masukan suara tersebut Syarif, A., Daryanto, T. Arifin, M.J. 2011 . Output yang dihasilkan perangkat dapat berupa output penulisan teks maupun output runnning program. Keuntungan dari sistem ini adalah pada kecepatan dan kemudahan dalam penggunaannya. Kata-kata yang ditangkap dan dikenali bisa sebagai hasil akhir, untuk sebuah aplikasi seperti command control, penginputan data, dan persiapan dokumen. Banyak metode yang dapat digunakan untuk membangun suatu speech recognition diantaranya metode Dynamic Time Warping DTW Sunny, A.S. 2009, Metode Independent Component Analysis Tumpak, P. 2005, dan Hidden Markov Model HMM Prasetyo, M.E.B. 2010 . Penggunaan metode dapat dipilih sesuai keefektifannya. Universitas Sumatera Utara 9 Untuk membangun sistem pengenalan suara ini, dibutuhkan model akustik, model bahasa, dan kamus. Setelah itu maka akan dilakukan dua proses lanjutan yaitu tahap pembelajaran dan tahap pengujian. 2.2.1 Model akustik , model bahasa dan kamus a. Model Akustik Pada tahap pertama pemrosesan sinyal suara input adalah dengan melakukan ekstraksi kepada sinyal suara tersebut. Setelah itu dilanjutkan dengan pembangunan model yang terdiri atas Hidden state tidak dapat diamati Hidden dan feature vector dapat diamatiobservable. Pembangunan model berarti pembangunan data probabilitas transisi antar Hidden state serta data probabilitas emisi emission yaitu pembangkitan feature vector oleh Hidden state. Model akustik dapat dinyatakan dalam bentuk tied- state N-phone atau monophone. Jika nilai N adalah dua, model tersebut berbentuk tied-state biphone. b. Model Bahasa Model bahasa digunakan dalam speech recognition untuk membantu menentukan probabilitas dari urutan hipotesis kata. Selain itu, probabilitas model bahasa dan model akustik akan membuat system membatasi ruang pencarian selama pengenalan ke arah hanya urutan kata yang memiliki kemungkinan yang besar untuk benar. Jadi, hal ini akan mengurangi ruang pencarian kata sehingga proses pencarian lebih cepat dan tepat. Model bahasa dapat dibangun dengan dua pendekatan, yaitu model bahasa berbasiskan rules dan model bahasa statistik. Model bahasa berbasis rules artinya terdapat rules statis yang didefinisikan. Sedangkan, model bahasa statistic akan memberikan probabilitas dari suatu urutan kata. 1. Model Bahasa berbasis Rules Grammar statis dari suatu bahasa ditulis. Dalam kasus ini, pengguna hanya boleh mengucapkan kata-kata yang secara eksplisit berada dalam grammar. Universitas Sumatera Utara 10 2. Model Bahasa berbasis Statistik Model bahasa berdasarkan statistik memberikan nilai probabilitas dari suatu urutan kata. Model N-gram adalah yang paling sering digunakan karena menghasilkan solusi yang lebih baik dan fleksibel. Model bahasa N-Gram digunakan untuk menyediakan sistem pengenal dengan nilai probabilitas urutan kata tersebut muncul bersama-sama. Model bahasa N-Gram digunakan untuk menyediakan sistem pengenal dengan nilai probabilitas urutan kata tersebut muncul bersama-sama. Nilai ini diperoleh dari teks latih yang besar yang menggunakan bahasa yang sama. Jika kita menganggap bahwa W adalah urutan kata, w merupakan kata-kata dalam W, dan q adalah jumlah kata, nilai PW dapat dilihat pada persamaan berikut. PW = Pw 1 ,w 2 ,…,w q = π i=1 Pw i |w i-n+1 ,…,w i-1 Untuk memperoleh nilai probabilitas P wi | wi-2 wi-1 dalam kasus trigram, dilakukan dengan hanya menghitung jumlah masing-masing kemunculan tiga kata secara berturut-turut dalam data latih. Jika Na,b menyatakan jumlah kemunculan a,b berturut-turut pada data latih, rumus matematisnya dapat dilihat pada persamaan : Pw 1 |w i-2 , w 1-1 = 3. Kamus Kamus akan memberikan daftar kata yang dapat dikenali oleh sistem beserta cara pengucapannya. Kata-kata yang dikenali oleh sistem pengenal suara bergantung pada kamus. Q N wi-2 , w i-1 , w i Nw 1-2 , w i-1 Universitas Sumatera Utara 11

2.3 Microsoft Speech Application Programming Interface SAPI