Analisis Pengolahan Sinyal Suara Analisis Pengenalan Suara

Gambar 3.1 Proses Sistem Pengenalan Suara

3.3 Analisis Pengolahan Sinyal Suara

Sinyal suara merupakan gelombang longitudinal yang merambat melalui media zat perantara. Batas frekuensi bunyi yang dapat didengar oleh manusia berkisar antara frekuensi 20 Hz sampai dengan 20 KHz, dan frekuensi yang dapat didengar dengan baik dan jelas oleh telinga manusia yaitu di atas 10.000 Hz Pelton, 1993. Untuk dapat mengolah sinyal suara yang merupakan sinyal analog, sinyal suara tersebut harus diubah menjadi sinyal digital yang disebut proses digitalisasi. Proses digitalisasi sinyal suara terdiri atas dua tahap, yaitu sampling dan kuantisasi Jurafsky dan Martin, 2000. Sampling adalah pengambilan nilai-nilai dalam jangka waktu tertentu. Sampling rate yang biasanya digunakan pada pengenalan suara adalah 8000 Hz sampai dengan 16.000 Hz Jurafsky dan Martin, 2000. Hubungan jumlah vektor yang dihasilkan, sampling rate dan panjang data suara yang didigitalisasi dinyatakan dengan persamaan 3.2.1. Setelah tahap sampling maka tahap selanjutnya adalah proses kuantisasi. Proses ini menyimpan nilai amplitudo ini ke dalam presentasi nilai 8 bit atau 16 bit Jurafsky dan Martin, 2000. Universitas Sumatera Utara

3.4 Analisis Pengenalan Suara

Dalam pemrosesan sistem pengenalan suara ada beberapa tahap yang harus dilakukan yaitu yang pertama adalah tahap akuisisi data, kemudian tahap ekstraksi ciri sinyal suara, dan yang terakhir adalah tahap pengenalan kata dengan membandingkan data uji dengan data yang telah dilatih dan tersimpan dalam database.

3.4.1 Akuisisi Data

Ada dua jenis data yang terdapat dalam sistem pengenalan suara yaitu data latih dan data uji. Data latih adalah berupa sinyal suara yang direkam yang berisi kata-kata yang akan dikenali dan dilatih sebagai data pembanding untuk dibandingkan dengan data uji. Data uji adalah berupa sinyal suara yang diucapkan oleh pengguna untuk dikenali oleh sistem pengenalan suara yang sesuai dengan kata yang telah dilatih. Data latih dan data uji yang digunakan dalam aplikasi ini menggunakan frekuensi sampling 16.000 Khz dan 16 bitssample dan 1 chanel mono. Pengambilan data latih dilakukan dengan merekam suara 5 orang yang terdiri dari 4 orang pria dan 1 orang wanita yang akan dilatih dan disimpan dalam database. Kata yang akan direkam adalah kata yang digunakan untuk menggerakkan balok dalam permainan tetris yaitu kata kiri, kanan dan putar. Masing-masing kata akan direkam sebanyak 20 kali oleh tiap orang. Jadi akan terdapat 100 data latih untuk kata kiri, 100 data latih untuk kata kanan dan 100 data untuk kata putar. Sehingga total data latih yang akan direkam adalah 100 x 3 sama dengan 300 data latih. Data uji akan diperoleh selama permainan tetris berlangsung. Pengguna game tetris akan mengucapkan kata secara real-time secara terus menerus dengan menekan sebuah tombol dan sistem akan mengenali suara yang diucapkan dengan membandingkan data uji dengan data yang telah dilatih sebelumnya. Apabila setelah dilakukan proses pengenalan suara data uji sesuai dengan dengan data yang dilatih maka gerak balok tetris akan bergerak sesuai dengan hasil pengenalan suara. Universitas Sumatera Utara

3.4.2 Ekstraksi Fitur Sinyal Suara Dengan MFCC

Setiap sinyal suara memiliki sifat karakteristik yang berbeda antara satau kata dengan kata yang lain. Karakteristik ciri sebuah sinyal suara sangat diperlukan untuk dapat mengenali dan membedakan satu kata dengan kata yang lain. Untuk mendapatkan ciri dari suatu sinyal suara kita perlu mengekstrak fitur yang terdapat pada tiap sinyal suara. Ada beberapa metode yang dilakukan untuk dapat mengekstrak fitur sinyal suara dan salah satu metode yang baik adalah metode MFCC Mel-frequency Cepstral Coefficient. Metode MFCC Mel-Frequency Cepstral coefficient akan mengkonversi sinyal suara ke dalam beberapa vektor data yang berguna dalam pengenalan suara. MFCC sendiri terdapat tujuh tahapan yaitu a. Pre Emphasize Pre-emphasis memproses pengiriman sinyal melaui filter yang menekankan terhadap frekuensi tinggi. Proses Pre-emphasis akan meningkatkan sinyal pada frekuensi tinggi. [ ] [ ] [ ] 3.1 b. Frame Blocking Tahap ini untuk memisahkan sampel yang telah diperoleh dari analog to digital conversion ADC menjadi beberapa frame dengan panjang sekitar 20-30 ms. Sinyal suara dibagi menjadi beberapa frame sebanyak N sampel. Frame yang bersebelahan dipisahkan sebesar M MN nilai normal yang biasa digunakan adalah M=128 dan N=256. Gambar 3.2 Framing Signal Universitas Sumatera Utara c. Windowing Tahap windowing dilakukan untuk meminimalkan diskontinuitas pada bagian awal dan akhir sinyal dan mengintegrasikan garis-garis frekuensi terdekat. Proses window dilakukan pada setiap bagian sinyal yang telah dibuat pada proses framing. 3.2 d. Fast Fourier Transform Pada tahap ini dilakukan transformasi fast fourier pada masing-masing frame yang telah dilakukan proses windowing. Transformasi fast fourier dilakukan untuk mengubah domain waktu ke domain frekuensi. ∑ 3.3 e. Mel Frequency Warping Jangkauan frekuensi dalam spectrum FFT sangat lebar. Sinyal suara juga tidak mengikuti skala linear. Maka filter kemiringan menurut skala Mel akan diaplikasikan. Rangkaian filter segitiga yang digunakan untuk menghitung jumlah berat dari filter komponen spectral sehingga hasil dari proses mendekati skala Mel. Setiap ketinggian filter frequency response adalah bentuk segitiga dan setara pada penggabungan pusat frekuensi dan penurunan secara linear menuju nol pada pusat frekuensi dari dua filter bersebelahan. Setelah itu untuk menghiting Mel dari frekuensi f dalam Hz digunakan persamaan : 3.4 Gambar 3.3 Mel scale filter bank Universitas Sumatera Utara f. Discrete Cosine Transform Setelah masing-masing frame melalui filter mel dilakukan tahap selanjutnya yaitu mentransformasikan dengan menggunakan Discrete Cosine Transform. Transformasi ini bertujuan untuk merubah domain frekuensi kembali menjadi domain waktu. Hasil dari konversi inilah yang disebut sebagai Mel Frequency Cepstrum Coefficient MFCC. Kumpulan dari koefisien ini disebut sebagai vector akustik acoustic vector yang akan digunakan sebagai nilai yang mewakili sinyal suara. ∑ 3.5

3.4.3 Klasifikasi Dan Pengenalan Suara

Setelah mendapatkan nilai koefisien ekstraksi ciri dari sinyal suara maka akan dapat dilakukan pengklasifikasian dan pengenalan sinyal suara tersebut. Metode yang digunakan adalah penggabungan metode Vector Quantization VQ dan Hidden Markov Model HMM. Ekstraksi ciri dengan metode MFCC yang digunakan pada sistem ini akan menghasilkan 12 koefisien MFCC yang berupa bilangan vektor pada tiap frame sinyal suara. Vektor tersebut akan diklasifikasi dan dikuantisasi dengan metode vector quantization. Dengan metode vector quantization hasil dari ekstraksi sinyal suara akan dikuantisasi membentuk codebook yang terdiri dari kumpulan centroid yang diurutkan sesuai dengan ciri dan karakteristiknya. Setelah hasil ekstraksi suara tersebut sudah terkuantisasi dan terurut, maka tahap selanjutnya adalah membuat pemodelan Hidden Markov untuk dapat mengenali sinyal suara tersebut. Didalam proses pengenalan suara terdapat dua tahap proses pengenalan suara yaitu tahap pelatihan serta membuat file database dan tahap verifikasi yaitu pengujian sinyal suara baru yang akan dikenali dengan cara membandingkan dengan data latih yang telah disimpan dalam file database. Universitas Sumatera Utara a. Tahap Pelatihan Training Dalam tahap ini akan melatih data sinyal suara yang akan dijadikan sampel dan akan menyimpan file tersebut ke dalam database. Langkah pertama yang dilakukan adalah membuat data latih yaitu dengan cara merekam sinyal suara berdasarkan kata yang akan dikenali. Pada sistem ini kata yang akan dikenali terdiri atas tiga kata yaitu kata kiri, kanan dan putar. Tujuan dari tahap training ini adalah agar system dapat mengenali informasi karakteristik suara dari tiap kata. Karakteristik ini berupa 12 koefisien yang berasal dari proses feature extraction, diolah sehingga didapatkan suatu nilai yang mewakili karakteristik suara dari masing-masing kata. Hasil dari tahap feature extraction yang berupa 12 koefisien yang merupakan nilai dari MFCC sinyal suara masing-masing kata dan dikuantisasi dengan vector quantization akan dimasukkan sebagai input pemodelan hidden markov model. Setelah didapatkan model HMM λ = A,B,π maka model HMM tersebut akan dievaluasi menggunakan algoritma forward untuk mendapatkan nilai probabilitas Pt O|λ yang akan disimpan ke dalam file database sebagai referensi dari suara masing-masing kata. b. Tahap Verifikasi Tahap verifikasi adalah tahap untuk menguji sistem pengenalan suara apakah sistem sudah mampu mengenali sebuah kata dari sebuah sinyal suara. Tahap dari proses verifikasi adalah merekam suara sebagi input data uji, pre-proccesing, feature extraction, vector quantization, dan membandingkan data dengan referensi database yang telah disimpan dengan metode hidden markov model. Dengan metode hidden markov model proses yang dilakukan adalah menghitung nilai probabilitas tertinggi dari data uji yang dibandingkan dengan data referensi kata yang telah dilatih dan disimpan sebagai database. Universitas Sumatera Utara

3.5 Analisis Permainan Tetris