Gambar 3.1 Proses Sistem Pengenalan Suara
3.3 Analisis Pengolahan Sinyal Suara
Sinyal suara merupakan gelombang longitudinal yang merambat melalui media zat perantara. Batas frekuensi bunyi yang dapat didengar oleh manusia berkisar antara
frekuensi 20 Hz sampai dengan 20 KHz, dan frekuensi yang dapat didengar dengan baik dan jelas oleh telinga manusia yaitu di atas 10.000 Hz Pelton, 1993.
Untuk dapat mengolah sinyal suara yang merupakan sinyal analog, sinyal suara tersebut harus diubah menjadi sinyal digital yang disebut proses digitalisasi.
Proses digitalisasi sinyal suara terdiri atas dua tahap, yaitu sampling dan kuantisasi Jurafsky dan Martin, 2000. Sampling adalah pengambilan nilai-nilai dalam jangka
waktu tertentu. Sampling rate yang biasanya digunakan pada pengenalan suara adalah 8000 Hz sampai dengan 16.000 Hz Jurafsky dan Martin, 2000. Hubungan jumlah
vektor yang dihasilkan, sampling rate dan panjang data suara yang didigitalisasi dinyatakan dengan persamaan 3.2.1.
Setelah tahap sampling maka tahap selanjutnya adalah proses kuantisasi. Proses ini menyimpan nilai amplitudo ini ke dalam presentasi nilai 8 bit atau 16 bit Jurafsky dan
Martin, 2000.
Universitas Sumatera Utara
3.4 Analisis Pengenalan Suara
Dalam pemrosesan sistem pengenalan suara ada beberapa tahap yang harus dilakukan yaitu yang pertama adalah tahap akuisisi data, kemudian tahap ekstraksi ciri sinyal
suara, dan yang terakhir adalah tahap pengenalan kata dengan membandingkan data uji dengan data yang telah dilatih dan tersimpan dalam database.
3.4.1 Akuisisi Data
Ada dua jenis data yang terdapat dalam sistem pengenalan suara yaitu data latih dan data uji. Data latih adalah berupa sinyal suara yang direkam yang berisi kata-kata yang
akan dikenali dan dilatih sebagai data pembanding untuk dibandingkan dengan data uji. Data uji adalah berupa sinyal suara yang diucapkan oleh pengguna untuk dikenali
oleh sistem pengenalan suara yang sesuai dengan kata yang telah dilatih. Data latih dan data uji yang digunakan dalam aplikasi ini menggunakan frekuensi sampling
16.000 Khz dan 16 bitssample dan 1 chanel mono. Pengambilan data latih dilakukan dengan merekam suara 5 orang yang terdiri
dari 4 orang pria dan 1 orang wanita yang akan dilatih dan disimpan dalam database. Kata yang akan direkam adalah kata yang digunakan untuk menggerakkan balok
dalam permainan tetris yaitu kata kiri, kanan dan putar. Masing-masing kata akan direkam sebanyak 20 kali oleh tiap orang. Jadi akan terdapat 100 data latih untuk kata
kiri, 100 data latih untuk kata kanan dan 100 data untuk kata putar. Sehingga total data latih yang akan direkam adalah 100 x 3 sama dengan 300 data latih.
Data uji akan diperoleh selama permainan tetris berlangsung. Pengguna game tetris akan mengucapkan kata secara real-time secara terus menerus dengan menekan
sebuah tombol dan sistem akan mengenali suara yang diucapkan dengan membandingkan data uji dengan data yang telah dilatih sebelumnya. Apabila setelah
dilakukan proses pengenalan suara data uji sesuai dengan dengan data yang dilatih maka gerak balok tetris akan bergerak sesuai dengan hasil pengenalan suara.
Universitas Sumatera Utara
3.4.2 Ekstraksi Fitur Sinyal Suara Dengan MFCC
Setiap sinyal suara memiliki sifat karakteristik yang berbeda antara satau kata dengan kata yang lain. Karakteristik ciri sebuah sinyal suara sangat diperlukan untuk dapat
mengenali dan membedakan satu kata dengan kata yang lain. Untuk mendapatkan ciri dari suatu sinyal suara kita perlu mengekstrak fitur yang terdapat pada tiap sinyal
suara. Ada beberapa metode yang dilakukan untuk dapat mengekstrak fitur sinyal suara dan salah satu metode yang baik adalah metode MFCC Mel-frequency Cepstral
Coefficient. Metode MFCC Mel-Frequency Cepstral coefficient akan mengkonversi
sinyal suara ke dalam beberapa vektor data yang berguna dalam pengenalan suara. MFCC sendiri terdapat tujuh tahapan yaitu
a. Pre Emphasize
Pre-emphasis memproses pengiriman sinyal melaui filter yang menekankan terhadap frekuensi tinggi. Proses Pre-emphasis akan meningkatkan sinyal pada
frekuensi tinggi.
[ ] [ ] [ ]
3.1 b.
Frame Blocking Tahap ini untuk memisahkan sampel yang telah diperoleh dari analog to digital
conversion ADC menjadi beberapa frame dengan panjang sekitar 20-30 ms. Sinyal suara dibagi menjadi beberapa frame sebanyak N sampel. Frame yang
bersebelahan dipisahkan sebesar M MN nilai normal yang biasa digunakan adalah M=128 dan N=256.
Gambar 3.2 Framing Signal
Universitas Sumatera Utara
c. Windowing
Tahap windowing dilakukan untuk meminimalkan diskontinuitas pada bagian awal dan akhir sinyal dan mengintegrasikan garis-garis frekuensi terdekat.
Proses window dilakukan pada setiap bagian sinyal yang telah dibuat pada proses framing.
3.2 d.
Fast Fourier Transform Pada tahap ini dilakukan transformasi fast fourier pada masing-masing frame
yang telah dilakukan proses windowing. Transformasi fast fourier dilakukan untuk mengubah domain waktu ke domain frekuensi.
∑ 3.3
e. Mel Frequency Warping
Jangkauan frekuensi dalam spectrum FFT sangat lebar. Sinyal suara juga tidak mengikuti skala linear. Maka filter kemiringan menurut skala Mel akan
diaplikasikan. Rangkaian filter segitiga yang digunakan untuk menghitung jumlah berat dari filter komponen spectral sehingga hasil dari proses
mendekati skala Mel. Setiap ketinggian filter frequency response adalah bentuk segitiga dan setara pada penggabungan pusat frekuensi dan penurunan
secara linear menuju nol pada pusat frekuensi dari dua filter bersebelahan. Setelah itu untuk menghiting Mel dari frekuensi f dalam Hz digunakan
persamaan : 3.4
Gambar 3.3 Mel scale filter bank
Universitas Sumatera Utara
f. Discrete Cosine Transform
Setelah masing-masing frame melalui filter mel dilakukan tahap selanjutnya yaitu mentransformasikan dengan menggunakan Discrete Cosine Transform.
Transformasi ini bertujuan untuk merubah domain frekuensi kembali menjadi domain waktu. Hasil dari konversi inilah yang disebut sebagai Mel Frequency
Cepstrum Coefficient MFCC. Kumpulan dari koefisien ini disebut sebagai vector akustik acoustic vector yang akan digunakan sebagai nilai yang
mewakili sinyal suara.
∑
3.5
3.4.3 Klasifikasi Dan Pengenalan Suara
Setelah mendapatkan nilai koefisien ekstraksi ciri dari sinyal suara maka akan dapat dilakukan pengklasifikasian dan pengenalan sinyal suara tersebut. Metode yang
digunakan adalah penggabungan metode Vector Quantization VQ dan Hidden Markov Model HMM.
Ekstraksi ciri dengan metode MFCC yang digunakan pada sistem ini akan menghasilkan 12 koefisien MFCC yang berupa bilangan vektor pada tiap frame sinyal
suara. Vektor tersebut akan diklasifikasi dan dikuantisasi dengan metode vector quantization.
Dengan metode vector quantization hasil dari ekstraksi sinyal suara akan dikuantisasi membentuk codebook yang terdiri dari kumpulan centroid yang diurutkan
sesuai dengan ciri dan karakteristiknya. Setelah hasil ekstraksi suara tersebut sudah terkuantisasi dan terurut, maka
tahap selanjutnya adalah membuat pemodelan Hidden Markov untuk dapat mengenali sinyal suara tersebut.
Didalam proses pengenalan suara terdapat dua tahap proses pengenalan suara yaitu tahap pelatihan serta membuat file database dan tahap verifikasi yaitu pengujian
sinyal suara baru yang akan dikenali dengan cara membandingkan dengan data latih yang telah disimpan dalam file database.
Universitas Sumatera Utara
a. Tahap Pelatihan Training
Dalam tahap ini akan melatih data sinyal suara yang akan dijadikan sampel dan akan menyimpan file tersebut ke dalam database. Langkah pertama yang
dilakukan adalah membuat data latih yaitu dengan cara merekam sinyal suara berdasarkan kata yang akan dikenali. Pada sistem ini kata yang akan dikenali terdiri
atas tiga kata yaitu kata kiri, kanan dan putar. Tujuan dari tahap training ini adalah agar system dapat mengenali informasi
karakteristik suara dari tiap kata. Karakteristik ini berupa 12 koefisien yang berasal dari proses feature extraction, diolah sehingga didapatkan suatu nilai yang mewakili
karakteristik suara dari masing-masing kata. Hasil dari tahap feature extraction yang berupa 12 koefisien yang merupakan nilai dari MFCC sinyal suara masing-masing
kata dan dikuantisasi dengan vector quantization akan dimasukkan sebagai input pemodelan hidden markov model.
Setelah didapatkan model HMM λ = A,B,π maka model HMM tersebut akan dievaluasi menggunakan algoritma forward untuk mendapatkan nilai
probabilitas Pt O|λ yang akan disimpan ke dalam file database sebagai referensi dari suara masing-masing kata.
b. Tahap Verifikasi
Tahap verifikasi adalah tahap untuk menguji sistem pengenalan suara apakah sistem sudah mampu mengenali sebuah kata dari sebuah sinyal suara. Tahap dari
proses verifikasi adalah merekam suara sebagi input data uji, pre-proccesing, feature extraction, vector quantization, dan membandingkan data dengan referensi database
yang telah disimpan dengan metode hidden markov model. Dengan metode hidden markov model proses yang dilakukan adalah
menghitung nilai probabilitas tertinggi dari data uji yang dibandingkan dengan data referensi kata yang telah dilatih dan disimpan sebagai database.
Universitas Sumatera Utara
3.5 Analisis Permainan Tetris