Pengembangan Model Markov Tersembunyi untuk Pengenalan Kata Berbahasa Indonesia

I If'P'

~l!...•.•.•

zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

Pengembangan Model Markov Tersembunyi
untuk Pengenalan Kata Berbahasa Indonesia

I
I

Agus Buono', Yani Mandasarl', Shelvie Nidya Neyman"
Departemen lImu Komputer FMIPA IPB
Kampus IPB Darmaga-Bogor
pudesha@yahoo.co.id

Abstrak
I

Pada paper ini disajikan suatu penerapan model HMM sebagai pengenal kata dengan ekstraksi ciri

menggunakan teknik MFCC yang berbasis nilai power spektrum dari suara. Sistem yang dikembangkan
bersifat text dependent dan melibatkan 10 pembicara yang mengucapkan 18 jenis kata. Pad a penelitian,
ada 3 jenis gugus data untuk melatih model HMM yang terdiri dari 4, 6 dan 8 hidden state, yaitu gugus
yang terdiri suara laki-laki saja, gugus yang terdiri dari suara perempuan saja, dan gugus yang terdiri
dari campuran suara laki-laki dan perempuan. Ada 4 jenis data uji, yaitu data uji suara laki-lakl yang
disertakan pada model pelatihan, data uji suara perempuan yang disertakan pada model, data uji suara
lakl-laki yang tidak disertakan pada model, dan data uji suara perempuan yang tidak disertakan pada
model. Hasil percobaan menunjukkan bahwa sistem dapat mengenali kata dengan sangat balk (sekitarzyxwvutsrqponmlkjih
Sistem gagal
9a;i~), kalau diucapkan oleh pembicara yang disertakan dalam pembuatan model.
melakukan pengenalan untuk pembicara yang tidak disertakan dalam model pelatihan. Namun dengan
memperluas data pelatihaa, hasil pengenalan meningkat sekitar 30 % dari sebelurnnya. Dari aspek
jumlah hidden state, secara umum terlihat bahwa jumlah hidden 8 memberikan akurasi yang lebih baik
disbanding 4 atau 6.
Kata Kunci : Hidden Markov Model (HMM), Me-Frequency Cepstrum Coefficients (MFCC), Sistem
Pengenalan Kata (SPK).

1. Pendahuluan
, Sistem Pengenalan Kata (SPK), adalah suatu
'sistem pengenalan suara yang mengidentifikasi

-kata atau frase yang diueapkan oleh seorang
:/; pembieara. Dalam perkembangan metodologi,
teknik pemodelan suara yang banyak dikaji
adalah yang berbasis teori peluang. Satu teknik
yang telah menunjukkan efektifitas yang baik
dalam merepresentasikan suara adalah HMM
(Hidden Markov Model), seperti disajikan pada
[1].
Dari aspek ekstraksi eiri, Mel-Frequency
Cepstrum Coefficients
(MFCC) merupakan
teknik yang telah luas dipakai pada pemrosesan
sinyal
suara, terutama
pada pengenalan
pembieara. Penggunaan teknik ini pada sistem
pernrosesan sinyal memberikan pengenalan
yang Iebih baik di15andingkan dengan metode
lainnya, Davis and Mermelstein (dalam [2]).
Paper ini disajikan dengan susunan sebagai

berikut : Bagian 2 mengenai prinsip sistem
identifikasi kata. Teknik analis fitur suara dan
HMM disajikan pada bagian 3. Bagian 4

menyajikan
data,
raneangan
dan
hasil
pereobaan,
dan sebagai
penutup
adalah
kesimpulan
dan
saran
untuk
penelitian
selanjutnya yang disajikan pada bagian 5.


2. Prinsip Sistem Pengenalan

Kata

Seeara umum, sistem pengenalan kata terdiri
dari dua subsistem, yaitu subsistem ekstraksi
eiri dan subsistem peneoeokan pola, seperti
disajikan pada Gambar 1. Subsistem ekstraksi
eiri melakukan proses transformasi sinyal input ke
dalam satu set vektor eiri sebagai representasi dari
sinyal suara.
Subsistem peneoeokan pola
merupakan bagian untuk me1akukan identifikasi
suara yang belum diketahui "kata apa yang
diueapkan" dengan cara membandingkan sinyal
suaranya yang telah diekstrak ke dalam vektor eiri
dengan set vektor eiri dari "kata" yang telah
diketahui dan tersimpan dalam sistem.

Seminar dan Call For Paper Munas Apticom

Politeknlk
Bandung,9

Telkom

Oktober

2010

Windowing: proses windowing dilakukan pada
setiap frame dengan tujuan untuk memininiumkan
diskontinuitas antar sua frame, khususnya pada
bagianawal dan akhir.

I

FFT (Fast-Fourier Transform): Pada tahap Ini
setiap frame yang terdiri dari N samples dikonversi
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
dari domain waktu ke domain frekuensi. Output

dari proses ini disebut dengan nama spektrum atau
periodogram.

s+~

Mel-Frequency wrapping: tahap ini merupakan
proses pengfilteran dari spektrum setiap frame yang
Gambar 1. Blok diagram sistem pengenalan kata
diperoleh dari tahapan sebelumnya. Filter tersebut
dengan HMM sebagai pengenal pola
berupa M filter segitiga sama tinggi dengan tinggi
satu. Filter ini dibuat dengan mengikuti persepsi
telinga manusia dalam menerima suara. Persepsi
3. Analisis Fitur Suara dan HMM
ini dinyatakan dalam skala 'mel' (berasal dari
Analisis Fitur Suara
Melody) yang mempunyai hubungan tidak linear
dengan frekuensi suara, [4]. Dalam hal ini skala
Input dari analisis fitur suara adalah sinyal suara
me1-frequencyadalah linear untuk frekuensi kurang

analog dan sebagai outputnyazyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
adalahfeature vector
dari 1000 Hz dan logaritmik untuk frekuensi di atas .
untuk setiap frame (time slice). Tahap pertama
1000 Hz. Satu relasi antara frekuensi bunyi (dalam
adalah melakukan digitasi terhadap sinyal snara
a..nalog
(disebut
sebagai
analog-to-digital
Hz) dengan skala mel adalah, [4], [5] :zyxwvutsrqponmlkjihg
conversion). Proses ini terdiri dari sampling dan
kuantisasi, [3].
i: =2595*iOg1o(1+
(1)
Sampling artinya mengukur amplitudo sinyal
pada suatu indeks waktu tertentu. Dalam hal ini
dikenal istilah sampling rate, yaitu banyaknya
Penjelasan detail mengenai teknik MFCC dapat
sampling yang dilaruan setiap detik. Sampling

dijumpai pada [2] dan [4].
rate biasanya berkisar 8000 hingga 20000 sample
per detik.
Berikutnya adalah kuantisasi, yaitu
menyimpan nilai amplitudo ke dalam nilai integer,
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONM
frame ~~
Sinya
yang dalam hal ini memakai representasi 8 bit atau
kontin
frame
~"
__
16 bit.
Setelah sinyal didigitasi, berikutnya adalah
apectrum
menyekatnya
ke
dalam
frame

dan
menkonversikannya menjadi feature vector yang
Transformas
1481.• •Mal

..•Mal

i kosinus
frequency
se1anjutnya menjadi masukan bagi
tahap
....
....
wrapping
berikutnya.
apect~~
capatrum
Fitur yang dipakai dalam penelitian ini adalah
Mel
Frequency

Cepstral
Coeeficients
Gambar 2. Block diagram teknik MFFC
(MFcq.MFCC merupakan fitur yang populer saat
ini. MFCC didasarkan pada variasi dari frekuensi
Wind owing: proses windowing dilakukan pada
kritis telinga manusia. Filter diletakkan secara
setiap frame dengan tujuan untuk meminimumkan
linear pada frekuensi rendah dan logaritmik pada
diskontinuitas antar sua frame, khususnya pada
frekuensi tinggi untuk mendapatkan karakteristik
bagian awal dan akhir.
suara yang penting. Diagram blok yang
merepresentasikan struktur MFCC dapat dilihat
FFf: Pada tahap ini setiap frame yang terdiri dari
pada Gambar 2, [4].
Dari Gambar .2 terlihat empat tahapan dalam
N samples dikonversi dari domain waktu ke domain
ekstraksi ciri menggunakan MFCC, yaitu :
frekuensi. Output dari proses ini disebut dengan

Frame blocking: sinyal suara dibaca per blok
nama spektrum atau periodogram.
(frame) yang terdiri dari N sample. Antara dua
frame yang bersisihan terdapat overlap N-M
Mel-Frequency wrapping: tahap ini merupakan
sample, dengan M adalah banyaknya pergeseran
proses pengfilteran dari spektrum setiap frame yang
antar frame (M