Pengenalan kata berbasiskan fonem dengan pemodelan resilient backpropagation

PENGENALAN KATA BERBASISKAN FONEM DENGAN
PEMODELAN RESILIENT BACKPROPAGATION

PRAMESWARI

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011

PENGENALAN KATA BERBASISKAN FONEM DENGAN
PEMODELAN RESILIENT BACKPROPAGATION

PRAMESWARI

Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer


DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011

ABSTRACT
PRAMESWARI. Words Recognition based on Phonemes with Resilient Backpropagation
Models. Under the direction of AGUS BUONO.
The aim of this research is to know the performance of Neural Network as a model for word
recognition. The research uses Resilient Backpropagation for modeling and Mel-Frequency Cepstral
Coefficient (MFCC) for feature extraction. The voice data used comes from one speaker. Total words
used are 70 words that consist of 50 words as a dictionary of words and 20 words, that each word
repeated 10 times. Dictionary words consist of 50 words from a combination of phonemes used in the
research. Phonemes used in this research are 10 phonemes consist of 4 vowels and 6 consonants
phonemes. From the 20 words, each word is repeated 10 times, 7 times used as training data and 3
times are used as test data. The output from testing process are word transcription. The convertion
process from the word transcription into word is done manually by 5 person. This research produces
two models. Average accuracy obtained from model with 100 hidden neuron is 75% for test data and
61% for the dictionary of words. The best average accuracy obtained is 93% for test data and 62 % for

the dictionary of words generated by testing the model with 1000 hidden neurons. Overfitting occurs
in the second model with 1000 hidden neurons. It causes the model can only produce good output for
data that has been trained.
Keywords: word recognition, phoneme, Neural Networks, Resilient Backpropagation, Mel-Frequency
Cepstral Coefficient, overfitting.

Judul
Nama
NIM

: Pengenalan Kata Berbasiskan Fonem dengan Pemodelan Resilient Backpropagation
: Prameswari
: G64061471

Menyetujui :
Pembimbing

Dr. Ir. Agus Buono, M.Si., M.Kom
NIP 19660702 199302 1 001


Mengetahui :
Ketua Departemen Ilmu Komputer

Dr. Ir. Sri Nurdiati, M.Sc
NIP. 19601126 198601 2 001

Tanggal Lulus :

PRAKATA
Alhamdulillahi Rabbil ‘alamin, puji dan syukur penulis panjatkan kepada Allah SWT atas segala
rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tugas akhir ini.
Terima kasih penulis ucapkan kepada pihak yang telah membantu penyelesaian tulisan akhir ini,
antara lain kepada Bapak Dr. Ir. Agus Buono, M.Si., M.Kom., selaku pembimbing atas bimbingan dan
arahannya selama pengerjaan tugas akhir ini, serta Ibu Dr. Ir. Sri Nurdiati, M.Sc., dan Bapak
Mushthofa, S.Kom., M.Sc., selaku penguji tugas akhir ini. Ungkapan terima kasih juga disampaikan
kepada ayah, ibu, serta seluruh keluarga atas doa dan dukungannya. Terima kasih juga kepada
Merlinda, Charisna, Karomatul, Utari, Indyastari serta teman-teman Ilkomerz 43 yang telah
memberikan semangat dan dukungannya. Penulis menyadari bahwa masih terdapat kekurangan dalam
penelitian ini. Semoga tulisan ini dapat bermanfaat.


Bogor, November 2010

Prameswari

RIWAYAT HIDUP
Penulis dilahirkan pada tanggal 14 Juli 1988 di Jakarta sebagai anak pertama dari tiga bersaudara
dari pasangan Yadiono dan Rosmiati. Pada tahun 2006 penulis lulus dari SMA Negeri 2 Bekasi dan
diterima sebagai mahasiswa Institut Pertanian Bogor (IPB) melalui jalur Undangan Seleksi Masuk
IPB (USMI) pada tahun yang sama. Pada tahun 2007, penulis diterima sebagai mahasiswa di Program
Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam
(FMIPA), IPB.
Selama mengikuti kegiatan perkuliahan, penulis pernah menjadi asisten praktikum Penerapan
Komputer. Penulis juga aktif dalam kegiatan HIMALKOM 2008/2009 sebagai sekretaris Divisi
Kreatif HIMALKOM. Selain itu, penulis juga pernah menjadi bendahara Komisi II Internal Dewan
Perwakilan Mahasiswa (DPM) FMIPA 2009/2010. Pada tahun 2009, penulis melaksanakan praktik
kerja lapangan di Pusat Penelitian dan Pengembangan Ilmu Pengetahuan dan Teknologi Lembaga
Ilmu Pengetahuan Indonesia (PAPPIPTEK LIPI).

DAFTAR ISI
Halaman

DAFTAR TABEL............................................................................................................................. v
DAFTAR GAMBAR ........................................................................................................................ v
DAFTAR LAMPIRAN ..................................................................................................................... v
PENDAHULUAN ............................................................................................................................ 1
Latar Belakang ............................................................................................................................ 1
Tujuan Penelitian ......................................................................................................................... 1
Ruang Lingkup ............................................................................................................................ 1
Manfaat ....................................................................................................................................... 1
TINJAUAN PUSTAKA .................................................................................................................... 2
Pengenalan Suara ........................................................................................................................ 2
Representasi Gelombang Sinyal ................................................................................................... 2
Fonem ......................................................................................................................................... 2
Pemrosesan Suara ........................................................................................................................ 3
Konversi Sinyal Analog ke Sinyal Digital .................................................................................... 3
Ekstrasi Ciri ................................................................................................................................ 4
Jaringan Syaraf Tiruan ................................................................................................................. 5
Inisialisasi Bobot dan Bias ........................................................................................................... 7
Resilient Backpropagation ........................................................................................................... 7
METODE PENELITIAN .................................................................................................................. 8
Studi Pustaka ............................................................................................................................... 8

Pengambilan Data Suara .............................................................................................................. 8
Praproses ..................................................................................................................................... 9
Arsitektur JST Resilient Backpropagation .................................................................................... 9
Pelatihan Sistem ........................................................................................................................ 10
Pengujian .................................................................................................................................. 10
Penghitungan Akurasi ................................................................................................................ 10
Lingkungan Pengembangan ....................................................................................................... 10
HASIL DAN PEMBAHASAN........................................................................................................ 10
Hasil Pengambilan Data ............................................................................................................. 10
Pelatihan dan Pengujian ............................................................................................................. 11
Akurasi Pengujian ..................................................................................................................... 11
KESIMPULAN DAN SARAN........................................................................................................ 13
Kesimpulan ............................................................................................................................... 13
Saran ......................................................................................................................................... 13
DAFTAR PUSTAKA ..................................................................................................................... 13
LAMPIRAN ................................................................................................................................... 15

iv

DAFTAR TABEL

1.
2.
3.
4.

Halaman
Daftar 20 kata sebagai data latih ................................................................................................. 8
Daftar 50 kata di luar data latih................................................................................................... 9
Struktur JST RPROP .................................................................................................................. 9
Definisi target JST untuk 10 fonem........................................................................................... 10

DAFTAR GAMBAR
1.
2.
3.
4.
5.
6.
7.
8.

9.
10.
11.
12.
13.

Bentuk gelombang dari kata ‘test’ (Al-Kaidi 2007). .................................................................... 2
Empat suara dari kata ‘test’ : ‘t’, ‘e’, ‘s’, ‘t’ (Al-Kaidi 2007). ...................................................... 2
Proses transformasi sinyal analog menjadi informasi (Buono 2009)............................................. 3
Ilustrasi proses konversi sinyal analog menjadi sinyal waktu diskret. ......................................... 3
Diagram blok proses MFCC (Do 1994). ..................................................................................... 4
Arsitektur jaringan single layer (Kusumadewi 2003). .................................................................. 5
Arsitektur jaringan multi layer (Kusumadewi 2003). ................................................................... 6
Arsitektur jaringan competitive layer. ........................................................................................ 6
Metode penelitian....................................................................................................................... 8
Pemotongan data suara. .............................................................................................................. 9
Akurasi rata-rata setiap kata dari 5 penguji untuk 20 kata yang dilatih dengan Model Pertama. . 12
Akurasi rata-rata setiap kata dari 5 penguji untuk 20 kata yang dilatih dengan Model Kedua..... 12
Grafik perbandingan akurasi keseluruhan kata dari 2 model RPROP ......................................... 13


DAFTAR LAMPIRAN
1.
2.
3.
4.
5.
6.
7.
8.
9.

Algoritme Pelatihan JST RPROP (Sumber : Riedmiller dan Braun 1992, diacu dalam Engelbrecht
2007) ....................................................................................................................................... 16
Kuesioner model pertama dengan 100 hidden neuron............................................................... 17
Kuesioner model kedua dengan 1000 hidden neuron ................................................................. 19
Kuesioner untuk 50 kata di luar data latih dengan 100 hidden neuron ........................................ 21
Kuesioner untuk 50 kata di luar data latih dengan 1000 hidden neuron ...................................... 23
Hasil prediksi kata sinyal suara dari 20 kata yang dimodelkan dengan 100 hidden neuron ......... 25
Hasil prediksi kata sinyal suara dari 20 kata yang dimodelkan dengan 1000 hidden neuron ....... 26
Hasil prediksi 50 kata sinyal suara di luar data latih dengan 100 hidden neuron ........................ 27

Hasil prediksi 50 kata sinyal suara di luar data latih dengan 1000 hidden neuron ...................... 29

v

PENDAHULUAN
Latar Belakang
Perkembangan teknologi yang sudah
semakin maju saat ini menyebabkan bentuk
informasi yang dikirimkan bukan hanya dalam
bentuk teks tetapi juga dalam bentuk suara. Hal
ini menyebabkan banyaknya penelitian yang
berhubungan dengan pengembangan sistem
dalam bidang pemrosesan suara.
Kemampuan untuk dapat bicara dengan
komputer pribadi dan dapat membuat komputer
tersebut mengenali serta mengerti apa yang
dikatakan, akan menimbulkan kenyamanan
dalam berkomunikasi (Peacock 1999). Untuk
mengembangkan suatu sistem yang
dapat

mengenali kata atau suara tidaklah mudah,
berbeda dengan manusia yang dapat dengan
mudah menginterpretasikan kata ataupun suara
yang didengar.
Perkembangan teknologi pengenalan suara
yang kontinu memungkinkan manusia untuk
dapat
berkomunikasi dengan
komputer
menggunakan bahasa sehari-hari.
Beberapa
penelitian mengenai pengenalan suara dalam
bahasa Indonesia telah banyak dilakukan.
Seperti penelitian yang dilakukan oleh Ruvinna
(2008) tentang pengenalan kata berbahasa
Indonesia dengan Hidden Markov Models atau
HMM, Resmiwati (2009) tentang pengenalan
kata berbahasa Indonesia dengan HMM
berbasiskan fonem, dan Danuriati (2010) yang
meneliti tentang konversi suara ke teks yang
berbasiskan fonem dengan HMM. Dengan
demikian, pada penelitian
ini akan
dikembangkan
suatu
pengenalan
kata
berbasiskan fonem dengan Jaringan Syaraf
Tiruan (JST).
JST merupakan salah satu metode yang
dapat digunakan untuk mengenali pola (huruf,
angka, suara atau tanda tangan) yang sudah
sedikit berubah. JST dapat mengenali sinyal
input yang agak berbeda dari yang pernah
diterima sebelumnya. Selain itu JST juga
bersifat adaptif karena mampu belajar dari data
sebelumnya dan dapat mengenal pola data yang
selalu berubah. Terdapat banyak metode dalam
JST, salah satunya adalah Backpropagation.
Metode Backpropagation merupakan suatu
teknik supervised learning yang banyak
digunakan untuk pengenalan pola-pola yang
kompleks. Backpropagation dapat melatih
jaringan untuk memperoleh keseimbangan
antara kemampuan jaringan dalam mengenali
pola yang dipakai dalam pelatihan dan
kemampuan jaringan dalam
memberikan

respon yang benar untuk pola input yang serupa
tapi tidak identik dengan pola yang digunakan
selama pelatihan (Fausett 1994).
Metode standar Backpropagation seringkali
terlalu lambat untuk keperluan praktis sehingga
beberapa
modifikasi
dilakukan
pada
Backpropagation dengan mengganti fungsi
pelatihannya. Salah satu modifikasi yang
dikembangkan
adalah
Resilient
Backpropagation.
Martin Riedmiller dan
Heinrich Braun telah mengembangkan metode
Resilient Backpropagation untuk menambah
kecepatan pembelajaran (Susanto 2007).
Tujuan Penelitian
Penelitian ini bertujuan untuk mengetahui
kinerja dari pemodelan dengan metode Resilient
Backpropagation dalam mengenali kata
berbasiskan fonem.
Ruang Lingkup
Ruang lingkup penelitian ini adalah :
1. Pengenalan kata bersifat isolated word. Kata
yang dikenali adalah kata yang saling
terpisah oleh jeda yang pendek.
2. Sistem yang dikembangkan termasuk dalam
small vocabulary karena kata yang
digunakan dalam pemodelan terdiri atas 20
kata. Suatu sistem dikatakan bersifat large
vocabulary jika kata yang terdapat dalam
kamus kata berjumlah lebih dari 1000 kata
(Jurafsky 2007).
3. Pemodelan menggunakan 20 kata dalam
bahasa Indonesia yang mengandung 10
fonem asli. Fonem yang digunakan terdiri
atas 4 fonem vokal dan 6 fonem konsonan.
4. Sistem ini bersifat speaker dependent
sehingga sistem hanya dapat mengenali
suara orang yang telah dilatih sebelumnya
(Jurafsky 2007). Dalam penelitian ini, suara
yang dilatih berasal dari satu pembicara.
5. Sistem ini memberikan hasil berupa sinyal
kata, sehingga perhitungan akurasinya
diambil dari hasil kuesioner yang diberikan
kepada 5 orang yang memprediksi kata yang
diinginkan dari sinyal kata yang dihasilkan
oleh sistem.
Manfaat
Diharapkan penelitian ini dapat dijadikan
langkah awal dalam membangun sistem
pengenalan kata berbasis fonem dalam bahasa
Indonesia
yang
lebih
sempurna
dan
menyeluruh. Selain itu, diharapkan pemodelan
yang digunakan dapat memberikan informasi
mengenai kinerja dari metode Resilient
Backpropagation dalam pemodelan kata.

1

TINJAUAN PUSTAKA
Pengenalan Suara
Menurut Peacock (1990), pengenalan suara
merupakan kemampuan untuk mengidentifikasi
kata-kata yang diucapkan. Terdapat 5 faktor
yang dapat mengontrol dan menyederhanakan
sistem pengenalan suara, yaitu:
 Isolated Word. Suara yang memiliki unsur
isolated word (jeda yang pendek di antara
kata) akan lebih mudah untuk dikenali
daripada continous speech karena sulit
untuk menemukan batasan dari sebuah kata
pada continous speech.
 Single speaker. Suara dari satu pembicara
akan lebih mudah dikenali daripada suara
dari banyak pembicara karena akan lebih
banyak parameter untuk merepresentasikan
suara dari pembicara tertentu.
 Vocabulary size. Ukuran kosakata dari
suara yang ingin dikenali memiliki
pengaruh yang sangat kuat dalam
menentukan akurasi dari suatu sistem.
 Grammar. Urutan dari kata-kata yang
diperbolehkan sistem bergantung pada
grammar dari wilayah pengenalan.
Banyaknya pembatasan pada pemilihan
kata
dimaksud
untuk
mengurangi
kekacauan dari grammar.
 Lingkungan. Latar belakang noise,
perubahan dalam karakteristik mikrofon
dan kekerasan suara bisa memengaruhi
akurasi dari sebuah sistem.
Representasi Gelombang Sinyal
Sinyal suara dapat direpresentasikan sebagai
bentuk gelombang. Pada Gambar 1 ditunjukkan
bentuk gelombang yang ditandai dengan
beberapa fitur, yaitu sampling frequency sebesar
11025 Hz, resolusi 8 bit (256 level kuantisasi),
panjang (L) dari file adalah 7000 sample. Dari
Gambar 1, bentuk gelombang yang pertama
memiliki garis horizontal yang menunjukkan
banyaknya sample sedangkan gelombang yang
kedua menunjukkan garis horizontal sebagai
variabel waktu.

Gambar 1 Bentuk gelombang dari kata ‘test’
(Al-Kaidi 2007).
Pada Gambar 1 telah ditunjukkan bentuk
gelombang dari kata ‘test’. Kata ‘test’ ini terdiri
atas 4 suara, yaitu ‘t’, ‘e’, ‘s’, ‘t’. Untuk
mengenali sela kecil sebelum huruf ‘t’ yang
terakhir dimungkinkan karena kata tersebut
diucapkan dengan berbeda dan pelan. Jika
diperhatikan, bentuk gelombang tersebut dapat
dilihat perbedaannya secara visual. Dengan
demikian, didapat 4 suara independent dari
gelombang ini yang ditunjukkan Gambar 2.

Gambar 2 Empat suara dari kata ‘test’ : ‘t’, ‘e’,
‘s’, ‘t’ (Al-Kaidi 2007).
Berdasarkan Gambar 2, dapat disimpulkan
bahwa dengan memeriksa bentuk gelombang
dapat diketahui bentuk-bentuk suara, yaitu (AlKaidi 2007) :
1. Huruf konsonan biasanya memiliki struktur
noisy, sedangkan huruf vokal memiliki
bentuk periodik yang alami.
2. Bentuk gelombang suara ‘t’ di awal dan di
akhir adalah sama dan keduanya memiliki
karakter yang explosive.
3. Huruf ‘s’ terlihat seperti white noise.
Fonem
Menurut Kamus Besar Bahasa Indonesia
(KBBI) fonem merupakan satuan bunyi terkecil
yang mampu menunjukkan kontras makna.
Misal /h/ adalah fonem karena membedakan
makna kata harus dan arus, sedangkan /b/ dan
/p/ adalah dua fonem yg berbeda karena bara
dan para memiliki makna yang berbeda.

2

Pemrosesan Suara
Sinyal suara merupakan
gelombang
longitudinal yang tercipta dari tekanan udara
yang berasal dari paru-paru yang berjalan
melewati lintasan suara menuju mulut dan
rongga hidung dengan bentuk artikulator yang
senantiasa berubah (Al-Kaidi 2007, diacu dalam
Buono 2009).
Secara umum sinyal dapat diklasifikasikan
dalam beberapa jenis yaitu : sinyal waktu
kontinu, sinyal waktu diskret, sinyal nilai
kontinu, sinyal nilai diskret, sinyal random dan
sinyal non-random. Sinyal waktu kontinu atau
sinyal analog merupakan sinyal yang belum
melalui proses apapun sedangkan sinyal nilai
diskret merupakan sinyal analog yang telah
melalui proses sampling, kuantisasi, dan coding
(Proakis & Manolakis 1996).
Pemrosesan suara merupakan teknik
menransformasi
gelombang
longitudinal
menjadi informasi berarti yang diinginkan
(Buono 2009). Proses transformasi terdiri atas
beberapa tahap yaitu digitalisasi sinyal analog,
ekstrasi ciri dan pengenalan pola untuk
klasifikasi seperti diilustrasikan pada Gambar
3.

waktu kontinu (sinyal analog) sehingga didapat
sinyal waktu diskret. Jumlah titik- titik yang
diambil setiap detik disebut sampling rate.
Misalkan sinyal analog di-sampling dengan
sampling rate sebesar 11000Hz, ini berarti
setiap detik di-sampling sebanyak 11000 kali.
Dalam proses sampling, untuk menghindari
aliasing maka perlu diperhatikan kriteria
Nyquist rate yang menyatakan bahwa sebuah
sinyal harus memiliki sampling rate yang lebih
besar dari 2Fmax . Komponen frekuensi untuk
kelompok sinyal suara berada di bawah 3000
Hz, sedangkan untuk kelompok sinyal radio
frekuensinya mencapai 5MHz (Proakis &
Manolakis 1996).
Kuantitasi adalah proses memetakan nilainilai dari nilai sinyal kontinu menjadi nilainilai yang diskret sehingga didapatkan sinyal
nilai diskret. Kuantisasi dilakukan dengan cara
membulatkan nilai hasil sampling ke nilai
terdekat (rounding) sehingga menghasilkan
sinyal suara digital. Ekstrasi ciri merupakan
proses untuk menentukan penciri dari sebuah
objek. Pengenalan pola untuk klasifikasi dapat
dilakukan
dengan
beberapa
metode
pengklasifikasian yang ada.
Konversi Sinyal Analog ke Sinyal Digital
Langkah- langkah proses konversi dari sinyal
analog ke sinyal digital, yaitu (Proakis &
Manolakis 1996) :
1. Sampling
Sampling merupakan konversi dari sinyal
waktu kontinu ke sinyal waktu diskret yang
didapat dengan mengambil samples dari
sinyal waktu kontinu pada waktu diskret
seketika itu juga. Dengan demikian, jika xa
(t) adalah input untuk sampler,
maka
output–nya adalah
xa(nT) = x (n)

-∞