Perbandingan metode Wavelet Daubechies dan MFCC sebagai ekstraksi ciri pada pengenalan fonem dengan Probabilistic Neural Network (PNN) sebagai Classifier

PERBAND
NDINGAN METODE
M
W
WAVELET DAUBECHI
D
HIES DAN MFCC
M
SEBAGAI EKSTRAKS
S
E
KSI CIRII PADA
PA
PENGE
GENALAN F
FONEM DE
ENGAN
PROBABIL
BILISTIC NEU
EURAL NET
ETWORK (PN

PNN) SEBAGA
GAI CLASSIIFIER

AYU GU
GUSTIAWA
ATI

DEP
EPARTEMEN
EN ILMU KOMPUTER
KOM
R
FAKULT
LTAS MATE
EMATIKA
AD
DAN ILMU
U PENGETA
TAHUAN ALAM
AL

INS
NSTITUT PERTANIAN
PE
N BOGOR
B
BOGOR
2011

PERBANDINGAN METODE WAVELET DAUBECHIES DAN MFCC
SEBAGAI EKSTRAKSI CIRI PADA PENGENALAN FONEM DENGAN
PROBABILISTIC NEURAL NETWORK (PNN) SEBAGAI CLASSIFIER

AYU GUSTIAWATI

Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011

ABSTRACT

AYU GUSTIAWATI. The comparison of Wavelet Daubechies and MFCC methods as feature
extraction for phoneme recognition with Probabilistic Neural Netowork (PNN) as classifier. Under the
direction of AGUS BUONO.
Nowadays, the development of telecommunication research is rapidly increasing. One of the
research is in sound area. Sound is a way for human to interact with computers, known as word
recogniser. Word recogniser is a part of voice recogniser that make the computers possible to receive
input from word that pronounced. Word that pronounced contain phonemes that arranged into
sentence. Voice recognition technology can recognise and understand words that pronounce by
digitalising it, and tuning the digital signal with certain pattern that has been saved in a hardware. The
result from this word identification will be displayed into printed word. This research will compare
between Wavelet Daubechies and MFCCas identity extraction on word recognition with (PNN) as
pattern identifier. PNN is a pattern identifier that has high accuracy. The comparison between trained
data and tested data in research is 75% : 25%. Tested data that has been used was vary, such as:

testing with increase the noise (pure noise) and data with noise increasing from 30dB, 20dB and 10dB.
The result from this research is that the identity extraction by using MFCC is much better than with
Wavelet Daubechies. From the pure original data (without noise increasing) the accuracy is 92.3% and
in data with noise increasing 30dB, noise 20dB and noise 10dB the accuracy is 50.96%, 26.92% and
19.23%.
Keywords : Phoneme, Wavelet Daubechies, MFCC, PNN, Noise.

Judul
Nama
NRP

: Perbandingan Metode Wavelet Daubechies dan MFCC sebagai Ekstraksi Ciri pada
Pengenalan Fonem dengan Probabilistic Neural Network (PNN) sebagai Classifier
: Ayu Gustiawati
: G64086034

Menyetujui :

Pembimbing


Dr. Ir. Agus Buono, M.Si, M.Kom
NIP 19660702 199302 1 001

Mengetahui :
Ketua Departemen

Dr. Ir. Sri Nurdiati, M.Sc
NIP.19601126 198601 2 001

Tanggal Lulus :

PRAKATA
Puji dan Syukur penulis ucapkan kepada Allah SWT yang telah memberikan rahmat dan hidayahNya sehingga skripsi dengan judul Perbandingan Metode Wavelet Daubechies dan MFCC sebagai
Ekstraksi Ciri pada Pengenalan Fonem dengan Probabilistic Neural Network (PNN) sebagai
Classifier dapat diselesaikan. Penelitian ini dilaksanakan mulai Agustus 2010 sampai dengan Maret
2011, bertempat di Departemen Ilmu Komputer.
Penulis mengucapkan terima kasih kepada semua pihak yang telah membantu sehingga skripsi ini
dapat diselesaikan, diantaranya :
1. Papa dan Mama terkasih atas dukungan, doa, dan kasih sayangnya kepada penulis.
2. Bapak Dr. Ir. Agus Buono, M.Si, M.Kom selaku pembimbing atas waktu, saran, dan bimbingan

yang telah diberikan.
3. Sidik yang selalu sabar memberikan dukungan waktunya.
4. Kak Nisa, Panji dan Beni yang telah membantu memberikan ilmu dan waktunya.
5. Teman - teman seperjuangan di Ekstensi ILKOM dan semua pihak yang tidak dapat penulis
sebutkan satu persatu yang telah membantu penulis dalam menyelesaikan penelitian ini.
Akhirnya penulis berharap semoga skripsi ini dapat bermanfaat bagi semua pihak yang
membutuhkan. Amin.

Bogor, April 2011

Ayu Gustiawati

RIWAYAT HIDUP
Penulis dilahirkan di Padang, Propinsi Sumatera Barat, pada tanggal 24 Agustus 1987. Penulis
merupakan anak tunggal, pasangan Bapak Amril dan Ibu Yusni.
Tahun 1999 penulis lulus dari Sekolah Dasar Negeri 05 Padang Pasir, Padang. Pada tahun yang
sama penulis melanjutkan di Sekolah Menengah Pertama Negeri 1 Padang dan pada tahun 2002
penulis melanjutkan ke Sekolah Menengah Umum Negeri 10 Padang. Tahun 2005 penulis lulus dari
SMU dan diterima di Direktorat Program Diploma Institut Pertanian Bogor (IPB), program keahlian
Manajemen Informatika melalui jalur USMI. Tahun 2008 penulis lulus dari program Diploma dan

pada tahun yang sama melanjutkan studi di Progran Sarjana Ilmu Komputer Penyelenggaraan Khusus
IPB, Fakultas Matematika dan Ilmu Pengetahuan Alama (MIPA) Institut Pertanian Bogor.

DAFTAR ISI

Halaman
DAFTAR GAMBAR ............................................................................................................................. vi
DAFTAR TABEL ................................................................................................................................. vi
DAFTAR LAMPIRAN......................................................................................................................... vii
PENDAHULUAN .................................................................................................................................. 1
Latar Belakang .................................................................................................................................. 1
Tujuan Penelitian .............................................................................................................................. 1
Ruang Lingkup .................................................................................................................................. 1
Manfaat ............................................................................................................................................. 1
TINJAUAN PUSTAKA ......................................................................................................................... 1
Sinyal ................................................................................................................................................ 1
Sinyal Suara ...................................................................................................................................... 1
Speech Recognition ........................................................................................................................... 2
Digitalisasi Gelombang Suara ........................................................................................................... 2
Noise ................................................................................................................................................. 2

White Gaussian Noise ....................................................................................................................... 3
Fonem ............................................................................................................................................... 3
Wave .................................................................................................................................................. 3
Wavelet .............................................................................................................................................. 4
Wavelet Daubechies .......................................................................................................................... 4
Mel-Frequency Cepstrum Coefficients (MFCC) ............................................................................... 5
Probabilistic Neural Network (PNN) ................................................................................................ 6
METODOLOGI PENELITIAN.............................................................................................................. 6
Kerangka Pemikiran .......................................................................................................................... 6
Data Suara ......................................................................................................................................... 6
Penghapusan Silent............................................................................................................................ 7
Normalisasi ....................................................................................................................................... 7
Segmentasi Sinyal ............................................................................................................................. 7
Data Latih dan Data Uji .................................................................................................................... 7
Ekstraksi Ciri (Wavelet dan MFCC) ................................................................................................. 8
Perata-rataan Hasil MFCC dan Wavelet ............................................................................................ 8
Pemodelan PNN ................................................................................................................................ 8
Pengujian Model PNN ...................................................................................................................... 8
Perhitungan Nilai Akurasi ................................................................................................................. 8
Lingkup Pengembangan Sistem ........................................................................................................ 8

HASIL DAN PEMBAHASAN............................................................................................................... 8
Sinyal Suara Asli (Tanpa Penambahan Noise) ................................................................................ 10
Wavelet Daubechies Orde 4 (db4) .................................................................................................. 10
MFCC ............................................................................................................................................. 10
Perbandingan Wavelet Daubechies Orde 4 (Db4) dengan MFCC pada Suara Asli ........................ 11
Sinyal Suara dengan Penambahan Noise......................................................................................... 11
Daubechies Orde 4 (db4) dengan Penambahan Noise 30dB ........................................................... 11
Wavelet Daubechies Orde 4 (db4) dengan Penambahan Noise 20dB ............................................. 12
Wavelet Daubechies orde 4 (db4) dengan Penambahan Noise 10dB .............................................. 12
Perbandingan Wavelet Daubechies dengan Penambahan Noise 30dB, 20dB, 10dB ....................... 12
MFCC dengan Penambahan Noise 30dB ........................................................................................ 12
MFCC dengan Penambahan Noise 20dB ........................................................................................ 13
MFCC dengan Penambahan Noise 10dB ........................................................................................ 13
Perbandingan MFCC dengan Penambahan Noise 30dB, 20dB, 10dB ............................................ 13
Perbandingan Wavelet Daubechies dan MFCC antara Data Asli dan Data dengan Penambahan
Noise 30dB, 20dB, 10dB ................................................................................................................. 14
iv

Halaman
KESIMPULAN DAN SARAN............................................................................................................. 14

Kesimpulan ..................................................................................................................................... 14
Saran ............................................................................................................................................... 14
DAFTAR PUSTAKA ........................................................................................................................... 14
LAMPIRAN ......................................................................................................................................... 16

v

DAFTAR GAMBAR

Halaman
1 Sinyal suara.......................................................................................................................................... 2
2 Tanpa Noise ......................................................................................................................................... 3
3 White Gaussian Noise 30dB ................................................................................................................ 3
4 White Gaussian Noise 20dB ................................................................................................................ 3
4 White Gaussian Noise 10dB ................................................................................................................ 3
6 Diagram Blok MFCC........................................................................................................................... 5
7 Struktur PNN ....................................................................................................................................... 6
8 Diagram Alur Penelitian ...................................................................................................................... 7
9 Pemotongan Silent ............................................................................................................................... 7
10 Segmentasi Sinyal .............................................................................................................................. 7

11 Penghapusan Silent ............................................................................................................................ 8
13 Data Uji Tanpa Penambahan Noise ................................................................................................... 9
14 Data Uji yang Ditambahkan Noise 30dB ......................................................................................... 10
15 Data Uji yang Ditambahkan Noise 20dB ......................................................................................... 10
16 Data Uji yang Ditambahkan Noise 10dB ......................................................................................... 10
17 Grafik Tingkat Akurasi Suara Asli dengan Wavelet Daubechies Masing-Masing Fonem .............. 10
18 Grafik Tingkat Akurasi Suara Asli dengan MFCC Masing-Masing Fonem .................................... 11
19 Grafik Perbandingan Tingkat Akurasi Suara Asli dengan Wavelet Daubechies dan MFCC
Masing-Masing Fonem ................................................................................................................... 11
20 Perbandingan Tingkat Akurasi Suara Asli dengan Wavelet Daubechies dan MFCC ...................... 11
21 Grafik Tingkat Akurasi Suara dengan Noise 30 dB Menggunakan Wavelet Daubechies MasingMasing Fonem................................................................................................................................. 11
22 Grafik Tingkat Akurasi Suara dengan Noise 20dB Menggunakan Wavelet Daubechies MasingMasing Fonem................................................................................................................................. 12
23 Grafik Tingkat Akurasi Suara dengan Noise 10dB Menggunakan Wavelet Daubechies MasingMasing Fonem................................................................................................................................. 12
24 Grafik Perbandingan Tingkat Akurasi Menggunakan Wavelet Daubechies terhadap Suara Asli
dan Suara dengan Penambahan Noise 30dB, 20dB, dan 10dB....................................................... 12
25 Grafik Tingkat Akurasi Suara dengan Noise 30dB Menggunakan MFCC Masing-Masing
Fonem ............................................................................................................................................. 13
26 Grafik Tingkat Akurasi Suara dengan Noise 20dB Menggunakan MFCC Masing-Masing
Fonem ............................................................................................................................................. 13
27 Grafik Tingkat Akurasi Suara dengan Noise 10dB Menggunakan MFCC Masing-Masing
Fonem ............................................................................................................................................. 13
28 Grafik Perbandingan Tingkat Akurasi Menggunakan MFCC terhadap Suara Asli dan Suara
dengan Penambahan Noise 30dB, 20dB, dan 10dB ........................................................................ 13
29 Grafik Perbandingan Tingkat Akurasi Wavelet Daubechies dan MFCC terhadap Suara Asli
dan Suara dengan Penambahan Noise 30dB, 20dB, dan 10dB........................................................ 14

DAFTAR TABEL
Halaman
1 Segmentasi Fonem ............................................................................................................................... 7
2 Jumlah Tiap Fonem ............................................................................................................................. 9

vi

DAFTAR LAMPIRAN

Halaman
Lampiran 1 Hasil Pendeteksian Masing-Masing Fonem untuk Wavelet Daubechies ........................... 17
Lampiran 2 Matriks Confusion Wavelet Daubechies............................................................................ 18
Lampiran 3 Hasil Pendeteksian Masing-Masing Fonem untuk MFCC ................................................ 19
Lampiran 4 Matriks Confusion MFCC ................................................................................................. 20
Lampiran 5 Hasil Pendeteksian Masing-Masing Fonem untuk Wavelet Daubechies dengan
Penambahan Noise 30dB................................................................................................................. 21
Lampiran 6 Matriks Confusion Wavelet Daubechies dengan Penambahan Noise 30dB ...................... 22
Lampiran 7 Hasil Pendeteksian Masing-Masing Fonem untuk Wavelet Daubechies dengan
Penambahan Noise 20dB................................................................................................................. 23
Lampiran 8 Matriks Confusion Wavelet Daubechies dengan Penambahan Noise 20dB ...................... 24
Lampiran 9 Hasil Pendeteksian Masing-Masing Fonem untuk Wavelet Daubechies dengan
Penambahan Noise 10dB................................................................................................................. 25
Lampiran 10 Matriks Confusion Wavelet Daubechies dengan Penambahan Noise 10dB .................... 26
Lampiran 11 Hasil Pendeteksian Masing-Masing Fonem untuk MFCC dengan Penambahan Noise
30dB ................................................................................................................................................ 27
Lampiran 12 Matriks Confusion MFCC dengan Penambahan Noise 30dB .......................................... 28
Lampiran 13 Hasil Pendeteksian Masing-Masing Fonem untuk MFCC dengan Penambahan Noise
20dB ................................................................................................................................................ 29
Lampiran 14 Matriks Confusion MFCC dengan Penambahan Noise 20dB .......................................... 30
Lampiran 15 Hasil Pendeteksian Masing-Masing Fonem untuk MFCC dengan Penambahan Noise
10dB ................................................................................................................................................ 31
Lampiran 16 Matriks Confusion MFCC dengan Penambahan Noise 10dB .......................................... 32

vii

PENDAHULUAN
Latar Belakang
Perkembangan
penelitian
di
dunia
telekomunikasi sangat pesat beberapa tahun
terakhir ini. Salah satunya adalah penelitian di
bidang suara. Suara adalah salah satu cara
manusia untuk berinteraksi dengan komputer,
dikenal dengan istilah pengenalan kata.
Pengenalan kata merupakan bagian dari
pengenalan
suara
yang
memungkinkan
komputer untuk menerima masukan berupa kata
yang diucapkan. Kata yang diucapkan terdiri
dari fonem-fonem yang menyusun sebuah kata.
Teknologi pengenalan suara memungkinkan
suatu perangkat untuk mengenali dan
memahami kata-kata yang diucapkan dengan
cara digitalisasi kata dan mencocokkan sinyal
digital dengan suatu pola tertentu yang
tersimpan dalam suatu perangkat. Hasil dari
identifikasi kata yang diucapkan ditampilkan
dalam bentuk tulisan.
Berbagai sistem pengenalan suara atau yang
dapat disebut juga Automatic Speech
Recognition (ASR) telah banyak dikembangkan
di berbagai negara dengan berbagai bahasa.
Beberapa sistem pengenalan suara yang telah
dikembangkan (Ruvinna 2008) :
• Spoken Dialoque System, sistem yang dapat
melakukan
dialog
singkat
guna
mendapatkan informasi tertentu. Seperti
pada seorang customer service, pengguna
hanya perlu menjawab ‘ya’ atau ‘tidak’
untuk mendapatkan informasi tertentu.
• Speed Dialing System, sistem yang dapat
mengenali sebuah nama atau ID seseorang
dan mencarinya dalam buku telepon untuk
segera dihubungi. Pengguna tidak perlu
mencari nomor telepon seseorang, biasanya
dalam telepon selular, untuk dapat
menghubungi seseorang, pengguna tidak
perlu mencari nomor telepon orang tersebut.
Namun cukup dengan menyebutkan nama
atau ID orang yang akan dihubungi dan
sistem secara otomatis menghubunginya.
• Speech to Text Translation System, sistem
yang secara otomatis mengetikkan kata-kata
yang diucapkan pengguna.
Oleh karena itu, penulis melakukan
penelitian dengan membandingkan metode
Wavelet Daubechies dan MFCC sebagai
ekstraksi ciri pada pengenalan kata dengan
Probabilistic Neural Network (PNN) sebagai
pengenalan pola. PNN merupakan salah satu

jenis pengenalan pola yang memiliki akurasi
cukup tinggi (Suhartono MN 2007).
Tujuan Penelitian
Penelitian ini bertujuan membandingkan
metode Wavelet Daubechies dan MFCC sebagai
ekstraksi ciri pada pengenalan fonem dengan
PNN untuk mendapatkan informasi tingkat
akurasi.
Ruang Lingkup
Ruang lingkup dari penelitian ini antara lain:
1. Kata yang digunakan terdiri atas sebelas
kata yaitu coba, fana, gajah, jaya, malu,
pacu, quran, tip-x, visa, weda, dan zakat.
2. Masing-masing kata direkam oleh satu
orang pembicara sebanyak 16 kali dalam
waktu satu detik, time frame 30 ms, overlap
50%, dan sampling rate 12000Hz.
3. Penelitian ini terbatas pada pengenalan
fonem tunggal (bukan pengenalan kata atau
kalimat).
4. Segmentasi untuk masing-masing fonem
dilakukan secara manual.
5. Ekstraksi ciri yang digunakan adalah
pemodelan Wavelet Daubechies dan MFCC.
6. Metode yang digunakan pada penelitian ini
adalah Probabilistic Neural Network (PNN).
7. Kata yang diucapkan berbahasa Indonesia.
Manfaat
Manfaat dari penelitian ini antara lain :
1. Menambah pustaka penelitian pengenalan
fonem menggunakan metode Wavelet
Daubechies
dan
MFCC
dengan
Probabilistic Neural Network (PNN).
2. Memberikan informasi tingkat akurasi
pengenalan fonem menggunakan metode
Wavelet Daubechies dan MFCC dengan
Probabilistic Neural Network (PNN).
TINJAUAN PUSTAKA
Sinyal
Menurut Proakis JG & Manolakis DG
(2007), sinyal adalah suatu besaran fisik yang
berubah terhadap variabel waktu, ruang atau
variabel independen lainnya.
Sinyal Suara
Menurut Pelton GE (1993), sinyal suara
manusia dibangkitkan dari tekanan udara paruparu yang menyebabkan pita suara bergetar.
1

Efek dari getaran tersebut menyebabkan
tekanan udara ke lubang vokal dengan frekuensi
getaran yang bervariasi, pada akhirnya melalui
bibir dan lubang hidung keluar tekanan
gelombang sinyal suara.
Menurut Proakis JG & Manolakis DG
(2007), sinyal suara dihasilkan dengan
memaksa udara melewati pita suara. Generasi
sinyal biasanya diasosiasikan dengan sebuah
sistem yang merespon stimulus. Sistem itu
terdiri atas pita suara dan saluran suara, yang
disebut juga dengan rongga suara. Stimulus
yang berkombinasi dengan sistem tersebut
disebut dengan sumber sinyal. Contoh sinyal
suara dapat dilihat pada Gambar 1.

Gambar 1 Sinyal suara
(Proakis JG & Manolakis DG 2007)
Speech Recognition
Speech recognition adalah proses konversi
sebuah sinyal akustik, yang berasal dari
mikrofon atau telepon, menjadi satu atau
sekumpulan kata. Pengenalan suara merupakan
masalah besar dan sulit untuk dipecahkan,
karena terdapat faktor-faktor tidak tetap yang
terkait dengan sebuah sinyal. Beberapa faktor
tidak tetap tersebut di antaranya ialah (Zue V,
Cole R, & Ward W 2007) :
• Phonetic variabilities, atau yang biasa
dikenal sebagai homofon, dimana terdapat
dua kata atau lebih yang memiliki penulisan
berbeda namun pengucapannya sama,
contohnya: bang dengan bank.
• Acoustic variabilities, yang dapat terjadi
karena perbedaan lingkungan tempat
berbicara.
• Within-speaker variabilities, yang dapat
terjadi karena kondisi fisik dari pembicara
yang dapat disebabkan oleh emosi yang
sedang dirasakan.
• Across-speaker variabilities, hal ini dapat
terjadi karena perbedaan logat atau cara
pengucapan seseorang.
Speech recognition didasarkan pada
digitalisasi suatu bentuk gelombang yang sesuai
dengan data yang digunakan kemudian

diekstraksi dengan menggunakan teknik
praproses yang sesuai. Setelah itu data diproses
untuk mendapatkan representasi dari sinyal
suara (Al-Akaidi 2004).
Digitalisasi Gelombang Suara
Menurut Pelton GE (1993), digitalisasi
merupakan proses mengubah sinyal analog
menjadi sinyal digital. Sinyal suara yang
direkam
menggunakan
mikrofon
akan
dikonversi menjadi sinyal analog. Sinyal analog
memiliki karakter kontinyu dalam ruang waktu
dan amplitudo.
Proses digitalisasi terdiri atas dua tahap
yaitu sampling dan kuantisasi. Sampling
merupakan pengambilan nilai pada setiap
jangka waktu tertentu yang akan menghasilkan
suatu nilai vektor. Panjang nilai vektor yang
dihasilkan tergantung dari panjangnya sinyal
suara yang didigitalisasi dan sampling rate yang
digunakan. Sampling rate adalah banyaknya
nilai yang diambil tiap detik. Sampling rate
yang biasanya digunakan pada pengenalan
suara yaitu 8000Hz – 16000Hz. Setelah tahap
sampling maka proses selanjutnya adalah proses
kuantisasi. Kuantisasi merupakan proses
menyimpan nilai amplitudo ini ke dalam
representasi nilai 8 bit atau 16 bit (Jurafsky &
Martin 2007). Hubungan panjang vektor yang
dihasilkan, sampling rate dan panjang data
suara yang digitalisasi dinyatakan dengan
persamaan 1.
S = Fs x T

(1)

Keterangan:
S = panjang vektor
Fs = sampling rate yang digunakan (Hertz)
T = panjang suara (detik)
Noise
Noise dari berbagai jenis membuat sebuah
pengenalan menjadi lebih sulit. Deteksi
pengenalan suara tanpa noise jauh lebih mudah
dibandingkan dengan suara yang ditambahkan
noise. Penambahan noise sendiri akan
mengakibatkan sejumlah tingkat kesalahan
dalam pendeteksian (Jurafsky & Martin 2007).
Ukuran noise dapat dilihat pada persamaan 2.
(2)
Keterangan :
= sinyal asli
= sinyal dengan noise

2

White Gaussian Noise
White noise didefinisikan sebagai suatu
urutan nilai random berkorelasi. White noise
adalah “wideband” dimana semua frekuensi
sama.
Pembuatan
white
noise,
tidak
mempedulikan bagaimana kemungkinan nilainilai amplitudo didistribusikan (Smith 2010).
Gaussian noise merupakan ide dari white
noise yang disebabkan oleh fluktuasi pada
sinyal. Gaussian noise adalah white noise
dengan distribusi normal (McAndrew 2004).
White gaussian noise dibutuhkan untuk digital
signal processing atau identifikasi sistem dari
digital signal processing (Donadio M 1992).
Sinyal tanpa noise dan sinyal dengan
penambahan white gaussian noise 30dB, 20dB,
dan 10dB dapat dilihat pada Gambar 2, Gambar
3, Gambar 4 dan Gambar 5.

Gambar 4 White Gaussian Noise 20dB

Gambar 4 White Gaussian Noise 10dB
Fonem

Gambar 2 Tanpa Noise

Menurut Resmiwati (2009), fonem adalah
satuan
bunyi
terkecil
yang
mampu
menunjukkan kontras warna. Fonem dapat
dibagi menjadi empat bagian yaitu:
1. Fonem vokal, merupakan bunyi ujaran
akibat adanya udara yang keluar dari paruparu tidak terkena hambatan atau halangan.
Jumlah fonem vokal ada lima yaitu: a, i, u,
e, dan o.
2. Fonem konsonan, merupakan bunyi ujaran
akibat adanya udara yang keluar dari paruparu mendapatkan hambatan atau halangan.
Jumlah fonem konsonan ada 21 buah yaitu:
b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w,
x, y, dan z.

Gambar 3 White Gaussian Noise 30dB

3. Fonem vokal rangkap, merupakan gabungan
dua fonem vokal yang menghasilkan bunyi
rangkap, yaitu : ai, au, dan ai.
4. Fonem konsonan rangkap, merupakan
gabungan dua buah konsonan, yaitu : ny, ng,
kh, dan sy.
Wave
Wave didefinisikan sebagai sebuah fungsi
yang bergerak dari waktu atau ruang. Analisis
3

Fourier merupakan analisis wave. Perluasan
sinyal atau fungsi wave berdasarkan sinusoids
telah terbukti sangat berguna dalam bidang
matematika, science, dan teknik mesin
khususnya
periodik, waktu
yang tidak
berlainan (time-invariant), atau fenomena
ketidakseimbangan (Burrus et al. 1998).
Wavelet
Wavelet adalah sebuah “small wave” yang
energinya terkonsentrasi dalam waktu untuk
analisis transien, ketidakseimbangan atau
fenomena yang berubah-ubah terhadap waktu
(Burrus et al. 1998). Wavelet ditunjukkan
pertama kali sebagai dasar pendekatan baru
untuk pemrosesan sinyal dan analisis yang
disebut teori multiresolusi. Teori multiresolusi
berkaitan dengan analisis dan representasi
sinyal atau citra pada lebih dari satu resolusi.
Hasil pendekatan teori multiresolusi yakni fitur
yang tidak terdeteksi pada suatu resolusi dapat
terdeteksi pada resolusi lain (Gonzalez &
Woods 2002).
Secara umum transformasi wavelet kontinyu
dituliskan,
(s, ) = f(t)

s,t

(x) dt

(3)

dimana
s,t

(x)=

!"#

(4)

dan s, disebut dengan parameter skala dan
translasi.
Menurut Burrus et al. (1998), teori wavelet
didasari oleh pembangkitan sejumlah tapis
(filter) dengan menggeser dan menskala suatu
wavelet berupa tapis pelewat tengah (band-pass
filter). Penambahan skala wavelet akan
meningkatkan durasi waktu, mengurangi lebar
bidang (bandwidth) dan menggeser frekuensi
pusat ke nilai frekuensi yang lebih rendah.
Sebaliknya pengurangan skala menurunkan
durasi waktu, menambah lebar bidang dan
menggeser frekuensi ke nilai frekuensi yang
lebih tinggi. Menurut McAndrew 2004 yang
dirujuk pada Oktabroni I N 2008, wavelet dapat
digunakan untuk mengurangi noise, deteksi tepi,
dan kompresi citra.
Wavelet Daubechies
Wavelet Daubechies secara historis berasal
dari sistem Haar. Wavelet Daubechies ini
merupakan karya gemilang dari Ingrid
Daubechies .
2

2

2

2

h0 + h 1 + h 2 + h3 = 1
h 0 h 2 + h 1h 32 = 0

(5)
(6)

h3 - h2 + h1 – h0 = 0

(7)

0h3 - 1h2 + 2h1 – 3h0 = 0

(8)

Persamaan (4, 5, 6, dan 7) merupakan empat
persamaan dengan empat bilangan yang tidak
diketahui yaitu h0, h1, h2, dan h3. Persamaan
tersebut pertama kalinya diperkenalkan dan
diselesaikan
oleh
Ingrid
Daubechies,
ditunjukkannya bahwa persamaan-persamaan
ini mempunyai penyelesaian tunggal.
$

% & '() * + , -

$

%'

'() * + , -

(10)

$

%' & '() * + , -

(11)

$.

%

(12)

(9)

'() * + , -

Matriks Transformasi ditemukan oleh Ingrid
Daubechies yang memungkinkan melalui suatu
sinyal dari resolusi 2j ke resolusi 2j+1. Untuk
menyederhanakannya, matriks ini disebut
matriks DAUB.
c j = H c j+1

(13)

d j = G c j+1

(14)

Pada persamaan (13) dan (14) dimana H
berkaitan dengan suatu filter low pass dan G
berkaitan dengan filter high pass. H dan G
disebut filter konjugasi kuadratur.
/0
30

$

1

,2 0

(15)

,2 0

1

(16)

Dari persamaan (15) dan (16), dapat
dibentuk suatu matriks transformasi yang
mempunyai elemen-elemen h(n) dan g(n).
Dapat dihitung dengan persamaan g(n) = (-1)n
h((2N-1)-n). Jika N = 2 maka akan diperoleh:
g(0) = h(3);

(17)

g(1) = -h(2);

(18)

g(2) = h(1);

(19)

g(3) = -h(0);

(20)

Dengan mengganti variabel-variabel yang
bersesuaian, akan diperoleh matriks DAUB4
dengan empat koefisien yang disebut juga
matriks transformasi. Matriks transformasi dari
Wavelet Daubechies dapat dilihat pada
persamaan 20 (Agustini 2006).
h ( 0)

h(1)

h(3) − h( 2)

h ( 2)

h(3)

0

0

0

0

0

0

h(1)

− h (0 )

0

0

0

0

0

0

h(1)

h ( 2)

h(3)

0

0

0

0

h(1)
0

− h ( 0)


0
0

0
0

0
0

0
0

h(1)

h ( 2)

h(3)

h(1)

− h ( 0)

0

0

h ( 0)

0
0

0
0

h(3) − h( 2)
0
0

0

0

0

0

0

0

h ( 0)

0

0

0

0

0

0

h(3) − h( 2)

0
0

0
0

0
0

0
0

h( 2) h(3)
h(1) − h(0)

0
0

0
0

(21)

h(0) h(1)
h(3) − h(2)

4

Umumnya Wavelet Daubechies
ditulis
dengan “dbN” dengan N menunjukkan orde.
Daubechies ditopang secara kompak oleh
induk wavelet dan fungsi skala dalam interval
{0,2N-1} dengan N bilangan bulat 1 dan
mempunya sifat sebagai berikut (Agustini
2006) :
1. Fungsi
mempunyai sejumlah tertentu
momen nol yaitu,
7

4"7 5 1 6 5 85

(22)

untuk k = 0, 1, 2, …, N-1
9 0, 2N-1 dan Supp

2. Supp

9 1-N, N

3. Fungsi konjugasi kuadratur mempunyai
bentuk dekomposisi H (filter lowpass) dan
G (filter highpass) berhingga yang
memungkinkan untuk mengoptimalkan
perhitungan koefisien wavelet dengan
algoritma dekomposisi dari S. Mallat.
Mel-Frequency
(MFCC)

Cepstrum

Coefficients

MFCC didasarkan pada variasi yang telah
diketahui dari jaringan kritis telinga manusia
terhadap frekuensi. Filter dipisahkan secara
linear pada frekuensi rendah dan logaritmik
pada frekuensi tinggi. Hal ini dilakukan untuk
menangkap karakteristik penting dari sinyal
suara (Do Mn 1995). Diagram blok MFCC
dapat dilihat pada Gambar 6 (Buono 2009).

Tahapan MFCC yaitu :
1. Frame blocking
Frame blocking merupakan tahapan untuk
membagi sinyal suara kedalam frame-frame
yang terdiri atas N sample.
2. Windowing
Windowing
dilakukan
dengan
cara
meminimalisasikan distorsi mengunakan
window untuk memperkecil sinyal hingga
mendekati nol pada awal dan akhir tiap
frame. Jika window didefinisikan sebagai
w(n), 0
n
N-1, dengan N adalah
banyaknya sampel tiap frame. Window yang
biasanya
digunakan
adalah
window
hamming karena kesederhanaan formulanya
yang dapat dilihat pada persamaan 23 dan
persamaan 243.
Y1(n) = x1(n)w(n), 0

n

N-1

w(n)=0.54 – 0.46 cos (2 n/N-1)

(23)
(24)

3. Fast Fourier Transform (FFT)
Tahapan ini bertujuan untuk mengonversi
tiap frame dengan N sample dari time
domain menjadi frekuency domain. FFT
merupakan
algoritme
yang
mengimplementasikan Discrete Fourier
Transfom (DFT) yang didefinisikan pada
persamaan 25.
:

?"
1@

;1 < "

=>1 +?

(25)

dengan
k=0,1,2,…,N-1

!

$

3

"

#

$ %&'$ %(
) * + , $ - ./ /%0
* . " 1 . "#
! 2 %0

4

$

*! 5

6 2 ..

3

7
9

mel(f) = 2595 * log10 (1 + f / 700)

8
9

:* -!- - ; < ;*:

0
&

4. Mel Frequency Wrapping
Persepsi manusia terhadap frekuensi sinyal
suara tidak berupa skala linear. Oleh karena
itu, untuk setiap nada dengan frekuensi
aktual f (dalam Hertz), tinggi subjektifnya
diukur dengan skala mel. Skala melfrequency adalah selang frekuensi di bawah
1000Hz dan selang logaritmik untuk
frekuensi di atas 1000Hz. Perhitungan melfrequency dapat dilihat pada persamaan 26
dan 27.

9

< 3*:

Gambar 6 Diagram Blok MFCC
(Buono2009)

:A

?"
1@

B; 2 B/A 2

(26)
(27)

Keterangan :
i
= 1, 2, 3,…M
H(k) = nilai filter segitiga ke-i
5. Cepstrum
Tahapan ini bertujuan untuk mengonversi
mel
frequency
ke
domain
waktu
menggunakan Discrete Cosine Transform
5

px)(

)=πdh12(2/

h=Σ
(.2d
1
in

.

(DCT) yang dapat dilihat pada persamaan
berikut :
D
A@

C>

:A EFG H

> A"

=

D

I

(28)

Keterangan :
C> = nilai koefisien C ke j
j = jumlah koefisien yang diharapkan
:A = hasil mel-frequency wrapping pada
frekuensi i = 1, 2,….n jumlah
wrapping
M = jumlah filter
Probabilistic Neural Network (PNN)
Menurut Ganchecv (2005), PNN untuk
klasifikasi, mapping, dan associative memory
diperkenalkan pertama kali oleh Specht tahun
1988. PNN diformulasikan ke dalam fourlayer neural network yang sudah terlatih. Secara
umum PNN dapat dituliskan,
L

J K

M
P@L O

M)N

H

K"KP
M

I

(29)

Keterangan :
k = fungsi kernel, dimana
k=

L

QR

Keterangan:
d
xi
xij
hj
i
j
n

= banyaknya data pada pattern layer
= input data uji ke-j
= pattern ke-i data ke-j
= smoothing parameter
( x simpangan baku ke-j x n 1/5)
= 1, 2 sampai n
= i, 2 sampai
= banyaknya pattern pada satu kelas

3. Summation Layer, menghasilkan peluang
untuk satu kelas yang didapat dari
penjumlahan pattern layer. Hasilnya dibagi
dengan (2 )d/2hih2...hdn. Nilai hih2...hdn
adalah nilai smoothing dari kelas tersebut.
Persamaan untuk menghitung peluang
tersebut adalah :
(32)
Keterangan:
hih2...hdn = nilai smoothing dari kelas
(fi(x)) = pattern layer

L Q

S"Q T

(30)

e = 2,17
h = parameter
Struktur PNN terdiri atas empat layer, dapat
dilihat pada Gambar 7.

4. Decision
Layer
(Output
Layer),
membandingkan hasil peluang pada setiap
kelas kemudian input data dimasukkan
dalam kelas yang memiliki nilai peluang
terbesar.
METODOLOGI PENELITIAN
Kerangka Pemikiran
Penelitian
ini
dilakukan
dengan
pengambilan sebelas kata. Masing-masing kata
direkam sebanyak 16 kali dari satu orang
pembicara. Kemudian, dilakukan proses
penghapusan silent. Selanjutnya, data suara
tersebut diolah dengan Wavelet Daubechies dan
MFCC sebagai ekstraksi cirinya.

Gambar 7 Struktur PNN
(Ganchev 2005)
1. Input layer, berfungsi sebagai input data
pada PNN.
2. Pattern layer, berfungsi menghitung
antara nilai input data suara dengan
pola dari tiap anggota kelas. Nilai
pattern layer dapat ditunjukkan
persamaan berikut :
U ;

V>@ 2 W

!X " !YX
ZX

[

jarak
nilai
hasil
pada

(31)

Data yang sudah diolah dibagi menjadi dua
kelompok yaitu, data latih dan data uji.
Kemudian, data latih dimodelkan dengan
menggunakan PNN. Adapun langkah-langkah
dalam proses pengenalan kata ini dapat dilihat
pada Gambar 8.
Data Suara
Data suara yang digunakan pada penelitian
ini berjumlah sebelas kata yang berasal dari satu
orang pembicara. Masing-masing kata tersebut
direkam sebanyak 16 kali dalam waktu satu
detik, sampling rate 12000Hz, overlap 50%
dengan time frame 30 ms. Kata yang diucapkan
antara lain coba, fana, gajah, jaya, malu, pacu,
quran, tip-x, visa, weda, dan zakat.
6

Norma
malisasi

Mulai

Nor
ormalisasi bertu
rtujuan untuk mendapatkan
m
range nilai amplitud
udo yang samaa dari masingmasing
ng suara. Norm
rmalisasi dilaku
kukan dengan
cara m
membagi set
setiap nilai dengan
de
nilai
maksim
simum pada mas
asing-masing suara
su
sehingga
memili
miliki amplitudoo sa
satu untuk nila
ilai maksimum
dan min
inus satu untuk
uk nilai minimum
um.

Pengambilan
data suara

Penghapusan
silent

Normalisasi

Segmen
entasi Sinyal
Seg
egmentasi adal
alah tahap dimana
dim
setiap
sinyall suara dibagi--bagi berdasar
sarkan fonem.
Proses
ses segmentasi
si dilakukan sec
secara manual
dengan
an menggunak
akan Audacity
ity sehingga
didapat
at 26 fonem ddari masing-m
masing suara.
Ilustrasi
rasi segmentasi
si sinyal suaraa dapat
d
dilihat
pada Gambar
G
10.

Segmentasi
Data
latih

Data
uji

Ektraksi ciri
(MFCC dan
Wavlelet)

Ektraksi ciri
E
(
(MFCC
dan
Wavlelet)

Perata-rataan

Pe
Perata-rataan

“c”
Model PNN

“ o”

“a”

“b”

Gambar 10 Segmentasi
S
Sin
inyal
Fon
onem-fonem yyang
dilihat
at pada Tabel 1.

Pengujian
model PNN

disegmeentasi

dapat

Tabell 1 Segmentasi
si F
Fonem
Perhitungan
nilai akurasi

Selesai

Gambar 8 Diagram
D
Alurr Penelitian
P
Peng
enghapusan Sileent
S
Silent
merupa
pakan bagiann “diam”
biasa
asanya terdapat
at pada saat awal
a
dan
prose
oses perekaman
an suara. Data
Da suara
terku
rkumpul meru
rupakan suara
ra kotor
men
engandung silent
ent.

yan
ang
akh
khir
yan
ang
yan
ang

P
Pada
proses ini
in dilakukan pembersihan
pe
dat
data
suar
ara dengan men
enghilangkan silent
s
dari tiap
iaptiap
p suara. Peng
nghapusan silen
ilent
dilakuka
kan
seca
cara manual den
engan menggun
unakan Audacity
ity.
Ilust
ustrasi pemotong
ngan silent dap
apat dilihat pad
ada
Gam
ambar 9.

silent

silent

Kat
Kata

Fo
Fonem

cob
oba
fana
ana

/c/, /o/
/o/, /b/, /a/
/f/, /a/,
/a/ /n/, /a/

gaja
jah
jaya
aya
malu
mal
pac
acu

/g/, /a/,
/, /j/, /a/, /h/
/j/, /a/
/a/, /y/, /a/
/m/, /a
/a/, /l/, /u/
/p/, /a/
/a/, /c/, /u/

tip--x
visa
isa
wed
eda
zaka
kat

/t/, /i/
/i/, /p/, /x/
/v/, /i/,
/i/ /s/, /a/
/w/, /e
/e/, /d/, /a/
/z/, /a/,
/, /k/, /a/, /t/

Data Latih
L
dan Data
ata Uji
Pen
engambilan da
data latih dan
an data uji
dilakuk
ukan dengan car
ara mengelompo
pokkan semua
fonem
m kedalam kkelasnya maasing-masing.
Setelah
ah dikelompokk
kkan sebanyak
ak 16 fonem
teratas
as dari masing-m
masing kelas diambil
d
untuk
dijadik
ikan data latih ddan data uji.. Proporsi
P
data
latih dan
da data uji ya
yaitu 75% : 25%.
25
Data uji
yang ddigunakan yait
aitu data tanpaa penambahan
noise (data
(
asli) dan
an data dengann penambahan
noise 30dB, 20dB,
B, dan 10dB.. Noise yang
ditambbahkan adalah White
W
Gaussian
ssian noise.

Gambarr 9 Pemotongan
an Silent
7

Ekstraksi Ciri (Wavelet dan MFCC)
Ekstraksi ciri merupakan proses untuk
menentukan satu nilai atau vektor yang
dipergunakan sebagai penciri objek. Tujuan
utamanya adalah mereduksi ukuran data tanpa
mengubah karakteristik dari sinyal suara. Ciri
yang biasa dipergunakan adalah nilai koefisien
cepstral dari sebuah frame. Tahapan dari proses
ini yaitu framing, windowing, fast fourier
transform dan transformasi wavelet daubechies,
mel-frequency wrapping, dan cepstrum.
Data suara yang telah disegmentasi
selanjutnya dilakukan proses framing. Tiap
frame berukuran 30 ms, overlap 50%, dan 13
koefisien mel cepstrum. Pada transformasi
wavelet pengenalan fonem yang diproses akan
mengalami penurunan fitur. Wavelet yang
digunakan adalah Wavelet Daubechies (db4)
satu level. Hasil dari matriks ekstraksi ciri ini
merupakan masukan untuk pembelajaran pada
PNN.
Perata-rataan Hasil MFCC dan Wavelet
Proses ini bertujuan untuk menyamakan
ukuran matriks untuk tiap suara pada masingmasing baris sehingga terbentuk ukuran matriks
n×1. Hasil dari ekstraksi ciri MFCC dan wavelet
yaitu matriks ciri n×k, n adalah koefisien dan k
adalah jumlah frame.
Pemodelan PNN
Hasil dari perata-rataan MFCC dan wavelet
selanjutnya dapat digunakan untuk membangun
pemodelan PNN. Input data yang digunakan
pada proses ini mempunyai ukuran matriks
13xN. Input data tersebut diidentifikasikan
dengan pattern layer pada Persamaan 30.
Parameter h pada Persamaan 30 digunakan nilai
1,14 × (simpangan baku) × n-1/5. Nilai UA ; ialah
nilai hasil pattern layer ke i, dimana i=1, 2
sampai banyaknya observasi pada satu kelas.
Setelah memperoleh selisih jarak antara nilai
data input dengan data pada pattern layer, maka
nilai tersebut dibagi dengan nilai smoothing
parameter. Nilai smoothing $> didapat dari
simpangan baku data setiap pattern ke j=1, 2
sampai jumlah koefisien yang digunakan.
Pengujian Model PNN
Pengujian model PNN ini dilakukan dengan
cara memasukkan data uji (matriks n×1) ke
dalam tiap kelas untuk mendapatkan nilai
peluang. Perhitungan pada pengujian setiap
kelas menggunakan Persamaan 31, sehingga
nilai peluang p(x) diperoleh dari setiap kelas
pada pengujian model PNN. Nilai peluang
terbesar dari satu kelas merupakan hasil akhir

dari tahapan ini. Perbandingan data latih dan
data uji adalah 75% : 25%.
Perhitungan Nilai Akurasi
Perhitungan nilai akurasi bertujuan untuk
mengetahui hasil tingkat akurasi dari pengujian
model PNN pada pengenalan fonem. Pada tahap
ini kita bisa melihat fonem-fonem mana saja
yang berhasil dikenali dengan baik dan fonemfonem yang mungkin tidak bisa dikenali sama
sekali. Selain itu kita juga bisa mengetahui
metode mana yang lebih tinggi akurasinya.
Perhitungan tingkat akurasi dapat dilihat pada
persamaan berikut :
(33)

Lingkup Pengembangan Sistem
Perangkat keras yang digunakan pada
penelitian ini berupa komputer notebook dengan
spesifikasi:
• Intel Core2 Duo processor 1,3 GHz
• Memori DDR3 4 GB
• Harddisk 320 GB
Perangkat lunak yang digunakan yaitu :
• Sistem Operasi : Microsoft Xp
• Matlab 7.1
• Audacity 1.3
HASIL DAN PEMBAHASAN
Data suara yang telah direkam pada
frekuensi 12000Hz diperoleh sebanyak 176 kata
untuk selanjutnya dilakukan penghapusan silent.
Proses ini bertujuan untuk menghilangkan
bagian silent yang terdapat pada awal dan akhir
dari suara. Penghapusan silent dapat dilihat
pada Gambar 11.
Data suara yang sudah dibersihkan
disegmentasi per fonem tunggal. Semua fonem
dikelompokkan per huruf agar lebih mudah
diproses. Jumlah dari tiap fonem dapat dilihat
pada Tabel 2.

Pembersihan
data suara
Gambar 11 Penghapusan Silent

8

Tabel 2 Jumlah Tiap Fonem
Fonem

Jumlah

Fonem

Jumlah

/a/
/b/
/c/

224
16
32

/n/
/o/
/p/

32
16
32

/d/
/e/
/f/
/g/

16
16
16
16

/q/
/r/
/s/
/t/

16
16
16
32

/h/
/i/
/j/
/k/
/l/

16
32
32
16
16

/u/
/v/
/w/
/x/
/y/

48
16
16
16
16

/m/

16

/z/

16

Akan tetapi penelitian ini hanya memilih 16
fonem dari jumlah masing-masing fonem yang
ada. Hal ini dikarenakan jumlah fonem /a/ yang
terlalu banyak yang menyebabkan fonem /a/
akan dominan untuk dikenali. Setelah didapat
16 fonem kemudian data tersebut dibagi
menjadi data latih dan data uji dengan proporsi
75% : 25% untuk selanjutnya diekstraksi ciri
dan dimodelkan menggunakan PNN.
Struktur PNN pada penelitian ini dapat
dilihat pada Gambar 12. Input layer merupakan
input data yang berjumlah 13 sesuai banyaknya
jumlah koefisien yang digunakan. Masingmasing kelas pada pattern layer berjumlah 12
sesuai banyaknya observasi yang digunakan.
Pada layer ini dihitung jarak antara nilai input
data dengan nilai pola dari tiap anggota kelas.
Hasil dari pattern layer ini akan dijumlahkan
dengan hasil dari pattern layer lainnya yang
satu kelas. Proses ini terjadi pada summation
layer. Pada summation layer diperoleh nilai
terbesar untuk suatu kelas. Summation layer
berjumlah 26 kelas sesuai jumlah kelas yang
ada. Hasil dari summation layer tiap-tiap kelas
dibandingkan pada decision layer berdasarkan
nilai peluang terbesar sehingga input data dapat
dikenali sebagai kelas tertentu.

Gambar 12 Implementasi Struktur PNN
Pengujian yang dilakukan meliputi data uji
asli (tanpa penambahan noise) dan data uji yang
ditambahkan noise 30dB, 20dB, dan 10dB.
Untuk mendapatkan hasil akurasi yang baik
pengujian dilakukan secara berulang kali
dengan mengombinasikan data latih dan data uji
dari masing-masing fonem. Data uji tanpa
penambahan noise dan data uji yang
ditambahkan noise 30dB, 20dB, dan 10dB
untuk fonem /a/ dapat dilihat secara berturutturut pada Gambar 13, Gambar 14, Gambar 15,
dan Gambar 16.

Gambar 13 Data Uji Tanpa Penambahan Noise

9

Sinyal Suara Asli (Tanpa Penambahan
Noise)
Penelitian sinyal suara asli dilakukan dengan
dua proses ekstraksi ciri yaitu wavelet dan
MFCC. Induk wavelet yang digunakan adalah
Wavelet Daubechies orde 4 (db4).
Wavelet Daubechies Orde 4 (db4)

Gambar 14 Data Uji yang Ditambahkan Noise
30dB

Pengujian dengan ekstraksi ciri Wavelet
Daubechies memperoleh akurasi sebesar
32.69% untuk keseluruhan fonem. Grafik
tingkat akurasi suara asli dengan Wavelet
Daubechies untuk masing-masing fonem dapat
dilihat pada Gambar 17. Dapat dilihat bahwa
akurasi yang dihasilkan belum memuaskan
dimana masih terdapat fonem-fonem yang
belum bisa dikenali. Fonem yang belum bisa
dikenali di antaranya fonem /d/, /j/, /l/, /n/, /r/,
/s/, /v/, /w/ dan /x/. Selain itu juga terdapat dua
fonem yang dikenali cukup baik dengan akurasi
di atas 70%, yaitu fonem /e/, /o/, /p/, /q/, /u/ dan
/z/. Hasil pendeteksian masing-masing fonem
untuk Wavelet Daubechies dan matriks
confusion dapat dilihat pada Lampiran 1 dan
Lampiran 2. Fonem yang paling dominan
terdeteksi pada metode wavelet daubechies
menggunakan data asli adalah fonem /e/.

Gambar 15 Data Uji yang Ditambahkan Noise
20dB

Gambar 17 Grafik Tingkat Akurasi Suara Asli
dengan Wavelet Daubechies Masing-Masing
Fonem
MFCC

Gambar 16 Data Uji yang Ditambahkan Noise
10dB
Penambahan
noise
yang
dilakukan
mengakibatkan sinyal suara asli tertimpa oleh
besarnya noise yang ditambahkan. Terlihat
bahwa penambahan noise 10dB memberikan
pengaruh yang besar terhadap sinyal suara
dibandingkan dengan penambahan noise 20dB
dan 30dB. Ini mengakibatkan sinyal suara akan
sulit dikenali sesuai besarnya noise yang
ditambahkan.

Pengujian dengan ekstraksi ciri MFCC
memperoleh akurasi cukup baik yaitu sebesar
92.3% untuk keseluruhan fonem. Grafik tingkat
akurasi suara asli dengan MFCC untuk masingmasing fonem dapat dilihat pada Gambar 18.
Hampir semua fonem dikenali dengan akurasi
di atas 70% dan hanya dua fonem yang
memperoleh akurasi 50% pada penelitian ini.

10

Gambar 18 Grafik Tingkat Akurasi Suara Asli
dengan MFCC Masing-Masing Fonem
Fonem yang memperoleh tingkat akurasi
100% sebanyak 20 fonem yaitu /b/, /d/, /e/, /f/,
/g/, /h/, /j/, /l/, /m/, /n/, /o/, /p/, /r/, /s/, /u/, /v/,
/w/, /x/, /y/, dan /z/. Fonem yang memperoleh
tingkat akurasi 75% berturut-turut yaitu
berturut-turut yaitu /a/, /c/, /i/, dan /q/. Fonem
yang memperoleh tingkat akurasi 50 yaitu
fonem /k/ dan /t/. Hasil pendeteksian masingmasing fonem untuk MFCC dan matriks
confusion dapat dilihat pada Lampiran 3 dan
Lampiran 4.
Perbandingan Wavelet Daubechies Orde 4
(Db4) dengan MFCC pada Suara Asli
Perbandingan Wavelet Daubechies dan
MFCC untuk semua fonem dapat dilihat pada
Gambar 19. Terdapat empat fonem yang tidak
dikenali pada pengujian yang menggunakan
ekstraksi ciri Wavelet Daubechies sedangkan
jika menggunakan MFCC fonem-fonem
tersebut dapat dikenali semua.

Gambar 20 Perbandingan Tingkat Akurasi
Suara Asli dengan Wavelet Daubechies dan
MFCC
Sinyal Suara dengan Penambahan Noise
Noise yang ditambahkan pada penelitian ini
adalah noise 30dB, 20dB, dan 10dB dengan
ekstraksi ciri Wavelet Daubechies dan MFCC.
Daubechies
Orde
4
Penambahan Noise 30dB

(db4)

dengan

Grafik tingkat akurasi suara dengan noise
30dB menggunakan Wavelet Daubechies untuk
masing-masing fonem dapat dilihat pada
Gambar 21. Akurasi yang diperoleh dengan
pengujian menggunakan ekstraksi ciri Wavelet
Daubechies untuk penambahan noise 30dB
adalah 24.03% untuk keseluruhan fonem.
Akurasi dengan penambahan noise 30dB
menurun sebesar 8.66% d