Wavelet Dan Learning Vector Quantization Untuk Pengenalan Pembicara

WAVELET DAN LEARNING VECTOR QUANTIZATION
UNTUK PENGENALAN PEMBICARA

ASYUR ZALDI

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa tesis yang berjudul Wavelet dan
Learning Vector Quantization untuk Pengenalan Pembicara adalah benar karya
saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk
apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau
dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.

Bogor, Agustus 2015
Asyur Zaldi
NIM G651120704

RINGKASAN
ASYUR ZALDI. Wavelet dan Learning Vector Quantization untuk
Pengenalan Pembicara. Di bawah bimbingan AGUS BUONO dan BIB
PARUHUM SILALAHI
Noise pada sinyal suara merupakan factor utama yang mempengaruhi
tingkat akurasi hasil pemrosesan sinyal, disadari pada kenyataan tidak ada sinyal
yang tidak mengandung noise, yang dapat disebabkan suara latar belakang di
tempat sumber berbicara, atau karena proses transmisi pada saat sinyal diterima.
Salah satu metode yang populer dan sering digunakan untuk mengurangi noise
adalah transformasi wavelet, yang mengurangi noise (denoising) dari sinyal
dengan memilah kemudian mengeleminir sinyal dengan kriteria tertentu, sebagai
cara untuk menentukan bagian sinyal sesungguhnya atau bukan, yang kemudian
disebut dengan wavelet thresholding. Wavelet digunakan untuk menganalisa
sinyal berdasar penyekalaan, transformasi wavelet diperoleh dengan membagi
sinyal menjadi beberapa ukuran sebagai perwakilan dari bidang frekuensi yang
berbeda. Dengan kata lain, wavelet merupakan potongan gelombang (kecil) dan

transformasi wavelet mengkonversi sinyal menjadi sederetan wavelet, dan
kemudian dianalisa dalam batasan frekuensi dan durasinya.
White Gaussian noise digunakan untuk merepresentasikan noise yang
sesungguhnya, dengan level Signal to Noise Ratio (SNR) yang digunakan sebesar
20dB, 10dB dan 0dB, yang ditambahkan pada setiap sinyal suara. Sinyal suara
yang telah ditambahkan noise ini kemudian didenoising dengan proses wavelet
thresholding sebelum digunakan pada proses pengenalan pembicara.
Dikarenakan sinyal yang diperoleh memiliki keragaman panjang
gelombang serta karena perubahan karakteristik sumber suara yang relative kecil,
maka Mel-frequency Cepstral Coefficient digunakan untuk mengekstrak ciri dari
setiap sinyal suara menjadi sejumlah kecil koefisien dengan ukuran yang sama,
selain alasan yang disebutkan diatas ekstraksi ciri berguna pula dalam
menghadapi data ukuran besar, yaitu untuk mengurangi kebutuhan sumber daya
yang diperlukan saat menganalisa data.
Learning Vector Quantization merupakan metode pengklasifikasian pola
kedalam suatu kelas atau kategori tertentu yang didasarkan pada kompetisi.
Jaringan LVQ adalah jaringan 2 lapis yang terdiri dari lapis masukan dan lapis
keluaran, dengan lapis masukan mengandung neuron sebanyak dimensi masukan,
dan lapis keluaran mengandung neuron sebanyak kelas yang ada. Kedua lapisan
tersebut dihubungkan dengan penghubung yang memiliki bobot tertentu. Bobot

dari neuron masukan yang menuju neuron keluaran berupa vektor yang mewakili
kelasnya, yang kemudian disebut juga sebagai vector reference.
Tujuan dari penelitian ini, untuk mendapatkan hasil dari pengenalan
pembicara dengan menggunakan sinyal suara asli dan sinyal suara hasil dari
proses denoising, dengan sumber sinyal suara yang digunakan sebanyak 20
sumber yang disimpan dalam format WAV, dengan masing-masing sumber
direkam sebanyak 30 kali. Kemudian sinyal suara tersebut diduplikat menjadi tiga
kelompok yang terdiri dari sinyal lengkap, sinyal disegmentasi menjadi dua
bagian dan menjadi lima bagian.

Sebagai hasilnya, proses pengenalan pembicara memberikan tingkat
akurasi tertinggi untuk kelompok data pertama setelah dan sebelum denoising
relatif sama untuk data asli dan SNR 20dB yaitu sebesar 89.17% dan 58,33%,
sedangkan untuk SNR 10dB dan 0 dB, hasil yang lebih baik diperlihatkan pada
sinyal yang telah melalui denoising yaitu masing-masing sebesar 13,33% dan
9,17%. Untuk kelompok data kedua hasil dari data denoising lebih besar dari data
sebelum denoising yaitu sebesar 95,00% untuk data asli, 72,50% untuk SNR
20dB, 20,00% untuk SNR 10dB dan 10,83% untuk SNR 0dB. Sedangkan untuk
kelompok data ketiga, data asli menghasilkan akurasi yang relatif sama antara
hasil denoising dan sebelum denoising yaitu sebesar 95,00%, sedangkan untuk

SNR 20dB memberikan nilai 72,50%, 18,33% untuk SNR 10dB dan 10,83%
untuk SNR 0dB.
Keywords: denoising, learning vector quantization, MFCC, speech recognition,
wavelet

SUMMARY
ASYUR ZALDI. Wavelet and Learning Vector Quantization in
Speaker Recognition. Under direction of AGUS BUONO and BIB
PARUHUM SILALAHI
Noise on the speech signal is a major factor that affects the accuracy of the
results of signal processing, realized on the fact there is no signal that does not
contain noise, which can be caused by background noise at the source of speaking,
or because the transmission process when the signal is received. One method that
is popular and is often used to reduce the noise is a wavelet transform, which
reduces noise (denoising) of the signal with sorting and then eliminating the
signals with certain criteria, as a way to determine which parts of the real signal or
not, who then called wavelet thresholding. Wavelet used to analyze the signal
based scaling, the wavelet transform is obtained by dividing the signal into
multiple sizes as representatives from the fields of different frequencies. In other
words, a wavelet is a wave pieces (small) and wavelet transformation to convert

the signal into a series of wavelets and then analyzed the frequency and duration
limits.
White Gaussian noise is used to represent the actual noise, the level of
Signal to Noise Ratio (SNR) that is used by 20dB, 10dB and 0dB, is added to each
voice signal. Sound signals that have been added noise is then denoising with
wavelet thresholding process before being used in speaker recognition process.
Due to the signal obtained has a variety of wavelengths as well as changes
in the characteristics of the speech source is relatively small, the Mel-frequency
cepstral coefficient is used to extract the feature of each speech signal into a small
number of coefficients of the same size, in addition to the reasons mentioned
above feature extraction useful in facing the large size of data, to reduce the
resource requirements necessary when analyzing the data.
Learning Vector Quantization is a pattern classification method into a class
or a particular category based on competition. LVQ network is a network that
consists of 2 layers of input and output layer, the input layer contains as many
neurons dimensional input and output layers containing neurons as an existing
class. Both layers are connected by a link that has a certain weight. The weights of
the neuron input to the neuron output a vector that represents the class, which is
then called a reference vector.
The aim of this study, to get a result from the speaker recognition by using

the original speech signal and the speech signal denoising result of the process,
with a speech signal source used as many as 20 sources that are stored in WAV
format, with each source is recorded as many as 30 times. Then the voice signals
are copied into three groups consisting of a complete signal, the signal is
segmented into two parts and into five sections.
As a result, the process of speakers recognition provide the highest
accuracy rate for the first data group after and before denoising relatively similar
to the original data and 20dB SNR that is equal to 89.17% and 58.33%, while for
the SNR 10dB and 0 dB, results better shown in the signal that has gone through
denoising respectively 13.33% and 9.17%. For the second data group from the

data denoising result is greater than the data before denoising that is equal to
95.00% of the original data, 72.50% for SNR 20dB, 10dB SNR 20.00% for and
10.83% for 0dB SNR. As for the third data group, the original data produces the
same relative accuracy between the results of denoising and before denoising that
is equal to 95.00%, while for the SNR 20dB provide value 72.50%, 18.33% to
10.83% and 10dB SNR for 0dB SNR.
Keywords: denoising, learning vector quantization, MFCC, speech recognition,
wavelet


© Hak Cipta Milik IPB, Tahun 2015
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB

WAVELET DAN LEARNING VECTOR QUANTIZATION
UNTUK PENGENALAN PEMBICARA

ASYUR ZALDI

Tesis
Sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
Pada
Program Studi Ilmu Komputer


SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015

Penguji Luar Komisi pada Ujian Tesis : Dr Ir Irman Hermadi, SKom MS

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia dan rahmat-Nya sehingga karya ilmiah ini berhasil diselesaikan.
Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan April 2014 ini
adalah pengenalan pembicara pada lingungan bernoise, dengan judul Wavelet dan
Learning Vector Quantization untuk Pengenalan Pembicara.
Terima kasih penulis ucapkan kepada Bapak Dr Ir Agus Buono, MSi
MKom dan Bapak Dr Ir Bib Paruhum Silalahi, MKom selaku pembimbing yang
telah banyak memberi ide dan saran. Ucapan terima kasih juga penulis sampaikan
kepada istri tercinta Silvina Ansari, ananda Farhan Rabbaanii, Fahmi Akmal Zain
serta Fikri Aufaa Zain dan keluarga besar Djunit atas segala doa dan kasih
sayangnya.

Penghargaan penulis sampaikan kepada Bapak Olden Manabung selaku
Technical Solutions Manager PT Coca-Cola Distribution Indonesia serta Bapak
Agus Dwi Atmoko selaku Manager System Informasi PT Rekitt Benckiser
Indonesia yang telah memberikan waktu luang dan izin bagi penulis, keluarga
besar mahasiswa Ilmu Komputer IPB angkatan 14, seluruh staff tata usaha dan
seluruh pihak yang belum disebutkan namanya yang telah banyak membantu
hingga selesainya karya ilmiah ini.
Semoga karya ilmiah ini bermanfaat.

Bogor, Agustus 2015
Asyur Zaldi

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi


DAFTAR LAMPIRAN

vi

1 PENDAHULUAN
Latar Belakang
Perumusan Masalah
Tujuan Penelitian
Manfaat Penelitian
Ruang Lingkup Penelitian

1
1
1
2
2
2

2 TINJAUAN PUSTAKA

Wavelet
Thresholding
Trasnformasi Paket Wavelet
Ekstraksi Ciri
Learning Vector Quantization

3
3
4
6
7
8

3 METODE
Tahapan Penelitian
Bahan dan Data
Alat

10
10
14
14

4 HASIL DAN PEMBAHASAN
Praproses
Denoising
Pembuatan Data Latih
Pengujian

14
14
16
17
18

5 SIMPULAN DAN SARAN

27

DAFTAR PUSTAKA

27

LAMPIRAN

29

RIWAYAT HIDUP

44

DAFTAR TABEL
1 Konfusi untuk Sensitifiti dan Spesifisiti
2 Setup pembagian data pada proses pengujian
3 Tingkat akurasi pengenalan menggunakan data latih non denoising dengan data
uji non denoising dan denoising
4 Tingkat akurasi pengenalan menggunakan data latih denoising dengan data
uji non denoising dan denoising
5 Matriks konfusi untuk kelompok data pertama “ILMU KOMPUTER”
6 Tingkat akurasi pengenalan menggunakan data latih non denoising dengan data
uji non denoising dan denoising
7 Tingkat akurasi pengenalan menggunakan data latih denoising dengan data uji
non denoising dan denoising
8 Matriks konfusi untuk kelompok data kedua “ILMU” “ KOMPUTER”
9 Tingkat akurasi pengenalan menggunakan data latih non denoising dengan data
uji non denoising dan denoising
10 Tingkat akurasi pengenalan menggunakan data latih denoising dengan data uji
non denoising dan denoising
11 Matriks konfusi untuk kelompok data pertama “IL” “MU” “KOM” “PU” “TER”

13
18
18
19
19
20
21
21
22
22

22
12 Tingkat akurasi terbesar dari proses pengenalan untuk data latih nondenoising
dengan data uji non denoising dan denoising
23
13 Tingkat akurasi terbesar dari proses pengenalan untuk data latih denoising
dengan data uji non denoising dan denoising
23

DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

Sinyal non-stationer (suara)
Hard Threshold
Soft Threshold
White Gaussian Noise
Pohon dekomposisi tiga level transformasi paket wavelet
Learning Vector Quantization neural net
Blok Diagram aktifitas Pengenalan Pembicara
Penambahan WGN pada Sinyal suara
Coif4
Penghilangan jeda pada sinyal suara
Segmentasi sinyal suara untuk kelompok data 2
Hasil segmentasi sinyal suara untuk kelompok data 2
Segmentasi sinyal suara untuk kelompok data 3
Sinyal suara asli dan yang telah ditambahkan nosie (20dB, 10dB dan
00dB)
Dekomposisi level untuk noise 0dB
Sinyal bernoise 00dB dan hasil denoising pada LD = 4
MFCC sinyal asli dan sinyal bernoise
MFCC sinyal asli dan sinyal denoising
Tingkat pengenalan data latih nondenoising dengan data uji
nondenoising

3
5
5
6
7
9
10
11
11
14
15
15
15
15
16
16
17
17
24

20
21
22
23
24
25
26
27

Tingkat pengenalan data latih nondenoising dengan data uji denoising
Tingkat pengenalan data latih denoising dengan data uji nondenoising
Tingkat pengenalan data latih denoising dengan data uji denoising
Tingkat akurasi pengenalan pembicara untuk ketiga kelompok data
Sinyal suara asli dengan Spektrumnya
Sinyal suara dengan noise sebesar 0dB dengan spektrumnya
Sinyal suara hasil denoising dan spektrumnya
Spectogram dari sinyal yang ditampilkan pada gambar 23, 24 dan 25
diatas

24
24
24
24
25
25
25
26

DAFTAR LAMPIRAN
1 Metode Perekaman Suara
2 MSE hasil dekomposisi sinyal suara “ILMU KOMPUTER”, untuk
masing-masing noisenya
3 MSE hasil dekomposisi sinyal suara “ILMU”, untuk masing-masing
noise yang ada
4 MSE hasil dekomposisi sinyal suara “KOMPUTER”, untuk noise yang
ada
5 MSE hasil dekomposisi sinyal suara “IL”, untuk noise yang ada
6 MSE hasil dekomposisi sinyal suara “MU”, untuk noise yang ada
7 MSE hasil dekomposisi sinyal suara “KOM”, untuk noise yang ada
8 MSE hasil dekomposisi sinyal suara “PUT”, untuk noise yang ada
9 MSE hasil dekomposisi sinyal suara “TER”, untuk noise yang ada
10 Sensitiviti dan Spesifisiti data “ILMU KOMPUTER”
11 Sensitiviti dan Spesifisiti data “ILMU” “KOMPUTER”
12 Sensitiviti dan Spesifisiti data “IL” “MU” “KOM” “PU” “TER”

29
30
31
32
33
34
35
36
37
38
40
42

1 PENDAHULUAN
Latar Belakang
Suara adalah hal penting bagi manusia, yang digunakan sebagai alat
komunikasi dan bertukar informasi. Juga berpotensi untuk digunakan sebagai alat
berinteraksi dengan komputer (mesin), sehingga komputer dapat mengenali suara
pembicara. Ini dimungkinkan bilamana sinyal suara yang dikirim tidak mengalami
intervensi dari sinyal lain yang tidak diperlukan (noise) atau bersih dari noise,
sehingga dapat diproses dengan benar.
Pada kenyataannya tidak ada sinyal yang tidak mengandung noise,
keberadaan noise pada sinyal suara dapat mempengaruhi dan menurunkan
performa dari proses yang akan menggunakannya oleh karenanya perlu
dihilangkan (Verma & Verma, 2013), penyebab adanya noise mungkin saja
dikarenakan suara latar belakang ditempat sumber berbicara, atau karena proses
transmisi pada saat sinyal diterima (Kansara & Chapatwala, 2013), oleh
karenanya diperlukan cara untuk menghilangkan/ mengurangi noise tersebut, atau
dikenal kemudian sebagai denoising/ noise reduction. Pada dasarnya denoising
merupakan usaha untuk menghilangkan noise (mengurangi/ mereduksi) yang
terkandung pada sinyal, dengan cara memilah dan mengeleminir sinyal yang tidak
masuk kriteria tertentu. Metode yang digunakan untuk denoising disini adalah
transformasi Wavelet, merupakan metode yang sering digunakan pada speech
denoising (Aggarwal, et al., 2011) dan menjadi salah satu teknik yang sangat
menjanjikan untuk memproses sinyal (Kansara & Chapatwala, 2013), caranya
dengan membagi koefisien wavelet dan kemudian koefisien tersebut disusutkan
(shrinkink) dalam domain wavelet (Goel & Jain, 2013). Pada dasarnya wavelet
digunakan untuk menganalisa sinyal berdasar penyekalaan (scale), transformasi
wavelet diperoleh dengan membagi sinyal menjadi beberapa ukuran sebagai
perwakilan dari bidang frekuensi yang berbeda (Aggarwal, et al., 2011). Dengan
kata lain, wavelet merupakan potongan gelombang (kecil) dan transformasi
wavelet mengkonversi sinyal menjadi sederetan wavelet, dan kemudian dianalisa
dalam batasan frekuensi dan durasinya.
Sebelum Learning Vector Quantization (LVQ) menggunakan sinyal suara
yang ada untuk menghasilkan vector reference (vektor latih), terlebih dahulu
dilakukan ekstraksi ciri untuk setiap sinyal suara dengan menggunakan Melfrequency cepstral coefficients (MFCC), yang kemudian digunakan untuk proses
pengenalan pembicara dengan cara menghitung jarak Euclidian antara sinyal suara
(vektor masukan) dengan vektor ciri dari sinyal suara yang telah dibangun
sebelumnya (Fausett, 1994).

Perumusan Masalah
Kandungan noise pada sinyal suara berakibat pada menurunnya kualitas
sinyal suara, sehingga menjadi penyebab menurunnya tingkat akurasi yang akan
diperoleh bila sinyal suara itu digunakan. Metode transformasi wavelet
merupakan metode yang populer pada pemrosesan sinyal, digunakan untuk

2
mengurangi noise yang terkandung pada sinyal suara. Learning Vector
Quantization digunakan untuk membuat model suara dari pembicara.

Tujuan Penelitian
Membangun model pengenalan suara menggunakan wavelet dan Learning
Vector Quantization, dengan Mel-frequency cepstrum coefficients sebagi ekstraksi
ciri.

Manfaat Penelitian
Menghasilkan data yang telah berkurang noisenya, dan meningkatkan
tingkat akurasi dari proses pengenalan pembicara dengan metode LVQ. Menjadi
bahan acuan penggunaan wavelet pada proses denoising, serta informasi aplikasi
LVQ pada pemrosesan sinyal.
Ruang Lingkup
1

2
3

4
5

6

Identifikasi pembicara bersifat text dependent, dengan mengucapkan kata
“ILMU KOMPUTER”. Proses perekaman suara dilakukan dengan
menggunakan aplikasi Audacity 2.0.5 dengan tingkat frekuensi sebesar 44100
Hz dengan channel mono, banyaknya pembicara yang direkam sebanyak 20
orang (12 pria, dan 8 wanita).
White Gaussian noise digunakan sebagai simulasi dengan tingkatan noise
20dB, 10dB dan 0dB
Transformasi paket wavelet dengan Soft Thresholding digunakan sebagai
aturan thresholdnya, dengan mother wavelet yang digunakan disini Coiflet
orde 4.
Level dekomposisi diperoleh dari nilai Mean Square Error sinyal suara
terkecil.
Mel-frequency cepstrum coefficients (MFCC) digunakan untuk mengkestrak
ciri sinyal suara, bertujuan untuk memperkecil dimensi serta menyamakan
panjang/ ukuran dari vektor sinyal suara
Learning Vector Quantization digunakan untuk membentuk vektor ciri, yang
kemudian digunakan untuk mengidentifikasi suara yang masuk.

3

2 TINJAUAN PUSTAKA
Wavelet
Tidak seperti halnya Transformasi Fourier, Wavelet dapat digunakan
untuk menganalisa sinyal yang non-stasioner dengan waktu yang beragam
(Kansara & Chapatwala, 2013), ini sangat penting dikarenakan sinyal suara adalah
sinyal non-stasioner dengan waktu yang berbeda-beda serta sinyal yang bersifat
sementara (Dubey & Gupta, 2013), seperti terlihat pada Gambar 1. Sebagai
alternative dari Short Time Fourier Transform (STFT) yang menggunakan jendela
tunggal untuk seluruh sinyal yang ada, transformasi wavelet memiliki ide dasar
penganalisaan berdasar pada penyekalaan, yaitu dengan menggunakan jendela
yang kecil untuk frekuensi tinggi dan jendela yang lebar untuk frekuensi rendah
(Kansara & Chapatwala, 2013).

Gambar 1 Sinyal non-stationer (suara)

Bila ( ) adalah induk wavelet (mother wavelet), maka bentuk Continue
Wavelet Transform (CWT) diperoleh melalui multi-resolution (Stephane, 1989)
dengan melakukan sejumlah proses dilatasi serta translasi dari fungsi wavelet
masing-masing sebanyak a dan b (Aggarwal, et al., 2011), dengan kata lain CWT
merupakan pergeseran dan penyekalaan sejumlah fungsi ( ) , seperti tertulis
pada persamaan (1)

1
… … … … … … … … … … … … … … … … … … (1)
, ( )=

Dengan , ∈ ,

≠ 0. Untuk fungsi ( ) CWT nya seperti pada persamaan (2)

( , )=

1



( )

… … … … … … … … … … … … … (2)

dengan a merupakan nilai dilatasi (skala) yang berhubungan dengan
frekuensi dan b nilai translasinya, yang berhubungan dengan posisi pergeseran
dari fungsi wavelet sepanjang sinyal, yang berkorespondensi dengan waktu.
Pada prakteknya, transformasi yang digunakan adalah discrete wavelet
transform (DWT), yang mentransformasikan sinyal diskrit menjadi koefisien
diskrit dalam domain wavelet, yang berkerja pada a,b ∈R dengan a dan b bernilai
sesuai persamaan (3). Untuk memfasilitasi komputer analisis dan proses, nilai dari
X(a,b) dihitung pada area diskrit seperti tertulis pada persamaan (4)
= 2# , = $. 2# , &'( ' ), $ ∈ * … … … … … … … … … … … (3)
Bentuk diskrit ini yang kemudian disebut dyadic dilatation dan dyadic
position. Diskrit dyadic transformasi wavelet menjadi persamaan (4) berikut
(Huimin C et al., 2012).

4
,.

0 1

( , ) = 2 / ( ) 52 # ' − $6 … … … … … … … … … … … … (4)
234

Transformasi wavelet akan memecah sinyal menjadi sejumlah sinyal
sebagai hasil penyekalaan dan pergeseran dari mother wavelet, oleh karenanya
transformasi wavelet merupakan multi-resolution analysis yang sesuai untuk
menganalisa sinyal non-stationer seperti sinyal audio.

Thresholding
Banyak metode thresholding ditawarkan berdasarkan pada teknik universal
threshold dan adaptive (Sutha, et al., 2013), yang merupakan suatu cara untuk
membuang noise atau me-rekonstruksi sinyal asli dari sinyal yang mengandung
noise dengan menggunakan koefisien wavelet dari hasil proses dekomposisi
transformasi wavelet, yaitu dengan cara mengeleminir koefisien wavelet dari
noise sementara itu koefisien wavelet yang berguna akan dibiarkan (Huimin C et
al.,2012). Pendekatannya adalah setiap koefisien wavelet dibandingkan dengan
nilai threshold yang dipilih, sebagai cara untuk menentukan bagian dari sinyal
sesungguhnya atau bukan, dan cara ini yang kemudian disebut dengan wavelet
thresholding.
Thresholding pada koefisien wavelet biasanya digunakan pada detail
koefisien #8 dari y, tidak pada koefisien aproksimasi 9#8 , karena yang disebutkan
terakhir mewakili bagian “low-frequency” yang memuat bagian terpenting dari
sinyal, dan kurang terpengaruh oleh noise. Misal diberikan nilai threshold sebesar
:, maka nilai koefisien dijadikan nol bila nilai absolutnya di bawah nilai threshold.
Bila thresholdnya kecil, hasilnya akan mendekati sinyal input dan sinyal masih
mengandung noise, sedangkan bila nilai threshold besar maka akan menghasilkan
sinyal dengan sejumlah koefisien yang bernilai nol, hasilnya akan menghalusnya
sinyal dari noise, sebagai akibatnya akan banyak kehilangan detail dari sinyal
(Mupparaju & Satya Durga Jahnavi, 2013).
Donoho memperkenalkan metode menthreshold koefisien wavelet yaitu
dengan aturan hard atau soft thresholding (Donoho, 1995), yang dituliskan pada
persamaan (5) dan (6) di bawah ini.
1. Hard thresholding, pada threshold ini untuk nilai dari harga mutlak koefisien
wavelet bila lebih kecil dengan nilai threshold yang diberikan akan di ganti
menjadi 0 (nol) dan tidak untuk selainnya (Donoho & Johnstone , 1994),
perhatikan Gambar 2.
<
( )==


λ … … … … … … … … … … … … … … … … … … (5)
> >>λ

0 > >≤

5

Gambar 2 Hard Threshold
2. Soft thresholding, pada threshold ini bila nilai harga mutlak dari koefisien
wavelet lebih kecil dari nilai threshold, maka nilai koefisien akan diganti
menjadi 0 (nol), selainnya hanya akan mengurangi ketinggian dari sinyal,
perhatikan Gambar 3.
B
( )==


λ … … … … … … … … … … (6)
CD('( )5> > − λ6> > > λ

0

> >≤

Gambar 3 Soft Threshold
3. Universal threshold
Jika nilai threshold ditentukan terlalu besar, maka akan menyebabkan
hilangnya sinyal yang asli dan jika nilainya terlalu kecil proses thresholding tidak
akan menghasilkan seperti yang diharapkan. Salah satu metode untuk memilih
nilai threshold dibuat oleh Donoho dan Johnstone seperti terlihat pada persamaan
(7), dan di sebut sebagai Universal Threshold (Donoho & Johnstone , 1994).
ℎG = H I2log(L) … … … … … … … … … … … … … … … (7)

dengan N merupakan banyaknya sample dari noise dan sigma merupakan
standard deviasi dari noise, yang ditulis dalam persamaan (8) berikut ini.
H=

Q& D '(>9>)
NOP
=
… … … … … … … … … … … … … . . (8)
0.6745
0.6745

6
MAD = Median Absolute Deviation, dengan c merupakan koefisien wavelet.
4. Noise
Noise digambarkan sebagai sinyal yang tidak diharapkan yang mempengaruhi
suatu sinyal. Salah satunya adalah white gaussian noise (independent and
identically distributed – iid) (Donoho, 1995) yang dinotasikan sebagai ST TTV
L(0,1),

yang merupakan random sinyal dengan tingkat spektrum yang tetap seperti
terlihat pada Gambar 4 di bawah ini

Gambar 4 Gaussian White Noise
Gaussian White Noise merupakan noise yang sudah umum dijadikan
sebagai model untuk menirukan kejadian pada umumnya.
Jika (') adalah sinyal input yang bebas dari noise, W(') adalah white
gaussian noise, maka sinyal bernoise secara matematis ditulis pada persamaan (9)

X(') = (') + W(') … … … … … … … … … … … … … … … … (9)
Transformasi Paket Wavelet

Transformasi paket wavelet merupakan pengembangan dari transformasi
wavelet, yang memberikan penyelesaian untuk frekuensi rendah dan frekuensi
tinggi. Pada Gambar 5 di bawah ini, terlihat dekomposisi dan rekonstruksi dari
transformasi paket wavelet, dimana frekuensi rendah dan tinggi dibagi menjadi
dua sub group. Dengan g-high pass filter, dan h-low pass filter, keluaran dari filter
ini dibagi menjadi 2 dan diperoleh koefisien baru yaitu koefisien aproksimasi dan
koefisien detil, proses ini dilakukan hingga level 3. Selanjutnya digunakan
wavelet thresholding (hard atau soft thresholding) untuk mengurangi noise yang
terkandung pada sinyal. Pada paket wavelet koefisien frekuensi tinggi dan rendah
sama-sama didekomposisi, dimana untuk transformasi wavelet biasa hanya
aproksimasi koefisien yang didekomposisi sementara detail koefisien dithreshold
(Gokhale & Khanduja, 2010). Selanjutnya kedua koefisien ini dikombinasikan
untuk membangun kembali sinyal yang sudah bebas dari noise. Untuk mengukur
akurasi setiap proses dekomposisi digunakan Mean Square Error (MSE) antara
sinyal asli dan sinyal hasil proses, tingkat dekomposisi optimum didapat bila
diperoleh nilai MSE yang kecil, dimana perhitungan ini semua dilakukan dengan
MATLAB.

7

Gambar 5 Pohon dekomposisi tiga level transformasi paket wavelet
(Kansara & Chapatwala, 2013)
Ekstraksi Ciri
Sinyal suara memiliki beragam informasi tentang sumbernya seperti dialek,
gaya bicara dan juga emosi, serta intensitas, frekuensi, bandwith dan lainnya yang
dihasilkan pada saat sinyal suara dibuat. Jumlah data yang dihasilkan cukup besar
sedangkan perubahan karakteristik dari suara relative lambat/ sedikit, sehingga
data yang diperlukan relative kecil untuk mewakili karakteristik sumber suara.
Oleh karenanya ekstraksi ciri digunakan untuk mengurangi ukuran data tanpa
menghilangkan karakteristik sumber suara itu sendiri.
Selain yang disebutkan diatas ekstraksi ciri berguna dalam menghadapi
data ukuran yang besar, yaitu untuk mengurangi kebutuhan sumber daya yang
diperlukan. Saat menganalisa data, semakin banyak variable yang terlibat artinya
akan membutuhkan memory yang cukup besar dan kemampuan perhitungan atau
algoritme klasifikasi yang sesuai. Metode ekstraksi ciri yang digunakan disini
adalah Mel-frequency Cepstral Coefficient (MFCC), merupakan metode yang
sering digunakan untuk mengekstraksi ciri pada area pemrosesan sinyal suara
(Abdalla, et al., 2013). Ada beberapa proses yang perlu dilalui untuk mendapatkan
coefficient pada proses MFCC ini yaitu; Frame Blocking, Windowing, Fast
Fourier Transform, Mel-Frequency Wrapping, dan Cepstrum.
Frame Blocking, melakukan proses segmentasi pada sinyal suara dan
menjadikannya beberapa frame yang saling tumpang tindih (overlap). Pada
langkah ini sinyal di blok menjadi frame yang kecil sebanyak N sampel dengan
frame selanjutnya dipisahkan dengan M sample (M