Simulasi spiking neuron terstimulasi arus searah eksternal dengan menggunakan model Izhikevich
ABSTRACT
NI WAYAN SUDARMI. Comparison between Wavelet Daubechies and Mel-frequency
Cesptral Coeffisient (MFCC) with Feature Extraction Using Normal Distribution for Phoneme
Recognition. Under the supervised of AGUS BUONO.
Speech recognition is speech to text transcription. Speech to text transcription system is a
system used to convert a voice signal from a microphone into a single or a set of words. Most research
of speech to text transcription used technique which every word in corpus is modeled. It is not
effective if we want to develop a large vocabulary speech recognition system which number of words
in corpus are more than one thousand words. Therefore, this research developed phoneme recognition
with early stage in speech recognition.
This research used some stage proces, those are take data, feature extraction, and feature
matching. Normal Distribution (Gaussian) is used for feature matching, Wavelet Daubechies and
MFCC is used for feature extraction. Corpus on this research consist of 11 words in Indonesian which
each word recorded 20 times, 15 times for data training and 5 times for data testing. This research
used 13 cepstral coefficients. Phonemes are generated from the segmentation process, and then mhu
and sigma be calculated to generate the model. This case produced 26 models. The best accuracy is
90% generated by feature extraction MFCC and 46.92% generated by the Wavelet Daubechies.
Keyword: Mel-frequency Cesptral Coeffisient, Wavelet Daubechies, Distribusi Normal, speech to text
transcription, phoneme.
PENDAHULUAN
Latar Belakang
Perkembangan teknologi informasi dapat
mempermudah pekerjaan manusia dalam
kehidupan sehari-hari. Pekerjaan manusia
secara manual dapat digantikan dengan sistem
otomatis. Salah satu sistem otomatis adalah
sistem yang dapat membuat komputer mampu
berkomunikasi dengan manusia. Dalam proses
komunikasi ini diperlukan tahap konversi suara
ke teks (speech to text transcription).
Konversi suara ke teks, berawal dari
pengenalan berbasiskan fonem Berbasis fonem
diterapkan karena, jika berbasiskan kata, yang
mana setiap kata yang terdapat dalam kamus
kata dimodelkan dengan suatu teknik
pemodelan. Hal ini mengakibatkan kurang
efektifnya sistem apabila akan dikembangkan
untuk sistem pengenalan kata yang bersifat
large vocabulary yang mana kata yang terdapat
dalam kamus kata berjumlah sangat besar. Oleh
karena itu, di dalam penelitian ini akan
dikembangkan suatu sistem pengenalan fonem
yang merupakan tahap awal dari pengenalan
kata.
Tahap awal pengenalan fonem dilakukan
dengan praproses pada sinyal suara. Praproses
merupakan
proses
penghapusan
silent,
normalisasi dan segmentasi manual. Data fonem
yang dihasilkan dari praproses, dilanjutkan
dengan pembuatan template untuk membangun
model pengenalan fonem. Dengan demikian,
komputer diharapkan mampu menerjemahkan
ucapan ke dalam bentuk teks yang diucapkan.
Teks yang dihasilkan merupakan gabungan dari
beberapa fonem. Dengan demikian, sebelum ke
tahap konversi suara ke teks diperlukan tahap
pengenalan fonem.
Data yang digunakan adalah sinyal suara
manusia yang direkam dari satu pembicara.
Digunakan sinyal suara sebagai masukan karena
merupakan salah satu karakteristik fisiologis
manusia yang unik. Suara juga sebagai sistem
biometrik
dan lebih efisien dibandingkan
dengan biometrik yang lain.
Penelitian ini membandingkan konsep
berbasiskan
transformasi
Fourier
dan
transformasi Wavelet. Transformasi Wavelet
diskret yang digunakan berbasis orthogonal
yaitu Daubechies. Menurut (Agustini 2006)
Daubechies merupakan tipe Wavelet yang
memberikan tingkat pengenalan paling tinggi
dibandingkan dengan Symlets dan Coiflets.
Distribusi
Normal
digunakan
sebagai
pencocokan pola.
Tujuan
Penelitian ini bertujuan memberikan
informasi nilai akurasi. Selain itu, juga
membandingkan antara transformasi Fourier
dan transformasi Wavelet sebagai ekstraksi
ciri, pada pengenalan fonem dengan
Distribusi Normal sebagai pencocokan pola.
Ruang Lingkup
Ruang lingkup penelitian ini adalah :
1. Penelitian difokuskan pada pemodelan
pengenalan fonem, bukan pengenalan kata
atau kalimat.
2. Fonem yang digunakan sebanyak 26
fonem dari /a/ sampai /z/.
3. Teks yang diucapkan berbahasa Indonesia.
4. Penelitian ini menerapkan transformasi
Fourier dan transformasi Wavelet jenis
orthogonal Daubechies sebagai ekstraksi
ciri dengan orde 4 pada level 1.
5. Penelitian ini menerapkan Distribusi
Normal sebagai pengenalan pola.
6. Data sinyal suara pada penelitian ini
menggunakan satu pembicara.
7. Implementasi sistem pengenalan kata
menggunakan software MATLAB 7.7.
TINJAUAN PUSTAKA
Fonem
Fonem merupakan satuan bunyi terkecil
yang mampu menunjukkan kontras makna
(KBBI). Fonem dibagi menjadi dua, yaitu:
1. Fonem vokal merupakan bunyi ujaran akibat
adanya udara yang ke luar dari paru-paru
yang tidak terkena hambatan atau halangan.
Jumlah fonem vokal ada lima yaitu: a, i, u,
e, dan o.
2. Fonem konsonan merupakan bunyi ujaran
akibat adanya udara yang ke luar dari paruparu mendapatkan hambatan atau halangan.
Jumlah fonem konsonan ada 21 buah yaitu:
b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w,
x, y, dan z.
Akuisisi data suara digital
Sinyal merupakan suatu kuantitas fisik
yang bervariasi dengan waktu, ruang, maupun
sembarang satu atau lebih peubah bebas
lainnya (Proakis dan Manolakis 1996).
Akuisisi data suara digital merupakan proses
untuk mengakuisisi ucapan pembicara dalam
sinyal analog dan mengubah menjadi sinyal
digital. Sinyal digital yang terbentuk berupa
suatu vektor (Agustini 2006).
1
PENDAHULUAN
Latar Belakang
Perkembangan teknologi informasi dapat
mempermudah pekerjaan manusia dalam
kehidupan sehari-hari. Pekerjaan manusia
secara manual dapat digantikan dengan sistem
otomatis. Salah satu sistem otomatis adalah
sistem yang dapat membuat komputer mampu
berkomunikasi dengan manusia. Dalam proses
komunikasi ini diperlukan tahap konversi suara
ke teks (speech to text transcription).
Konversi suara ke teks, berawal dari
pengenalan berbasiskan fonem Berbasis fonem
diterapkan karena, jika berbasiskan kata, yang
mana setiap kata yang terdapat dalam kamus
kata dimodelkan dengan suatu teknik
pemodelan. Hal ini mengakibatkan kurang
efektifnya sistem apabila akan dikembangkan
untuk sistem pengenalan kata yang bersifat
large vocabulary yang mana kata yang terdapat
dalam kamus kata berjumlah sangat besar. Oleh
karena itu, di dalam penelitian ini akan
dikembangkan suatu sistem pengenalan fonem
yang merupakan tahap awal dari pengenalan
kata.
Tahap awal pengenalan fonem dilakukan
dengan praproses pada sinyal suara. Praproses
merupakan
proses
penghapusan
silent,
normalisasi dan segmentasi manual. Data fonem
yang dihasilkan dari praproses, dilanjutkan
dengan pembuatan template untuk membangun
model pengenalan fonem. Dengan demikian,
komputer diharapkan mampu menerjemahkan
ucapan ke dalam bentuk teks yang diucapkan.
Teks yang dihasilkan merupakan gabungan dari
beberapa fonem. Dengan demikian, sebelum ke
tahap konversi suara ke teks diperlukan tahap
pengenalan fonem.
Data yang digunakan adalah sinyal suara
manusia yang direkam dari satu pembicara.
Digunakan sinyal suara sebagai masukan karena
merupakan salah satu karakteristik fisiologis
manusia yang unik. Suara juga sebagai sistem
biometrik
dan lebih efisien dibandingkan
dengan biometrik yang lain.
Penelitian ini membandingkan konsep
berbasiskan
transformasi
Fourier
dan
transformasi Wavelet. Transformasi Wavelet
diskret yang digunakan berbasis orthogonal
yaitu Daubechies. Menurut (Agustini 2006)
Daubechies merupakan tipe Wavelet yang
memberikan tingkat pengenalan paling tinggi
dibandingkan dengan Symlets dan Coiflets.
Distribusi
Normal
digunakan
sebagai
pencocokan pola.
Tujuan
Penelitian ini bertujuan memberikan
informasi nilai akurasi. Selain itu, juga
membandingkan antara transformasi Fourier
dan transformasi Wavelet sebagai ekstraksi
ciri, pada pengenalan fonem dengan
Distribusi Normal sebagai pencocokan pola.
Ruang Lingkup
Ruang lingkup penelitian ini adalah :
1. Penelitian difokuskan pada pemodelan
pengenalan fonem, bukan pengenalan kata
atau kalimat.
2. Fonem yang digunakan sebanyak 26
fonem dari /a/ sampai /z/.
3. Teks yang diucapkan berbahasa Indonesia.
4. Penelitian ini menerapkan transformasi
Fourier dan transformasi Wavelet jenis
orthogonal Daubechies sebagai ekstraksi
ciri dengan orde 4 pada level 1.
5. Penelitian ini menerapkan Distribusi
Normal sebagai pengenalan pola.
6. Data sinyal suara pada penelitian ini
menggunakan satu pembicara.
7. Implementasi sistem pengenalan kata
menggunakan software MATLAB 7.7.
TINJAUAN PUSTAKA
Fonem
Fonem merupakan satuan bunyi terkecil
yang mampu menunjukkan kontras makna
(KBBI). Fonem dibagi menjadi dua, yaitu:
1. Fonem vokal merupakan bunyi ujaran akibat
adanya udara yang ke luar dari paru-paru
yang tidak terkena hambatan atau halangan.
Jumlah fonem vokal ada lima yaitu: a, i, u,
e, dan o.
2. Fonem konsonan merupakan bunyi ujaran
akibat adanya udara yang ke luar dari paruparu mendapatkan hambatan atau halangan.
Jumlah fonem konsonan ada 21 buah yaitu:
b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w,
x, y, dan z.
Akuisisi data suara digital
Sinyal merupakan suatu kuantitas fisik
yang bervariasi dengan waktu, ruang, maupun
sembarang satu atau lebih peubah bebas
lainnya (Proakis dan Manolakis 1996).
Akuisisi data suara digital merupakan proses
untuk mengakuisisi ucapan pembicara dalam
sinyal analog dan mengubah menjadi sinyal
digital. Sinyal digital yang terbentuk berupa
suatu vektor (Agustini 2006).
1
Secara konsepsi, konversi analog to
digital (A/D), melalui tiga tahapan proses
yaitu: (Proakis dan Manolakis 1996)
a) Proses sampling
Sampling merupakan pengambilan nilainilai (sampling rate) dari sinyal kontinu pada
setiap jangka waktu (T) yang ditentukan,
sehingga sinyal yang awalnya kontinu berubah
menjadi diskret.
Menurut (Buono 2009) bahwa, karena
sinyal analog dapat direpresentasikan sebagai
penjumlahan dari gelombang sinus dengan
amplitudo, frekuensi dan fase yang berbeda.
Dengan demikian, nilai sampling rate yang
dapat menangkap semua komponen sinyal
haruslah minimal dua kali frekuensi
maksimum yang ada dalam sinyal. Nilai
sampling rate sebesar Fs = 2 Fmax disebut
sebagai Nyquist rate.
Aturan teori Nyquist menyatakan bahwa
frekuensi sinyal paling sedikit dua kali
frekuensi sinyal yang akan di-sampling
(sinyal analog) dan merupakan batas
minimum dari frekuensi sample (Fs). Lebih
besar
tentunya
lebih
baik,
karena
menggambarkan sinyal aslinya.
Sampling rate yang digunakan pada
pengenalan suara adalah 8000 Hz sampai
dengan 16000 Hz (Jurafsky dan Martin 2000).
Hubungan antara panjang vektor data yang
dihasilkan, sampling rate dan panjang data
suara
yang didigitalisasikan dinyatakan
berdasarkan persamaan 1:
S = Fs × T
(1)
Keterangan:
S = panjang vektor
Fs = sampling rate yang digunakan (Hertz)
T = panjang suara (detik)
b) Kuantisasi
Kuantisasi merupakan konversi nilai
amplitudo yang bersifat kontinu menjadi nilai
diskret. Proses ini menyimpan nilai-nilai
simpangan sinyal menjadi representasi nilai 8
bit atau 16 bit (Jurafsky dan Martin 2000).
c) Pengkodean
Pengkodean
merupakan
pemberian
bilangan biner pada setiap level kuantisasi.
Ekstraksi Ciri
Tujuan ekstraksi ciri untuk mereduksi
ukuran data tanpa mengubah karakteristik dari
sinyal suara dalam setiap frame yang dapat
digunakan sebagai penciri. Ekstraksi ciri
didapat dari mengonversikan bentuk sinyal
suara ke dalam bentuk representasi secara
parameter (Agustini 2006). Ekstraksi ciri
MFCC menghitung koefisien cepstral dengan
mempertimbangkan pendengaran manusia.
MFCC didasarkan pada variasi frekuensi batas
pendengaran manusia yaitu sekitar 20 Hz 20000 Hz. Tahapan MFCC adalah sebagai
berikut (Do 1994):
1.
2.
3.
4.
Frame Blocking dan Windowing
Fast Fourier Transform (FFT)
Mel FrequencyWrapping
Cepstrum
Frame Blocking dan Windowing
Frame blocking merupakan segmentasi
frame dengan lebar tertentu yang saling
tumpang tindih atau suara digital yang telah
diakuisisi dengan durasi tertentu. Tiap-tiap hasil
frame direpresentasikan dalam sebuah vektor.
Proses frame blocking mengakibatkan terjadi
distorsi (ketidakberlanjutan sinyal) antar frame.
Dengan demikian, untuk meminimalisasi
distorsi tersebut dilakukan proses windowing.
Proses windowing yaitu proses filtering tiap
frame dengan cara mengalikan setiap frame
tersebut dengan fungsi window tertentu yang
ukurannya sama dengan frame.
Frame windowing bertujuan meminimalkan
diskontinuitas (non-stationary) sinyal pada
bagian awal dan akhir sinyal suara. Tahap
pembuatan window menggunakan fungsi
window Hamming. Window Hamming dapat
dituliskan dengan persamaan 2 (Do 1994).
✂✁☎✄✝✆
d(u) = 0.54 + 0.46 cos ✞✠✟☛✡ ☞✝✌
(2)
Dalam hal ini, u = 0,1,…,N-1 dan N
merupakan jumlah samples tiap frame. Menurut
(Buono 2009), fungsi window Hamming
memiliki nilai J(bias) dan V(varian) moderat.
Selain itu, window Hamming juga memiliki
nilai mean squared error (MSE) berada
ditengah-tengah dibanding dengan filter yang
lain serta memiliki kesederhaan rumus. Oleh
sebab itu, maka fungsi window Hamming ini
digunakan.
Fast Fourier Transform (FFT)
Fast
fourier
transformation
(FFT)
bertujuan mendekomposisi sinyal menjadi
sinyal sinusoidal, dan terdiri atas dua unit,
yaitu unit real dan unit imajiner. FFT
digunakan untuk analisis frekuensi, sehingga
mempermudah pemrosesan suara karena sesuai
dengan pendengaran manusia. FFT adalah
algoritme
yang
mengimplementasikan
discrete fouries transform (DFT). DFT
2
merupakan transformasi setiap frame dengan N
sample dari domain waktu ke domain frekuensi
yang didefinisikan pada persamaan 3 berikut
(Do 1994).
✪✬✫✢✭
✍✏✎✒✑✔✓✖✕✘✗✂✙✛✚✢✜☎✣✝✤☎✥✧✦✒✩ ★
✮✝✯✢✰
✱✧✲✴✳
Keterangan:
N = banyaknya segmen sekuen
Xk = nilai data ke k
n = 0,1,2,3,…,N-1 dan k= 0,1,2,3,…,N-1
j = ✵✷✶✹✸
Secara umum Xn adalah bilangan yang
kompleks. Hasil dari tahap ini disebut dengan
spektrum sinyal atau periodogram.
Mel FrequencyWrapping
Proses wrapping menghitung nilai melfrequency dengan sejumlah filter yang saling
overlap. Filter yang digunakan berbentuk
segitiga dengan tinggi satu pada ruang
frekuensi mel. Skala mel digunakan untuk
mengikuti persepsi pendengaran manusia
yang dikenal dengan Mel Wrapping (Buono
2009).
Berdasarkan studi psikologi, telinga
manusia mempunyai persepsi terhadap
frekuensi suara secara tidak linear pada
frekuensi di atas 1000 Hz. Persamaan berikut
dapat digunakan untuk perhitungan melfrequency pada frekuensi ✺ dalam satuan
hertz (Nilsson dan Ejnarsson 2002).
✻✽✼✿✾✴❀✘❁
❂✢❃✬❄✂❅✽❄✹❆✘❇ ❈✴❉✬❊☛❋❍●❏■✹❑ FHz
FHz ❙❯❚✢❱✛❱✬❱
700 ▲✏▼❖◆◗P✂❘
(4)
FHz ❲❨❳◗❩✂❬ FHz ❭❯❪✢❫✛❫✬❫
Dari persamaan 4, FHz adalah frekuensi
akustik, maka nilai frekuensi FHz sebagai
fungsi dari skala mel adalah:
❴✂❵✂❛❝❜❡❞☛❢☛❢❝❣✐❤☛❥✴❦♠♣☎❧✽
qsr☎♥✐q ♦ t✈✉❏✇
(5)
Pada Gambar 1 terlihat bahwa untuk
frekuensi rendah, filter yang digunakan
menggunakan skala linear, sehingga lebarnya
konstan. Dilain pihak, untuk frekuensi tinggi
(>1000 Hz), filter dibentuk dengan skala
logaritma.
M filter selanjutnya digunakan untuk
menghitung
nilai
mel-frequency
atau
wrapping pada persamaan 6 berikut:
➇✠➈✢➉
①③②✏④⑥⑤ ⑦✴⑧✬⑨✧⑩✘❶❸❷❺❹✧❻❽❼✐❾✛❿✢➀ ➁➃➂s➄☎➅✛➆
➊✝➋✂➌
➍
➎✧➏✂➐
Dengan i=1,2,3…,M (M adalah jumlah filter
segitiga) dan Hi(k) adalah nilai filter segitiga
ke i untuk frekuensi akustik sebesar k. Untuk
N adalah banyaknya data, sedangkan X(k)
merupakan nilai data ke k hasil dari proses
FFT.
Cepstrum
Cepstrum merupakan hasil mel frequency
yang
diubah
menjadi
domain
waktu
menggunakan discrete cosine transform (DCT)
dengan persamaan 7 (Do 1994):
➛
➑✧➒❨➓→➔↔➣➙↕
➾✧➚❏➪
➼ ➽
➜ ➝☛➞➠➟➢➡✢➤➦➥➨➧✠➩➭➫◗➯➳➲✴➵✢➸➻➺
dengan j=1,2,3,…,K (K adalah jumlah
koefisien yang diiginkan dan M = jumlah
filter, sedangkan Xi adalah nilai data ke i hasil
proses mel frequensy wrapping .
Wavelet
Wavelet dapat dibentuk dari satu fungsi
(x) dikenal sebagai “mother Wavelet” dalam
suatu interval berhingga. Wavelet merupakan
gelombang singkat (small wave) yang
energinya terkonsentrasi pada suatu selang
waktu untuk memberikan kemampuan
analisis transien, ketidakstasioneran, atau
fenomena berubah terhadap waktu (time
varying). Karakteristik dari Wavelet antara
lain adalah berosilasi singkat, translasi
(pergeseran), dan dilatasi (skala) (Burrus et
al. 1998).
Wavelet
memiliki
banyak
famili,
dibedakan berdasarkan pada bank filter yang
digunakan. Famili Wavelet terdiri atas
biorthogonal Wavelet, Meyer Wavelet, Morlet
Wavelet, Shanon Wavelet, dan masih banyak
lainnya. Wavelet Daubechies merupakan
famili
orthogonal
Wavelet
hasil
pengembangan dari Wavelet Haar.
Gambar 1 Grafik hubungan frekuensi dengan
skala mel (Buono 2009).
3
Transformasi
Wavelet
menunjukkan
frekuensi waktu yang baik untuk lokalisasi
properti dan alat yang tepat untuk analisis
sinyal diskontinu (non stationary) (Krishnan
1994). Wavelet merupakan fungsi variabel
real t, diberi notasi t dalam ruang fungsi
L²(R). Fungsi ini dihasilkan oleh parameter
penskala (dilatasi) dan penggeseran (translasi)
dari sebuah fungsi tunggal (induk) yang
dinyatakan dalam persamaan (Burrus et al.
1998) :
a,b(t)
= a-1/2 ➶➘➹➷➴✂➮ ➬ ➱ ; a>0,b ✃❒❐
(8)
fungsi pada persamaan (8) dikenalkan
pertama kali oleh Grossman dan Morlet,
dengan a,b ❮Ï❰ dan a
0, a merupakan
parameter penskala dan b adalah parameter
translasi.
j,k(t)
= aj/2 (2jt-k) ; j,k Ð Z
(9)
fungsi pada persamaan (9) dikenalkan
pertama kali oleh Daubechies.
keterangan:
a = parameter penskala dan a 0
2j = parameter dilatasi
k = parameter waktu atau lokasi ruang
Wavelet berdasarkan pada pembangkitan
sejumlah tapis (filter) dengan cara mengeser
dan menskala mother Wavelet berupa tapis
pelewat tengah (band-pass filter). Dengan
demikian
diperlukan
pembangkit
filter.
Penambahan dan pengurangan skala akan
mempengaruhi durasi waktu, lebar bidang
(bandwith) dan nilai frekuensi (Burrus et al.
1998).
Transformasi Wavelet dapat dibedakan
menjadi dua, yaitu continous wavelet transform
(CWT) dan discrete wavelet transform (DWT).
Fungsi yang digunakan dalam transformasi
CWT dan DWT diturunkan dari mother Wavelet
melalui
translasi/
pergeseran
dan
penskalaan/dilatasi.
Transformasi
Wavelet
kontinu mempunyai dua kelemahan yaitu
redudancy dan ketidakpastian (impracticality)
(Mallat 1999). Masalah tersebut dapat
diselesaikan dengan mendiskretkan parameter
penskala dan penggeseran.
dasar dari DWT adalah bagaimana cara
mendapatkan representasi waktu dan skala
dari sebuah sinyal menggunakan teknik filter
digital
dan
operasi
sub-sampling.
Transformasi Wavelet diskret bertujuan
mengurangi redundansi yang terjadi pada
transformasi Wavelet kontinu. Transformasi
Wavelet diskret menganalisis suatu sinyal
dengan skala yang berbeda.
Sebuah sinyal dilewatkan dalam dua filter
DWT yaitu highpass filter dan lowpass filter
agar frekuensi dari sinyal tersebut dapat
dianalisis.
Pembagian
sinyal
menjadi
frekuensi tinggi dan frekuensi rendah dalam
proses highpass filter dan lowpass filter
disebut
sebagai
dekomposisi.
Proses
dekomposisi ini dapat melalui satu atau lebih
tingkatan. Dekomposisi satu tingkat ditulis
dengan ekspresi matematika pada persamaan
10 dan 11.
Ñ☛Ò✧Ó✐Ô❏Õ✝Ö➢×✠Ø Ù✬Ú③ÛÝÜßÞ✘à á✽â✐ãåä➨æ✢çéèëê❸ì
í
î♠ï✢ð✴ñ
ò✠ó➷ô õ✝ö➘ö✴ô➭÷ ø✬ù❒úÝûýü➙þ ÿ✁✄✂✆☎✞✝✠✟☛✡✌☞✁✍
✏✒✑✓✑✕✔
✎
Dalam hal ini y[k] tinggi dan y[k] rendah
adalah hasil dari highpass filter dan lowpass
filter, x[n] merupakan sinyal asal, h[n] adalah
highpass filter, dan g[n] adalah lowpass filter.
Contoh ilustrasi dekomposisi dipaparkan
pada Gambar 2 dengan menggunakan
dekomposisi tiga tingkat. Pada Gambar 2 y[k]
tinggi dan y[k] rendah yang merupakan hasil
dari highpass filter dan lowpass filter, y[k]
tinggi disebut sebagai koefisien DWT. y[k]
tinggi merupakan detail dari informasi sinyal,
sedangkan y[k] rendah merupakan taksiran
kasar dari fungsi penskalaan. Dengan
menggunakan koefisien DWT ini maka dapat
dilakukan proses inverse discrete wavelet
transform (IDWT) untuk merekonstruksi
menjadi sinyal asal.
Transformasi Wavelet Diskret
Transformasi Wavelet merupakan teknik
pemrosesan sinyal multiresolusi. Proses
transformasi Wavelet dilakukan dengan
mengkonvolusi sinyal dengan data tapis
(filter) atau dengan proses perata-rataan dan
pengurangan secara berulang, yang sering
disebut dengan metode filter bank. Prinsip
Gambar 2 Dekomposisi Wavelet 3 tingkat.
Proses rekonstruksi diawali dengan
menggabungkan koefisien DWT dari yang
4
berada pada akhir dekomposisi dengan
sebelumnya meng – upsample oleh 2 ( 2)
melalui highpass filter dan lowpass filter.
Proses
rekonstruksi
ini
sepenuhnya
merupakan kebalikan dari proses dekomposisi
sesuai dengan tingkatan pada proses
dekomposisi. Dengan demikian, persamaan
rekonstruksi pada masing-masing tingkatan
dapat ditulis sebagai berikut:
✖✘✗ ✙✁✚✜✛✣✢✥❁ ✤✧✦✩★✫✪ ✬✮✭✮✭✯✪✱✰ ✲✴✳✄✵✆✶✞✷✜✸✺✹✣✻✽✼✴✾❀✿
❂✽❃✒❄❆❅❈❇❊❉●❋✩❍ ■✴❏▲❑◆▼✞❖✜P✺◗❙❘✠❚✴❯▲❱
bank filter Wavelet Daubechies dengan 4
koefisien dapat dilihat pada Gambar 3 untuk
n4 nilai h(n)=0.
h0
g0
0
0
Wavelet Daubechies secara historis berasal
dari sistem Haar ditulis sebagai ‘dbN’ dengan N
menunjukkan orde dengan 2 koefisien (db2)
memiliki scaling function dengan koefisien lowpass sebagai berikut (Burrus et al. 1998).
❭✯❪✞❫✒❴✁❵❜❛❀❝◆❞✩❡
❢❊❣✴❤ ✐
❥✯❦✫❧♥♠✁♦q♣sr◆t✩✉
✈❊✇✴① ②
0
0
h2
g2
0 0
0 0
h3 0
g3 0
Gambar 3 Bank filter Daubechies.
Tahapan ekstraksi ciri
transformasi Wavelet yaitu:
menggunakan
a) Frame Blocking dan Windowing
b) Discrete Wavelet Transform
menggunakan Daubechies
c) Mel FrequencyWrapping
d) Cepstrum
(DWT)
Distribusi Normal
③✯④✞⑤✒⑥✁⑦q⑧s⑨◆⑩✩❶
❷❊❸✴❹ ❺
❻✯❼ ❽●❾✁❿❜➀❀➁◆➂✩➃
➄❊➅✴➆
Dengan h(n) merupakan koefisien low-pass.
Nilai koefisien high-pass fungsi Wavelet dengan
N=2 atau berorde 2 adalah
g0 = h3 , g1 = -h2, g2 = h1, g3 = -h0,
dengan g= high-pass dan h = low-pass.
Ingrid Daubechies telah mengklasifikasikan
koefisien secara numerik untuk N=4 atau
berorde 4 pada Tabel 1(Burrus et al. 1998).
Tabel 1 Tabel koefisien db4.
N=4
h2 h3
g2 g3
h0 h1
g0 g1
❲✒❳✠❨❬❩
Transformasi Wavelet Daubechies
Low fass
h1
g1
0
0
Koefisien
Distribusi Normal sering disebut sebaran
Gauss. Penulisan notasi dari peubah acak
yang berdistribusi normal umum adalah
N(x;µ , 2 ),
artinya
peubah
acak
X
berdistribusi normal umum dengan mean µ
2
dan varians
. Peubah acak X yang
berdistribusi normal dengan mean µ dan
varians 2 disingkat X~N(µ , 2 ).
Peubah acak X dikatakan berdistribusi
normal umum, jika dan hanya jika fungsi
densitasnya berbentuk seperti pada persamaan
13 (Herrhyanto dan Gantini 2009).
➇➉➈✧➊✴➋➍➌➏
➐✴➑ ➎
↕✫➙➜➛
➝♥➞✮➟ ➠ ➡➤➢ µ ➥✮➦➣➧
➒ ➓ ➔➣→❬↔
(13)
Dengan -
NI WAYAN SUDARMI. Comparison between Wavelet Daubechies and Mel-frequency
Cesptral Coeffisient (MFCC) with Feature Extraction Using Normal Distribution for Phoneme
Recognition. Under the supervised of AGUS BUONO.
Speech recognition is speech to text transcription. Speech to text transcription system is a
system used to convert a voice signal from a microphone into a single or a set of words. Most research
of speech to text transcription used technique which every word in corpus is modeled. It is not
effective if we want to develop a large vocabulary speech recognition system which number of words
in corpus are more than one thousand words. Therefore, this research developed phoneme recognition
with early stage in speech recognition.
This research used some stage proces, those are take data, feature extraction, and feature
matching. Normal Distribution (Gaussian) is used for feature matching, Wavelet Daubechies and
MFCC is used for feature extraction. Corpus on this research consist of 11 words in Indonesian which
each word recorded 20 times, 15 times for data training and 5 times for data testing. This research
used 13 cepstral coefficients. Phonemes are generated from the segmentation process, and then mhu
and sigma be calculated to generate the model. This case produced 26 models. The best accuracy is
90% generated by feature extraction MFCC and 46.92% generated by the Wavelet Daubechies.
Keyword: Mel-frequency Cesptral Coeffisient, Wavelet Daubechies, Distribusi Normal, speech to text
transcription, phoneme.
PENDAHULUAN
Latar Belakang
Perkembangan teknologi informasi dapat
mempermudah pekerjaan manusia dalam
kehidupan sehari-hari. Pekerjaan manusia
secara manual dapat digantikan dengan sistem
otomatis. Salah satu sistem otomatis adalah
sistem yang dapat membuat komputer mampu
berkomunikasi dengan manusia. Dalam proses
komunikasi ini diperlukan tahap konversi suara
ke teks (speech to text transcription).
Konversi suara ke teks, berawal dari
pengenalan berbasiskan fonem Berbasis fonem
diterapkan karena, jika berbasiskan kata, yang
mana setiap kata yang terdapat dalam kamus
kata dimodelkan dengan suatu teknik
pemodelan. Hal ini mengakibatkan kurang
efektifnya sistem apabila akan dikembangkan
untuk sistem pengenalan kata yang bersifat
large vocabulary yang mana kata yang terdapat
dalam kamus kata berjumlah sangat besar. Oleh
karena itu, di dalam penelitian ini akan
dikembangkan suatu sistem pengenalan fonem
yang merupakan tahap awal dari pengenalan
kata.
Tahap awal pengenalan fonem dilakukan
dengan praproses pada sinyal suara. Praproses
merupakan
proses
penghapusan
silent,
normalisasi dan segmentasi manual. Data fonem
yang dihasilkan dari praproses, dilanjutkan
dengan pembuatan template untuk membangun
model pengenalan fonem. Dengan demikian,
komputer diharapkan mampu menerjemahkan
ucapan ke dalam bentuk teks yang diucapkan.
Teks yang dihasilkan merupakan gabungan dari
beberapa fonem. Dengan demikian, sebelum ke
tahap konversi suara ke teks diperlukan tahap
pengenalan fonem.
Data yang digunakan adalah sinyal suara
manusia yang direkam dari satu pembicara.
Digunakan sinyal suara sebagai masukan karena
merupakan salah satu karakteristik fisiologis
manusia yang unik. Suara juga sebagai sistem
biometrik
dan lebih efisien dibandingkan
dengan biometrik yang lain.
Penelitian ini membandingkan konsep
berbasiskan
transformasi
Fourier
dan
transformasi Wavelet. Transformasi Wavelet
diskret yang digunakan berbasis orthogonal
yaitu Daubechies. Menurut (Agustini 2006)
Daubechies merupakan tipe Wavelet yang
memberikan tingkat pengenalan paling tinggi
dibandingkan dengan Symlets dan Coiflets.
Distribusi
Normal
digunakan
sebagai
pencocokan pola.
Tujuan
Penelitian ini bertujuan memberikan
informasi nilai akurasi. Selain itu, juga
membandingkan antara transformasi Fourier
dan transformasi Wavelet sebagai ekstraksi
ciri, pada pengenalan fonem dengan
Distribusi Normal sebagai pencocokan pola.
Ruang Lingkup
Ruang lingkup penelitian ini adalah :
1. Penelitian difokuskan pada pemodelan
pengenalan fonem, bukan pengenalan kata
atau kalimat.
2. Fonem yang digunakan sebanyak 26
fonem dari /a/ sampai /z/.
3. Teks yang diucapkan berbahasa Indonesia.
4. Penelitian ini menerapkan transformasi
Fourier dan transformasi Wavelet jenis
orthogonal Daubechies sebagai ekstraksi
ciri dengan orde 4 pada level 1.
5. Penelitian ini menerapkan Distribusi
Normal sebagai pengenalan pola.
6. Data sinyal suara pada penelitian ini
menggunakan satu pembicara.
7. Implementasi sistem pengenalan kata
menggunakan software MATLAB 7.7.
TINJAUAN PUSTAKA
Fonem
Fonem merupakan satuan bunyi terkecil
yang mampu menunjukkan kontras makna
(KBBI). Fonem dibagi menjadi dua, yaitu:
1. Fonem vokal merupakan bunyi ujaran akibat
adanya udara yang ke luar dari paru-paru
yang tidak terkena hambatan atau halangan.
Jumlah fonem vokal ada lima yaitu: a, i, u,
e, dan o.
2. Fonem konsonan merupakan bunyi ujaran
akibat adanya udara yang ke luar dari paruparu mendapatkan hambatan atau halangan.
Jumlah fonem konsonan ada 21 buah yaitu:
b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w,
x, y, dan z.
Akuisisi data suara digital
Sinyal merupakan suatu kuantitas fisik
yang bervariasi dengan waktu, ruang, maupun
sembarang satu atau lebih peubah bebas
lainnya (Proakis dan Manolakis 1996).
Akuisisi data suara digital merupakan proses
untuk mengakuisisi ucapan pembicara dalam
sinyal analog dan mengubah menjadi sinyal
digital. Sinyal digital yang terbentuk berupa
suatu vektor (Agustini 2006).
1
PENDAHULUAN
Latar Belakang
Perkembangan teknologi informasi dapat
mempermudah pekerjaan manusia dalam
kehidupan sehari-hari. Pekerjaan manusia
secara manual dapat digantikan dengan sistem
otomatis. Salah satu sistem otomatis adalah
sistem yang dapat membuat komputer mampu
berkomunikasi dengan manusia. Dalam proses
komunikasi ini diperlukan tahap konversi suara
ke teks (speech to text transcription).
Konversi suara ke teks, berawal dari
pengenalan berbasiskan fonem Berbasis fonem
diterapkan karena, jika berbasiskan kata, yang
mana setiap kata yang terdapat dalam kamus
kata dimodelkan dengan suatu teknik
pemodelan. Hal ini mengakibatkan kurang
efektifnya sistem apabila akan dikembangkan
untuk sistem pengenalan kata yang bersifat
large vocabulary yang mana kata yang terdapat
dalam kamus kata berjumlah sangat besar. Oleh
karena itu, di dalam penelitian ini akan
dikembangkan suatu sistem pengenalan fonem
yang merupakan tahap awal dari pengenalan
kata.
Tahap awal pengenalan fonem dilakukan
dengan praproses pada sinyal suara. Praproses
merupakan
proses
penghapusan
silent,
normalisasi dan segmentasi manual. Data fonem
yang dihasilkan dari praproses, dilanjutkan
dengan pembuatan template untuk membangun
model pengenalan fonem. Dengan demikian,
komputer diharapkan mampu menerjemahkan
ucapan ke dalam bentuk teks yang diucapkan.
Teks yang dihasilkan merupakan gabungan dari
beberapa fonem. Dengan demikian, sebelum ke
tahap konversi suara ke teks diperlukan tahap
pengenalan fonem.
Data yang digunakan adalah sinyal suara
manusia yang direkam dari satu pembicara.
Digunakan sinyal suara sebagai masukan karena
merupakan salah satu karakteristik fisiologis
manusia yang unik. Suara juga sebagai sistem
biometrik
dan lebih efisien dibandingkan
dengan biometrik yang lain.
Penelitian ini membandingkan konsep
berbasiskan
transformasi
Fourier
dan
transformasi Wavelet. Transformasi Wavelet
diskret yang digunakan berbasis orthogonal
yaitu Daubechies. Menurut (Agustini 2006)
Daubechies merupakan tipe Wavelet yang
memberikan tingkat pengenalan paling tinggi
dibandingkan dengan Symlets dan Coiflets.
Distribusi
Normal
digunakan
sebagai
pencocokan pola.
Tujuan
Penelitian ini bertujuan memberikan
informasi nilai akurasi. Selain itu, juga
membandingkan antara transformasi Fourier
dan transformasi Wavelet sebagai ekstraksi
ciri, pada pengenalan fonem dengan
Distribusi Normal sebagai pencocokan pola.
Ruang Lingkup
Ruang lingkup penelitian ini adalah :
1. Penelitian difokuskan pada pemodelan
pengenalan fonem, bukan pengenalan kata
atau kalimat.
2. Fonem yang digunakan sebanyak 26
fonem dari /a/ sampai /z/.
3. Teks yang diucapkan berbahasa Indonesia.
4. Penelitian ini menerapkan transformasi
Fourier dan transformasi Wavelet jenis
orthogonal Daubechies sebagai ekstraksi
ciri dengan orde 4 pada level 1.
5. Penelitian ini menerapkan Distribusi
Normal sebagai pengenalan pola.
6. Data sinyal suara pada penelitian ini
menggunakan satu pembicara.
7. Implementasi sistem pengenalan kata
menggunakan software MATLAB 7.7.
TINJAUAN PUSTAKA
Fonem
Fonem merupakan satuan bunyi terkecil
yang mampu menunjukkan kontras makna
(KBBI). Fonem dibagi menjadi dua, yaitu:
1. Fonem vokal merupakan bunyi ujaran akibat
adanya udara yang ke luar dari paru-paru
yang tidak terkena hambatan atau halangan.
Jumlah fonem vokal ada lima yaitu: a, i, u,
e, dan o.
2. Fonem konsonan merupakan bunyi ujaran
akibat adanya udara yang ke luar dari paruparu mendapatkan hambatan atau halangan.
Jumlah fonem konsonan ada 21 buah yaitu:
b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w,
x, y, dan z.
Akuisisi data suara digital
Sinyal merupakan suatu kuantitas fisik
yang bervariasi dengan waktu, ruang, maupun
sembarang satu atau lebih peubah bebas
lainnya (Proakis dan Manolakis 1996).
Akuisisi data suara digital merupakan proses
untuk mengakuisisi ucapan pembicara dalam
sinyal analog dan mengubah menjadi sinyal
digital. Sinyal digital yang terbentuk berupa
suatu vektor (Agustini 2006).
1
Secara konsepsi, konversi analog to
digital (A/D), melalui tiga tahapan proses
yaitu: (Proakis dan Manolakis 1996)
a) Proses sampling
Sampling merupakan pengambilan nilainilai (sampling rate) dari sinyal kontinu pada
setiap jangka waktu (T) yang ditentukan,
sehingga sinyal yang awalnya kontinu berubah
menjadi diskret.
Menurut (Buono 2009) bahwa, karena
sinyal analog dapat direpresentasikan sebagai
penjumlahan dari gelombang sinus dengan
amplitudo, frekuensi dan fase yang berbeda.
Dengan demikian, nilai sampling rate yang
dapat menangkap semua komponen sinyal
haruslah minimal dua kali frekuensi
maksimum yang ada dalam sinyal. Nilai
sampling rate sebesar Fs = 2 Fmax disebut
sebagai Nyquist rate.
Aturan teori Nyquist menyatakan bahwa
frekuensi sinyal paling sedikit dua kali
frekuensi sinyal yang akan di-sampling
(sinyal analog) dan merupakan batas
minimum dari frekuensi sample (Fs). Lebih
besar
tentunya
lebih
baik,
karena
menggambarkan sinyal aslinya.
Sampling rate yang digunakan pada
pengenalan suara adalah 8000 Hz sampai
dengan 16000 Hz (Jurafsky dan Martin 2000).
Hubungan antara panjang vektor data yang
dihasilkan, sampling rate dan panjang data
suara
yang didigitalisasikan dinyatakan
berdasarkan persamaan 1:
S = Fs × T
(1)
Keterangan:
S = panjang vektor
Fs = sampling rate yang digunakan (Hertz)
T = panjang suara (detik)
b) Kuantisasi
Kuantisasi merupakan konversi nilai
amplitudo yang bersifat kontinu menjadi nilai
diskret. Proses ini menyimpan nilai-nilai
simpangan sinyal menjadi representasi nilai 8
bit atau 16 bit (Jurafsky dan Martin 2000).
c) Pengkodean
Pengkodean
merupakan
pemberian
bilangan biner pada setiap level kuantisasi.
Ekstraksi Ciri
Tujuan ekstraksi ciri untuk mereduksi
ukuran data tanpa mengubah karakteristik dari
sinyal suara dalam setiap frame yang dapat
digunakan sebagai penciri. Ekstraksi ciri
didapat dari mengonversikan bentuk sinyal
suara ke dalam bentuk representasi secara
parameter (Agustini 2006). Ekstraksi ciri
MFCC menghitung koefisien cepstral dengan
mempertimbangkan pendengaran manusia.
MFCC didasarkan pada variasi frekuensi batas
pendengaran manusia yaitu sekitar 20 Hz 20000 Hz. Tahapan MFCC adalah sebagai
berikut (Do 1994):
1.
2.
3.
4.
Frame Blocking dan Windowing
Fast Fourier Transform (FFT)
Mel FrequencyWrapping
Cepstrum
Frame Blocking dan Windowing
Frame blocking merupakan segmentasi
frame dengan lebar tertentu yang saling
tumpang tindih atau suara digital yang telah
diakuisisi dengan durasi tertentu. Tiap-tiap hasil
frame direpresentasikan dalam sebuah vektor.
Proses frame blocking mengakibatkan terjadi
distorsi (ketidakberlanjutan sinyal) antar frame.
Dengan demikian, untuk meminimalisasi
distorsi tersebut dilakukan proses windowing.
Proses windowing yaitu proses filtering tiap
frame dengan cara mengalikan setiap frame
tersebut dengan fungsi window tertentu yang
ukurannya sama dengan frame.
Frame windowing bertujuan meminimalkan
diskontinuitas (non-stationary) sinyal pada
bagian awal dan akhir sinyal suara. Tahap
pembuatan window menggunakan fungsi
window Hamming. Window Hamming dapat
dituliskan dengan persamaan 2 (Do 1994).
✂✁☎✄✝✆
d(u) = 0.54 + 0.46 cos ✞✠✟☛✡ ☞✝✌
(2)
Dalam hal ini, u = 0,1,…,N-1 dan N
merupakan jumlah samples tiap frame. Menurut
(Buono 2009), fungsi window Hamming
memiliki nilai J(bias) dan V(varian) moderat.
Selain itu, window Hamming juga memiliki
nilai mean squared error (MSE) berada
ditengah-tengah dibanding dengan filter yang
lain serta memiliki kesederhaan rumus. Oleh
sebab itu, maka fungsi window Hamming ini
digunakan.
Fast Fourier Transform (FFT)
Fast
fourier
transformation
(FFT)
bertujuan mendekomposisi sinyal menjadi
sinyal sinusoidal, dan terdiri atas dua unit,
yaitu unit real dan unit imajiner. FFT
digunakan untuk analisis frekuensi, sehingga
mempermudah pemrosesan suara karena sesuai
dengan pendengaran manusia. FFT adalah
algoritme
yang
mengimplementasikan
discrete fouries transform (DFT). DFT
2
merupakan transformasi setiap frame dengan N
sample dari domain waktu ke domain frekuensi
yang didefinisikan pada persamaan 3 berikut
(Do 1994).
✪✬✫✢✭
✍✏✎✒✑✔✓✖✕✘✗✂✙✛✚✢✜☎✣✝✤☎✥✧✦✒✩ ★
✮✝✯✢✰
✱✧✲✴✳
Keterangan:
N = banyaknya segmen sekuen
Xk = nilai data ke k
n = 0,1,2,3,…,N-1 dan k= 0,1,2,3,…,N-1
j = ✵✷✶✹✸
Secara umum Xn adalah bilangan yang
kompleks. Hasil dari tahap ini disebut dengan
spektrum sinyal atau periodogram.
Mel FrequencyWrapping
Proses wrapping menghitung nilai melfrequency dengan sejumlah filter yang saling
overlap. Filter yang digunakan berbentuk
segitiga dengan tinggi satu pada ruang
frekuensi mel. Skala mel digunakan untuk
mengikuti persepsi pendengaran manusia
yang dikenal dengan Mel Wrapping (Buono
2009).
Berdasarkan studi psikologi, telinga
manusia mempunyai persepsi terhadap
frekuensi suara secara tidak linear pada
frekuensi di atas 1000 Hz. Persamaan berikut
dapat digunakan untuk perhitungan melfrequency pada frekuensi ✺ dalam satuan
hertz (Nilsson dan Ejnarsson 2002).
✻✽✼✿✾✴❀✘❁
❂✢❃✬❄✂❅✽❄✹❆✘❇ ❈✴❉✬❊☛❋❍●❏■✹❑ FHz
FHz ❙❯❚✢❱✛❱✬❱
700 ▲✏▼❖◆◗P✂❘
(4)
FHz ❲❨❳◗❩✂❬ FHz ❭❯❪✢❫✛❫✬❫
Dari persamaan 4, FHz adalah frekuensi
akustik, maka nilai frekuensi FHz sebagai
fungsi dari skala mel adalah:
❴✂❵✂❛❝❜❡❞☛❢☛❢❝❣✐❤☛❥✴❦♠♣☎❧✽
qsr☎♥✐q ♦ t✈✉❏✇
(5)
Pada Gambar 1 terlihat bahwa untuk
frekuensi rendah, filter yang digunakan
menggunakan skala linear, sehingga lebarnya
konstan. Dilain pihak, untuk frekuensi tinggi
(>1000 Hz), filter dibentuk dengan skala
logaritma.
M filter selanjutnya digunakan untuk
menghitung
nilai
mel-frequency
atau
wrapping pada persamaan 6 berikut:
➇✠➈✢➉
①③②✏④⑥⑤ ⑦✴⑧✬⑨✧⑩✘❶❸❷❺❹✧❻❽❼✐❾✛❿✢➀ ➁➃➂s➄☎➅✛➆
➊✝➋✂➌
➍
➎✧➏✂➐
Dengan i=1,2,3…,M (M adalah jumlah filter
segitiga) dan Hi(k) adalah nilai filter segitiga
ke i untuk frekuensi akustik sebesar k. Untuk
N adalah banyaknya data, sedangkan X(k)
merupakan nilai data ke k hasil dari proses
FFT.
Cepstrum
Cepstrum merupakan hasil mel frequency
yang
diubah
menjadi
domain
waktu
menggunakan discrete cosine transform (DCT)
dengan persamaan 7 (Do 1994):
➛
➑✧➒❨➓→➔↔➣➙↕
➾✧➚❏➪
➼ ➽
➜ ➝☛➞➠➟➢➡✢➤➦➥➨➧✠➩➭➫◗➯➳➲✴➵✢➸➻➺
dengan j=1,2,3,…,K (K adalah jumlah
koefisien yang diiginkan dan M = jumlah
filter, sedangkan Xi adalah nilai data ke i hasil
proses mel frequensy wrapping .
Wavelet
Wavelet dapat dibentuk dari satu fungsi
(x) dikenal sebagai “mother Wavelet” dalam
suatu interval berhingga. Wavelet merupakan
gelombang singkat (small wave) yang
energinya terkonsentrasi pada suatu selang
waktu untuk memberikan kemampuan
analisis transien, ketidakstasioneran, atau
fenomena berubah terhadap waktu (time
varying). Karakteristik dari Wavelet antara
lain adalah berosilasi singkat, translasi
(pergeseran), dan dilatasi (skala) (Burrus et
al. 1998).
Wavelet
memiliki
banyak
famili,
dibedakan berdasarkan pada bank filter yang
digunakan. Famili Wavelet terdiri atas
biorthogonal Wavelet, Meyer Wavelet, Morlet
Wavelet, Shanon Wavelet, dan masih banyak
lainnya. Wavelet Daubechies merupakan
famili
orthogonal
Wavelet
hasil
pengembangan dari Wavelet Haar.
Gambar 1 Grafik hubungan frekuensi dengan
skala mel (Buono 2009).
3
Transformasi
Wavelet
menunjukkan
frekuensi waktu yang baik untuk lokalisasi
properti dan alat yang tepat untuk analisis
sinyal diskontinu (non stationary) (Krishnan
1994). Wavelet merupakan fungsi variabel
real t, diberi notasi t dalam ruang fungsi
L²(R). Fungsi ini dihasilkan oleh parameter
penskala (dilatasi) dan penggeseran (translasi)
dari sebuah fungsi tunggal (induk) yang
dinyatakan dalam persamaan (Burrus et al.
1998) :
a,b(t)
= a-1/2 ➶➘➹➷➴✂➮ ➬ ➱ ; a>0,b ✃❒❐
(8)
fungsi pada persamaan (8) dikenalkan
pertama kali oleh Grossman dan Morlet,
dengan a,b ❮Ï❰ dan a
0, a merupakan
parameter penskala dan b adalah parameter
translasi.
j,k(t)
= aj/2 (2jt-k) ; j,k Ð Z
(9)
fungsi pada persamaan (9) dikenalkan
pertama kali oleh Daubechies.
keterangan:
a = parameter penskala dan a 0
2j = parameter dilatasi
k = parameter waktu atau lokasi ruang
Wavelet berdasarkan pada pembangkitan
sejumlah tapis (filter) dengan cara mengeser
dan menskala mother Wavelet berupa tapis
pelewat tengah (band-pass filter). Dengan
demikian
diperlukan
pembangkit
filter.
Penambahan dan pengurangan skala akan
mempengaruhi durasi waktu, lebar bidang
(bandwith) dan nilai frekuensi (Burrus et al.
1998).
Transformasi Wavelet dapat dibedakan
menjadi dua, yaitu continous wavelet transform
(CWT) dan discrete wavelet transform (DWT).
Fungsi yang digunakan dalam transformasi
CWT dan DWT diturunkan dari mother Wavelet
melalui
translasi/
pergeseran
dan
penskalaan/dilatasi.
Transformasi
Wavelet
kontinu mempunyai dua kelemahan yaitu
redudancy dan ketidakpastian (impracticality)
(Mallat 1999). Masalah tersebut dapat
diselesaikan dengan mendiskretkan parameter
penskala dan penggeseran.
dasar dari DWT adalah bagaimana cara
mendapatkan representasi waktu dan skala
dari sebuah sinyal menggunakan teknik filter
digital
dan
operasi
sub-sampling.
Transformasi Wavelet diskret bertujuan
mengurangi redundansi yang terjadi pada
transformasi Wavelet kontinu. Transformasi
Wavelet diskret menganalisis suatu sinyal
dengan skala yang berbeda.
Sebuah sinyal dilewatkan dalam dua filter
DWT yaitu highpass filter dan lowpass filter
agar frekuensi dari sinyal tersebut dapat
dianalisis.
Pembagian
sinyal
menjadi
frekuensi tinggi dan frekuensi rendah dalam
proses highpass filter dan lowpass filter
disebut
sebagai
dekomposisi.
Proses
dekomposisi ini dapat melalui satu atau lebih
tingkatan. Dekomposisi satu tingkat ditulis
dengan ekspresi matematika pada persamaan
10 dan 11.
Ñ☛Ò✧Ó✐Ô❏Õ✝Ö➢×✠Ø Ù✬Ú③ÛÝÜßÞ✘à á✽â✐ãåä➨æ✢çéèëê❸ì
í
î♠ï✢ð✴ñ
ò✠ó➷ô õ✝ö➘ö✴ô➭÷ ø✬ù❒úÝûýü➙þ ÿ✁✄✂✆☎✞✝✠✟☛✡✌☞✁✍
✏✒✑✓✑✕✔
✎
Dalam hal ini y[k] tinggi dan y[k] rendah
adalah hasil dari highpass filter dan lowpass
filter, x[n] merupakan sinyal asal, h[n] adalah
highpass filter, dan g[n] adalah lowpass filter.
Contoh ilustrasi dekomposisi dipaparkan
pada Gambar 2 dengan menggunakan
dekomposisi tiga tingkat. Pada Gambar 2 y[k]
tinggi dan y[k] rendah yang merupakan hasil
dari highpass filter dan lowpass filter, y[k]
tinggi disebut sebagai koefisien DWT. y[k]
tinggi merupakan detail dari informasi sinyal,
sedangkan y[k] rendah merupakan taksiran
kasar dari fungsi penskalaan. Dengan
menggunakan koefisien DWT ini maka dapat
dilakukan proses inverse discrete wavelet
transform (IDWT) untuk merekonstruksi
menjadi sinyal asal.
Transformasi Wavelet Diskret
Transformasi Wavelet merupakan teknik
pemrosesan sinyal multiresolusi. Proses
transformasi Wavelet dilakukan dengan
mengkonvolusi sinyal dengan data tapis
(filter) atau dengan proses perata-rataan dan
pengurangan secara berulang, yang sering
disebut dengan metode filter bank. Prinsip
Gambar 2 Dekomposisi Wavelet 3 tingkat.
Proses rekonstruksi diawali dengan
menggabungkan koefisien DWT dari yang
4
berada pada akhir dekomposisi dengan
sebelumnya meng – upsample oleh 2 ( 2)
melalui highpass filter dan lowpass filter.
Proses
rekonstruksi
ini
sepenuhnya
merupakan kebalikan dari proses dekomposisi
sesuai dengan tingkatan pada proses
dekomposisi. Dengan demikian, persamaan
rekonstruksi pada masing-masing tingkatan
dapat ditulis sebagai berikut:
✖✘✗ ✙✁✚✜✛✣✢✥❁ ✤✧✦✩★✫✪ ✬✮✭✮✭✯✪✱✰ ✲✴✳✄✵✆✶✞✷✜✸✺✹✣✻✽✼✴✾❀✿
❂✽❃✒❄❆❅❈❇❊❉●❋✩❍ ■✴❏▲❑◆▼✞❖✜P✺◗❙❘✠❚✴❯▲❱
bank filter Wavelet Daubechies dengan 4
koefisien dapat dilihat pada Gambar 3 untuk
n4 nilai h(n)=0.
h0
g0
0
0
Wavelet Daubechies secara historis berasal
dari sistem Haar ditulis sebagai ‘dbN’ dengan N
menunjukkan orde dengan 2 koefisien (db2)
memiliki scaling function dengan koefisien lowpass sebagai berikut (Burrus et al. 1998).
❭✯❪✞❫✒❴✁❵❜❛❀❝◆❞✩❡
❢❊❣✴❤ ✐
❥✯❦✫❧♥♠✁♦q♣sr◆t✩✉
✈❊✇✴① ②
0
0
h2
g2
0 0
0 0
h3 0
g3 0
Gambar 3 Bank filter Daubechies.
Tahapan ekstraksi ciri
transformasi Wavelet yaitu:
menggunakan
a) Frame Blocking dan Windowing
b) Discrete Wavelet Transform
menggunakan Daubechies
c) Mel FrequencyWrapping
d) Cepstrum
(DWT)
Distribusi Normal
③✯④✞⑤✒⑥✁⑦q⑧s⑨◆⑩✩❶
❷❊❸✴❹ ❺
❻✯❼ ❽●❾✁❿❜➀❀➁◆➂✩➃
➄❊➅✴➆
Dengan h(n) merupakan koefisien low-pass.
Nilai koefisien high-pass fungsi Wavelet dengan
N=2 atau berorde 2 adalah
g0 = h3 , g1 = -h2, g2 = h1, g3 = -h0,
dengan g= high-pass dan h = low-pass.
Ingrid Daubechies telah mengklasifikasikan
koefisien secara numerik untuk N=4 atau
berorde 4 pada Tabel 1(Burrus et al. 1998).
Tabel 1 Tabel koefisien db4.
N=4
h2 h3
g2 g3
h0 h1
g0 g1
❲✒❳✠❨❬❩
Transformasi Wavelet Daubechies
Low fass
h1
g1
0
0
Koefisien
Distribusi Normal sering disebut sebaran
Gauss. Penulisan notasi dari peubah acak
yang berdistribusi normal umum adalah
N(x;µ , 2 ),
artinya
peubah
acak
X
berdistribusi normal umum dengan mean µ
2
dan varians
. Peubah acak X yang
berdistribusi normal dengan mean µ dan
varians 2 disingkat X~N(µ , 2 ).
Peubah acak X dikatakan berdistribusi
normal umum, jika dan hanya jika fungsi
densitasnya berbentuk seperti pada persamaan
13 (Herrhyanto dan Gantini 2009).
➇➉➈✧➊✴➋➍➌➏
➐✴➑ ➎
↕✫➙➜➛
➝♥➞✮➟ ➠ ➡➤➢ µ ➥✮➦➣➧
➒ ➓ ➔➣→❬↔
(13)
Dengan -