dimana N merupakan lebar window, umumnya memiliki nilai yang sama dengan
lebar waktu frame. Visualisasi hamming window, disajikan pada Gambar 2. Jika
window dinyatakan dengan simbol wn, dan frame dinyatakan dengan x
i
n,
maka penerapan window terhadap setiap frame, akan menghasilkan sinyal baru lihat Gambar 3, dan dapat dinyatakan dengan persamaan berikut: Rabiner
et al. 1993
~ n x
. ~
n w
n x
n x
i
= ,
≤ n ≤ N – 1 6
Gambar 2 Bentuk kurva hamming window
Gambar 3 Hasil penerapan hamming window terhadap frame suara
2.6 Transformasi Fourier Diskret DFT
Proses analisis suara, umumnya menggunakan sinyal suara dalam domain frekuensi, namun sinyal suara terekam berada dalam domain waktu, sehingga
perlu pengubahan domain sinyal. Salah satu metode yang dapat digunakan untuk mengubah domain sinyal, adalah metode transformasi Fourier.
Transformasi sinyal akan lebih stabil dan sinyal berbentuk periodik dengan periode N, bila dilakukan pada interval waktu yang cukup pendek atau dalam
bentuk frame. Transformasi Fourier cepat FFT, merupakan varian dari transformasi Fourier diskret DFT, biasa digunakan pada proses analisis suara.
FFT, merupakan metode transformasi hasil perbaikan dari DFT, dan memiliki pengulangan proses yang lebih sedikit dibanding DFT. Persamaan transformasi
Fourier yang digunakan, adalah Rabiner et al. 1993.
k n
N j
N n
k
e .
n x
X
⎟ ⎠
⎞ ⎜
⎝ ⎛
− −
=
∑
=
π
2 1
, dimana 0 ≤ k ≤ N – 1
7 Sedangkan skema transformasi Fourier disajikan pada Gambar 4.
Gambar 4 Skema transformasi Fourier Karpov 2003
2.7 Mel-Frequency Cepstral Coefficients
Untuk setiap nada frekuensi f, yang dinyatakan dalam Hertz Hz, adalah suatu titi nada yang diukur menggunakan skala pengukuran, disebut skala “mel”.
Sebagai titik acuan, suatu titi nada 1 kHz nada, 40 dB diatas batas kemampuan pendengaran manusia, dinyatakan sebagai 1000 mel. Hubungan lain dengan nilai
titi nada, diperoleh dengan menyesuaikan frekuensi nada, menjadi setengah atau 2 kali frekuensi acuan, dan dinyatakan dengan 500 mel atau 2000 mel.
Skala Mel Melodi di bawah 1000 Hz, merupakan frekuensi linier, dan mel dengan skala di atas 1000 Hz, merupakan frekuensi logaritmik. Skala mel
ekivalen dengan nilai frekuensi f , dapat dinyatakan dengan persamaan melf = 2595 . log
10
1 + f 700
8
dimana f menunjukan frekuensi sebenarnya, dan melf adalah frekuensi yang
dihasilkan dalam skala mel. Mel-Frequency Cepstral Coefficients MFCC, merupakan salah satu
metode untuk mendapatkan informasi spesifik atau nilai ciri dari suara. Dengan menerapkankan koefisien mel pada penyaringan mel-triangular lihat Gambar 6,
setiap frame suara yang telah melalui proses transformasi fourier, disaring dengan mel-triangular filter bank, kemudian hasil penyaringan tersebut dikompresi
menggunakan fungsi log, untuk selanjutnya ditransformasikan menjadi koefisien
cesptral menggunakan Discrete Cosine Transformation DCT. Tahapan proses MFCC dituangkan dalam suatu blok diagram proses, disajikan pada Gambar 5.
Hasil proses metode MFCC, adalah vector yang berisi data ciri atau Cepstrum, tahapan proses metode MFCC dapat dinyatakan menggunakan
pseudocode berikut Karpov 2003:
Cepsframe = DCTlog
10
absFFTframe 9
Gambar 5 Blok diagram proses MFCC Discrete Cosine Transformation DCT, digunakan untuk mendapat nilai
koefisien cepstral. DCT dinyatakan dengan persamaan: N
k N
k n
n x
k k
y
N n
, ......
, 1
, 2
1 1
2 cos
1
= −
− =
∑
=
π ω
10 Posisi pertama dari vektor yang dihasilkan metode MFCC dapat diabaikan,
karena tidak terlalu mempengaruhi hasil proses selanjutnya Rabiner et al. 1993.
Gambar 6 mel filter-bank dengan triangular bandpass
2.8 Peubah Acak Kontinyu.