Pada Gambar 1 diperlihatkan adanya bagian yang berwarna biru gelap yang merepresentasikan bagian dari sinyal suara di mana suara tidak
dihasilkan. Sedangkan, bagian yang bewarna merah merepresentasikan intensitas yang menandakan suara dihasilkan.
Gambar 1. Spectrogram menggunakan metode Welch Nilsson dan Ejnarsson 2002
Proses analisa sinyal dalam bentuk jumlah sinusoida telah banyak digunakan seperti pada aplikasi analisa ucapan, sonar, hingga analisa musik
terkini dimana mereka berkaitan dengan keharmonisan sumber suara musik. Metode yang paling tua dari analisa sinyal suara adalah berdasarkan
dari transformasi Fourier yang diformulasikan sebagai berikut :
dt e
t x
X
t j
1
dan inversnya, yaitu :
d e
X t
x
t j
2
1 2
di mana xt adalah sinyal time-domain kontinu sementara X ω adalah
transformasinya, yang sama-sama kontinu dalam frekuensi dan t serta ω
tidak terikat. Sifat ini tidak cocok untuk sinyal audio digital karena diskret terhadap proses sampling dan juga terikat dengan waktu Hainsworth 2003.
Oleh karena itu, digunakan Discrete Fourier Transform DFT:
M knj
M M
k M
M n
M knj
e k
X M
n x
e n
x k
X
2 1
2 2
1 2
2 2
1
3
4
di mana X[k] dikalkulasikan untuk range –M2 ≤ k M2 dan juga
tergantung pada panjang sinyal time-domain M. Sinyal musik menunjukkan variasi amplitudo dan frekuensi dari waktu
ke waktu. Representasi sinyal musik yang lebih baik dari DFT adalah short time Fourier Transform STFT. Hal ini menerapkan window h[n], panjang
N M pada data :
N j
k N
N h
e n
x h
n k
X
2 1
2 2
,
5
2.4 Frame Blocking dan Windowing
Sinyal suara umumnya dipilah-pilah menjadi sejumlah segmen sinyal. Segmen sinyal suara ini disebut frame. Tujuan sinyal suara dipilah-pilah ke
dalam sejumlah frame agar karakteristiknya dapat ditangkap, di mana karakteristiknya tidak berubah dalam rentang waktu yang pendek.
Lebar setiap frame yang ditentukan di dalam suatu aplikasi pengolahan suara adalah sama misalnya 30 milidetik, sehingga setiap
framenya akan memiliki jumlah sampel yang sama pula, misalnya N sampel Lai 2003. Frame kedua adalah frame yang juga memiliki N sampel yang
posisi awal framenya bergeser sebanyak M sampel dari posisi awal frame pertama.
Begitu juga frame ketiga, dengan N sampel yang posisi awal framenya bergeser sebanyak M sampel dari posisi awal frame kedua atau sebanyak
2M sampel dari posisi awal frame pertama. Demikian pula seterusnya hingga frame terakhir.
M dapat diperoleh dari
N M
3 1
atau M = abN di mana a dan b adalah bilangan asli, a
≤ b dan M ≤ N. Overlap antara suatu frame dengan frame sebelahnya adalah N
– M sampel Rabiner dan Juang 1993. Adanya overlap dimaksudkan agar pengambilan sampel-sampel dari frame
berikutnya dapat bergerak secara halus smooth sehingga karakteristik sinyal suara dalam setiap framenya tidak banyak berkurang. Ilustrasi tentang
pembentukan frame dapat dilihat pada Gambar 2.
Gambar 2. Pembentukan frame pada sinyal suara Rabiner dan Juang 1993
Tahap selanjutnya dari pemrosesan sinyal adalah membuat window terhadap tiap-tiap frame dengan tujuan untuk meminimalkan ketidak-
kontinuan pada awal dan akhir setiap frame. Umumnya, window yang digunakan adalah window Hamming. Pembentukan window Hamming
menggunakan formula : 1
, ,
; 1
2 cos
46 ,
54 ,
N
n N
n
n
6
dengan N adalah banyaknya sampel. Keuntungan menggunakan window Hamming adalah memiliki
kebocoran spektral yang lebih sedikit dari pada tanpa menggunakan window Hamming Ahrendt 2006.
Kebocoran spektral spectral leakage adalah efek pada analisis frekuensi sinyal di mana munculnya sejumlah energi sinyal kecil yang
diamati pada komponen frekuensi yang tidak terdapat pada bentuk gelombang aslinya. Istilah kebocoran di sini dimaksudkan bahwa seolah-
olah terdapat sebagian energi yang bocor keluar dari spektrum sinyal aslinya ke frekuensi yang lain http:en.wikipedia.orgwikiSpectral_leakage.
Setelah sinyal suara dibagi-bagi ke dalam frame, setiap frame sinyal suara tersebut dikenakan operasi window Hamming. Selanjutnya proses
ekstraksi ciri akan dilakukan terhadap setiap frame tersebut.
Sinyal suara
N N
N M
M Frame
3
Frame
1
Frame
2
N – M