Sinyal Suara Perbandingan metode voting feature intervals dengan jaringan saraf tiruan dalam mengklasifikasi genre musik

Pada Gambar 1 diperlihatkan adanya bagian yang berwarna biru gelap yang merepresentasikan bagian dari sinyal suara di mana suara tidak dihasilkan. Sedangkan, bagian yang bewarna merah merepresentasikan intensitas yang menandakan suara dihasilkan. Gambar 1. Spectrogram menggunakan metode Welch Nilsson dan Ejnarsson 2002 Proses analisa sinyal dalam bentuk jumlah sinusoida telah banyak digunakan seperti pada aplikasi analisa ucapan, sonar, hingga analisa musik terkini dimana mereka berkaitan dengan keharmonisan sumber suara musik. Metode yang paling tua dari analisa sinyal suara adalah berdasarkan dari transformasi Fourier yang diformulasikan sebagai berikut :     dt e t x X t j         1 dan inversnya, yaitu :         d e X t x t j      2 1 2 di mana xt adalah sinyal time-domain kontinu sementara X ω adalah transformasinya, yang sama-sama kontinu dalam frekuensi dan t serta ω tidak terikat. Sifat ini tidak cocok untuk sinyal audio digital karena diskret terhadap proses sampling dan juga terikat dengan waktu Hainsworth 2003. Oleh karena itu, digunakan Discrete Fourier Transform DFT:         M knj M M k M M n M knj e k X M n x e n x k X   2 1 2 2 1 2 2 2 1            3 4 di mana X[k] dikalkulasikan untuk range –M2 ≤ k M2 dan juga tergantung pada panjang sinyal time-domain M. Sinyal musik menunjukkan variasi amplitudo dan frekuensi dari waktu ke waktu. Representasi sinyal musik yang lebih baik dari DFT adalah short time Fourier Transform STFT. Hal ini menerapkan window h[n], panjang N M pada data :       N j k N N h e n x h n k X      2 1 2 2 ,        5

2.4 Frame Blocking dan Windowing

Sinyal suara umumnya dipilah-pilah menjadi sejumlah segmen sinyal. Segmen sinyal suara ini disebut frame. Tujuan sinyal suara dipilah-pilah ke dalam sejumlah frame agar karakteristiknya dapat ditangkap, di mana karakteristiknya tidak berubah dalam rentang waktu yang pendek. Lebar setiap frame yang ditentukan di dalam suatu aplikasi pengolahan suara adalah sama misalnya 30 milidetik, sehingga setiap framenya akan memiliki jumlah sampel yang sama pula, misalnya N sampel Lai 2003. Frame kedua adalah frame yang juga memiliki N sampel yang posisi awal framenya bergeser sebanyak M sampel dari posisi awal frame pertama. Begitu juga frame ketiga, dengan N sampel yang posisi awal framenya bergeser sebanyak M sampel dari posisi awal frame kedua atau sebanyak 2M sampel dari posisi awal frame pertama. Demikian pula seterusnya hingga frame terakhir. M dapat diperoleh dari N M 3 1  atau M = abN di mana a dan b adalah bilangan asli, a ≤ b dan M ≤ N. Overlap antara suatu frame dengan frame sebelahnya adalah N – M sampel Rabiner dan Juang 1993. Adanya overlap dimaksudkan agar pengambilan sampel-sampel dari frame berikutnya dapat bergerak secara halus smooth sehingga karakteristik sinyal suara dalam setiap framenya tidak banyak berkurang. Ilustrasi tentang pembentukan frame dapat dilihat pada Gambar 2. Gambar 2. Pembentukan frame pada sinyal suara Rabiner dan Juang 1993 Tahap selanjutnya dari pemrosesan sinyal adalah membuat window terhadap tiap-tiap frame dengan tujuan untuk meminimalkan ketidak- kontinuan pada awal dan akhir setiap frame. Umumnya, window yang digunakan adalah window Hamming. Pembentukan window Hamming menggunakan formula : 1 , , ; 1 2 cos 46 , 54 ,            N n N n n    6 dengan N adalah banyaknya sampel. Keuntungan menggunakan window Hamming adalah memiliki kebocoran spektral yang lebih sedikit dari pada tanpa menggunakan window Hamming Ahrendt 2006. Kebocoran spektral spectral leakage adalah efek pada analisis frekuensi sinyal di mana munculnya sejumlah energi sinyal kecil yang diamati pada komponen frekuensi yang tidak terdapat pada bentuk gelombang aslinya. Istilah kebocoran di sini dimaksudkan bahwa seolah- olah terdapat sebagian energi yang bocor keluar dari spektrum sinyal aslinya ke frekuensi yang lain http:en.wikipedia.orgwikiSpectral_leakage. Setelah sinyal suara dibagi-bagi ke dalam frame, setiap frame sinyal suara tersebut dikenakan operasi window Hamming. Selanjutnya proses ekstraksi ciri akan dilakukan terhadap setiap frame tersebut. Sinyal suara N N N M M Frame 3 Frame 1 Frame 2 N – M