2.5 Mel-Frequency Cepstral Coefficients MFCC
Mel-Frequency Cepstral Coefficients MFCC merupakan metode pengolahan suara yang memiliki tujuan untuk mengidentifikasi asal dari
sumber suara. MFCC berdasarkan pada variasi bandwidth kritis terhadap frekuensi pada telinga manusia sehingga cara kerja yang diterapkan pada
metode ini meniru karakteristik telinga manusia Zilvan dan Muttaqien, 2011. Pada telinga manusia terdapat filter-filter yang berguna untuk
membedakan suara yang memililki frekuensi rendah dan suara yang memiliki frekuensi tinggi. Pada metode MFCC, filter pada telinga manusia
digambarkan dalam skala mel-frekuensi yang berfungsi untuk menangkap karakter penting pada suatu ucapan.
Beberapa keunggulan dari metode MFCC adalah Manunggal, 2005: 1.
Mampu menangkap karakteristik suara yang sangat penting bagi pengenalan suara atau dengan kata lain dapat menangkap informasi-
informasi penting yang terkandung dalam signal suara. 2.
Menghasilkan data seminimal mungkin tanpa menghilangkan informasi-informasi penting yang terkandung di dalamnya.
3. Mereplikasi organ pendengaran manusia dalam melakukan persepsi
terhadap signal suara. Filter-filter yang terdapat dalam telinga manusia juga memiliki
jarak yang berbeda pada sumbu frekuensi. Berdasarkan cara kerja tersebut,
MFCC juga memiliki filter yang berbeda, yaitu linearly spaced filters dan logarithmically spaced filters Hasan, Jamil, Rabbani, Rahman, 2004.
Pada linearly spaced filters memiliki frekuensi yang berada di bawah 1000Hz sedangkan pada logarithmically spaced filters memiliki frekuensi
di atas 1000Hz. Gelombang suara yang dihasilkan oleh speaker dapat memiliki
berbagai variasi tergantung dari kondisi fisik speaker tersebut. MFCC memiliki struktur berupa blok diagram yang dapat dilihat pada Gambar 2.4
Frame Blocking Continuous
Speech Windowing
FFT
Mel-Frequency Wrapping Cepstrum
Mel Cepstrum
Gambar 2.5 Diagram blok proses MFCC Do, 1994
Apabila dilihat dari Gambar 2.5, terdapat beberapa proses feature extraction dengan MFCC.
2.5.1 Frame Blocking
Sinyal suara terus mengalami perubahan karena adanya pergeseran artikulasi dari organ produksi vokal. Oleh karena itu, sinyal harus diproses
secara short segments short frame. Panjang frame yang biasanya digunakan untuk pemrosesan sinyal adalah antara 10-30 ms. Panjang
frame yang digunakan sangat mempengaruhi keberhasilan dalam analisa spektral. Di satu sisi, ukuran dari frame harus sepanjang mungkin untuk
dapat menunjukkan resolusi frekuensi yang baik. Tetapi, di sisi lain frame juga harus cukur pendek untuk dapat menunjukkan waktu yang baik.
Proses frame blocking ditunjukkan pada Gambar 2.6.
Gambar 2.6 Proses frame blocking Dengan Sn merupakan nilai sampel yang dihasilkan dan n
merupakan urutan sampel yang akan diproses Sinyal ucapan yang terdiri dari S sampel XS dibagi menjadi
beberapa frame yang berisi N sampel, yang masing-masing sampel dipisahkan oleh M MN. Frame pertama berisi sampel N pertama.
Frame kedua dimulai dari M sampel setelah frame pertama berjalan