Struktur Dasar dari Sistem Speaker Recognition

2.5 Mel-Frequency Cepstral Coefficients MFCC

Mel-Frequency Cepstral Coefficients MFCC merupakan metode pengolahan suara yang memiliki tujuan untuk mengidentifikasi asal dari sumber suara. MFCC berdasarkan pada variasi bandwidth kritis terhadap frekuensi pada telinga manusia sehingga cara kerja yang diterapkan pada metode ini meniru karakteristik telinga manusia Zilvan dan Muttaqien, 2011. Pada telinga manusia terdapat filter-filter yang berguna untuk membedakan suara yang memililki frekuensi rendah dan suara yang memiliki frekuensi tinggi. Pada metode MFCC, filter pada telinga manusia digambarkan dalam skala mel-frekuensi yang berfungsi untuk menangkap karakter penting pada suatu ucapan. Beberapa keunggulan dari metode MFCC adalah Manunggal, 2005: 1. Mampu menangkap karakteristik suara yang sangat penting bagi pengenalan suara atau dengan kata lain dapat menangkap informasi- informasi penting yang terkandung dalam signal suara. 2. Menghasilkan data seminimal mungkin tanpa menghilangkan informasi-informasi penting yang terkandung di dalamnya. 3. Mereplikasi organ pendengaran manusia dalam melakukan persepsi terhadap signal suara. Filter-filter yang terdapat dalam telinga manusia juga memiliki jarak yang berbeda pada sumbu frekuensi. Berdasarkan cara kerja tersebut, MFCC juga memiliki filter yang berbeda, yaitu linearly spaced filters dan logarithmically spaced filters Hasan, Jamil, Rabbani, Rahman, 2004. Pada linearly spaced filters memiliki frekuensi yang berada di bawah 1000Hz sedangkan pada logarithmically spaced filters memiliki frekuensi di atas 1000Hz. Gelombang suara yang dihasilkan oleh speaker dapat memiliki berbagai variasi tergantung dari kondisi fisik speaker tersebut. MFCC memiliki struktur berupa blok diagram yang dapat dilihat pada Gambar 2.4 Frame Blocking Continuous Speech Windowing FFT Mel-Frequency Wrapping Cepstrum Mel Cepstrum Gambar 2.5 Diagram blok proses MFCC Do, 1994 Apabila dilihat dari Gambar 2.5, terdapat beberapa proses feature extraction dengan MFCC.

2.5.1 Frame Blocking

Sinyal suara terus mengalami perubahan karena adanya pergeseran artikulasi dari organ produksi vokal. Oleh karena itu, sinyal harus diproses secara short segments short frame. Panjang frame yang biasanya digunakan untuk pemrosesan sinyal adalah antara 10-30 ms. Panjang frame yang digunakan sangat mempengaruhi keberhasilan dalam analisa spektral. Di satu sisi, ukuran dari frame harus sepanjang mungkin untuk dapat menunjukkan resolusi frekuensi yang baik. Tetapi, di sisi lain frame juga harus cukur pendek untuk dapat menunjukkan waktu yang baik. Proses frame blocking ditunjukkan pada Gambar 2.6. Gambar 2.6 Proses frame blocking Dengan Sn merupakan nilai sampel yang dihasilkan dan n merupakan urutan sampel yang akan diproses Sinyal ucapan yang terdiri dari S sampel XS dibagi menjadi beberapa frame yang berisi N sampel, yang masing-masing sampel dipisahkan oleh M MN. Frame pertama berisi sampel N pertama. Frame kedua dimulai dari M sampel setelah frame pertama berjalan