Mel Frequency Cepstral Coefficients

Genus : Serinus Nama Ilmiah : Serinus canaria

2.4. Ekstraksi Ciri

Proses ini merupakan tahapan yang paling penting dalam mengklasifikasikan suara kicau burung passerine. Dalam ekstraksi ciri ini akan menghasilkan informasi penting yang dapat membedakan suara kicau ketiga jenis burung tersebut, seperti frekuensi, amplitudo, intensitas, dan sebagainya.

2.4.1. Mel Frequency Cepstral Coefficients

MFCC didasarkan atas variasi bandwith kritis terhadap frekuensi pada telinga manusia yang merupakan filter yang bekerja secara linier pada frekuensi rendah dan bekerja secara logaritmik pada frekuensi tinggi. Filter ini digunakan untuk menangkap karakteristik fonetis penting dari sinyal ucapan. Untuk meniru kondisi telinga, karakteristik ini digambarkan dalam skala mel-frekuensi, yang merupakan frekuensi linier di bawah 1000 Hz dan frekuensi logaritmik di atas 1000 Hz Setiawan, dkk 2011. 1. Pre-emphasis Menurut Jang 2005, sinyal suara dikirim ke filter high-pass : = − ∗ − , 2.1 dimana adalah sinyal output dan nilai � biasanya antara 0.9 dan 1.0. Z- transform dari filter adalah � = − ∗ − . 2.2 Tujuan dari pre-emphasis adalah untuk mengkompensasi bagian frekuensi tinggi yang ditekan pada saat produksi suara manusia. Selain itu juga dapat memperkuat forman penting dari frekuensi tinggi. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 2. Frame Blocking Dalam langkah ini sinyal wicara kontinyu diblok menjadi frame-frame N sampel, dengan frame-frame berdekatan dengan spasi M M N. Frame pertama terdiri dari N sampel pertama. Frame kedua dengan M sampel setelah frame pertama, dan overlap dengan N –M sampel. Dengan cara yang sama, frame ketiga dimulai 2M sampel setelah frame pertama atau M sampel setelah frame kedua dan overlap dengan N –2M sampel. Proses ini berlanjut hingga semua wicara dihitung dalam satu atau banyak frame. Nilai tipikal untuk N dan M adalah N = 256 dan M =100 Mustofa, 2007. 3. Hamming Windowing Langkah berikutnya adalah pemrosesan dengan window pada masing- masing frame individual untuk meminimalisasi sinyal tak kontinyu pada awal dan akhir masing-masing frame. Window dinyatakan sebagai wn , 0 ≤ n ≤ N−1, dengan N adalah jumlah sampel dalam masing-masing frame, adalah sinyal input dan hasil windowing adalah . = , ≤ ≤ − 2.3 Jenis window yang digunakan adalah window Hamming. = . − . � � [ � − ] , ≤ ≤ − 2.4 Dengan N adalah jumlah sampel. 4. Fast Fourier Transform Langkah pemrosesan berikutnya adalah transformasi fourier cepat fast fourier transform FFT, FFT ini mengubah masing-masing frame N sampel dari domain waktu menjadi domain frekuensi. FFT adalah algoritma cepat untuk mengimplementasikan discrete fourier transform DFT dengan didefinisikan pada kumpulan set N sampel, { }, seperti berikut ini = ∑ − � ⁄ − = , = , , , … , − 2.5 dengan, = deretan aperiodik dengan nilai � � = jumlah sampel 5. Triangular Bandpass Filters Studi psikofisikal menunjukkan bahwa persepsi manusia dari kandungan frekuensi suara pada sinyal wicara tidak mengikuti skala linier. Untuk masingmasing nada dengan frekuensi aktual, f dalam Hz, pitch diukur dengan skala ‘mel’. Skala mel-frequency adalah frekuensi linier berada dibawah 1000 Hz dan bentuk logaritmik berada diatas 1000 Hz. Sebagai titik referensi adalah pitch dengan tone 1 kHz, 40 dB diatas nilai batas ambang pendengaran, ini dinyatakan 1000 mel. Pendekatan persamaan untuk menghitung mel dalam frekuensi f Hz adalah = � � � + ⁄ 2.6 Salah satu pendekatan simulasi spektrum yaitu menggunakan filter bank, satu filter untuk masing-masing komponen mel-frequency yang diinginkan. Filter bank mempunyai respon frekuensi bandpass segitiga dan jarak bandwidth ditentukan oleh konstanta interval mel-frequency. 6. Dicrete Cosine Transform Langkah selanjutnya yaitu mengubah spektrum log mel menjadi domain waktu. Hasil ini disebut mel frequency cepstrum coefficient MFCC. Reprentasi cepstral dari spectrum wicara memberikan reprentasi baik dari sifat-sifat spektral lokal sinyal untuk analisis frame yang diketahui. Karena koefisien mel spectrum adalah bilangan nyata. Dengan mengubahnya menjadi domain waktu menggunakan discrete cosine transform DCT. Jika koefisien spektrum daya mel hasilnya adalah �̃ , = , , … , �, sehingga MFCC dapat dihitung, �̃ adalah PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI ̃ = ∑ � � ̃ � � [ − � ] = , = , , … , 2.7 Dimana �̃ adalah koefisien cepstrum mel-frequency dan �̃ adalah koefisien daya mel. 7. Log Energy Merupakan salah satu cara untuk menambah nilai koefisien yang dihitung dari linear prediction atau mel-cepstrum, nilai tersebut merupakan log energy signal. Ini berarti pada setiap frame terdapat nilai energi yang ditambahkan, berikut rumus untuk menghitung nilai energi : � = � � ∑ _ ; �− �= 2.8 x_windowed = sinyal hasil windowing, k = jumlah frame, dan m = panjang frame Sidiq, dkk 2015. 8. Delta Cepstrum Secara umum metode yang digunakan untuk mandapatkan informasi dari ciri yang dinamis biasa disebut dengan delta-features. Turunan waktu dari ciri dapat dihitung dengan beberapa metode, hasil dari perhitungan delta akan ditambahkan ke vektor ciri, sehingga menghasilkan vektor ciri yang lebih besar. Nilai dari delta akan diturunkan sekali lagi terhadap waktu menjadi nilai delta-delta pada beberapa kasus delta-delta disebut dengan koefisien percepatan, karena nilai tersebut turunan dari kuadrat waktu dari koefisien. Persamaan untuk menghitung feature ini adalah ∆� = [ = − � + ][ = − ], 2.9 Nilai M biasanya bernilai 2. Jika menambahkan kecepatan, feature berdimensi 26. Jika menambahkan baik kecepatan dan akselerasi, dimensi feature menjadi 39. Pada umumnya sistem pengenalan suara menggunakan 39 feature ini untuk mengenali Jang, 2005.

2.5. Jaringan Syaraf Tiruan