Genus : Serinus Nama Ilmiah : Serinus canaria
2.4. Ekstraksi Ciri
Proses ini
merupakan tahapan
yang paling
penting dalam
mengklasifikasikan suara kicau burung passerine. Dalam ekstraksi ciri ini akan menghasilkan informasi penting yang dapat membedakan suara kicau ketiga jenis
burung tersebut, seperti frekuensi, amplitudo, intensitas, dan sebagainya.
2.4.1. Mel Frequency Cepstral Coefficients
MFCC didasarkan atas variasi bandwith kritis terhadap frekuensi pada telinga manusia yang merupakan filter yang bekerja secara linier pada frekuensi
rendah dan bekerja secara logaritmik pada frekuensi tinggi. Filter ini digunakan untuk menangkap karakteristik fonetis penting dari sinyal ucapan. Untuk meniru
kondisi telinga, karakteristik ini digambarkan dalam skala mel-frekuensi, yang merupakan frekuensi linier di bawah 1000 Hz dan frekuensi logaritmik di atas 1000
Hz Setiawan, dkk 2011. 1.
Pre-emphasis Menurut Jang 2005, sinyal suara
dikirim ke filter high-pass : =
− ∗ − ,
2.1
dimana adalah sinyal output dan nilai
� biasanya antara 0.9 dan 1.0. Z- transform dari filter adalah
� = − ∗
−
. 2.2
Tujuan dari pre-emphasis adalah untuk mengkompensasi bagian frekuensi tinggi yang ditekan pada saat produksi suara manusia. Selain itu juga dapat memperkuat
forman penting dari frekuensi tinggi. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2. Frame Blocking
Dalam langkah ini sinyal wicara kontinyu diblok menjadi frame-frame N sampel, dengan frame-frame berdekatan dengan spasi M M N. Frame pertama
terdiri dari N sampel pertama. Frame kedua dengan M sampel setelah frame pertama, dan overlap dengan N
–M sampel. Dengan cara yang sama, frame ketiga dimulai 2M sampel setelah frame pertama atau M sampel setelah frame kedua dan
overlap dengan N –2M sampel. Proses ini berlanjut hingga semua wicara dihitung
dalam satu atau banyak frame. Nilai tipikal untuk N dan M adalah N = 256 dan M =100 Mustofa, 2007.
3. Hamming Windowing
Langkah berikutnya adalah pemrosesan dengan window pada masing- masing frame individual untuk meminimalisasi sinyal tak kontinyu pada awal dan
akhir masing-masing frame. Window dinyatakan sebagai wn , 0 ≤ n ≤ N−1, dengan
N adalah jumlah sampel dalam masing-masing frame, adalah sinyal input
dan hasil windowing adalah .
= , ≤ ≤ −
2.3
Jenis window yang digunakan adalah window Hamming. = .
− . � � [
� −
] , ≤ ≤ − 2.4
Dengan N adalah jumlah sampel.
4. Fast Fourier Transform
Langkah pemrosesan berikutnya adalah transformasi fourier cepat fast fourier transform FFT, FFT ini mengubah masing-masing frame N sampel dari
domain waktu menjadi domain frekuensi. FFT adalah algoritma cepat untuk mengimplementasikan discrete fourier transform DFT dengan didefinisikan pada
kumpulan set N sampel, { }, seperti berikut ini
= ∑
− � ⁄
− =
, = , , , … , −
2.5
dengan, = deretan aperiodik dengan nilai �
� = jumlah sampel
5. Triangular Bandpass Filters
Studi psikofisikal menunjukkan bahwa persepsi manusia dari kandungan frekuensi suara pada sinyal wicara tidak mengikuti skala linier. Untuk
masingmasing nada dengan frekuensi aktual, f dalam Hz, pitch diukur dengan skala ‘mel’. Skala mel-frequency adalah frekuensi linier berada dibawah 1000 Hz dan
bentuk logaritmik berada diatas 1000 Hz. Sebagai titik referensi adalah pitch dengan tone 1 kHz, 40 dB diatas nilai batas ambang pendengaran, ini dinyatakan
1000 mel. Pendekatan persamaan untuk menghitung mel dalam frekuensi f Hz adalah
= � � �
+ ⁄
2.6
Salah satu pendekatan simulasi spektrum yaitu menggunakan filter bank, satu filter untuk masing-masing komponen mel-frequency yang diinginkan. Filter
bank mempunyai respon frekuensi bandpass segitiga dan jarak bandwidth ditentukan oleh konstanta interval mel-frequency.
6. Dicrete Cosine Transform
Langkah selanjutnya yaitu mengubah spektrum log mel menjadi domain waktu. Hasil ini disebut mel frequency cepstrum coefficient MFCC. Reprentasi
cepstral dari spectrum wicara memberikan reprentasi baik dari sifat-sifat spektral lokal sinyal untuk analisis frame yang diketahui. Karena koefisien mel spectrum
adalah bilangan nyata. Dengan mengubahnya menjadi domain waktu menggunakan discrete cosine transform DCT. Jika koefisien spektrum daya mel hasilnya adalah
�̃ , = , , … , �, sehingga MFCC dapat dihitung, �̃ adalah PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
̃ = ∑ � � ̃ � � [
−
�
]
=
, = , , … ,
2.7
Dimana �̃ adalah koefisien cepstrum mel-frequency dan �̃ adalah
koefisien daya mel.
7. Log Energy
Merupakan salah satu cara untuk menambah nilai koefisien yang dihitung dari linear prediction atau mel-cepstrum, nilai tersebut merupakan log energy
signal. Ini berarti pada setiap frame terdapat nilai energi yang ditambahkan, berikut rumus untuk menghitung nilai energi :
� = � � ∑ _
;
�− �=
2.8
x_windowed = sinyal hasil windowing, k = jumlah frame, dan m = panjang frame Sidiq, dkk 2015.
8. Delta Cepstrum
Secara umum metode yang digunakan untuk mandapatkan informasi dari ciri yang dinamis biasa disebut dengan delta-features. Turunan waktu dari ciri dapat
dihitung dengan beberapa metode, hasil dari perhitungan delta akan ditambahkan ke vektor ciri, sehingga menghasilkan vektor ciri yang lebih besar. Nilai dari delta
akan diturunkan sekali lagi terhadap waktu menjadi nilai delta-delta pada beberapa kasus delta-delta disebut dengan koefisien percepatan, karena nilai tersebut turunan
dari kuadrat waktu dari koefisien. Persamaan untuk menghitung feature ini adalah
∆� = [ = −
� +
][ = − ],
2.9
Nilai M biasanya bernilai 2. Jika menambahkan kecepatan, feature berdimensi 26. Jika menambahkan baik kecepatan dan akselerasi, dimensi feature menjadi 39.
Pada umumnya sistem pengenalan suara menggunakan 39 feature ini untuk mengenali Jang, 2005.
2.5. Jaringan Syaraf Tiruan