2.5.1 Frame Blocking
Sinyal suara terus mengalami perubahan karena adanya pergeseran artikulasi dari organ produksi vokal. Oleh karena itu, sinyal harus diproses
secara short segments short frame. Panjang frame yang biasanya digunakan untuk pemrosesan sinyal adalah antara 10-30 ms. Panjang
frame yang digunakan sangat mempengaruhi keberhasilan dalam analisa spektral. Di satu sisi, ukuran dari frame harus sepanjang mungkin untuk
dapat menunjukkan resolusi frekuensi yang baik. Tetapi, di sisi lain frame juga harus cukur pendek untuk dapat menunjukkan waktu yang baik.
Proses frame blocking ditunjukkan pada Gambar 2.6.
Gambar 2.6 Proses frame blocking Dengan Sn merupakan nilai sampel yang dihasilkan dan n
merupakan urutan sampel yang akan diproses Sinyal ucapan yang terdiri dari S sampel XS dibagi menjadi
beberapa frame yang berisi N sampel, yang masing-masing sampel dipisahkan oleh M MN. Frame pertama berisi sampel N pertama.
Frame kedua dimulai dari M sampel setelah frame pertama berjalan
sehingga frame kedua ini overlap terhdap frame pertama sebanyak N-M sampel. Selanjutnya, frame ketiga dimulai M sampel setelah frame kedua
juga overlap sebanyak N-M terhadap frame kedua . Hasil dari proses ini adalah matriks dengan N baris dan beberapa kolom sinyal X[N].
Proses frame ini dilakukan terus sampai seluruh sinyal dapat diproses. Selain itu, proses ini umumnya dilakukan secara overlap yang
umum digunakan adalah kurang lebih 30 sampai 50 dari panjang frame. Overlapping dilakukan untuk menghindari hilangnya ciri atau
karakteristik suara pada perbatasan perpotongan setiap frame.
2.5.2 Windowing
Proses framing dapat menyebabkan kebocoran spektral atau aliasing. Aliasing merupakan sinyal baru yang memiliki frekuensi yang
berbeda dengan sinyal aslinya. Hal ini dapat terjadi karena rendahnya jumlah sampling rate atau proses frame blocking yang menyebabkan
sinyal menjadi discontinue. Maka dari itu, tahap windowing diperlukan agar menghidari kebocoran spektral.
Pada tahap windowing, sinyal suara yang telah mengalami frame blocking telah dibagi menjadi beberapa frame. Setiap frame yang diperoleh
akan dijadikan window untuk memperkecil kemungkinan gangguan sinyal yang terputus pada awal dan akhir setiap frame. Window dapat
didefinisikan sebagai berikut : wn
; dimana 0 ≤ n ≤ N-1 2-1
N merupakan jumlah sample pada setiap frame. Hasil yang didapatkan dari proses windowing adalah sinyal yn yang dapat
didefinisikan sebagai berikut : yn = xn wn ,
dimana 0 ≤ n ≤ N-1 2-2
Terdapat banyak fungsi window, namun yang paling sering digunakan untuk proses speaker recognition adalah hamming window.
Fungsi window ini menghasilkan sidelobe level yang tidak terlalu tinggi kurang lebih -43dB selain itu noise yang dihasilkan juga tidak terlalu
besar. Fungsi hamming window adalah sebagai berikut : wn = 0.54
– 0.46 cos [2 π n N – 1], dimana 0 ≤ n ≤ N-1 2-3
Gambar berikut menunjukkan perbedaan antara sinyal yang melalui proses windowing dan sinyal yang tanpa melalui proses
windowing.
Gambar 2.7 Sinyal dengan proses windowing
Gambar 2.8 Sinyal tanpa proses windowing