proses pencocokan nilai ciri suara yang diterima dengan nilai ciri suara acuan basis data ciri suara Furui 1997.
Dari sudut pandang linguistik, terdapat dua metode yang dapat diterapkan untuk mengembangkan sistem identifikasi pembicara. Metode pertama disebut
text-dependent, dan metode kedua disebut text-independent. Sistem identifikasi pembicara yang mengadopsi metode text-dependent, harus mengetahui dan
menentukan terlebih dahulu teks yang akan diucapkan pembicara. Contoh penerapan metode text-dependent adalah pada pengucapan PIN nomor identitas
diri yang digunakan sebagai kata kunci. Sistem identifikasi pembicara yang mengadopsi metode text-independent, tidak perlu menentukan teks apa yang harus
diucapkan pembicara, sehingga pembicara bebas menentukan pilihan teks yang akan diucapkannya Furui 1997.
2.3 Preemphasis
Preemphasis adalah teknik yang digunakan untuk menyaring sinyal suara, umumnya dilakukan menggunakan Finite Impulse Response FIR. Persamaan
yang digunakan pada proses preemphasis mempunyai bentuk sebagai berikut: Fw = 1 – a.Z
-1
0 a 1
1
dimana a adalah faktor preemphasis, nilai yang direkomendasikan untuk a adalah 0,95 Rabiner et al. 1993. Jika Z adalah e
jw
, maka fungsi penyaringan preemphasis dapat dinyatakan dengan
Fw = 1 – a.e
-j.w
2 Preemphasis diterapkan pada sinyal dijital untuk menstabilkan spektrum
sinyal dan memperkecil dampak keterbatasan ketelitian perhitungan. Persamaan 2 diatas, dapat dituliskan kembali sebagai berikut Rabiner et al. 1993.
Fw = 1 – 0,95 e
-j.w
3
2.4 Frame
Untuk memudahkan dan mempercepat proses analisis suara, dilakukan pemecahan sinyal suara menjadi beberapa partisi, disebut juga frame.
Pembentukan frame dilakukan menggunakan parameter lebar waktu tertentu umumnya 10 ms hingga 50 ms dan lebar overlap.
Penentuan jumlah data pada setiap frame dihitung menggunakan persamaan:
, 1000
fs fr
N =
4
dimana fr adalah lebar waktu frame, fs adalah frekuensi suara, dan N adalah
jumlah data per frame. Metode Welch, adalah salah satu metode yang dapat digunakan untuk
membentuk frame. Pembentukan frame, dilakukan dengan membagi sinyal suara
dijital menjadi sejumlah K frame. Dengan N data per satu frame-nya, dan D titik awal terjadinya overlapping dalam frame, maka N dikurangi D atau N - D,
adalah jumlah data pada bagian overlap. Secara matematis persamaan untuk mendapatkan sejumlah frame dari satu sinyal suara, dapat dituliskan sebagai
berikut: K = L – NN – D + 1, dimana L merupakan panjang sinyal suara
Shiavi 1991. Overlap merupakan bagian dari frame, berfungsi menjaga keterkaitan antar
frame yang berdampingan, dan memperkecil tingkat resiko kehilangan informasi dan nilai ciri yang terdapat pada setiap frame. Contoh visualisasi 1 frame
disajikan pada Gambar 1.
Gambar 1 Visualisasi satu frame suara
2.5 Window
Window, adalah fungsi yang dapat digunakan untuk mengarahkan nilai data pada setiap frame sesuai dengan bentuk kurva window. Window yang umum
digunakan pada proses analisis suara ekstraksi ciri, adalah hamming window, dinyatakan dengan persamaan Porat 1997,
, 1
2 cos
46 .
54 .
⎟⎟ ⎠
⎞ ⎜⎜
⎝ ⎛
− −
= N
n n
w π
≤ n ≤ N – 1 5
dimana N merupakan lebar window, umumnya memiliki nilai yang sama dengan
lebar waktu frame. Visualisasi hamming window, disajikan pada Gambar 2. Jika
window dinyatakan dengan simbol wn, dan frame dinyatakan dengan x
i
n,
maka penerapan window terhadap setiap frame, akan menghasilkan sinyal baru lihat Gambar 3, dan dapat dinyatakan dengan persamaan berikut: Rabiner
et al. 1993
~ n x
. ~
n w
n x
n x
i
= ,
≤ n ≤ N – 1 6
Gambar 2 Bentuk kurva hamming window
Gambar 3 Hasil penerapan hamming window terhadap frame suara
2.6 Transformasi Fourier Diskret DFT