Speech Recognition LANDASAN TEORI

Gambar 2.3 Struktur dari Speaker Identification Furui,1996 Berdasarkan Gambar 2.3 dapat dilihat bahwa dalam proses Speaker Identification suara yang masuk akan melalui tahap ekstraksi. Kemudian akan dicari kemiripan yang paling dekat dengan suara yang telah dimodelkan sebelumnya untuk mengetahui identitas dari speaker. Gambar 2.4 Struktur dari Speaker Verification Furui,1996 Pada Speaker Verification suara yang masuk akan di ekstraksi kemudian akan dibandingkan dan dicari kemiripan dengan suara dari speaker yang telah dimodelkan sebelumnya dan dari speaker id. Perbandingan tersebut akan digunakan untuk menolak atau menerima suara yang masuk.

2.4 Feature Extraction

Feature extraction merupakan metode untuk mengubah sinyal menjadi beberapa parameter. Data yang akan digunakan merupakan data dari suara manusia sehingga berupa data sinyal. Tetapi tidak semua data sinyal tersebut dapat digunakan. Hal ini disebabkan karena berbagai faktor seperti suara-suara yang berada di sekitar speaker pada saat pengambilan data suara. Dengan tahap feature extraction diharapkan menghasilkan feature yang memiliki kemampuan untuk membedakan kemiripan pengucapan setiap model sehingga tidak memerlukan data training yang banyak. Pada umumnya feature extraction memiliki tiga tahap Reynold, 2002, yaitu: 1. Penggunaan program deteksi suara untuk menghilangkan noise dari sinyal suara yang menjadi obyek. 2. Feature diekstrak untuk memperoleh informasi 3. Penerapan normalisasi. Terdapat beberapa metode yang digunakan untuk mengekstrak feature yang berhubungan dengan sinyal. Metode tersebut antara lain LPC Linear Prediction Coding , Mel-Frequency Cepstral Coefficients MFCC, Neural Predictive Coding NPC, dan sebagainya. Perbandingan tingkat akurasi berbagai metode feature extraction dapat dilihat pada Tabel 2.1 Chetouani, 2004 Tabel 2.1 Tingkat akurasi berbagai metode feature extraction Sumber : Universite PierreMarrieCurrie, LA Science A Paris, 2004 Dari Tabel 2.1 di atas dapat dilihat bahwa metode NPC memiliki tingkat identifikasi yang paling tinggi dan sempurna kemudian diikuti oleh metode MFCC. NPC merupakan salah satu algoritma ekstraksi ciri yang merupakan perluasan dari LPC. Dalam kasus ini metode MFCC dirasa paling tepat karena cara kerja metode MFCC sama dengan telinga manusia sehingga untuk mengidentifikasi suara manusia lebih baik menggunakan metode MFCC.