Speaker Identification System Modeling Using MFCC as Feature Extraction and SVM as Pattern Recognition

NTIFIKASI PEMBICARA DENGAN

PEMODELAN IDENTIFIKASI PEMBICARA DENGAN
MFCC SEBAGAI EKSTRAKSI CIRI DAN
SVM SEBAGAI PENGENALAN POLA

LUTHFAN ALMANFALUTHI

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis Pemodelan Identifikasi Pembicara
Dengan MFCC Sebagai Ekstraksi Ciri Dan SVM Sebagai Pengenalan Pola adalah
benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam
bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal
atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain
telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir

tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.

Bogor, Februari 2014
Luthfan Almanfaluthi
NIM G651100354

Pelimpahan hak cipta atas karya tulis dari penelitian kerja sama dengan pihak
luar IPB harus didasarkan pada perjanjian kerja sama yang terkait.
*

RINGKASAN
LUTHFAN ALMANFALUTHI. Pemodelan Identifikasi Pembicara dengan MFCC
sebagai Ekstraksi Ciri dan SVM sebagai Pengenalan Pola. Dibimbing oleh AGUS
BUONO dan YANI NURHADRYANI.
Setiap hari manusia bertukar informasi dengan menggunakan media suara
walaupun dapat juga bertukar informasi dengan media teks dan alat bantu
semacamnya. Sinyal suara yang diucapkan setiap manusia memiliki karakter dan
kualitas yang berbeda atau bersifat unik. Masyarakat Indonesia mempunyai

beragam suku dan budaya, sehingga banyak permasalahan pola ucapan yang
berbeda-beda untuk satu kata yang sama. Oleh karena permasalahan ini bisa
menjadi problem dalam sistem identifikasi pembicara, sehingga perlu
dikembangkan suatu sistem yang relatif lebih robust terhadap permasalahan intraspeaker variability dan noise. Sistem identifikasi pembicara lebih berfokus pada
analisis dengan dua subsistem yaitu Feature Extractor (ekstraksi ciri) dan Pattern
Recogniser (pengenalan pola). Mel-Frequency Cepstrum Coefficients (MFCC)
adalah salah satu ekstraksi ciri yang sering digunakan untuk pemrosesan suara
manusia karena menghitung koefisien cepstral dengan mempertimbangkan
pendengaran manusia. Support Vector Machine (SVM) merupakan salah satu
teknik klasifikasi data dengan proses pelatihan (supervised learning) yang mampu
mengklasifikasikan multi class sehingga cocok untuk pengenalan lebih dari dua
kelas.
Pengambilan data suara dilakukan dengan menggunakan alat mikrofon.
Sumber suara diperoleh dari 10 orang pembicara dewasa dengan perbedaan jenis
kelamin, umur dan suku yang masing-masing mengucapkan 50 kali kata
“KOMPUTER” yang hingga didapatkan 500 data suara. Durasi rekam yang
digunakan yaitu 2 detik dengan besar frekuensi rekam 16 KHz. Sebelum suara
diproses maka melalui tahapan praproses yang terdiri atas penghapusan silence,
normalisasi dan penambahan noise. Sinyal noise yang ditambahkan bersifat
Gaussian dengan level 80 dB sampai dengan 0 dB. Pengenalan pola dengan

menggunakan SVM menggunakan algoritma QP dan algoritma SMO. Pengujian
fungsi Kernel diujicobakan untuk fungsi RBF, Quadratic dan Linear untuk masingmasing algoritma.
Pengenalan Pola menggunakan fungsi Kernel Quadratic dengan rasio 90 : 10
menunjukan bahwa untuk data uji suara asli tanpa noise, algoritma SMO
menghasilkan keakuratan 97.0% dan sistem dapat mempertahankan keakuratan
diatas 70% sampai penambahan noise 40dB. Banyaknya error untuk ke-10
pembicara menggunakan data uji suara asli tanpa noise yang paling banyak adalah
pembicara nomor 9 (Pria, 41 tahun, Jawa). Waktu proses algoritma SMO lebih baik
dibandingkan dengan algoritma QP. Penelitian selanjutnya dapat ditambahkan
Noise Cancelling untuk memperbesar keakuratan pada data suara yang
dikontaminasi noise.
Kata kunci: identifikasi pembicara, MFCC, SVM

SUMMARY
LUTHFAN ALMANFALUTHI. Speaker Identification System Modeling Using
MFCC as Feature Extraction and SVM as Pattern Recognition. Supervised by
AGUS BUONO and YANI NURHADRYANI.
Everyday people exchange information using voice may also exchange
information with the media texts and tools. Voice signal every human has the
character and qualities of different or unique. Indonesia has a diverse ethnic,

communities and cultures, many problems are for the same word has different
pronunciation patterns. Because of this problem could be a problem in the speaker
identification system, so it is necessary to develop a system that is relatively more
robust to the problem of intra-speaker variability and noise. Speaker identification
system is more focused on the analysis of the two subsystems, namely Feature
Extractor and Pattern Recogniser. Mel-Frequency Cepstrum Coefficients (MFCC)
is one of feature extraction that is often used for processing the human voice for
calculating the cepstral coefficients with the consideration of human hearing.
Support Vector Machine (SVM) is one of the classification techniques of data with
the supervised learning that is able to classify the multi-class so it is suitable for the
classification of more than two classes.
Data collection was performed using a microphone to record sound. Sound
source was obtained from 10 adult speakers with differences in gender, age and
ethnicity, which each speakers say 50 times the word "COMPUTER" so that
obtained 500 data. Record duration is 2 seconds with a frequency of 16 KHz. Before
data is processed, a preprocessing stage consisting of the elimination of silence,
normalization and noise addition. Gaussian noise is added from the level of 80 dB
to 0 dB. After the MFCC feature extraction is done, the next stage is SVM pattern
recognition using QP and SMO algorithms. Kernel function tested for RBF, Linear,
and Quadratic for each algorithm.

Pattern Recognition using Kernel quadratic function with a ratio of 90 : 10
for the test data that the original sound without noise, SMO algorithm produces
accuracy of 97.0% and the accuracy of the system can maintain above 70% up to
40dB noise addition. The number of errors for all 10 speakers using the test data of
the original sound without noise is at most the number 9 speakers (Male, 41 years
old, Java). The processing time SMO algorithm is better than the QP algorithm.
Future studies may be added to increase the accuracy of Noise Cancelling the voice
data is contaminated by noise.
Key words : Speaker Identification, MFCC, SVM

© Hak Cipta Milik IPB, Tahun 2014
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau
menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian,
penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu
masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini dalam
bentuk apa pun tanpa izin IPB

PEMODELAN IDENTIFIKASI PEMBICARA DENGAN

MFCC SEBAGAI EKSTRAKSI CIRI DAN
SVM SEBAGAI PENGENALAN POLA

LUTHFAN ALMANFALUTHI

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Komputer
pada
Program Studi Ilmu Komputer

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014

Penguji Luar Komisi pada Ujian Tesis: Dr Bib Paruhum Silalahi, MKom

Judul Tesis
Nama

NIM

: Pemodelan Identifikasi Pembicara dengan MFCC sebagai
Ekstraksi Ciri dan SVM sebagai Pengenalan Pola
: Luthfan Almanfaluthi
: G651100354

Disetujui oleh
Komisi Pembimbing

Dr Ir Agus Buono, MSi MKom
Ketua

Dr Yani Nurhadryani, SSi MT
Anggota
Diketahui oleh

Ketua Program Studi
Ilmu Komputer

Dekan Sekolah Pascasarjana

Dr Wisnu Ananta Kusuma, ST MT

Dr Ir Dahrul Syah, MScAgr

Tanggal Ujian : 7 Februari 2014

Tanggal Lulus :

Judul Tesis

Pemodelan Identifikasi Pembicara dengan MFCC sebagai
Ekstraksi Ciri dan SVM sebagai Pengenalan Pola
Luthfan Almanfaluthi
G651100354

Nama
NIM

Disetujui oleh
Komisi Pembimbing

Dr Ir A

MSiMKom

ani Nurhadr ani SSi MT
ota

Diketahui oleh

Ketua Program Studi
IImu Komputer
(

Dr Wisnu Ananta

usuma ST MT

Tanggal ujian : 7 Februari 2014

Tanggallulus :

2 7 FEB : 211

PRAKATA

Puji dan syukur penulis panjatkan kehadirat Allah SWT, sholawat dan salam
penulis haturkan kepada Nabi Muhammad SAW sehingga tesis ini dapat
diselesaikan. Topik yang dipilih dalam penelitian ini adalah Pemodelan Identifikasi
Pembicara dengan MFCC sebagai Ekstraksi Ciri dan SVM sebagai Pengenalan
Pola.
Pada kesempatan ini penulis ingin menyampaikan ucapan terima kasih dan
penghargaan kepada:
1. Bapak Dr Ir Agus Buono, MSi MKom dan Ibu Dr Yani Nurhadryani, SSi MT
selaku pembimbing yang telah banyak memberikan waktu dan masukannya
untuk tesis ini.
2. Bapak Dr Bib Paruhum Silalahi, MKom selaku dosen penguji atas saran yang
membangun dalam tesis ini.

3. Dosen-dosen, Staf karyawan (Bapak Ruchyan dan Bapak Ficky) dan rekanrekan Angkatan XII Pascasarjana Ilmu Komputer kelas khusus (Hafzal Hanief,
Arif Purnomo, Muji Yuswanto, Firnas Nadirman, Darwinsyah, Erniyati dan
Diana) atas semua bantuannya.
4. Keluarga (orang tua, saudara, istri dan anak-anak) yang tiada hentinya
memberikan semangat, dukungan dan doanya kepada penulis.
5. Seluruh pihak yang telah membantu dalam penyelesaian tesis ini.
Penulis menyadari bahwa kesempurnaan hanya milik Allah SWT dan masih
terdapat banyak kekurangan dalam penyusunan tesis ini. Penulis berharap semoga
tesis ini dapat bermanfaat dan dapat dikembangkan di masa mendatang.

Bogor, Februari 2014
Luthfan Almanfaluthi

DAFTAR ISI

DAFTAR TABEL

ix

DAFTAR GAMBAR

ix

DAFTAR LAMPIRAN

x

1

PENDAHULUAN
Latar Belakang
Tujuan Penelitian
Manfaat Penelitian
Ruang Lingkup Penelitian

1
1
2
2
3

2

TINJAUAN PUSTAKA
Prinsip Identifikasi Pembicara
Mel-Frequency Cepstrum Coefficients (MFCC)
Support Vector Machine (SVM)

4
4
4
6

3

METODOLOGI PENELITIAN
Kerangka Pemikiran
Pengambilan Data Suara
Praproses Data
Pemrosesan Data

10
10
11
11
14

4

HASIL DAN PEMBAHASAN
Praproses Data
Karakteristik Pembicara
Ekstraksi Ciri MFCC
Pengenalan Pola SVM dengan fungsi Kernel Linear
Pengenalan Pola SVM dengan fungsi Kernel Quadratic
Pengenalan Pola SVM dengan fungsi Kernel RBF
Jumlah error Pembicara
Perbandingan waktu proses algoritma SMO dengan QP

16
16
16
17
17
18
20
22
22

5

SIMPULAN DAN SARAN

23

DAFTAR PUSTAKA

24

LAMPIRAN

25

RIWAYAT HIDUP

37

DAFTAR TABEL

1
2
3

Daftar 10 pembicara yang digunakan dalam penelitian
Pengujian pemilihan perbandingan data latih dan data uji
Jumlah error untuk setiap pembicara dengan data uji suara tanpa noise

11
14
22

DAFTAR GAMBAR

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

Sistem identifikasi pembicara
SVM dengan data terpisah secara linear
Fungsi Kernel memetakan data ke ruang vektor berdimensi lebih tinggi
Diagram alir penelitian
Tahapan penghapusan silence pada data suara
Tahapan normalisasi pada data suara
Perbandingan sinyal asli tanpa noise dan sinyal asli yang sudah
ditambahkan noise 80 dB, 60 dB, 40 dB, 20 dB, 10 dB dan 0 dB
Perbandingan jenis kelamin dengan FFT
Perbandingan keakuratan fungsi Kernel Linear dengan menggunakan
rasio 90 : 10
Perbandingan keakuratan fungsi Kernel Linear dengan menggunakan
rasio 75 : 25
Perbandingan keakuratan fungsi Kernel Linear dengan menggunakan
rasio 60 : 40
Perbandingan keakuratan fungsi Kernel Quadratic dengan menggunakan
rasio 90 : 10
Perbandingan keakuratan fungsi Kernel Quadratic dengan menggunakan
rasio 75 : 25
Perbandingan keakuratan fungsi Kernel Quadratic dengan menggunakan
rasio 60 : 40
Perbandingan keakuratan fungsi Kernel RBF dengan menggunakan
rasio 90 : 10
Perbandingan keakuratan fungsi Kernel RBF dengan menggunakan
rasio 75 : 25
Perbandingan keakuratan fungsi Kernel RBF dengan menggunakan
rasio 60 : 40
Perbandingan waktu proses fungsi Kernel

1
6
8
10
12
12
14
16
17
18
18
19
19
20
20
21
21
22

DAFTAR LAMPIRAN

1
2
3
4
5
6
7
8
9
10
11

Hasil MFCC pembicara nomor 1 (Wanita, 16 tahun, Jawa)
Hasil MFCC pembicara nomor 2 (Wanita, 22 tahun, Sunda)
Hasil MFCC pembicara nomor 3 (Wanita, 30 tahun, Sunda)
Hasil MFCC pembicara nomor 4 (Wanita, 31 tahun, Jawa)
Hasil MFCC pembicara nomor 5 (Wanita, 33 tahun, Betawi)
Hasil MFCC pembicara nomor 6 (Pria, 19 tahun, Sunda)
Hasil MFCC pembicara nomor 7 (Pria, 25 tahun, Jawa)
Hasil MFCC pembicara nomor 8 (Pria, 28 tahun, Sunda)
Hasil MFCC pembicara nomor 9 (Pria, 41 tahun, Jawa)
Hasil MFCC pembicara nomor 10 (Pria, 42 tahun, Jawa)
Gambar antar muka program sistem identifikasi pembicara

25
26
27
28
29
30
31
32
33
34
35

1

1 PENDAHULUAN
Latar Belakang
Setiap hari manusia bertukar informasi dengan menggunakan media suara
walaupun dapat juga bertukar informasi dengan media teks dan alat bantu
semacamnya. Sinyal suara yang diucapkan setiap manusia memiliki karakter dan
kualitas yang berbeda atau bersifat unik. Sinyal suara dipengaruhi banyak hal,
seperti intra-speaker variability (dimensi artikularis pembicara, emosi, kesehatan,
umur, jenis kelamin, dialek) dan noise (latar belakang suara lingkungan dan media
transmisi) (Campbell 1997).
Reynold (2002) berpendapat bahwa suara dapat juga dikategorikan sebagai
alat biometrik karena memiliki ciri-ciri sebagai berikut: alami, mudah diukur, tidak
terlalu berubah seiring waktu atau kondisi fisik, tidak terlalu terganggu dengan
adanya gangguan lingkungan, serta tidak mudah ditiru. Suara hampir memenuhi
semua persyaratan biometrik, namun permasalahan yang timbul dari pemrosesan
suara yaitu suara adalah bersifat multidimensi (linguistik, semantik, artikularis dan
akustik).
Proses identifikasi dengan suara memiliki keuntungan secara ekonomis
dibandingkan dengan identifikasi secara biometrik lainnya seperti identifikasi pada
wajah, sidik jari, tanda tangan, retina dan lain-lain. Identifikasi dengan suara hanya
membutuhkan alat tambahan berupa mikrofon dan kartu suara, sedangkan
karakteristik lain membutuhkan alat tambahan seperti scanner. Hal ini dapat
menekan sedikit biaya pengembangan sistem (Campbell 1997).
Sinyal suara manusia mempunyai tingkat variabilitas yang sangat tinggi.
Suatu sinyal suara yang dikeluarkan oleh pembicara yang berbeda-beda
menghasilkan pola ucapan yang berbeda-beda pula. Masyarakat Indonesia
mempunyai beragam suku dan budaya, sehingga banyak permasalahan pola ucapan
yang berbeda-beda untuk satu kata yang sama. Oleh karena permasalahan ini bisa
menjadi problem dalam sistem identifikasi pembicara, sehingga perlu
dikembangkan suatu sistem yang relatif lebih robust terhadap permasalahan intraspeaker variability dan noise. Sistem identifikasi pembicara lebih berfokus pada
analisis dengan dua subsistem yaitu Feature Extractor (ekstraksi ciri) dan Pattern
Recogniser (pengenalan pola) yang diilustrasikan oleh Gambar 1.

Gambar 1 Sistem identifikasi pembicara (Srinivasamurthy 2006)

2
Mel-Frequency Cepstrum Coefficients (MFCC) adalah salah satu ekstraksi
ciri yang sering digunakan untuk pemrosesan suara manusia, MFCC merupakan
ekstraksi ciri yang menghitung koefisien cepstral dengan mempertimbangkan
pendengaran manusia (Do 1994). Support Vector Machine (SVM) merupakan salah
satu teknik klasifikasi data dengan proses pelatihan (supervised learning) yang
mampu mengklasifikasikan multi class sehingga cocok untuk pengenalan lebih dari
dua kelas.
Beberapa ekstraksi ciri untuk identifikasi pembicara yang lain yaitu Linear
Predictive Coding, Perceptual Linear Prediction, dan Wavelet. Tujuan ekstraksi
ciri adalah mengubah vektor suara yang dihasilkan dari digitalisasi yang memiliki
vektor yang besar menjadi vektor ciri, tanpa menghilangkan karakteristik suara
tersebut. Beberapa model pengenalan pola yang dapat digunakan untuk identifikasi
pembicara yang lain yaitu Jarak Euclid, Distribusi Normal, Probabilistic Neural
Network (PNN), dan Hidden Markov Model (HMM).
Penelitian sebelumnya yaitu Guiwen Ou dan Dengfeng Ke (2004), A.
Mezghani dan D. O’Shaughnessy (2005) dan M.M Homayounpour dan I. Rezaian
(2008) telah membuktikan bahwa MFCC baik untuk mengenali pola pada
pembicara dan dapat digunakan untuk identifikasi pembicara. Agus Buono (2009)
dalam desertasinya menggunakan 1D-MFCC mendapatkan hasil keakuratan 98.8%
sedangkan dengan 2D-MFCC mendapatkan hasil keakuratan 99.9% pada sinyal
suara tanpa noise. Sedangkan untuk pengenalan pola SVM pada sinyal suara sudah
pernah dilakukan juga dan mendapatkan hasil yang menakjubkan yaitu Shi-Huang
Chen dan Yu-Ren Luo (2009) menguji coba identifikasi pembicara menggunakan
SVM dengan sumber 20 pria dan 20 wanita dari database Aurora-2. Mereka
mengujinya tanpa noise pada tingkat 8000 Hz dan menghasilkan keakuratan 95.1%.
Tujuan Penelitian
Penelitian ini bertujuan membangun model sistem identifikasi pembicara
dengan menerapkan MFCC sebagai ekstraksi ciri dan SVM sebagai pengenalan
pola.
Manfaat Penelitian
Sistem identifikasi pembicara dapat digunakan untuk melakukan
identifikasi seseorang melalui kata-kata yang diucapkan oleh pengguna sistem,
sehingga sistem ini menghasilkan identitas pengguna sistem.
Sistem ini bermanfaat untuk melakukan identifikasi semacam aplikasi
absensi, kontrol akses untuk fasilitas tertentu, remote akses untuk jaringan
komputer, forensic dan lain-lain, serta untuk pengembangan ilmu pengetahuan
khususnya dalam pengolahan sinyal suara.

3
Ruang Lingkup Penelitian
1.
2.

3.
4.
5.

Ruang lingkup penelitian secara singkat adalah sebagai berikut:
Sistem yang dikembangkan hanya dalam bentuk model sistem.
Identifikasi pembicara dilakukan melalui kata yang diucapkan pembicara
bersifat text-dependent yang berarti telah disepakati sebelumnya dan akan
digunakan seterusnya.
Sumber suara yang digunakan adalah 10 orang dewasa dengan perbedaan jenis
kelamin, umur dan suku.
Penelitian ini dibatasi pada penanganan gangguan eksternal berupa noise, dan
difokuskan pada Gaussian Noise yang berkisar dari 80 dB hingga 0 dB.
Model simulasi diimplementasikan menggunakan program MATLAB.

4

2 TINJAUAN PUSTAKA
Prinsip Identifikasi Pembicara
Identifikasi pembicara adalah proses mengklasifikasikan pembicara dari
sejumlah suara pembicara yang diberikan, sebagai suatu keputusan yang terbaik.
Dasar kerja sistem identifikasi pembicara yaitu mampu meniru kemampuan
manusia dalam mengenal identitas seseorang melalui suara yang didengar, sehingga
sistem identifikasi pembicara dapat dimasukan kedalam kelompok sistem
kecerdasan buatan (Kusumadewi 2003).
Secara garis besar terdapat dua tahap proses yang dilibatkan untuk
membangun suatu sistem identifikasi pembicara. Pertama, mendapatkan informasi
spesifik atau nilai ciri dari suara yang diamati. Kedua, mengklasifikasikan suara
melalui proses pencocokan nilai ciri suara yang diterima dengan nilai ciri suara
acuan (basis data ciri suara) (Furui 1997).
Dari sudut pandang linguistik, terdapat dua metode yang dapat diterapkan
untuk mengembangkan sistem identifikasi pembicara. Metode pertama disebut textdependent, dan metode kedua disebut text-independent. Sistem identifikasi
pembicara yang mengadopsi metode text-dependent, harus mengetahui dan
menentukan terlebih dahulu teks yang akan diucapkan pembicara. Contoh
penerapan metode text-dependent adalah pada pengucapan PIN (nomor identitas
diri) yang digunakan sebagai kata kunci. Sistem identifikasi pembicara yang
mengadopsi metode text-independent, tidak perlu menentukan teks apa yang harus
diucapkan pembicara, sehingga pembicara bebas menentukan pilihan teks yang
akan diucapkannya (Furui 1997).
Mel-Frequency Cepstrum Coefficients (MFCC)
Ekstraksi ciri adalah proses untuk menentukan vektor yang dapat digunakan
sebagai penciri objek atau individu. Ciri yang biasa digunakan adalah koefisien
cepstral. MFCC merupakan ekstraksi ciri yang menghitung koefisien cepstral
dengan mempertimbangkan pendengaran manusia. MFCC memiliki tahapan yang
terdiri atas (Do 1994):
1.

Frame Blocking. Pada tahap ini sinyal suara continous speech dibagi ke
dalam beberapa frame serta dilakukan overlapping frame agar tidak
kehilangan informasi.

2.

Windowing. Merupakan salah satu jenis filtering untuk
meminimalisasikan distorsi antar frame. Proses ini dilakukan dengan
mengalikan antar frame dengan jenis window yang digunakan. Penelitian
suara banyak menggunakan window Hamming karena kesederhanaan
formulanya dan nilai kerja window. Dengan pertimbangan tersebut, maka

5
penggunaan window Hamming cukup beralasan. Persamaan window
Hamming adalah :
…(1)
Keterangan:
3.

n = 0, .., N-1 (lebar frame)

Fast Fourier Transform (FFT). Tahapan selanjutnya adalah mengubah
tiap frame dari domain waktu ke dalam domain frekuensi. FFT adalah
algoritme yang mengimplementasikan Discrete Fouries Transform
(DFT). Hasil DFT adalah bilangan kompleks dengan persamaan 2 untuk
mencari nilai real dan persamaan 3 untuk mencari nilai imaginer.

…(2)

…(3)
Keterangan:

N = jumlah data
k = 0, 1, 2, ...,

4.

�

x[i] = data pada titik ke-i
Proses selanjutnya ialah menghitung nilai magnitudo FFT. Magnitudo
dari bilangan kompleks = + adalah | | = √ + .

Mel-Frequency Wrapping. Persepsi sistem pendengaran manusia
terhadap frekuensi sinyal suara ternyata tidak hanya bersifat linear.
Penerimaan sinyal suara untuk frekuensi rendah (< 1000 Hz) bersifat
linear, sedangkan untuk frekuensi tinggi (> 1000 Hz) bersifat logaritmik.
Skala ini disebut skala mel-frequency yang berupa filter. Pada persamaan
4 ditunjukkan hubungan skala mel dengan frekuensi dalam Hz:

…(4)
Proses wrapping terhadap sinyal dalam domain frekuensi dilakukan
menggunakan persamaan 5.

Keterangan:

…(5)
Xi = nilai frekuensi wrapping pada filter i = 1, 2
sampai n jumlah filter
X(k) = nilai magnitudo frekuensi pada k frekuensi

6
Hi(k) = nilai tinggi pada filter i segitiga dan k
frekuensi, dengan k = 0, 1 sampai N-1 jumlah
magnitudo frekuensi
5.

Cepstrum. Tahap ini merupakan tahap terakhir MFCC. Pada tahap ini
mel-frequency akan diubah menjadi domain waktu menggunakan
Discrete Cosine Transform (DCT) dengan persamaan 6.

…(6)
Keterangan :

Cj = nilai koefisien C ke-j
j = 1, 2, 3,…., K sampai jumlah koefisien yang
diinginkan
Xi = nilai X hasil mel-frequency wrapping pada
frekuensi i = 1, 2 sampai n jumlah wrapping
M = jumlah filter

Support Vector Machine (SVM)
SVM adalah salah satu teknik klasifikasi data dengan proses pelatihan
(supervised learning). Salah satu ciri dari metode klasifikasi SVM adalah
menemukan garis pemisah (hyperplane) terbaik sehingga diperoleh ukuran margin
yang maksimal. Margin adalah jarak antara hyperplane tersebut dengan titik
terdekat dari masing-masing kelas. Titik yang paling dekat ini disebut dengan
support vector. Ilustrasi SVM untuk linear separable data dapat dilihat pada
Gambar 2 (Mak 2000).

Gambar 2 SVM dengan data terpisah secara linear

7
, …., � , � , dimana ∈ ℜ� , ∈
Diberikan data pelatihan
,
,
,
{+1, −1}. Jika data terpisah secara linear seperti pada Gambar 2, maka akan
berlaku fungsi diskriminan linear:
� =

. –

…(7)

dimana w adalah vektor bobot normal terhadap hyperplane, x adalah data yang
diklasifikasi, dan b adalah bias. Hyperplane adalah garis u = 0. Margin antara dua
kelas adalah � = ‖�‖ . Margin dapat dimaksimalkan dengan menggunakan fungsi
2

optimisasi Lagrangian seperti berikut:

…(8)
dengan memperhatikan sifat gradien:

dan
persamaan Lagrangian dapat dimodifikasi sebagai maksimalisasi L yang hanya
mengandung � , persamaan berikut disebut juga Quadratic Programing (QP) yaitu
sebagai berikut:

…(9)
dan dengan persamaan sebagai berikut:

…(10)
serta � adalah lagrange multiplier. Data yang berkorelasi dengan � yang positif
disebut sebagai support vector.
Sequential Minimal Optimization (SMO) adalah algoritma iteratif untuk
memecahkan masalah optimasi pada persamaan 9 di atas. SMO memecahkan
masalah menjadi serangkaian submasalah yang lebih kecil. Pada setiap tahap, SMO
memilih dua buah lagrange multiplier untuk dioptimisasi bersama-sama. Mencari
nilai yang paling optimal dan memperbaharui SVM dengan nilai optimal tersebut.
Adapun persamaan 10 diatas menjadi seperti berikut:

8

…(11)
Jika data terpisah secara non-linear, maka data terlebih dahulu diproyeksikan
oleh fungsi Kernel ke ruang vektor baru yang berdimensi tinggi sedemikian
sehingga data itu dapat terpisah secara linear, seperti pada Gambar 3.

Gambar 3 Fungsi Kernel memetakan data ke ruang vektor
berdimensi lebih tinggi (Mak 2000)
Selanjutnya diruang vektor yang baru itu, SVM mencari hyperplane yang
memisahkan kedua kelas. Pencarian ini hanya bergantung pada dot produk dari data
yang sudah ditransformasikan pada ruang baru yang berdimenasi lebih tinggi, yaitu
Φ ⃗ . Φ( ⃗ ). Fungsi Kernel dirumuskan sebagai berikut: �( ⃗ , ⃗ ) =
Φ ⃗ . Φ( ⃗ ), sehingga persamaan Lagrangian menjadi seperti berikut:
…(12)
dan persamaan fungsi diskriminan menjadi seperti berikut:

…(13)
dengan nsv adalah data pelatihan yang termasuk support vector. Fungsi Kernel yang
umum digunakan adalah sebagai berikut:

9
Kernel Linear:
…(14)
Kernel Polynomial:
…(15)
Radial Basis Function (RBF):

…(16)

10

3 METODOLOGI PENELITIAN
Kerangka Pemikiran
Kerangka pemikiran dalam membangun model simulasi pada penelitian ini
dapat dituangkan dalam suatu diagram alir penelitian, disajikan pada Gambar 4
dibawah ini.
Mulai

Studi literatur

Pengambilan
data suara

Data latih

Data uji

Praproses data

noise

MFCC

Praproses data

Model SVM

MFCC

Pengujian
Model SVM

Analisis
hasil uji

Selesai

Gambar 4 Diagram alir penelitian

11
Pengambilan Data Suara
Pengambilan data suara dilakukan dengan merekam suara menggunakan alat
mikrofon. Sumber suara diperoleh dari 10 orang pembicara dewasa dengan
perbedaan jenis kelamin, umur dan suku yang masing-masing mengucapkan 50 kali
kata “KOMPUTER” yang pengucapannya tidak dikontrol hingga didapatkan 500
data suara. Durasi rekam yang digunakan yaitu 2 detik dengan besar frekuensi
rekam 16KHz dan data suara disimpan dalam format audio dengan ekstensi
(*.wav).
Dalam hal intra-speaker variability (jenis kelamin, umur dan suku) maka
pada tahap pengambilan data suara dari 10 orang pembicara didapatkan rentang
umur yang beragam yaitu dari umur paling rendah 16 tahun dan paling tinggi umur
42 tahun. Sedangkan untuk jenis kelamin didapatkan lima orang berjenis kelamin
wanita dan lima orang berjenis kelamin pria. Untuk perbedaan suku, didapatkan
tiga suku yang berbeda yaitu empat orang bersuku sunda, lima orang dari suku jawa
dan satu orang dari suku betawi. Karakteristik kesepuluh pembicara tersebut
disajikan pada Tabel 1.
Tabel 1 Daftar 10 pembicara yang digunakan dalam penelitian
Pembicara

Jenis Kelamin

Umur (thn)

Suku

1

Wanita

16

Jawa

2

Wanita

22

Sunda

3

Wanita

30

Sunda

4

Wanita

31

Jawa

5

Wanita

33

Betawi

6

Pria

19

Sunda

7

Pria

25

Jawa

8

Pria

28

Sunda

9

Pria

41

Jawa

10

Pria

42

Jawa

Praproses Data
Tahapan praproses terdiri atas penghapusan silence, normalisasi dan
penambahan noise. Silence merupakan bagian ‘diam’ yang biasanya terdapat pada
saat awal dan akhir perekaman suara. Untuk meningkatkan akurasi sistem, maka
dilakukan proses penghapusan bagian silence secara manual. Ilustrasinya untuk
tahap ini disajikan pada Gambar 5.

12

Sinyal asli

Deteksi silence

Penghapusan silence

Gambar 5 Tahapan penghapusan silence pada data suara
Setelah penghapusan silence dilakukan, tahap selanjutnya adalah normalisasi
sinyal suara. Prosesnya yaitu membagi sinyal dengan nilai mutlak simpangan
maksimum, sehingga diperoleh sinyal dengan simpangan maksimum +1 atau -1.
Ilustrasinya untuk proses normalisasi ini disajikan pada Gambar 6.
Sebelum normalisasi

Setelah normalisasi

Gambar 6 Tahapan normalisasi pada data suara

13
Sesuai dengan fokus dari penelitian ini yaitu untuk membangun model yang
lebih bersifat robust terhadap noise, maka diperlukan sinyal noise yang akan
mengkontaminasi sinyal asli. Sinyal noise yang ditambahkan bersifat Gaussian
dengan level 80 dB, 70 dB, 60 dB, 50 dB, 40 dB, 30 dB, 20 dB, 10 dB dan 0 dB.
Berikut ilustrasinya disajikan pada Gambar 7.
Sinyal asli tanpa noise

Sinyal noise 80 dB

Sinyal asli + noise 80 dB

Sinyal noise 60 dB

Sinyal asli + noise 60 dB

Sinyal noise 40 dB

Sinyal asli + noise 40 dB

Sinyal noise 20 dB

Sinyal asli + noise 20 dB

14
Sinyal noise 10 dB

Sinyal asli + noise 10 dB

Sinyal noise 0 dB

Sinyal asli + noise 0 dB

Gambar 7 Perbandingan sinyal asli tanpa noise dan sinyal asli yang sudah
ditambahkan noise 80 dB, 60 dB, 4 0dB, 20 dB, 10 dB dan 0 dB
Pemrosesan Data
Pada tahap ini sinyal suara yang diambil akan dibagi menjadi dua, yaitu akan
digunakan sebagai data latih dan data uji. Pengujian pemilihan rasio data latih dan
data uji dibagi menjadi tiga pengujian untuk mengetahui manakah yang terbaik
dengan masing-masing 10 kali pengulangan, berikut adalah tabel pembandingnya:
Tabel 2 Pengujian pemilihan rasio data latih dan data uji
Rasio (persen)
90 : 10
75 : 25
60: 40

Rasio (data)
450 : 50
370 : 130
300 : 200

Banyaknya data untuk rasio 90 : 10 maka data latih sebanyak 450 data dan
data uji sebanyak 50 data, untuk rasio 75 : 25 maka data latih sebanyak 370 data
dan data uji sebanyak 130 data dan untuk rasio 60 : 40 maka data latih sebanyak
300 data dan data uji sebanyak 200 data.
Pemrosesan sinyal suara merupakan teknik mentransformasi sinyal suara
menjadi informasi yang berarti sesuai dengan yang diinginkan. Pada proses
transformasi terdapat tahapan yang perlu dilakukan diantaranya digitalisasi sinyal
analog, pembagian sinyal suara menjadi frame, ekstraksi ciri, dan pengenalan pola.
Tahapan selanjutnya adalah ekstraksi ciri dengan MFCC untuk menentukan
vektor yang dapat digunakan sebagai penciri objek atau individu tiap sinyal suara.
Proses MFCC adalah Frame Blocking, Windowing, Fast Fourier Fransform, Mel-

15
Frequency Wrapping, dan Cepstrum. Pembagian sinyal suara digital menjadi
beberapa frame adalah dengan membagi sinyal suara kedalam i frame dan
dilakukan overlaping frame agar tidak kehilangan informasi. Setiap data suara
dilakukan proses framing dimana masing-masing frame berukuran 40 ms dengan
overlaping 50% dan menggunakan koefisien mel cepstrum 13 (Buono 2009).
MFCC memiliki hasil berupa matriks ciri (n×k) dimana n adalah koefisien mel
cepstrum yaitu 13 dan k adalah jumlah frame. Agar ukuran matriks sama untuk
setiap suara yaitu berbentuk (n×1) untuk setiap suara, maka dilakukan proses
perata-rataan koefisien pada setiap baris.
Setelah ekstraksi ciri dilakukan, tahap selanjutnya adalah pengenalan pola
dengan menggunakan SVM menggunakan algoritma QP dan algoritma SMO.
Pengujian fungsi Kernel diujicobakan untuk fungsi RBF, Quadratic dan Linear
untuk masing-masing algoritma.

16

4 HASIL DAN PEMBAHASAN
Praproses data
Sebelum sinyal suara siap diolah dengan proses ekstraksi ciri maka sinyal
suara dilakukan penghapusan silence pada bagian awal dan bagian akhir sehingga
sinyal suara yang diolah adalah benar-benar sinyal suara yang diujikan. Pada tahap
penghapusan silence terjadi pengurangan lebar data disetiap sinyal suara yaitu data
suara sebelum dilakukan proses penghapusan silence adalah berjumlah 32000 data,
didapatkan dari besarnya frekuensi rekam 16KHz dikalikan lamanya waktu rekam
selama 2 detik. Setelah penghapusan silence maka lebar berkurang sehingga
banyaknya data akan beragam besarnya bergantung pada besarnya silence yang
dihapus.
Proses normalisasi juga dilakukan sebelum proses ekstraksi ciri agar besarnya
amplitudo semua sinyal suara seragam yaitu maksimum +1 dan minimum -1.
Sebenarnya proses normalisasi ini tidak berpengaruh pada ekstraksi ciri maupun
proses pengenalan pola, namun normalisasi ini berguna untuk penyeragaman visual
pada batas atas dan batas bawah.
Karakteristik Pembicara
Perbandingan karakteristik pembicara dengan menggunakan Fast Fourier
Transform (FFT) terhadap kesepuluh pembicara didapatkan yaitu untuk suara jenis
kelamin pria lebih tinggi dibandingkan dengan suara jenis kelamin wanita, hal ini
dapat dilihat pada Gambar 8.
Keterangan:
Pria (warna merah)
Wanita (warna biru)

Gambar 8 Perbandingan jenis kelamin dengan FFT

17
Ekstraksi Ciri MFCC
Setelah melakukan proses ekstraksi ciri menggunakan MFCC dilakukan
proses perata-rataan untuk hasil ekstraksi ciri sehingga dihasilkan matriks ciri
berukuran 13×k, dimana 13 didapatkan dari besarnya koefisien mel yang digunakan
dan untuk vektor k bergantung dari banyaknya data yang diekstraksi. Dari
percobaan empiris didapatkan bahwa kolom pertama hasil ekstraksi ciri MFCC
harus dihapus untuk meningkatkan keakuratan sehingga matriks ciri yang
digunakan berukuran 12×k.
Pengenalan Pola SVM dengan fungsi Kernel Linear
Pengenalan Pola menggunakan SVM dengan fungsi Kernel Linear untuk
rasio 90 : 10 ditunjukan pada Gambar 9. Untuk data uji suara asli tanpa noise,
algoritma QP menghasilkan keakuratan 96.8% sedangkan untuk algoritma SMO
menghasilkan keakuratan 96.0% dan sistem masih dapat mempertahankan
keakuratan diatas 70% sampai penambahan noise 40 dB.

Gambar 9 Perbandingan keakuratan fungsi Kernel Linear
dengan menggunakan rasio 90 : 10
Gambar 10 menunjukan perbandingan keakuratan untuk rasio 75 : 25 yang
menghasilkan keakuratan 94.2% untuk data uji suara asli tanpa noise menggunakan
algoritma QP dan untuk algoritma SMO menghasilkan keakuratan 94.0%.
Penambahan noise 40 dB masih dapat dipertahankan keakuratan diatas 70%

18

Gambar 10 Perbandingan keakuratan fungsi Kernel Linear
dengan menggunakan rasio 75 : 25
Keakuratan fungsi Kernel Linear dengan rasio 60 : 40 untuk algoritma QP
sama dengan keakuratan algoritma SMO yaitu 92.1% untuk data uji asli tanpa noise.
Sistem juga masih dapat mempertahankan keakuratan diatas 70% pada penambahan
noise 40 dB yang ditunjukan pada Gambar 11.

Gambar 11 Perbandingan keakuratan fungsi Kernel Linear
dengan menggunakan rasio 60 : 40
Pengenalan Pola SVM dengan fungsi Kernel Quadratic
Pengenalan Pola menggunakan fungsi Kernel Quadratic untuk rasio 90 : 10
ditunjukan pada Gambar 12 dibawah ini. Untuk data uji suara asli tanpa noise,
algoritma QP menghasilkan keakuratan 95.8% sedangkan untuk algoritma SMO

19
menghasilkan keakuratan 97.0% dan sistem dapat mempertahankan keakuratan
diatas 70% sampai penambahan noise 40 dB.

Gambar 12 Perbandingan keakuratan fungsi Kernel Quadratic
dengan menggunakan rasio 90 : 10
Gambar 13 menunjukan perbandingan keakuratan untuk rasio 75 : 25 yang
menghasilkan keakuratan 94.6% untuk algoritma QP dengan data uji suara asli
tanpa noise dan untuk algoritma SMO menghasilkan keakuratan 94.7%.
Penambahan noise sebesar 40 dB masih dapat mempertahankan keakuratan diatas
70%.

Gambar 13 Perbandingan keakuratan fungsi Kernel Quadratic
dengan menggunakan rasio 75 : 25
Keakuratan fungsi Kernel Quadratic dengan rasio 60 : 40 untuk algoritma QP
adalah sebesar 94% dan SMO adalah sebesar 93.9% untuk data uji asli tanpa noise.

20
Sistem juga masih dapat mempertahankan keakuratan diatas 70% pada penambahan
noise 40 dB yang ditunjukan pada Gambar 14.

Gambar 14. Perbandingan keakuratan fungsi Kernel Quadratic
dengan menggunakan rasio 60 : 40
Pengenalan Pola SVM dengan fungsi Kernel RBF
Gambar 15 menunjukan perbandingan keakuratan fungsi Kernel RBF untuk
rasio 90 : 10 yang menghasilkan keakuratan 88.2% untuk algoritma QP dengan data
uji suara asli tanpa noise dan untuk algoritma SMO menghasilkan keakuratan
88.6%. Penambahan noise sebesar 40 dB hanya dapat mempertahankan keakuratan
sekitar 54% namun untuk penambahan noise 50 dB dapat mempertahankan
keakuratan diatas 70%.

Gambar 15 Perbandingan keakuratan fungsi Kernel RBF
dengan menggunakan rasio 90 : 10

21
Keakuratan fungsi Kernel RBF dengan rasio 75 : 25 untuk algoritma QP
adalah sebesar 82.3% dan SMO adalah sebesar 82.2% untuk data uji asli tanpa
noise. Sistem masih dapat mempertahankan keakuratan diatas 70% pada
penambahan noise 60 dB yang ditunjukan pada Gambar 16.

Gambar 16 Perbandingan keakuratan fungsi Kernel RBF
dengan menggunakan rasio 75 : 25
Pengenalan Pola menggunakan fungsi Kernel RBF untuk rasio 60 : 40
ditunjukan pada Gambar 17 dibawah ini. Untuk data uji suara asli tanpa noise,
algoritma QP menghasilkan keakuratan 78.3% sedangkan untuk algoritma SMO
menghasilkan keakuratan 78.2% dan sistem dapat mempertahankan keakuratan
diatas 70% pada penambahan noise 50 dB.

Gambar 17 Perbandingan keakuratan fungsi Kernel RBF
dengan menggunakan rasio 60 : 40

22
Jumlah error Pembicara
Banyaknya error untuk ke-10 pembicara menggunakan data uji suara asli
tanpa noise ditunjukan pada Tabel 3. Jumlah error yang paling banyak untuk semua
rasio adalah pembicara nomor 9 (Pria, 41 tahun, Jawa). Jumlah error yang paling
sedikit untuk rasio 90 : 10 dan rasio 75 : 25 adalah pembicara nomor 10 (Pria, 42
tahun, Jawa) dengan masing-masing jumlah error yaitu 0 dan 6, sedangkan untuk
rasio 60 : 40 adalah pembicara nomor 2 (Wanita, 22 tahun, Sunda) dengan jumlah
error yaitu 5.
Tabel 3 Jumlah error untuk setiap pembicara dengan data uji suara tanpa noise
Pembicara
1
2
3
4
5
6
7
8
9
10

Jumlah error Pembicara
Rasio 90 : 10
Rasio 75 : 25
Rasio 60 : 40
34
8
11
51
14
6
8
2
54
0

118
13
34
133
89
18
31
21
292
6

228
5
64
256
150
29
62
71
560
6

Perbandingan waktu proses algoritma SMO dengan QP
Algoritma SMO lebih baik dibandingkan dengan algoritma QP dalam waktu
proses yang ditunjukan pada Gambar 18. Waktu proses algoritma SMO adalah yang
paling baik dengan fungsi Kernel Quadratic yaitu 8.85 detik dan untuk algoritma
QP waktu proses terbaik yaitu dengan fungsi Kernel RBF yaitu 861.18 detik.
Sedangkan untuk waktu proses yang paling lama yaitu fungsi Kernel Quadratic
menggunakan algoritma QP mencapai 1990.92 detik.

Gambar 18 Perbandingan waktu proses fungsi Kernel

23

5 SIMPULAN DAN SARAN
SIMPULAN
Dari hasil dan pembahasan yang telah dilakukan, diperoleh simpulan sebagai
berikut :
1. Pengenalan pola SVM dengan fungsi Kernel Quadratic menggunakan
algoritma SMO menghasilkan hasil yang paling baik yaitu 97%.
2. Sistem masih dapat mempertahankan keakuratan diatas 70% pada
penambahan noise 40 dB dan noise 50 dB.
3. Waktu proses algoritma SMO lebih baik dibandingkan dengan algoritma
QP.
SARAN
Adapun saran yang dapat dilakukan untuk penelitian selanjutnya antara lain:
1. Menambahkan Noise Cancelling untuk menambahkan keakuratan pada data
suara yang dikontaminasi noise.
2. Melakukan penambahan jumlah pembicara untuk melihat kinerja sistem
dengan jumlah data yang lebih besar.
3. Dapat dikembangkan lebih lanjut seperti prototipe mesin dan bukan hanya
sekedar model.

24

DAFTAR PUSTAKA
Buono A. 2009. Representasi Nilai HOS dan Model MFCC sebagai Ekstraksi Ciri pada
Sistem Indentifikasi Pembicara di Lingkungan Ber-noise Menggunakan HMM.
[disertasi]. Depok: Program Studi Ilmu Komputer, Universitas Indonesia.
Campbell JP. 1997. Speaker Recognition: A Tutorial. Proceedings of the IEEE Vol.85
No.9.
Chen S, Luo Y. 2009. Speaker Verification Using MFCC and Support Vector Machine.
Proceedings of the International MultiConference of Engineers and Computer
Scientists 2009 Vol I, Hong Kong.
Do MN. 1994. Digital Signal Processing Mini- Project: An Automatic Recognition
System. Audio Visual Communication Laboratory, Swiss Federal Institute of
Technology.
Furui S. 1997. Recent advances in speaker recognition. Pattern Recognition Letters 18:
859 – 872.
Homayounpour M, Rezaian I. 2008. Robust Speaker Verification Based on Multi Stage
Vector Quantization of MFCC Parameters on Narrow Bandwidth Channels,
ICACT 2008, vol 1 : 336-340.
Jurafsky D, Martin JH. 2000. Speech and Language Processing: An Introduction to
Natural Language Processing, Computational Linguistic, and Speech Recognition.
New Jersey: Prentice Hall.
Kusumadewi S. 2003. Artificial Intelligence (Teknik dan Aplikasinya). Yogyakarta:
Graha Ilmu.
Mak G. 2000. The Implementation of Support Vector Machine Using The Sequential
Minimal Optimization Algorithm. Master Degre. McGill University.
Mezghani A, O'Shaughnessy D. 2005. Speaker verification using a new representation
based on a combination of MFCC and formants, Canadian Conference on
Electrical and Computer Engineering : 1461-1464.
Ou G, Ke, D. 2004. Text-independent speaker verification based on relation of MFCC
components, International Symposium on Chinese Spoken Language Processing :
57-60.
Pelton GE. 1993. Voice Processing. Singapore: McGraw Hill.
Reynolds D. 2002. Automatic Speaker recognition Acoustics and Beyond. Tutorial note,
MIT Lincoln Laboratory.
Srinivasamurthy N. 2006. Compression Algorithms for Distributed Classification with
Applications to Distributed Speech Recognition. A Dissertation Presented to the
Faculty Of The Graduate School, University Of Southern California.

25
Lampiran 1 Hasil MFCC pembicara nomor 1 (Wanita, 16 tahun, Jawa)

26
Lampiran 2 Hasil MFCC pembicara nomor 2 (Wanita, 22 tahun, Sunda)

27
Lampiran 3 Hasil MFCC pembicara nomor 3 (Wanita, 30 tahun, Sunda)

28
Lampiran 4 Hasil MFCC pembicara nomor 4 (Wanita, 31 tahun, Jawa)

29
Lampiran 5 Hasil MFCC pembicara nomor 5 (Wanita, 33 tahun, Betawi)

30
Lampiran 6 Hasil MFCC pembicara nomor 6 (Pria, 19 tahun, Sunda)

31
Lampiran 7 Hasil MFCC pembicara nomor 7 (Pria, 25 tahun, Jawa)

32
Lampiran 8 Hasil MFCC pembicara nomor 8 (Pria, 28 tahun, Sunda)

33
Lampiran 9 Hasil MFCC pembicara nomor 9 (Pria, 41 tahun, Jawa)

34
Lampiran 10 Hasil MFCC pembicara nomor 10 (Pria, 42 tahun, Jawa)

35
Lampiran 11 Gambar antar muka program sistem identifikasi pembicara

36

37

RIWAYAT HIDUP

Penulis dilahirkan di Bandung pada tanggal 8 Juli 1984 sebagai anak kedua
dari tiga bersaudara dari pasangan Abdul Mudjib dan Titi Melati. Penulis
menempuh pendidikan Sarjana Strata Satu di Departemen Fisika, Fakultas MIPA,
Institut Pertanian Bogor tahun 2002 melalui jalur Undangan Seleksi Masuk IPB
(USMI). Penulis melanjutkan pendidikan Magister di Departemen Ilmu Komputer,
Sekolah Pascasarjana, Institut Pertanian Bogor tahun 2010.
Penulis sejak tahun 2004 bekerja di lembaga pendidikan LPK JIA sebagai
instruktur komputer dan design grafis. Pada tahun 2006 penulis bekerja di STBA
JIA sebagai staf pengajar Mata Kuliah Komputer dan tahun 2007 selain masih
mengajar juga menjadi ketua Laboratorium Komputer dan Operator di instansi yang
sama hingga saat ini.

Speaker Identification System Modeling Using MFCC as Feature Extraction and SVM as Pattern Recognition

Dokumen yang terkait

Infant Cries Identificaton by Using Codebook As Feature Matching, And MFCC As Feature Extraction

The Developing of Dual Tires Detection Model of Two Axles Truck by Using 2D-PCA Feature Extraction and SVM as Classifiers

The Identification of Infant Cries by Using Codebook as Feature Matching, and MFCC as Feature Extraction

Modeling and Optimization of Support Vector Machine (SVM) for Detection of Human Eye and 2DPCA as Feature Extraction

Genetics Algorithm for 2D-MFCC Filter Development in Speaker Identification System Using HMM

Development and Modeling of Water Tank System using System Identification Method.

Feature Extraction From Epigenetic Traits Using Edge Detection In Iris Recognition System.

A comparative study of feature extraction using PCA and LDA for face recognition.

THE PERFORMANCE ANALYSIS OF TEMPLATE MATCHING SYSTEM IN LETTER IMAGE RECOGNITION USING ZONING FEATURE EXTRACTION AND INTEGRAL PROJECTION FEATURE EXTRACTION.

IMPLEMENTASI SPEAKER RECOGNITION UNTUK OTENTIKASI MENGGUNAKAN MODIFIED MFCC – VECTOR QUANTIZATION ALGORITMA LBG SPEAKER RECOGNITION IMPLEMENTATION FOR AUTHENTICATION USING MODIFIED MFCC – VECTOR QUANTIZATION LBG ALGORITHM

Dukungan

Links

Speaker Identification System Modeling Using MFCC as Feature Extraction and SVM as Pattern Recognition

Dokumen yang terkait

Infant Cries Identificaton by Using Codebook As Feature Matching, And MFCC As Feature Extraction

The Developing of Dual Tires Detection Model of Two Axles Truck by Using 2D-PCA Feature Extraction and SVM as Classifiers

The Identification of Infant Cries by Using Codebook as Feature Matching, and MFCC as Feature Extraction

Modeling and Optimization of Support Vector Machine (SVM) for Detection of Human Eye and 2DPCA as Feature Extraction

Genetics Algorithm for 2D-MFCC Filter Development in Speaker Identification System Using HMM

Development and Modeling of Water Tank System using System Identification Method.

Feature Extraction From Epigenetic Traits Using Edge Detection In Iris Recognition System.

A comparative study of feature extraction using PCA and LDA for face recognition.

THE PERFORMANCE ANALYSIS OF TEMPLATE MATCHING SYSTEM IN LETTER IMAGE RECOGNITION USING ZONING FEATURE EXTRACTION AND INTEGRAL PROJECTION FEATURE EXTRACTION.

IMPLEMENTASI SPEAKER RECOGNITION UNTUK OTENTIKASI MENGGUNAKAN MODIFIED MFCC – VECTOR QUANTIZATION ALGORITMA LBG SPEAKER RECOGNITION IMPLEMENTATION FOR AUTHENTICATION USING MODIFIED MFCC – VECTOR QUANTIZATION LBG ALGORITHM

Dokumen yang Anda mencari sudah siap untuk unduhkan