Pengembangan Model Probabilistic Neural Network Bertingkat Menggunakan Fuzzy C-Means Untuk Identifikasi Pembicara

PENGEMBANGAN MODEL PROBABILISTIC NEURAL NETWORK BERTINGKAT
MENGGUNAKAN FUZZY C-MEANS UNTUK IDENTIFIKASI PEMBICARA

Oleh :
VICKY ZILVAN
G64103043

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2007

PENGEMBANGAN MODEL PROBABILISTIC NEURAL NETWORK BERTINGKAT
MENGGUNAKAN FUZZY C-MEANS UNTUK IDENTIFIKASI PEMBICARA

Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer
pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor


Oleh :
VICKY ZILVAN
G64103043

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2007

v

ABSTRAK
VICKY ZILVAN. Pengembangan Model Probabilistic Neural Network Bertingkat Menggunakan
Fuzzy C-Means untuk Identifikasi Pembicara. Dibimbing oleh AGUS BUONO dan SRI
NURDIATI.
Salah satu kajian dalam speech processing adalah identifikasi pembicara. Metode yang
digunakan untuk identifikasi pembicara pada penelitian ini adalah Probabilistic Neural Network
dengan data latih yang di-cluster-kan menggunakan Fuzzy C-Means dan untuk ekstraksi ciri sinyal
suara menggunakan MFCC. Jenis identifikasi pembicara pada penelitian ini bersifat tertutup dan

bergantung pada teks, dan kata yang digunakan dalam pelatihan dan pengujian adalah “komputer”.
Hasil dari penelitian ini adalah suatu model Probabilistic Neural Network dengan data latih yang
di-cluster-kan menggunakan Fuzzy C-Means untuk identifikasi pembicara yang bersifat tertutup
dan bergantung pada teks.
Tingkat akurasi tertinggi dari model yang menggunakan data asli diperoleh dengan data
pelatihan sebanyak 40, dengan tingkat akurasi sebesar 96%. Di sisi lain, untuk model yang
menggunakan data dengan SNR sebesar 30 dB, nilai akurasi tertinggi diperoleh dengan data
pelatihan sebanyak 40, dengan tingkat akurasi sebesar 89%. Tingkat akurasi tertinggi dari model
yang menggunakan data dengan SNR sebesar 20 dB diperoleh dengan data pelatihan sebanyak 30,
dengan tingkat akurasi sebesar 60%. Untuk identifikasi dengan threshold, nilai akurasi dari model
yang menggunakan data asli dengan 40 data pelatihan sebesar 91% untuk pembicara yang dikenal,
sedangkan untuk pembicara yang tidak dikenal tingkat akurasi mencapai 80%.
Kata kunci : Identifikasi Pembicara, MFCC, Probabilistic Neural Network, Fuzzy C-Means,
Speech Processing

vi

Judul : Pengembangan Model Probabilistic Neural Network
Menggunakan Fuzzy C-Means untuk Identifikasi Pembicara
Nama : Vicky Zilvan

NRP : G64103043

Bertingkat

Menyetujui:
Pembimbing I,

Pembimbing II

Ir. Agus Buono, M.Si., M.Kom.
NIP 132045532

Dr. Ir. Sri Nurdiati, M.Sc.
NIP 131578805

Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor

Prof. Dr. Ir. Yonny Koesmaryono, MS

NIP 131473999

Tanggal Lulus :
Lulus :

vii

RIWAYAT HIDUP
Penulis dilahirkan di Cianjur pada tanggal 3 Oktober 1984 sebagai anak kesatu dari tiga
bersaudara dari pasangan Agust Salfa dan Aziza M.B. Penulis menyelesaikan pendidikan
menengah atas di SMU Negeri 1 Cianjur dan lulus pada tahun 2003.
Pada tahun yang sama penulis diterima sebagai mahasiswa Departemen Ilmu Komputer,
Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Penulis diterima
melalui jalur Undangan Seleksi Masuk IPB (USMI). Penulis pernah melaksanakan praktek lapang
selama dua bulan di Badan Penelitian dan Pengembangan Kehutanan, Departemen Kehutanan R.I.
Tugas yang diberikan pada praktek lapang tersebut berkaitan dengan pembuatan Sistem Informasi
Kawasan Hutan dengan Tujuan Khusus dan Pembuatan Sistem Informasi Hasil-Hasil Penelitian
Kehutanan.

viii


PRAKATA
Puji dan syukur penulis panjatkan kepada Allah SWT atas limpahan nikmat dan hidayahNya sehingga penulis dapat menyelesaikan karya ilmiah ini. Sholawat dan salam semoga
senantiasa tercurah kepada nabi besar Muhammad SAW, keluarganya, para sahabat, serta para
pengikutnya yang tetap istiqomah mengemban risalah-Nya.
Melalui lembar ini, penulis ingin menyampaikan penghargaan dan terima kasih kepada
semua pihak atas bantuan, dorongan, saran, kritik, serta koreksi yang ditujukan selama penulisan
karya ilmiah ini. Ucapan terima kasih penulis ucapkan kepada :
1. Kedua orang tuaku tercinta, Adik-adikku, kedua Nenekku, dan seluruh keluargaku atas
doa, kasih sayang, dan pengorbanan yang telah diberikan selama ini.
2. Bapak Ir. Agus Buono, M.Si., M.Kom. selaku pembimbing I, Ibu Dr. Ir. Sri Nurdiati,
M.Sc. selaku pembimbing II dan Bapak Aziz Kustiyo, S.Si., M.Kom. selaku dosen
penguji.
3. Eno, Thessi, Yustin, Ghoffar, Pandi, Mulyadi, Nanik, Vita yang telah menyumbangkan
suaranya untuk data dalam penelitian ini.
4. Seluruh staf pengajar yang telah memberikan bekal ilmu dan wawasan selama penulis
menuntut ilmu di Departemen Ilmu Komputer.
5. Seluruh staf administrasi dan perpustakaan atas bantuannya.
6. Komang, Dani, Gemma, Cuning, Bastut, Iqbal, Inang, Dona, Mulyadi dan Nacha yang
sudah memberikan banyak sekali kenangan selama tinggal bersama.

7. Jemi dan Yayan yang telah bersedia meminjamkan laptopnya.
8. Rekan-rekan Departemen Ilmu Komputer angkatan 40.
Sebagaimana manusia yang tidak luput dari kesalahan, penulis menyadari bahwa karya
ilmiah ini jauh dari sempurna. Namun penulis berharap semoga karya ilmiah ini dapat bermanfaat
bagi siapapun yang membacanya.

Bogor, Mei 2007

Vicky Zilvan

v

DAFTAR ISI
Halaman
DAFTAR TABEL ......................................................................................................................vi
DAFTAR GAMBAR..................................................................................................................vi
DAFTAR LAMPIRAN...............................................................................................................vi
PENDAHULUAN .......................................................................................................................1
Latar Belakang.......................................................................................................................1
Tujuan....................................................................................................................................1

Ruang Lingkup.......................................................................................................................1
Manfaat..................................................................................................................................1
TINJAUAN PUSTAKA ..............................................................................................................2
Jenis Pengenalan Pembicara ...................................................................................................2
Dijitalisasi Gelombang Suara..................................................................................................2
Signal to Noise Ratio (SNR) ...................................................................................................2
Ekstraksi Ciri Sinyal Suara .....................................................................................................3
MFCC (Mel-Frequency Cepstrum Coefficients) ......................................................................3
Fuzzy C-Means (FCM) ...........................................................................................................4
Jaringan Saraf Tiruan .............................................................................................................4
Probabilistic Neural Network .................................................................................................5
METODE PENELITIAN.............................................................................................................5
Data Suara..............................................................................................................................6
Ekstraksi Ciri Sinyal Suara dengan MFCC..............................................................................6
Probabilistic Neural Network Bertingkat Menggunakan Fuzzy C-Means (FCM)......................7
Hasil Identifikasi ....................................................................................................................7
Penggunaan Threshold ...........................................................................................................8
Lingkungan Pengembangan....................................................................................................8
HASIL DAN PEMBAHASAN ....................................................................................................8
Data Suara..............................................................................................................................8

Praproses dengan MFCC ........................................................................................................8
Probabilistic Neural Network Bertingkat Menggunakan Fuzzy C-Means (FCM)......................8
Pemilihan Nilai Smoothing Parameter....................................................................................9
Hasil Identifikasi Menggunakan Nilai Smootihng Parameter yang Telah Dipilih .....................9
Pengaruh Penggunaan Threshold ..........................................................................................11
KESIMPULAN DAN SARAN ..................................................................................................12
Kesimpulan ..........................................................................................................................12
Saran....................................................................................................................................12
DAFTAR PUSTAKA ................................................................................................................12

vi

DAFTAR TABEL
Halaman
1 Kombinasi pembagian data pengujian dan data pelatihan setiap suara model
untuk jumlah data yang sama..................................................................................................6
2 Kombinasi proporsi data pelatihan dengan jumlah data pengujian yang sama
untuk setiap setiap suara model...............................................................................................6
3 Tingkat akurasi setiap model dengan jumlah data yang sama...................................................9
4 Tingkat akurasi setiap model dengan data pengujian yang sama.............................................10

5 Hasil identifikasi 40 data pelatihan untuk 10 data pengujian pada data asli
dengan menggunakan threshold ............................................................................................11
6 Hasil identifikasi 40 data pelatihan untuk 30 data pengujian non-model pada data asli
dengan menggunakan threshold ............................................................................................12

DAFTAR GAMBAR
Halaman
1
2
3
4
5
6
7
8

Diagram blok dari proses MFCC (Do 1994) ............................................................................3
Struktur Probabilistic Neural Network (Ganchev 2005)...........................................................5
Blok diagram sistem identifikasi pembicara.............................................................................5
Struktur Probabilistic Neural Network Bertingkat ...................................................................7

Perbandingan tingkat akurasi setiap pembicara pada model yang menggunakan data asli........10
Perbandingan tingkat akurasi untuk setiap model dengan jumlah data yang sama ...................10
Perbandingan tingkat akurasi antara data yang ditambahkan SNR dengan data asli.................11
Perbandingan tingkat akurasi model dengan menggunakan threshold
dan dengan model yang tidak menggunakan threshold ..........................................................11

DAFTAR LAMPIRAN

1
2
3
4
5
6
7
8
9
10
11
12

13
14
15
16
17
18
19

Halaman
Hasil peng-cluster-an 20 data pelatihan .................................................................................15
Hasil peng-cluster-an 30 data pelatihan .................................................................................15
Hasil peng-cluster-an 20 data pelatihan dengan SNR 30dB....................................................15
Hasil peng-cluster-an 30 data pelatihan SNR 30 dB...............................................................15
Hasil peng-cluster-an 20 data pelatihan dengan 20 dB ..........................................................15
Hasil peng-cluster-an 30 data pelatihan dengan 20 dB ..........................................................16
Tingkat akurasi model dengan nilai smoothing parameter yang berbeda pada data asli...........16
Tingkat akurasi model dengan nilai smoothing parameter yang berbeda
pada data dengan SNR 30 dB...............................................................................................19
Tingkat akurasi model dengan nilai smoothing parameter yang berbeda
pada data dengan SNR 20 dB ...............................................................................................21
Hasil identifikasi 20 data pelatihan dengan 30 data pengujian untuk data asli ........................24
Hasil identifikasi 30 data pelatihan untuk 20 data pengujian untuk data asli...........................25
Hasil identifikasi 40 data pelatihan untuk 10 data pengujian untuk data asli...........................25
Hasil identifikasi 20 data pelatihan untuk 30 data pengujian pada data dengan SNR 30 dB ....25
Hasil identifikasi 30 data pelatihan untuk 20 data pengujian pada data dengan SNR 30 dB ....26
Hasil identifikasi 40 data pelatihan untuk 10 data pengujian pada data dengan SNR 30 dB ....26
Hasil identifikasi 20 data pelatihan untuk 30 data pengujian pada data dengan SNR 20 dB ....26
Hasil identifikasi 30 data pelatihan untuk 20 data pengujian pada data dengan SNR 20 dB ....27
Hasil identifikasi 40 data pelatihan untuk 10 data pengujian pada data dengan SNR 20 dB ....27
Nilai threshold masing-masing pembicara dari 40 data pelatihan untuk data asli....................27

1

PENDAHULUAN
Latar Belakang
Pengenalan pola masih menjadi kajian
yang menarik bagi para peneliti. Hal ini
dilakukan tidak hanya untuk keperluan
penelitian maupun peningkatan produktifitas
kerja saja, tetapi lebih mengarah pada
kebutuhan di era high technology, di mana
kemajuan di bidang elektronika dan teknologi
informasi diharapkan secara sinergi memenuhi
tuntutan kebutuhan manusia. Oleh karena itu,
permasalahan
pengenalan
pola
telah
berkembang pesat dan digunakan dalam
berbagai bidang.
Di perkotaan maupun industri, suara, sidik
jari, pola geometri telapak tangan, maupun
wajah digunakan sebagai mesin absensi. Di
dunia perbankan, suara digunakan untuk
berbagai kepentingan seperti, layanan bank
melalui telepon. Di dunia kedokteran, iris mata
digunakan untuk mengidentifikasi adanya faal
pada organ tubuh, serta pupil mata untuk
mengidentifikasi tingkat kelelahan pada
seseorang.
Penelitian
yang
dilakukan
dengan
menggunakan data sinyal suara umumnya
disebut dengan pemrosesan sinyal suara
(speech processing). Speech processing sendiri
memiliki beberapa cabang kajian. Salah satu
kajian dalam speech processing adalah
identifikasi pembicara. Identifikasi pembicara
(speaker identification) adalah suatu proses
mengenali seseorang berdasarkan suaranya
(Campbell 1997).
Banyak sekali metode yang dikembangkan
para peneliti untuk melakukan identifikasi,
antara lain Dynamic Time Warping (DTW),
Model
Markov
Tersembunyi,
Vector
Quantization (VQ), Bayesian classifiers,
Principal Components Analysis (PCA),
algoritma K-Means clustering, jaringan syaraf
tiruan maupun logika Fuzzy. Di samping itu,
gabungan dari beberapa metode tersebut pun
sering digunakan.
Salah satu metode yang digunakan untuk
identifikasi pembicara adalah Model Markov
Tersembunyi yang telah dikembangkan oleh
Purnamasari pada tahun 2006. Secara
keseluruhan dari penelitian yang telah
dilakukan, untuk pelatihan dengan 20 data
menghasilkan tingkat akurasi 71,25%, untuk
pelatihan dengan 30 data menghasilkan tingkat
akurasi 77,92%, dan pelatihan dengan 40 data
menghasilkan tingkat akurasi tertinggi yaitu
sebesar 86,25%.

Untuk mencoba meningkatkan akurasi
identifikasi pembicara, pada penelitian ini
akan dilakukan penelitian untuk identifikasi
pembicara dengan Probabilistic Neural
Network (PNN) bertingkat menggunakan
Fuzzy C-Means (FCM). Metode Fuzzy CMeans (FCM) dipilih karena merupakan
salah satu teknik peng-cluster-an yang sering
diterapkan dalam langkah persiapan pada
proses data mining dengan menghasilkan
cluster-cluster yang digunakan sebagai input
untuk berbagai teknik, seperti jaringan syaraf
tirun. Di sisi lain, metode Probabilistic
Neural Network (PNN) dipilih karena
merupakan salah satu jenis jaringan syaraf
tiruan yang telah terbukti memiliki tingkat
akurasi
yang
cukup
tinggi
dalam
mengidentifikasi pembicara, yaitu sebesar
96% (Sarimollaoglu et al. 2004).
Tujuan
Penelitian
ini
bertujuan
untuk
mengembangkan model Probabilistic Neural
Network bertingkat menggunakan Fuzzy CMeans (FCM) untuk identifikasi pembicara.
Pada penelitian ini juga, akan dilakukan
pembandingan tingkat akurasi model antara
suara yang diberi noise dan yang tidak diberi
noise. Selain itu, dilakukan pembandingan
tingkat akurasi model yang menggunakan
threshold dan tingkat akurasi model yang
tidak menggunakan threshold.
Ruang Lingkup
Pada penelitian ini :
1. pembahasan difokuskan pada tahap
pemodelan
pembicara
dengan
Probabilistic Neural Network bertingkat
menggunakan Fuzzy C-Means (FCM),
tidak pada pemrosesan sinyal analog
sebagai praproses sistem.
2. parameter FCM yang akan dicobakan
adalah :
- Banyaknya cluster = 3,
- Error terkecil yang diharapkan = 1×10-5,
- Pangkat pembobot = 2,
- Maksimum iterasi = 100.
3. ekstraksi ciri sinyal suara menggunakan
Mel-Frequency Cepstrum Coefficients
(MFCC).
4. identifikasi
bersifat
tertutup
dan
bergantung pada teks.
Manfaat
Penelitian
ini
diharapkan
dapat
memberikan informasi mengenai tingkat
akurasi Probabilistic Neural Network

2

Bertingkat menggunakan Fuzzy C-Means
(FCM) untuk Identifikasi Pembicara. Selain
itu, model yang dihasilkan diharapkan dapat
digunakan untuk mengembangkan sistem
identifikasi yang bersifat tertutup dan
bergantung pada teks.
TINJAUAN PUSTAKA
Jenis Pengenalan Pembicara
Menurut Campbell (1997), pengenalan
pembicara berdasarkan jenis aplikasinya dibagi
menjadi:
1. Identifikasi pembicara adalah proses
mengenali seseorang berdasarkan suaranya.
Identifikasi pembicara dibagi dua, yaitu:
• Identifikasi
tertutup
(closed-set
identification) di mana suara masukan
yang akan dikenali merupakan bagian
dari sekumpulan suara pembicara yang
telah terdaftar atau diketahui.
• Identifikasi
terbuka
(open-set
identification) di mana suara masukan
boleh tidak ada pada kumpulan suara
pembicara yang telah terdaftar
2. Verifikasi pembicara adalah proses
menerima atau menolak permintaan
identitas dari seseorang berdasarkan
suaranya.
Pengenalan pembicara berdasarkan aspek
kebahasaan dibagi menjadi dua (Ganchev
2005), yaitu:
1. Pengenalan pembicara bergantung teks
yang mengharuskan pembicara untuk
mengucapkan kata atau kalimat yang sama
baik pada pelatihan maupun pengujian.
2. Pengenalan pembicara bebas teks yang
tidak mengharuskan pembicara untuk
mengucapkan kata atau kalimat yang sama
baik pada pelatihan maupun pengujian.
Dijitalisasi Gelombang Suara
Suara adalah gelombang longitudinal yang
merambat melalui medium. Medium atau zat
perantara ini dapat berupa zat cair, padat, atau
gas. Manusia mendengar bunyi saat gelombang
bunyi, yaitu getaran di udara atau medium lain,
sampai ke gendang telinga manusia.
Gelombang suara merupakan gelombang
analog, sehingga agar dapat diolah dengan
peralatan elektronik, gelombang suara harus
direpresentasikan dalam bentuk dijital. Proses
mengubah masukan suara dari gelombang
analog menjadi representasi data dijital disebut
digitalisasi suara.
Proses dijitalisasi suara terdiri dari dua
tahap yaitu sampling dan kuantisasi (Jurafsky

& Martin 2000). Sampling adalah proses
pengambilan nilai setiap jangka waktu
tertentu. Nilai ini menyatakan amplitudo
(besar/kecilnya) volume suara pada saat itu.
Hasilnya adalah sebuah vektor yang
menyatakan nilai-nilai hasil sampling.
Panjang vektor data ini tergantung pada
panjang
atau
lamanya
suara
yang
didijitalisasikan serta sampling rate yang
digunakan pada proses dijitalisasinya.
Sampling rate itu sendiri adalah banyaknya
nilai yang diambil setiap detik. Sampling rate
yang biasa digunakan adalah 8000 Hz dan
16000 Hz (Jurafsky & Martin 2000).
Hubungan antara panjang vektor data yang
dihasilkan dengan sampling rate dan
panjangnya data suara yang didijitalisasikan
dapat dinyatakan secara sederhana sebagai
berikut:
S = Fs * T, dengan
S = panjang vektor,
Fs = sampling rate yang digunakan
(Hertz),
T = panjang suara (detik).
Setelah melalui tahap sampling, proses
dijitalisasi suara selanjutnya adalah kuantisasi
yaitu menyimpan nilai amplitudo ini ke
dalam representasi nilai 8 bit atau 16 bit
(Jurafsky & Martin 2000).
Signal to Noise Ratio (SNR)
Signal-to-noise ratio (yang biasa
disingkat menjadi SNR atau S/N) adalah
suatu konsep
yang mendefinisikan
perbandingan antara kekuatan sinyal dengan
kekuatan noise yang merusak sinyal. Secara
sederhana,
signal-to-noise
ratio
membandingkan level dari sinyal yang
diinginkan (seperti suara piano dalam suatu
konser) dengan level dari sinyal yang tidak
diinginkan (seperti suara orang yang
bercakap-cakap dalam suatu konser).
Semakin kecil nilai SNR, semakin tinggi
pengaruh noise dalam merusak sinyal asli.
Secara umum,
SNR
didefinisikan
sebagai berikut:

SNR =

Psignal
Pnoise

 Asignal
= 
 Anoise

2


 ,


dengan P adalah rata-rata dari daya (power)
dan A adalah akar kuadrat rata-rata dari
amplitudo. Pada umumnya, sinyal suara
memiliki jangkauan dinamis yang sangat
tinggi. Hal ini menyebabkan SNR akan lebih
efisien jika diekspresikan dalam skala
logarithmic decibel. Pada desibel, SNR
didefinisikan sebagai 10 dikali logaritma dari

3

perbandingan daya. Jika sinyal dan noise
dihitung dalam impedansi yang sama maka
nilai
SNR
bisa
didapatkan
dengan
menggunakan rumus berikut:

 Psignal 

SNR (dB ) = 10 log 10 
 Pnoise 
 Asignal 
,
= 20 log 10 
 Anoise 
sehingga semakin kecil nilai SNR dalam
desibel, semakin tinggi pengaruhnya dalam
merusak sinyal asli.
Ekstraksi Ciri Sinyal Suara
Sinyal suara merupakan sinyal bervariasi
yang diwaktukan dengan lambat atau biasa
disebut quasi-stationary (Do 1994). Ketika
diamati dalam jangka waktu yang sangat
pendek (5 - 100 ms), karakteristiknya hampir
sama. Namun, dalam jangka waktu yang
panjang (0,2 detik atau lebih) karakteristik
sinyal berubah dan merefleksikan perbedaan
sinyal suara yang diucapkan. Oleh karena itu,
digunakan spektrum waktu pendek (short-time
spectral analysis) untuk mengkarakterisasi
sinyal suara.
Beberapa fitur yang biasa digunakan antara
lain Linear Predictive Coding, Perceptual
Linear Prediction, dan Mel-Frequency
Cepstrum Coefficients.
MFCC
(Mel-Frequency
Coefficients)

Cepstrum

MFCC didasarkan pada variasi yang telah
diketahui dari jangkauan kritis telinga manusia
dengan frekuensi. Filter dipisahkan secara
linear pada frekuensi rendah dan logaritmik
pada frekuensi tinggi. Hal ini telah dilakukan
untuk menangkap karakteristik penting dari
sinyal suara.
Tujuan utama MFCC adalah untuk meniru
perilaku telinga manusia. Selain itu MFCC
telah terbukti bisa menyebutkan variasi dari
gelombang suara itu sendiri. Diagram blok dari
proses MFCC dapat dilihat pada Gambar 1.

Gambar 1 Diagram blok dari proses MFCC
(Do 1994)

Penjelasan tiap tahapan pada proses
MFCC sebagai berikut (Do 1994):
1. Frame Blocking. Pada tahap ini sinyal
suara (continous speech) dibagi ke dalam
frame-frame. Tiap frame terdiri dari N
sampel.
2. Windowing. Proses selanjutnya adalah
melakukan windowing pada tiap frame
untuk
meminimalkan
diskontinuitas
sinyal pada awal dan akhir tiap frame.
Konsepnya adalah meminimisasi distorsi
spektral dengan menggunakan window
untuk memperkecil sinyal hingga
mendekati nol pada awal dan akhir tiap
frame. Jika window didefinisikan sebagai
w(n), 0 ≤ n ≤ N-1, dengan N adalah
banyaknya sampel tiap frame, maka hasil
dari windowing adalah sinyal dengan
persamaan:
Yt(n)=x1(n)w(n), 0 ≤ n ≤ N-1.
Pada umumnya, window yang digunakan
adalah hamming window, dengan
persamaan:
w(n)=0.54-0.46cos(2πn/N-1), 0 ≤ n ≤ N-1.
3. Fast Fourier Transform (FFT). Tahap ini
mengkonversi tiap frame dengan N
sampel dari time domain menjadi
frequency domain. FFT adalah suatu
algoritma untuk mengimplementasikan
Discrete Fourier Transform (DFT) yang
didefinisikan pada himpunan N sampel
{xn} sebagai berikut:

N−1 −2πjkn/ N
, n = 0,1,2,...,N − 1,
X n = ∑ xk e
k=0
j digunakan untuk menotasikan unit
imajiner, yaitu j = − 1 . Secara umum
Xn adalah bilangan kompleks. Barisan
{Xn} yang dihasilkan diartikan sebagai
berikut: frekuensi nol berkorespondensi
dengan n = 0, frekuensi positif 0 < f <
Fs/2 berkorespondensi dengan nilai 1 ≤ n
≤ N/2-1, sedangkan frekuensi negatif –
Fs/2 < f < 0 berkorespondensi dengan
N/2+1 < n < N-1. Dalam hal ini Fs adalah
sampling
frequency.
Hasil
yang
didapatkan dalam tahap ini biasa disebut
dengan
spektrum
sinyal
atau
periodogram.
4. Mel-frequency Wrapping. Studi psikofisik
menunjukkan bahwa persepsi manusia
terhadap frekuensi sinyal suara tidak
berupa skala linear. Oleh karena itu, untuk

4

setiap nada dengan frekuensi aktual f
(dalam Hertz), tinggi subjektifnya diukur
dengan skala ‘mel’. Skala mel-frequency
adalah selang frekuensi di bawah 1000 Hz
dan selang logaritmik untuk frekuensi di
atas 1000 Hz, sehingga pendekatan berikut
dapat digunakan untuk menghitung melfrequency untuk frekuensi f dalam Hz:

di mana:
• uij adalah elemen matriks U yang
bernilai antara 0 dan 1,
• dij = ||ci - xj|| adalah jarak antara
pusat cluster ke-i dan titik data ke-j,
• ci adalah pusat cluster ke-i,
• m ∈ [1, ∞ ] adalah parameter
fuzzifikasi. Nomalnya, nilai m
berada pada selang [1.25,2] (Cox
2005).
Kemudian kondisi berhenti dicek:
• Jika (|Jt –Jt-1| < nilai toleransi terkecil
yang diharapkan) atau (t > maksimal
iterasi) maka proses berhenti.
• Jika tidak : t = t + 1.

Mel(f) = 2595*log10(1+f/700).
5. Cepstrum. Langkah terakhir, konversikan
log mel spectrum ke domain waktu.
Hasilnya disebut mel frequency cepstrum
coefficients. Representasi cepstral spektrum
suara merupakan representasi properti
spektral lokal yang baik dari suatu sinyal
untuk analisis frame. Mel spectrum
coefficients (dan logaritmanya) berupa
bilangan real, sehingga dapat dikonversikan
ke domain waktu dengan menggunakan
Discrete Cosine Transform (DCT).

4.

Sebelum perhitungan diulangi kembali
dari langkah 2, matriks U baru dihitung
terlebih dahulu menggunakan formula
berikut :

u

Fuzzy C-Means (FCM)

ij

1

=

 d
∑ 
 d
c

Menurut Jang et al. (1997), Fuzzy C-Means
merupakan algoritma clustering data di mana
setiap titik data masuk dalam sebuah cluster
dengan ditandai oleh derajat keanggotaan.
FCM membagi sebuah koleksi dari n data
vektor xj (j=1, 2, …, n) menjadi c cluster, dan
menemukan sebuah pusat cluster (center)
untuk tiap kelompok dengan meminimalisasi
ukuran dari fungsi objektif. Pada FCM hasil
dari clustering adalah sebuah titik data dapat
menjadi anggota untuk beberapa cluster yang
ditandai oleh derajat keanggotaannya antara 0
dan 1.
Berikut tahapan clustering menggunakan
algoritma FCM:
1. Inisialisasi keanggotaan matriks U yang
berisi derajat keanggotan terhadap cluster
dengan nilai antara 0 dan 1, sehingga
c

∑u
i =1

ij

= 1,

∀ j = 1,..., n.

2. Penghitungan c sebagai pusat cluster,
ci , i = 1, …, c dengan menggunakan
n

ci =

∑ ((u
j =1

ij

)m x j )

.

n

∑ (u
j =1

ij

)

m

3. Penghitungan fungsi objektif (Ji):
J (U , c1 ,..., c c ) =

c

c

n

i =1

i =1

j

∑ J i = ∑ ∑ u ijm d ij2

k =1

ij
kj

(




2
m −1)

.

Jaringan Saraf Tiruan
Jaringan saraf tiruan diinspirasi oleh cara
kerja otak manusia dimana untuk berpikir,
otak manusia mendapat rangsangan dari
neuron-neuron yang terdapat pada indera
manusia, kemudian hasil rangsangan tersebut
diolah
sehingga
menghasilkan
suatu
informasi. Pada komputer, masukan yang
diberikan diumpamakan sebagai neuronneuron dimana masukan tersebut dikalikan
dengan suatu nilai dan kemudian diolah
dengan fungsi tertentu untuk menghasilkan
suatu keluaran. Pada saat pelatihan,
pemasukan tersebut dilakukan berulang-ulang
hingga dicapai keluaran seperti yang
diinginkan. Setelah proses pelatihan,
diharapkan komputer dapat mengenali suatu
masukan baru berdasarkan data yang telah
diberikan pada saat pelatihan.
Dibandingkan dengan teknologi lainnya,
pendekatan komputasi menggunakan jaringan
saraf tiruan untuk beberapa bidang aplikasi
jauh lebih baik dan dapat mempersingkat
waktu. Kekuatan jaringan saraf tiruan ini
dapat digunakan untuk aplikasi seperti
pemrosesan sinyal kontrol, pengenalan pola,
kesehatan, dan pengenalan suara (Fausett
1994).

5

Probabilistic Neural Network
Probabilistic
Neural
Network
diperkenalkan oleh Donald F. Specht tahun
1990 dalam tulisannya berjudul “Probabilistic
Neural
Network”
yang
merupakan
penyempurnaan ide-ide sebelumnya yang telah
dilakuannya sejak tahun 1966. Probabilistic
Neural Network dirancang berdasarkan ide dari
teori probabilitas klasik yaitu Bayesian dan
estimator pengklasifikasi Parzen untuk
Probability Density Function. Dengan
menggunakan pengklasifikasi Bayesian dapat
ditentukan bagaimana sebuah data masukan
diklasifikasi sebagai anggota suatu kelas dari
beberapa kelas yang ada, yaitu yang
mempunyai nilai maksimum pada kelas
tersebut.
Adapun struktur dari PNN ini dapat dilihat
pada Gambar 2, yang terdiri atas empat layer
yaitu input layer, pattern layer, summation
layer, dan decision layer. Dengan menerima
vektor tes x dari input layer, keluaran dari
pattern layer dapat dihitung melalui persamaan
sebagai berikut :
d
 x − xih 
,
f (x ) = ∏ k  j


h
j =1 
j

dengan :
d = dimensi vektor,
2
k(z) = e −0.5×z ,
xj = vektor input kolom ke-j,
xij = vektor bobot baris ke-i kolom ke-j,
hj = smoothing parameter
(a×simpangan baku ke-j×n1/5 ).
Di sisi lain, untuk summation layer dihitung
dengan persamaan sebagai berikut :

p(x) =

 d  xnj − xij 
 ,
j =1
hj 
i =1
n

1

∑ Π k
(2π ) h h ...h n  
d/2

1 2

d

dengan n adalah banyaknya observasi.
Suatu vektor tes x diklasifikasikan pada
desicion layer sebagai kelas Y jika nilai DY(x)
paling besar untuk kelas Y.

Gambar 2 Struktur Probabilistic Neural
Network (Ganchev 2005)
METODE PENELITIAN
Pada model yang akan dikembangkan ini,
proses identifikasi terdiri atas dua fase, yaitu
fase pelatihan dan fase pengujian. Pada fase
pelatihan, contoh suara dari setiap pembicara
dikumpulkan dan kemudian akan di-clusterkan menggunakan FCM. Hasil peng-clusteran ini lah yang akan digunakan sebagai data
pelatihan pada PNN. Di sisi lain, pada fase
pengujian diberikan contoh data suara hasil
perekaman untuk diketahui pemilik suara
tersebut. Untuk lebih jelasnya, kedua fase
tersebut dapat dilihat pada Gambar 3.

Gambar 3 Blok diagram sistem identifikasi pembicara

6

Data Suara
Data yang digunakan pada penelitian ini
adalah gelombang suara yang telah didijitasi
dan direkam dari 10 pembicara (yang
selanjutnya disebut dengan data suara model),
yaitu 5 pembicara laki-laki dan 5 pembicara
perempuan dengan rentang usia 20-25 tahun.
Masing-masing pembicara diambil suaranya
dalam jangka waktu yang sama dan tanpa
pengarahan (unguided). Yang dimaksud tanpa
pengarahan
adalah
pembicara
dapat
menggunakan cara pengucapan, intonasi, dan
logat apapun pada saat merekam data.
Jenis
identifikasi
pembicara
yang
dilakukan bersifat bergantung pada teks, maka
kata yang diucapkan baik untuk pelatihan
maupun pengujian telah ditentukan yaitu
“komputer”. Kata tersebut diucapkan sebanyak
60 kali oleh setiap pembicara, sehingga
terdapat 600 file data. Di samping itu,
diperlukan juga data ber-noise dengan jumlah
yang sama untuk mengetahui pengaruh noise
terhadap akurasi model yang dikembangkan.
Selain itu, untuk menguji model yang
dikembangkan terhadap identifikasi tertutup,
maka dibutuhkan data tambahan yang berasal
dari pembicara lainnya sebanyak 6 pembicara
(yang selanjutnya disebut data suara nonmodel).
Pada penelitian ini untuk melihat proporsi
terbaik dengan jumlah data yang sama akan
dicobakan 3 kombinasi proporsi pembagian
data pelatihan dan data pengujian. Kombinasi
ini juga dipakai untuk data yang diberi
tambahan noise. Kombinasi proporsi tersebut
dapat dilihat pada Tabel 1.
Tabel 1 Kombinasi pembagian data pengujian
dan data pelatihan setiap suara model untuk
jumlah data yang sama
Data
pelatihan

Data
pengujian

20

30

30

20

40

10

20

30

30

20

40

10

20

30

30

20

40

10

Jenis data
Data asli

Data dengan
SNR 30 dB
Data dengan
SNR 20 dB

Selain itu, untuk melihat pengaruh
banyaknya proporsi data pelatihan terhadap
tingkat akurasi model yang dihasilkan akan

dicobakan 3 kombinasi proporsi pembagian
data pelatihan. Kombinasi ini juga dipakai
untuk data yang diberi tambahan noise.
Kombinasi proporsi tersebut dapat dilihat
pada Tabel 2.
Tabel 2 Kombinasi proporsi data pelatihan
dengan jumlah data pengujian yang sama
untuk setiap suara model
Data
pelatihan

Data
pengujian

20

20

30

20

40

20

20

20

30

20

40

20

20

20

30

20

40

20

Ekstraksi
MFCC

Ciri

Sinyal

Jenis data
Data asli
Data dengan
SNR 30 dB
Data dengan
SNR 20 dB
Suara

dengan

Ekstraksi ciri sinyal suara pada penelitian
ini menggunakan MFCC. Pada implementasi
MFCC ini, kecuali tahap frame blocking,
digunakan fungsi dari Auditory Toolbox yang
dikembangkan oleh Slanley pada tahun 1998.
Fungsi ini menggunakan lima parameter,
yaitu:
1. Input yaitu masukan suara yang berasal
dari tiap pembicara.
2. Sampling rate yaitu banyaknya nilai yang
diambil dalam satu detik. Dalam
penelitian ini digunakan sampling rate
sebesar 16000 Hz.
3. Time frame yaitu waktu yang diinginkan
untuk satu frame (dalam milidetik). Time
frame yang digunakan adalah 30 ms.
4. Lap yaitu overlaping yang diinginkan
(harus kurang dari satu). Lap yang
digunakan sebesar 0.5.
5. Cepstral coefficient
yaitu
jumlah
cepstrum yang diinginkan sebagai output.
Cepstral coefficient yang digunakan
sebanyak 13.
Setiap
data
suara
dari
setiap
pembicarakan dibagi menjadi 66 frame
dimana masing-masing frame berukuran 30
ms dengan overlap 50%. Hasil dari ekstraksi
ciri ini merupakan masukan bagi model yang
akan dikembangkan, yaitu PNN bertingkat
menggunakan FCM.

7

Probabilistic Neural Network Bertingkat
Menggunakan Fuzzy C-Means (FCM)
Pada model yang akan dikembangkan ini,
data untuk pelatihan dari masing-masing
pembicara (data suara model) di-cluster-kan
menggunakan Fuzzy C-Means (FCM), dengan
parameter FCM yang akan dicobakan adalah:
- Banyaknya cluster = 3,
- Error terkecil yang diharapkan = 1×10-5,
- Pangkat pembobot = 2,
- Maksimum iterasi = 100.
Kemudian, data setiap cluster yang terbentuk
akan digunakan oleh PNN sebagai data setiap
kelas.
Pada bagian lain, input layer pada PNN
merupakan matriks berukuran 13 x 66 yang
berasal dari suara pembicara yang akan
diidentifikasi yang telah mengalami proses
analisis fitur suara. Pada pattern layer,
dilakukan perhitungan dengan persamaan
sebagai berikut :
d
 x j − xij 
,
f (x ) = Π k 

j =1 
h
j



dengan :
d = dimensi vektor,
2
k(z) = e −0.5×z ,
xj = vektor input kolom ke-j,
xij = vektor bobot baris ke-i kolom ke-j,
hij = smoothing parameter
(a×simpangan baku ke-j×n1/5 ).
Setiap keluaran dari pattern layer akan
dijumlahkan dengan keluaran dari pattern
layer lainnya yang satu kelas, di mana
banyaknya kelas dalam penelitian ini adalah
banyaknya cluster yang terbentuk dari 10
orang pembicara (data suara model). Proses ini
termasuk dalam summation layer yang
dihitung melalui persamaan sebagai berikut :

p( x) =

 d  xnj − xij 
 Π k
 .

d/2
j =1 

h
(2π ) h1h2 ...hd n i=1   j 
1

n

Dari summation layer inilah akan diperoleh
nilai terbesar untuk suatu kelas. Nilai terbesar
ini mencerminkan bahwa suara yang diujikan
diidentifikasi sebagai pembicara kelas tersebut.
Untuk lebih jelasnya, struktur Probabilistic
Neural Network bertingkat menggunakan
Fuzzy C-Means (FCM) dapat dilihat pada
Gambar 4.

Gambar 4 Struktur Probabilistic Neural
Network Bertingkat
Hasil Identifikasi
Hasil identifikasi merupakan bagian
akhir dari identifikasi pembicara yang berupa
identifikasi pemilik suara berdasarkan input
suara yang diujikan. Identifikasi yang
dimaksud adalah apakah suara yang diujikan
diidentifikasi sebagai pembicara 1, 2, 3, 4, 5,
6, 7, 8, 9, atau 10.
Selain itu, dari hasil identifikasi ini juga
dapat dihitung tingkat keberhasilan dari
model. Tingkat keberhasilan model ini dapat
dilihat dari besarnya tingkat akurasi
identifikasi yang dihasilkan oleh model.
Tingkat akurasi dihitung sebagai rasio antara
jumlah data pembicara yang diidentifikasi
secara benar dengan jumlah seluruh data
pembicara yang diujikan.

8

Penggunaan Threshold
Nilai threshold ini digunakan untuk
melakukan seleksi yang lebih akurat dari hasil
identifikasi setiap suara. Nilai threshold dari
tiap pembicara berfungsi sebagai ambang batas
nilai keluaran yang diterima untuk dapat
diidentifikasikan sebagai pembicara tersebut.
Apabila suatu data uji memiliki nilai terbesar
pada suatu kelas, maka data uji tersebut tidak
langsung diidentifikasi sebagai pembicara
yang memiliki kelas tersebut, tetapi akan
dilakukan pembandingan, yaitu pembandingan
antara nilai keluaran terbesar pada suatu kelas
untuk suatu data uji dengan nilai threshold
suatu kelas di mana data uji tersebut memiliki
nilai keluaran paling besar di kelas tersebut
dibandingkan kelas lainnya. Jika nilainya lebih
besar dari nilai threshold, maka suara yang
diujikan diidentifikasi sebagai pembicara dari
kelas tersebut. Sebaliknya jika lebih kecil,
maka suara tersebut diidentifikasikan sebagai
pembicara 0 (tidak terdaftar).
Lingkungan Pengembangan
Perangkat keras yang digunakan adalah
microphone jenis headset dan komputer
personal dengan prosesor AMD Duron 800
MHz, RAM sebesar 256 MB, serta kapasitas
harddisk sebesar 40 GB.
Sistem operasi yang digunakan adalah
Windows XP Profesional. Perangkat lunak
yang digunakan adalah Matlab 7.0.1 dan untuk
MFCC digunakan beberapa fungsi dari
Auditory Toolbox.
HASIL DAN PEMBAHASAN
Data Suara
Data suara yang digunakan berasal dari
suara 10 orang pembicara (data suara model)
yang
direkam
menggunakan
fungsi
wavrecord pada Matlab, dan disimpan
menjadi file berekstensi WAV. Karena jenis
pengenalan pembicara pada penelitian ini
bersifat bergantung pada teks, maka setiap
pembicara mengucapkan kata yang sama, yaitu
“komputer” sebanyak 60 kali sehingga didapat
600 data suara. Setiap suara diambil tanpa
pengarahan (unguided) dengan sampling rate
16000 Hz dan direkam selama 1 detik, yang
kemudian masing-masing akan menghasilkan
ukuran file 31,2 KB.
Untuk mendapatkan data yang diberi noise
secara manual, data hasil perekaman (sebanyak
600 file) disalin sebanyak dua kali, sehingga
akan didapat 1200 file data hasil salinan.
Kemudian, data suara hasil salinan tersebut,

yaitu salinan pertama dan salinan kedua,
masing-masing akan ditambahkan noise
sesuai dengan besarnya SNR menggunakan
fungsi awgn pada Matlab. Pada penelitian ini,
besarnya SNR yang akan ditambahkan
sebesar 20 dB dan 30 dB. Dengan demikian,
total seluruh data suara yang didapat
sebanyak 1800 file, yaitu 600 file data suara
asli dan 600 file data suara yang dengan SNR
sebesar 20 dB dan 600 file data suara yang
dengan SNR sebesar 30 dB.
Selain itu, untuk menguji model yang
dikembangkan terhadap identifikasi tertutup,
maka dibutuhkan data tambahan yang berasal
dari pembicara lainnya (data suara nonmodel) yang diperoleh dengan cara yang
sama sebagaimana yang telah dijelaskan
sebelumnya. Pada penelitian ini, data suara
non-model diambil dari 6 pembicara, di mana
suara masing-masing pembicara direkam
sebanyak lima kali.
Praproses dengan MFCC
Implementasi MFCC ini, kecuali tahap
frame blocking, digunakan fungsi dari
Auditory Toolbox yang dikembangkan oleh
Slanley pada tahun 1998. Setiap data suara
akan dibagi menjadi frame berukuran
masing-masing 30 ms dengan overlap 50%,
dengan demikian akan dihasilkan 66 frame.
Hasil dari analisis fitur suara MFCC ini
adalah 13 koefisien mel cepstrum untuk
masing-masing frame. Pemilihan nilai time
frame, lap, dan cepstral coefficient berturutturut sebesar 30 ms, 0.5, dan 13 didasarkan
pada penelitian sebelumnya yang dilakukan
Mandasari (2005) dan Purnamasari (2006).
Dari hasil praproses ini, maka setiap data
berubah dari matriks yang berukuran 16000 x
1 menjadi matriks 13 x 66. Hasil ini
merupakan masukan untuk PNN.
Probabilistic Neural Network Bertingkat
Menggunakan Fuzzy C-Means (FCM)
Untuk meng-cluster-kan data yang telah
diekstraksi dengan MFCC digunakan Fuzzy
C-Means (FCM). Pada awalnya banyaknya
cluster untuk setiap data pembicara
ditentukan sebanyak tiga cluster sesuai
dengan batasan penelitian ini, tetapi apabila
pada saat peng-cluster-an data suatu
pembicara terdapat cluster dengan jumlah
anggota cluster sebanyak 0, maka data
pembicara tersebut akan di-cluster-kan
dengan jumlah cluster sebanyak dua. Hasil
peng-cluster-an baik untuk data asli, data
yang ditambah noise dengan SNR 30 dB,
maupun data yang ditambah noise dengan

9

SNR 20 dB untuk 20 data pelatihan, 30 data
pelatihan, dan 40 data pelatihan dapat dilihat
pada Lampiran 1 s.d Lampiran 6.
Pada bagian lain, input bagi Probabilistic
Neural Network merupakan data suara
pelatihan dan data suara pengujian yang telah
mengalami proses ekstraksi ciri sinyal suara
dengan MFCC. Pada bagian pelatihan, data
suara yang digunakan merupakan data dari
setiap pembicara yang telah di-cluster-kan
sebelumnya menggunakan Fuzzy C-Means.
Cluster- cluster yang terbentuk ini lah yang
akan menjadi kelas pada PNN.
Pada penelitian ini, untuk menghitung nilai
smoothing parameter (h = a×simpangan baku
ke-j×n1/5), akan dicobakan beberapa nilai a
untuk mendapatkan model yang paling optimal
untuk setiap proporsi data pelatihan yang
berbeda.
Pada bagian pattern layer akan dilakukan
perhitungan antara data pelatihan dan data
pengujian. Kemudian hasil dari pattern layer
ini akan dijumlahkan dengan hasil pattern
layer lainnya yang satu kelas. Proses
penjumlahan ini terjadi pada bagian
summation layer. Selanjutnya, dari summation
layer ini lah diperoleh nilai terbesar untuk
suatu kelas.
Pemilihan Nilai Smoothing Parameter
Tingkat akurasi model yang dikembangkan
dengan nilai smoothing parameter yang
berbeda dapat dilihat pada Lampiran 7 s.d
Lampiran 9.
Dari Lampiran 7 dapat dilihat untuk model
yang menggunakan data asli dengan
banyaknya data pelatihan sebesar 20 memiliki
tingkat akurasi maksimum dengan memilih
nilai a sebesar 8.3. Di sisi lain, model dengan
banyaknya data pelatihan sebesar 30 memiliki
tingkat akurasi maksimum dengan memilih
nilai a yang berada pada selang [7.8,8.1] atau
pada selang [10.5,11]. Model dengan
banyaknya data pelatihan sebesar 40 memiliki
tingkat akurasi maksimum dengan memilih
nilai a yang berada pada selang [7.6,13.4].
Di sisi lain, untuk model yang
menggunakan data dengan SNR sebesar 30
dB, tingkat akurasi maksimum untuk data
pelatihan sebanyak 20 didapat dengan memilih
nilai a yang berada pada selang [11.4,11.6].
Model dengan banyaknya data pelatihan
sebesar 30 memiliki tingkat akurasi maksimum
dengan memilih nilai a yang berada pada
selang [2.1,4.5], dan model dengan banyaknya
data pelatihan sebesar 40 memiliki tingkat
akurasi maksimum dengan memilih nilai a

yang berada pada selang [2.1,5.2],
sebagaimana yang terlihat pada Lampiran 8.
Untuk model yang menggunakan data
dengan SNR sebesar 20 dB, tingkat akurasi
yang dihasilkan dengan nilai smoothing
parameter yang berbeda dapat dilihat pada
Lampiran 9. Dari lampiran tersebut dapat
dilihat bahwa model dengan banyaknya data
pelatihan sebesar 20 memiliki tingkat akurasi
maksimum dengan memilih nilai a yang
berada pada selang [12.7,12.9] atau pada
selang [13.5,14.3]. Di sisi lain, model dengan
banyaknya data pelatihan sebesar 30
memiliki tingkat akurasi maksimum dengan
memilih nilai a sebesar 8.4, sedangkan
banyaknya data pelatihan sebesar 40
memiliki tingkat akurasi maksimum dengan
nilai a yang berada pada selang [6.1,6.9] atau
pada selang [9.9,10.5].
Hasil Identifikasi Menggunakan Nilai
Smootihng Parameter yang Telah Dipilih
Hasil identifikasi terkait erat dengan
decision layer pada Probabilistic Neural
Network. Dari decision layer akan diperoleh
nilai maksimum untuk suatu kelas. Nilai
terbesar ini mencerminkan bahwa suara yang
diujikan diidentifikasi sebagai pembicara
kelas tersebut.
Setelah melalui Probabilistic Neural
Network dapat diketahui identitas pemilik
suara yang diujikan. Identitas yang dimaksud
adalah apakah sebagai pembicara 1, 2, 3, 4,
5, 6, 7, 8, 9, atau pembicara 10.
Hasil Identifikasi dengan nilai smoothing
parameter yang telah dipilih untuk semua
model dapat dilihat pada Lampiran 10 s.d
Lampiran 18. Dari lampiran tersebut, dapat
dihitung tingkat akurasi masing-masing
model dengan cara yang telah dipaparkan
sebelumnya. Pada Tabel 3 diberikan tingkat
akurasi untuk setiap model dengan jumlah
data yang sama, dan pada Tabel 4 diberikan
tingkat akurasi untuk setiap model dengan
data pengujian yang sama.
Tabel 3 Tingkat akurasi setiap model dengan
jumlah data yang sama
Banyak
Data
Pelatihan

Banyak
Data
Pengujian

Tingkat
Akurasi
(%)

20

30

70

30

20

82

40

10

96

Jenis
Data

Data
asli

10

100
90

Tingkat akurasi (%)

80
70
60
50

20 Pelatihan

40

30 Pelatihan

30

40 Pelatihan

20
10
0
1

2

3

4

5

6

7

8

9

10

Pem bicara

Gambar 5 Perbandingan tingkat akurasi setiap pembicara pada model yang menggunakan data asli
Tabel 3 Lanjutan
Banyak
Data
Pengujian

Tingkat
Akurasi
(%)

20

30

76.67

30

20

80.5

40

10

89

20

30

58.33

30

20

60

40

10

59

Jenis
Data

Data
dengan
SNR 30
dB
Data
dengan
SNR 20
dB

Tabel 4 Tingkat akurasi setiap model dengan
data pengujian yang sama.
Banyak
Data
Pelatihan

Banyak
Data
Pengujian

Tingkat
Akurasi
(%)

20

20

67

30

20

82

40

20

96

20

20

73

30

20

77

40

20

85.5

20

20

48.5

30

20

49.5

40

20

60

Jenis
Data

Data
asli

120

100

Data
dengan
SNR 30
dB
Data
dengan
SNR 20
dB

Berdasarkan hasil identifikasi yang dapat
dilihat pada Lampiran 10 s.d Lampiran 12,
tingkat akurasi setiap pembicara untuk
proporsi yang berbeda dengan menggunakan
data asli dapat dilihat Gambar 5. Dari gambar
tersebut dapat dilihat bahwa tingkat akurasi
tiap pembicara mengalami perubahan pada
jumlah pelatihan yang berbeda. Perubahan ini

Tingkat akurasi (%)

Banyak
Data
Pelatihan

disebabkan gaya berbicara yang tidak sama
setiap pengambilan data.
Dilihat dari tingkat akurasi yang
dihasilkan untuk jumlah data yang sama
dengan menggunakan jenis data asli, model
dengan banyaknya pelatihan sebesar 40 dan
banyaknya pengujian sebesar 10 memiliki
tingkat
akurasi
tertinggi
apabila
dibandingkan dengan proporsi lainnya pada
jenis data asli. Untuk jenis data lainnya pun
dapat dilihat proporsi terbaik berdasarkan
tingkat akurasi yang dihasilkan, sebagaimana
yang terlihat pada Gambar 6.
Selain itu untuk melihat pengaruh
banyaknya data pelatihan, pada Gambar 7
diberikan hasil tingkat akurasi untuk masingmasing proporsi data pelatihan yang berbeda.
Dari Gambar 7 terlihat bahwa semakin
banyak data pelatihan maka tingkat akurasi
juga akan semakin tinggi.

80
Data asli
60

Dengan SNR 30
Dengan SNR 20

40

20

0
20

30

40

Banyak data pelatihan

Gambar 6 Perbandingan tingkat akurasi
untuk setiap model dengan jumlah data yang
sama

11

pembicara dikumpulkan, lalu disimpan dalam
suatu matriks. Dari matriks tersebut
kemudian diambil nilai minimum untuk
setiap pembicara yang diwakili oleh beberapa
kelas. Nilai keluaran minimum tersebut
adalah nilai yang digunakan sebagai
threshold untuk setiap pembicara.
Pada Lampiran 19 diberikan nilai
threshold untuk masing-masing pembicara.
Pada Tabel 5 dapat dilihat pengaruh
threshold pada hasil identifikasi 40 data
pelatihan untuk 10 data pengujian pada data
asli. Di sisi lain, dari Tabel 6 dapat dilihat
pengaruh penggunaan threshold apabila data
pengujian yang digunakan berasal dari
pembicara non-model.
Perbandingan tingkat akurasi antara
model yang menggunakan threshold dan
dengan model yang tidak menggunakan
threshold untuk 40 data pelatihan pada data
asli dapat dilihat pada Gambar 8.

120

Tingkat akurasi (%)

100
80
Data asli
Dengan SNR 30

60

Dengan SNR 20
40
20
0
20

30

40

Banyak data pelatihan

Gambar 7 Perbandingan tingkat akurasi antara
data yang ditambahkan SNR dengan data asli.
Pengaruh penambahan SNR dapat dilihat
pada Gambar 6 dan Gambar 7. Dari kedua
gambar tersebut terlihat bahwa semakin kecil
nilai SNR yang diberikan mengakibatkan
tingkat akurasi semakin mengecil. Hal ini
terjadi karena dengan semakin mengecilnya
nilai SNR, maka kekuatan noise dalam
merusak sinyal semakin besar.

96
95

Pengaruh Penggunaan Threshold

94

Untuk melihat pengaruh threshold pada
model yang telah dikembangkan, penggunaan
threshold hanya akan dicobakan pada model
PNN yang optimal atau memiliki tingkat
akurasi tertinggi,
yaitu model
yang
menggunakan data asli dengan data pelatihan
sebanyak 40.
Nilai threshold untuk tiap pembicara akan
diambil dari 40 data pelatihan (data ke-1 s.d
data ke-40 dari 60 data untuk setiap
pembicara). Data keluaran yang diidentifikasi
dari setiap kelas dari masing-masing

93

Dengan threshold
Tanpa threshold

92
91
90
89
88
40

Gambar 8 Perbandingan tingkat akurasi
model dengan menggunakan threshold dan
dengan model yang tidak menggunakan
threshold

Tabel 5 Hasil identifikasi 40 data pelatihan untuk 10 data pengujian pada data asli dengan
menggunakan threshold

0

1

2

3

4

5

6

7

8

9

10

Tingkat
akurasi
(%)

1

1