Pengembangan Model Identifikasi Pembicara dengan Probabilitas Neural Network
ABSTRAK
MOHAMAD NONO SUHARTONO. Pengembangan Model Identifikasi Pembicara Dengan
Probabilistic Neural Network. Dibimbing oleh AGUS BUONO dan MEUTHIA RACHMANIAH. Teknologi identifikasi pembicara telah digunakan untuk berbagai kepentingan, seperti konferensi audio dan penyelidikan polisi. Pada penelitian ini dilakukan identifikasi pembicara menggunakan Probabilistic Neural Network (PNN) karena PNN telah terbukti memiliki tingkat akurasi yang tinggi, yaitu 96%. Untuk praproses data digunakan Mel Frequency Cepstrum Coefficients (MFCC). Jenis identifikasi pembicara bersifat tertutup dan bergantung pada teks yang mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar dan kata yang digunakan dalam pelatihan dan pengujian sama yaitu “komputer”.
Data suara yang dihasilkan setiap perekaman merupakan matriks berukuran 16000×1. Ukuran ini terlalu besar jika langsung digunakan dan mengakibatkan lamanya waktu komputasi. Oleh karena itu data suara tersebut direduksi terlebih dahulu dengan menggunakan MFCC. Data suara dari setiap pembicara yang telah melalui praproses akan menjadi masukan bagi PNN. PNN terdiri atas empat layer, yaitu input layer, pattern layer, summation layer, dan desicion layer. Pada PNN akan dilakukan perhitungan untuk mencari nilai terbesar dari data yang diujikan untuk mengetahui identitas pemilik suara tersebut. Identifikasi terdiri atas identifikasi tanpa threshold
dan identifikasi dengan threshold. Adanya threshold dimaksudkan untuk meningkatkan keakuratan hasil identifikasi.
Dari penelitian yang telah dilakukan, diperoleh suatu model PNN untuk identifikasi pembicara. Identifikasi pembicara dilakukan dengan 20 data pelatihan, 30 data pelatihan, dan 40 data pelatihan. Hasil identifikasi tanpa threshold dan dengan threshold berbeda dimana dengan
threshold akan memberikan hasil yang lebih akurat.
Untuk identifikasi tanpa threshold, nilai akurasi tertinggi untuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan yaitu sebesar 94%. Untuk identifikasi dengan
threshold, nilai akurasi tertinggiuntuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan yaitu sebesar 94% sedangkan untuk pembicara yang tidak dikenal diperoleh dari model dengan 20 data pelatihan yaitu sebesar 96%.
Kata kunci : Identifikasi Pembicara, Probabilistic Neural Network, Mel Frequency Cepstrum Coefficients
(2)
Oleh :
MOHAMAD NONO SUHARTONO
G64103044
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2007
(3)
Oleh :
MOHAMAD NONO SUHARTONO
G64103044
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2007
(4)
Skripsi
Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer
pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Oleh :
MOHAMAD NONO SUHARTONO
G64103044
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2007
(5)
ABSTRAK
MOHAMAD NONO SUHARTONO. Pengembangan Model Identifikasi Pembicara Dengan
Probabilistic Neural Network. Dibimbing oleh AGUS BUONO dan MEUTHIA RACHMANIAH. Teknologi identifikasi pembicara telah digunakan untuk berbagai kepentingan, seperti konferensi audio dan penyelidikan polisi. Pada penelitian ini dilakukan identifikasi pembicara menggunakan Probabilistic Neural Network (PNN) karena PNN telah terbukti memiliki tingkat akurasi yang tinggi, yaitu 96%. Untuk praproses data digunakan Mel Frequency Cepstrum Coefficients (MFCC). Jenis identifikasi pembicara bersifat tertutup dan bergantung pada teks yang mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar dan kata yang digunakan dalam pelatihan dan pengujian sama yaitu “komputer”.
Data suara yang dihasilkan setiap perekaman merupakan matriks berukuran 16000×1. Ukuran ini terlalu besar jika langsung digunakan dan mengakibatkan lamanya waktu komputasi. Oleh karena itu data suara tersebut direduksi terlebih dahulu dengan menggunakan MFCC. Data suara dari setiap pembicara yang telah melalui praproses akan menjadi masukan bagi PNN. PNN terdiri atas empat layer, yaitu input layer, pattern layer, summation layer, dan desicion layer. Pada PNN akan dilakukan perhitungan untuk mencari nilai terbesar dari data yang diujikan untuk mengetahui identitas pemilik suara tersebut. Identifikasi terdiri atas identifikasi tanpa threshold
dan identifikasi dengan threshold. Adanya threshold dimaksudkan untuk meningkatkan keakuratan hasil identifikasi.
Dari penelitian yang telah dilakukan, diperoleh suatu model PNN untuk identifikasi pembicara. Identifikasi pembicara dilakukan dengan 20 data pelatihan, 30 data pelatihan, dan 40 data pelatihan. Hasil identifikasi tanpa threshold dan dengan threshold berbeda dimana dengan
threshold akan memberikan hasil yang lebih akurat.
Untuk identifikasi tanpa threshold, nilai akurasi tertinggi untuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan yaitu sebesar 94%. Untuk identifikasi dengan
threshold, nilai akurasi tertinggiuntuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan yaitu sebesar 94% sedangkan untuk pembicara yang tidak dikenal diperoleh dari model dengan 20 data pelatihan yaitu sebesar 96%.
Kata kunci : Identifikasi Pembicara, Probabilistic Neural Network, Mel Frequency Cepstrum Coefficients
(6)
Judul : Pengembangan Model Identifikasi Pembicara Dengan
Probabilistic
Neural Network
Nama : Mohamad Nono Suhartono
NRP :
G64103044
Menyetujui:
Pembimbing I,
Pembimbing II
Ir. Agus Buono, M.Si., M.Kom.
Ir. Meuthia Rachmaniah, M.Sc.
NIP 132045532
NIP 131414854
Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Prof. Dr. Ir. Yonny Koesmaryono, MS
NIP 131473999
(7)
RIWAYAT HIDUP
Penulis dilahirkan di Cirebon pada tanggal 12 Mei 1984 sebagai anak ke lima dari lima bersaudara dari pasangan M. Asikin Suprapto dan Nani Mulyani. Penulis menyelesaikan pendidikan menengah atas di SMUN 2 Cirebon dan lulus pada tahun 2003. Pada tahun yang sama penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Penulis diterima melalui jalur Undangan Seleksi Masuk IPB (USMI). Penulis pernah melaksanakan praktek lapang selama dua bulan di Perpustakaan IPB. Bidang kajian yang dipilih pada praktek lapang tersebut berkaitan dengan
(8)
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah SWT atas limpahan nikmat dan hidayah-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini. Sholawat dan salam semoga senantiasa tercurah kepada nabi besar Muhammad SAW, keluarganya, para sahabat, serta para pengikutnya yang tetap istiqomah mengemban risalah-Nya.
Melalui lembar ini, penulis ingin menyampaikan penghargaan dan terima kasih kepada semua pihak atas bantuan, dorongan, saran, kritik, serta koreksi yang ditujukan selama penulisan karya ilmiah ini. Ucapan terima kasih penulis ucapkan kepada :
1 Mamah, Bapak, dan Kakak-kakakku atas doa, kasih sayang, dan pengorbanan yang telah diberikan selama ini.
2 Bapak Ir. Agus Buono, M.Si., M.Kom. selaku pembimbing I, Ibu Ir. Meuthia Rachmaniah, M.Sc. selaku pembimbing II dan Bapak Aziz Kustiyo, S.Si., M.Kom. selaku dosen penguji.
3 Nyna Yanuartha yang senantiasa memberi semangat dan dorongan untuk segera menyelesaikan karya ilmiah ini.
4 Aristi, Nurhadi, dan Vicky yang telah bersedia menjadi pembahas.
5 Eno, Thessi, Yustin, Ghoffar, Pandi, Mulyadi, Nanik, Vita, PIS, Ryan, Dona, Meynar, Risa M., dan Gibta yang telah menyumbangkan suaranya untuk data dalam penelitian ini.
6 Teh Arum dan Nacha yang telah meminjamkan headphone-nya. 7 Yayan yang telah meminjamkan laptopnya.
8 Seluruh staf pengajar yang telah memberikan bekal ilmu dan wawasan selama penulis menuntut ilmu di Departemen Ilmu Komputer.
9 Seluruh staf administrasi dan perpustakaan atas bantuannya. 10 Rekan-rekan Departemen Ilmu Komputer angkatan 40.
Sebagaimana manusia yang tidak luput dari kesalahan, penulis menyadari bahwa karya ilmiah ini jauh dari sempurna. Namun penulis berharap semoga karya ilmiah ini dapat bermanfaat bagi siapapun yang membacanya.
Bogor, Mei 2007
(9)
DAFTAR ISI
Halaman
DAFTAR TABEL...vi
DAFTAR GAMBAR ...vi
DAFTAR LAMPIRAN...vi
PENDAHULUAN ...1
Latar Belakang...1
Tujuan...1
Ruang Lingkup ...1
Manfaat...1
TINJAUAN PUSTAKA ...1
Jenis Pengenalan Pembicara ...1
Dijitalisasi Gelombang Suara ...1
Ekstraksi Ciri Sinyal Suara...2
Mel-Frequency Cepstrum Coefficients (MFCC) ...2
Jaringan Saraf Tiruan ...3
Probabilistic Neural Network (PNN) ...3
METODE PENELITIAN...4
Data suara ...4
Ekstraksi Ciri Sinyal Suara Dengan MFCC ...5
Probabilistic Neural Network...5
Hasil Identifikasi ...6
Lingkungan Pengembangan ...6
HASIL DAN PEMBAHASAN...6
Data Suara ...6
Ekstraksi Ciri Sinyal Suara Dengan MFCC ...6
Probabilistic Neural Network...7
1 Tanpa Threshold...7
1.1 Identifikasi Dengan 20 Data Pelatihan ...7
1.2 Identifikasi Dengan 30 Data Pelatihan ...8
1.3 Identifikasi Dengan 40 Data Pelatihan ...9
2 Dengan Threshold...10
2.1 Identifikasi Dengan 20 Data Pelatihan ...10
2.2 Identifikasi Dengan 30 Data Pelatihan ...11
2.3 Identifikasi Dengan 40 Data Pelatihan ...12
Hasil Identifikasi ...14
KESIMPULAN DAN SARAN...15
Kesimpulan...15
Saran...16
DAFTAR PUSTAKA ...16
(10)
DAFTAR TABEL
Halaman
1 Struktur percobaan data suara setiap pembicara...5
2 Nilai threshold untuk tiga macam pelatihan...6
3 Hasil identifikasi 20 pelatihan tanpa threshold untuk 20 data pengujian kelompok 1 ...7
4 Hasil identifikasi 20 pelatihan tanpa threshold untuk 5 data pengujian kelompok 2 ...8
5 Hasil identifikasi 30 pelatihan tanpa threshold untuk 15 data pengujian kelompok 1 ...8
6 Hasil identifikasi 30 pelatihan tanpa threshold untuk 5 data pengujian kelompok 2 ...9
7 Hasil identifikasi 40 pelatihan tanpa threshold untuk 10 data pengujian kelompok 1 ...9
8 Hasil identifikasi 40 pelatihan tanpa threshold untuk 5 data pengujian kelompok 2 ...10
9 Hasil identifikasi 20 pelatihan dengan threshold untuk 20 data pengujian kelompok 1 ...10
10 Hasil identifikasi 20 pelatihan dengan threshold untuk 5 data pengujian kelompok 2 ...11
11 Hasil identifikasi 30 pelatihan dengan threshold untuk 15 data pengujian kelompok 1 ...12
12 Hasil identifikasi 30 pelatihan dengan threshold untuk 5 data pengujian kelompok 2 ...12
13 Hasil identifikasi 40 pelatihan dengan threshold untuk 10 data pengujian kelompok 1 ...13
14 Hasil identifikasi 40 pelatihan dengan threshold untuk 5 data pengujian kelompok 2 ...13
15 Perbandingan tingkat akurasi antara penelitian ini dan Purnamasari (2006)...15
DAFTAR GAMBAR
Halaman 1 Diagram blok dari proses MFCC (Do 1994) ...22 Struktur Probabilistic Neural Network (Ganchev 2005)...4
3 Blok diagram sistem identifikasi pembicara ...4
4 Tingkat akurasi setiap pembicara laki-laki kelompok 1 ...14
5 Tingkat akurasi setiap pembicara perempuan kelompok 1...14
6 Perbandingan tingkat akurasi untuk pembicara dari kelompok 1...15
7 Perbandingan tingkat akurasi untuk pembicara dari kelompok 2 dengan threshold...15
DAFTAR LAMPIRAN
Halaman 1 Hasil identifikasi dengan 20 data pelatihan untuk 20 data pengujian kelompok 1...182 Hasil identifikasi dengan 30 data pelatihan untuk 15 data pengujian kelompok 1...22
3 Hasil identifikasi dengan 40 data pelatihan untuk 10 data pengujian kelompok 1...25
4 Hasil identifikasi dengan 20 data pelatihan untuk 5 data kelompok 2 ...28
5 Hasil identifikasi dengan 30 data pelatihan untuk 5 data kelompok 2 ...29
(11)
PENDAHULUAN
Latar BelakangSinyal suara dapat memberikan informasi mengenai identitas pembicara. Proses mengekstrak informasi yang diinginkan dari sinyal suara disebut speech processing. Speech processing memiliki beberapa cabang kajian. Salah satu kajian dalam speech processing adalah identifikasi pembicara. Identifikasi pembicara (speaker identification) adalah suatu proses mengenali seseorang berdasarkan suaranya (Campbell 1997).
Teknologi identifikasi pembicara telah digunakan untuk berbagai kepentingan, seperti konferensi audio dan penyelidikan polisi. Berbagai metode yang dapat digunakan untuk identifikasi pembicara, antara lain Dynamic Time Warping (DTW), Hidden Markov Model
(HMM), Vector Quantization (VQ), dan Jaringan Syaraf Tiruan seperti Multi Layer Perceptron dan Probabilistic Neural Network.
Pada penelitian ini akan dilakukan identifikasi pembicara menggunakan
Probabilistic Neural Network. Hal ini dikarenakan Probabilistic Neural Network
telah terbukti memiliki tingkat akurasi yang tinggi, yaitu 96%. (Sarimollaoglu et al. 2004).
Tujuan
Tujuan penelitian ini adalah mengembangkan model Probabilistic Neural Network untuk identifikasi pembicara. Penelitian ini juga dilakukan untuk membandingkan hasil identifikasi tanpa
threshold dan dengan threshold.
Ruang Lingkup
Ruang lingkup penelitian ini dibatasi pada: 1. Identifikasi bersifat tertutup dan
bergantung pada teks yang mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang terdaftar dan menggunakan kata “komputer” dalam pelatihan dan pengujian.
2. Ekstraksi ciri sinyal suara menggunakan
Mel-Frequency Cepstrum Coefficients
(MFCC).
3. Pembahasan difokuskan pada tahap pemodelan pembicara dengan
Probabilistic Neural Network, tidak pada pemrosesan sinyal analog sebagai praproses sistem.
Manfaat
Penelitian ini diharapkan dapat memberikan informasi mengenai tingkat akurasi Probabilistic Neural Network untuk identifikasi pembicara. Selain itu juga diharapkan model yang dihasilkan dapat digunakan untuk mengembangkan sistem identifikasi pembicara yang bersifat tertutup dan bergantung pada teks.
TINJAUAN PUSTAKA
Jenis Pengenalan PembicaraMenurut Campbell (1997), pengenalan pembicara berdasarkan jenis aplikasinya dibagi dua, yaitu:
1. Identifikasi pembicara yaitu proses mengenali seseorang berdasarkan suaranya. Identifikasi pembicara dibagi dua, yaitu:
• Identifikasi tertutup (closed-set identification) di mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar atau diketahui.
• Identifikasi terbuka (open-set identification) di mana suara masukan boleh tidak ada pada kumpulan suara pembicara yang telah terdaftar
2. Verifikasi pembicara yaitu proses memeriksa identitas yang diklaimkan seseorang berdasarkan suaranya.
Pengenalan pembicara berdasarkan aspek kebahasaan dibagi menjadi dua (Ganchev 2005), yaitu:
1. Pengenalan pembicara bergantung pada teks yang mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian. 2. Pengenalan pembicara bebas teks yang
tidak mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian. Dijitalisasi Gelombang Suara
Suara adalah gelombang longitudinal yang merambat melalui medium. Medium atau zat perantara ini dapat berupa zat padat, cair, atau gas. Manusia mendengar bunyi saat gelombang bunyi, yaitu getaran di udara atau medium lain, sampai ke gendang telinga manusia.
Gelombang suara merupakan gelombang analog, sehingga agar dapat diolah dengan peralatan elektronik, gelombang suara harus direpresentasikan dalam bentuk dijital. Proses
(12)
mengubah masukan suara dari gelombang analog menjadi representasi data dijital disebut dijitalisasi suara.
Proses dijitalisasi suara terdiri atas dua tahap yaitu sampling dan kuantisasi (Jurafsky & Martin 2000). Sampling adalah proses pengambilan nilai dalam jangka waktu tertentu. Nilai ini menyatakan amplitudo (besar/kecilnya) volume suara pada saat itu. Hasilnya adalah sebuah vektor yang menyatakan nilai-nilai hasil sampling. Panjang vektor data ini bergantung pada panjang atau lamanya suara yang didijitalisasikan serta sampling rate yang digunakan pada proses dijitalisasinya.
Sampling rate itu sendiri adalah banyaknya nilai yang diambil setiap detik. Sampling rate
yang biasa digunakan adalah 8000 Hz dan 16000 Hz (Jurafsky & Martin 2000). Hubungan antara panjang vektor data yang dihasilkan dengan sampling rate dan panjangnya data suara yang didijitalisasikan dapat dinyatakan secara sederhana sebagai berikut:
, T F S = s×
dengan
S = panjang vektor
Fs = sampling rate yang digunakan (Hertz) T = panjang suara (detik)
Setelah melalui tahap sampling, proses dijitalisasi suara selanjutnya adalah kuantisasi. Kuantisasi adalah menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 2000).
Ekstraksi Ciri Sinyal Suara
Sinyal suara merupakan sinyal bervariasi yang diwaktukan dengan lambat atau biasa disebut quasi-stationary (Do 1994). Ketika diamati dalam jangka waktu yang sangat pendek (5 - 100 ms), karakteristiknya hampir sama. Namun, dalam jangka waktu yang panjang (0,2 detik atau lebih) karakteristik sinyal berubah dan merefleksikan perbedaan sinyal suara yang diucapkan. Oleh karena itu, digunakan spektrum waktu pendek (short-time spectral analysis) untuk mengkarakterisasi sinyal suara.
Beberapa fitur sinyal suara yang biasa digunakan antara lain Linear Predictive Coding, Perceptual Linear Prediction, dan
Mel-Frequency Cepstrum Coefficients. Pada penelitian ini, fitur yang digunakan adalah
Mel-Frequency Cepstrum Coefficients.
Mel-Frequency Cepstrum Coefficients (MFCC)
MFCC didasarkan pada variasi yang telah diketahui dari jangkauan kritis telinga manusia terhadap frekuensi. Filter dipisahkan secara linier pada frekuensi rendah dan logaritmik pada frekuensi tinggi. Hal ini dilakukan untuk menangkap karakteristik penting dari sinyal suara.
Tujuan utama MFCC adalah untuk meniru perilaku telinga manusia. Selain itu MFCC telah terbukti bisa menyebutkan variasi dari gelombang suara itu sendiri. Diagram blok dari proses MFCC dapat dilihat pada Gambar 1.
ambar 1 Diagram blok dari proses MFCC G
MF 1.
2.
untuk m ngga
mende ir tiap
3. Fast Fourier Transform (FFT). Tahap ini mengkonversi tiap frame dengan N sampel dari time domain menjadi fr quency domain. FFT adalah suatu algoritma untuk mengimplementasikan Discrete Fourier
(Do 1994)
Penjelasan tiap tahapan pada proses CC sebagai berikut (Do 1994):
Frame Blocking. Pada tahap ini sinyal suara (continous speech) dibagi ke dalam
frame-frame. Tiap frame terdiri atas N sample.
Windowing. Proses selanjutnya adalah melakukan windowing pada tiap frame
untuk meminimalkan diskontinuitas sinyal pada awal dan akhir tiap frame. Konsepnya adalah meminimisasi distorsi spektral dengan menggunakan window
emperkecil sinyal hi kati nol pada awal dan akh
frame. Jika window didefinisikan sebagai
w(n), 0 ≤ n ≤ N-1, dengan N adalah banyaknya sampel tiap frame, maka hasil dari windowing adalah sinyal dengan persamaan:
Yl(n)=xl(n)w(n), 0 ≤ n ≤ N-1 Pada umumnya, window yang digunakan adalah hamming window, dengan persamaan:
w(n)=0.54-0.46cos(2πn/N-1), 0 ≤ n ≤ N-1
(13)
Transform (DFT) yang didefinisikan pada himpunan N sampel {xn} sebagai berikut:
∑
− = − = 1 0 / 2 N k N jkn kn x e
X π ,
Dengan n=0, 1, 2,….., N-1, j digunakan untuk menotasikan unit imajiner, yaitu
1 − =
j . Secara umum Xn adalah
bilangan kompleks. Barisan {Xn} yang dihasilkan diartikan sebagai berikut: frekuensi nol berkorespondensi dengan n = 0, frekuensi positif 0 < f < Fs/2 berkorespondensi dengan nilai 1 ≤ n ≤ N/2-1, sedangkan frekuensi negatif –Fs/2 <
f < 0 berkorespondensi dengan N/2+1 < n
< N-1. Dalam hal ini Fs adalah sampling frequency. Hasil yang didapatkan dalam tahap ini biasa disebut dengan spektrum sinyal atau periodogram.
Mel-frequency Wrapping. Studi psikofisik menunjukkan bahwa persepsi manusia terhadap frekuensi sinyal suara tidak berupa skala linier. Oleh karena itu, untuk setiap nada dengan frekuensi aktual f
(dalam Hertz), tinggi subjektifnya diuk 4.
ur
dengan uency
adalah 00 Hz
5.
sentasi g baik dari suatu
frame. Mel spectrum
at pelatihan, pem
ruan untuk beberapa bidang aplikasi rsingkat uan ini dap
De
hat pada Gambar 2 yang ter mpat layer yaitu
yer, summation layer, cision ayer. Dengan menerima sebuah i input layer, itung skala ‘mel’. Skala mel-freq
selang frekuensi di bawah 10 dan selang logaritmik untuk frekuensi di atas 1000 Hz, sehingga pendekatan berikut dapat digunakan untuk menghitung mel-frequency untuk frekuensi f dalam Hz:
Mel(f) = 2595*log10(1+f/700)
Cepstrum. Langkah terakhir, konversikan log mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients. Representasi cepstral
spektrum suara merupakan repre properti spektral lokal yan
sinyal untuk analisis
coefficients (dan logaritmanya) berupa bilangan riil, sehingga dapat dikonversikan ke domain waktu dengan menggunakan
Discrete Cosine Transform (DCT). Jaringan Saraf Tiruan
Jaringan saraf tiruan diinspirasi oleh cara kerja otak manusia dimana untuk berpikir, otak manusia mendapat rangsangan dari neuron-neuron yang terdapat pada indera manusia, kemudian hasil rangsangan tersebut diolah sehingga menghasilkan suatu informasi. Pada komputer, masukan yang diberikan diumpamakan sebagai neuron-neuron dimana masukan tersebut dikalikan dengan suatu nilai dan kemudian diolah
dengan fungsi tertentu untuk menghasilkan suatu keluaran. Pada sa
asukan tersebut dilakukan berulang-ulang hingga dicapai keluaran seperti yang diinginkan. Setelah proses pelatihan, diharapkan komputer dapat mengenali suatu masukan baru berdasarkan data yang telah diberikan pada saat pelatihan.
Dibandingkan dengan teknologi lainnya, pendekatan komputasi menggunakan jaringan saraf ti
jauh lebih baik dan dapat mempe waktu. Kekuatan jaringan saraf tir
at digunakan untuk aplikasi seperti pemrosesan sinyal, kontrol, pengenalan pola, kesehatan, dan pengenalan suara (Fausett 1994).
Probabilistic Neural Network (PNN)
Probabilistic Neural Network
diperkenalkan oleh Donald F. Specht tahun 1990 dalam tulisannya berjudul “Probabilistic Neural Network” yang merupakan penyempurnaan ide-ide sebelumnya yang telah dilakukannya sejak 1966 (Fausett 1994).
Probabilistic Neural Network dirancang menggunakan ide dari teori probabilitas klasik yaitu pengklasifikasi Bayesian dan estimator pengklasifikasi Parzen untuk Probability
nsity Function. Dengan menggunakan pengklasifikasi Bayesian dapat ditentukan bagaimana sebuah data masukan diklasifikasi sebagai anggota suatu kelas dari beberapa kelas yang ada, yaitu yang mempunyai nilai maksimum pada kelas tersebut (Fausett 1994).
Adapun strukturnya dapat dili diri atas e
input layer, pattern la
dan de l
masukan vektor tes x dar u
kel aran dari pattern layer dapat dih melalui persamaan sebagai berikut :
⎟ ⎟ ⎠ ⎜ ⎝ = j
j 1 h
d = dimen i v
⎞ ⎜
⎛ − Π
= d xj x
k x
f( ) ij , dengan
s ektor
5)
Untuk summation layer dihitung melalui persamaan:
k(z) =e− ×
x
2
5 . 0 z
j = vektor input kolom ke-j
xij = vektor bobot baris ke-i kolom ke-j
hj = 2.24×(standar deviasi ke-j)×n-1/5
(Silverman 198
( )
∑
= = ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − Π = n i j ij j d j d d h x x k h h h x p 1 1 2 1 2 / ... 2 1 ) ( π(14)
dengan n adalah banyaknya observasi. Suatu vektor tes x diklasifikasikan pada desicion layer sebagai kelas Y jika nilai pY(x) paling
besar untuk kelas Y.
Gambar 2 Struktur Probabilistic Neural Network (Ganchev 2005)
METODE PENELITIAN
Proses identifikasi pembicara dengan menggunakan Probabilistic Neural Network
dalam penelitian ini dapat dilihat pada Gambar 3. Proses identifikasi terdiri atas dua fase, yaitu fase pelatihan dan pengujian. Pada fase pelatihan, contoh suara akan
umpulkan dari setiap pembicara untuk dikenali. Sedangkan
ontoh suara untuk diketahui pem
pan me
z.
dib 1.
2.
embicara laki-laki sedangkan
set
2.
digunakan sebagai threshold
dalam identifikasi yang menggunakan
threshold.
dik
pada fase pengujian,
diberikan c
ilik suara tersebut. Data suara
Data yang digunakan pada penelitian ini adalah gelombang suara yang telah didijitasi dan direkam dari 20 pembicara, yaitu 10 pembicara laki-laki dan 10 pembicara perempuan dengan rentang usia 20-23 tahun dan masing-masing pembicara diambil suaranya selama satu detik. Suara dari tiap pembicara diambil menggunakan fungsi
wavrecord pada Matlab, dan disim njadi file berekstensi WAV. Setiap suara diambil dengan sampling rate 16000 H
Pembicara yang terdiri atas 20 orang agi menjadi dua kelompok, yaitu :
Kelompok 1 yang terdiri atas lima pembicara laki-laki dan lima pembicara perempuan yang digunakan sebagai data pelatihan, threshold, dan pengujian. Pembicara 1 s.d. 5 merupakan pembicara laki-laki sedangkan pembicara 6 s.d. 10 merupakan pembicara perempuan.
Kelompok 2 yang terdiri atas lima pembicara laki-laki dan lima pembicara perempuan yang hanya digunakan sebagai data pengujian. Pembicara 1 s.d. 5 merupakan p
pembicara 6 s.d. 10 merupakan pembicara perempuan.
Khusus untuk kelompok 1, data suara iap pembicara dibagi menjadi tiga, yaitu : 1. Data pelatihan yaitu data yang digunakan
sebagai bobot dalam Probabilistic Neural Network.
Data threshold yaitu data yang pada tahap awal digunakan sebagai data pengujian. Dari pengujian ini akan dicari nilai minimum untuk setiap pembicara. Nilai inilah yang
m identifikasi pembicara Gambar 3 Blok diagram siste
(15)
3. Data pengujian yaitu data yang digunakan dalam pengujian model yang telah dibuat.
dil
(20
s identifikasi pembicara baik
dua
thr suara
Tab
fun g
dik
Jenis identifikasi pembicara yang akukan bersifat bergantung pada teks. Kata yang diucapkan baik untuk pelatihan maupun pengujian telah ditentukan yaitu “komputer” dan diucapkan sebanyak 60 kali untuk setiap pembicara pada kelompok 1 dan lima kali untuk setiap pembicara pada kelompok 2 sehingga terdapat 650 file data. Setiap pembicara mengucapkan kata “komputer” dan dilakukan secara berulang sebanyak 60 kali untuk kelompok 1 dan lima kali untuk kelompok 2 didasarkan pada penelitian sebelumnya yang dilakukan oleh Mandasari
05) dan Purnamasari (2006). Prose
kelompok 1 maupun kelompok 2 terdiri atas macam, yaitu tanpa threshold dan dengan
eshold. Struktur percobaan data untuk setiap pembicara dapat dilihat pada
el 1.
Ekstraksi Ciri Sinyal Suara Dengan MFCC Pada implementasi MFCC digunakan gsi dari Auditory Toolbox yan embangkan oleh Slaney pada tahun 1998.
Auditory Toolbox dapat diperoleh secara
bebas di http://rv14.ecn.purdue.edu/~malcolm/interval/
1998-010/. Fungsi ini menggunakan lima parameter, yaitu :
4. Lap yaitu overlaping yang diinginkan (harus kurang dari satu). Lap yang digunakan sebesar 0.5.
5. Cepstral coefficient yaitu jumlah cepstrum
yang diinginkan sebagai output. Cepstral coefficient yan
1. Input yaitu masukan suara yang berasal dari setiap pembicara.
2. Sam yaitu bany
diambil dalam satu detik. itian
i guna in 000
3. am a an
untuk satu a ime
frame yan n
g digunakan sebanyak 13. iap pembicara,
matriks berukuran 13 × 66. Hasil ini merupakan masukan untuk Probabilistic Neural Network.
Probabilistic Neural Network
kan matriks berukuran
mi
tern
a ihan ke ebagai beriku
pling rate aknya nilai Dalam penel
yang
ni di Hz.
Time fr
kan sampl g rate sebesar 16
e yaitu w ktu yang diingink
frame (d g digunaka
lam milidetik). T
adalah 30 ms.
Setiap data suara dari set
baik kelompok 1 maupun kelompok 2, akan dibagi menjadi 66 frame dimana masing-masing frame berukuran 30 ms dengan overlap 50% dan tanpa noise. Hasil dari analisis fitur suara MFCC ini adalah 13 koefisien mel cepstrum untuk masing-masing
frame. Dengan demikian setiap data suara menjadi
Input layer merupa
13 × 66 yang berasal dari suara pembicara yang akan diidentifikasi yang telah mengala proses ekstraksi ciri sinyal suara. Pada pat layer, dihitung ”jarak” vektor pel t vektor pengujian dengan persamaan s
t ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − Π = = j ij j d j h x x k x f 1 )
( , dengan
d = dimensi vektor k(z) =
ktor input kolom ke-j, j=1,2,..,858
ij = vektor bobot b -j,
,...,
24×(st i ke-j)
j=1,2 ,40
Setiap tte layer akan
a an
layer lainn kela Banyaknya kelas dalam ad ah 10 yang
Tabel 1 Struk a p p
2
5 . 0 z
e− ×
xj = ve
x aris ke-i kolom ke
58 i=1,2
h
n, j=1,2,...,8 andar devias
j = 2. ×n-1/5 ,
,...,858, n=20,30 keluaran dari pa rn
dijumlahk n dengan keluar dari pattern
ya yang satu s. penelitian ini al
tur percob an data suara setia embicara
Tanpa thre old sh Dengan threshold
Identifikasi
Kelompok 1 Kelompok 2 Kelompok 1 Kelompok 2
Pelatihan Data ke-1 s.d. 20 - Data ke-1 s.d. 20 -
Threshold - - Data ke-21 s.d. 40 - 20
Pelatihan
Pengujian Data ke-41 s.d. 60 Data ke-1 s.d. 5 Data ke-41 s.d. 60 Data ke-1 s.d. 5
Pelatihan Data ke-1 s.d. 30 - Data ke-1 s.d. 30 -
Threshold - - Data ke-31 s.d. 45 - 30
Pelatihan
Pengujian Data ke-46 s.d. 60 Data ke-1 s.d. 5 Data ke-46 s.d. 60 Data ke-1 s.d. 5
Pelatihan Data ke-1 s.d. 40 - Data ke-1 s.d. 40 -
Threshold - - Data ke-41 s.d. 50 - 40
Pelatihan
(16)
berasal dari banyaknya pembicara yang digunakan untuk pelatihan. Proses ini termasuk dalam summation layer yang dihitung melalui persamaan sebagai berikut :
( )
∑
= = ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − Π = n i j ij j d j d d h x x k h h h x p 1 1 2 1 2 / ... 2 1 ) ( πDari summation layer akan diperoleh nilai terbesar untuk suatu kelas. Nilai terbesar ini mencerminkan bahwa suara yang diujikan diidentifikasi sebagai pembicara kelas tersebut. Untuk pengujian dengan threshold,
nilai tersebut akan dibandingkan terlebih dahulu dengan threshold kelas tersebut. Jika nilainya lebih besar dari threshold maka suara tersebut diidentifikasi sebagai pembicara kelas tersebut. Sebaliknya jika nilainya lebih kecil maka suara yang diujikan diidentifikasi sebagai pembicara yang tidak terdaftar. Proses ini termasuk dalam desicion layer.
Hasil Identifikasi
Hasil identifikasi merupakan bagian akhir dari identifikasi pembicara yang berupa identitas pemilik suara yang diujikan. Identitas yang dimaksud adalah apakah suara yang diujikan diidentifikasi sebagai pembicara 1, 2, 3, 4, 5, 6, 7, 8, 9, atau pembicara 10. Untuk identifikasi dengan threshold, selain diidentifikasi seperti di atas, suara yang diujikan dapat diidentifikasi sebagai pembicara 0 (tidak terdaftar).
Lingkungan Pengembangan
Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk penelitian ini adalah sebagai berikut :
a. Perangkat keras komputer personal
• Prosesor AMD Sempron 3000+
• Memori DDR 512 MB
• Harddisk 120 GB
• Keyboard dan mouse • Monitor
• Backphone with mic
b. Perangkat Lunak
• Sistem operasi Windows XP Profesional
• Matlab 6.5
HASIL DAN PEMBAHASAN
Data SuaraPembagian 20 pembicara menjadi dua kelompok, yaitu kelompok 1 dan kelompok 2, dimaksudkan agar dapat dibandingkan hasil identifikasi antara data pengujian yang berasal dari pembicara yang dikenal dan pembicara
yang tidak dikenal. Pembicara yang dikenal adalah pembicara yang datanya digunakan dalam pelatihan. Kelompok 1 merupakan pembicara yang dikenal sedangkan kelompok 2 merupakan pembicara yang tidak dikenal.
Sampling rate yang digunakan untuk merekam suara setiap pembicara dipilih 16000 Hz karena pada umumnya sampling rate yang digunakan oleh mikrofon berada pada 16000 Hz. Nilai threshold untuk tiga macam pelatihan, yaitu 20, 30, dan 40 pelatihan dapat dilihat pada Tabel 2.
Tabel 2 Nilai threshold untuk tiga macam pelatihan Pembicara Ke- 20 Pelatihan 30 Pelatihan 40 Pelatihan
1 2.9823e-079 4.0693e-066 2.7358e-080
2 1.2622e-231 3.2322e-240 2.1867e-229
3 5.7094e-166 1.0618e-249 2.0442e-220
4 1.9446e-113 1.5313e-097 2.1964e-164
5 2.1319e-157 1.3394e-291 0
6 1.2711e-105 1.0444e-142 2.2546e-168
7 2.7585e-174 2.4157e-196 3.0828e-235
8 6.3971e-176 1.1736e-263 9.8813e-324
9 1.7149e-181 2.7409e-227 3.3167e-316
10 1.5647e-137 1.1289e-256 0
Ekstraksi Ciri Sinyal Suara Dengan MFCC Fungsi dari Auditory Toolbox untuk ekstraksi ciri sinyal suara dengan MFCC terdiri atas lima parameter, yaitu input, sampling rate, time frame, lap, dan cepstral coefficient. Pemilihan nilai time frame, lap,
dan cepstral coefficient berturut-turut sebesar 30 ms, 0.5, dan 13 didasarkan pada penelitian sebelumnya yang dilakukan Mandasari (2005) dan Purnamasari (2006).
Pada tahap Frame Blocking, sinyal suara dibagi ke menjadi 66 frame. Tiap frame terdiri atas 13 sample. Proses selanjutnya adalah
Windowing, yaitu meminimalkan diskontinuitas sinyal pada awal dan akhir tiap
frame. Window yang digunakan adalah
hamming window dengan persamaan
w(n)=0.54-0.46cos(2πn/12), 0 ≤ n ≤ 12.
Setelah meminimalkan diskontinuitas sinyal pada awal dan akhir tiap frame, dilakukan konversi tiap frame dengan 13
sample dari time domain menjadi frequency domain. Persepsi manusia terhadap frekuensi
(17)
sinyal suara tidak berupa skala linier. Oleh karena itu, untuk setiap nada dengan frekuensi aktual f (dalam Hertz), tinggi subjektifnya diukur dengan skala ‘mel’. Pendekatan berikut dapat digunakan untuk menghitung mel-frequency untuk frekuensi f dalam Hz:
Mel(f) = 2595*log10(1+f/700)
Langkah terakhir adalah mengkonversi log
mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients. Probabilistic Neural Network
Input bagi Probabilistic Neural Network
berasal dari data suara pelatihan dan data suara pengujian yang telah mengalami proses ekstraksi ciri sinyal suara dengan MFCC. Pada pattern layer, dilakukan perhitungan antara data pelatihan dan data pengujian. Nilai h diperoleh dari persamaan 2.24×(standar deviasi)×n-1/5 karena memberikan nilai optimal (Silverman 1985). Hasil dari pattern layer ini akan dijumlahkan dengan hasil
pattern layer lainnya yang satu kelas. Proses ini terjadi pada summation layer. Dari
summation layer, diperoleh nilai terbesar untuk suatu kelas.
Berdasarkan Tabel 1, identifikasi terdiri atas dua macam, yaitu tanpa threshold dan dengan threshold. Adanya threshold
dimaksudkan untuk meningkatkan keakuratan hasil identifikasi.
1 Tanpa Threshold
1.1 Identifikasi Dengan 20 Data Pelatihan Hasil identifikasi untuk 20 data pengujian kelompok 1 dapat dilihat pada Tabel 3. Dari Tabel 3 dapat dilihat bahwa untuk pembicara laki-laki (pembicara 1 s.d. 5), pembicara yang paling banyak diidentifikasi dengan benar
adalah pembicara 4, yaitu sebanyak 19, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 5, yaitu sebanyak 12. Untuk pembicara perempuan (pembicara 6 s.d. 10), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 10, yaitu sebanyak 20, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 6, yaitu sebanyak 12.
Secara keseluruhan pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 10, yaitu sebanyak 20. Sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 5 dan 6, yaitu sebanyak 12.
Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi untuk pembicara 10 adalah (20/20)×100%=100% sedangkan untuk pembicara 5 dan 6 memiliki tingkat akurasi yang sama, yaitu (12/20)×100%=60%. Tingkat akurasi untuk tiap pembicara dapat dilihat pada Tabel 3. Tingkat akurasi untuk seluruh pembicara adalah
% 84 % 100
200 × =
Hasil identifikasi untuk 5 data kelompok 2 dapat dilihat pada Tabel 4. Dari Tabel 4 dapat dilihat bahwa pembicara yang tidak terdaftar diidentifikasi secara beragam sebagai pembicara yang terdaftar (pembicara 1 s.d. 10). Seharusnya pembicara 1 s.d. 10 dari kelompok 2 diidentifikasi sebagai pembicara yang tidak terdaftar (pembicara 0). Hal ini dikarenakan tidak adanya thresh
20 19 17 17 12 12 19 17 17
18 + + + + + + + +
old untuk menjadi pembicara yang terdaftar.
+
Tabel 3 Hasil identifikasi 20 pelatihan tanpa threshold untuk 20 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-
Pembicara
1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 18 0 0 2 0 0 0 0 0 0 90%
2 0 17 0 3 0 0 0 0 0 0 85%
3 1 1 17 1 0 0 0 0 0 0 85%
4 1 0 0 19 0 0 0 0 0 0 95%
5 2 5 1 0 12 0 0 0 0 0 60%
6 0 0 0 0 0 12 0 4 4 0 60%
7 0 0 0 0 0 0 17 0 3 0 85%
8 0 0 0 0 0 0 0 17 3 0 85%
9 0 0 0 0 0 0 1 0 19 0 95%
(18)
Tabel 4 Hasil identifikasi 20 pelatihan tanpa threshold untuk 5 data pengujian kelompok 2 Diidentifikasi Sebagai Pembicara Ke-
Pembicara
0 1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 0 2 0 0 3 0 0 0 0 0 0 0%
2 0 1 2 0 0 2 0 0 0 0 0 0%
3 0 4 1 0 0 0 0 0 0 0 0 0%
4 0 5 0 0 0 0 0 0 0 0 0 0%
5 0 4 0 0 1 0 0 0 0 0 0 0%
6 0 1 0 0 0 0 0 2 1 1 0 0%
7 0 0 0 0 0 0 0 0 0 5 0 0%
8 0 0 0 0 0 0 0 0 0 5 0 0%
9 0 5 0 0 0 0 0 0 0 0 0 0%
10 0 5 0 0 0 0 0 0 0 0 0 0%
1.2 Identifikasi Dengan 30 Data Pelatihan Hasil identifikasi untuk 15 data pengujian kelompok 1 dapat dilihat pada Tabel 5. Dari Tabel 5 dapat dilihat bahwa untuk pembicara laki-laki (pembicara 1 s.d. 5), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1 dan 2, yaitu sebanyak 15, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 3 dan 4, yaitu sebanyak 11. Untuk pembicara perempuan (pembicara 6 s.d. 10), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 7, 9, dan 10, yaitu sebanyak 15, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 8, yaitu sebanyak 11.
Secara keseluruhan pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1, 2, 7, 9, dan 10, yaitu sebanyak 20. Sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 3, 4, dan 8, yaitu sebanyak 11.
Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi untuk pembicara 1, 2, 7, 9, dan 10 adalah (15/15)×100%=100% sedangkan untuk pembicara 3, 4, dan 8 memiliki tingkat akurasi yang sama, yaitu (11/15)×100%=73%. Tingkat akurasi untuk tiap pembicara dapat dilihat pada Tabel 5. Tingkat akurasi untuk seluruh pembicara adalah
% 90 % 100 150
15 15 11 15 13 14 11 11 15 15
= × + + + + + + + + +
Hasil identifikasi untuk 5 data kelompok 2 dapat dilihat pada Tabel 6. Dari Tabel 6 dapat dilihat bahwa pembicara yang tidak terdaftar diidentifikasi secara beragam sebagai pembicara yang terdaftar (pembicara 1 s.d. 10). Seharusnya pembicara 1 s.d. 10 dari kelompok 2 diidentifikasi sebagai pembicara yang tidak terdaftar (pembicara 0). Hal ini dikarenakan tidak adanya threshold untuk menjadi pembicara yang terdaftar.
Tabel 5 Hasil identifikasi 30 pelatihan tanpa threshold untuk 15 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-
Pembicara
1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 15 0 0 0 0 0 0 0 0 0 100%
2 0 15 0 0 0 0 0 0 0 0 100%
3 2 2 11 0 0 0 0 0 0 0 73%
4 4 0 0 11 0 0 0 0 0 0 73%
5 1 0 0 0 14 0 0 0 0 0 93%
6 0 0 0 0 0 13 0 1 1 0 87%
7 0 0 0 0 0 0 15 0 0 0 100%
8 0 0 0 0 0 0 0 11 4 0 73%
9 0 0 0 0 0 0 0 0 15 0 100%
(19)
Tabel 6 Hasil identifikasi 30 pelatihan tanpa threshold untuk 5 data pengujian kelompok 2 Diidentifikasi Sebagai Pembicara Ke-
Pembicara
0 1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 0 2 0 0 3 0 0 0 0 0 0 0%
2 0 0 2 0 0 3 0 0 0 0 0 0%
3 0 1 0 0 0 4 0 0 0 0 0 0%
4 0 5 0 0 0 0 0 0 0 0 0 0%
5 0 4 1 0 0 0 0 0 0 0 0 0%
6 0 2 0 0 0 0 0 1 1 1 0 0%
7 0 0 0 0 0 0 0 1 0 4 0 0%
8 0 0 1 0 0 0 0 0 0 4 0 0%
9 0 5 0 0 0 0 0 0 0 0 0 0%
10 0 5 0 0 0 0 0 0 0 0 0 0%
1.3 Identifikasi Dengan 40 Data Pelatihan Hasil identifikasi untuk 10 data pengujian kelompok 1 dapat dilihat pada Tabel 7. Dari Tabel 7 dapat dilihat bahwa untuk pembicara laki-laki (pembicara 1 s.d. 5), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1, 2, dan 5, yaitu sebanyak 10, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 3, yaitu sebanyak 7. Untuk pembicara perempuan (pembicara 6 s.d. 10), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 7, 9, dan 10, yaitu sebanyak 10, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 6 dan 8, yaitu sebanyak 9.
Secara keseluruhan pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1, 2, 5, 7, 9, dan 10, yaitu sebanyak 10. Sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 3, yaitu sebanyak 7.
Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi untuk pembicara 1, 2, 5, 7, 9, dan 10 adalah (10/10)×100%=100% sedangkan untuk pembicara 3 adalah (7/10)×100%=70%. Tingkat akurasi untuk tiap pembicara dapat dilihat pada Tabel 7. Tingkat akurasi untuk seluruh pembicara adalah
% 94 % 100
100 × =
Hasil identifikasi untuk 5 data kelompok 2 dapat dilihat pada Tabel 8. Dari Tabel 8 dapat dilihat bahwa pembicara yang tidak terdaftar diidentifikasi secara beragam sebagai pembicara yang terdaftar (pembicara 1 s.d. 10). Seharusnya pembicara 1 s.d. 10 dari kelompok 2 diidentifikasi sebagai pembicara yang tidak terdaftar (pembicara 0). Hal ini dikarenakan tidak adanya thresh
10 10 9 10 9 10 9 7 10
10+ + + + + + + + +
old untuk menjadi pembicara yang terdaftar.
Tabel 7 Hasil identifikasi 40 pelatihan tanpa threshold untuk 10 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-
Pembicara
1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 10 0 0 0 0 0 0 0 0 0 100%
2 0 10 0 0 0 0 0 0 0 0 100%
3 0 2 7 1 0 0 0 0 0 0 70%
4 1 0 0 9 0 0 0 0 0 0 90%
5 0 0 0 0 10 0 0 0 0 0 100%
6 0 0 0 0 0 9 0 1 0 0 90%
7 0 0 0 0 0 0 10 0 0 0 100%
8 0 0 0 0 0 0 0 9 1 0 90%
9 0 0 0 0 0 0 0 0 10 0 100%
(20)
Tabel 8 Hasil identifikasi 40 pelatihan tanpa threshold untuk 5 data pengujian kelompok 2 Diidentifikasi Sebagai Pembicara Ke-
Pembicara
0 1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 0 4 0 0 1 0 0 0 0 0 0 0%
2 0 0 1 0 0 4 0 0 0 0 0 0%
3 0 1 0 0 0 4 0 0 0 0 0 0%
4 0 5 0 0 0 0 0 0 0 0 0 0%
5 0 4 1 0 0 0 0 0 0 0 0 0%
6 0 2 0 0 0 0 0 0 3 0 0 0%
7 0 1 0 0 0 0 0 1 0 3 0 0%
8 0 0 1 0 0 0 0 1 0 3 0 0%
9 0 5 0 0 0 0 0 0 0 0 0 0%
10 0 5 0 0 0 0 0 0 0 0 0 0%
2 Dengan Threshold
Dari Tabel 2 dapat dilihat nilai threshold
tiap pembicara untuk tiga macam pelatihan, yaitu 20, 30, dan 40 pelatihan. Threshold
digunakan untuk melakukan seleksi yang lebih akurat dari hasil identifikasi setiap suara. Nilai threshold dari tiap pembicara berfungsi sebagai ambang batas nilai keluaran yang yang diterima untuk dapat diidentifikasi sebagai pembicara tersebut. Threshold diambil dengan menjadikan data threshold sebagai data uji. Keluaran yang diidentifikasi dengan benar dari model Probabilistic Neural Network kemudian disimpan dalam suatu matriks. Dari matriks tersebut diambil nilai minimal untuk tiap pembicara. Nilai keluaran minimal tersebut adalah nilai yang digunakan sebagai threshold untuk tiap pembicara. 2.1 Identifikasi Dengan 20 Data Pelatihan
Hasil identifikasi untuk 20 data pengujian kelompok 1 dapat dilihat pada Tabel 9. Dari Tabel 9 dapat dilihat bahwa dibandingkan
dengan hasil identifikasi tanpa threshold,
terdapat pembicara yang tingkat akurasinya tetap dan ada pula yang turun dengan adanya
threshold. Pembicara yang tingkat akurasinya tetap adalah pembicara 1, 2, 3, 5, 6, dan 9, sedangkan yang turun adalah pembicara 4, 7, 8, dan 10.
Untuk pembicara laki-laki (pembicara 1 s.d. 5), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1 dan 4, yaitu sebanyak 18, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 5, yaitu sebanyak 12. Untuk pembicara perempuan (pembicara 6 s.d. 10), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 9, yaitu sebanyak 19, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 7, yaitu sebanyak 10.
Secara keseluruhan pembicara yang paling banyak diidentifikasi dengan benar adalah
Tabel 9 Hasil identifikasi 20 pelatihan dengan threshold untuk 20 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-
Pembicara
0 1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 0 18 0 0 2 0 0 0 0 0 0 90%
2 0 0 17 0 3 0 0 0 0 0 0 85%
3 3 0 0 17 0 0 0 0 0 0 0 85%
4 2 0 0 0 18 0 0 0 0 0 0 90%
5 7 0 0 1 0 12 0 0 0 0 0 60%
6 2 0 0 0 0 0 12 0 2 4 0 60%
7 7 0 0 0 0 0 0 10 0 3 0 50%
8 4 0 0 0 0 0 0 0 16 0 0 80%
9 0 0 0 0 0 0 0 1 0 19 0 95%
(21)
Tabel 10 Hasil identifikasi 20 pelatihan dengan threshold untuk 5 data pengujian kelompok 2 Diidentifikasi Sebagai Pembicara Ke-
Pembicara
0 1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 5 0 0 0 0 0 0 0 0 0 0 100%
2 3 0 0 0 0 2 0 0 0 0 0 60%
3 5 0 0 0 0 0 0 0 0 0 0 100%
4 5 0 0 0 0 0 0 0 0 0 0 100%
5 5 0 0 0 0 0 0 0 0 0 0 100%
6 5 0 0 0 0 0 0 0 0 0 0 100%
7 5 0 0 0 0 0 0 0 0 0 0 100%
8 5 0 0 0 0 0 0 0 0 0 0 100%
9 5 0 0 0 0 0 0 0 0 0 0 100%
10 5 0 0 0 0 0 0 0 0 0 0 100%
pembicara 9, yaitu sebanyak 19. Sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 7, yaitu sebanyak 10.
Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi untuk pembicara 9 adalah (19/20)×100%=95% sedangkan untuk pembicara 7 memiliki tingkat akurasi sebesar (10/20)×100%=50%. Tingkat akurasi untuk tiap pembicara dapat dilihat pada Tabel 9. Tingkat akurasi untuk seluruh pembicara adalah % 79 % 100 200 18 19 16 10 12 12 18 17 17
18+ + + + + + + + + × =
Hasil identifikasi untuk 5 data kelompok 2 dapat dilihat pada Tabel 10. Dari Tabel 10 dapat dilihat bahwa pembicara dari kelompok 2 diidentifikasi dengan benar seluruhnya sebagai pembicara 0, kecuali pembicara 2 yang hanya diidentifikasi dengan benar sebagai pembicara 0 sebanyak 3.
Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi pembicara 2 adalah (3/5)×100%=60% sedangkan untuk pembicara lainnya memiliki tingkat akurasi (5/5)×100%=100%. Tingkat akurasi untuk setiap pembicara dapat dilihat pada Tabel 10. Tingkat akurasi untuk seluruh pembicara adalah % 96 % 100 50 5 5 5 5 5 5 5 5 3
5+ + + + + + + + + × =
2.2 Identifikasi Dengan 30 Data Pelatihan Hasil identifikasi untuk 15 data pengujian kelompok 1 dapat dilihat pada Tabel 11. Dari Tabel 11 dapat dilihat bahwa dibandingkan dengan hasil identifikasi tanpa threshold,
terdapat pembicara yang tingkat akurasinya tetap dan ada pula yang turun dengan adanya
threshold. Pembicara yang tingkat akurasinya tetap adalah pembicara 3, 4, 6, 7, 8, 9, dan 10, sedangkan yang turun adalah pembicara 1, 2, dan 5. Banyaknya pembicara yang turun lebih sedikit dibandingkan dengan hasil identifikasi menggunakan 20 data pelatihan.
Untuk pembicara laki-laki (pembicara 1 s.d. 5), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 2, yaitu sebanyak 14, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 5, yaitu sebanyak 9. Untuk pembicara perempuan (pembicara 6 s.d. 10), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 7, 9, dan 10, yaitu sebanyak 15, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 8, yaitu sebanyak 11.
Secara keseluruhan pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 7, 9, dan 10, yaitu sebanyak 15. Sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 5, yaitu sebanyak 9.
Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi pembicara 7, 9, dan 10 adalah (15/15)×100%=100% sedangkan untuk
(22)
Tabel 11 Hasil identifikasi 30 pelatihan dengan threshold untuk 15 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-
Pembicara
0 1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 4 11 0 0 0 0 0 0 0 0 0 73%
2 1 0 14 0 0 0 0 0 0 0 0 93%
3 4 0 0 11 0 0 0 0 0 0 0 73%
4 4 0 0 0 11 0 0 0 0 0 0 73%
5 6 0 0 0 0 9 0 0 0 0 0 60%
6 0 0 0 0 0 0 13 0 1 1 0 87%
7 0 0 0 0 0 0 0 15 0 0 0 100%
8 0 0 0 0 0 0 0 0 11 4 0 73%
9 0 0 0 0 0 0 0 0 0 15 0 100%
10 0 0 0 0 0 0 0 0 0 0 15 100%
pembicara 5 memiliki tingkat akurasi (11/15)×100%=73%. Tingkat akurasi untuk tiap pembicara dapat dilihat pada Tabel 11. Tingkat akurasi untuk seluruh pembicara adalah % 83 % 100 150 15 15 11 15 13 9 11 11 14 11 = × + + + + + + + + +
Hasil identifikasi untuk 5 data kelompok 2 dapat dilihat pada Tabel 12. Dari Tabel 12 dapat dilihat bahwa pembicara dari kelompok 2 diidentifikasi dengan benar seluruhnya sebagai pembicara 0, kecuali pembicara 6, 7, dan 8 masing-masing sebanyak 2, 0, dan 1.
Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi pembicara 6 adalah (2/5)×100%=40%, untuk pembicara 7 adalah (0/5)×100%=0%, dan untuk pembicara 8 adalah (1/5)×100%=20%. Tingkat akurasi untuk setiap pembicara dapat dilihat pada Tabel 12.
Tingkat akurasi untuk seluruh pembicara adalah
% 76 % 100
50 × =
5 5 1 0 2 5 5 5 5
5 + + + + + + + +
2.3
il ide
n i
Tabel 12 identifikasi 30 p pengujian kelom
+
Identifikasi Dengan 40 Data Pelatihan Hasil identifikasi untuk 10 data pengujian kelompok 1 dapat dilihat pada Tabel 13. Dari Tabel 13 dapat dilihat bahwa dibandingkan dengan hasil identifikasi tanpa threshold,
terdapat pembicara yang tingkat akurasinya tetap dan ada pula yang turun dengan adanya
threshold. Pembicara yang tingkat akurasinya tetap adalah pembicara 1, 3, 4, 5, 6, 7, 8, 9, dan 10 sedangkan yang turun adalah pembicara 2. Banyaknya pembicara yang turun lebih sedikit dibandingkan dengan has
ntifikasi menggunakan 30 data pelatihan. Untuk pembicara laki-laki (pembicara 1 s.d. 5), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1 dan 5, yaitu sebanyak 10, sedangka pembicara yang paling sedikit diidentifikas Hasil elatihan dengan threshold untuk 5 data pok 2
Diidentifika Sebsi agai Pembicara Ke- Pembicara
0 1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 5 0 0 0 0 0 0 0 0 0 0 100%
2 5 0 0 0 0 0 0 0 0 0 0 100%
3 5 0 0 0 0 0 0 0 0 0 0 100%
4 5 0 0 0 0 0 0 0 0 0 0 100%
5 5 0 0 0 0 0 0 0 0 0 0 100%
6 2 0 0 0 0 0 0 1 1 1 0 40%
7 0 0 0 0 0 0 0 1 0 4 0 0%
8 1 0 0 0 0 0 0 0 0 4 0 20%
9 5 0 0 0 0 0 0 0 0 0 0 100%
(23)
Tabel 13 Hasil identifikasi 40 pelatihan dengan threshold untuk 10 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-
Pembicara
0 1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 0 10 0 0 0 0 0 0 0 0 0 100%
2 1 0 9 0 0 0 0 0 0 0 0 90%
3 2 0 0 7 1 0 0 0 0 0 0 70%
4 0 1 0 0 9 0 0 0 0 0 0 90%
5 0 0 0 0 0 10 0 0 0 0 0 100%
6 0 0 0 0 0 0 9 0 1 0 0 90%
7 0 0 0 0 0 0 0 10 0 0 0 100%
8 0 0 0 0 0 0 0 0 9 1 0 90%
9 0 0 0 0 0 0 0 0 0 10 0 100%
10 0 0 0 0 0 0 0 0 0 0 10 100%
dengan benar adalah pembicara 3, yaitu sebanyak 7. Untuk pembicara perempuan (pembicara 6 s.d. 10), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 7, 9, dan 10, yaitu sebanyak 10, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 6 dan 8, yaitu sebanyak 9.
Secara keseluruhan pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1, 5, 7, 9, dan 10, yaitu sebanyak 10. Sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 3, yaitu sebanyak 7.
Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi untuk pembicara 1, 5, 7, 9, dan 10 adalah (10/10)×100%=100% sedangkan untuk pembicara 3 adalah (7/10)×100%=70%.
dilihat pada Tabel 13. Tingkat akurasi untuk seluruh pembicara adalah
Tingkat akurasi untuk tiap pembicara dapat
% 93 % 100 100
10 10 9 10 9 10 9 7 9
10+ + + + + + +
= × + +
Hasil identifikasi untuk 5 data kelompok 2 dap
8 a
at dilihat pada Tabel 14. Dari Tabel 14 dapat dilihat bahwa pembicara 2, 3, 6, 7, dan 8 tidak diidentifikasi sebagai pembicara 0 seluruhnya. Pembicara 2, 7, dan 8 diidentifikasi dengan benar sebanyak 1. Sedangkan pembicara 3 dan 6 masing-masing diidentifikasi dengan benar sebanyak 4 dan 2.
Tingkat akurasi untuk pembicara 2, 7, dan dalah (1/5)×100%=20%, untuk pembicara 3 adalah (4/5)×100%=80%, dan untuk pembicara 6 adalah (2/5)×100%=40%. Tingkat akurasi untuk tiap pembicara dapat dilihat pada Tabel 14. Tingkat akurasi untuk
seluruh pembicara adalah
% 68 % 100 5 5 1 1 2 5 5 4 1
5+ + + + + + + + + × = 50
Tabel 14 Hasil identifikasi 40 pelatihan dengan threshold untuk 5 data pengujian kelompok 2 Diidentifika Sebsi agai Pembicara Ke-
Pembicara
0 1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 5 0 0 0 0 0 0 0 0 0 0 100%
2 1 0 0 0 0 4 0 0 0 0 0 20%
3 4 0 0 0 0 1 0 0 0 0 0 80%
4 5 0 0 0 0 0 0 0 0 0 0 100%
5 5 0 0 0 0 0 0 0 0 0 0 100%
6 2 0 0 0 0 0 0 0 3 0 0 40%
7 1 0 0 0 0 0 0 1 0 3 0 20%
8 1 0 0 0 0 0 0 1 0 3 0 20%
9 5 0 0 0 0 0 0 0 0 0 0 100%
(24)
0% 20% 40% 60% 80% 100% 120%
1 2 3 4 5
Pe m bicara
A
ku
rasi
20 Pelatihan Tanpa Threshold 20 Pelatihan Dengan Threshold 30 Pelatihan Tanpa Threshold 30 Pelatihan Dengan Threshold 40 Pelatihan Tanpa Threshold 40 Pelatihan Dengan Threshold
0% 20% 40% 60% 80% 100% 120%
1 2 3 4 5
Pe m bicara
Ak
u
ra
s
i
20 Pelatihan Tanpa Threshold 20 Pelatihan Dengan Threshold 30 Pelatihan Tanpa Threshold 30 Pelatihan Dengan Threshold 40 Pelatihan Tanpa Threshold 40 Pelatihan Dengan Threshold Gambar 4 Tingkat akurasi setiap pembicara laki-laki kelompok 1
Hasil Identifikasi
Hasil identifikasi terkait erat dengan
decision layer pada Probabilistic Neural Network. Dari decision layer akan diperoleh nilai maksimum untuk suatu kelas. Nilai terbesar ini mencerminkan bahwa suara yang diujikan diidentifikasi sebagai pembicara kelas tersebut.
Setelah melalui Probabilistic Neural Network dapat diketahui identitas pemilik suara yang diujikan. Identitas yang dimaksud adalah apakah sebagai pembicara 1, 2, 3, 4, 5, 6, 7, 8, 9, atau pembicara 10. Untuk identifikasi dengan threshold, selain diidentifikasi seperti di atas, suara yang diujikan dapat diidentifikasi sebagai pembicara 0 (tidak terdaftar).
Gambar 4 menunjukkan tingkat akurasi untuk setiap pembicara laki-laki sedangkan
Gambar 5 menunjukkan tingkat akurasi untuk setiap pembicara perempuan dari kelompok 1. Dari Gambar 4 dan 5 dapat dilihat bahwa ada perbedaan tingkat akurasi antara pembicara laki-laki dan perempuan dengan adanya
threshold. Untuk pembicara laki-laki, tingkat akurasi cenderung berubah dengan adanya
threshold sedangkan untuk pembicara perempuan, tingkat akurasinya cenderung tetap dengan adanya threshold. Hal ini dikarenakan adanya perbedaan karakter suara berdasarkan jenis kelamin.
Gambar 6 menunjukkan perbandingan tingkat akurasi untuk pembicara dari kelompok 1. Dari gambar dapat dilihat bahwa semakin banyak data pelatihan maka tingkat akurasi juga akan semakin tinggi. Setiap data yang diujikan akan memiliki nilai terbesar untuk suatu kelas. Nilai terbesar pada suatu
Threshold Threshold Threshold
Threshold Threshold Threshold
Threshold Threshold
Threshold Threshold
Threshold Threshold
(25)
kelas. Nilai terbesar pada suatu kelas mengindikasikan bahwa data yang diujikan diidentifikasi sebagai kelas tersebut.
96% 76% 68% 0% 20% 40% 60% 80% 100% A k u r asi
20 30 40 Data Pelatihan
Dengan threshold, nilai tersebut akan dibandingkan terlebih dahulu dengan nilai minimum dari data threshold kelas tersebut. Jika nilainya lebih besar dari nilai minimum data threshold kelas tersebut maka suara yang diujikan diidentifikasi sebagai pembicara dari kelas tersebut. Jika lebih kecil maka suara tersebut diidentifikasikan sebagai pembicara 0 (tidak terdaftar). Hal inilah yang menyebabkan tingkat akurasi untuk identifikasi dengan threshold lebih rendah dibandingkan identifikasi tanpa threshold.
Hasil identifikasi tanpa threshold dan dengan
threshold untuk setiap pembicara pada kelompok 1 dapat dilihat pada Lampiran 1,2, dan 3. 84% 79% 90% 83% 94%93% 70% 75% 80% 85% 90% 95% A k u r asi
20 30 40 Data Pelatihan
Tanpa Threshold Dengan Threshold
Gambar 6 Perbandingan tingkat akurasi untuk pembicara dari kelompok 1.
Gambar 7 menunjukkan perbandingan tingkat akurasi untuk pembicara dari kelompok 2 dengan threshold. Dari gambar dapat dilihat bahwa semakin banyak pelatihan maka tingkat akurasi akan semakin rendah. Hal ini disebabkan perbedaan komposisi data dimana untuk 20 pelatihan, data threshold-nya sebanyak 20. Sedangkan untuk 30 dan 40 data pelatihan, data threshold-nya berturut-turut sebanyak 15 dan 10. Hasil identifikasi tanpa
threshold dan dengan threshold untuk setiap
pembicara pada kelompok 2 dapat dilihat pada Lampiran 4, 5, dan 6.
Gambar 7 Perbandingan tingkat akurasi untuk pembicara dari kelompok 2 dengan threshold
Pada penelitian yang dilakukan Purnamasari (2006), identitas yang dimaksud apakah sebagai pembicara 1, 2, 3, atau 4. Hal ini dikarenakan banyaknya pembicara yang ada sebanyak 4 orang, yaitu 2 pembicara laki-laki dan 2 pembicara perempuan. Identifikasi pembicara yang dilakukan menggunakan metode Hidden Markov Model (HMM) dan tanpa threshold. Perbandingan tingkat akurasi antara penelitian ini dan Purnamasi (2006) dapat dilihat pada Tabel 15. Dari Tabel 15 dapat dilihat bahwa untuk pembicara yang dikenal dengan jumlah data pelatihan yang sama, tingkat akurasi pada penelitian ini lebih baik dibandingkan Purnamasari (2006).
KESIMPULAN DAN SARAN
KesimpulanDari penelitian yang telah dilakukan, diperoleh suatu model Probabilistic Neural Network untuk identifikasi pembicara. Hasil identifikasi tanpa threshold dan dengan
threshold berbeda dimana dengan threshold
akan memberikan hasil yang lebih akurat. Untuk identifikasi tanpa threshold, nilai akurasi tertinggi untuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan yaitu sebesar 94%. Untuk identifikasi dengan threshold, nilai akurasi tertinggi untuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan
Tabel 15 Perbandingan tingkat akurasi antara penelitian ini dan Purnamasari (2006)
Pembicara 20 Pelatihan 30 Pelatihan 40 Pelatihan
Tanpa Threshold 84% 90% 94%
Kelompok 1
(10 Pembicara) Dengan Threshold 79% 83% 93%
Tanpa Threshold 0% 0% 0%
Kelompok 2
(10 Pembicara) Dengan Threshold 96% 76% 68%
Purnamasari
(4 Pembicara) Tanpa Threshold 71% 78% 86%
Threshold Threshold
(26)
yaitu sebesar 94% sedangkan untuk pembicara yang tidak dikenal diperoleh dari model dengan 20 data pelatihan yaitu sebesar 96%.
Untuk pembicara yang dikenal, tingkat akurasi tanpa threshold dengan 20, 30, dan 40 data pelatihan masing-masing sebesar 84%, 90%, dan 94% sedangkan tingkat akurasi dengan threshold untuk 20, 30, dan 40 data pelatihan masing-masing sebesar 79%, 83%, dan 93%.
Untuk pembicara yang tidak dikenal, tingkat akurasi tanpa threshold dengan 20, 30, dan 40 data pelatihan memiliki nilai yang sama yaitu 0% sedangkan tingkat akurasi dengan threshold untuk 20, 30, dan 40 data pelatihan masing-masing sebesar 96%, 76%, dan 68%.
Saran
Penelitian ini masih memiliki banyak kekurangan yang memungkinkan dilakukan pengembangan lebih lanjut. Hal yang mungkin untuk dikembangkan adalah menambahkan noise dengan tujuan menyerupai kondisi sebenarnya. Selain itu juga dapat dilakukan eksplorasi data suara sebelum dilakukan pemodelan dengan tujuan mengetahui karakteristik suara setiap pembicara.
DAFTAR PUSTAKA
Campbell,Jr JP. 1997. Speaker Recognition: A Tutorial. Proceeding IEEE, Vol 85 No.9, hal 1437-1461, September 1997.
Do MN. 1994. Digital Signal Processing Mini-Project: An Automatic Speaker Recognition System. Audio Visual Communications Laboratory, Swiss Federal Institute of Technology, Laussanne,Switzerland.
http://lcavwww.epfl.ch/~minhdo/asr_proje ct.pdf [12 Juli 2006].
Fausett L. 1994. Fundamentals of Neural Networks Architectures, Algorithm, and Applications. New Jersey: Prentice Hall. Ganchev, TD. 2005. Speaker
Recognition[tesis]. Greece: Wire Communication Laboratory, Department of Computer and Electrical Engineering,
University of Patras. http://wcl.ee.upatras.gr/ai/papers/Ganchev
_PhDThesis.pdf [16 November 2006]. Jurafsky D, dan Martin JH. 2000. Speech and
Language Processing An Introduction to Natural Language Processing,
Computational Linguistic, and Speech Recognition. New Jersey: Prentice Hall. Mandasari Y. 2005. Pengembangan Model
Markov Tersembunyi untuk Pengenalan kata Berbahasa Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.
Purnamasari W. 2006. Pengembangan Model Markov Tersembunyi Untuk Identifikasi Pembicara. [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.
Sarimollaoglu M, Serhan D, Kamran I, Coskun B. 2004. A Text-independent Speaker Identification System Using Probabilistic Neural Network.
http://bayrak.ualr.edu/symsel/mustafa/docs /CCCT_2004.pdf [19 September 2006]. Silverman, B.W. 1985. Density Estimation for
Statistics and Data Analysis. Chapman and Hall.
Slaney M. 1998. Auditory Toolbox : A Matlab Toolbox For Auditory Modelling Work.
Internal Research Corporation. http://rv14.ecn.purdue.edu/~malcolm/inter val/1998-010/ [30 September 2006].
(27)
(28)
Lampiran 1 Hasil identifikasi dengan 20 data pelatihan untuk 20 data pengujian kelompok 1 Pembicara Data Ke- Tanpa Threshold Dengan Threshold
1 Pembicara 1 Pembicara 1 2 Pembicara 1 Pembicara 1 3 Pembicara 1 Pembicara 1 4 Pembicara 1 Pembicara 1 5 Pembicara 1 Pembicara 1 6 Pembicara 1 Pembicara 1 7 Pembicara 1 Pembicara 1 8 Pembicara 1 Pembicara 1 9 Pembicara 1 Pembicara 1 10 Pembicara 1 Pembicara 1 11 Pembicara 1 Pembicara 1 12 Pembicara 4 Pembicara 4 13 Pembicara 1 Pembicara 1 14 Pembicara 1 Pembicara 1 15 Pembicara 1 Pembicara 1 16 Pembicara 4 Pembicara 4 17 Pembicara 1 Pembicara 1 18 Pembicara 1 Pembicara 1 19 Pembicara 1 Pembicara 1 1
20 Pembicara 1 Pembicara 1 1 Pembicara 2 Pembicara 2 2 Pembicara 2 Pembicara 2 3 Pembicara 2 Pembicara 2 4 Pembicara 9 Pembicara 9 5 Pembicara 9 Pembicara 9 6 Pembicara 9 Pembicara 9 7 Pembicara 9 Pembicara 9 8 Pembicara 2 Pembicara 2 9 Pembicara 2 Pembicara 2 10 Pembicara 2 Pembicara 2 11 Pembicara 2 Pembicara 2 12 Pembicara 8 Pembicara 0 13 Pembicara 2 Pembicara 2 14 Pembicara 2 Pembicara 2 15 Pembicara 2 Pembicara 2 16 Pembicara 8 Pembicara 0 17 Pembicara 2 Pembicara 2 18 Pembicara 8 Pembicara 8 19 Pembicara 8 Pembicara 8 2
20 Pembicara 2 Pembicara 2 1 Pembicara 3 Pembicara 3 2 Pembicara 3 Pembicara 3 3 Pembicara 3 Pembicara 3 3
(1)
Tabel 11 Hasil identifikasi 30 pelatihan dengan threshold untuk 15 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-
Pembicara
0 1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 4 11 0 0 0 0 0 0 0 0 0 73%
2 1 0 14 0 0 0 0 0 0 0 0 93%
3 4 0 0 11 0 0 0 0 0 0 0 73%
4 4 0 0 0 11 0 0 0 0 0 0 73%
5 6 0 0 0 0 9 0 0 0 0 0 60%
6 0 0 0 0 0 0 13 0 1 1 0 87%
7 0 0 0 0 0 0 0 15 0 0 0 100%
8 0 0 0 0 0 0 0 0 11 4 0 73%
9 0 0 0 0 0 0 0 0 0 15 0 100%
10 0 0 0 0 0 0 0 0 0 0 15 100%
pembicara 5 memiliki tingkat akurasi (11/15)×100%=73%. Tingkat akurasi untuk tiap pembicara dapat dilihat pada Tabel 11. Tingkat akurasi untuk seluruh pembicara adalah
% 83 % 100 150
15 15 11 15 13 9 11 11 14 11
= × + + + + + + + + +
Hasil identifikasi untuk 5 data kelompok 2 dapat dilihat pada Tabel 12. Dari Tabel 12 dapat dilihat bahwa pembicara dari kelompok 2 diidentifikasi dengan benar seluruhnya sebagai pembicara 0, kecuali pembicara 6, 7, dan 8 masing-masing sebanyak 2, 0, dan 1.
Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi pembicara 6 adalah (2/5)×100%=40%, untuk pembicara 7 adalah (0/5)×100%=0%, dan untuk pembicara 8 adalah (1/5)×100%=20%. Tingkat akurasi untuk setiap pembicara dapat dilihat pada Tabel 12.
Tingkat akurasi untuk seluruh pembicara adalah
% 76 % 100
50 × =
5 5 1 0 2 5 5 5 5
5 + + + + + + + +
2.3
il ide
n i
Tabel 12 identifikasi 30 p pengujian kelom
+
Identifikasi Dengan 40 Data Pelatihan Hasil identifikasi untuk 10 data pengujian kelompok 1 dapat dilihat pada Tabel 13. Dari Tabel 13 dapat dilihat bahwa dibandingkan dengan hasil identifikasi tanpa threshold, terdapat pembicara yang tingkat akurasinya tetap dan ada pula yang turun dengan adanya threshold. Pembicara yang tingkat akurasinya tetap adalah pembicara 1, 3, 4, 5, 6, 7, 8, 9, dan 10 sedangkan yang turun adalah pembicara 2. Banyaknya pembicara yang turun lebih sedikit dibandingkan dengan has
ntifikasi menggunakan 30 data pelatihan. Untuk pembicara laki-laki (pembicara 1 s.d. 5), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1 dan 5, yaitu sebanyak 10, sedangka pembicara yang paling sedikit diidentifikas Hasil elatihan dengan threshold untuk 5 data pok 2
Diidentifika Sebsi agai Pembicara Ke- Pembicara
0 1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 5 0 0 0 0 0 0 0 0 0 0 100%
2 5 0 0 0 0 0 0 0 0 0 0 100%
3 5 0 0 0 0 0 0 0 0 0 0 100%
4 5 0 0 0 0 0 0 0 0 0 0 100%
5 5 0 0 0 0 0 0 0 0 0 0 100%
6 2 0 0 0 0 0 0 1 1 1 0 40%
7 0 0 0 0 0 0 0 1 0 4 0 0%
8 1 0 0 0 0 0 0 0 0 4 0 20%
9 5 0 0 0 0 0 0 0 0 0 0 100%
(2)
Tabel 13 Hasil identifikasi 40 pelatihan dengan threshold untuk 10 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-
Pembicara
0 1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 0 10 0 0 0 0 0 0 0 0 0 100%
2 1 0 9 0 0 0 0 0 0 0 0 90%
3 2 0 0 7 1 0 0 0 0 0 0 70%
4 0 1 0 0 9 0 0 0 0 0 0 90%
5 0 0 0 0 0 10 0 0 0 0 0 100%
6 0 0 0 0 0 0 9 0 1 0 0 90%
7 0 0 0 0 0 0 0 10 0 0 0 100%
8 0 0 0 0 0 0 0 0 9 1 0 90%
9 0 0 0 0 0 0 0 0 0 10 0 100%
10 0 0 0 0 0 0 0 0 0 0 10 100%
dengan benar adalah pembicara 3, yaitu sebanyak 7. Untuk pembicara perempuan (pembicara 6 s.d. 10), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 7, 9, dan 10, yaitu sebanyak 10, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 6 dan 8, yaitu sebanyak 9.
Secara keseluruhan pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1, 5, 7, 9, dan 10, yaitu sebanyak 10. Sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 3, yaitu sebanyak 7.
Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi untuk pembicara 1, 5, 7, 9, dan 10 adalah (10/10)×100%=100% sedangkan untuk pembicara 3 adalah (7/10)×100%=70%.
dilihat pada Tabel 13. Tingkat akurasi untuk seluruh pembicara adalah
Tingkat akurasi untuk tiap pembicara dapat
% 93 % 100 100
10 10 9 10 9 10 9 7 9
10+ + + + + + +
= × + +
Hasil identifikasi untuk 5 data kelompok 2 dap
8 a
at dilihat pada Tabel 14. Dari Tabel 14 dapat dilihat bahwa pembicara 2, 3, 6, 7, dan 8 tidak diidentifikasi sebagai pembicara 0 seluruhnya. Pembicara 2, 7, dan 8 diidentifikasi dengan benar sebanyak 1. Sedangkan pembicara 3 dan 6 masing-masing diidentifikasi dengan benar sebanyak 4 dan 2.
Tingkat akurasi untuk pembicara 2, 7, dan dalah (1/5)×100%=20%, untuk pembicara 3 adalah (4/5)×100%=80%, dan untuk pembicara 6 adalah (2/5)×100%=40%. Tingkat akurasi untuk tiap pembicara dapat dilihat pada Tabel 14. Tingkat akurasi untuk
seluruh pembicara adalah
% 68 % 100 5 5 1 1 2 5 5 4 1
5+ + + + + + + + + × =
50
Tabel 14 Hasil identifikasi 40 pelatihan dengan threshold untuk 5 data pengujian kelompok 2 Diidentifika Sebsi agai Pembicara Ke-
Pembicara
0 1 2 3 4 5 6 7 8 9 10
Tingkat Akurasi
1 5 0 0 0 0 0 0 0 0 0 0 100%
2 1 0 0 0 0 4 0 0 0 0 0 20%
3 4 0 0 0 0 1 0 0 0 0 0 80%
4 5 0 0 0 0 0 0 0 0 0 0 100%
5 5 0 0 0 0 0 0 0 0 0 0 100%
6 2 0 0 0 0 0 0 0 3 0 0 40%
7 1 0 0 0 0 0 0 1 0 3 0 20%
8 1 0 0 0 0 0 0 1 0 3 0 20%
9 5 0 0 0 0 0 0 0 0 0 0 100%
(3)
0% 20% 40% 60% 80% 100% 120%
1 2 3 4 5
Pe m bicara
A
ku
rasi
20 Pelatihan Tanpa Threshold 20 Pelatihan Dengan Threshold 30 Pelatihan Tanpa Threshold 30 Pelatihan Dengan Threshold 40 Pelatihan Tanpa Threshold 40 Pelatihan Dengan Threshold
0% 20% 40% 60% 80% 100% 120%
1 2 3 4 5
Pe m bicara
Ak
u
ra
s
i
20 Pelatihan Tanpa Threshold 20 Pelatihan Dengan Threshold 30 Pelatihan Tanpa Threshold 30 Pelatihan Dengan Threshold 40 Pelatihan Tanpa Threshold 40 Pelatihan Dengan Threshold
Gambar 4 Tingkat akurasi setiap pembicara laki-laki kelompok 1 Hasil Identifikasi
Hasil identifikasi terkait erat dengan decision layer pada Probabilistic Neural Network. Dari decision layer akan diperoleh nilai maksimum untuk suatu kelas. Nilai terbesar ini mencerminkan bahwa suara yang diujikan diidentifikasi sebagai pembicara kelas tersebut.
Setelah melalui Probabilistic Neural Network dapat diketahui identitas pemilik suara yang diujikan. Identitas yang dimaksud adalah apakah sebagai pembicara 1, 2, 3, 4, 5, 6, 7, 8, 9, atau pembicara 10. Untuk identifikasi dengan threshold, selain diidentifikasi seperti di atas, suara yang diujikan dapat diidentifikasi sebagai pembicara 0 (tidak terdaftar).
Gambar 4 menunjukkan tingkat akurasi untuk setiap pembicara laki-laki sedangkan
Gambar 5 menunjukkan tingkat akurasi untuk setiap pembicara perempuan dari kelompok 1. Dari Gambar 4 dan 5 dapat dilihat bahwa ada perbedaan tingkat akurasi antara pembicara laki-laki dan perempuan dengan adanya threshold. Untuk pembicara laki-laki, tingkat akurasi cenderung berubah dengan adanya threshold sedangkan untuk pembicara perempuan, tingkat akurasinya cenderung tetap dengan adanya threshold. Hal ini dikarenakan adanya perbedaan karakter suara berdasarkan jenis kelamin.
Gambar 6 menunjukkan perbandingan tingkat akurasi untuk pembicara dari kelompok 1. Dari gambar dapat dilihat bahwa semakin banyak data pelatihan maka tingkat akurasi juga akan semakin tinggi. Setiap data yang diujikan akan memiliki nilai terbesar untuk suatu kelas. Nilai terbesar pada suatu
Threshold Threshold Threshold
Threshold Threshold Threshold
Threshold Threshold
Threshold Threshold
Threshold Threshold
(4)
kelas. Nilai terbesar pada suatu kelas mengindikasikan bahwa data yang diujikan diidentifikasi sebagai kelas tersebut.
96%
76%
68%
0% 20% 40% 60% 80% 100%
A
k
u
r
asi
20 30 40
Data Pelatihan
Dengan threshold, nilai tersebut akan dibandingkan terlebih dahulu dengan nilai minimum dari data threshold kelas tersebut. Jika nilainya lebih besar dari nilai minimum data threshold kelas tersebut maka suara yang diujikan diidentifikasi sebagai pembicara dari kelas tersebut. Jika lebih kecil maka suara tersebut diidentifikasikan sebagai pembicara 0 (tidak terdaftar). Hal inilah yang menyebabkan tingkat akurasi untuk identifikasi dengan threshold lebih rendah dibandingkan identifikasi tanpa threshold. Hasil identifikasi tanpa threshold dan dengan threshold untuk setiap pembicara pada kelompok 1 dapat dilihat pada Lampiran 1,2, dan 3.
84% 79%
90%
83%
94%93%
70% 75% 80% 85% 90% 95%
A
k
u
r
asi
20 30 40
Data Pelatihan
Tanpa Threshold Dengan Threshold
Gambar 6 Perbandingan tingkat akurasi untuk pembicara dari kelompok 1.
Gambar 7 menunjukkan perbandingan tingkat akurasi untuk pembicara dari kelompok 2 dengan threshold. Dari gambar dapat dilihat bahwa semakin banyak pelatihan maka tingkat akurasi akan semakin rendah. Hal ini disebabkan perbedaan komposisi data dimana untuk 20 pelatihan, data threshold-nya sebanyak 20. Sedangkan untuk 30 dan 40 data pelatihan, data threshold-nya berturut-turut sebanyak 15 dan 10. Hasil identifikasi tanpa threshold dan dengan threshold untuk setiap
pembicara pada kelompok 2 dapat dilihat pada Lampiran 4, 5, dan 6.
Gambar 7 Perbandingan tingkat akurasi untuk pembicara dari kelompok 2 dengan threshold
Pada penelitian yang dilakukan Purnamasari (2006), identitas yang dimaksud apakah sebagai pembicara 1, 2, 3, atau 4. Hal ini dikarenakan banyaknya pembicara yang ada sebanyak 4 orang, yaitu 2 pembicara laki-laki dan 2 pembicara perempuan. Identifikasi pembicara yang dilakukan menggunakan metode Hidden Markov Model (HMM) dan tanpa threshold. Perbandingan tingkat akurasi antara penelitian ini dan Purnamasi (2006) dapat dilihat pada Tabel 15. Dari Tabel 15 dapat dilihat bahwa untuk pembicara yang dikenal dengan jumlah data pelatihan yang sama, tingkat akurasi pada penelitian ini lebih baik dibandingkan Purnamasari (2006).
KESIMPULAN DAN SARAN
Kesimpulan
Dari penelitian yang telah dilakukan, diperoleh suatu model Probabilistic Neural Network untuk identifikasi pembicara. Hasil identifikasi tanpa threshold dan dengan threshold berbeda dimana dengan threshold akan memberikan hasil yang lebih akurat. Untuk identifikasi tanpa threshold, nilai akurasi tertinggi untuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan yaitu sebesar 94%. Untuk identifikasi dengan threshold, nilai akurasi tertinggi untuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan Tabel 15 Perbandingan tingkat akurasi antara penelitian ini dan Purnamasari (2006)
Pembicara 20 Pelatihan 30 Pelatihan 40 Pelatihan
Tanpa Threshold 84% 90% 94%
Kelompok 1
(10 Pembicara) Dengan Threshold 79% 83% 93%
Tanpa Threshold 0% 0% 0%
Kelompok 2
(10 Pembicara) Dengan Threshold 96% 76% 68%
Purnamasari
(4 Pembicara) Tanpa Threshold 71% 78% 86%
Threshold Threshold
(5)
kelas. Nilai terbesar pada suatu kelas mengindikasikan bahwa data yang diujikan diidentifikasi sebagai kelas tersebut.
96%
76%
68%
0% 20% 40% 60% 80% 100%
A
k
u
r
asi
20 30 40
Data Pelatihan
Dengan threshold, nilai tersebut akan dibandingkan terlebih dahulu dengan nilai minimum dari data threshold kelas tersebut. Jika nilainya lebih besar dari nilai minimum data threshold kelas tersebut maka suara yang diujikan diidentifikasi sebagai pembicara dari kelas tersebut. Jika lebih kecil maka suara tersebut diidentifikasikan sebagai pembicara 0 (tidak terdaftar). Hal inilah yang menyebabkan tingkat akurasi untuk identifikasi dengan threshold lebih rendah dibandingkan identifikasi tanpa threshold. Hasil identifikasi tanpa threshold dan dengan threshold untuk setiap pembicara pada kelompok 1 dapat dilihat pada Lampiran 1,2, dan 3.
84% 79%
90%
83%
94%93%
70% 75% 80% 85% 90% 95%
A
k
u
r
asi
20 30 40
Data Pelatihan
Tanpa Threshold Dengan Threshold
Gambar 6 Perbandingan tingkat akurasi untuk pembicara dari kelompok 1.
Gambar 7 menunjukkan perbandingan tingkat akurasi untuk pembicara dari kelompok 2 dengan threshold. Dari gambar dapat dilihat bahwa semakin banyak pelatihan maka tingkat akurasi akan semakin rendah. Hal ini disebabkan perbedaan komposisi data dimana untuk 20 pelatihan, data threshold-nya sebanyak 20. Sedangkan untuk 30 dan 40 data pelatihan, data threshold-nya berturut-turut sebanyak 15 dan 10. Hasil identifikasi tanpa threshold dan dengan threshold untuk setiap
pembicara pada kelompok 2 dapat dilihat pada Lampiran 4, 5, dan 6.
Gambar 7 Perbandingan tingkat akurasi untuk pembicara dari kelompok 2 dengan threshold
Pada penelitian yang dilakukan Purnamasari (2006), identitas yang dimaksud apakah sebagai pembicara 1, 2, 3, atau 4. Hal ini dikarenakan banyaknya pembicara yang ada sebanyak 4 orang, yaitu 2 pembicara laki-laki dan 2 pembicara perempuan. Identifikasi pembicara yang dilakukan menggunakan metode Hidden Markov Model (HMM) dan tanpa threshold. Perbandingan tingkat akurasi antara penelitian ini dan Purnamasi (2006) dapat dilihat pada Tabel 15. Dari Tabel 15 dapat dilihat bahwa untuk pembicara yang dikenal dengan jumlah data pelatihan yang sama, tingkat akurasi pada penelitian ini lebih baik dibandingkan Purnamasari (2006).
KESIMPULAN DAN SARAN
Kesimpulan
Dari penelitian yang telah dilakukan, diperoleh suatu model Probabilistic Neural Network untuk identifikasi pembicara. Hasil identifikasi tanpa threshold dan dengan threshold berbeda dimana dengan threshold akan memberikan hasil yang lebih akurat. Untuk identifikasi tanpa threshold, nilai akurasi tertinggi untuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan yaitu sebesar 94%. Untuk identifikasi dengan threshold, nilai akurasi tertinggi untuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan Tabel 15 Perbandingan tingkat akurasi antara penelitian ini dan Purnamasari (2006)
Pembicara 20 Pelatihan 30 Pelatihan 40 Pelatihan
Tanpa Threshold 84% 90% 94%
Kelompok 1
(10 Pembicara) Dengan Threshold 79% 83% 93%
Tanpa Threshold 0% 0% 0%
Kelompok 2
(10 Pembicara) Dengan Threshold 96% 76% 68%
Purnamasari
(4 Pembicara) Tanpa Threshold 71% 78% 86%
Threshold Threshold
(6)
yaitu sebesar 94% sedangkan untuk pembicara yang tidak dikenal diperoleh dari model dengan 20 data pelatihan yaitu sebesar 96%.
Untuk pembicara yang dikenal, tingkat akurasi tanpa threshold dengan 20, 30, dan 40 data pelatihan masing-masing sebesar 84%, 90%, dan 94% sedangkan tingkat akurasi dengan threshold untuk 20, 30, dan 40 data pelatihan masing-masing sebesar 79%, 83%, dan 93%.
Untuk pembicara yang tidak dikenal, tingkat akurasi tanpa threshold dengan 20, 30, dan 40 data pelatihan memiliki nilai yang sama yaitu 0% sedangkan tingkat akurasi dengan threshold untuk 20, 30, dan 40 data pelatihan masing-masing sebesar 96%, 76%, dan 68%.
Saran
Penelitian ini masih memiliki banyak kekurangan yang memungkinkan dilakukan pengembangan lebih lanjut. Hal yang mungkin untuk dikembangkan adalah menambahkan noise dengan tujuan menyerupai kondisi sebenarnya. Selain itu juga dapat dilakukan eksplorasi data suara sebelum dilakukan pemodelan dengan tujuan mengetahui karakteristik suara setiap pembicara.
DAFTAR PUSTAKA
Campbell,Jr JP. 1997. Speaker Recognition: A Tutorial. Proceeding IEEE, Vol 85 No.9, hal 1437-1461, September 1997.
Do MN. 1994. Digital Signal Processing Mini-Project: An Automatic Speaker Recognition System. Audio Visual Communications Laboratory, Swiss Federal Institute of Technology, Laussanne,Switzerland.
http://lcavwww.epfl.ch/~minhdo/asr_proje ct.pdf [12 Juli 2006].
Fausett L. 1994. Fundamentals of Neural Networks Architectures, Algorithm, and Applications. New Jersey: Prentice Hall. Ganchev, TD. 2005. Speaker
Recognition[tesis]. Greece: Wire Communication Laboratory, Department of Computer and Electrical Engineering,
University of Patras. http://wcl.ee.upatras.gr/ai/papers/Ganchev
_PhDThesis.pdf [16 November 2006]. Jurafsky D, dan Martin JH. 2000. Speech and
Language Processing An Introduction to Natural Language Processing,
Computational Linguistic, and Speech Recognition. New Jersey: Prentice Hall. Mandasari Y. 2005. Pengembangan Model
Markov Tersembunyi untuk Pengenalan kata Berbahasa Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.
Purnamasari W. 2006. Pengembangan Model Markov Tersembunyi Untuk Identifikasi Pembicara. [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.
Sarimollaoglu M, Serhan D, Kamran I, Coskun B. 2004. A Text-independent Speaker Identification System Using Probabilistic Neural Network. http://bayrak.ualr.edu/symsel/mustafa/docs /CCCT_2004.pdf [19 September 2006]. Silverman, B.W. 1985. Density Estimation for
Statistics and Data Analysis. Chapman and Hall.
Slaney M. 1998. Auditory Toolbox : A Matlab Toolbox For Auditory Modelling Work. Internal Research Corporation. http://rv14.ecn.purdue.edu/~malcolm/inter val/1998-010/ [30 September 2006].