Pengembangan Model Identifikasi Pembicara dengan Probabilitas Neural Network

(1)

ABSTRAK

MOHAMAD NONO SUHARTONO. Pengembangan Model Identifikasi Pembicara Dengan

Probabilistic Neural Network. Dibimbing oleh AGUS BUONO dan MEUTHIA RACHMANIAH. Teknologi identifikasi pembicara telah digunakan untuk berbagai kepentingan, seperti konferensi audio dan penyelidikan polisi. Pada penelitian ini dilakukan identifikasi pembicara menggunakan Probabilistic Neural Network (PNN) karena PNN telah terbukti memiliki tingkat akurasi yang tinggi, yaitu 96%. Untuk praproses data digunakan Mel Frequency Cepstrum Coefficients (MFCC). Jenis identifikasi pembicara bersifat tertutup dan bergantung pada teks yang mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar dan kata yang digunakan dalam pelatihan dan pengujian sama yaitu “komputer”.

Data suara yang dihasilkan setiap perekaman merupakan matriks berukuran 16000×1. Ukuran ini terlalu besar jika langsung digunakan dan mengakibatkan lamanya waktu komputasi. Oleh karena itu data suara tersebut direduksi terlebih dahulu dengan menggunakan MFCC. Data suara dari setiap pembicara yang telah melalui praproses akan menjadi masukan bagi PNN. PNN terdiri atas empat layer, yaitu input layer, pattern layer, summation layer, dan desicion layer. Pada PNN akan dilakukan perhitungan untuk mencari nilai terbesar dari data yang diujikan untuk mengetahui identitas pemilik suara tersebut. Identifikasi terdiri atas identifikasi tanpa threshold

dan identifikasi dengan threshold. Adanya threshold dimaksudkan untuk meningkatkan keakuratan hasil identifikasi.

Dari penelitian yang telah dilakukan, diperoleh suatu model PNN untuk identifikasi pembicara. Identifikasi pembicara dilakukan dengan 20 data pelatihan, 30 data pelatihan, dan 40 data pelatihan. Hasil identifikasi tanpa threshold dan dengan threshold berbeda dimana dengan

threshold akan memberikan hasil yang lebih akurat.

Untuk identifikasi tanpa threshold, nilai akurasi tertinggi untuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan yaitu sebesar 94%. Untuk identifikasi dengan

threshold, nilai akurasi tertinggiuntuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan yaitu sebesar 94% sedangkan untuk pembicara yang tidak dikenal diperoleh dari model dengan 20 data pelatihan yaitu sebesar 96%.

Kata kunci : Identifikasi Pembicara, Probabilistic Neural Network, Mel Frequency Cepstrum Coefficients

(2)

Oleh :

MOHAMAD NONO SUHARTONO

G64103044

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2007

(3)

Oleh :

MOHAMAD NONO SUHARTONO

G64103044

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2007

(4)

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Oleh :

MOHAMAD NONO SUHARTONO

G64103044

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2007

(5)

ABSTRAK

MOHAMAD NONO SUHARTONO. Pengembangan Model Identifikasi Pembicara Dengan

dan identifikasi dengan threshold. Adanya threshold dimaksudkan untuk meningkatkan keakuratan hasil identifikasi.

threshold akan memberikan hasil yang lebih akurat.

Untuk identifikasi tanpa threshold, nilai akurasi tertinggi untuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan yaitu sebesar 94%. Untuk identifikasi dengan

Kata kunci : Identifikasi Pembicara, Probabilistic Neural Network, Mel Frequency Cepstrum Coefficients

(6)

Judul : Pengembangan Model Identifikasi Pembicara Dengan

Probabilistic

Neural Network

Nama : Mohamad Nono Suhartono

NRP :

G64103044

Menyetujui:

Pembimbing I,

Pembimbing II

Ir. Agus Buono, M.Si., M.Kom.

Ir. Meuthia Rachmaniah, M.Sc.

NIP 132045532

NIP 131414854

Mengetahui:

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Prof. Dr. Ir. Yonny Koesmaryono, MS

NIP 131473999

(7)

RIWAYAT HIDUP

Penulis dilahirkan di Cirebon pada tanggal 12 Mei 1984 sebagai anak ke lima dari lima bersaudara dari pasangan M. Asikin Suprapto dan Nani Mulyani. Penulis menyelesaikan pendidikan menengah atas di SMUN 2 Cirebon dan lulus pada tahun 2003. Pada tahun yang sama penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Penulis diterima melalui jalur Undangan Seleksi Masuk IPB (USMI). Penulis pernah melaksanakan praktek lapang selama dua bulan di Perpustakaan IPB. Bidang kajian yang dipilih pada praktek lapang tersebut berkaitan dengan

(8)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah SWT atas limpahan nikmat dan hidayah-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini. Sholawat dan salam semoga senantiasa tercurah kepada nabi besar Muhammad SAW, keluarganya, para sahabat, serta para pengikutnya yang tetap istiqomah mengemban risalah-Nya.

Melalui lembar ini, penulis ingin menyampaikan penghargaan dan terima kasih kepada semua pihak atas bantuan, dorongan, saran, kritik, serta koreksi yang ditujukan selama penulisan karya ilmiah ini. Ucapan terima kasih penulis ucapkan kepada :

1 Mamah, Bapak, dan Kakak-kakakku atas doa, kasih sayang, dan pengorbanan yang telah diberikan selama ini.

2 Bapak Ir. Agus Buono, M.Si., M.Kom. selaku pembimbing I, Ibu Ir. Meuthia Rachmaniah, M.Sc. selaku pembimbing II dan Bapak Aziz Kustiyo, S.Si., M.Kom. selaku dosen penguji.

3 Nyna Yanuartha yang senantiasa memberi semangat dan dorongan untuk segera menyelesaikan karya ilmiah ini.

4 Aristi, Nurhadi, dan Vicky yang telah bersedia menjadi pembahas.

5 Eno, Thessi, Yustin, Ghoffar, Pandi, Mulyadi, Nanik, Vita, PIS, Ryan, Dona, Meynar, Risa M., dan Gibta yang telah menyumbangkan suaranya untuk data dalam penelitian ini.

6 Teh Arum dan Nacha yang telah meminjamkan headphone-nya. 7 Yayan yang telah meminjamkan laptopnya.

8 Seluruh staf pengajar yang telah memberikan bekal ilmu dan wawasan selama penulis menuntut ilmu di Departemen Ilmu Komputer.

9 Seluruh staf administrasi dan perpustakaan atas bantuannya. 10 Rekan-rekan Departemen Ilmu Komputer angkatan 40.

Sebagaimana manusia yang tidak luput dari kesalahan, penulis menyadari bahwa karya ilmiah ini jauh dari sempurna. Namun penulis berharap semoga karya ilmiah ini dapat bermanfaat bagi siapapun yang membacanya.

Bogor, Mei 2007

(9)

DAFTAR ISI

Halaman

DAFTAR TABEL...vi

DAFTAR GAMBAR ...vi

DAFTAR LAMPIRAN...vi

PENDAHULUAN ...1

Latar Belakang...1

Tujuan...1

Ruang Lingkup ...1

Manfaat...1

TINJAUAN PUSTAKA ...1

Jenis Pengenalan Pembicara ...1

Dijitalisasi Gelombang Suara ...1

Ekstraksi Ciri Sinyal Suara...2

Mel-Frequency Cepstrum Coefficients (MFCC) ...2

Jaringan Saraf Tiruan ...3

Probabilistic Neural Network (PNN) ...3

METODE PENELITIAN...4

Data suara ...4

Ekstraksi Ciri Sinyal Suara Dengan MFCC ...5

Probabilistic Neural Network...5

Hasil Identifikasi ...6

Lingkungan Pengembangan ...6

HASIL DAN PEMBAHASAN...6

Data Suara ...6

Ekstraksi Ciri Sinyal Suara Dengan MFCC ...6

Probabilistic Neural Network...7

1 Tanpa Threshold...7

1.1 Identifikasi Dengan 20 Data Pelatihan ...7

1.2 Identifikasi Dengan 30 Data Pelatihan ...8

1.3 Identifikasi Dengan 40 Data Pelatihan ...9

2 Dengan Threshold...10

2.1 Identifikasi Dengan 20 Data Pelatihan ...10

2.2 Identifikasi Dengan 30 Data Pelatihan ...11

2.3 Identifikasi Dengan 40 Data Pelatihan ...12

Hasil Identifikasi ...14

KESIMPULAN DAN SARAN...15

Kesimpulan...15

Saran...16

DAFTAR PUSTAKA ...16

(10)

DAFTAR TABEL

Halaman

1 Struktur percobaan data suara setiap pembicara...5

2 Nilai threshold untuk tiga macam pelatihan...6

3 Hasil identifikasi 20 pelatihan tanpa threshold untuk 20 data pengujian kelompok 1 ...7

4 Hasil identifikasi 20 pelatihan tanpa threshold untuk 5 data pengujian kelompok 2 ...8

5 Hasil identifikasi 30 pelatihan tanpa threshold untuk 15 data pengujian kelompok 1 ...8

6 Hasil identifikasi 30 pelatihan tanpa threshold untuk 5 data pengujian kelompok 2 ...9

7 Hasil identifikasi 40 pelatihan tanpa threshold untuk 10 data pengujian kelompok 1 ...9

8 Hasil identifikasi 40 pelatihan tanpa threshold untuk 5 data pengujian kelompok 2 ...10

9 Hasil identifikasi 20 pelatihan dengan threshold untuk 20 data pengujian kelompok 1 ...10

10 Hasil identifikasi 20 pelatihan dengan threshold untuk 5 data pengujian kelompok 2 ...11

11 Hasil identifikasi 30 pelatihan dengan threshold untuk 15 data pengujian kelompok 1 ...12

12 Hasil identifikasi 30 pelatihan dengan threshold untuk 5 data pengujian kelompok 2 ...12

13 Hasil identifikasi 40 pelatihan dengan threshold untuk 10 data pengujian kelompok 1 ...13

14 Hasil identifikasi 40 pelatihan dengan threshold untuk 5 data pengujian kelompok 2 ...13

15 Perbandingan tingkat akurasi antara penelitian ini dan Purnamasari (2006)...15

DAFTAR GAMBAR

Halaman 1 Diagram blok dari proses MFCC (Do 1994) ...2

2 Struktur Probabilistic Neural Network (Ganchev 2005)...4

3 Blok diagram sistem identifikasi pembicara ...4

4 Tingkat akurasi setiap pembicara laki-laki kelompok 1 ...14

5 Tingkat akurasi setiap pembicara perempuan kelompok 1...14

6 Perbandingan tingkat akurasi untuk pembicara dari kelompok 1...15

7 Perbandingan tingkat akurasi untuk pembicara dari kelompok 2 dengan threshold...15

DAFTAR LAMPIRAN

Halaman 1 Hasil identifikasi dengan 20 data pelatihan untuk 20 data pengujian kelompok 1...18

2 Hasil identifikasi dengan 30 data pelatihan untuk 15 data pengujian kelompok 1...22

3 Hasil identifikasi dengan 40 data pelatihan untuk 10 data pengujian kelompok 1...25

4 Hasil identifikasi dengan 20 data pelatihan untuk 5 data kelompok 2 ...28

5 Hasil identifikasi dengan 30 data pelatihan untuk 5 data kelompok 2 ...29

(11)

PENDAHULUAN

Latar Belakang

Sinyal suara dapat memberikan informasi mengenai identitas pembicara. Proses mengekstrak informasi yang diinginkan dari sinyal suara disebut speech processing. Speech processing memiliki beberapa cabang kajian. Salah satu kajian dalam speech processing adalah identifikasi pembicara. Identifikasi pembicara (speaker identification) adalah suatu proses mengenali seseorang berdasarkan suaranya (Campbell 1997).

Teknologi identifikasi pembicara telah digunakan untuk berbagai kepentingan, seperti konferensi audio dan penyelidikan polisi. Berbagai metode yang dapat digunakan untuk identifikasi pembicara, antara lain Dynamic Time Warping (DTW), Hidden Markov Model

(HMM), Vector Quantization (VQ), dan Jaringan Syaraf Tiruan seperti Multi Layer Perceptron dan Probabilistic Neural Network.

Pada penelitian ini akan dilakukan identifikasi pembicara menggunakan

Probabilistic Neural Network. Hal ini dikarenakan Probabilistic Neural Network

telah terbukti memiliki tingkat akurasi yang tinggi, yaitu 96%. (Sarimollaoglu et al. 2004).

Tujuan

Tujuan penelitian ini adalah mengembangkan model Probabilistic Neural Network untuk identifikasi pembicara. Penelitian ini juga dilakukan untuk membandingkan hasil identifikasi tanpa

threshold dan dengan threshold.

Ruang Lingkup

Ruang lingkup penelitian ini dibatasi pada: 1. Identifikasi bersifat tertutup dan

bergantung pada teks yang mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang terdaftar dan menggunakan kata “komputer” dalam pelatihan dan pengujian.

2. Ekstraksi ciri sinyal suara menggunakan

Mel-Frequency Cepstrum Coefficients

(MFCC).

3. Pembahasan difokuskan pada tahap pemodelan pembicara dengan

Probabilistic Neural Network, tidak pada pemrosesan sinyal analog sebagai praproses sistem.

Manfaat

Penelitian ini diharapkan dapat memberikan informasi mengenai tingkat akurasi Probabilistic Neural Network untuk identifikasi pembicara. Selain itu juga diharapkan model yang dihasilkan dapat digunakan untuk mengembangkan sistem identifikasi pembicara yang bersifat tertutup dan bergantung pada teks.

TINJAUAN PUSTAKA

Jenis Pengenalan Pembicara

Menurut Campbell (1997), pengenalan pembicara berdasarkan jenis aplikasinya dibagi dua, yaitu:

1. Identifikasi pembicara yaitu proses mengenali seseorang berdasarkan suaranya. Identifikasi pembicara dibagi dua, yaitu:

• Identifikasi tertutup (closed-set identification) di mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar atau diketahui.

• Identifikasi terbuka (open-set identification) di mana suara masukan boleh tidak ada pada kumpulan suara pembicara yang telah terdaftar

2. Verifikasi pembicara yaitu proses memeriksa identitas yang diklaimkan seseorang berdasarkan suaranya.

Pengenalan pembicara berdasarkan aspek kebahasaan dibagi menjadi dua (Ganchev 2005), yaitu:

1. Pengenalan pembicara bergantung pada teks yang mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian. 2. Pengenalan pembicara bebas teks yang

tidak mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian. Dijitalisasi Gelombang Suara

Suara adalah gelombang longitudinal yang merambat melalui medium. Medium atau zat perantara ini dapat berupa zat padat, cair, atau gas. Manusia mendengar bunyi saat gelombang bunyi, yaitu getaran di udara atau medium lain, sampai ke gendang telinga manusia.

Gelombang suara merupakan gelombang analog, sehingga agar dapat diolah dengan peralatan elektronik, gelombang suara harus direpresentasikan dalam bentuk dijital. Proses

(12)

mengubah masukan suara dari gelombang analog menjadi representasi data dijital disebut dijitalisasi suara.

Proses dijitalisasi suara terdiri atas dua tahap yaitu sampling dan kuantisasi (Jurafsky & Martin 2000). Sampling adalah proses pengambilan nilai dalam jangka waktu tertentu. Nilai ini menyatakan amplitudo (besar/kecilnya) volume suara pada saat itu. Hasilnya adalah sebuah vektor yang menyatakan nilai-nilai hasil sampling. Panjang vektor data ini bergantung pada panjang atau lamanya suara yang didijitalisasikan serta sampling rate yang digunakan pada proses dijitalisasinya.

Sampling rate itu sendiri adalah banyaknya nilai yang diambil setiap detik. Sampling rate

yang biasa digunakan adalah 8000 Hz dan 16000 Hz (Jurafsky & Martin 2000). Hubungan antara panjang vektor data yang dihasilkan dengan sampling rate dan panjangnya data suara yang didijitalisasikan dapat dinyatakan secara sederhana sebagai berikut:

, T F S = _s×

dengan

S = panjang vektor

Fs = sampling rate yang digunakan (Hertz) T = panjang suara (detik)

Setelah melalui tahap sampling, proses dijitalisasi suara selanjutnya adalah kuantisasi. Kuantisasi adalah menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 2000).

Ekstraksi Ciri Sinyal Suara

Sinyal suara merupakan sinyal bervariasi yang diwaktukan dengan lambat atau biasa disebut quasi-stationary (Do 1994). Ketika diamati dalam jangka waktu yang sangat pendek (5 - 100 ms), karakteristiknya hampir sama. Namun, dalam jangka waktu yang panjang (0,2 detik atau lebih) karakteristik sinyal berubah dan merefleksikan perbedaan sinyal suara yang diucapkan. Oleh karena itu, digunakan spektrum waktu pendek (short-time spectral analysis) untuk mengkarakterisasi sinyal suara.

Beberapa fitur sinyal suara yang biasa digunakan antara lain Linear Predictive Coding, Perceptual Linear Prediction, dan

Mel-Frequency Cepstrum Coefficients. Pada penelitian ini, fitur yang digunakan adalah

Mel-Frequency Cepstrum Coefficients.

Mel-Frequency Cepstrum Coefficients (MFCC)

MFCC didasarkan pada variasi yang telah diketahui dari jangkauan kritis telinga manusia terhadap frekuensi. Filter dipisahkan secara linier pada frekuensi rendah dan logaritmik pada frekuensi tinggi. Hal ini dilakukan untuk menangkap karakteristik penting dari sinyal suara.

Tujuan utama MFCC adalah untuk meniru perilaku telinga manusia. Selain itu MFCC telah terbukti bisa menyebutkan variasi dari gelombang suara itu sendiri. Diagram blok dari proses MFCC dapat dilihat pada Gambar 1.

ambar 1 Diagram blok dari proses MFCC G

MF 1.

untuk m ngga

mende ir tiap

3. Fast Fourier Transform (FFT). Tahap ini mengkonversi tiap frame dengan N sampel dari time domain menjadi fr quency domain. FFT adalah suatu algoritma untuk mengimplementasikan Discrete Fourier

(Do 1994)

Penjelasan tiap tahapan pada proses CC sebagai berikut (Do 1994):

Frame Blocking. Pada tahap ini sinyal suara (continous speech) dibagi ke dalam

frame-frame. Tiap frame terdiri atas N sample.

Windowing. Proses selanjutnya adalah melakukan windowing pada tiap frame

untuk meminimalkan diskontinuitas sinyal pada awal dan akhir tiap frame. Konsepnya adalah meminimisasi distorsi spektral dengan menggunakan window

emperkecil sinyal hi kati nol pada awal dan akh

frame. Jika window didefinisikan sebagai

w(n), 0 ≤ n ≤ N-1, dengan N adalah banyaknya sampel tiap frame, maka hasil dari windowing adalah sinyal dengan persamaan:

Yl(n)=xl(n)w(n), 0 ≤ n ≤ N-1 Pada umumnya, window yang digunakan adalah hamming window, dengan persamaan:

w(n)=0.54-0.46cos(2πn/N-1), 0 ≤ n ≤ N-1

(13)

Transform (DFT) yang didefinisikan pada himpunan N sampel {xn} sebagai berikut:

∑

− = − = 1 0 / 2 N k N jkn k

n x e

X π ,

Dengan n=0, 1, 2,….., N-1, j digunakan untuk menotasikan unit imajiner, yaitu

1 − =

j . Secara umum Xn adalah

bilangan kompleks. Barisan {Xn} yang dihasilkan diartikan sebagai berikut: frekuensi nol berkorespondensi dengan n = 0, frekuensi positif 0 < f < Fs/2 berkorespondensi dengan nilai 1 ≤ n ≤ N/2-1, sedangkan frekuensi negatif –Fs/2 <

f < 0 berkorespondensi dengan N/2+1 < n

< N-1. Dalam hal ini Fs adalah sampling frequency. Hasil yang didapatkan dalam tahap ini biasa disebut dengan spektrum sinyal atau periodogram.

Mel-frequency Wrapping. Studi psikofisik menunjukkan bahwa persepsi manusia terhadap frekuensi sinyal suara tidak berupa skala linier. Oleh karena itu, untuk setiap nada dengan frekuensi aktual f

(dalam Hertz), tinggi subjektifnya diuk 4.

dengan uency

adalah 00 Hz

sentasi g baik dari suatu

frame. Mel spectrum

at pelatihan, pem

ruan untuk beberapa bidang aplikasi rsingkat uan ini dap

hat pada Gambar 2 yang ter mpat layer yaitu

yer, summation layer, cision ayer. Dengan menerima sebuah i input layer, itung skala ‘mel’. Skala mel-freq

selang frekuensi di bawah 10 dan selang logaritmik untuk frekuensi di atas 1000 Hz, sehingga pendekatan berikut dapat digunakan untuk menghitung mel-frequency untuk frekuensi f dalam Hz:

Mel(f) = 2595*log10(1+f/700)

Cepstrum. Langkah terakhir, konversikan log mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients. Representasi cepstral

spektrum suara merupakan repre properti spektral lokal yan

sinyal untuk analisis

coefficients (dan logaritmanya) berupa bilangan riil, sehingga dapat dikonversikan ke domain waktu dengan menggunakan

Discrete Cosine Transform (DCT). Jaringan Saraf Tiruan

Jaringan saraf tiruan diinspirasi oleh cara kerja otak manusia dimana untuk berpikir, otak manusia mendapat rangsangan dari neuron-neuron yang terdapat pada indera manusia, kemudian hasil rangsangan tersebut diolah sehingga menghasilkan suatu informasi. Pada komputer, masukan yang diberikan diumpamakan sebagai neuron-neuron dimana masukan tersebut dikalikan dengan suatu nilai dan kemudian diolah

dengan fungsi tertentu untuk menghasilkan suatu keluaran. Pada sa

asukan tersebut dilakukan berulang-ulang hingga dicapai keluaran seperti yang diinginkan. Setelah proses pelatihan, diharapkan komputer dapat mengenali suatu masukan baru berdasarkan data yang telah diberikan pada saat pelatihan.

Dibandingkan dengan teknologi lainnya, pendekatan komputasi menggunakan jaringan saraf ti

jauh lebih baik dan dapat mempe waktu. Kekuatan jaringan saraf tir

at digunakan untuk aplikasi seperti pemrosesan sinyal, kontrol, pengenalan pola, kesehatan, dan pengenalan suara (Fausett 1994).

Probabilistic Neural Network (PNN)

Probabilistic Neural Network

diperkenalkan oleh Donald F. Specht tahun 1990 dalam tulisannya berjudul “Probabilistic Neural Network” yang merupakan penyempurnaan ide-ide sebelumnya yang telah dilakukannya sejak 1966 (Fausett 1994).

Probabilistic Neural Network dirancang menggunakan ide dari teori probabilitas klasik yaitu pengklasifikasi Bayesian dan estimator pengklasifikasi Parzen untuk Probability

nsity Function. Dengan menggunakan pengklasifikasi Bayesian dapat ditentukan bagaimana sebuah data masukan diklasifikasi sebagai anggota suatu kelas dari beberapa kelas yang ada, yaitu yang mempunyai nilai maksimum pada kelas tersebut (Fausett 1994).

Adapun strukturnya dapat dili diri atas e

input layer, pattern la

dan de l

masukan vektor tes x dar u

kel aran dari pattern layer dapat dih melalui persamaan sebagai berikut :

⎟ ⎟ ⎠ ⎜ ⎝ = _j

j 1 h

d = dimen i v

⎞ ⎜

⎛ − Π

= d xj x

k x

f( ) ij , dengan

s ektor

Untuk summation layer dihitung melalui persamaan:

k(z) =e− ×

5 . 0 z

j = vektor input kolom ke-j

xij = vektor bobot baris ke-i kolom ke-j

hj = 2.24×(standar deviasi ke-j)×n-1/5

(Silverman 198

( )

∑

= = ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − Π = n i j ij j d j d d h x x k h h h x p 1 1 2 1 2 / ... 2 1 ) ( π

(14)

dengan n adalah banyaknya observasi. Suatu vektor tes x diklasifikasikan pada desicion layer sebagai kelas Y jika nilai pY(x) paling

besar untuk kelas Y.

Gambar 2 Struktur Probabilistic Neural Network (Ganchev 2005)

METODE PENELITIAN

Proses identifikasi pembicara dengan menggunakan Probabilistic Neural Network

dalam penelitian ini dapat dilihat pada Gambar 3. Proses identifikasi terdiri atas dua fase, yaitu fase pelatihan dan pengujian. Pada fase pelatihan, contoh suara akan

umpulkan dari setiap pembicara untuk dikenali. Sedangkan

ontoh suara untuk diketahui pem

pan me

dib 1.

embicara laki-laki sedangkan

set

digunakan sebagai threshold

dalam identifikasi yang menggunakan

threshold.

dik

pada fase pengujian,

diberikan c

ilik suara tersebut. Data suara

Data yang digunakan pada penelitian ini adalah gelombang suara yang telah didijitasi dan direkam dari 20 pembicara, yaitu 10 pembicara laki-laki dan 10 pembicara perempuan dengan rentang usia 20-23 tahun dan masing-masing pembicara diambil suaranya selama satu detik. Suara dari tiap pembicara diambil menggunakan fungsi

wavrecord pada Matlab, dan disim njadi file berekstensi WAV. Setiap suara diambil dengan sampling rate 16000 H

Pembicara yang terdiri atas 20 orang agi menjadi dua kelompok, yaitu :

Kelompok 1 yang terdiri atas lima pembicara laki-laki dan lima pembicara perempuan yang digunakan sebagai data pelatihan, threshold, dan pengujian. Pembicara 1 s.d. 5 merupakan pembicara laki-laki sedangkan pembicara 6 s.d. 10 merupakan pembicara perempuan.

Kelompok 2 yang terdiri atas lima pembicara laki-laki dan lima pembicara perempuan yang hanya digunakan sebagai data pengujian. Pembicara 1 s.d. 5 merupakan p

pembicara 6 s.d. 10 merupakan pembicara perempuan.

Khusus untuk kelompok 1, data suara iap pembicara dibagi menjadi tiga, yaitu : 1. Data pelatihan yaitu data yang digunakan

sebagai bobot dalam Probabilistic Neural Network.

Data threshold yaitu data yang pada tahap awal digunakan sebagai data pengujian. Dari pengujian ini akan dicari nilai minimum untuk setiap pembicara. Nilai inilah yang

m identifikasi pembicara Gambar 3 Blok diagram siste

(15)

3. Data pengujian yaitu data yang digunakan dalam pengujian model yang telah dibuat.

dil

(20

s identifikasi pembicara baik

dua

thr suara

Tab

fun g

dik

Jenis identifikasi pembicara yang akukan bersifat bergantung pada teks. Kata yang diucapkan baik untuk pelatihan maupun pengujian telah ditentukan yaitu “komputer” dan diucapkan sebanyak 60 kali untuk setiap pembicara pada kelompok 1 dan lima kali untuk setiap pembicara pada kelompok 2 sehingga terdapat 650 file data. Setiap pembicara mengucapkan kata “komputer” dan dilakukan secara berulang sebanyak 60 kali untuk kelompok 1 dan lima kali untuk kelompok 2 didasarkan pada penelitian sebelumnya yang dilakukan oleh Mandasari

05) dan Purnamasari (2006). Prose

kelompok 1 maupun kelompok 2 terdiri atas macam, yaitu tanpa threshold dan dengan

eshold. Struktur percobaan data untuk setiap pembicara dapat dilihat pada

el 1.

Ekstraksi Ciri Sinyal Suara Dengan MFCC Pada implementasi MFCC digunakan gsi dari Auditory Toolbox yan embangkan oleh Slaney pada tahun 1998.

Auditory Toolbox dapat diperoleh secara

bebas di http://rv14.ecn.purdue.edu/~malcolm/interval/

1998-010/. Fungsi ini menggunakan lima parameter, yaitu :

4. Lap yaitu overlaping yang diinginkan (harus kurang dari satu). Lap yang digunakan sebesar 0.5.

5. Cepstral coefficient yaitu jumlah cepstrum

yang diinginkan sebagai output. Cepstral coefficient yan

1. Input yaitu masukan suara yang berasal dari setiap pembicara.

2. Sam yaitu bany

diambil dalam satu detik. itian

i guna in 000

3. am a an

untuk satu a ime

frame yan n

g digunakan sebanyak 13. iap pembicara,

matriks berukuran 13 × 66. Hasil ini merupakan masukan untuk Probabilistic Neural Network.

Probabilistic Neural Network

kan matriks berukuran

tern

a ihan ke ebagai beriku

pling rate aknya nilai Dalam penel

yang

ni di Hz.

Time fr

kan sampl g rate sebesar 16

e yaitu w ktu yang diingink

frame (d g digunaka

lam milidetik). T

adalah 30 ms.

Setiap data suara dari set

baik kelompok 1 maupun kelompok 2, akan dibagi menjadi 66 frame dimana masing-masing frame berukuran 30 ms dengan overlap 50% dan tanpa noise. Hasil dari analisis fitur suara MFCC ini adalah 13 koefisien mel cepstrum untuk masing-masing

frame. Dengan demikian setiap data suara menjadi

Input layer merupa

13 × 66 yang berasal dari suara pembicara yang akan diidentifikasi yang telah mengala proses ekstraksi ciri sinyal suara. Pada pat layer, dihitung ”jarak” vektor pel t vektor pengujian dengan persamaan s

t ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − Π = = _j ij j d j h x x k x f 1 )

( , dengan

d = dimensi vektor k(z) =

ktor input kolom ke-j, j=1,2,..,858

ij = vektor bobot b -j,

,...,

24×(st i ke-j)

j=1,2 ,40

Setiap tte layer akan

a an

layer lainn kela Banyaknya kelas dalam ad ah 10 yang

Tabel 1 Struk a p p

5 . 0 z

e− ×

xj = ve

x aris ke-i kolom ke

58 i=1,2

n, j=1,2,...,8 andar devias

j = 2. ×n-1/5 ,

,...,858, n=20,30 keluaran dari pa rn

dijumlahk n dengan keluar dari pattern

ya yang satu s. penelitian ini al

tur percob an data suara setia embicara

Tanpa thre old sh Dengan threshold

Identifikasi

Kelompok 1 Kelompok 2 Kelompok 1 Kelompok 2

Pelatihan Data ke-1 s.d. 20 - Data ke-1 s.d. 20 -

Threshold - - Data ke-21 s.d. 40 - 20

Pelatihan

Pengujian Data ke-41 s.d. 60 Data ke-1 s.d. 5 Data ke-41 s.d. 60 Data ke-1 s.d. 5

Pelatihan Data ke-1 s.d. 30 - Data ke-1 s.d. 30 -

Threshold - - Data ke-31 s.d. 45 - 30

Pelatihan

Pengujian Data ke-46 s.d. 60 Data ke-1 s.d. 5 Data ke-46 s.d. 60 Data ke-1 s.d. 5

Pelatihan Data ke-1 s.d. 40 - Data ke-1 s.d. 40 -

Threshold - - Data ke-41 s.d. 50 - 40

Pelatihan

(16)

berasal dari banyaknya pembicara yang digunakan untuk pelatihan. Proses ini termasuk dalam summation layer yang dihitung melalui persamaan sebagai berikut :

( )

∑

= = ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − Π = n i j ij j d j d d _h x x k h h h x p 1 1 2 1 2 / ... 2 1 ) ( π

Dari summation layer akan diperoleh nilai terbesar untuk suatu kelas. Nilai terbesar ini mencerminkan bahwa suara yang diujikan diidentifikasi sebagai pembicara kelas tersebut. Untuk pengujian dengan threshold,

nilai tersebut akan dibandingkan terlebih dahulu dengan threshold kelas tersebut. Jika nilainya lebih besar dari threshold maka suara tersebut diidentifikasi sebagai pembicara kelas tersebut. Sebaliknya jika nilainya lebih kecil maka suara yang diujikan diidentifikasi sebagai pembicara yang tidak terdaftar. Proses ini termasuk dalam desicion layer.

Hasil Identifikasi

Hasil identifikasi merupakan bagian akhir dari identifikasi pembicara yang berupa identitas pemilik suara yang diujikan. Identitas yang dimaksud adalah apakah suara yang diujikan diidentifikasi sebagai pembicara 1, 2, 3, 4, 5, 6, 7, 8, 9, atau pembicara 10. Untuk identifikasi dengan threshold, selain diidentifikasi seperti di atas, suara yang diujikan dapat diidentifikasi sebagai pembicara 0 (tidak terdaftar).

Lingkungan Pengembangan

Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk penelitian ini adalah sebagai berikut :

a. Perangkat keras komputer personal

• Prosesor AMD Sempron 3000+

• Memori DDR 512 MB

• Harddisk 120 GB

• Keyboard dan mouse • Monitor

• Backphone with mic

b. Perangkat Lunak

• Sistem operasi Windows XP Profesional

• Matlab 6.5

HASIL DAN PEMBAHASAN

Data Suara

Pembagian 20 pembicara menjadi dua kelompok, yaitu kelompok 1 dan kelompok 2, dimaksudkan agar dapat dibandingkan hasil identifikasi antara data pengujian yang berasal dari pembicara yang dikenal dan pembicara

yang tidak dikenal. Pembicara yang dikenal adalah pembicara yang datanya digunakan dalam pelatihan. Kelompok 1 merupakan pembicara yang dikenal sedangkan kelompok 2 merupakan pembicara yang tidak dikenal.

Sampling rate yang digunakan untuk merekam suara setiap pembicara dipilih 16000 Hz karena pada umumnya sampling rate yang digunakan oleh mikrofon berada pada 16000 Hz. Nilai threshold untuk tiga macam pelatihan, yaitu 20, 30, dan 40 pelatihan dapat dilihat pada Tabel 2.

Tabel 2 Nilai threshold untuk tiga macam pelatihan Pembicara Ke- 20 Pelatihan 30 Pelatihan 40 Pelatihan

1 2.9823e-079 4.0693e-066 2.7358e-080

2 1.2622e-231 3.2322e-240 2.1867e-229

3 5.7094e-166 1.0618e-249 2.0442e-220

4 1.9446e-113 1.5313e-097 2.1964e-164

5 2.1319e-157 1.3394e-291 0

6 1.2711e-105 1.0444e-142 2.2546e-168

7 2.7585e-174 2.4157e-196 3.0828e-235

8 6.3971e-176 1.1736e-263 9.8813e-324

9 1.7149e-181 2.7409e-227 3.3167e-316

10 1.5647e-137 1.1289e-256 0

Ekstraksi Ciri Sinyal Suara Dengan MFCC Fungsi dari Auditory Toolbox untuk ekstraksi ciri sinyal suara dengan MFCC terdiri atas lima parameter, yaitu input, sampling rate, time frame, lap, dan cepstral coefficient. Pemilihan nilai time frame, lap,

dan cepstral coefficient berturut-turut sebesar 30 ms, 0.5, dan 13 didasarkan pada penelitian sebelumnya yang dilakukan Mandasari (2005) dan Purnamasari (2006).

Pada tahap Frame Blocking, sinyal suara dibagi ke menjadi 66 frame. Tiap frame terdiri atas 13 sample. Proses selanjutnya adalah

Windowing, yaitu meminimalkan diskontinuitas sinyal pada awal dan akhir tiap

frame. Window yang digunakan adalah

hamming window dengan persamaan

w(n)=0.54-0.46cos(2πn/12), 0 ≤ n ≤ 12.

Setelah meminimalkan diskontinuitas sinyal pada awal dan akhir tiap frame, dilakukan konversi tiap frame dengan 13

sample dari time domain menjadi frequency domain. Persepsi manusia terhadap frekuensi

(17)

sinyal suara tidak berupa skala linier. Oleh karena itu, untuk setiap nada dengan frekuensi aktual f (dalam Hertz), tinggi subjektifnya diukur dengan skala ‘mel’. Pendekatan berikut dapat digunakan untuk menghitung mel-frequency untuk frekuensi f dalam Hz:

Mel(f) = 2595*log10(1+f/700)

Langkah terakhir adalah mengkonversi log

mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients. Probabilistic Neural Network

Input bagi Probabilistic Neural Network

berasal dari data suara pelatihan dan data suara pengujian yang telah mengalami proses ekstraksi ciri sinyal suara dengan MFCC. Pada pattern layer, dilakukan perhitungan antara data pelatihan dan data pengujian. Nilai h diperoleh dari persamaan 2.24×(standar deviasi)×n-1/5 karena memberikan nilai optimal (Silverman 1985). Hasil dari pattern layer ini akan dijumlahkan dengan hasil

pattern layer lainnya yang satu kelas. Proses ini terjadi pada summation layer. Dari

summation layer, diperoleh nilai terbesar untuk suatu kelas.

Berdasarkan Tabel 1, identifikasi terdiri atas dua macam, yaitu tanpa threshold dan dengan threshold. Adanya threshold

dimaksudkan untuk meningkatkan keakuratan hasil identifikasi.

1 Tanpa Threshold

1.1 Identifikasi Dengan 20 Data Pelatihan Hasil identifikasi untuk 20 data pengujian kelompok 1 dapat dilihat pada Tabel 3. Dari Tabel 3 dapat dilihat bahwa untuk pembicara laki-laki (pembicara 1 s.d. 5), pembicara yang paling banyak diidentifikasi dengan benar

adalah pembicara 4, yaitu sebanyak 19, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 5, yaitu sebanyak 12. Untuk pembicara perempuan (pembicara 6 s.d. 10), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 10, yaitu sebanyak 20, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 6, yaitu sebanyak 12.

Secara keseluruhan pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 10, yaitu sebanyak 20. Sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 5 dan 6, yaitu sebanyak 12.

Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi untuk pembicara 10 adalah (20/20)×100%=100% sedangkan untuk pembicara 5 dan 6 memiliki tingkat akurasi yang sama, yaitu (12/20)×100%=60%. Tingkat akurasi untuk tiap pembicara dapat dilihat pada Tabel 3. Tingkat akurasi untuk seluruh pembicara adalah

% 84 % 100

200 × =

Hasil identifikasi untuk 5 data kelompok 2 dapat dilihat pada Tabel 4. Dari Tabel 4 dapat dilihat bahwa pembicara yang tidak terdaftar diidentifikasi secara beragam sebagai pembicara yang terdaftar (pembicara 1 s.d. 10). Seharusnya pembicara 1 s.d. 10 dari kelompok 2 diidentifikasi sebagai pembicara yang tidak terdaftar (pembicara 0). Hal ini dikarenakan tidak adanya thresh

20 19 17 17 12 12 19 17 17

18 + + + + + + + +

old untuk menjadi pembicara yang terdaftar.

Tabel 3 Hasil identifikasi 20 pelatihan tanpa threshold untuk 20 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-

Pembicara

1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 18 0 0 2 0 0 0 0 0 0 90%

2 0 17 0 3 0 0 0 0 0 0 85%

3 1 1 17 1 0 0 0 0 0 0 85%

4 1 0 0 19 0 0 0 0 0 0 95%

5 2 5 1 0 12 0 0 0 0 0 60%

6 0 0 0 0 0 12 0 4 4 0 60%

7 0 0 0 0 0 0 17 0 3 0 85%

8 0 0 0 0 0 0 0 17 3 0 85%

9 0 0 0 0 0 0 1 0 19 0 95%

(18)

Tabel 4 Hasil identifikasi 20 pelatihan tanpa threshold untuk 5 data pengujian kelompok 2 Diidentifikasi Sebagai Pembicara Ke-

Pembicara

0 1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 0 2 0 0 3 0 0 0 0 0 0 0%

2 0 1 2 0 0 2 0 0 0 0 0 0%

3 0 4 1 0 0 0 0 0 0 0 0 0%

4 0 5 0 0 0 0 0 0 0 0 0 0%

5 0 4 0 0 1 0 0 0 0 0 0 0%

6 0 1 0 0 0 0 0 2 1 1 0 0%

7 0 0 0 0 0 0 0 0 0 5 0 0%

8 0 0 0 0 0 0 0 0 0 5 0 0%

9 0 5 0 0 0 0 0 0 0 0 0 0%

10 0 5 0 0 0 0 0 0 0 0 0 0%

1.2 Identifikasi Dengan 30 Data Pelatihan Hasil identifikasi untuk 15 data pengujian kelompok 1 dapat dilihat pada Tabel 5. Dari Tabel 5 dapat dilihat bahwa untuk pembicara laki-laki (pembicara 1 s.d. 5), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1 dan 2, yaitu sebanyak 15, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 3 dan 4, yaitu sebanyak 11. Untuk pembicara perempuan (pembicara 6 s.d. 10), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 7, 9, dan 10, yaitu sebanyak 15, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 8, yaitu sebanyak 11.

Secara keseluruhan pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1, 2, 7, 9, dan 10, yaitu sebanyak 20. Sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 3, 4, dan 8, yaitu sebanyak 11.

Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi untuk pembicara 1, 2, 7, 9, dan 10 adalah (15/15)×100%=100% sedangkan untuk pembicara 3, 4, dan 8 memiliki tingkat akurasi yang sama, yaitu (11/15)×100%=73%. Tingkat akurasi untuk tiap pembicara dapat dilihat pada Tabel 5. Tingkat akurasi untuk seluruh pembicara adalah

% 90 % 100 150

15 15 11 15 13 14 11 11 15 15

= × + + + + + + + + +

Hasil identifikasi untuk 5 data kelompok 2 dapat dilihat pada Tabel 6. Dari Tabel 6 dapat dilihat bahwa pembicara yang tidak terdaftar diidentifikasi secara beragam sebagai pembicara yang terdaftar (pembicara 1 s.d. 10). Seharusnya pembicara 1 s.d. 10 dari kelompok 2 diidentifikasi sebagai pembicara yang tidak terdaftar (pembicara 0). Hal ini dikarenakan tidak adanya threshold untuk menjadi pembicara yang terdaftar.

Tabel 5 Hasil identifikasi 30 pelatihan tanpa threshold untuk 15 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-

Pembicara

1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 15 0 0 0 0 0 0 0 0 0 100%

2 0 15 0 0 0 0 0 0 0 0 100%

3 2 2 11 0 0 0 0 0 0 0 73%

4 4 0 0 11 0 0 0 0 0 0 73%

5 1 0 0 0 14 0 0 0 0 0 93%

6 0 0 0 0 0 13 0 1 1 0 87%

7 0 0 0 0 0 0 15 0 0 0 100%

8 0 0 0 0 0 0 0 11 4 0 73%

9 0 0 0 0 0 0 0 0 15 0 100%

(19)

Tabel 6 Hasil identifikasi 30 pelatihan tanpa threshold untuk 5 data pengujian kelompok 2 Diidentifikasi Sebagai Pembicara Ke-

Pembicara

0 1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 0 2 0 0 3 0 0 0 0 0 0 0%

2 0 0 2 0 0 3 0 0 0 0 0 0%

3 0 1 0 0 0 4 0 0 0 0 0 0%

4 0 5 0 0 0 0 0 0 0 0 0 0%

5 0 4 1 0 0 0 0 0 0 0 0 0%

6 0 2 0 0 0 0 0 1 1 1 0 0%

7 0 0 0 0 0 0 0 1 0 4 0 0%

8 0 0 1 0 0 0 0 0 0 4 0 0%

9 0 5 0 0 0 0 0 0 0 0 0 0%

10 0 5 0 0 0 0 0 0 0 0 0 0%

1.3 Identifikasi Dengan 40 Data Pelatihan Hasil identifikasi untuk 10 data pengujian kelompok 1 dapat dilihat pada Tabel 7. Dari Tabel 7 dapat dilihat bahwa untuk pembicara laki-laki (pembicara 1 s.d. 5), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1, 2, dan 5, yaitu sebanyak 10, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 3, yaitu sebanyak 7. Untuk pembicara perempuan (pembicara 6 s.d. 10), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 7, 9, dan 10, yaitu sebanyak 10, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 6 dan 8, yaitu sebanyak 9.

Secara keseluruhan pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1, 2, 5, 7, 9, dan 10, yaitu sebanyak 10. Sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 3, yaitu sebanyak 7.

Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi untuk pembicara 1, 2, 5, 7, 9, dan 10 adalah (10/10)×100%=100% sedangkan untuk pembicara 3 adalah (7/10)×100%=70%. Tingkat akurasi untuk tiap pembicara dapat dilihat pada Tabel 7. Tingkat akurasi untuk seluruh pembicara adalah

% 94 % 100

100 × =

Hasil identifikasi untuk 5 data kelompok 2 dapat dilihat pada Tabel 8. Dari Tabel 8 dapat dilihat bahwa pembicara yang tidak terdaftar diidentifikasi secara beragam sebagai pembicara yang terdaftar (pembicara 1 s.d. 10). Seharusnya pembicara 1 s.d. 10 dari kelompok 2 diidentifikasi sebagai pembicara yang tidak terdaftar (pembicara 0). Hal ini dikarenakan tidak adanya thresh

10 10 9 10 9 10 9 7 10

10+ + + + + + + + +

old untuk menjadi pembicara yang terdaftar.

Tabel 7 Hasil identifikasi 40 pelatihan tanpa threshold untuk 10 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-

Pembicara

1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 10 0 0 0 0 0 0 0 0 0 100%

2 0 10 0 0 0 0 0 0 0 0 100%

3 0 2 7 1 0 0 0 0 0 0 70%

4 1 0 0 9 0 0 0 0 0 0 90%

5 0 0 0 0 10 0 0 0 0 0 100%

6 0 0 0 0 0 9 0 1 0 0 90%

7 0 0 0 0 0 0 10 0 0 0 100%

8 0 0 0 0 0 0 0 9 1 0 90%

9 0 0 0 0 0 0 0 0 10 0 100%

(20)

Tabel 8 Hasil identifikasi 40 pelatihan tanpa threshold untuk 5 data pengujian kelompok 2 Diidentifikasi Sebagai Pembicara Ke-

Pembicara

0 1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 0 4 0 0 1 0 0 0 0 0 0 0%

2 0 0 1 0 0 4 0 0 0 0 0 0%

3 0 1 0 0 0 4 0 0 0 0 0 0%

4 0 5 0 0 0 0 0 0 0 0 0 0%

5 0 4 1 0 0 0 0 0 0 0 0 0%

6 0 2 0 0 0 0 0 0 3 0 0 0%

7 0 1 0 0 0 0 0 1 0 3 0 0%

8 0 0 1 0 0 0 0 1 0 3 0 0%

9 0 5 0 0 0 0 0 0 0 0 0 0%

10 0 5 0 0 0 0 0 0 0 0 0 0%

2 Dengan Threshold

Dari Tabel 2 dapat dilihat nilai threshold

tiap pembicara untuk tiga macam pelatihan, yaitu 20, 30, dan 40 pelatihan. Threshold

digunakan untuk melakukan seleksi yang lebih akurat dari hasil identifikasi setiap suara. Nilai threshold dari tiap pembicara berfungsi sebagai ambang batas nilai keluaran yang yang diterima untuk dapat diidentifikasi sebagai pembicara tersebut. Threshold diambil dengan menjadikan data threshold sebagai data uji. Keluaran yang diidentifikasi dengan benar dari model Probabilistic Neural Network kemudian disimpan dalam suatu matriks. Dari matriks tersebut diambil nilai minimal untuk tiap pembicara. Nilai keluaran minimal tersebut adalah nilai yang digunakan sebagai threshold untuk tiap pembicara. 2.1 Identifikasi Dengan 20 Data Pelatihan

Hasil identifikasi untuk 20 data pengujian kelompok 1 dapat dilihat pada Tabel 9. Dari Tabel 9 dapat dilihat bahwa dibandingkan

dengan hasil identifikasi tanpa threshold,

terdapat pembicara yang tingkat akurasinya tetap dan ada pula yang turun dengan adanya

threshold. Pembicara yang tingkat akurasinya tetap adalah pembicara 1, 2, 3, 5, 6, dan 9, sedangkan yang turun adalah pembicara 4, 7, 8, dan 10.

Untuk pembicara laki-laki (pembicara 1 s.d. 5), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1 dan 4, yaitu sebanyak 18, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 5, yaitu sebanyak 12. Untuk pembicara perempuan (pembicara 6 s.d. 10), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 9, yaitu sebanyak 19, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 7, yaitu sebanyak 10.

Secara keseluruhan pembicara yang paling banyak diidentifikasi dengan benar adalah

Tabel 9 Hasil identifikasi 20 pelatihan dengan threshold untuk 20 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-

Pembicara

0 1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 0 18 0 0 2 0 0 0 0 0 0 90%

2 0 0 17 0 3 0 0 0 0 0 0 85%

3 3 0 0 17 0 0 0 0 0 0 0 85%

4 2 0 0 0 18 0 0 0 0 0 0 90%

5 7 0 0 1 0 12 0 0 0 0 0 60%

6 2 0 0 0 0 0 12 0 2 4 0 60%

7 7 0 0 0 0 0 0 10 0 3 0 50%

8 4 0 0 0 0 0 0 0 16 0 0 80%

9 0 0 0 0 0 0 0 1 0 19 0 95%

(21)

Tabel 10 Hasil identifikasi 20 pelatihan dengan threshold untuk 5 data pengujian kelompok 2 Diidentifikasi Sebagai Pembicara Ke-

Pembicara

0 1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 5 0 0 0 0 0 0 0 0 0 0 100%

2 3 0 0 0 0 2 0 0 0 0 0 60%

3 5 0 0 0 0 0 0 0 0 0 0 100%

4 5 0 0 0 0 0 0 0 0 0 0 100%

5 5 0 0 0 0 0 0 0 0 0 0 100%

6 5 0 0 0 0 0 0 0 0 0 0 100%

7 5 0 0 0 0 0 0 0 0 0 0 100%

8 5 0 0 0 0 0 0 0 0 0 0 100%

9 5 0 0 0 0 0 0 0 0 0 0 100%

10 5 0 0 0 0 0 0 0 0 0 0 100%

pembicara 9, yaitu sebanyak 19. Sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 7, yaitu sebanyak 10.

Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi untuk pembicara 9 adalah (19/20)×100%=95% sedangkan untuk pembicara 7 memiliki tingkat akurasi sebesar (10/20)×100%=50%. Tingkat akurasi untuk tiap pembicara dapat dilihat pada Tabel 9. Tingkat akurasi untuk seluruh pembicara adalah % 79 % 100 200 18 19 16 10 12 12 18 17 17

18+ + + + + + + + + _× ₌

Hasil identifikasi untuk 5 data kelompok 2 dapat dilihat pada Tabel 10. Dari Tabel 10 dapat dilihat bahwa pembicara dari kelompok 2 diidentifikasi dengan benar seluruhnya sebagai pembicara 0, kecuali pembicara 2 yang hanya diidentifikasi dengan benar sebagai pembicara 0 sebanyak 3.

Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi pembicara 2 adalah (3/5)×100%=60% sedangkan untuk pembicara lainnya memiliki tingkat akurasi (5/5)×100%=100%. Tingkat akurasi untuk setiap pembicara dapat dilihat pada Tabel 10. Tingkat akurasi untuk seluruh pembicara adalah % 96 % 100 50 5 5 5 5 5 5 5 5 3

5+ + + + + + + + + _× ₌

2.2 Identifikasi Dengan 30 Data Pelatihan Hasil identifikasi untuk 15 data pengujian kelompok 1 dapat dilihat pada Tabel 11. Dari Tabel 11 dapat dilihat bahwa dibandingkan dengan hasil identifikasi tanpa threshold,

terdapat pembicara yang tingkat akurasinya tetap dan ada pula yang turun dengan adanya

threshold. Pembicara yang tingkat akurasinya tetap adalah pembicara 3, 4, 6, 7, 8, 9, dan 10, sedangkan yang turun adalah pembicara 1, 2, dan 5. Banyaknya pembicara yang turun lebih sedikit dibandingkan dengan hasil identifikasi menggunakan 20 data pelatihan.

Untuk pembicara laki-laki (pembicara 1 s.d. 5), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 2, yaitu sebanyak 14, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 5, yaitu sebanyak 9. Untuk pembicara perempuan (pembicara 6 s.d. 10), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 7, 9, dan 10, yaitu sebanyak 15, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 8, yaitu sebanyak 11.

Secara keseluruhan pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 7, 9, dan 10, yaitu sebanyak 15. Sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 5, yaitu sebanyak 9.

(22)

Tabel 11 Hasil identifikasi 30 pelatihan dengan threshold untuk 15 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-

Pembicara

0 1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 4 11 0 0 0 0 0 0 0 0 0 73%

2 1 0 14 0 0 0 0 0 0 0 0 93%

3 4 0 0 11 0 0 0 0 0 0 0 73%

4 4 0 0 0 11 0 0 0 0 0 0 73%

5 6 0 0 0 0 9 0 0 0 0 0 60%

6 0 0 0 0 0 0 13 0 1 1 0 87%

7 0 0 0 0 0 0 0 15 0 0 0 100%

8 0 0 0 0 0 0 0 0 11 4 0 73%

9 0 0 0 0 0 0 0 0 0 15 0 100%

10 0 0 0 0 0 0 0 0 0 0 15 100%

pembicara 5 memiliki tingkat akurasi (11/15)×100%=73%. Tingkat akurasi untuk tiap pembicara dapat dilihat pada Tabel 11. Tingkat akurasi untuk seluruh pembicara adalah % 83 % 100 150 15 15 11 15 13 9 11 11 14 11 = × + + + + + + + + +

Hasil identifikasi untuk 5 data kelompok 2 dapat dilihat pada Tabel 12. Dari Tabel 12 dapat dilihat bahwa pembicara dari kelompok 2 diidentifikasi dengan benar seluruhnya sebagai pembicara 0, kecuali pembicara 6, 7, dan 8 masing-masing sebanyak 2, 0, dan 1.

Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi pembicara 6 adalah (2/5)×100%=40%, untuk pembicara 7 adalah (0/5)×100%=0%, dan untuk pembicara 8 adalah (1/5)×100%=20%. Tingkat akurasi untuk setiap pembicara dapat dilihat pada Tabel 12.

Tingkat akurasi untuk seluruh pembicara adalah

% 76 % 100

50 × =

5 5 1 0 2 5 5 5 5

5 + + + + + + + +

2.3

il ide

n i

Tabel 12 identifikasi 30 p pengujian kelom

terdapat pembicara yang tingkat akurasinya tetap dan ada pula yang turun dengan adanya

threshold. Pembicara yang tingkat akurasinya tetap adalah pembicara 1, 3, 4, 5, 6, 7, 8, 9, dan 10 sedangkan yang turun adalah pembicara 2. Banyaknya pembicara yang turun lebih sedikit dibandingkan dengan has

ntifikasi menggunakan 30 data pelatihan. Untuk pembicara laki-laki (pembicara 1 s.d. 5), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1 dan 5, yaitu sebanyak 10, sedangka pembicara yang paling sedikit diidentifikas Hasil elatihan dengan threshold untuk 5 data pok 2

Diidentifika Sebsi agai Pembicara Ke- Pembicara

0 1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 5 0 0 0 0 0 0 0 0 0 0 100%

2 5 0 0 0 0 0 0 0 0 0 0 100%

3 5 0 0 0 0 0 0 0 0 0 0 100%

4 5 0 0 0 0 0 0 0 0 0 0 100%

5 5 0 0 0 0 0 0 0 0 0 0 100%

6 2 0 0 0 0 0 0 1 1 1 0 40%

7 0 0 0 0 0 0 0 1 0 4 0 0%

8 1 0 0 0 0 0 0 0 0 4 0 20%

9 5 0 0 0 0 0 0 0 0 0 0 100%

(23)

Tabel 13 Hasil identifikasi 40 pelatihan dengan threshold untuk 10 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-

Pembicara

0 1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 0 10 0 0 0 0 0 0 0 0 0 100%

2 1 0 9 0 0 0 0 0 0 0 0 90%

3 2 0 0 7 1 0 0 0 0 0 0 70%

4 0 1 0 0 9 0 0 0 0 0 0 90%

5 0 0 0 0 0 10 0 0 0 0 0 100%

6 0 0 0 0 0 0 9 0 1 0 0 90%

7 0 0 0 0 0 0 0 10 0 0 0 100%

8 0 0 0 0 0 0 0 0 9 1 0 90%

9 0 0 0 0 0 0 0 0 0 10 0 100%

10 0 0 0 0 0 0 0 0 0 0 10 100%

dengan benar adalah pembicara 3, yaitu sebanyak 7. Untuk pembicara perempuan (pembicara 6 s.d. 10), pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 7, 9, dan 10, yaitu sebanyak 10, sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 6 dan 8, yaitu sebanyak 9.

Secara keseluruhan pembicara yang paling banyak diidentifikasi dengan benar adalah pembicara 1, 5, 7, 9, dan 10, yaitu sebanyak 10. Sedangkan pembicara yang paling sedikit diidentifikasi dengan benar adalah pembicara 3, yaitu sebanyak 7.

dilihat pada Tabel 13. Tingkat akurasi untuk seluruh pembicara adalah

Tingkat akurasi untuk tiap pembicara dapat

% 93 % 100 100

10 10 9 10 9 10 9 7 9

10+ + + + + + +

= × + +

Hasil identifikasi untuk 5 data kelompok 2 dap

8 a

at dilihat pada Tabel 14. Dari Tabel 14 dapat dilihat bahwa pembicara 2, 3, 6, 7, dan 8 tidak diidentifikasi sebagai pembicara 0 seluruhnya. Pembicara 2, 7, dan 8 diidentifikasi dengan benar sebanyak 1. Sedangkan pembicara 3 dan 6 masing-masing diidentifikasi dengan benar sebanyak 4 dan 2.

Tingkat akurasi untuk pembicara 2, 7, dan dalah (1/5)×100%=20%, untuk pembicara 3 adalah (4/5)×100%=80%, dan untuk pembicara 6 adalah (2/5)×100%=40%. Tingkat akurasi untuk tiap pembicara dapat dilihat pada Tabel 14. Tingkat akurasi untuk

seluruh pembicara adalah

% 68 % 100 5 5 1 1 2 5 5 4 1

5+ + + + + + + + + _× ₌ 50

Tabel 14 Hasil identifikasi 40 pelatihan dengan threshold untuk 5 data pengujian kelompok 2 Diidentifika Sebsi agai Pembicara Ke-

Pembicara

0 1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 5 0 0 0 0 0 0 0 0 0 0 100%

2 1 0 0 0 0 4 0 0 0 0 0 20%

3 4 0 0 0 0 1 0 0 0 0 0 80%

4 5 0 0 0 0 0 0 0 0 0 0 100%

5 5 0 0 0 0 0 0 0 0 0 0 100%

6 2 0 0 0 0 0 0 0 3 0 0 40%

7 1 0 0 0 0 0 0 1 0 3 0 20%

8 1 0 0 0 0 0 0 1 0 3 0 20%

9 5 0 0 0 0 0 0 0 0 0 0 100%

(24)

0% 20% 40% 60% 80% 100% 120%

1 2 3 4 5

Pe m bicara

rasi

20 Pelatihan Tanpa Threshold 20 Pelatihan Dengan Threshold 30 Pelatihan Tanpa Threshold 30 Pelatihan Dengan Threshold 40 Pelatihan Tanpa Threshold 40 Pelatihan Dengan Threshold

0% 20% 40% 60% 80% 100% 120%

1 2 3 4 5

Pe m bicara

20 Pelatihan Tanpa Threshold 20 Pelatihan Dengan Threshold 30 Pelatihan Tanpa Threshold 30 Pelatihan Dengan Threshold 40 Pelatihan Tanpa Threshold 40 Pelatihan Dengan Threshold Gambar 4 Tingkat akurasi setiap pembicara laki-laki kelompok 1

Hasil Identifikasi

Hasil identifikasi terkait erat dengan

decision layer pada Probabilistic Neural Network. Dari decision layer akan diperoleh nilai maksimum untuk suatu kelas. Nilai terbesar ini mencerminkan bahwa suara yang diujikan diidentifikasi sebagai pembicara kelas tersebut.

Setelah melalui Probabilistic Neural Network dapat diketahui identitas pemilik suara yang diujikan. Identitas yang dimaksud adalah apakah sebagai pembicara 1, 2, 3, 4, 5, 6, 7, 8, 9, atau pembicara 10. Untuk identifikasi dengan threshold, selain diidentifikasi seperti di atas, suara yang diujikan dapat diidentifikasi sebagai pembicara 0 (tidak terdaftar).

Gambar 4 menunjukkan tingkat akurasi untuk setiap pembicara laki-laki sedangkan

threshold. Untuk pembicara laki-laki, tingkat akurasi cenderung berubah dengan adanya

threshold sedangkan untuk pembicara perempuan, tingkat akurasinya cenderung tetap dengan adanya threshold. Hal ini dikarenakan adanya perbedaan karakter suara berdasarkan jenis kelamin.

Gambar 6 menunjukkan perbandingan tingkat akurasi untuk pembicara dari kelompok 1. Dari gambar dapat dilihat bahwa semakin banyak data pelatihan maka tingkat akurasi juga akan semakin tinggi. Setiap data yang diujikan akan memiliki nilai terbesar untuk suatu kelas. Nilai terbesar pada suatu

Threshold Threshold Threshold

Threshold Threshold

(25)

kelas. Nilai terbesar pada suatu kelas mengindikasikan bahwa data yang diujikan diidentifikasi sebagai kelas tersebut.

96% 76% 68% 0% 20% 40% 60% 80% 100% A k u r asi

20 30 40 Data Pelatihan

Dengan threshold, nilai tersebut akan dibandingkan terlebih dahulu dengan nilai minimum dari data threshold kelas tersebut. Jika nilainya lebih besar dari nilai minimum data threshold kelas tersebut maka suara yang diujikan diidentifikasi sebagai pembicara dari kelas tersebut. Jika lebih kecil maka suara tersebut diidentifikasikan sebagai pembicara 0 (tidak terdaftar). Hal inilah yang menyebabkan tingkat akurasi untuk identifikasi dengan threshold lebih rendah dibandingkan identifikasi tanpa threshold.

Hasil identifikasi tanpa threshold dan dengan

threshold untuk setiap pembicara pada kelompok 1 dapat dilihat pada Lampiran 1,2, dan 3. 84% 79% 90% 83% 94%_93% 70% 75% 80% 85% 90% 95% A k u r asi

20 30 40 Data Pelatihan

Tanpa Threshold Dengan Threshold

Gambar 6 Perbandingan tingkat akurasi untuk pembicara dari kelompok 1.

Gambar 7 menunjukkan perbandingan tingkat akurasi untuk pembicara dari kelompok 2 dengan threshold. Dari gambar dapat dilihat bahwa semakin banyak pelatihan maka tingkat akurasi akan semakin rendah. Hal ini disebabkan perbedaan komposisi data dimana untuk 20 pelatihan, data threshold-nya sebanyak 20. Sedangkan untuk 30 dan 40 data pelatihan, data threshold-nya berturut-turut sebanyak 15 dan 10. Hasil identifikasi tanpa

threshold dan dengan threshold untuk setiap

pembicara pada kelompok 2 dapat dilihat pada Lampiran 4, 5, dan 6.

Gambar 7 Perbandingan tingkat akurasi untuk pembicara dari kelompok 2 dengan threshold

Pada penelitian yang dilakukan Purnamasari (2006), identitas yang dimaksud apakah sebagai pembicara 1, 2, 3, atau 4. Hal ini dikarenakan banyaknya pembicara yang ada sebanyak 4 orang, yaitu 2 pembicara laki-laki dan 2 pembicara perempuan. Identifikasi pembicara yang dilakukan menggunakan metode Hidden Markov Model (HMM) dan tanpa threshold. Perbandingan tingkat akurasi antara penelitian ini dan Purnamasi (2006) dapat dilihat pada Tabel 15. Dari Tabel 15 dapat dilihat bahwa untuk pembicara yang dikenal dengan jumlah data pelatihan yang sama, tingkat akurasi pada penelitian ini lebih baik dibandingkan Purnamasari (2006).

KESIMPULAN DAN SARAN

Kesimpulan

Dari penelitian yang telah dilakukan, diperoleh suatu model Probabilistic Neural Network untuk identifikasi pembicara. Hasil identifikasi tanpa threshold dan dengan

threshold berbeda dimana dengan threshold

akan memberikan hasil yang lebih akurat. Untuk identifikasi tanpa threshold, nilai akurasi tertinggi untuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan yaitu sebesar 94%. Untuk identifikasi dengan threshold, nilai akurasi tertinggi untuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan

Tabel 15 Perbandingan tingkat akurasi antara penelitian ini dan Purnamasari (2006)

Pembicara 20 Pelatihan 30 Pelatihan 40 Pelatihan

Tanpa Threshold 84% 90% 94%

Kelompok 1

(10 Pembicara) Dengan Threshold 79% 83% 93%

Tanpa Threshold 0% 0% 0%

Kelompok 2

(10 Pembicara) Dengan Threshold 96% 76% 68%

Purnamasari

(4 Pembicara) Tanpa Threshold 71% 78% 86%

Threshold Threshold

(26)

yaitu sebesar 94% sedangkan untuk pembicara yang tidak dikenal diperoleh dari model dengan 20 data pelatihan yaitu sebesar 96%.

Untuk pembicara yang dikenal, tingkat akurasi tanpa threshold dengan 20, 30, dan 40 data pelatihan masing-masing sebesar 84%, 90%, dan 94% sedangkan tingkat akurasi dengan threshold untuk 20, 30, dan 40 data pelatihan masing-masing sebesar 79%, 83%, dan 93%.

Untuk pembicara yang tidak dikenal, tingkat akurasi tanpa threshold dengan 20, 30, dan 40 data pelatihan memiliki nilai yang sama yaitu 0% sedangkan tingkat akurasi dengan threshold untuk 20, 30, dan 40 data pelatihan masing-masing sebesar 96%, 76%, dan 68%.

Saran

Penelitian ini masih memiliki banyak kekurangan yang memungkinkan dilakukan pengembangan lebih lanjut. Hal yang mungkin untuk dikembangkan adalah menambahkan noise dengan tujuan menyerupai kondisi sebenarnya. Selain itu juga dapat dilakukan eksplorasi data suara sebelum dilakukan pemodelan dengan tujuan mengetahui karakteristik suara setiap pembicara.

DAFTAR PUSTAKA

Campbell,Jr JP. 1997. Speaker Recognition: A Tutorial. Proceeding IEEE, Vol 85 No.9, hal 1437-1461, September 1997.

Do MN. 1994. Digital Signal Processing Mini-Project: An Automatic Speaker Recognition System. Audio Visual Communications Laboratory, Swiss Federal Institute of Technology, Laussanne,Switzerland.

http://lcavwww.epfl.ch/~minhdo/asr_proje ct.pdf [12 Juli 2006].

Fausett L. 1994. Fundamentals of Neural Networks Architectures, Algorithm, and Applications. New Jersey: Prentice Hall. Ganchev, TD. 2005. Speaker

Recognition[tesis]. Greece: Wire Communication Laboratory, Department of Computer and Electrical Engineering,

University of Patras. http://wcl.ee.upatras.gr/ai/papers/Ganchev

_PhDThesis.pdf [16 November 2006]. Jurafsky D, dan Martin JH. 2000. Speech and

Language Processing An Introduction to Natural Language Processing,

Computational Linguistic, and Speech Recognition. New Jersey: Prentice Hall. Mandasari Y. 2005. Pengembangan Model

Markov Tersembunyi untuk Pengenalan kata Berbahasa Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.

Purnamasari W. 2006. Pengembangan Model Markov Tersembunyi Untuk Identifikasi Pembicara. [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.

Sarimollaoglu M, Serhan D, Kamran I, Coskun B. 2004. A Text-independent Speaker Identification System Using Probabilistic Neural Network.

http://bayrak.ualr.edu/symsel/mustafa/docs /CCCT_2004.pdf [19 September 2006]. Silverman, B.W. 1985. Density Estimation for

Statistics and Data Analysis. Chapman and Hall.

Slaney M. 1998. Auditory Toolbox : A Matlab Toolbox For Auditory Modelling Work.

Internal Research Corporation. http://rv14.ecn.purdue.edu/~malcolm/inter val/1998-010/ [30 September 2006].

(27)

(28)

Lampiran 1 Hasil identifikasi dengan 20 data pelatihan untuk 20 data pengujian kelompok 1 Pembicara Data Ke- Tanpa Threshold Dengan Threshold

1 Pembicara 1 Pembicara 1 2 Pembicara 1 Pembicara 1 3 Pembicara 1 Pembicara 1 4 Pembicara 1 Pembicara 1 5 Pembicara 1 Pembicara 1 6 Pembicara 1 Pembicara 1 7 Pembicara 1 Pembicara 1 8 Pembicara 1 Pembicara 1 9 Pembicara 1 Pembicara 1 10 Pembicara 1 Pembicara 1 11 Pembicara 1 Pembicara 1 12 Pembicara 4 Pembicara 4 13 Pembicara 1 Pembicara 1 14 Pembicara 1 Pembicara 1 15 Pembicara 1 Pembicara 1 16 Pembicara 4 Pembicara 4 17 Pembicara 1 Pembicara 1 18 Pembicara 1 Pembicara 1 19 Pembicara 1 Pembicara 1 1

20 Pembicara 1 Pembicara 1 1 Pembicara 2 Pembicara 2 2 Pembicara 2 Pembicara 2 3 Pembicara 2 Pembicara 2 4 Pembicara 9 Pembicara 9 5 Pembicara 9 Pembicara 9 6 Pembicara 9 Pembicara 9 7 Pembicara 9 Pembicara 9 8 Pembicara 2 Pembicara 2 9 Pembicara 2 Pembicara 2 10 Pembicara 2 Pembicara 2 11 Pembicara 2 Pembicara 2 12 Pembicara 8 Pembicara 0 13 Pembicara 2 Pembicara 2 14 Pembicara 2 Pembicara 2 15 Pembicara 2 Pembicara 2 16 Pembicara 8 Pembicara 0 17 Pembicara 2 Pembicara 2 18 Pembicara 8 Pembicara 8 19 Pembicara 8 Pembicara 8 2

20 Pembicara 2 Pembicara 2 1 Pembicara 3 Pembicara 3 2 Pembicara 3 Pembicara 3 3 Pembicara 3 Pembicara 3 3

(1)

Tabel 11 Hasil identifikasi 30 pelatihan dengan threshold untuk 15 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-

Pembicara

0 1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 4 11 0 0 0 0 0 0 0 0 0 73%

2 1 0 14 0 0 0 0 0 0 0 0 93%

3 4 0 0 11 0 0 0 0 0 0 0 73%

4 4 0 0 0 11 0 0 0 0 0 0 73%

5 6 0 0 0 0 9 0 0 0 0 0 60%

6 0 0 0 0 0 0 13 0 1 1 0 87%

7 0 0 0 0 0 0 0 15 0 0 0 100%

8 0 0 0 0 0 0 0 0 11 4 0 73%

9 0 0 0 0 0 0 0 0 0 15 0 100%

10 0 0 0 0 0 0 0 0 0 0 15 100%

pembicara 5 memiliki tingkat akurasi (11/15)×100%=73%. Tingkat akurasi untuk tiap pembicara dapat dilihat pada Tabel 11. Tingkat akurasi untuk seluruh pembicara adalah

% 83 % 100 150

15 15 11 15 13 9 11 11 14 11

= × + + + + + + + + +

Tingkat akurasi dihitung sebagai rasio antara jumlah data pembicara yang diidentifikasi secara benar dengan jumlah seluruh data pembicara yang diujikan. Tingkat akurasi pembicara 6 adalah (2/5)×100%=40%, untuk pembicara 7 adalah (0/5)×100%=0%, dan untuk pembicara 8 adalah (1/5)×100%=20%. Tingkat akurasi untuk setiap pembicara dapat dilihat pada Tabel 12.

Tingkat akurasi untuk seluruh pembicara adalah

% 76 % 100

50 × =

5 5 1 0 2 5 5 5 5

5 + + + + + + + +

2.3

il ide

n i

Tabel 12 identifikasi 30 p pengujian kelom

Identifikasi Dengan 40 Data Pelatihan Hasil identifikasi untuk 10 data pengujian kelompok 1 dapat dilihat pada Tabel 13. Dari Tabel 13 dapat dilihat bahwa dibandingkan dengan hasil identifikasi tanpa threshold, terdapat pembicara yang tingkat akurasinya tetap dan ada pula yang turun dengan adanya threshold. Pembicara yang tingkat akurasinya tetap adalah pembicara 1, 3, 4, 5, 6, 7, 8, 9, dan 10 sedangkan yang turun adalah pembicara 2. Banyaknya pembicara yang turun lebih sedikit dibandingkan dengan has

Diidentifika Sebsi agai Pembicara Ke- Pembicara

0 1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 5 0 0 0 0 0 0 0 0 0 0 100%

2 5 0 0 0 0 0 0 0 0 0 0 100%

3 5 0 0 0 0 0 0 0 0 0 0 100%

4 5 0 0 0 0 0 0 0 0 0 0 100%

5 5 0 0 0 0 0 0 0 0 0 0 100%

6 2 0 0 0 0 0 0 1 1 1 0 40%

7 0 0 0 0 0 0 0 1 0 4 0 0%

8 1 0 0 0 0 0 0 0 0 4 0 20%

9 5 0 0 0 0 0 0 0 0 0 0 100%

(2)

Tabel 13 Hasil identifikasi 40 pelatihan dengan threshold untuk 10 data pengujian kelompok 1 Diidentifikasi Sebagai Pembicara Ke-

Pembicara

0 1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 0 10 0 0 0 0 0 0 0 0 0 100%

2 1 0 9 0 0 0 0 0 0 0 0 90%

3 2 0 0 7 1 0 0 0 0 0 0 70%

4 0 1 0 0 9 0 0 0 0 0 0 90%

5 0 0 0 0 0 10 0 0 0 0 0 100%

6 0 0 0 0 0 0 9 0 1 0 0 90%

7 0 0 0 0 0 0 0 10 0 0 0 100%

8 0 0 0 0 0 0 0 0 9 1 0 90%

9 0 0 0 0 0 0 0 0 0 10 0 100%

10 0 0 0 0 0 0 0 0 0 0 10 100%

dilihat pada Tabel 13. Tingkat akurasi untuk seluruh pembicara adalah

Tingkat akurasi untuk tiap pembicara dapat

% 93 % 100 100

10 10 9 10 9 10 9 7 9

10+ + + + + + +

= × + +

Hasil identifikasi untuk 5 data kelompok 2 dap

8 a

seluruh pembicara adalah

% 68 % 100 5 5 1 1 2 5 5 4 1

5+ + + + + + + + + _× ₌

Tabel 14 Hasil identifikasi 40 pelatihan dengan threshold untuk 5 data pengujian kelompok 2 Diidentifika Sebsi agai Pembicara Ke-

Pembicara

0 1 2 3 4 5 6 7 8 9 10

Tingkat Akurasi

1 5 0 0 0 0 0 0 0 0 0 0 100%

2 1 0 0 0 0 4 0 0 0 0 0 20%

3 4 0 0 0 0 1 0 0 0 0 0 80%

4 5 0 0 0 0 0 0 0 0 0 0 100%

5 5 0 0 0 0 0 0 0 0 0 0 100%

6 2 0 0 0 0 0 0 0 3 0 0 40%

7 1 0 0 0 0 0 0 1 0 3 0 20%

8 1 0 0 0 0 0 0 1 0 3 0 20%

9 5 0 0 0 0 0 0 0 0 0 0 100%

(3)

0% 20% 40% 60% 80% 100% 120%

1 2 3 4 5

Pe m bicara

rasi

20 Pelatihan Tanpa Threshold 20 Pelatihan Dengan Threshold 30 Pelatihan Tanpa Threshold 30 Pelatihan Dengan Threshold 40 Pelatihan Tanpa Threshold 40 Pelatihan Dengan Threshold

0% 20% 40% 60% 80% 100% 120%

1 2 3 4 5

Pe m bicara

20 Pelatihan Tanpa Threshold 20 Pelatihan Dengan Threshold 30 Pelatihan Tanpa Threshold 30 Pelatihan Dengan Threshold 40 Pelatihan Tanpa Threshold 40 Pelatihan Dengan Threshold

Gambar 4 Tingkat akurasi setiap pembicara laki-laki kelompok 1 Hasil Identifikasi

Hasil identifikasi terkait erat dengan decision layer pada Probabilistic Neural Network. Dari decision layer akan diperoleh nilai maksimum untuk suatu kelas. Nilai terbesar ini mencerminkan bahwa suara yang diujikan diidentifikasi sebagai pembicara kelas tersebut.

Setelah melalui Probabilistic Neural Network dapat diketahui identitas pemilik suara yang diujikan. Identitas yang dimaksud adalah apakah sebagai pembicara 1, 2, 3, 4, 5, 6, 7, 8, 9, atau pembicara 10. Untuk identifikasi dengan threshold, selain diidentifikasi seperti di atas, suara yang diujikan dapat diidentifikasi sebagai pembicara 0 (tidak terdaftar).

Gambar 4 menunjukkan tingkat akurasi untuk setiap pembicara laki-laki sedangkan

Gambar 5 menunjukkan tingkat akurasi untuk setiap pembicara perempuan dari kelompok 1. Dari Gambar 4 dan 5 dapat dilihat bahwa ada perbedaan tingkat akurasi antara pembicara laki-laki dan perempuan dengan adanya threshold. Untuk pembicara laki-laki, tingkat akurasi cenderung berubah dengan adanya threshold sedangkan untuk pembicara perempuan, tingkat akurasinya cenderung tetap dengan adanya threshold. Hal ini dikarenakan adanya perbedaan karakter suara berdasarkan jenis kelamin.

Threshold Threshold Threshold

Threshold Threshold

(4)

kelas. Nilai terbesar pada suatu kelas mengindikasikan bahwa data yang diujikan diidentifikasi sebagai kelas tersebut.

96%

76%

68%

0% 20% 40% 60% 80% 100%

asi

20 30 40

Data Pelatihan

Dengan threshold, nilai tersebut akan dibandingkan terlebih dahulu dengan nilai minimum dari data threshold kelas tersebut. Jika nilainya lebih besar dari nilai minimum data threshold kelas tersebut maka suara yang diujikan diidentifikasi sebagai pembicara dari kelas tersebut. Jika lebih kecil maka suara tersebut diidentifikasikan sebagai pembicara 0 (tidak terdaftar). Hal inilah yang menyebabkan tingkat akurasi untuk identifikasi dengan threshold lebih rendah dibandingkan identifikasi tanpa threshold. Hasil identifikasi tanpa threshold dan dengan threshold untuk setiap pembicara pada kelompok 1 dapat dilihat pada Lampiran 1,2, dan 3.

84% 79%

90%

83%

94%_93%

70% 75% 80% 85% 90% 95%

asi

20 30 40

Data Pelatihan

Tanpa Threshold Dengan Threshold

Gambar 6 Perbandingan tingkat akurasi untuk pembicara dari kelompok 1.

Gambar 7 menunjukkan perbandingan tingkat akurasi untuk pembicara dari kelompok 2 dengan threshold. Dari gambar dapat dilihat bahwa semakin banyak pelatihan maka tingkat akurasi akan semakin rendah. Hal ini disebabkan perbedaan komposisi data dimana untuk 20 pelatihan, data threshold-nya sebanyak 20. Sedangkan untuk 30 dan 40 data pelatihan, data threshold-nya berturut-turut sebanyak 15 dan 10. Hasil identifikasi tanpa threshold dan dengan threshold untuk setiap

pembicara pada kelompok 2 dapat dilihat pada Lampiran 4, 5, dan 6.

Gambar 7 Perbandingan tingkat akurasi untuk pembicara dari kelompok 2 dengan threshold

Pada penelitian yang dilakukan Purnamasari (2006), identitas yang dimaksud apakah sebagai pembicara 1, 2, 3, atau 4. Hal ini dikarenakan banyaknya pembicara yang ada sebanyak 4 orang, yaitu 2 pembicara laki-laki dan 2 pembicara perempuan. Identifikasi pembicara yang dilakukan menggunakan metode Hidden Markov Model (HMM) dan tanpa threshold. Perbandingan tingkat akurasi antara penelitian ini dan Purnamasi (2006) dapat dilihat pada Tabel 15. Dari Tabel 15 dapat dilihat bahwa untuk pembicara yang dikenal dengan jumlah data pelatihan yang sama, tingkat akurasi pada penelitian ini lebih baik dibandingkan Purnamasari (2006).

KESIMPULAN DAN SARAN

Kesimpulan

Dari penelitian yang telah dilakukan, diperoleh suatu model Probabilistic Neural Network untuk identifikasi pembicara. Hasil identifikasi tanpa threshold dan dengan threshold berbeda dimana dengan threshold akan memberikan hasil yang lebih akurat. Untuk identifikasi tanpa threshold, nilai akurasi tertinggi untuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan yaitu sebesar 94%. Untuk identifikasi dengan threshold, nilai akurasi tertinggi untuk pembicara yang dikenal diperoleh dari model dengan 40 data pelatihan Tabel 15 Perbandingan tingkat akurasi antara penelitian ini dan Purnamasari (2006)

Pembicara 20 Pelatihan 30 Pelatihan 40 Pelatihan

Tanpa Threshold 84% 90% 94%

Kelompok 1

(10 Pembicara) Dengan Threshold 79% 83% 93%

Tanpa Threshold 0% 0% 0%

Kelompok 2

(10 Pembicara) Dengan Threshold 96% 76% 68%

Purnamasari

(4 Pembicara) Tanpa Threshold 71% 78% 86%

Threshold Threshold

(5)

kelas. Nilai terbesar pada suatu kelas mengindikasikan bahwa data yang diujikan diidentifikasi sebagai kelas tersebut.

96%

76%

68%

0% 20% 40% 60% 80% 100%

asi

20 30 40

Data Pelatihan

84% 79%

90%

83%

94%_93%

70% 75% 80% 85% 90% 95%

asi

20 30 40

Data Pelatihan

Tanpa Threshold Dengan Threshold

Gambar 6 Perbandingan tingkat akurasi untuk pembicara dari kelompok 1.

pembicara pada kelompok 2 dapat dilihat pada Lampiran 4, 5, dan 6.

Gambar 7 Perbandingan tingkat akurasi untuk pembicara dari kelompok 2 dengan threshold

Pada penelitian yang dilakukan Purnamasari (2006), identitas yang dimaksud apakah sebagai pembicara 1, 2, 3, atau 4. Hal ini dikarenakan banyaknya pembicara yang ada sebanyak 4 orang, yaitu 2 pembicara laki-laki dan 2 pembicara perempuan. Identifikasi pembicara yang dilakukan menggunakan metode Hidden Markov Model (HMM) dan tanpa threshold. Perbandingan tingkat akurasi antara penelitian ini dan Purnamasi (2006) dapat dilihat pada Tabel 15. Dari Tabel 15 dapat dilihat bahwa untuk pembicara yang dikenal dengan jumlah data pelatihan yang sama, tingkat akurasi pada penelitian ini lebih baik dibandingkan Purnamasari (2006).

KESIMPULAN DAN SARAN

Kesimpulan

Pembicara 20 Pelatihan 30 Pelatihan 40 Pelatihan

Tanpa Threshold 84% 90% 94%

Kelompok 1

(10 Pembicara) Dengan Threshold 79% 83% 93%

Tanpa Threshold 0% 0% 0%

Kelompok 2

(10 Pembicara) Dengan Threshold 96% 76% 68%

Purnamasari

(4 Pembicara) Tanpa Threshold 71% 78% 86%

Threshold Threshold

(6)

yaitu sebesar 94% sedangkan untuk pembicara yang tidak dikenal diperoleh dari model dengan 20 data pelatihan yaitu sebesar 96%.

Untuk pembicara yang dikenal, tingkat akurasi tanpa threshold dengan 20, 30, dan 40 data pelatihan masing-masing sebesar 84%, 90%, dan 94% sedangkan tingkat akurasi dengan threshold untuk 20, 30, dan 40 data pelatihan masing-masing sebesar 79%, 83%, dan 93%.

Untuk pembicara yang tidak dikenal, tingkat akurasi tanpa threshold dengan 20, 30, dan 40 data pelatihan memiliki nilai yang sama yaitu 0% sedangkan tingkat akurasi dengan threshold untuk 20, 30, dan 40 data pelatihan masing-masing sebesar 96%, 76%, dan 68%.

Saran

Penelitian ini masih memiliki banyak kekurangan yang memungkinkan dilakukan pengembangan lebih lanjut. Hal yang mungkin untuk dikembangkan adalah menambahkan noise dengan tujuan menyerupai kondisi sebenarnya. Selain itu juga dapat dilakukan eksplorasi data suara sebelum dilakukan pemodelan dengan tujuan mengetahui karakteristik suara setiap pembicara.

DAFTAR PUSTAKA

Campbell,Jr JP. 1997. Speaker Recognition: A Tutorial. Proceeding IEEE, Vol 85 No.9, hal 1437-1461, September 1997.

Do MN. 1994. Digital Signal Processing Mini-Project: An Automatic Speaker Recognition System. Audio Visual Communications Laboratory, Swiss Federal Institute of Technology, Laussanne,Switzerland.

http://lcavwww.epfl.ch/~minhdo/asr_proje ct.pdf [12 Juli 2006].

Fausett L. 1994. Fundamentals of Neural Networks Architectures, Algorithm, and Applications. New Jersey: Prentice Hall. Ganchev, TD. 2005. Speaker

Recognition[tesis]. Greece: Wire Communication Laboratory, Department of Computer and Electrical Engineering,

University of Patras. http://wcl.ee.upatras.gr/ai/papers/Ganchev

_PhDThesis.pdf [16 November 2006]. Jurafsky D, dan Martin JH. 2000. Speech and

Language Processing An Introduction to Natural Language Processing,

Computational Linguistic, and Speech Recognition. New Jersey: Prentice Hall. Mandasari Y. 2005. Pengembangan Model

Markov Tersembunyi untuk Pengenalan kata Berbahasa Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.

Purnamasari W. 2006. Pengembangan Model Markov Tersembunyi Untuk Identifikasi Pembicara. [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.

Sarimollaoglu M, Serhan D, Kamran I, Coskun B. 2004. A Text-independent Speaker Identification System Using Probabilistic Neural Network. http://bayrak.ualr.edu/symsel/mustafa/docs /CCCT_2004.pdf [19 September 2006]. Silverman, B.W. 1985. Density Estimation for

Statistics and Data Analysis. Chapman and Hall.

Slaney M. 1998. Auditory Toolbox : A Matlab Toolbox For Auditory Modelling Work. Internal Research Corporation. http://rv14.ecn.purdue.edu/~malcolm/inter val/1998-010/ [30 September 2006].

Pengembangan Model Identifikasi Pembicara dengan Probabilitas Neural Network

ABSTRAK

Oleh :

MOHAMAD NONO SUHARTONO

G64103044

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2007

Oleh :

MOHAMAD NONO SUHARTONO

G64103044

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2007

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Oleh :

MOHAMAD NONO SUHARTONO

G64103044

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2007

ABSTRAK

Judul : Pengembangan Model Identifikasi Pembicara Dengan

Probabilistic

Neural Network

Nama : Mohamad Nono Suhartono

NRP :

G64103044

Menyetujui:

Pembimbing I,

Pembimbing II

Ir. Agus Buono, M.Si., M.Kom.

Ir. Meuthia Rachmaniah, M.Sc.

NIP 132045532

NIP 131414854

Mengetahui:

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Prof. Dr. Ir. Yonny Koesmaryono, MS

NIP 131473999

RIWAYAT HIDUP

PRAKATA

DAFTAR ISI

DAFTAR TABEL

DAFTAR GAMBAR

DAFTAR LAMPIRAN

PENDAHULUAN

TINJAUAN PUSTAKA

∑

( )

∑

METODE PENELITIAN

( )

∑

HASIL DAN PEMBAHASAN

KESIMPULAN DAN SARAN

DAFTAR PUSTAKA

KESIMPULAN DAN SARAN

KESIMPULAN DAN SARAN

DAFTAR PUSTAKA

Parts

Dokumen yang terkait

Implementasi Algoritma Evolving Fuzzy Neural Network (EFuNN) Untuk Memprediksi Biaya Perkuliahan

Kohonen Neural Network Dalam Pendeteksian Duplikasi Image Digital Melalui Deteksi Garis Tepi

Pembangkit Fungsi Keanggotaan Fuzzy Otomatis Menggunakan Neural Network

Analisis Perbandingan Neural Network Backpropagation dengan Simple Perceptron dalam Mengenali Image Daun

Penggunaan Backpropagation Neural Network Pada Relay Jarak Untuk Mendeteksi Gangguan Pada Jaringan Transmisi

Pengembangan model markov tersembunyi pada identifikasi pembicara

Pengembangan Model Probabilistic Neural Network Bertingkat Menggunakan Fuzzy C-Means Untuk Identifikasi Pembicara

Pengembangan Model Probabilistic Neural Network untuk Identifikasi Chord Gitar

PERBANDINGAN ANTARA MODEL NEURAL NETWORK