Pengembangan Model Jaringan Syaraf Tiruan Probabilistik (PNN) Pada Identifikasi Pembicara

(1)

PENGEMBANGAN

MODEL JARINGAN SYARAF TIRUAN PROBABILISTIK (PNN)

PADA IDENTIFIKASI PEMBICARA

JAYANTA

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

BOGOR

2007


(2)

DAN SUMBER INFORMASI

Dengan ini saya menyatakan bahwa Tesis Pengembangan Model Jaringan Syaraf Tiruan Probabilistik (PNN) pada Identifikasi Pembicara, adalah karya sendiri dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal dari atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Bogor, Mei 2007

Jayanta NIM G651030064


(3)

ABSTRAK

JAYANTA. Pengembangan Model Jaringan Syaraf Tiruan Probabilistik (PNN) pada Identifikasi Pembicara. Dibimbing oleh AGUS BUONO dan AZIZ KUSTIYO.

Sistem komputer dapat dimanfaatkan untuk mengidentifikasi pembicara dari suara yang diucapkan. Penelitian ini memperkenalkan pengembangan model jaringan syaraf tiruan probabilistik pada identifikasi pembicara dengan pendekatan metoda text-dependent. Kami menggunakan kombinasi metoda analisis komponen utama (PCA) dengan metoda Mel-Frequency Cepstral Coefficient (MFCC) pada proses ekstraksi ciri dengan beberapa parameter yaitu koefisien Mel, lebar frame, lebar overlap dan rasio nilai eigen untuk meningkatkan kinerja PNN. Untuk mengukur rata-rata keluaran yang dihasilkan oleh PNN digunakan metoda Leave-one out. Hasil penelitian menunjukkan bahwa penggunaan koefisien mel 20, ukuran frame 40 ms, ukuran overlap 50% pada metoda MFCC menghasilkan data yang mampu memberi nilai ketelitian identifikasi pembicara sebesar 96%. Implementasi metoda PCA dengan rasio nilai eigen 95% ke data yang dihasilkan metoda MFCC juga memberikan nilai ketelitian hingga 96% dengan waktu komputasi 90% lebih baik.

Kata kunci: Suara, Identifikasi pembicara, ekstraksi ciri, Mel-Frequency Cepstral Coefficients (MFCC), Analisis Komponen Utama (PCA), Jaringan syaraf tiruan probabilistik (PNN), Metode leave-one out.


(4)

JAYANTA. Development of Model of Probabilistic Neural Networks on Speaker Identification. Under the direction of AGUS BUONO and AZIZ KUSTIYO.

Computer system can be exploited to identify speaker from voices that was uttered. This research introduce development model PNN at speaker identification with approach of method text-dependent. We use combination of method of PCA with method of MFCC at process of feature extraction with a few the parameters, which is coefficient Mel, size of frame, size of overlap and ratio of eigen value, to increase performance of PNN. To measuring average of output yielded by PNN is used method of Leave one out. Result of the research show that use mel 20, size of frame 40 ms, size of overlap 50% at method of MFCC yield data capable to give value of accuration of speaker identification of equal to 96%. Implementation of method of PCA with ratio of eigen value equal to 95% to data that was yielded method of MFCC also assign value accuration of equal to 96% with time of computing 90% better.

Keywords: Voices, Speaker identification, Feature extraction, Mel-Frequency Cepstral Coefficients (MFCC), Principal Component Analysis (PCA), and Probabilistic Neural Networks (PNN), method of Leave one out.


(5)

©

Hak cipta milik Institut Pertanian Bogor, tahun 2007

Hak cipta dilindungi

Dilarang mengutip dan memperbanyak tanpa izin tertulis dari Institut Pertanian Bogor, sebagian atau seluruhnya dalam bentuk apa pun, baik cetak, fotokopi, microfilm, dan sebagainya


(6)

MODEL JARINGAN SYARAF TIRUAN PROBABILISTIK (PNN)

PADA IDENTIFIKASI PEMBICARA

JAYANTA

Tesis

Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada

Departemen Ilmu Komputer

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

BOGOR

2007


(7)

Judul Tesis : Pengembangan Model Jaringan Syaraf Tiruan Probabilistik (PNN) Pada Identifikasi Pembicara

Nama : JAYANTA NIM : G.651030064

Disetujui

Komisi Pembimbing

( Ir. Agus Buono, M.Si, M.Kom ) ( Aziz Kustiyo, S.Si, M.Kom )

Ketua Anggota

Diketahui,

Ketua Program Studi Ilmu Komputer Dekan Sekolah Pascasarjana IPB

( Dr. Sugi Guritman, MSc.) ( Prof. Dr. Ir. Khairil Anwar Notodiputro, MS )


(8)

Syukur Alhamdulillah, penulis panjatkan kepada illahi robbi Allah SWT, atas rahmat dan hidayahnya sehingga akhirnya karya ilmiah ini dapat diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak Desember 2005 ini adalah sistem identifikasi pembicara, dengan judul Pengembangan Model Jaringan Syaraf Tiruan Probabilistik (PNN) pada Identifikasi Pembicara.

Pada kesempatan ini, penulis menyampaikan ucapan terima kasih dan penghargaan yang setinggi – tingginya kepada bapak Ir. Agus Buono, M.Si, M.Kom, dan bapak Aziz Kustiyo, S.Si, M.Kom, atas kesediaanya meluangkan waktu untuk membimbing sejak awal pemilihan tema penelitian hingga selesainya karya ilmiah ini. Penghargaan yang tulus penulis sampaikan pula, kepada para dosen Program Studi Ilmu Komputer, Sekolah Pascasarjana, Institut Pertanian Bogor, yang telah memberi wawasan pengetahuan bagi penulis.

Atas do’a, pengorbanan, kesabaran serta dukungan moril, penulis ucapkan terima kasih dan rasa hormat yang tulus pada ibu dan istri tercinta, serta seluruh keluarga.

Semoga, hasil karya ilmiah yang jauh dari sempurna ini dapat bermanfaat.

Bogor, Mei 2007


(9)

RIWAYAT HIDUP

Penulis dilahirkan di Jakarta pada tanggal 30 September 1961 dari ayah Sirtoe Astrodiwiryo dan ibu Fatimah Haryana Prawira. Penulis adalah putra kedua dari tiga bersaudara.

Pada tahun 1981 penulis lulus dari SMA Negeri 1 Jakarta. Pendidikan sarjana ditempuh pada tahun 1989 di Sekolah Tinggi Manajemen Informatika dan Komputer Gunadarma, jurusan Manajemen Informatika, lulus pada tahun 1993. Pada tahun 2003 penulis mendapat kesempatan untuk melanjut pendidikan ke program magister pada program Studi Ilmu Komputer, Sekolah Pascasarjana IPB.

Penulis bekerja di Universitas Pembangunan Nasional ”Veteran” Jakarta, pada Fakultas Ilmu Komputer sejak tahun 1987 hingga sekarang. Pada tahun 1996 hingga tahun 1999 penulis dipercaya sebagai kepala laboratorium komputer Fakultas Ilmu Kompter UPN ”Veteran” Jakarta. Pada tahun 1999 hingga tahun 2000 penulis mendapat kesempatan menjadi staff pengajar yunior, di jurusan Teknologi Informatika, Fakultas Teknik pada Hoogeschool van Arnhem en Nijmegen, Belanda. Sejak tahun 2005 penulis dipercaya sebagai Ketua Jurusan Teknologi Informatika pada Fakultas Ilmu Komputer UPN ”Veteran” Jakarta.


(10)

DAFTAR ISI

Halaman

DAFTAR TABEL ... iii

DAFTAR GAMBAR ... iv

DAFTAR LAMIRAN ... vi

PENDAHULUAN Latar Belakang ... 1

Tujuan Penelitian ... 2

Ruang Lingkup ... 2

Manfaat Penelitian ... 3

TINJAUAN PUSTAKA Sinyal Suara ... 4

Prinsip Identifikasi Pembicara ... 4

Preemphasis ... 5

Frame ... 5

Window ... 6

Transformasi Fourier Diskret (DFT) ... 7

Mel-Frequency Cepstral Coefficients (MFCC) ………. 8

Peubah Acak Kontinyu ……….. 10

Analisis Komponen Utama (PCA) .……… 12

Normalisasi Data ………….………... 14

Kaidah Bayes ………. 15

Jaringan Syaraf Tiruan Probabilistik (PNN) ... 16

Validasi Hasil Pengukuran ... 18

Penelitian Terkait ... 19

DATA DAN METODE Keragka Pikir Penelitian ... 21

Struktur Data Penelitian ... 33

Bahan dan Alat ... 34

Waktu Penelitian ... 35


(11)

PENGEMBANGAN

MODEL JARINGAN SYARAF TIRUAN PROBABILISTIK (PNN)

PADA IDENTIFIKASI PEMBICARA

JAYANTA

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

BOGOR

2007


(12)

DAN SUMBER INFORMASI

Dengan ini saya menyatakan bahwa Tesis Pengembangan Model Jaringan Syaraf Tiruan Probabilistik (PNN) pada Identifikasi Pembicara, adalah karya sendiri dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal dari atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Bogor, Mei 2007

Jayanta NIM G651030064


(13)

ABSTRAK

JAYANTA. Pengembangan Model Jaringan Syaraf Tiruan Probabilistik (PNN) pada Identifikasi Pembicara. Dibimbing oleh AGUS BUONO dan AZIZ KUSTIYO.

Sistem komputer dapat dimanfaatkan untuk mengidentifikasi pembicara dari suara yang diucapkan. Penelitian ini memperkenalkan pengembangan model jaringan syaraf tiruan probabilistik pada identifikasi pembicara dengan pendekatan metoda text-dependent. Kami menggunakan kombinasi metoda analisis komponen utama (PCA) dengan metoda Mel-Frequency Cepstral Coefficient (MFCC) pada proses ekstraksi ciri dengan beberapa parameter yaitu koefisien Mel, lebar frame, lebar overlap dan rasio nilai eigen untuk meningkatkan kinerja PNN. Untuk mengukur rata-rata keluaran yang dihasilkan oleh PNN digunakan metoda Leave-one out. Hasil penelitian menunjukkan bahwa penggunaan koefisien mel 20, ukuran frame 40 ms, ukuran overlap 50% pada metoda MFCC menghasilkan data yang mampu memberi nilai ketelitian identifikasi pembicara sebesar 96%. Implementasi metoda PCA dengan rasio nilai eigen 95% ke data yang dihasilkan metoda MFCC juga memberikan nilai ketelitian hingga 96% dengan waktu komputasi 90% lebih baik.

Kata kunci: Suara, Identifikasi pembicara, ekstraksi ciri, Mel-Frequency Cepstral Coefficients (MFCC), Analisis Komponen Utama (PCA), Jaringan syaraf tiruan probabilistik (PNN), Metode leave-one out.


(14)

JAYANTA. Development of Model of Probabilistic Neural Networks on Speaker Identification. Under the direction of AGUS BUONO and AZIZ KUSTIYO.

Computer system can be exploited to identify speaker from voices that was uttered. This research introduce development model PNN at speaker identification with approach of method text-dependent. We use combination of method of PCA with method of MFCC at process of feature extraction with a few the parameters, which is coefficient Mel, size of frame, size of overlap and ratio of eigen value, to increase performance of PNN. To measuring average of output yielded by PNN is used method of Leave one out. Result of the research show that use mel 20, size of frame 40 ms, size of overlap 50% at method of MFCC yield data capable to give value of accuration of speaker identification of equal to 96%. Implementation of method of PCA with ratio of eigen value equal to 95% to data that was yielded method of MFCC also assign value accuration of equal to 96% with time of computing 90% better.

Keywords: Voices, Speaker identification, Feature extraction, Mel-Frequency Cepstral Coefficients (MFCC), Principal Component Analysis (PCA), and Probabilistic Neural Networks (PNN), method of Leave one out.


(15)

©

Hak cipta milik Institut Pertanian Bogor, tahun 2007

Hak cipta dilindungi

Dilarang mengutip dan memperbanyak tanpa izin tertulis dari Institut Pertanian Bogor, sebagian atau seluruhnya dalam bentuk apa pun, baik cetak, fotokopi, microfilm, dan sebagainya


(16)

MODEL JARINGAN SYARAF TIRUAN PROBABILISTIK (PNN)

PADA IDENTIFIKASI PEMBICARA

JAYANTA

Tesis

Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada

Departemen Ilmu Komputer

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

BOGOR

2007


(17)

Judul Tesis : Pengembangan Model Jaringan Syaraf Tiruan Probabilistik (PNN) Pada Identifikasi Pembicara

Nama : JAYANTA NIM : G.651030064

Disetujui

Komisi Pembimbing

( Ir. Agus Buono, M.Si, M.Kom ) ( Aziz Kustiyo, S.Si, M.Kom )

Ketua Anggota

Diketahui,

Ketua Program Studi Ilmu Komputer Dekan Sekolah Pascasarjana IPB

( Dr. Sugi Guritman, MSc.) ( Prof. Dr. Ir. Khairil Anwar Notodiputro, MS )


(18)

Syukur Alhamdulillah, penulis panjatkan kepada illahi robbi Allah SWT, atas rahmat dan hidayahnya sehingga akhirnya karya ilmiah ini dapat diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak Desember 2005 ini adalah sistem identifikasi pembicara, dengan judul Pengembangan Model Jaringan Syaraf Tiruan Probabilistik (PNN) pada Identifikasi Pembicara.

Pada kesempatan ini, penulis menyampaikan ucapan terima kasih dan penghargaan yang setinggi – tingginya kepada bapak Ir. Agus Buono, M.Si, M.Kom, dan bapak Aziz Kustiyo, S.Si, M.Kom, atas kesediaanya meluangkan waktu untuk membimbing sejak awal pemilihan tema penelitian hingga selesainya karya ilmiah ini. Penghargaan yang tulus penulis sampaikan pula, kepada para dosen Program Studi Ilmu Komputer, Sekolah Pascasarjana, Institut Pertanian Bogor, yang telah memberi wawasan pengetahuan bagi penulis.

Atas do’a, pengorbanan, kesabaran serta dukungan moril, penulis ucapkan terima kasih dan rasa hormat yang tulus pada ibu dan istri tercinta, serta seluruh keluarga.

Semoga, hasil karya ilmiah yang jauh dari sempurna ini dapat bermanfaat.

Bogor, Mei 2007


(19)

RIWAYAT HIDUP

Penulis dilahirkan di Jakarta pada tanggal 30 September 1961 dari ayah Sirtoe Astrodiwiryo dan ibu Fatimah Haryana Prawira. Penulis adalah putra kedua dari tiga bersaudara.

Pada tahun 1981 penulis lulus dari SMA Negeri 1 Jakarta. Pendidikan sarjana ditempuh pada tahun 1989 di Sekolah Tinggi Manajemen Informatika dan Komputer Gunadarma, jurusan Manajemen Informatika, lulus pada tahun 1993. Pada tahun 2003 penulis mendapat kesempatan untuk melanjut pendidikan ke program magister pada program Studi Ilmu Komputer, Sekolah Pascasarjana IPB.

Penulis bekerja di Universitas Pembangunan Nasional ”Veteran” Jakarta, pada Fakultas Ilmu Komputer sejak tahun 1987 hingga sekarang. Pada tahun 1996 hingga tahun 1999 penulis dipercaya sebagai kepala laboratorium komputer Fakultas Ilmu Kompter UPN ”Veteran” Jakarta. Pada tahun 1999 hingga tahun 2000 penulis mendapat kesempatan menjadi staff pengajar yunior, di jurusan Teknologi Informatika, Fakultas Teknik pada Hoogeschool van Arnhem en Nijmegen, Belanda. Sejak tahun 2005 penulis dipercaya sebagai Ketua Jurusan Teknologi Informatika pada Fakultas Ilmu Komputer UPN ”Veteran” Jakarta.


(20)

DAFTAR ISI

Halaman

DAFTAR TABEL ... iii

DAFTAR GAMBAR ... iv

DAFTAR LAMIRAN ... vi

PENDAHULUAN Latar Belakang ... 1

Tujuan Penelitian ... 2

Ruang Lingkup ... 2

Manfaat Penelitian ... 3

TINJAUAN PUSTAKA Sinyal Suara ... 4

Prinsip Identifikasi Pembicara ... 4

Preemphasis ... 5

Frame ... 5

Window ... 6

Transformasi Fourier Diskret (DFT) ... 7

Mel-Frequency Cepstral Coefficients (MFCC) ………. 8

Peubah Acak Kontinyu ……….. 10

Analisis Komponen Utama (PCA) .……… 12

Normalisasi Data ………….………... 14

Kaidah Bayes ………. 15

Jaringan Syaraf Tiruan Probabilistik (PNN) ... 16

Validasi Hasil Pengukuran ... 18

Penelitian Terkait ... 19

DATA DAN METODE Keragka Pikir Penelitian ... 21

Struktur Data Penelitian ... 33

Bahan dan Alat ... 34

Waktu Penelitian ... 35


(21)

Halaman

HASIL DAN PEMBAHASAN

Hasil Pra-proses ... 36

Hasil Ekstraksi Ciri ... 36

Hasil Pengujian PNN70 ... 38

Hasil Pengujian PNN90 ... 40

Waktu Komputasi ... 42

Hasil Pengujian dengan Data Noise ... 45

Pengaruh Parameter Pembentuk Data Ciri ... 47

SIMPULAN DAN SARAN Simpulan ... 51

Saran ... 51

DAFTAR PUSTAKA ... 52


(22)

DAFTAR TABEL

Halaman

1 Komposisi dan jumlah vektor ciri untuk metode validasi holdout... 27

2 Komposisi dan jumlah vektor ciri untuk metode validasi leave-one out ... 27 3 Nilai parameter pembentuk data ciri ... 33

4 Jumlah frame suara untuk frekuensi suara 16000 Hz ... 36

5 Jumlah sampel data per satu frame ... 36

6 Nama kelompok data ... 37

7 Dimensi data penelitian hasil ekstraksi ciri suara untuk data asli ... 38

8 Dimensi data penelitian hasil ekstraksi ciri suara untuk data noise.. 38

9 Hasil pengujian model PNN70 ... 39

10 Hasil Pengujian model PNN90 ... 41

11 Waktu komputasi model PNN70 ... 43

12 Waktu komputasi model PNN90 ... 44

13 Hasil pengujian model PNN90 untuk data noise 20 desibel ... 45

14 Hasil pengujian model PNN90 untuk data noise 30 desibel ... 46

15 Hasil pengujian model PNN90 untuk data noise 40 desibel ... 46


(23)

DAFTAR GAMBAR

Halaman

1 Visualisasi satu frame suara ... 6

2 Bentuk kurva Hamming window ... 7

3 Hasil penerapan hamming window terhadap frame suara ………. 8

4 Skema transformasi fourier ………... 8

5 Blok diagram metode MFCC ………. 9

6 Mel filter-bank dengan triangular badpass ... 10

7 Arsitektur PNN ……….. 18

8 Blok kerangka pikir penelitian pengembangan model JST

probabilistik (PPN) pada identifikasi pembicara ………... 21 9 Blok diagram sistem identifikasi pembicara ... 22

10 Antar muka modul rekam suara ... 23

11 Cuplikan program rekam suara ... 23

12 Blok diagram alir proses pengumpulan suara ... 24

13 Antar muka proses penambahan noise ... 24

14 Cuplikan program tambah noise ... 25

15 Diagram alir proses kegiatan pra-proses ... 25

16 Diagram alir proses ekstraksi ciri dengan metode MFCC ... 26

17 Diagram alir proses model identifikasi pertama ... 28

18 Diagram alir proses model identifikasi kedua ... 29

19 Diagram pembentukan data pelatihan ... 30

20 Diagram pembentukan data pengujian ... 30

21 Rancang bangun pengembangan model jaringan syaraf tiruan

probabilistik pada identifikasi pembicara ... 32 22 Antar muka modul menu ... 33

23 Struktur pohon data penelitian ... 34


(24)

Halaman

24 Visualisasi grafis hasil pengujian model PNN70 ... 40

25 Visualisasi grafis hasil pengujian model PNN90 ... 42

26 Visualisasi waktu komputasi model PNN70 ... 43

27 Visualisasi waktu komputasi model PNN90 ... 44

28 Visualisasi hasil pengujian PNN90 untuk data noise ... 47

29 Perbandingan nilai akurasi kelompok data 1, 2, dan 3 ... 48

30 Perbandingan nilai akurasi kelompok data 4, 5, dan 6 ... 49

31 Perbandingan nilai akurasi kelompok data 10, 11, dan 12 ... 50


(25)

DAFTAR LAMPIRAN

Halaman

1 Bentuk sinyal suara ... 54

2 Visualisasi grafis hasil pengujian data asli ... 64

3 Visualisasi grafis hasil pengujian data noise ... 68

4 Perbandingan hasil pengujian data asli dan data noise ... 74


(26)

PENDAHULUAN

1.1 Latar Belakang

Suara sebagai salah satu sumber data biometrik mempunyai keunggulan sifat tidak dapat dihilangkan, dilupakan, atau dipindahkan dari satu orang ke orang lain. Suara dapat dijadikan data masukkan untuk mengidentifikasikan seseorang. Melalui dukungan teknologi informasi yang semakin baik dan murah, di masa depan teknologi berbasis data biometrik akan mirip fenomena komputer, yang kemudian menjadi bagian dari sebuah kebutuhan hidup sehari-hari.

Suara adalah suatu gelombang yang merambat diudara, dan merupakan salah satu sumber data alamiah yang membawa informasi bagi sipendengar, terutama mengenai berita yang akan disampaikan melalui kata-kata. Beberapa informasi lain yang dapat diperoleh dari gelombang suara, adalah: bahasa yang di gunakan untuk berbicara; emosi; jenis kelamin; usia dan identitas pemilik suara (Reynolds 2002).

Dengan menggunakan informasi spesifik yang terdapat dalam gelombang suara, sistem pengenalan pembicara secara otomatis akan mengenali identitas seseorang, teknik ini dapat diterapkan untuk mengidentifikasi dan memverifikasi identitas seseorang ketika mengakses suatu jasa layanan menggunakan suara melalui jaringan telepon (Furui 1997).

Secara ekonomi, aplikasi teknologi informasi berbasis pengenalan suara dapat memberikan nilai jual produk teknologi yang sangat besar. Penjualan produk teknologi berbasis sistem pengenalan suara pada tahun 1997, memberikan nilai sebesar 500 juta dolar Amerika, dan meningkat menjadi 38 milyar dolar Amerika pada tahun 2003 (Rabah 2004).

Penting untuk diperhatikan dalam mengembangkan sistem ceras berbasis suara, yaitu: sistem harus mampu mengurangi gangguan sinyal (noise), dan mampu mendapatkan informasi spesifik (feature) dari suara dalam berbagai kondisi pemilik suara, seperti: kesehatan, usia, tingkat emosi, jenis kelamin, dan logat bicara. Terjadinya noise, juga dapat dipengaruhi kondisi ruang pengambilan suara, alat penangkap suara (mikrofon), dan peniruan suara (Rabiner et al. 1993).


(27)

2

Selain suara harus minim noise, dimensi suara juga merupakan kendala tersendiri karena besarnya dimensi suara dapat mempengaruhi kinerja sistem. Salah satu cara mengatasi kendala dimensi suara adalah dengan menyederhanakan dimensi suara melalui proses ekstraksi ciri. Teknik yang dapat diterapkan pada proses ekstraksi ciri diantaranya adalah Mel-Frequency Cepstral Coefficients (MFCC), dan analisis komponen utama (PCA).

Klasifikasi pola suara merupakan dasar kerja sistem pengenalan pembicara, dengan demikian, untuk mengetahui apakah kinerja sistem dalam melakukan proses klasifikasi itu baik atau tidak, perlu ditetapkan alat yang dapat melakukan proses klasifikasi. Salah satu alat yang dapat digunakan untuk melakukan proses klasifikasi adalah jaringan syaraf tiruan (JST). Melalui proses pembelajaran, JST akan membentuk suatu model referensi berdasarkan data pelatihan (data acuan) yang ditetapkan, kemudian JST yang telah melakukan pembelajaran, dapat digunakan sebagai alat untuk melakukan pencocokan pola (Kusumadewi 2004). Keunggulan dari penggunaan jaringan syaraf tiruan (JST) adalah kemampuannya untuk melakukan klasifikasi data yang belum diberikan pada saat pembelajaran sebelumnya (Li Min Fu 1994).

Bolat dan Yildirim (Bolat et al. 2003) menerapkan kombinasi metode PCA untuk memperbaiki kinerja JST Probabilistik, sedangkan penelitian yang memanfaatkan MFCC dan JST Probabilistik dilakukan oleh Low dan Togneri (1998) dan Ganchev et al. (2002b).

Berdasarkan hasil-hasil penelitian tersebut pada penelitian ini akan dikombinasikan MFCC dan PCA untuk mengatasi masalah dimensi data.

1.2 Tujuan Penelitian

Tujuan penelitian ini adalah mengamati pengaruh kombinasi metode PCA dengan MFCC pada pengembangan model jaringan syaraf tiruan probabilistik (PNN) pada identifikasi pembicara.

1.3 Ruang Lingkup

Lingkup penelitian dibatasi, pada:

1 Sistem yang dikembangkan hanya dalam bentuk prototipe sistem, dengan menerapkan metode text-dependent;


(28)

2 Penggunaan jaringan syaraf tiruan probabilistik (Probabilistic Neural Networks) sebagai alat klasifikasi pola suara;

3 Penerapan kombinasi metode PCA dengan metode MFCC, sebagai alat ekstraksi ciri;

4 Sampel data yang digunakan, berupa teks “Sembilan” yang diucapkan dalam bahasa Indonesia, oleh 10 orang dewasa, terdiri atas: 5 pria dan 5 wanita.

5 Untuk mempermudah dan mempercepat proses ekstraksi ciri, data penelitian dibentuk menggunakan:

a Lebar waktu frame (16 ms, 30 ms, dan 40 ms); b Lebar overlap (40% dan 50%);

c Koefisien mel atau filter bank (16 dan 20).

6 Penggunaan noise sebesar 20, 30 dan 40 desibel terhadap sinyal suara asli.

1.4 Manfaat Penelitian

Hasil penelitian diharapkan dapat memberi manfaat bagi perkembangan teknologi biometrik dan ilmu komputer dalam bidang pengamanan akses layanan sistem berbasis suara.


(29)

BAB II

TINJAUAN PUSTAKA

2.1 Sinyal Suara

Sinyal adalah kumpulan tanda atau bunyi untuk menyampaikan pesan atau informasi. Suara adalah bentuk kompleks yang dapat disampaikan dengan cerdas melalui partikel udara dengan berbagai intensitas gelombang bunyi. Untuk setiap gelombang bunyi yang dikirimkan mengandung karakteristik, ciri dan bentuk informasi tertentu yang akan disampaikan (Shiavi 1991).

Sinyal suara merupakan rangkaian bunyi yang merambat dan berubah secara lambat melalui partikel udara dalam kurun waktu tertentu. Analisis terhadap sinyal suara akan memberikan nilai karakteristik memadai dan stabil, apabila dilakukan pada inteval waktu cukup pendek (antara 5 ms hingga 100 ms). Bila interval waktu tersebut diperpanjang menjadi lebih dari, atau sama dengan 200 ms, akan memberikan perubahan nilai karakteristik (Rabiner et al. 1993).

Sinyal suara merupakan sumber data alamiah yang dapat memberikan bermacam informasi, antara lain: informasi mengenai rangkaian huruf pembentuk kata atau kalimat; bahasa yang di gunakan untuk berbicara; emosi; jenis kelamin; serta usia dan identitas pemilik suara (Reynolds 2002). Visualisasi sinyal suara dapat dilihat pada Lampiran 1.

2.2 Prinsip Identifikasi Pembicara

Identifikasi pembicara, merupakan proses mengklasifikasikan pembicara dari sejumlah alternatif pembicara yang diberikan, sebagai suatu keputusan terbaik. Jumlah alternatif pembicara adalah sama dengan jumlah populasi pembicara terregistrasi.

Meniru kemampuan manusia mengenal identitas seseorang melalui suara yang didengar, merupakan dasar kerja yang diadopsi oleh sistem identifikasi pembicara, sehingga sistem identifikasi pembicara dapat dimasukan kedalam kelompok sistem kecerdasan buatan (Kusumadewi 2003).

Terdapat 2 tahap proses yang dilibatkan untuk mengetahui identitas seseorang dari suara yang diucapkan. Pertama, mendapatkan informasi spesifik atau nilai ciri dari suara yang diamati. Kedua, mengklasifikasikan suara, melalui


(30)

proses pencocokan nilai ciri suara yang diterima dengan nilai ciri suara acuan (basis data ciri suara) (Furui 1997).

Dari sudut pandang linguistik, terdapat dua metode yang dapat diterapkan untuk mengembangkan sistem identifikasi pembicara. Metode pertama disebut text-dependent, dan metode kedua disebut text-independent. Sistem identifikasi pembicara yang mengadopsi metode text-dependent, harus mengetahui dan menentukan terlebih dahulu teks yang akan diucapkan pembicara. Contoh penerapan metode text-dependent adalah pada pengucapan PIN (nomor identitas diri) yang digunakan sebagai kata kunci. Sistem identifikasi pembicara yang mengadopsi metode text-independent, tidak perlu menentukan teks apa yang harus diucapkan pembicara, sehingga pembicara bebas menentukan pilihan teks yang akan diucapkannya (Furui 1997).

2.3 Preemphasis

Preemphasis adalah teknik yang digunakan untuk menyaring sinyal suara, umumnya dilakukan menggunakan Finite Impulse Response (FIR). Persamaan yang digunakan pada proses preemphasis mempunyai bentuk sebagai berikut:

F(w) = 1 – a.Z -1 (0 < a <1) (1) dimana a adalah faktor preemphasis, nilai yang direkomendasikan untuk a adalah 0,95 (Rabiner et al. 1993). Jika Z adalah e jw, maka fungsi penyaringan preemphasis dapat dinyatakan dengan

F(w) = 1 – a.e -j.w (2)

Preemphasis diterapkan pada sinyal dijital untuk menstabilkan spektrum sinyal dan memperkecil dampak keterbatasan ketelitian perhitungan. Persamaan (2) diatas, dapat dituliskan kembali sebagai berikut (Rabiner et al. 1993).

F(w) = 1 – 0,95* e -j.w (3)

2.4 Frame

Untuk memudahkan dan mempercepat proses analisis suara, dilakukan pemecahan sinyal suara menjadi beberapa partisi, disebut juga frame. Pembentukan frame dilakukan menggunakan parameter lebar waktu tertentu (umumnya 10 ms hingga 50 ms) dan lebar overlap.


(31)

6

* ,

1000 fs

fr

N = (4)

dimana fr adalah lebar waktu frame, fs adalah frekuensi suara, dan N adalah jumlah data per frame.

Metode Welch, adalah salah satu metode yang dapat digunakan untuk membentuk frame. Pembentukan frame, dilakukan dengan membagi sinyal suara dijital menjadi sejumlah K frame. Dengan N data per satu frame-nya, dan D titik awal terjadinya overlapping dalam frame, maka N dikurangi D atau (N - D), adalah jumlah data pada bagian overlap. Secara matematis persamaan untuk mendapatkan sejumlah frame dari satu sinyal suara, dapat dituliskan sebagai berikut: K = ((L – N)/(N – D)) + 1, dimana L merupakan panjang sinyal suara (Shiavi 1991).

Overlap merupakan bagian dari frame, berfungsi menjaga keterkaitan antar frame yang berdampingan, dan memperkecil tingkat resiko kehilangan informasi dan nilai ciri yang terdapat pada setiap frame. Contoh visualisasi 1 frame disajikan pada Gambar 1.

Gambar 1 Visualisasi satu frame suara

2.5 Window

Window, adalah fungsi yang dapat digunakan untuk mengarahkan nilai data pada setiap frame sesuai dengan bentuk kurva window. Window yang umum digunakan pada proses analisis suara (ekstraksi ciri), adalah hamming window, dinyatakan dengan persamaan (Porat 1997),

, 1 2 cos 46 . 0 54 . 0 ) ( ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − = N n n


(32)

dimana N merupakan lebar window, umumnya memiliki nilai yang sama dengan lebar waktu frame. Visualisasi hamming window, disajikan pada Gambar 2. Jika window dinyatakan dengan simbol w(n), dan frame dinyatakan dengan xi(n), maka penerapan window terhadap setiap frame, akan menghasilkan sinyal baru

(lihat Gambar 3), dan dapat dinyatakan dengan persamaan berikut: (Rabiner et al. 1993)

) ( ~x n

~x(n)=xi(n).w(n), 0 ≤ n ≤ N – 1 (6)

Gambar 2 Bentuk kurva hamming window

Gambar 3 Hasil penerapan hamming window terhadap frame suara

2.6 Transformasi Fourier Diskret (DFT)

Proses analisis suara, umumnya menggunakan sinyal suara dalam domain frekuensi, namun sinyal suara terekam berada dalam domain waktu, sehingga perlu pengubahan domain sinyal. Salah satu metode yang dapat digunakan untuk mengubah domain sinyal, adalah metode transformasi Fourier.


(33)

8

Transformasi sinyal akan lebih stabil dan sinyal berbentuk periodik dengan periode N, bila dilakukan pada interval waktu yang cukup pendek atau dalam bentuk frame. Transformasi Fourier cepat (FFT), merupakan varian dari transformasi Fourier diskret (DFT), biasa digunakan pada proses analisis suara. FFT, merupakan metode transformasi hasil perbaikan dari DFT, dan memiliki pengulangan proses yang lebih sedikit dibanding DFT. Persamaan transformasi Fourier yang digunakan, adalah (Rabiner et al. 1993).

( )

nk

N j N

n

k x n .e

X ⎟⎠

⎞ ⎜ ⎝ ⎛ − − =

= π 2 1 0

, dimana 0 ≤ k ≤ N – 1 (7) Sedangkan skema transformasi Fourier disajikan pada Gambar 4.

Gambar 4 Skema transformasi Fourier (Karpov 2003)

2.7 Mel-Frequency Cepstral Coefficients

Untuk setiap nada frekuensi f, yang dinyatakan dalam Hertz (Hz), adalah suatu titi nada yang diukur menggunakan skala pengukuran, disebut skala “mel”. Sebagai titik acuan, suatu titi nada 1 kHz nada, 40 dB diatas batas kemampuan pendengaran manusia, dinyatakan sebagai 1000 mel. Hubungan lain dengan nilai titi nada, diperoleh dengan menyesuaikan frekuensi nada, menjadi setengah atau 2 kali frekuensi acuan, dan dinyatakan dengan 500 mel atau 2000 mel.

Skala Mel (Melodi) di bawah 1000 Hz, merupakan frekuensi linier, dan mel dengan skala di atas 1000 Hz, merupakan frekuensi logaritmik. Skala mel ekivalen dengan nilai frekuensi f , dapat dinyatakan dengan persamaan


(34)

dimana f menunjukan frekuensi sebenarnya, dan mel(f) adalah frekuensi yang dihasilkan dalam skala mel.

Mel-Frequency Cepstral Coefficients (MFCC), merupakan salah satu metode untuk mendapatkan informasi spesifik atau nilai ciri dari suara. Dengan menerapkankan koefisien mel pada penyaringan mel-triangular (lihat Gambar 6), setiap frame suara yang telah melalui proses transformasi fourier, disaring dengan mel-triangular filter bank, kemudian hasil penyaringan tersebut dikompresi menggunakan fungsi log, untuk selanjutnya ditransformasikan menjadi koefisien cesptral menggunakan Discrete Cosine Transformation (DCT). Tahapan proses MFCC dituangkan dalam suatu blok diagram proses, disajikan pada Gambar 5.

Hasil proses metode MFCC, adalah vector yang berisi data ciri atau Cepstrum, tahapan proses metode MFCC dapat dinyatakan menggunakan pseudocode berikut (Karpov 2003):

Ceps(frame) = DCT(log10(abs(FFT(frame)))) (9)

Gambar 5 Blok diagram proses MFCC

Discrete Cosine Transformation (DCT), digunakan untuk mendapat nilai koefisien cepstral. DCT dinyatakan dengan persamaan:

N k N k n n x k k y N n , ... , 1 , 2 ) 1 ( ) 1 2 ( cos ) ( ) ( ) ( 1 = − − =

= π

ω (10)

Posisi pertama dari vektor yang dihasilkan metode MFCC dapat diabaikan, karena tidak terlalu mempengaruhi hasil proses selanjutnya (Rabiner et al. 1993).


(35)

10

Gambar 6 mel filter-bank dengan triangular bandpass

2.8 Peubah Acak Kontinyu.1

Dalam kehidupan nyata, banyak dijumpai permasalahan dimana nilai-nilai pengamatan tidak dapat dihitung. Sebagai contoh, waktu tunggu suatu job hingga diproses sampai selesai, waktu hidup komponen perangkat keras komputer (CPU, RAM, Harddisk, dsb). Peubah – peubah acak dengan nilai seperti di atas disebut sebagai peubah acak kontinyu. Nilai peubah acak kontinyu adalah dalam domain real.

Pernyataan bahwa: fungsi distribusi kumulatif, untuk suatu peubah acak y adalah sama dengan peluang F

( )

y0 = P

(

yy0

)

, dari pernyataan tersebut, maka untuk peubah acak diskret dan kontinyu dapat di tuliskan menjadi:

a Peubah acak diskret :

( )

(

)

≤ ∀ = = 0 0 0 y y y y P y

F (11)

b Peubah acak kontinyu :

( )

( )

(12)

∞ − = 0 0 y dy y f y F

Karena bentuk distribusi fungsi untuk peubah acak diskret dan kontinyu berbeda, untuk peubah acak diskret bentuknya seperti tangga, sedang untuk peubah acak kontinyu bentuknya berupa kurva mulus, dalam hal ini disebut sebagai fungsi kepekatan peluang (probability density function --PDF--). Beberapa pustaka menuliskan sebagai

) (y f

( )

y

fy , yang artinya fungsi kepekatan peluang peubah acak y. Perbedaan mendasar antara kedua jenis peubah tersebut adalah bahwa nilai peluang peubah acak diskret untuk suatu titik tertentu, dapat

1


(36)

saja tidak nol, sedangkan untuk peubah acak kontinyu, peluang untuk munculnya suatu titik, pasti nol. Hal ini karena nilai peluang diartikan sebagai luas daerah di bawah kurva fungsi kepekatan peluang.

Pernyataan bahwa: jika F

( )

y adalah fungsi distribusi kumulatif peubah acak y, maka fungsi kepekatan peluang dari peubah acak y tersebut adalah fy

( )

y

yang dirumuskan sebagai:

( )

( )

dy y dF y

fy = (13)

Sifat dari fungsi kepekatan peluang adalah:

a. fy

( )

y ≥0, −∞≤ y ≤∞ (14)

b.

( )

( )

(15)

fy y dy =F ∞ =1

Pernyataan bahwa: jika y adalah peubah acak kontinyu dengan fungsi kepekatan peluang , maka nilai harapan dan ragam dari y dinyatakan sebagai:

( )

y fy

(16)

( )

( )

∞ −

= y f y dy y

Ey y

(17)

( )

(

( )

)

(

( )

) (

∞ − − = −

= E y E y y E y f y dy

y

Var 2 2 y

)

Fungsi kepekatan untuk peubah acak Uniform menjelaskan nilai kejadian untuk cakupan terbatas, dinyatakan dengan

( )

⎪⎩ ⎪ ⎨ ⎧ − = lainnya y nilai untuk b y a a b y fx 0 , 1 (18)

Fungsi kepekatan untuk peubah acak eksponensial, menjelaskan nilai kejadian untuk cakupan semi terbatas, dinyatakan dengan rumusan,

( )

( ) ⎪⎩ ⎪ ⎨ ⎧ ≤ ≤ ≤ ⋅ = − − a y b y a e b y f b a y x 0 , 1 / (19)

Fungsi kepekatan peluang untuk peubah acak normal y, mempunyai persamaan sebagai berikut

( )

(

)

⎟⎟ −∞≤ ≤∞ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − −

= y y

y f , 2 exp . 2 1 2 2 σ μ π


(37)

12

persamaan ini dapat digunakan untuk menjelaskan banyak bentuk, seperti noise atau gangguan sinyal.

2.9 Analisis Komponen Utama (PCA) 2

Metode statistik yang paling popler untuk mereduksi dimensi data adalah metode Karhunen-Loeve, disebut juga Principal Component Analysis (PCA). PCA merupakan salah satu teknik analisis peubah ganda yang sering digunakan untuk mereduksi dimensi data tanpa harus kehilangan nilai informasi berarti. Peubah, hasil transformasi pca merupakan kombinasi linier dari peubah asli, tidak berkorelasi antar sesama, tersusun berdasarkan informasi yang dikandungnya.

Andaikan peubah asli adalah suatu vektor X, berdimensi p: X = (x1, x2, …, xp)T,

maka peubah hasil transformasi adalah vektor Y, berdimensi q: Y = (y1, y2, …, yq),

dengan q << p. Dalam hal ini yi dirumuskan sebagai:

y1 = a11.x1 + a12.x2 + …….. + a1p.xp = a1Tx

y2 = a21.x1 + a22.x2 + …….. + a2p.xp = a2Tx

……….

yq = aq1.x1 + aq2.x2 + …….. + aqp.xp = aqTx

Jika matriks koragam (covariance matrix) dari vektor X adalah Σ, maka ragam (variance) yi dirumuskan sebagai:

ragam(yi) = σ2yi = ai

T

.Σ.ai, (21)

Dari penjabaran diatas diketahui bahwa permasalahan transformasi, adalah bagaimana memilih koefisien dari kombinasi linier tersebut, sehingga:

Informasi y1 > informasi y2 > …….> informasi yq

dengan kata lain

ragam(y1) > ragam(y2) > ……….. > ragam(yq)

Dari sudut pandang geometrik, unsur – unsur dalam vektor ai merupakan

komponen penyusun sumbu koordinat. Oleh karenanya dapat dipilih vektor ai

yang mempunyai panjang satu dan saling ortogonal. Dengan demikian ini menjadi

2


(38)

masalah optimasi dengan fungsi tujuan memaksimumkan ragam(yi), dengan

kendala aiTai = 1, dan cov(ai,aj) = 0, untuk i ≠ j.

Penentuana1 Masalah optimasi

Maksimumkan : ragam(y1) = a1TΣa1 Kendala : a1Ta1 = 1

Melalui pengganda Lagrange, fungsi yang dimaksimumkan adalah:

f(a1) = a1TΣa1 – λ (a1Ta1 – 1) (22) Optimasi dilakukan dengan cara menurunkan fungsi f, terhadap peubah – peubah yang dicari, dan diperoleh

(

a a

)

0

0 a 2 a 2 a f 1 1 1 1 1 = − Σ ⇔ = − Σ = ∂

λ λ

Ini berarti a1 merupakan vektor eigen dari matriks Σ dengan nilai eigen λ. Berdasarkan hasil di atas, maka

(

Σ −λ

)

= ⇔ Σ =λ ⇔ ΤΣ = Τλ = Τ λ = λ =λ

1 a a a a a a a a 0 a

a1 1 1 1 1 1 1 1 1 1

Ini berarti ragam(y1), adalah λ yang merupakan nilai eigen matriks Σ.

Karena di inginkan peubah hasil transformasi tersusun berdasarkan ‘pentingnya’, maka vektor a1 adalah vektor eigen yang bersesuaian dengan nilai eigen terbesar

pertama.

Penentuan a2 Masalah optimasi

Maksimumkan : ragam(y2) = a2TΣa2

Kendala : a2Ta2 = 1 dan a1Ta2 = 0

Melalui pengganda larange, fungsi yang dimaksimumkan adalah

f(a2) = a2TΣa2 – λ2 (a2Ta2 – 1). δ(a1Ta2) (23)

Setelah dideferensialkan, diperoleh:

0 a a 2 a 2 a f 1 2 2 2 2 = − − Σ = ∂

λ δ

Dengan mengalikan a2T pada ruas kiri dan kanan diperoleh

2 2 2 1 2 2 2 2 2

2 a 2 a a a a 0 a a

a


(39)

14

Oleh karena itu Σ.a2 = λ2a2 yang berarti bahwa vektor a2 merupakan vektor eigen

dari Σ yang bersesuaian dengan nilai eigen terbesar ke dua, λ2. Penentuan ai

Memperhatikan cara diatas, maka vektor ai merupakan vektor eigen dari

matriks Σ yang bersesuaian dengan nilai eigen terbesar ke i, yaitu λi, atau dengan

kata lain berlaku:

Λ=ΑΤΣΑ

dengan matriks Λ=diag

{ }

λi dan A = [a1,a2, ….., ap]

T

Berapa banyak nilai komponen utama diperlukan sebagai data penelitian, atau seberapa efektif dimensi data dapat dijadikan data penelitian. Pertanyaan tersebut dapat dijawab dengan menerapkan perhitungan proporsi nilai eigen, yaitu membagi jumlah r nilai eigen dengan jumlah seluruh nilai eigen, kita akan mendapatkan hasil pengukuran untuk kualitas dari representasi yang didasarkan pada r komponen utama. Hasil penghitungan di ekspresikan sebagai persentasi.

Untuk jelasnya, kriteria nilai ciri yang representatif, didasarkan pada rasio dari jumlah r nilai eigen terbesar, untuk mencuplik nilai komponen utama dari dalam matriks. Jika nilai eigen diberi label λ1 ≥ λ2 ≥ …≥λq, maka penghitungan rasio dapat dituliskan sebagai berikut (Kantardzic 2003):

= = = q i i r i i Rasio 1 1 λ

λ . (24)

Menurut Johnson dan Wichern, persentasi rasio 80%, dan 90% dari total nilai eigen, akan memberikan sebanyak r kompenen utama untuk menggantikan data asli tanpa banyak kehilangan informasi (Johnson et. al 1998).

2.10 Normalisasi Data

Untuk meningkatkan hasil identifikasi dilakukan normalisasi terhadap data penelitian. Salah satu teknik yang dapat digunakan untuk menormalisasi data adalah metode standar deviasi. Normalisasi menggunakan standar deviasi dilakukan untuk mengukur jarak, dengan mentransformasi data asli kedalam bentuk lain. Untuk vektor ciri v, dimana nilai rata – rata vektor adalah mean(v) dan standar deviasi vektor adalah sd(v) di hitung untuk semua sampel data,


(40)

kemudian, untuk nilai ciri ke i ditransformasikan menggunakan persamaan (Kantardzic 2003).

v(i) = (v(i) – mean(v)) / sd(v) (25) Contoh: Jika nilai ciri v = {1, 2, 3}, maka mean(v) = 2, sd(v) = 1, maka nilai ciri hasil normalisasi adalah v* = {-1, 0, 1}.

2.11 Kaidah Bayes

Kaidah Bayes dapat digunakan untuk melakukan klasifikasi terhadap sejumlah kategori. Pengambilan keputusan didasarkan pada hasil perhitungan jarak antar fungsi kepekatan peluang dari vektor ciri.

Kaidah Bayes mengasumsikan bahwa kesalahan dalam pengambilan keputusan mempunyai nilai sama, nilai benar dalam pengambilan keputusan adalah 0 (nol), dan kaidah pengambilan keputusan Bayes dapat dinyatakan dengan d(x) = θi, anggaplah ada sejumlah i kelas θ1, θ2, θ3, .., θi, dimana vektor x

dinyatakan masuk dalam kelas θi, jika

P(θi). p(x |θi) ≥ P(θj). p(x | θj), ∀i,j = 1, 2, 3, .. N (26) Dimana:

P(θi) adalah peluang, dimana vektor masukkan berada dalam kelas θi.

Terjadinya peluang terdahulu dapat di nyatakan dengan hi, untuk

kelas θi, dimana i = 1, 2, 3, …., N.

p(x|θi) adalah fungsi kepekatan peluang kelas bersyarat dari x yang di

berikan, di mana x masuk dalam kelas θi. Fungsi kepekatan

peluang kelas bersyarat terdahulu dari x untuk setiap kelas θi, dapat

juga di nyatakan dengan fi(x).

gi(x) = P(θi). p(x|θi), gi(x) adalah fungsi pengambilan keputusan Bayes.

gi(x) > gk(x) untuk k ≠ i, adalah kaidah pengambilan keputusan Bayes.

Dalam kaidah pengambilan keputusan Bayes, d(x) = θi, hasil pengujian

vektor x, akan masuk dalam kelas θi jika hi.li.fi(x) > hk.lk.fk(x), untuk k ≠ i, dimana li adalah nilai peluang kesalahan dalam pengambilan keputusan pada kelas

θi, dalam banyak kasus, nilai peluang kesalahan pengambilan keputusan (li) dapat di anggap sama, sehingga dapat di abaikan, dan hi adalah nilai peluang dari kejadian fungsi peluang terdahulu (fi-1) dari vektor – vektor pada kelas θi, dan


(41)

16

Pengambilan keputusan, dilakukan berdasarkan nilai tertinggi yang mendekati nilai fungsi kepekatan peluang fi(x) dari vektor x untuk dapat masuk

dalam kelas tertentu (θi), (argmax{ hn.ln.fn(x)}, dimana n = 1, …,K,) (Specht 1992,

Zaknich 1995).

2.12 Jaringan Syaraf Tiruan Probabilistik

Jaringan syaraf tiruan probabilistik atau probabilistic neural networs (PNN), diperkenalkan oleh D.F Specht pada tahun 1988, sebagai jaringan syaraf tiruan dengan 3 lapisan tesembunyi setelah lapisan masukkan (input layer), yaitu: lapisan pola (pattern layer), lapisan penjumlahan (summation layer), lapisan keluaran (output layer), dan bersifat feed-forward, dieksekusi dengan satu kali proses (one pass) (Specht 1990).

Kelebihan algoritma PNN, adalah kemudahan yang diberikan untuk modifikasi jaringan, ketika dilakukan penambahan atau pengurang data pelatihan yang digunakan. Kelemahan algoritma PNN, adalah terjadinya peningkatan penggunaan ruang memori komputer, dan waktu komputasi, ketika penggunaan data pelatihan bertambah besar, karena semua data pelatihan harus dimasukkan ke dalam algoritma PNN (Bolat et al. 2003, Zaknich 1995).

Kerja PNN, didasarkan pada penghitungan nilai fungsi kepekatan peluang (fi(x)) untuk setiap data (vektor). Fungsi (fi(x)) merupakan fungsi pengambilan

keputusan Bayes (gi(x)), untuk data (vektor) x dan xij yang telah dinormalisasi.

Persamaan fungsi fi(x) atau gi(x), tuliskan sebagai berikut, (Specht 1992, Zaknich

1995).

(

) (

)

(

)

= Τ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − =

= Mi

j ij ij i i i . x x x x exp M ) ( ) x ( g ) x ( f 1 2 2 2 2 1 σ σ π ρ

ρ (27)

dengan i = 1, 2, …., K. dimana:

T Transpose

i Jumlah kelas j Jumlah pola

xij Vektor pelatihan ke j dari kelas i

x Vektor pengujian

Mi Jumlah vektor pelatihan dari kelas i

ρ Dimensi vektor x


(42)

Sampel data untuk data pelatihan tidak sama dengan sampel data untuk data pengujian PNN. Blok diagram arsitektur PNN, disajikan pada Gambar 7. Posisi node – node yang dialokasikan dalam PNN setelah lapisan input, adalah:

1 Node lapisan Pola (Pattern Layer), digunakan 1 node pola untuk setiap data pelatihan yang digunakan. Setiap node pola, merupakan perkalian titik (dot product) dari vektor masukkan x yang akan diklasifikasikan, dengan vektor bobot xij, yaitu Zi = x . xij, kemudian di lakukan operasi non-linier terhadap Zi sebelum menjadi keluaran yang akan mengaktifkan lapisan penjumlahan, operasi non-linier yang digunakan adalah exp[(Zi - 1)/ σ2], dan bila x dan xij, dinormalisasikan terhadap panjang vektor, maka persamaan yang digunakan pada lapisan pola, adalah: ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ − − − Τ 2 2σ ) x x ( ) x x (

exp ij ij (28)

2 Node lapisan Penjumlahan (Summation Layer), menerima masukkan dari node lapisan pola yang terkait dengan kelas yang ada, persamaan yang digunakan pada lapisan ini, adalah:

⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ − − − Τ =

2

1 2σ

) x x ( ) x x (

exp ij ij

N

i

(29)

3 Node lapisan Keluaran (Output Layer), menghasilkan keluaran biner (0,1), dan hanya mempunyai variabel bobot tunggal Ck. Ck dihitung menggunakan

peramaan: jk ik ik ik jk jk k m m l h l h

C =− ⋅ ; (30)

Dimana:

mik = Jumlah pelatihan pola dari kelas θik;


(43)

18

Gambar 7 Arsitektur PNN

2.13 Validasi Hasil Pengukuran

Validasi terhadap hasil penelitian dilakukan untuk mengetahui tingkat akurasi yang dicapai. Terdapat beberapa metode validasi yang dapat digunakan, dua diantaranya adalah, metode holdout, dan metode leave-one out.

Metode holdout, metode ini menggunakan separuh data, atau dua per tiga data, sebagai data pelatihan dan sisanya sebagai data pengujian. Data pelatihan dan data pengujian adalah bebas, dan pengukuran hasil penelitian bersifat pesimistik. Perbedaan pembagian data akan memberikan hasil pengukuran yang berbeda. Pengulangan proses dilakukan dengan data pelatihan dan data pengujian yang dipilih secara acak, kemudian mengintegrasikan hasil pengukuran kedalam suatu standar parameter akan meningkatkan hasil pengukuran model (Kantardzic 2003).

Metode leave-one out, pada metode ini, data pelatihan dirancang menggunakan (n-1) data penelitian, dan dievaluasi menggunakan sisa data. Proses pengukuran dilakukan berulang sebanyak n kali dengan data acuan berbeda.


(44)

Kerugian menggunakan pendekatan ini adalah penggunaan waktu komputasi yang dibutuhkan besar, bila jumlah data yang digunakan besar (Kantardzic 2003).

Akurasi pengukuran model adalah bagian dari pengujian data yang diklasifikasikan secara benar, dan dihitung menggunakan persamaan,

(

)

% 100 * S E S

A= − (31)

dimana S adalah jumlah data, dan E kesalahan klasifikasi, A adalah nilai akurasi umumnya dinyatakan dalam prosen.

2.14 Penelitian terkait.

Beberapa peneliti, yang telah mengunakan PNN pada penelitian mereka, antara lain:

1 Raymond Low dan Robeto Togneri, menggunakan PNN untuk mengubah suara menjadi rangkaian teks dalam bahasa Inggris. Penelitian tersebut menggunakan suara yang direkam pada frekuensi 8000 Hz dan kuantisasi amplitudo 8 bit. Nilai ciri suara didapat melalui proses ekstraksi ciri menggunakan metode MFCC dengan lebar waktu frame 20 ms, overlap 50% dan koefisien mel 12. Penelitian tersebut memberikan nilai akurasi 94,1% untuk pengubahan suara menjadi teks angka, dan 88,6% untuk pengubahan suara menjadi teks alfabet (Low et. al. 1998).

2 Ganchev dan Fakotakis, menggunakan PNN pada pengenalan pembicara melalui jaringan telepon tetap dengan basis data Polycost, 110 pembicara teregistrasi, dan 24 pembicara semu (tidak teregistrasi). Penggunakan metode MFCC pada proses ekstraksi ciri dengan lebar waktu frame 30 ms, overlap 50%, dan nilai koefisien mel 20 memberikan nilai EER (Equal Error Rate) 2,57% atau nilai akurasi sebesar 97,43%, merupakan nilai akurasi tertinggi untuk pengujian PNN (Ganchev et. al 2002a).

3 Bulent Bolat dan Tulay Yildirim, menggunakan PNN sebagai alat untuk mengklasifikasikan 214 sampel data ke dalam 6 kelas data yang ada. Proses ekstraksi ciri mengkombinasikan metode replikasi data dengan metode PCA. Dengan menerapkan PCA terhadap hasil replikasi data, dapat mereduksi panjang vektor ciri hingga 30%, yaitu dari 9 menjadi 6. Dari penelitian yang dilakukan Bolat dan Yildirim, memperlihatkan bahwa penerapan metode PCA, tidak


(45)

20

mempengaruhi kinerja pengujian, namun pada pelatihan PNN terjadi perubahan nilai akurasi dari 100% (tanpa penerapan PCA) menjadi 98,6% (setelah penerapan PCA) (Bolat et. al 2003).


(46)

DATA DAN METODE

3.1 Kerangka Pikir Penelitian

Pengguna sistem identifikasi pembicara adalah orang yang memiliki hak akses terhadap suatu layanan tertentu, dimana suara oleh sistem digunakan sebagai parameter untuk mengijinkan seseorang dapat mengakses suatu layanan tersebut atau tidak. Untuk mewujudkan sistem tersebut, dilakukan penelitian pengembangan model jaringan syaraf tiruan probabilistik pada identifikasi pembicara. Tahap kegiatan penelitian dituangkan dalam suatu blok kerangka pikir penelitian, seperti disajikan pada Gambar 8.

Gambar 8 Blok kerangka pikir penelitian pengembangan model JST Probabilistik (PNN) pada identifikasi pembicara.


(47)

22

3.1.1 Studi Pustaka

Studi pustaka, merupakan kegiatan untuk membuka wawasan dan mempelajari beberapa pustaka terkait dengan topik penelitian. Studi pustaka yang sedang dan telah dilakukan, meliputi: prinsip dasar sistem identifikasi pembicara (speaker recognition), pengelolaan sinyal dijital, jaringan syaraf tiruan probabilistik (PNN), ekstraksi ciri suara dengan Mel-Frequency Cepstral Coefficients (MFCC), penggunaan analisis komponen utama (PCA), fungsi kepekatan peluang (PDF), pemrograman dengan perangkat lunak Matlab V6.5, dan beberapa penelitian terdahulu dengan topik manipulasi suara.

Setelah mempelajari beberapa pustaka yang terkait dengan sistem pengenalan pembicara, dapat disimpulkan bahwa kerja sistem identifikaasi pembicara secara umum dapat digambarkan dengan blok diagaram seperti disajikan pada Gambar 9.

Gambar 9 Blok diagram sistem identifikasi pembicara

3.1.2 Pengembangan Modul Rekam Suara

Modul rekam suara dikembangkan untuk memudahkan pengumpulan suara dalam bentuk sinyal dijital, dan menyimpannya pada arsip audio (.wav). Untuk memudahkan pengguna dalam melakukan perekaman suara, pengembangan modul rekam suara, juga dilengkapi dengan antar muka (interface) rekam suara, seperti disajikan pada Gambar 10, sedangkan cuplikan program rekam suara disajikan pada Gambar 11.


(48)

Gambar 10 Antar muka modul rekam suara

Dur_Fs = Durasi * Frekuensi_sampel;

DtSuara = wavrecord(Dur_Fs, Frekuensi_sampel, 'double'); Nama_arsip = [get(handles.Folder,'String'),...

get(handles.NmPembicara,'String')... ,num2str(Ke_Sekian),'.wav'];

wavwrite(DtSuara, Fs, Nama_arsip);

Gambar 11 Cuplikan program rekam suara

3.1.3 Pengumpulan Suara

Suara dikumpulkan menggunakan alat bantu mikrofon standar PC dan komputer personal yang telah diprogram untuk dapat melakukan poses rekam suara. Suara direkam pada frekuensi 16000 Hz dan kuantisasi amplitudo 16 bit, sumber suara berasal dari 10 dewasa usia 21 tahun hingga 51 tahun, terdiri atas 5 orang wanita dan 5 orang laki-laki. Setiap orang diminta mengucapkan kata sandi “Sembilan” sebanyak 10 kali dengan durasi rekam suara 2 detik untuk setiap pengucapan kata sandi.

Pengumpulan suara dijital dilakukan melalui proses rekam suara untuk disimpan pada berkas Sr_Asli, setelah seluruh suara terkumpul dalam berkas Sr_Asli, melalui proses penambahan noise kemudian dibentuk berkas Sr_Noise untuk menampung sinyal suara yang telah ditambahkan noise.


(49)

24

Hubungan antar proses yang dilibatkan dalam proses pengumpulan suara dituangkan dalam diagram alir proses seperti disajikan pada Gambar 12.

Untuk memudahkan pengguna sistem dalam melakukan pengumpulan sura, maka proses pengumpulan suara dilengkapi tampilan antar muka rekam suara (Gambar 10) dan tampilan antar muka penambahan noise (Gambar 13), sedangkan cuplikan program penambahan noise, disajikan pada Gambar 14.

Gambar 12 Blok diagram alir proses pengumpulan suara


(50)

NamaFile = ['D:\GUI_TESIS_V01\Suara\',NamaRelawan, ... num2str(n), '.wav'];

[DataWav, Fs, Bit] = wavread(NamaFile);

DataNoise = awgn(DataWav,V_Desibel,'measured');

Gambar 14 Cuplikan program tambah noise

3.1.4 Pra-proses

Pra-proses merupakan kegiatan yang terdiri atas proses pembentukan frame suara dan proses pembobotan window hamming. Kegiatan pra-proses diterapkan pada data suara asli (Sr_Asli) dan data suara noise (Sr_Noise). Hasil pra-proses berupa frame yang telah mendapatkan pembobotan window hamming, dan menjadi data masukkan bagi proses ekstraksi ciri.

Langkah pertama dari kegiatan pra-proses, adalah memecah sinyal suara menjadi beberapa frame suara menggunakan parameter lebar waktu frame dan lebar overlap. Pada penelitian ini digunakan besaran nilai lebar waktu frame suara 16 ms, 30 ms, 40 ms, sedangkan untuk besaran nilai overlap digunakan 40% dan 50% dari nilai lebar waktu frame yang diunakan. Langkah kedua dari kegiatan pra-proses, adalah memboboti frame suara dengan window hamming. Diagram alir proses kegiatan pra-proses, disajikan pada Gambar 15.

Gambar 15 Diagram alir proses kegiatan pra-proses

3.1.5 Ekstraksi Ciri

Setiap orang memiliki karakteristik suaranya sendiri, meskipun suara tersebut tidak begitu jelas. Karakteristik suara yang terbaik, dapat digunakan untuk mengidentifikasi pembicara, sehingga identitas pembicara tersebut dapat diketahui.


(51)

26

Hubungan spektral, tangga nada, intensitas suara, bentuk pengucapan, penggukuran sepstral, merupakan ciri yang digunakan pada pengolahan suara. Data ciri memberikan hasil baik pada satu situasi, tetapi dapat juga memberikan hasil buruk di situasi yang lain, sehingga, sekali ciri-ciri suara dipilih untuk digunakan dalam proses pengolahan suara, maka akan diekstraksi dari suara yang diucapkan, dan dapat digunakan untuk mengidentifikasi pembicara.

Dimensi data yang terlalu besar dapat menyebabkan hasil perhitungan fungsi kepekatan peluang menjadi tidak stabil, sehingga hasil klasifikasi tidak handal. Untuk mengatasi masalah tersebut sering digunakan teknik mereduksi dimensi data, salah satu teknik yang dapat diterapkan untuk mereduksi data adalah Mel-Frequency Cepstral Coefficients (MFCC). MFCC diketahui memiliki kinerja yang baik dalam mendukung sistem identifikasi pembicara, dan juga dapat mereduksi data suara dengan baik.

Tahapan proses ekstraksi ciri dengan metode MFCC, digambarkan dalam suatu blok diagram alir data seperti disajikan pada Gambar 16.

Gambar 16 Diagram alir proses ekstraksi ciri dengan metode MFCC

3.1.6 Penyebaran Data Ciri

Data ciri (vektor ciri) hasil proses ekstraksi ciri dengan metode MFCC, disebar kedalam 2 kelompok data, yaitu: kelompok data pelatihan dan kelompok data pengujian.


(52)

Penyebaran data ciri kedalam kelompok-kelompok tersebut, adalah untuk mengetahui data ciri (vektor ciri) mana saja yang akan dijadikan data pelatihan saat proses rekonstruksi model JST Probabilistik dilakukan, dan data ciri mana saja yang akan dijadikan data pengujian.

Bagaimana komposisi data ciri (vektor ciri) dan berapa jumlahnya yang akan dijadikan anggota kelompok data pelatihan dan kelompok data pengujian ditentukan berdasarkan aturan yang berlaku pada metode validasi yang dijadikan acuan pada penelitian ini. Komposisi dan jumlah data ciri pada kelompok data pelatihan dan kelompok data pengujian untuk model PNN yang akan divalidasi dengan metode holdout disajikan pada Tabel 1.

Tabel 1 komposisi dan jumlah vektor ciri untuk metode validasi holdout

Pengujian

ke. Kelompok Data Pelatihan

Kelompok Data Pengujian 1 Vc2, Vc4, Vc6, Vc8, Vc10, Vc7, Vc9 Vc1, Vc3, Vc5 2 Vc1, Vc3, Vc5, Vc7, Vc9, Vc8, Vc10 Vc2, Vc4, Vc6 3 Vc2, Vc4, Vc6, Vc8, Vc10, Vc1, Vc3 Vc5, Vc7, Vc9 4 Vc1, Vc3, Vc5, Vc7, Vc9, Vc2, Vc4 Vc6, Vc8, Vc10 5 Vc4, Vc5, Vc6, Vc7, Vc8, Vc9, Vc10 Vc1, Vc2, Vc3 6 Vc1, Vc2, Vc3, Vc4, Vc5, Vc6, Vc7 Vc8, Vc9, Vc10

Sedangkan komposisi dan jumlah data ciri pada kelompok data pelatihan dan kelompok data pengujian untuk model PNN yang akan divalidasi dengan metode leave-one out disajikan pada Tabel 2.

Tabel 2 komposisi dan jumlah vektor ciri untuk metode validasi leave-one out

Pengujian

ke. Kelompok Data Pelatihan

Kelompok Data Pengujian 1 Vc1, Vc2, Vc3, Vc4, Vc5, Vc6, Vc7, Vc8, Vc9 Vc10 2 Vc1, Vc2, Vc3, Vc4, Vc5, Vc6, Vc7, Vc8, Vc10 Vc9 3 Vc1, Vc2, Vc3, Vc4, Vc5, Vc6, Vc7, Vc9, Vc10 Vc8 4 Vc1, Vc2, Vc3, Vc4, Vc5, Vc6, Vc8, Vc9, Vc10 Vc7 5 Vc1, Vc2, Vc3, Vc4, Vc5, Vc7, Vc8, Vc9, Vc10 Vc6 6 Vc1, Vc2, Vc3, Vc4, Vc6, Vc7, Vc8, Vc9, Vc10 Vc5 7 Vc1, Vc2, Vc3, Vc5, Vc6, Vc7, Vc8, Vc9, Vc10 Vc4 8 Vc1, Vc2, Vc4, Vc5, Vc6, Vc7, Vc8, Vc9, Vc10 Vc3 9 Vc1, Vc3, Vc4, Vc5, Vc6, Vc7, Vc8, Vc9, Vc10 Vc2 10 Vc2, Vc3, Vc4, Vc5, Vc6, Vc7, Vc8, Vc9, Vc10 Vc1


(53)

28

3.1.7 Identifikasi Suara

Penelitian ini menerapkan 2 model identifikasi. Pertama, adalah model identifikasi suara yang menggunakan data ciri (vektor ciri) hasil proses ekstraksi ciri dengan metode MFCC. Kedua, adalah model identifikasi suara yang menggunakan data ciri (vektor ciri) yang dihasilkan melalui proses ekstraksi ciri yang menerapkan kombinasi metode MFCC dan Metode PCA. Kedua model identifikasi akan divalidasi dengan metode holdout dan metode leave-one out. Dalam melakukan proses validasi digunakan data pelatihan dan data pengujian sesuai hasil proses penyebaran data ciri (lihat Tabel 1 dan Tabel 2).

Blok diagram model identifikasi yang pertama disajikan pada Gambar 17, pada model ini data ciri pelatihan langsung digunakan sebagai data pelatihan untuk merekonstruksi dan melatih model JST Probabilistik, sedangkan data ciri pengujian digunakan sebagai data untuk menguji model JST Probabilistik (PNN).

Gambar 17 Diagram alir proses model identifikasi pertama

Sedangkan model yang kedua adalah model identifikasi pembicara yang memanfaatkan data ciri yang dihasilkan proses ekstraksi ciri yang menerapkan kombinasi metode MFCC dan PCA, diagram alir model kedua disajikan pada Gambar 18.


(54)

Gambar 18 Diagram alir proses model identifikasi kedua

Data pelatihan untuk model kedua didapat dengan memasukan data ciri yang dihasilkan proses MFCC kedalam proses tranformasi PCA untuk mendapatkan nilai eigen dan nilai komponen utama (PC). Penerapan PCA terhadap data ciri pelatihan dengan ukuran (i x j) akan menghasilkan matriks komponen utama dengan ukuran (j x j) dan vektor eigen (λ).

Dari proses PCA, dihitung rasio nilai eigen untuk mendapatkan posisi komponen utama yang akan digunakan menghitung data pelatihan dan data pengujian. Penghitungan data pelatihan dan data pengujian, merupakan kegiatan yang membedakan model identifikasi kedua dari model identifikasi pertama. Alir pembentukan data pelatihan untuk model kedua dituangkan dalam blok diagram yang disajikan pada Gambar 19, sedangkan alir proses pembentukan data pengujian dituangkan dalam blok diagram yang disajikan pada Gambar 20.


(55)

30

Gambar 19 Diagram pembentukan data pelatihan

Gambar 20 Diagram pembentukan data pengujian

Kedua model identifikasi tersebut diatas juga diterapkan pada data yang telah ditambahkan noise sebesar 20, 30 dan 40 desibel. Proses rekonstruksi dan pelatihan model PNN dilakukan mengunakan data


(56)

pelatihan yang tidak diambahkan noise, sedangkan pengujian model PNN dilakukan dengan data pengujian yang telah ditambahkan noise.

Dari hasil penerapan proses PCA, dilakukan penghitungan rasio nilai

eigen menggunakan persamaan

= = q i i r i i 1 1 λ

λ , dimana λ merupakan nilai eigen dan rq. Berdasarkan hasil perhitungan rasio nilai eigen, didapat m kolom matriks komponen utama yang akan membentuk matriks pengali dengan ukuran (j x m).

Pembentukan data pelatihan (Gambar 19) dilakukan dengan mengalikan matriks data ciri pelatihan berukuran (i x j) dengan matriks pengali (j x m), hingga didapat matriks data pelatihan berukuran (i x m), sedangkan pembentukan data pengujian (Gambar 20) dilakukan dengan mengalikan matriks data ciri pengujian berukuran (u x j) dengan matriks pengali (j x m), hingga didapat matriks data pengujian berukuran (u x m).

Pada proses model identifikasi kedua data pelatihan yang dihasilkan melalui proses pembentukan data pelatihan digunakan untuk merekonstruksi dan melatih model PNN, sedangkan data pengujian digunakan untuk menguji model PNN.

Hasil proses penghitungan data pelatihan dan data pengujian disebut

Pca80 untuk persentasi rasio nilai eigen 80, Pca90 untuk persentasi rasio nilai eigen 90, dan Pca95 untuk persentasi rasio nilai eigen 95. Sedangkan untuk data pelatihan dan data pengujian yang dihasilkan metode MFCC disebut vekt_mfcc.

Mengacu pada metode validasi yang digunakan, yaitu: metode holdout dan metode leave-one out, maka proses rekonstruksi akan menghasikan 2 model PNN, model pertama diberi nama PNN70, dan model kedua diberi nama PNN90.

Untuk mengetahui tingkat akurasi sistem, maka rekonstruksi dan pengujian model PNN yang divalidasi dengan metode holdout (PNN70), dilakukan sebanyak 6 kali, sedangkan pengujian model PNN yang divalidasi menggunakan metode leave-one out (PNN90), dilakukan sebanyak n kali, dimana n adalah jumlah populasi data penelitian


(57)

32

3.1.8 Rancang Bangun Aplikasi

Pengembangan model jaringan syaraf tiruan probabilistik pada identifikasi pembicara merupakan aplikasi sistem identifikasi pembicara yang dikembangkan menggunakan beberapa modul yang saling terkait, dan tergabung dalam suatu modul pemanggil yang diberi nama ”modul_menu”, modul-modul tersebut antara lain, modul penyiapan suara, modul ekstraksi ciri, modul eksekusi PNN, dan modul generalisasi.

Rancang bangun aplikasi sistem identifikasi pembicara disajikan pada Gambar 21, dimana setiap modul dalam rancang bangun aplikasi merupakan program–program pendukung penelitian yang dikembangkan menggunakan perangkat lunak Matlab v6.5.

Gambar 21 Rancang Bangun pengembangan model jaringan syaraf tiruan Probabilistik pada identifikasi pembicara.

Pengembangan aplikasi sistem identifikasi pembicara, mengacu pada model siklus hidup pengembangan sistem air terjun (water fall).

Prototipe aplikasi sistem identifikasi pembicara dikembangkan dengan mengintegrasikan modul-modul program pendukung kedalam satu modul


(58)

program pemanggil yang berfungsi sebagai modul utama aplikasi, visualisasi tampilan layar modul utama aplikasi, disajikan pada Gambar 22.

Gambar 22 Antar muka modul menu

3.1.9 Dokumentasi dan Penulisan Laporan

Dokumentasi dan penulisan laporan, merupakan kegiatan terakhir dari penelitian. Seluruh hasil penelitian di laporkan dalam bentuk penulisan tesis, dan dokumentasi hasil penelitian merupakan bagian dari pelaporan (tesis).

3.2 Struktur Data Penelitian

Sinyal suara hasil pengucapan teks ”sembilan”, dianalisis menggunakan metode short-term. Beberapa parameter digunakan untuk mendapatkan informasi spesifik (ciri-ciri) suara, yaitu: sekala mel (mel), lebar waktu frame (fr), lebar overlap antar frame (over), besaran nilai ketiga parameter tersebut disajikan pada tabel 3. Berdasarkan nilai parameter pada tabel 3, dapat digambarkan pohon kelompok data ciri (data penelitian), seperti disajikan pada Gambar 23.

Tabel 3 Nilai parameter pembentuk data ciri.

No Parameter Nilai

1. Lebar waktu frame ( fr ) (16 ms, 30 ms, dan 40 ms)

2. Lebar overlap (over) (40%, dan 50%)

3. Konstanta mel ( mel ) (16 dan 20)


(59)

34

Selain parameter tersebut dalam tabel 3, digunakan juga parameter lebar window (wd), durasi perekaman suara (tr) sebesar 2 detik, frekuensi sampel suara (fs) sebesar 16 kHz, koefisien transformasi Fourier (Ft) sebesar 512.

Nilai parameter diatas juga berlaku terhadap duplikat sinyal suara yang telah ditambahkan White Gaussian Noise (wgn) sebesar 30 desibel.

Gambar 23 Struktur pohon data penelitian

3.3 Bahan dan Alat

Bahan baku penelitian adalah suara, berasal dari 10 orang pengucap dewasa, yang terdiri atas: 5 orang pengucap pria dan 5 orang pengucap wanita, selanjutnya disebut sebagai Pengucap01 sampai Pengucap10.

Sembilan”, merupakan teks yang diucapkan sebanyak 10 kali oleh setiap pengucap, dengan durasi 2 detik untuk satu kali pengucapan teks. Suara ucapan direkam dalam format dijital kedalam berkas audio ber-ekstensi wav (*.wav) pada frekuensi (sampling rate) 16 kHz, dan kuantisasi amplitudo 16 bit.

Alat pendukung penelitian, terdiri atas: perangkat keras dan perangkat lunak. Perangkat keras, adalah satu unit komputer personal dengan kecepatan prosesor 1,67 GHz, kapasitas memori utama 512 MB dan hardisk 40 GB, mikrofon dan kartu suara standar desktop. Perangkat lunak yang digunakan,


(60)

adalah, sistem operasi Microsoft Windows XP, bahasa pemrograman Matlab versi 6.5, Microsoft Office, microsoft Visio.

3.4 Waktu Penelitian

Penelitian dilaksanakan mulai pertengahan Desember 2005 hingga Juni 2006, bertempat di Laboratorium Departemen Ilmu Komputer, FMIPA-IPB dan Laboratorium Fakultas Ilmu Komputer UPN “Veteran” Jakarta.


(61)

BAB IV

HASIL DAN PEMBAHASAN

4.1 Hasil Pra-Proses

Hasil akhir kegiatan pra-proses, adalah 6 jenis frame suara asli yang telah diboboti window hamming, dan 6 jenis frame suara Noise yang telah diboboti window hamming. Penerapan kombinasi lebar waktu frame dengan lebar overlap dapat digunakan untuk membentuk blok frame suara. Jumlah frame suara dalam 1 blok, disajikan pada Tabel 4.

Tabel 4 Jumlah frame suara untuk frekuensi suara 16000 Hz

Parameter No Lebar waktu frame

(ms)

Lebar Overlap

(ms)

Jumlah frame

dalam 1 blok

1. 16 6,4 103

2. 30 12 55

3. 40 16 41

4. 16 8 124

5. 30 15 66

6. 40 20 49

Untuk mengetahui jumlah sampel data pada setiap frame suara, dilakukan dengan mengeksekusi persamaan fr/1000 * fs, dimana fr adalah lebar waktu frame, dan fs adalah frekuensi suara. Penerapan beberapa nilai parameter lebar waktu frame (16 ms, 30 ms dan 40 ms) dan frekuensi suara 16000 Hz, terhadap persamaan diatas, akan didapat jumlah sampel data untuk setiap frame suara seperti disajikan pada Tabel 5.

Tabel 5 Jumlah sampel data per satu frame

No Lebar waktu frame

(ms) Jumlah sampel data

1. 16 256

2. 30 480

3. 40 640

Frame suara yang terbentuk pada kegiatan pra-proses, merupakan frame suara yang telah diboboti dengan window hamming.

4.2 Hasil Ekstraksi Ciri

Hasil akhir proses ekstraksi ciri adalah arsip yang berisi data ciri suara. Penggunaan koefisien mel 16 dan 20 pada metode MFCC dalam mengekstraksi setiap frame suara menjadi vektor ciri dengan ukuran 16, dan 20 ciri suara sesuai dengan koefisien mel yang digunakan.


(62)

Hasil penerapan metode MFCC adalah vektor dengan sejumlah nilai ciri suara, disebut data ciri suara. Mengacu pada penggunaan parameter lebar waktu frame, lebar overlap, dan koefisien mel, maka penerapan metode MFCC akan menghasilkan 12 kelompok data. Setiap kelompok data memiliki 100 vektor ciri. Pemberian nama kelompok data menggunakan nilai parameter dengan susunan “mel.frame.overlap”, lihat Tabel 6.

Tabel 6 Nama kelompok data

Parameter pembentuk data ciri No

Mel Frame (ms) Overlap (%)

Nama kelompok data ciri

1 16 16.16.40

2 30 16.30.40

3 40 40

16.40.40

4 16 16.16.50

5 30 16.30.50

6

16

40

50

16.40.50

7 16 20.16.40

8 30 20.30.40

9 40 40

20.40.40

10 16 20.16.50

11 30 20.30.50

12

20

40

50

20.40.50

Penerapan metode MFCC pada proses ekstraksi ciri dapat mereduksi dimensi vektor suara hingga 84%, sedangkan penerapan kombinasi metode PCA dengan MFCC dapat mereduksi dimensi vektor suara hingga 99%. Rinci hasil proses ekstraksi ciri dapat dilihat pada Tabel 7 dan Tabel 8.

Penerapan metode PCA terhadap data pelatihan, akan menghasilkan matriks berisi nilai komponen utama dan vektor yang berisi nilai eigen. Menurut Johnson, sebagian data hasil proses PCA dapat digunakan untuk menggantikan fungsi data hasil proses PCA sebagai data penelitian. Pemilihan sampel data pengganti dilakukan melalui penghitungan rasio nilai eigen (R), yaitu: membagi hasil penjumlahan sejumlah nilai eigen, dengan hasil penjumlahan seluruh nilai eigen, secara matematis penghitungan rasio nilai eigen dituliskan dengan persamaan R =

= = n j j m i i 1 1 λ

λ , dimana λ adalah nilai eigen. Persentasi rasio 80, 90 dan 95 dari total nilai eigen, akan memberikan sebanyak m data yang dapat digunakan untuk membentuk data pelatihan dan data pengujian (Johnson et. al 1998).


(63)

38

Penerapan proses ekstraksi ciri suara juga berlaku untuk data noise. Dimensi setiap vektor hasil ekstraksi suara, disajikan pada tabel 7 (data asli) dan tabel 8 (data noise).

Tabel 7 Dimensi data penelitian hasil ekstraksi ciri suara untuk data asli

Ukuran vektor ciri hasil pencuplikan

No Kelompok

data

Ukuran Vekt_mfcc

Ukuran Vekt_Pca

Pca80 Pca90 Pca95

1 16.16.40 3120 99 8 19 36

2 16.30.40 1650 99 8 18 32

3 16.40.40 1230 99 8 17 31

4 16.16.50 3735 99 10 22 40

5 16.30.50 1980 99 9 20 36

6 16.40.50 1485 99 9 19 34

7 20.16.40 3952 99 9 21 39

8 20.30.40 2090 99 8 19 35

9 20.40.40 1558 99 8 18 33

10 20.16.50 4731 99 11 24 43

11 20.30.50 2508 99 10 22 39

12 20.40.50 1881 99 10 21 36

Tabel 8 Dimensi data penelitian hasil ekstraksi ciri suara untuk data noise

Ukuran vektor ciri hasil pencuplikan

No Kelompok

data

Ukuran Vekt_mfcc

Ukuran Vekt_Pca

Pca80 Pca90 Pca95

1 16.16.40 3120 99 8 19 36

2 16.30.40 1650 99 8 18 32

3 16.40.40 1230 99 8 17 31

4 16.16.50 3735 99 10 22 41

5 16.30.50 1980 99 9 20 36

6 16.40.50 1485 99 9 19 34

7 20.16.40 3952 99 9 21 39

8 20.30.40 2090 99 8 19 35

9 20.40.40 1558 99 8 18 33

10 20.16.50 4731 99 11 25 44

11 20.30.50 2508 99 10 22 39

12 20.40.50 1881 99 10 21 36

4.3 Hasil Pengujian PNN70

Hasil pengujian PNN70, adalah nilai rata – rata keberhasilan identifikasi dari 6 kali pengujian varian PNN70 menggunakan data asli. Nilai akurasi tertinggi pengujian PNN70 diberikan kelompok data 12 (20.40.50). Kelompok data 12 (20.40.50), adalah kelompok data ciri yang dibentuk dengan koefisien mel 20, lebar waktu frame 40 ms dan lebar overlap 50%.

Nilai akurasi tertinggi yang dicapai pengujian PNN70, sebagai berikut: 88,33% untuk penggunaan data Pca80, 93,89% untuk penggunaan data Pca90,


(64)

95,00% untuk penggunaan data Pca95, dan 95,56% untuk penggunaan data vekt_mfcc, lihat Tabel 9.

Pengujian menggunakan data Pca90 (20.16.40 dan 20.30.40) dan Pca95 (16.30.50 dan 20.16.40) mampu memberikan nilai akurasi lebih baik 0,6% dibandingkan dengan penggunaan data vekt_mfcc (16.30.50, 20.16.40 dan 20.30.40).

Nilai akurasi rata - rata dari pengujian PNN70 menggunakan data ciri vekt_mfcc memberikan nilai sebesar 91,81%, pengujian menggunakan data ciri Pca80 memberikan nilai sebesar 86,39%, pengujian menggunakan data ciri Pca90 memberikan nilai sebesar 91,16%, sedangkan pengujian menggunakan data ciri Pca95 memberikan nilai sebesar 91,62%. Dari hasil pengujian PNN70, diketahui bahwa penggunaan data ciri vekt_mfcc menghasilkan nilai akurasi lebih baik 5,9% dibandingkan penggunaan data ciri Pca80, 0,7% lebih baik dibandingkan penggunaan data ciri Pca90, dan 0,2% lebih baik dibandingkan penggunaan data ciri Pca95.

Penggunaan data ciri Pca90 dan Pca95 pada pengujian PNN70 tidak menurunkan nilai akurasi secara nyata, dibandingkan nilai akurasi yang dihasilkan menggunakan data ciri vekt_mfcc. Keseluruhan hasil pengujian model PNN70 disajikan pada Tabel 9, dan visualisasi grafis hasil pengujian PNN70 disajikan pada Gambar 24.

Tabel 9 Hasil pengujian model PNN70

Akurasi pengujian PNN70 (%) untuk jenis data

No. Kelompok

Data

Pca80 Pca90 Pca95 MFCC

1. 16.16.40 82.22 88.89 88.89 89,44 2. 16.30.40 87.22 88.89 90.00 90,00 3. 16.40.40 86.11 88.89 90.00 90,00 4. 16.16.50 85.56 91.11 91.67 92,22

5. 16.30.50 86.11 90.56 92.78 92,22

6. 16.40.50 86.11 91.67 92.22 92,22

7. 20.16.40 86.11 90.56 90.56 90,00

8. 20.30.40 87.22 91.67 91.11 91,11

9. 20.40.40 86.67 92.22 91.11 92,22

10. 20.16.50 87.22 92.22 92.22 92,78

11. 20.30.50 87.78 93.33 93.89 93,89


(65)

40

Gambar 24 Visualisasi grafis hasil pengujian model PNN70

4.4 Hasil Pengujian PNN90

Hasil pengujian PNN90, adalah nilai rata – rata keberhasilan identifikasi dari 10 kali pengujian varian PNN90 menggunakan data asli. Nilai akurasi tertinggi pada pengujian PNN90 diberikan oleh kelompok data 12 (20.40.50). Nilai akurasi teringgi yang dicapai PNN90, sebagai berikut: 92% untuk pengujian menggunakan data Pca80, 94% untuk pengujian menggunakan data Pca90, dan 96% untuk pengujian menggunakan data Pca95 dan vekt_mfcc. Pengujian PNN90 menggunakan data Pca90 (20.16.40 dan 20.30.40) dan Pca95 (20.16.40) menghasilkan nilai akurasi 1% lebih baik dibandingkan hasil pengujian PNN90 menggunakan data ciri vekt_mfcc (20.16.40 dan 20.30.40), lihat Tabel 10.

Nilai akurasi rata – rata dari pengujian PNN90 menggunakan data ciri vekt_mfcc memberikan nilai sebesar 93,5%, pengujian menggunakan data ciri Pca80 memberikan nilai sebesar 89,83%, pengujian menggunakan data ciri Pca90 memberikan nilai sebesar 92,33%, sedangkan pengujian yang dilakukan menggunakan data ciri Pca95 memberikan nilai sebesar 93,17%. Dari hasil pengujian PNN90, diketahui bahwa penggunaan data ciri vekt_mfcc


(66)

menghasilkan nilai akurasi lebih baik 3,9% dibandingkan penggunaan data ciri Pca80, 1,25% lebih baik dibandingkan penggunaan data ciri Pca90, dan 0,35% lebih baik dibandingkan penggunaan data ciri Pca95.

Penggunaan data ciri Pca90 dan Pca95 pada pengujian PNN90 tidak menurunkan nilai akurasi secara nyata, dibandingkan nilai akurasi yang dihasilkan menggunakan data ciri vekt_mfcc. Keseluruhan hasil pengujian model PNN90 disajikan pada Tabel 10, dan visualisasi grafis hasil pengujian PNN90 disajikan pada Gambar 25. Visualisasi grafis, rinci hasil pengujian PNN70 dan PNN90 dapat dilihat pada Lampiran 2.

Tabel 10 Hasil pengujian model PNN90

Akurasi pengujian PNN90 (%) untuk jenis data No. Kelompok

Data

Pca80 Pca90 Pca95 MFCC

1. 16.16.40 86 90 91 92

2. 16.30.40 89 91 92 92

3. 16.40.40 89 91 92 92

4. 16.16.50 88 92 92 94

5. 16.30.50 90 91 94 94

6. 16.40.50 91 91 94 94

7. 20.16.40 91 93 93 92

8. 20.30.40 90 94 93 93

9. 20.40.40 91 94 93 94

10. 20.16.50 90 94 93 94

11. 20.30.50 91 93 95 95

12. 20.40.50 92 94 96 96

Dari pengujian kedua model PNN (PNN70 dan PNN90), diketahui bahwa menambahkan jumlah data acuan kedalam algoritma JST probabilistik (PNN) dapat meningkatkan kinerja sistem. Nilai akurasi rata - rata yang diberikan model PNN90 lebih tinggi dibandingkan nilai akurasi rata – rata yang diberikan model PNN70, perbedaan nilai untuk pengujian yang dilakukan menggunakan data ciri Pca80 adalah sebesar 3,44%, perbedaan nilai untuk pengujian yang dilakukan menggunakan data ciri Pca90 adalah sebesar 1,17%, sedangkan perbedaan nilai pengujian PNN90 dengan PNN70 yang dilakukan menggunakan data ciri Pca95 adalah sebesar 1,55%, dan untuk pengujian menggunakan data vekt_mfcc terjadi perbedaan nilai sebesar 1,69%.


(67)

42

Gambar 25 Visualisasi grafis hasil pengujian model PNN90

4.5 Waktu Komputasi

Dampak dari penerapan kombinasi metode PCA dengan MFCC (Pca80, Pca90, dan Pca95) dapat mempercepat waktu komputasi. Rata – rata waktu yang dihabiskan untuk menguji model PNN (PNN70 dan PNN90) menggunakan data ciri vekt_mfcc adalah 1,08 detik, sedangkan pada penggunaan data ciri Pca80, Pca90, dan Pca95, rata – rata waktu yang dihabiskan untuk menguji PNN adalah 0,09 hingga 0,10 detik.

Bila dibandingkan dengan penggunaan data ciri vekt_mfcc, maka penggunaan data ciri Pca80, Pca90, atau Pca95 dapat mempercepat kerja algoritma PNN dalam mengidentifikasi pola suara pembicara. keseluruhan waktu komputasi yang digunakan model PNN70 untuk mengidetifikasi pola suara pembicara disajikan pada Tabel 11, sedangkan untuk model PNN90 disajikan pada Tabel 12. Visualisasi grafis penggunaan waktu komputasi model PNN70 disajikan pada Gambar 26, sedangkan visualisasi waktu komputasi model PNN90 disajikan pada Gambar 27.


(1)

(2)

72


(3)

(4)

74


(5)

(6)

BAB V

SIMPULAN DAN SARAN

5.1 Simpulan

Dari hasil penelitian yang diperoleh, dapat disimpulkan bahwa:

Pada proses ekstraksi ciri, penerapan kombinasi metode PCA dengan metode MFCC dapat mereduksi dimensi vektor suara hingga 99%, sedangkan penerapan metode MFCC tanpa metode PCA hanya dapat mereduksi vektor suara hingga 92%.

Data Pca95 (20.40.50), yaitu data ciri yang dihasilkan proses ekstraksi ciri dengan parameter koefisien mel 20, lebar waktu frame 40 ms, lebar overlap 50%, dan rasio nilai eigen 95%, dapat memberikan nilai akurasi sebesar 96% dengan waktu komputasi 90% lebih baik dibandingkan data ciri vekt_mfcc (20.40.50).

Pengaruh white gaussian noise sebesar 40 desibel pada sinyal suara dapat menyebabkan penurunan nilai akurasi rata – rata hingga 7%, sedangkan pengaruh noise sebesar 30 desibel menyebabkan penurunan nilai akurasi rata – rata hingga 22%.

5.2 Saran

Penelitian ini masih jauh dari sempurna, sehingga perlu dilakukan kajian lebih lanjut dalam hal:

1 Pengembangan teknik yang lebih baik untuk mendapatkan sistem identifikasi pembicara yang lebih handal terhadap data penelitian yang terkontaminasi noise.

2 Penggunaan data penelitian yang lebih besar dan bervariasi, sehingga dapat dibuktikan apakah kinerja sistem yang dikembangkan benar memberi nilai postif (kepuasan) bagi pemakai.