Perbandingan berbagai metode ukuran jarak untuk pengenalan fonem dengan MFCC sebagai ekstraksi ciri

(1)

ABSTRACT

YULIANA SURI. The comparison of various methods of distance measure for phoneme recognition with MFCC as feature extraction. Supervised by AGUS BUONO.

This phoneme based voice recognition is included in the developing technology, speech to text that is a part of speech recognition. This study uses four distance measurement methods; euclidean distance, deviation standard euclidean distance, range euclidean distance and mahalanobis distance as pattern recognition, mel frequency cepstrum coefficient (MFCC) as extraction characteristic.

The data used in this study consist of eleven words in Indonesian language, coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, and zakat. Phonemes are produced by segmentation process as much as twenty six phonemes, and then trained by distance measurement method to produce model. This study produces four models, using one data separation; 50% : 50%.Three overlaps; 75%, 50% and 25%. From the four distance measurement methods that used in phoneme recognition, deviation standard euclid distance method are the best of all methods, by using overlap 75% the accuracy is 89.23%.

Keywords: Measuring Distance, Euclidean Distance, Deviation Standard Euclidean Distance, Range Euclidean Distance, Mahalanobis Distance, Mel Frequency Cepstrum Coefficients (MFCC), Phonemes.


(2)

PENDAHULUAN Latar Belakang

Pengenalan suara berbasiskan fonem termasuk dalam bidang teknologi yang sedang dikembangkan, yaitu speech to text yang merupakan bagian dari speech recognition, banyak orang yang tertarik untuk melakukan penelitian pada bidang ini. Pengenalan fonem adalah dasar dari pengenalan kata. Fonem diambil dari kata yang diucapkan manusia dengan cara merekam kata tersebut. Pada kata tersebut akan diambil informasi fonem yang terkandung di dalamnya, dengan mengambil ciri dari tiap fonemnya yang kemudian akan dibuat sebuah pola yang digunakan untuk membuat suatu model aplikasi pengenalan fonem.

Terdapat beberapa penelitian yang dilakukan dalam bidang suara khususnya yang dilakukan untuk pengenalan fonem, dengan menggunakan metode pengenalan pola yang berbeda-beda, seperti Perbandingan Metode Wavelet Daubechies dan MFCC sebagai Ekstraksi ciri pada Pengenalan Fonem Berdasarkan Distribusi Normal yang dilakukan oleh Ni Wayan Sudarmi. Perbandingan Pemodelan Wavelet Daubechies dan MFCC sebagai Ekstraksi ciri pada Pengenalan Fonem dengan Teknik Jaringan Syaraf Tiruan yang dilakukan oleh Mutia Fijri Taufani.

Masih banyak metode-metode yang dapat digunakan untuk proses pengenalan pola sinyal suara, di antaranya Probabilistic Neural Network (PNN), Hidden Markov Model (HMM), Ukuran Jarak ( jarak Euclid, Jarak Euclid Standar Deviasi, Jarak Euclid Range dan Jarak Mahalanobis) dan lain sebagainya. Metode yang sering digunakan untuk ekstraksi ciri sinyal suara, di antaranya Linier Prediction Coding (LPC), Mel Frequency Cepstrum Coefficients (MFCC), Neural Predictive Coding (NPC), dan lain sebagainya

Pada penelitian kali ini akan digunakan empat metode ukuran jarak, yaitu Jarak Euclid, Jarak Euclid Standar Deviasi, Jarak Euclid Range dan Jarak Mahalanobis sebagai pengenalan pola Mel Frequency Cepstrum Coefficients (MFCC) sebagai ekstraksi ciri. Tujuan Penelitian

Penelitan ini bertujuan melakukan perbandingan empat metode ukuran jarak, yaitu Jarak Euclid, Jarak Euclid Standar Deviasi, Jarak Euclid range dan Jarak Mahalanobis sebagai pengenalan pola dengan menggunakan MFCC sebagai ekstraksi ciri.

Ruang Lingkup Penelitian

Ruang lingkup penelitian ini adalah : 1. Kata-kata yang digunakan adalah kata yang

berbahasa Indonesia.

2. Data suara yang digunakan diambil dengan merekam kata. Kata yang digunakan sebanyak 11 kata, yaitu coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat. Tiap-tiap kata direkam sebanyak 20 kali dan menggunakan satu orang untuk merekam kata tersebut.

3. Penelitian hanya dilakukan untuk melakukan pengenalan fonem. Fonem yang digunakan sebanyak 26 fonem, yaitu /a/ sampai /z/.

4. Mengolah data fonem dari sinyal rekaman suara dengan model pengolahan menggunakan metode ukuran jarak dan ektraksi ciri sinyal suara dengan menggunakan MFCC.

Manfaat Penelitian

Penelitian ini diharapkan dapat mem-perlihatkan dan memberikan informasi akurasi dari perbandingan empat metode ukuran jarak yang digunakan untuk pengenalan fonem, dengan menerapkan MFCC sebagai ekstraksi ciri untuk pengolahan fonem. Selain itu model yang telah dibangun diharapkan dapat dikembangkan lagi ketahap pengenalan kata.

TINJAUAN PUSTAKA Sinyal Suara

Sinyal didefinisikan sebagai besaran fisik yang berubah-ubah menurut waktu, ruang, atau variabel bebas atau variabel-variabel lainnya.

Menurut Pelton (1993) diacu dalam Aprillia (2009) sinyal suara manusia dibangkitkan dari tekanan udara paru-paru yang menyebabkan vocal chords bergetar, efek dari getaran tersebut menyebabkan tekanan udara ke lubang vokal dengan frekuensi getaran yang bervariasi, pada akhirnya melalui bibir dan lubang hidung keluar tekanan gelombang sinyal suara. Pada Gambar 1 dapat dilihat contoh sinyal suara.

Gambar 1 Sinyal Suara


(3)

PENDAHULUAN Latar Belakang

Pengenalan suara berbasiskan fonem termasuk dalam bidang teknologi yang sedang dikembangkan, yaitu speech to text yang merupakan bagian dari speech recognition, banyak orang yang tertarik untuk melakukan penelitian pada bidang ini. Pengenalan fonem adalah dasar dari pengenalan kata. Fonem diambil dari kata yang diucapkan manusia dengan cara merekam kata tersebut. Pada kata tersebut akan diambil informasi fonem yang terkandung di dalamnya, dengan mengambil ciri dari tiap fonemnya yang kemudian akan dibuat sebuah pola yang digunakan untuk membuat suatu model aplikasi pengenalan fonem.

Terdapat beberapa penelitian yang dilakukan dalam bidang suara khususnya yang dilakukan untuk pengenalan fonem, dengan menggunakan metode pengenalan pola yang berbeda-beda, seperti Perbandingan Metode Wavelet Daubechies dan MFCC sebagai Ekstraksi ciri pada Pengenalan Fonem Berdasarkan Distribusi Normal yang dilakukan oleh Ni Wayan Sudarmi. Perbandingan Pemodelan Wavelet Daubechies dan MFCC sebagai Ekstraksi ciri pada Pengenalan Fonem dengan Teknik Jaringan Syaraf Tiruan yang dilakukan oleh Mutia Fijri Taufani.

Masih banyak metode-metode yang dapat digunakan untuk proses pengenalan pola sinyal suara, di antaranya Probabilistic Neural Network (PNN), Hidden Markov Model (HMM), Ukuran Jarak ( jarak Euclid, Jarak Euclid Standar Deviasi, Jarak Euclid Range dan Jarak Mahalanobis) dan lain sebagainya. Metode yang sering digunakan untuk ekstraksi ciri sinyal suara, di antaranya Linier Prediction Coding (LPC), Mel Frequency Cepstrum Coefficients (MFCC), Neural Predictive Coding (NPC), dan lain sebagainya

Pada penelitian kali ini akan digunakan empat metode ukuran jarak, yaitu Jarak Euclid, Jarak Euclid Standar Deviasi, Jarak Euclid Range dan Jarak Mahalanobis sebagai pengenalan pola Mel Frequency Cepstrum Coefficients (MFCC) sebagai ekstraksi ciri. Tujuan Penelitian

Penelitan ini bertujuan melakukan perbandingan empat metode ukuran jarak, yaitu Jarak Euclid, Jarak Euclid Standar Deviasi, Jarak Euclid range dan Jarak Mahalanobis sebagai pengenalan pola dengan menggunakan MFCC sebagai ekstraksi ciri.

Ruang Lingkup Penelitian

Ruang lingkup penelitian ini adalah : 1. Kata-kata yang digunakan adalah kata yang

berbahasa Indonesia.

2. Data suara yang digunakan diambil dengan merekam kata. Kata yang digunakan sebanyak 11 kata, yaitu coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat. Tiap-tiap kata direkam sebanyak 20 kali dan menggunakan satu orang untuk merekam kata tersebut.

3. Penelitian hanya dilakukan untuk melakukan pengenalan fonem. Fonem yang digunakan sebanyak 26 fonem, yaitu /a/ sampai /z/.

4. Mengolah data fonem dari sinyal rekaman suara dengan model pengolahan menggunakan metode ukuran jarak dan ektraksi ciri sinyal suara dengan menggunakan MFCC.

Manfaat Penelitian

Penelitian ini diharapkan dapat mem-perlihatkan dan memberikan informasi akurasi dari perbandingan empat metode ukuran jarak yang digunakan untuk pengenalan fonem, dengan menerapkan MFCC sebagai ekstraksi ciri untuk pengolahan fonem. Selain itu model yang telah dibangun diharapkan dapat dikembangkan lagi ketahap pengenalan kata.

TINJAUAN PUSTAKA Sinyal Suara

Sinyal didefinisikan sebagai besaran fisik yang berubah-ubah menurut waktu, ruang, atau variabel bebas atau variabel-variabel lainnya.

Menurut Pelton (1993) diacu dalam Aprillia (2009) sinyal suara manusia dibangkitkan dari tekanan udara paru-paru yang menyebabkan vocal chords bergetar, efek dari getaran tersebut menyebabkan tekanan udara ke lubang vokal dengan frekuensi getaran yang bervariasi, pada akhirnya melalui bibir dan lubang hidung keluar tekanan gelombang sinyal suara. Pada Gambar 1 dapat dilihat contoh sinyal suara.

Gambar 1 Sinyal Suara


(4)

Fonem

Fonem merupakan bagian yang terkecil dari kata yang tidak dapat dipecah lagi, yang masih bisa menunjukkan perbedaan makna. Misal, /h/ adalah fonem karena membedakan makna kata “harus” dan “arus”, /b/ dan /p/ adalah dua fonem yang berbeda karena “bara” dan “para” berbeda maknanya. (Tim Redaksi Kamus Besar Bahasa Indonesia Pusat Bahasa, 2008). Fonem dibagi menjadi dua, yaitu:

1. Fonem vokal, jumlah fonem vokal ada lima, yaitu /a/, /i/, /u/, /e/, dan /o/.

2. Fonem konsonan, jumlah fonem konsonan ada 21, yaitu /b/, /c/, /d/, /f/, /g/, /h/, /j/, /k/, /l/, /m/, /n/, /p/, /q/, /r/, /s/, /t/, /v/, /w/, /x/, /y/, dan /z/.

Mel Frequency Cepstrum Coefficients

(MFCC)

Ekstraksi ciri MFCC merupakan suatu teknik yang digunakan untuk menghasilkan suatu vektor yang digunakan sebagai penciri. Ciri tersebut adalah koefisien cepstral, koefisien cepstral yang digunakan tetap memper-timbangkan pendengaran manusia. Tahapan proses MFCC sebagai berikut (Do 1994) : 1. Frame Blocking dan Windowing 2. Fast Fourier Transform (FFT) 3. Mel Frequency Wrapping 4. Cepstrum Coeffisient

Diagram alur dari teknik MFCC yang digunakan untuk mengekstrak sinyal terlihat pada Gambar 2 (Buono, 2009):

Gambar 2 Diagram Alur teknik MFCC

Frame Blocking dan Windowing

Sinyal suara asli yang telah dihapus silent nya dan disegmentasi akan dilakukan proses frame blocking. Frame blocking merupakan proses pembagian suara menjadi beberapa frame dimana tiap frame terdapat N sample dengan overlap antar frame M sample.

Tahapan selanjutnya akan dilakukan windowing terhadap masing-masing frame. Dalam hal ini setiap frame sinyal suara dikalikan dengan fungsi windowing yang berukuran sama dengan ukuran frame, ekspresi matematika yang digunakan dapat dilihat pada persamaan (2). Umumnya, window yang digunakan adalah window Hamming. Ekspresi matematika untuk pembentukan window Hamming dapat dilihat pada persamaan (1).

(1) dan

Yi(n) = Xi(n)d(n) 0 < n < N – 1 (2)

Setelah dilakukan frame blocking dan windowing, selanjutnya akan dilakukan proses ekstraksi ciri (feature extraction). Dalam proses ini akan digunakan transformasi fast fourier.

Fast Fourier Transform (FFT)

Frame yang dihasilkan dari proses sebelunya akan dilanjutkan ke proses FFT. FFT merupakan Fast algorithm dari Discrete Fourier Transform (DFT) yang berguna untuk mengubah setiap frame dari domain waktu menjadi domain frekuensi, sebagaimana didefinisikan pada persamaan berikut :

dengan n= 0, 1, 2, …, N-1. j digunakan untuk notasi unit imajiner, yaitu j= . Secara umum hasil rangkaian {Xk} direpresentasikan

sebagai berikut : frekuensi positif 0 < f < Fs

yang merepresentasikan nilai 0 < n < (N/2)-1, frekuensi negatif – Fs/2 < f < 0 yang

merepresentasikan nilai (N/2)+1 < n < (N-1). Fs berarti sampling. Frequency hasil akhir dari langkah ini disebut dengan spectrum sinyal atau periodogram.

Wrapping dan cepstrum coeffisient

Proses Wrapping memerlukan beberapa filter yang saling overlap dalam domain frekuensi. Filter yang digunakan adalah bentuk segitiga dalam tinggi satu. Filter yang dibentuk


(5)

memiliki jarak antar pusat filter adalah konstan pada ruang frekuensi mel. Dari literatur yang ada, skala mel ini dibentuk untuk mengikuti persepsi sistem pendengaran manusia yang bersifat linear untuk frekuensi rendah dan logaritmik untuk frekuensi tinggi, dengan batas pada nilai frekuensi akustik sebesar 1000 Hz. Grafik hubungan antara skala mel dan frekuensi dapat dilihat pada Gambar 3 dan filter yang digunakan dapat dilihat pada Gambar 4.

Gambar 3 Grafik Hubungan Frekuensi dengan Skala Mel .

Gambar 4 Filter yang digunakan (10 linear dan 10 logaritmik) .

Dari M filter yang sudah dibentuk, maka dilakukan wrapping terhadap sinyal domain frekuensi dan menghasilkan satu komponen untuk setiap filter dengan menggunakan rumus (Buono, 2009):

dengan i = 1,2,3,…,M dan Hi(k) adalah nilai

filter segitiga ke-i untuk frekuensi akustik sebesar k.

Hasil dari spectrum mel ini kemudian akan dipilih cepstrum coeffisien, nilai koefisien diperoleh dengan menggunakan transformasi cosinus, rumus yang digunakan adalah persamaan (5) :

(5) dengan j =1,2,3...K yang merupakan jumlah cepstrum coeffisient dan M merupakan jumlah filter.

Ukuran Jarak

Ukuran jarak digunakan ketika terdapat dua objek yang berada pada titik yang berbeda, jarak antar objek sering juga disebut dengan ukuran kemiripan atau similarity. jarak istilah informal sering digunakan untuk mengukur perbedaan yang berasal dari objek untuk menggambarkan karakteristik, seperti dalam jarak Euclidean.

Andaikan P dan Q adalah dua titik pada suatu ruang, maka suatu fungsi bernilai real f(P,Q) disebut sebagai fungsi jarak jika memenuhi sifat berikut (Hand, Mannila, Smyth 2001) :

a. symetry, yaitu untuk semua

i dan j.

b. non-negativity, yaitu : untuk semua i dan j.

c. identification mark, yaitu : . Fungsi jarak juga disebut metrik jika memenuhi tiga kondisi ukuran perbedaan, yaitu: 1. definiteness, jika dan hanya jika

i = j.

2. untuk semua i,

j dan k.

Kondisi kedua disebut juga dengan ketidaksetaraan segitiga (triangle inequality) Beberapa jenis ukuran jarak yang dikenal, yaitu Jarak Euclid, Jarak Euclid standar deviasi, Jarak Euclid range,dan Jarak Mahalanobis.

Jarak Euclid

Prinsip dasar yang digunakan pada metode jarak Euclid adalah dengan mengukur jarak antar dua titik (x dan y), dengan x adalah sinyal suara yang tidak diketahui (data testing) dengan y adalah pola sinyal suara yang telah diketahui (data training). Persamaan yang digunakan untuk menghitung jarak euclid dapat didefinisikan dengan jarak Euclid antara dua titik , yaitu X = (x1, x2, x3,... xn ) dan Y = (y1, y2,

y3,... yn ), Perhitungan jarak tersebut yaitu


(6)

dengan adalah jarak antara sinyal data testing dengan data training. Setelah didapat jarak antara dua data tersebut maka untuk mengambil keputusan mana jarak yang minimum menggunakam rumus berikut : jarak = min di(x,y) , (7)

dengan di(x,y) adalah nilai jarak yang

didapat. Semakin kecil jarak yang dihasilkan antar dua data (data testing dan data training), maka semakin besar kemiripan antar dua data tersebut.

Jarak Euclid Standar Deviasi

Terkadang data yang sering digunakan adalah data set dimana variabel tidak sepadan, oleh karena itu, untuk mengatasi hal tersebut strategi umum yang digunakan adalah menstandarkan data dengan membagi setiap variabel dengan deviasi sampel standar, sehingga semua data dianggap sama pentingnya. Dengan demikian rumus jarak Euclid standar deviasi adalah (Hand, Mannila, Smyth 2001) :

dengan adalah 1/ untuk mencari nilai standar deviasi menggunakan rumus berikut :

dengan adalah nilai rata-rata dari data yang digunakan, adalah banyaknya data. Jarak Euclid Range

Jarak Euclid range dihitung dengan menggunakan rumus (10) (Hand, Mannila, Smyth 2001):

dengan adalah untuk mencari nilai range menggunakan rumus berikut :

Jarak Mahalanobis

Jarak Mahalanobis dihitung dengan menggunakan rumus (12) (Hand, Mannila, Smyth 2001):

dengan T adalah transpose, adalah invers dari covarian. Untuk mencari nilai covarian menggunakan rumus berikut :

dengan adalah nilai rata-rata dari data yang digunakan, n adalah banyaknya data.

METODOLOGI PENELITIAN Data

Data yang digunakan pada penelitian ini adalah rekaman dari sinyal suara yang telah dikonversi ke bentuk dijital. Kata yang digunakan sebanyak 11 kata, Masing-masing kata direkam sebanyak 20 kali perulangan.

Perekaman suara dilakukan menggunakan ukuran waktu 1 detik dengan sampling rate (fs) 12.000 Hz. Data sinyal suara tersebut dibagi menjadi dua jenis data, yaitu :

1.

Data training : untuk pembelajaran yang dilakukan oleh komputer.

2.

Data testing : untuk uji coba pada data training.

Proses Pengenalan Suara

Proses pembuatan model pengenalan fonem dilakukan dalam beberapa tahapan, terlihat pada Gambar 6. Penjabaran dari tahapan proses pegolahan fonem yang dilakukan, yaitu : 1. Koleksi data suara

Berisi data suara dari 11 kata yang telah direkam. Kata-kata yang digunakan, yaitu coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat, dengan menggunakan suara satu orang.

2. Penghapus sinyal silent

Sinyal suara tersebut dihapus pada bagian silent, yang disimpan hanya sinyal suara yang terdapat suara rekaman kata saja. Ilustrasi dari proses penghapusan silent, terlihat pada Gambar 5 :


(7)

dengan adalah jarak antara sinyal data testing dengan data training. Setelah didapat jarak antara dua data tersebut maka untuk mengambil keputusan mana jarak yang minimum menggunakam rumus berikut : jarak = min di(x,y) , (7)

dengan di(x,y) adalah nilai jarak yang

didapat. Semakin kecil jarak yang dihasilkan antar dua data (data testing dan data training), maka semakin besar kemiripan antar dua data tersebut.

Jarak Euclid Standar Deviasi

Terkadang data yang sering digunakan adalah data set dimana variabel tidak sepadan, oleh karena itu, untuk mengatasi hal tersebut strategi umum yang digunakan adalah menstandarkan data dengan membagi setiap variabel dengan deviasi sampel standar, sehingga semua data dianggap sama pentingnya. Dengan demikian rumus jarak Euclid standar deviasi adalah (Hand, Mannila, Smyth 2001) :

dengan adalah 1/ untuk mencari nilai standar deviasi menggunakan rumus berikut :

dengan adalah nilai rata-rata dari data yang digunakan, adalah banyaknya data. Jarak Euclid Range

Jarak Euclid range dihitung dengan menggunakan rumus (10) (Hand, Mannila, Smyth 2001):

dengan adalah untuk mencari nilai range menggunakan rumus berikut :

Jarak Mahalanobis

Jarak Mahalanobis dihitung dengan menggunakan rumus (12) (Hand, Mannila, Smyth 2001):

dengan T adalah transpose, adalah invers dari covarian. Untuk mencari nilai covarian menggunakan rumus berikut :

dengan adalah nilai rata-rata dari data yang digunakan, n adalah banyaknya data.

METODOLOGI PENELITIAN Data

Data yang digunakan pada penelitian ini adalah rekaman dari sinyal suara yang telah dikonversi ke bentuk dijital. Kata yang digunakan sebanyak 11 kata, Masing-masing kata direkam sebanyak 20 kali perulangan.

Perekaman suara dilakukan menggunakan ukuran waktu 1 detik dengan sampling rate (fs) 12.000 Hz. Data sinyal suara tersebut dibagi menjadi dua jenis data, yaitu :

1.

Data training : untuk pembelajaran yang dilakukan oleh komputer.

2.

Data testing : untuk uji coba pada data training.

Proses Pengenalan Suara

Proses pembuatan model pengenalan fonem dilakukan dalam beberapa tahapan, terlihat pada Gambar 6. Penjabaran dari tahapan proses pegolahan fonem yang dilakukan, yaitu : 1. Koleksi data suara

Berisi data suara dari 11 kata yang telah direkam. Kata-kata yang digunakan, yaitu coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat, dengan menggunakan suara satu orang.

2. Penghapus sinyal silent

Sinyal suara tersebut dihapus pada bagian silent, yang disimpan hanya sinyal suara yang terdapat suara rekaman kata saja. Ilustrasi dari proses penghapusan silent, terlihat pada Gambar 5 :


(8)

Gambar 6 Proses Pengenalan Fonem 3. Segmentasi sinyal

Sinyal suara kata yang telah dihilangkan silent-nya dipotong berdasarkan fonemnya. Proses segmentasi sinyal suara dilakukan secara manual. Ilustrasi dari proses segmentasi sinyal secara manual, terlihat pada Gambar 7 :

Gambar 7 Segmentasi Sinyal Secara Manual Segmentasi sinyal menghasilkan daftar fonem /a/ sampai /z/ yang akan digunakan dalam proses selanjutnya, daftar fonem dapat dilihat pada Tabel 1:

Tabel 1 Daftar fonem

Fonem kata

/j/, /y/ jaya

/c/, /o/, /b/, /a/ Coba /w/, /e/, /d/ Weda

/f/ Fana

/g/, /h/ Gajah

/v/, /s/ Visa

/z/, /k/, /t/ Zakat /m/, /l/,/u/ Malu /q/, /r/, /n/ Quran

/p/, Pacu

/i/, /x/ Tip-x

Jumlah tiap-tiap fonem yang digunakan dalam penelitian dapat dilihat pada Tabel 2 : Tabel 2 Jumlah fonem

Fonem Jumlah Fonem Jumlah

/a/ 20 /n/ 20

/b/ 20 /o/ 20

/c/ 20 /p/ 20

/d/ 20 /q/ 20

/e/ 20 /r/ 20

/f/ 20 /s/ 20

/g/ 20 /t/ 20

/h/ 20 /u/ 20

/i/ 20 /v/ 20

/j/ 20 /w/ 20

/k/ 20 /x/ 20

/l/ 20 /y/ 20

/m/ 20 /z/ 20

4. Pembagian data

Data dibagi menjadi data training dan data testing dengan menggunakan satu macam proporsi pembagian , yaitu 50%:50%. 5. Ekstraksi ciri

Proses ekstrasi ciri menggunakan Mel Frequency Cepstrum Coefficients (MFCC). Ilustrasi dari proses ekstraksi ciri, terlihat pada Gambar 8 (Buono, 2009) :

Mulai

Koleksi data suara

Penghapusan silent

Segmentasi sinyal secara manual

Data training Data testing

Ekstraksi ciri dengan MFCC

Pemodelan dengan : 1. Jarak Euclid

2. Jarak Euclid Standar Deviasi 3. Jarak Euclid range

4. Jarak Mahalanobis

Proses pencocokan selesai Repository Model fonem Perhitungan tingkat akurasi


(9)

Gambar 8 Proses ekstraksi ciri

Pada penelitian ini panjang frame yang digunakan adalah 30ms dengan tiap frame memiliki 360 data. Untuk Overlap antar frame menggunakan tiga overlap yang berbeda, yaitu 25%, 50%, dan 75%. Tujuan digunakannya overlap pada proses frame blocking ini adalah agar tidak ada sedikitpun sinyal yang hilang. Selanjutnya, proses windowing menggunakan Hamming window, karena rumusnya yang sederhana. Ilustrasi dari frame blocking dan windowing dapat dilihat pada Gambar 9 :

Gambar 9 Proses Frame Blocking dan Windowing

Tujuan dari windowing adalah untuk meminimalkan ketidakkontinuan sinyal pada awal dan akhir setiap frame. Proses ini membuat sinyal menuju nol pada awal dan akhir setiap frame. panjang window sama dengan panjang frame.

Proses FFT digunakan untuk mengubah setiap frame yang telah dihasilkan dari proses sebelumnya dari domain waktu menjadi domain frekuensi, dengan demikian dapat diamati lebih mudah. Ilustrasi dari proses FFT dapat dilihat pada Gambar 10.

Gambar 10 Proses FFT

Selanjutnya proses wrapping, dalam proses ini diperlukan filter, dengan demikian akan dibentuk M filter terlebih dahulu, sebelum proses wrapping dilakukan. Selanjutnya proses Discrete Cosine Transform (DCT) dilakukan untuk mendapatkan coefisien ceptrum. Coefisient ceptrum ini yang merupakan output dari proses MFCC.

6. Pembuatan model dengan ukuran jarak

Hasil ekstrasi ciri berupa matriks nxk, k adalah koefisien dan n adalah jumlah frame. Pada matriks tersebut dilakukan proses perata-rataan menjadi 1xn yang berfungsi untuk menyamakan ukuran matriks yang akan digunakan.

7. Pencocokan model

pencocokan model sinyal suara dilakukan dengan menggunakan empat metode ukuran jarak, yaitu Jarak Euclid, Jarak Euclid Standar Deviasi, Jarak Euclid Range dan Jarak Mahalanobis.

8. Pengujian

Proses pengujian dilakukan dengan memasukkan data testing untuk diolah dan dicocokkan dengan data training. hasil yang didapat akan dihitung akurasinya dengan rumus berikut ini:

Frame ke-i x(1)

x(2) ….. x(360)

Contoh 4 6 9 3 5 10 8 12 Hasil frame 4 6 9 3 9 3 5 10 5 10 8 12 Windowing Yi(n) = Xi(n)d(n)

W(u)=0.54+0.46cos(2πn/N-1) x(1) x(2) ….. x(360) Frame yang didapat dikalikan dengan Hamming window


(10)

HASIL DAN PEMBAHASAN Hasil Pengujian dengan pembagian data 50%:50%

Pengujian dilakukan dengan menggunakan tiga overlap yang berbeda, yaitu overlap 25%, 50%, 75% dan empat metode ukuran jarak, yaitu jarak Euclid, jarak Euclid standar deviasi, jarak Euclid range,dan jarak Mahalanobis. a. Perbandingan hasil menggunakan empat

metode ukuran jarak dengan overlap

25%

Hasil akurasi fonem pada overlap 25% dengan menggunakan empat metode ukuran jarak dapat dilihat pada Gambar 11.

Gambar 11 Grafik Akurasi Fonem dengan Overlap 25%

Pada grafik tersebut terlihat bahwa akurasi fonem tertinggi dengan menggunakan jarak Euclid sebesar 100%, yaitu /a/, /b/, /c/, /f/, /k/, /l/, /o/, /r/, /v/, /x/, /z/. Fonem /y /, memiliki tingkat akurasi sebesar 60%, untuk fonem /d/, /g/, /n/, /p/ dan /s/ memiliki tingkat akurasi sebesar 80%. Fonem /h/, /i/, /m/, /w/ memiliki tingkat akurasi sebesar 90%. Fonem /e/, /q/ memiliki tingkat akurasi sebesar 70% dan fonem /j/ memiliki tingkat akurasi sebesar 20%.

Akurasi fonem tertinggi dengan menggunakan jarak Euclid range sebesar 100%, yaitu /b/, /c/, /f/, /g/, /h/, /j/, /k/, /l/, /n/, /o/, /q/, /r/, /v/, /z/. Fonem /x/ dan /y /, memiliki tingkat akurasi sebesar 60%, untuk fonem /p/ dan /s/ memiliki tingkat akurasi sebesar 80%. Fonem /a/, /d/, /i/, /m/, /u/, dan /w/ memiliki tingkat akurasi sebesar 90%. Fonem /e/ memiliki tingkat akurasi sebesar 70%.

Akurasi fonem tertinggi dengan menggunakan jarak Euclid standar deviasi sebesar 100%, yaitu /b/, /c/, /f/, /g/, /h/, /j/,

/k/, /n/, /o/, /q/, /r/, /v/, /z/. Fonem /y/, memiliki tingkat akurasi sebesar 60%, untuk fonem /p/ dan /s/ memiliki tingkat akurasi sebesar 80%. Fonem /a/, /d/, /i/, /l/, /m/, /u/, dan /w/ memiliki tingkat akurasi sebesar 90%. Fonem /e/ dan /x/ memiliki tingkat akurasi sebesar 70%.

Akurasi fonem tertinggi dengan menggunakan jarak Mahalanobis sebesar 70%, yaitu /j/. Fonem /a/, /b/, /c/, /f/, dan /g/, memiliki tingkat akurasi sebesar 20%, untuk fonem /i/, /m/, /v/, dan /w/ memiliki tingkat akurasi sebesar 40%. Fonem /e/ dan /k/ memiliki tingkat akurasi sebesar 50%. Fonem /q/, /s/ dan /z/ memiliki tingkat akurasi sebesar 60% . Fonem /d/, /h/, /r/, /u/ dan /y/ memiliki tingkat akurasi sebesar 10%.

Ada satu fonem yang tidak dapat dikenali oleh keempat metode ukuran jarak, yaitu /t/, hal ini dapat terjadi yang disebabkan pada proses segmentasi secara manual, dimana ketika melakukan pemotongan pada sinyal fonem tersebut kurang tepat.

b. Perbandingan hasil menggunakan empat metode ukuran jarak dengan overlap

50%

Hasil akurasi fonem pada overlap 50% dengan menggunakan keempat metode ukuran jarak dapat dilihat pada Gambar 12.

Gambar 12 Grafik Akurasi Fonem dengan Overlap 50%

Grafik tersebut menggambarkan bahwa terjadi penurunan akurasi dan peningkatan akurasi di beberapa fonem dari akurasi fonem dengan overlap 25%. fonem tertinggi dengan menggunakan jarak Euclid sebesar 100%, yaitu /a/, /b/, /f/, /h/, /l/, /o/, /p/, /r/, /v/, /x/, dan /z/. Ada satu fonem yang tidak dapat dikenali oleh keempat metode ukuran jarak, yaitu fonem /t/. Fonem /y/ memiliki


(11)

tingkat akurasi sebesar 60%, untuk fonem /d/, /n/, /u/, dan /w/ memiliki tingkat akurasi sebesar 80%. Fonem /c/, /g/, /i/, /k/, /m/, dan /s/ memiliki tingkat akurasi sebesar 90%, untuk fonem /e/ memiliki tingkat akurasi sebesar 70%. fonem /j/ memiliki tingkat akurasi sebesar 40% dan fonem /q/ memiliki tingkat akurasi sebesar 30%.

Pada overlap 50% hasil akurasi fonem dengan menggunakan jarak Euclid range, jarak Euclid standar deviasi memiliki perbedaan akurasi yang tidak terlalu jauh dengan metode jarak Euclid, meskipun ada beberapa penurunan dan peningkatan akurasi yang terjadi pada fonem. Peningkatan akurasi terletak pada fonem /c/ menjadi 100% dengan menggunakan jarak Euclid range, dan fonem /g/, dan /k/ menjadi sebesar 100% dengan menggunakan metode jarak Euclid range dan jarak Euclid standar deviasi, fonem /e/ dengan menggunakan jarak Euclid standar deviasi, akurasinya menjasi 80%, fonem /d/, /u/ dan /w/ akurasinya menjadi 90% dengan menggunakan jarak Euclid range dan jarak Euclid standar deviasi.

Penurunan akurasi terletak pada fonem /c/ menjadi sebesar 80% dengan menggunakan jarak Euclid standar deviasi, fonem /s/ akurasi menjadi sebesar 80% dengan menggunakan jarak Euclid range dan 70% dengan menggunakan jarak Euclid standar deviasi, dan fonem /a/ akurasi menjadi sebesar 90% dengan menggunakan jarak Euclid range dan jarak Euclid standar deviasi.

Akurasi fonem dengan menggunakan jarak Mahalanobis sangat berbeda dengan ketiga metode jarak lainnya. Akurasi fonem sebesar 90%, yaitu fonem /v/. fonem /e/ sebesar 70%, untuk fonem /j/ dan /z/ akurasinya sebesar 60%. Fonem /a/, /b/, /k/ dan /m/ akurasinya sebesar 50%. Fonem /f/ dan /y/ akurasinya sebesar 40%. Fonem /d/, /h/, /i/, /n/, /o/, /q/, /r/ dan /w/ akurasinya sebesar 20%, dan untuk fonem /c/, /g/, /l/, /u/ dan /x/ akurasi sebesar 10%. Fonem /p/ dideteksi sebagai fonem /e/, hal ini dapat disebabkan ketika dalam proses frame blocking dengan menggunakan overlap 50%, ciri yang didapat untuk fonem /p/ mirip dengan fonem /e/, dengan demikian pada saat proses deteksi, fonem /p/ dideteksi menjadi fonem /e/.

c. Perbandingan hasil menggunakan empat metode ukuran jarak dengan overlap

75%

Hasil akurasi fonem pada overlap 75% dengan menggunakan keempat metode ukuran jarak dapat dilihat pada Gambar 13.

Gambar 13 Grafik Akurasi Fonem dengan Overlap 75%

Grafik tersebut menggambarkan akurasi yang dihasilkan. hasil akurasi fonem yang didapat dengan menggunakan jarak Euclid range, jarak Euclid standar deviasi memiliki perbedaan yang tidak terlalu jauh dengan metode jarak Euclid. Perbedaan hasilnya hanya terletak pada fonem /a/ akurasi menjadi sebesar 100% dengan mengguna-kan jarak Euclid dan akurasi sebesar 90% dengan menggunakan jarak Euclid range dan jarak Euclid standar deviasi untuk fonem /a/, /d/, /m/, /u/ dan /w/, dengan menggunakan jaraj Euclid utnuk fonem /h/, /i/, /m/ dan /u/. fonem /g/ akurasinya sebesar 100 % dengan menggunakan jarak Euclid standar deviasi dan 80% dengan menggunakan jarak Euclid dan jarak Euclid rang. Fonem /b/, /c/, /f/, /h/, /o/, /r/, /v/, dan /z/ akurasinya sebesar 100 %. Fonem /x/ akurasinya 100% dengan menggunakan jarak Euclid dan 80% dengan menggunakan jarak Euclid range dan jarak Euclid standar deviasi.

Akurasi fonem dengan menggunakan jarak Mahalanobis sangat berbeda dengan ketiga metode jarak lainnya, hanya ada beberapa yang memiliki akurasi tinggi hampir sama dengan ketiga metode lainnya, yaitu fonem /q/ akurasinya sebesar 90%, fonem /h/ akurasinya sebesar 80% dan fonem /n/, /u/ dan /v/ akurasinya sebesar 70% . akurasi yang sangat jauh berbeda yaitu Fonem /b/, /o/ dan /z/ akurasinya sebesar 60%. Fonem /f/, /g/ dan /y/ akurasinya sebesar 50%. Fonem /m/ dan /s/ akurasinya sebesar 40%. Fonem /c/, /d/, /i/, /j/, /k/, dan /w/ akurasinya sebesar 20%, dan


(12)

untuk fonem /a/, /e/, /r/ dan /x/ akurasi sebesar 10%. Fonem /t/ dapat dideteksi meskipun akurasi yang dihasilkan kecil, yaitu 10%, hal ini dapat disebabkan ketika dalam proses frame blocking dengan menggunakan overlap 75%, ciri yang didapat untuk fonem /t/ bisa mewakili fonem tersebut.

Perbandingan overlap 25%, overlap 50% dan

overlap 75%

Gambar 14 memperlihatkan grafik per-bandingan tingkat akurasi dengan menggunakan overlap 25%, 50%, dan 75%. Terlihat bahwa overlap yang digunakan berpengaruh terhadap hasil akurasi yang didapat tetapi tidak berlaku ketika menggunakan jarak Euclid. Dengan metode jarak Mahalanobis, jarak Euclid standar deviasi dan jarak Euclid range semakin tinggi overlap yang digunakan maka akurasi yang dihasilkan juga meningkat, meskipun pada metode jarak Euclid range, terlihat ketika menggunakan overlap 25% dan overlap 50% tidak ada perubahan akurasi. Dengan metode jarak Euclid akurasi tertinggi ketika menggunakan overlap 50% sebesar 83.08%. Dengan metode Mahalanobis akurasi tertinggi pada overlap 75% sebesar 38.08%. Untuk metode jarak Euclid range akurasi tertinggi pada overlap 75% sebesar 88.85% dan jarak Euclid standar deviasi hasil akurasi tertinggi dengan menggunakan overlap 75% sebesar 89.23%.

Gambar 14 Perbandingan Overlap 25%, Overlap 50%, Overlap 75% KESIMPULAN DAN SARAN Kesimpulan

Dari penelitian ini dihasilkan bahwa untuk metode ukuran jarak dengan overlap 75% lebih baik dibandingkan dengan overlap 25% dan overlap 50% ketika menggunakan metode ukuran jarak euclid standar deviasi, jarak Euclid range dan jarak Mahalanobis untuk kasus

pengenalan fonem menggunakan metode ukuran jarak dengan ekstraksi ciri MFCC.

Dari keempat metode ukuran jarak yang digunakan untuk pengenalan fonem, metode dengan jarak Euclid standar deviasi yang lebih baik dibandingkan dari ketiga metode ukuran jarak lainnya, dengan mengunakan overlap 75% akurasinya sebesar 89.23%. Pengenalan fonem menggunakan metode ukuran jarak dengan MFCC sebagai ekstraksi ciri kurang baik digunakan ketika menggunakan metode ukuran jarak Mahalanobis, karena akurasi yang dihasilkan di bawah 50%.

Saran

Penelitian ini masih memungkinkan untuk dikembangkan lagi ke tahap berikutnya yaitu, pengenalan kata berbasis fonem, dengan melakukan segmentasi secara otomatis dengan menggunakan auto correlation. Selain itu, data yang digunakan dapat ditambahkan lagi dengan jumlah data yang lebih banyak dan kata yang lebih bervariasi dengan demikian dapat mewakili untuk tiap fonem yang berada di posisi depan, tengah, belakang, dan melakukan perekaman suara dengan menggunakan beberapa suara orang yang berbeda.

DAFTAR PUSTAKA

Aprillia, Helli. 2009. Pengembangan Model Pengenalan Kata dengan MFCC sebagai Ekstraksi Ciri dan PNN sebagai Pengenalan Pola. [skripsi]. Bogor : Departemen Ilmu Komputer, IPB.

Buono, Agus. 2009. Representasi Nilai Hos dan Model MFCC sebagai Ekstraksi Ciri pada Sistem Identifikasi pembicara di Lingkungan Ber-Noise Menggunakan HMM. [Disertasi]. Jakarta : Departemen Ilmu Komputer, Universitas Indonesia. Do MN. 1994. Digital Signal Processing

Mini-Project : An Automatic Recognation System. Audio Visual Communication Laboratoru, Swiss Federal Institute of Technology, Switzerland.

Hand D, Mannila H, Smyth P. 2001.Principle of Data Mining. America : United States of America.

Mustofa, Ali. 2007. Sistem Pengenalan Penutur dengan Metode Mel-frequency. Teknik Elektro. Volume 7 No 2, hal 88-96, September 2007.

Tim Redaksi Kamus Besar Bahasa Indonesia Pusat Bahasa. 2008. Kamus Besar Bahasa Indonesia Edisi Keempat. Jakarta : PT. Gramedia, Pustaka Utama.


(13)

untuk fonem /a/, /e/, /r/ dan /x/ akurasi sebesar 10%. Fonem /t/ dapat dideteksi meskipun akurasi yang dihasilkan kecil, yaitu 10%, hal ini dapat disebabkan ketika dalam proses frame blocking dengan menggunakan overlap 75%, ciri yang didapat untuk fonem /t/ bisa mewakili fonem tersebut.

Perbandingan overlap 25%, overlap 50% dan

overlap 75%

Gambar 14 memperlihatkan grafik per-bandingan tingkat akurasi dengan menggunakan overlap 25%, 50%, dan 75%. Terlihat bahwa overlap yang digunakan berpengaruh terhadap hasil akurasi yang didapat tetapi tidak berlaku ketika menggunakan jarak Euclid. Dengan metode jarak Mahalanobis, jarak Euclid standar deviasi dan jarak Euclid range semakin tinggi overlap yang digunakan maka akurasi yang dihasilkan juga meningkat, meskipun pada metode jarak Euclid range, terlihat ketika menggunakan overlap 25% dan overlap 50% tidak ada perubahan akurasi. Dengan metode jarak Euclid akurasi tertinggi ketika menggunakan overlap 50% sebesar 83.08%. Dengan metode Mahalanobis akurasi tertinggi pada overlap 75% sebesar 38.08%. Untuk metode jarak Euclid range akurasi tertinggi pada overlap 75% sebesar 88.85% dan jarak Euclid standar deviasi hasil akurasi tertinggi dengan menggunakan overlap 75% sebesar 89.23%.

Gambar 14 Perbandingan Overlap 25%, Overlap 50%, Overlap 75% KESIMPULAN DAN SARAN Kesimpulan

Dari penelitian ini dihasilkan bahwa untuk metode ukuran jarak dengan overlap 75% lebih baik dibandingkan dengan overlap 25% dan overlap 50% ketika menggunakan metode ukuran jarak euclid standar deviasi, jarak Euclid range dan jarak Mahalanobis untuk kasus

pengenalan fonem menggunakan metode ukuran jarak dengan ekstraksi ciri MFCC.

Dari keempat metode ukuran jarak yang digunakan untuk pengenalan fonem, metode dengan jarak Euclid standar deviasi yang lebih baik dibandingkan dari ketiga metode ukuran jarak lainnya, dengan mengunakan overlap 75% akurasinya sebesar 89.23%. Pengenalan fonem menggunakan metode ukuran jarak dengan MFCC sebagai ekstraksi ciri kurang baik digunakan ketika menggunakan metode ukuran jarak Mahalanobis, karena akurasi yang dihasilkan di bawah 50%.

Saran

Penelitian ini masih memungkinkan untuk dikembangkan lagi ke tahap berikutnya yaitu, pengenalan kata berbasis fonem, dengan melakukan segmentasi secara otomatis dengan menggunakan auto correlation. Selain itu, data yang digunakan dapat ditambahkan lagi dengan jumlah data yang lebih banyak dan kata yang lebih bervariasi dengan demikian dapat mewakili untuk tiap fonem yang berada di posisi depan, tengah, belakang, dan melakukan perekaman suara dengan menggunakan beberapa suara orang yang berbeda.

DAFTAR PUSTAKA

Aprillia, Helli. 2009. Pengembangan Model Pengenalan Kata dengan MFCC sebagai Ekstraksi Ciri dan PNN sebagai Pengenalan Pola. [skripsi]. Bogor : Departemen Ilmu Komputer, IPB.

Buono, Agus. 2009. Representasi Nilai Hos dan Model MFCC sebagai Ekstraksi Ciri pada Sistem Identifikasi pembicara di Lingkungan Ber-Noise Menggunakan HMM. [Disertasi]. Jakarta : Departemen Ilmu Komputer, Universitas Indonesia. Do MN. 1994. Digital Signal Processing

Mini-Project : An Automatic Recognation System. Audio Visual Communication Laboratoru, Swiss Federal Institute of Technology, Switzerland.

Hand D, Mannila H, Smyth P. 2001.Principle of Data Mining. America : United States of America.

Mustofa, Ali. 2007. Sistem Pengenalan Penutur dengan Metode Mel-frequency. Teknik Elektro. Volume 7 No 2, hal 88-96, September 2007.

Tim Redaksi Kamus Besar Bahasa Indonesia Pusat Bahasa. 2008. Kamus Besar Bahasa Indonesia Edisi Keempat. Jakarta : PT. Gramedia, Pustaka Utama.


(14)

PERBANDINGAN BERBAGAI METODE UKURAN JARAK

UNTUK PENGENALAN FONEM DENGAN MFCC

SEBAGAI EKSTRAKSI CIRI

YULIANA SURI

DAPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2011


(15)

PERBANDINGAN BERBAGAI METODE UKURAN JARAK

UNTUK PENGENALAN FONEM DENGAN MFCC

SEBAGAI EKSTRAKSI CIRI

YULIANA SURI

DAPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2011


(16)

ABSTRACT

YULIANA SURI. The comparison of various methods of distance measure for phoneme recognition with MFCC as feature extraction. Supervised by AGUS BUONO.

This phoneme based voice recognition is included in the developing technology, speech to text that is a part of speech recognition. This study uses four distance measurement methods; euclidean distance, deviation standard euclidean distance, range euclidean distance and mahalanobis distance as pattern recognition, mel frequency cepstrum coefficient (MFCC) as extraction characteristic.

The data used in this study consist of eleven words in Indonesian language, coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, and zakat. Phonemes are produced by segmentation process as much as twenty six phonemes, and then trained by distance measurement method to produce model. This study produces four models, using one data separation; 50% : 50%.Three overlaps; 75%, 50% and 25%. From the four distance measurement methods that used in phoneme recognition, deviation standard euclid distance method are the best of all methods, by using overlap 75% the accuracy is 89.23%.

Keywords: Measuring Distance, Euclidean Distance, Deviation Standard Euclidean Distance, Range Euclidean Distance, Mahalanobis Distance, Mel Frequency Cepstrum Coefficients (MFCC), Phonemes.


(17)

PERBANDINGAN BERBAGAI METODE UKURAN JARAK

UNTUK PENGENALAN FONEM DENGAN MFCC

SEBAGAI EKSTRAKSI CIRI

YULIANA SURI

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DAPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2011


(18)

Judul Penelitian : Perbandingan Berbagai Metode Ukuran Jarak Untuk Pengenalan Fonem Dengan MFCC Sebagai Ekstraksi Ciri

Nama : Yuliana Suri

NRP : G64086020

Menyetujui: Pembimbing,

Dr. Ir. Agus Buono, M.Si., M.Kom. NIP. 19660702 199302 1 001

Mengetahui:

Ketua Departemen Ilmu Komputer,

Dr. Ir. Sri Nurdiati, M.Sc. NIP. 19601126 198601 2 001


(19)

PRAKATA

Alhamdulillahi Robbil a’lamin, segala puji penulis haturkan kepada Allah SWT yang telah

melimpahkan rahmat dan karunia yang tak terbatas sehingga penulis dapat menyelesaikan tugas akhir ini. Sholawat serta salam selalu tercurahkan untuk Rasulullah SAW, sahabat, keluarga dan pengikutnya yang menjalankan risalah-Nya.

Penulis menyadari bahwa keberhasilan penyelesaian tugas akhir ini tidak terlepas dari pihak-pihak yang telah banyak membantu. Oleh karena itu, penulis sampaikan terima kasih kepada Bapak Dr. Ir. Agus Buono, M. Si., M. Komp. sebagai pembimbing yang selalu sabar dalam memberikan arahan dan saran selama penyelesaian tugas akhir ini, serta Ibu Dr. Yeni Herdiyeni M.kom. dan Bapak Aziz Kustiyo, S.Si, M.Kom yang telah bersedia menjadi moderator dan penguji dalam seminar dan sidang penulis.

Penulis ucapkan terima kasih kepada seluruh keluarga khususnya orang tua penulis yang tiada henti-hentinya memberikan doa, dukungan, pendidikan dan kepercayaan penuh atas apa yang penulis kerjakan hingga saat ini, juga kepada saudara-saudara dan kakak Adi yang selalu memberikan keceriaan, doa, semangat, dan dukungan selama ini. Penulis ucapkan terima kasih kepada teman-teman Ilkom 03 penulis ucapkan terima kasih karena telah memberikan keceriaan dan persahabatannya. Kepada Eva Natalis Sinuhaji, Ihsan Satria Rama dan Azhari Harahap yang bersedia menjadi pembahas dalam seminar tugas akhir penulis ucapkan terima kasih. Kepada teman-teman di M5 yang telah memenuhi hari-hari penulis menjadi lebih berwarna penulis mengucapkan terima kasih untuk Setia Agustini, Ayu dan Nares karena sudah memberikan dukungan selama mengerjakan tugas akhir. Kemudian penulis sampaikan terima kasih kepada seluruh staf dan karyawan Departemen Ilmu Komputer, serta seluruh pihak lainnya yang tidak dapat disebutkan satu persatu.

Penulis menyadari bahwa dalam penelitian ini masih terdapat kekurangan, sehingga kritik dan saran yang membangun penulis harapkan dari semua pihak. Semoga penelitian ini bermanfaat. Amin

Bogor, Juni 2011


(20)

RIWAYAT HIDUP

Penulis dilahirkan pada tanggal 09 Agustus 1987 di Baturaja. Penulis merupakan anak ketiga dari empat bersaudara pasangan Kadarusman dan Nurjanah.

Penulis mulai memasuki dunia pendidikan tahun 1990 di TK PU Baturaja. Penulis melanjutkan pendidikan ke Sekolah Dasar Negeri 6 Baturaja, kemudian penulis melanjutkan ke Sekolah Lanjut Tingkat Pertama Negeri 1 Baturaja, selanjutnya penulis melanjutkan pendidikan di Sekolah Menengah Umum Negeri 13 Bandar Lampung. Tahun 2005 penulis terdaftar sebagai mahasiswi Universitas Lampung pada Jurusan Matematika Program Studi Sistem Informasi. Tahun 2008 penulis melanjutkan lagi pendidikan di Institut Pertanian Bogor Fakultas Matematika dan Ilmu Pengetahuan Alam, Dapartemen Ilmu Komputer.


(21)

DAFTAR ISI

Halaman

DAFTAR TABEL ... v

DAFTAR GAMBAR ... v

LAMPIRAN ... v

PENDAHULUAN Latar Belakang ... 1

Tujuan Penelitian ... 1

Ruang Lingkup Penelitian ... 1

Manfaat Penelitian ... 1

TINJAUAN PUSTAKA Sinyal Suara ... 1

Fonem ... 2

Mel Frequency Cepstrum Coeffisients (MFCC) ... 2

Frame Blocking dan Windowing ... 2

Fast Fourier Transform (FFT) ... 2

Wrapping dan Cepstrum Coeffisient ... 2

Ukuran Jarak ... 3

Jarak Euclid ... 3

Jarak Euclid Standar Deviasi ... 4

Jarak Euclid Range ... 4

Jarak Mahalanobis ... 4

METODOLOGI PENELITIAN Data ... 4

Proses Pengenalan Suara ... 4

HASIL DAN PEMBAHASAN Hasil Pengujian dengan Pembagian Data 50% : 50% ... 7

Perbandingan Hasil Menggunakan Empat Metode Ukuran Jarak dengan Overlap 25 % ... 7

Perbandingan Hasil Menggunakan Empat Metode Ukuran Jarak dengan Overlap 50% ... 7

Perbandingan Hasil Menggunakan Empat Metode Ukuran Jarak dengan Overlap 75% ... 8

Perbandingan Overlap 25%, Overlap 50%, dan Overlap 75% ... 9

KESIMPULAN DAN SARAN Kesimpulan ... 9

Saran ... 9 DAFTAR PUSTAKA


(22)

DAFTAR TABEL

Halaman 1 Daftar Fonem ... 5 2 Jumlah Fonem ... 5

DAFTAR GAMBAR

Halaman 1 Sinyal Suara ... 1 2 Diagram Alur Teknik MFCC ... 2 3 Grafik Hubungan Frekuensi dengan Skala Mel ... 3 4 Filter yang digunakan (10 linear dan 10 logaritmik) ... 3 5 Proses Penghapusan Sinyal Silent ... 4 6 Proses Pengenalan Fonem ... 5 7 Segmentasi Sinyal Secara Manual ... 5 8 Proses Ekstraksi Ciri ... 6 9 Proses Frame Blocking dan windowing ... 6 10 Proses FFT ... 6 11 Grafik Akurasi Fonem dengan overlap 25% ... 7 12 Grafik Akurasi Fonem dengan overlap 50% ... 8 13 Grafik Akurasi Fonem dengan overlap 75% ... 9 14 Perbandingan overlap 25%, overlap 50%, dan overlap 75% ... 9

LAMPIRAN

Halaman 1 Tampilan Awal Sistem Pengenalan Fonem ... 11 2 Tampilan Hasil Sistem Pengenalan Fonem ... 12 3 Hasil Akurasi Pengenalan Fonem dengan Overlap 25% ... 13 4 Hasil Akurasi Pengenalan Fonem dengan Overlap 50% ... 14 5 Hasil Akurasi Pengenalan Fonem dengan Overlap 75% ... 15 6 Grafik Rata-rata Hasil Akurasi Pengenalan Fonem ... 16


(23)

PENDAHULUAN Latar Belakang

Pengenalan suara berbasiskan fonem termasuk dalam bidang teknologi yang sedang dikembangkan, yaitu speech to text yang merupakan bagian dari speech recognition, banyak orang yang tertarik untuk melakukan penelitian pada bidang ini. Pengenalan fonem adalah dasar dari pengenalan kata. Fonem diambil dari kata yang diucapkan manusia dengan cara merekam kata tersebut. Pada kata tersebut akan diambil informasi fonem yang terkandung di dalamnya, dengan mengambil ciri dari tiap fonemnya yang kemudian akan dibuat sebuah pola yang digunakan untuk membuat suatu model aplikasi pengenalan fonem.

Terdapat beberapa penelitian yang dilakukan dalam bidang suara khususnya yang dilakukan untuk pengenalan fonem, dengan menggunakan metode pengenalan pola yang berbeda-beda, seperti Perbandingan Metode Wavelet Daubechies dan MFCC sebagai Ekstraksi ciri pada Pengenalan Fonem Berdasarkan Distribusi Normal yang dilakukan oleh Ni Wayan Sudarmi. Perbandingan Pemodelan Wavelet Daubechies dan MFCC sebagai Ekstraksi ciri pada Pengenalan Fonem dengan Teknik Jaringan Syaraf Tiruan yang dilakukan oleh Mutia Fijri Taufani.

Masih banyak metode-metode yang dapat digunakan untuk proses pengenalan pola sinyal suara, di antaranya Probabilistic Neural Network (PNN), Hidden Markov Model (HMM), Ukuran Jarak ( jarak Euclid, Jarak Euclid Standar Deviasi, Jarak Euclid Range dan Jarak Mahalanobis) dan lain sebagainya. Metode yang sering digunakan untuk ekstraksi ciri sinyal suara, di antaranya Linier Prediction Coding (LPC), Mel Frequency Cepstrum Coefficients (MFCC), Neural Predictive Coding (NPC), dan lain sebagainya

Pada penelitian kali ini akan digunakan empat metode ukuran jarak, yaitu Jarak Euclid, Jarak Euclid Standar Deviasi, Jarak Euclid Range dan Jarak Mahalanobis sebagai pengenalan pola Mel Frequency Cepstrum Coefficients (MFCC) sebagai ekstraksi ciri. Tujuan Penelitian

Penelitan ini bertujuan melakukan perbandingan empat metode ukuran jarak, yaitu Jarak Euclid, Jarak Euclid Standar Deviasi, Jarak Euclid range dan Jarak Mahalanobis sebagai pengenalan pola dengan menggunakan MFCC sebagai ekstraksi ciri.

Ruang Lingkup Penelitian

Ruang lingkup penelitian ini adalah : 1. Kata-kata yang digunakan adalah kata yang

berbahasa Indonesia.

2. Data suara yang digunakan diambil dengan merekam kata. Kata yang digunakan sebanyak 11 kata, yaitu coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat. Tiap-tiap kata direkam sebanyak 20 kali dan menggunakan satu orang untuk merekam kata tersebut.

3. Penelitian hanya dilakukan untuk melakukan pengenalan fonem. Fonem yang digunakan sebanyak 26 fonem, yaitu /a/ sampai /z/.

4. Mengolah data fonem dari sinyal rekaman suara dengan model pengolahan menggunakan metode ukuran jarak dan ektraksi ciri sinyal suara dengan menggunakan MFCC.

Manfaat Penelitian

Penelitian ini diharapkan dapat mem-perlihatkan dan memberikan informasi akurasi dari perbandingan empat metode ukuran jarak yang digunakan untuk pengenalan fonem, dengan menerapkan MFCC sebagai ekstraksi ciri untuk pengolahan fonem. Selain itu model yang telah dibangun diharapkan dapat dikembangkan lagi ketahap pengenalan kata.

TINJAUAN PUSTAKA Sinyal Suara

Sinyal didefinisikan sebagai besaran fisik yang berubah-ubah menurut waktu, ruang, atau variabel bebas atau variabel-variabel lainnya.

Menurut Pelton (1993) diacu dalam Aprillia (2009) sinyal suara manusia dibangkitkan dari tekanan udara paru-paru yang menyebabkan vocal chords bergetar, efek dari getaran tersebut menyebabkan tekanan udara ke lubang vokal dengan frekuensi getaran yang bervariasi, pada akhirnya melalui bibir dan lubang hidung keluar tekanan gelombang sinyal suara. Pada Gambar 1 dapat dilihat contoh sinyal suara.

Gambar 1 Sinyal Suara


(24)

Fonem

Fonem merupakan bagian yang terkecil dari kata yang tidak dapat dipecah lagi, yang masih bisa menunjukkan perbedaan makna. Misal, /h/ adalah fonem karena membedakan makna kata “harus” dan “arus”, /b/ dan /p/ adalah dua fonem yang berbeda karena “bara” dan “para” berbeda maknanya. (Tim Redaksi Kamus Besar Bahasa Indonesia Pusat Bahasa, 2008). Fonem dibagi menjadi dua, yaitu:

1. Fonem vokal, jumlah fonem vokal ada lima, yaitu /a/, /i/, /u/, /e/, dan /o/.

2. Fonem konsonan, jumlah fonem konsonan ada 21, yaitu /b/, /c/, /d/, /f/, /g/, /h/, /j/, /k/, /l/, /m/, /n/, /p/, /q/, /r/, /s/, /t/, /v/, /w/, /x/, /y/, dan /z/.

Mel Frequency Cepstrum Coefficients

(MFCC)

Ekstraksi ciri MFCC merupakan suatu teknik yang digunakan untuk menghasilkan suatu vektor yang digunakan sebagai penciri. Ciri tersebut adalah koefisien cepstral, koefisien cepstral yang digunakan tetap memper-timbangkan pendengaran manusia. Tahapan proses MFCC sebagai berikut (Do 1994) : 1. Frame Blocking dan Windowing 2. Fast Fourier Transform (FFT) 3. Mel Frequency Wrapping 4. Cepstrum Coeffisient

Diagram alur dari teknik MFCC yang digunakan untuk mengekstrak sinyal terlihat pada Gambar 2 (Buono, 2009):

Gambar 2 Diagram Alur teknik MFCC

Frame Blocking dan Windowing

Sinyal suara asli yang telah dihapus silent nya dan disegmentasi akan dilakukan proses frame blocking. Frame blocking merupakan proses pembagian suara menjadi beberapa frame dimana tiap frame terdapat N sample dengan overlap antar frame M sample.

Tahapan selanjutnya akan dilakukan windowing terhadap masing-masing frame. Dalam hal ini setiap frame sinyal suara dikalikan dengan fungsi windowing yang berukuran sama dengan ukuran frame, ekspresi matematika yang digunakan dapat dilihat pada persamaan (2). Umumnya, window yang digunakan adalah window Hamming. Ekspresi matematika untuk pembentukan window Hamming dapat dilihat pada persamaan (1).

(1) dan

Yi(n) = Xi(n)d(n) 0 < n < N – 1 (2)

Setelah dilakukan frame blocking dan windowing, selanjutnya akan dilakukan proses ekstraksi ciri (feature extraction). Dalam proses ini akan digunakan transformasi fast fourier.

Fast Fourier Transform (FFT)

Frame yang dihasilkan dari proses sebelunya akan dilanjutkan ke proses FFT. FFT merupakan Fast algorithm dari Discrete Fourier Transform (DFT) yang berguna untuk mengubah setiap frame dari domain waktu menjadi domain frekuensi, sebagaimana didefinisikan pada persamaan berikut :

dengan n= 0, 1, 2, …, N-1. j digunakan untuk notasi unit imajiner, yaitu j= . Secara umum hasil rangkaian {Xk} direpresentasikan

sebagai berikut : frekuensi positif 0 < f < Fs

yang merepresentasikan nilai 0 < n < (N/2)-1, frekuensi negatif – Fs/2 < f < 0 yang

merepresentasikan nilai (N/2)+1 < n < (N-1). Fs berarti sampling. Frequency hasil akhir dari langkah ini disebut dengan spectrum sinyal atau periodogram.

Wrapping dan cepstrum coeffisient

Proses Wrapping memerlukan beberapa filter yang saling overlap dalam domain frekuensi. Filter yang digunakan adalah bentuk segitiga dalam tinggi satu. Filter yang dibentuk


(25)

memiliki jarak antar pusat filter adalah konstan pada ruang frekuensi mel. Dari literatur yang ada, skala mel ini dibentuk untuk mengikuti persepsi sistem pendengaran manusia yang bersifat linear untuk frekuensi rendah dan logaritmik untuk frekuensi tinggi, dengan batas pada nilai frekuensi akustik sebesar 1000 Hz. Grafik hubungan antara skala mel dan frekuensi dapat dilihat pada Gambar 3 dan filter yang digunakan dapat dilihat pada Gambar 4.

Gambar 3 Grafik Hubungan Frekuensi dengan Skala Mel .

Gambar 4 Filter yang digunakan (10 linear dan 10 logaritmik) .

Dari M filter yang sudah dibentuk, maka dilakukan wrapping terhadap sinyal domain frekuensi dan menghasilkan satu komponen untuk setiap filter dengan menggunakan rumus (Buono, 2009):

dengan i = 1,2,3,…,M dan Hi(k) adalah nilai

filter segitiga ke-i untuk frekuensi akustik sebesar k.

Hasil dari spectrum mel ini kemudian akan dipilih cepstrum coeffisien, nilai koefisien diperoleh dengan menggunakan transformasi cosinus, rumus yang digunakan adalah persamaan (5) :

(5) dengan j =1,2,3...K yang merupakan jumlah cepstrum coeffisient dan M merupakan jumlah filter.

Ukuran Jarak

Ukuran jarak digunakan ketika terdapat dua objek yang berada pada titik yang berbeda, jarak antar objek sering juga disebut dengan ukuran kemiripan atau similarity. jarak istilah informal sering digunakan untuk mengukur perbedaan yang berasal dari objek untuk menggambarkan karakteristik, seperti dalam jarak Euclidean.

Andaikan P dan Q adalah dua titik pada suatu ruang, maka suatu fungsi bernilai real f(P,Q) disebut sebagai fungsi jarak jika memenuhi sifat berikut (Hand, Mannila, Smyth 2001) :

a. symetry, yaitu untuk semua

i dan j.

b. non-negativity, yaitu : untuk semua i dan j.

c. identification mark, yaitu : . Fungsi jarak juga disebut metrik jika memenuhi tiga kondisi ukuran perbedaan, yaitu: 1. definiteness, jika dan hanya jika

i = j.

2. untuk semua i,

j dan k.

Kondisi kedua disebut juga dengan ketidaksetaraan segitiga (triangle inequality) Beberapa jenis ukuran jarak yang dikenal, yaitu Jarak Euclid, Jarak Euclid standar deviasi, Jarak Euclid range,dan Jarak Mahalanobis.

Jarak Euclid

Prinsip dasar yang digunakan pada metode jarak Euclid adalah dengan mengukur jarak antar dua titik (x dan y), dengan x adalah sinyal suara yang tidak diketahui (data testing) dengan y adalah pola sinyal suara yang telah diketahui (data training). Persamaan yang digunakan untuk menghitung jarak euclid dapat didefinisikan dengan jarak Euclid antara dua titik , yaitu X = (x1, x2, x3,... xn ) dan Y = (y1, y2,

y3,... yn ), Perhitungan jarak tersebut yaitu


(26)

dengan adalah jarak antara sinyal data testing dengan data training. Setelah didapat jarak antara dua data tersebut maka untuk mengambil keputusan mana jarak yang minimum menggunakam rumus berikut : jarak = min di(x,y) , (7)

dengan di(x,y) adalah nilai jarak yang

didapat. Semakin kecil jarak yang dihasilkan antar dua data (data testing dan data training), maka semakin besar kemiripan antar dua data tersebut.

Jarak Euclid Standar Deviasi

Terkadang data yang sering digunakan adalah data set dimana variabel tidak sepadan, oleh karena itu, untuk mengatasi hal tersebut strategi umum yang digunakan adalah menstandarkan data dengan membagi setiap variabel dengan deviasi sampel standar, sehingga semua data dianggap sama pentingnya. Dengan demikian rumus jarak Euclid standar deviasi adalah (Hand, Mannila, Smyth 2001) :

dengan adalah 1/ untuk mencari nilai standar deviasi menggunakan rumus berikut :

dengan adalah nilai rata-rata dari data yang digunakan, adalah banyaknya data. Jarak Euclid Range

Jarak Euclid range dihitung dengan menggunakan rumus (10) (Hand, Mannila, Smyth 2001):

dengan adalah untuk mencari nilai range menggunakan rumus berikut :

Jarak Mahalanobis

Jarak Mahalanobis dihitung dengan menggunakan rumus (12) (Hand, Mannila, Smyth 2001):

dengan T adalah transpose, adalah invers dari covarian. Untuk mencari nilai covarian menggunakan rumus berikut :

dengan adalah nilai rata-rata dari data yang digunakan, n adalah banyaknya data.

METODOLOGI PENELITIAN Data

Data yang digunakan pada penelitian ini adalah rekaman dari sinyal suara yang telah dikonversi ke bentuk dijital. Kata yang digunakan sebanyak 11 kata, Masing-masing kata direkam sebanyak 20 kali perulangan.

Perekaman suara dilakukan menggunakan ukuran waktu 1 detik dengan sampling rate (fs) 12.000 Hz. Data sinyal suara tersebut dibagi menjadi dua jenis data, yaitu :

1.

Data training : untuk pembelajaran yang dilakukan oleh komputer.

2.

Data testing : untuk uji coba pada data training.

Proses Pengenalan Suara

Proses pembuatan model pengenalan fonem dilakukan dalam beberapa tahapan, terlihat pada Gambar 6. Penjabaran dari tahapan proses pegolahan fonem yang dilakukan, yaitu : 1. Koleksi data suara

Berisi data suara dari 11 kata yang telah direkam. Kata-kata yang digunakan, yaitu coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat, dengan menggunakan suara satu orang.

2. Penghapus sinyal silent

Sinyal suara tersebut dihapus pada bagian silent, yang disimpan hanya sinyal suara yang terdapat suara rekaman kata saja. Ilustrasi dari proses penghapusan silent, terlihat pada Gambar 5 :


(27)

Gambar 6 Proses Pengenalan Fonem 3. Segmentasi sinyal

Sinyal suara kata yang telah dihilangkan silent-nya dipotong berdasarkan fonemnya. Proses segmentasi sinyal suara dilakukan secara manual. Ilustrasi dari proses segmentasi sinyal secara manual, terlihat pada Gambar 7 :

Gambar 7 Segmentasi Sinyal Secara Manual Segmentasi sinyal menghasilkan daftar fonem /a/ sampai /z/ yang akan digunakan dalam proses selanjutnya, daftar fonem dapat dilihat pada Tabel 1:

Tabel 1 Daftar fonem

Fonem kata

/j/, /y/ jaya

/c/, /o/, /b/, /a/ Coba /w/, /e/, /d/ Weda

/f/ Fana

/g/, /h/ Gajah

/v/, /s/ Visa

/z/, /k/, /t/ Zakat /m/, /l/,/u/ Malu /q/, /r/, /n/ Quran

/p/, Pacu

/i/, /x/ Tip-x

Jumlah tiap-tiap fonem yang digunakan dalam penelitian dapat dilihat pada Tabel 2 : Tabel 2 Jumlah fonem

Fonem Jumlah Fonem Jumlah

/a/ 20 /n/ 20

/b/ 20 /o/ 20

/c/ 20 /p/ 20

/d/ 20 /q/ 20

/e/ 20 /r/ 20

/f/ 20 /s/ 20

/g/ 20 /t/ 20

/h/ 20 /u/ 20

/i/ 20 /v/ 20

/j/ 20 /w/ 20

/k/ 20 /x/ 20

/l/ 20 /y/ 20

/m/ 20 /z/ 20

4. Pembagian data

Data dibagi menjadi data training dan data testing dengan menggunakan satu macam proporsi pembagian , yaitu 50%:50%. 5. Ekstraksi ciri

Proses ekstrasi ciri menggunakan Mel Frequency Cepstrum Coefficients (MFCC). Ilustrasi dari proses ekstraksi ciri, terlihat pada Gambar 8 (Buono, 2009) :

Mulai

Koleksi data suara

Penghapusan silent

Segmentasi sinyal secara manual

Data training Data testing

Ekstraksi ciri dengan MFCC

Pemodelan dengan : 1. Jarak Euclid

2. Jarak Euclid Standar Deviasi 3. Jarak Euclid range

4. Jarak Mahalanobis

Proses pencocokan selesai Repository Model fonem Perhitungan tingkat akurasi


(28)

Gambar 8 Proses ekstraksi ciri

Pada penelitian ini panjang frame yang digunakan adalah 30ms dengan tiap frame memiliki 360 data. Untuk Overlap antar frame menggunakan tiga overlap yang berbeda, yaitu 25%, 50%, dan 75%. Tujuan digunakannya overlap pada proses frame blocking ini adalah agar tidak ada sedikitpun sinyal yang hilang. Selanjutnya, proses windowing menggunakan Hamming window, karena rumusnya yang sederhana. Ilustrasi dari frame blocking dan windowing dapat dilihat pada Gambar 9 :

Gambar 9 Proses Frame Blocking dan Windowing

Tujuan dari windowing adalah untuk meminimalkan ketidakkontinuan sinyal pada awal dan akhir setiap frame. Proses ini membuat sinyal menuju nol pada awal dan akhir setiap frame. panjang window sama dengan panjang frame.

Proses FFT digunakan untuk mengubah setiap frame yang telah dihasilkan dari proses sebelumnya dari domain waktu menjadi domain frekuensi, dengan demikian dapat diamati lebih mudah. Ilustrasi dari proses FFT dapat dilihat pada Gambar 10.

Gambar 10 Proses FFT

Selanjutnya proses wrapping, dalam proses ini diperlukan filter, dengan demikian akan dibentuk M filter terlebih dahulu, sebelum proses wrapping dilakukan. Selanjutnya proses Discrete Cosine Transform (DCT) dilakukan untuk mendapatkan coefisien ceptrum. Coefisient ceptrum ini yang merupakan output dari proses MFCC.

6. Pembuatan model dengan ukuran jarak

Hasil ekstrasi ciri berupa matriks nxk, k adalah koefisien dan n adalah jumlah frame. Pada matriks tersebut dilakukan proses perata-rataan menjadi 1xn yang berfungsi untuk menyamakan ukuran matriks yang akan digunakan.

7. Pencocokan model

pencocokan model sinyal suara dilakukan dengan menggunakan empat metode ukuran jarak, yaitu Jarak Euclid, Jarak Euclid Standar Deviasi, Jarak Euclid Range dan Jarak Mahalanobis.

8. Pengujian

Proses pengujian dilakukan dengan memasukkan data testing untuk diolah dan dicocokkan dengan data training. hasil yang didapat akan dihitung akurasinya dengan rumus berikut ini:

Frame ke-i x(1)

x(2) ….. x(360)

Contoh 4 6 9 3 5 10 8 12 Hasil frame 4 6 9 3 9 3 5 10 5 10 8 12 Windowing Yi(n) = Xi(n)d(n)

W(u)=0.54+0.46cos(2πn/N-1) x(1) x(2) ….. x(360) Frame yang didapat dikalikan dengan Hamming window


(29)

HASIL DAN PEMBAHASAN Hasil Pengujian dengan pembagian data 50%:50%

Pengujian dilakukan dengan menggunakan tiga overlap yang berbeda, yaitu overlap 25%, 50%, 75% dan empat metode ukuran jarak, yaitu jarak Euclid, jarak Euclid standar deviasi, jarak Euclid range,dan jarak Mahalanobis. a. Perbandingan hasil menggunakan empat

metode ukuran jarak dengan overlap

25%

Hasil akurasi fonem pada overlap 25% dengan menggunakan empat metode ukuran jarak dapat dilihat pada Gambar 11.

Gambar 11 Grafik Akurasi Fonem dengan Overlap 25%

Pada grafik tersebut terlihat bahwa akurasi fonem tertinggi dengan menggunakan jarak Euclid sebesar 100%, yaitu /a/, /b/, /c/, /f/, /k/, /l/, /o/, /r/, /v/, /x/, /z/. Fonem /y /, memiliki tingkat akurasi sebesar 60%, untuk fonem /d/, /g/, /n/, /p/ dan /s/ memiliki tingkat akurasi sebesar 80%. Fonem /h/, /i/, /m/, /w/ memiliki tingkat akurasi sebesar 90%. Fonem /e/, /q/ memiliki tingkat akurasi sebesar 70% dan fonem /j/ memiliki tingkat akurasi sebesar 20%.

Akurasi fonem tertinggi dengan menggunakan jarak Euclid range sebesar 100%, yaitu /b/, /c/, /f/, /g/, /h/, /j/, /k/, /l/, /n/, /o/, /q/, /r/, /v/, /z/. Fonem /x/ dan /y /, memiliki tingkat akurasi sebesar 60%, untuk fonem /p/ dan /s/ memiliki tingkat akurasi sebesar 80%. Fonem /a/, /d/, /i/, /m/, /u/, dan /w/ memiliki tingkat akurasi sebesar 90%. Fonem /e/ memiliki tingkat akurasi sebesar 70%.

Akurasi fonem tertinggi dengan menggunakan jarak Euclid standar deviasi sebesar 100%, yaitu /b/, /c/, /f/, /g/, /h/, /j/,

/k/, /n/, /o/, /q/, /r/, /v/, /z/. Fonem /y/, memiliki tingkat akurasi sebesar 60%, untuk fonem /p/ dan /s/ memiliki tingkat akurasi sebesar 80%. Fonem /a/, /d/, /i/, /l/, /m/, /u/, dan /w/ memiliki tingkat akurasi sebesar 90%. Fonem /e/ dan /x/ memiliki tingkat akurasi sebesar 70%.

Akurasi fonem tertinggi dengan menggunakan jarak Mahalanobis sebesar 70%, yaitu /j/. Fonem /a/, /b/, /c/, /f/, dan /g/, memiliki tingkat akurasi sebesar 20%, untuk fonem /i/, /m/, /v/, dan /w/ memiliki tingkat akurasi sebesar 40%. Fonem /e/ dan /k/ memiliki tingkat akurasi sebesar 50%. Fonem /q/, /s/ dan /z/ memiliki tingkat akurasi sebesar 60% . Fonem /d/, /h/, /r/, /u/ dan /y/ memiliki tingkat akurasi sebesar 10%.

Ada satu fonem yang tidak dapat dikenali oleh keempat metode ukuran jarak, yaitu /t/, hal ini dapat terjadi yang disebabkan pada proses segmentasi secara manual, dimana ketika melakukan pemotongan pada sinyal fonem tersebut kurang tepat.

b. Perbandingan hasil menggunakan empat metode ukuran jarak dengan overlap

50%

Hasil akurasi fonem pada overlap 50% dengan menggunakan keempat metode ukuran jarak dapat dilihat pada Gambar 12.

Gambar 12 Grafik Akurasi Fonem dengan Overlap 50%

Grafik tersebut menggambarkan bahwa terjadi penurunan akurasi dan peningkatan akurasi di beberapa fonem dari akurasi fonem dengan overlap 25%. fonem tertinggi dengan menggunakan jarak Euclid sebesar 100%, yaitu /a/, /b/, /f/, /h/, /l/, /o/, /p/, /r/, /v/, /x/, dan /z/. Ada satu fonem yang tidak dapat dikenali oleh keempat metode ukuran jarak, yaitu fonem /t/. Fonem /y/ memiliki


(30)

tingkat akurasi sebesar 60%, untuk fonem /d/, /n/, /u/, dan /w/ memiliki tingkat akurasi sebesar 80%. Fonem /c/, /g/, /i/, /k/, /m/, dan /s/ memiliki tingkat akurasi sebesar 90%, untuk fonem /e/ memiliki tingkat akurasi sebesar 70%. fonem /j/ memiliki tingkat akurasi sebesar 40% dan fonem /q/ memiliki tingkat akurasi sebesar 30%.

Pada overlap 50% hasil akurasi fonem dengan menggunakan jarak Euclid range, jarak Euclid standar deviasi memiliki perbedaan akurasi yang tidak terlalu jauh dengan metode jarak Euclid, meskipun ada beberapa penurunan dan peningkatan akurasi yang terjadi pada fonem. Peningkatan akurasi terletak pada fonem /c/ menjadi 100% dengan menggunakan jarak Euclid range, dan fonem /g/, dan /k/ menjadi sebesar 100% dengan menggunakan metode jarak Euclid range dan jarak Euclid standar deviasi, fonem /e/ dengan menggunakan jarak Euclid standar deviasi, akurasinya menjasi 80%, fonem /d/, /u/ dan /w/ akurasinya menjadi 90% dengan menggunakan jarak Euclid range dan jarak Euclid standar deviasi.

Penurunan akurasi terletak pada fonem /c/ menjadi sebesar 80% dengan menggunakan jarak Euclid standar deviasi, fonem /s/ akurasi menjadi sebesar 80% dengan menggunakan jarak Euclid range dan 70% dengan menggunakan jarak Euclid standar deviasi, dan fonem /a/ akurasi menjadi sebesar 90% dengan menggunakan jarak Euclid range dan jarak Euclid standar deviasi.

Akurasi fonem dengan menggunakan jarak Mahalanobis sangat berbeda dengan ketiga metode jarak lainnya. Akurasi fonem sebesar 90%, yaitu fonem /v/. fonem /e/ sebesar 70%, untuk fonem /j/ dan /z/ akurasinya sebesar 60%. Fonem /a/, /b/, /k/ dan /m/ akurasinya sebesar 50%. Fonem /f/ dan /y/ akurasinya sebesar 40%. Fonem /d/, /h/, /i/, /n/, /o/, /q/, /r/ dan /w/ akurasinya sebesar 20%, dan untuk fonem /c/, /g/, /l/, /u/ dan /x/ akurasi sebesar 10%. Fonem /p/ dideteksi sebagai fonem /e/, hal ini dapat disebabkan ketika dalam proses frame blocking dengan menggunakan overlap 50%, ciri yang didapat untuk fonem /p/ mirip dengan fonem /e/, dengan demikian pada saat proses deteksi, fonem /p/ dideteksi menjadi fonem /e/.

c. Perbandingan hasil menggunakan empat metode ukuran jarak dengan overlap

75%

Hasil akurasi fonem pada overlap 75% dengan menggunakan keempat metode ukuran jarak dapat dilihat pada Gambar 13.

Gambar 13 Grafik Akurasi Fonem dengan Overlap 75%

Grafik tersebut menggambarkan akurasi yang dihasilkan. hasil akurasi fonem yang didapat dengan menggunakan jarak Euclid range, jarak Euclid standar deviasi memiliki perbedaan yang tidak terlalu jauh dengan metode jarak Euclid. Perbedaan hasilnya hanya terletak pada fonem /a/ akurasi menjadi sebesar 100% dengan mengguna-kan jarak Euclid dan akurasi sebesar 90% dengan menggunakan jarak Euclid range dan jarak Euclid standar deviasi untuk fonem /a/, /d/, /m/, /u/ dan /w/, dengan menggunakan jaraj Euclid utnuk fonem /h/, /i/, /m/ dan /u/. fonem /g/ akurasinya sebesar 100 % dengan menggunakan jarak Euclid standar deviasi dan 80% dengan menggunakan jarak Euclid dan jarak Euclid rang. Fonem /b/, /c/, /f/, /h/, /o/, /r/, /v/, dan /z/ akurasinya sebesar 100 %. Fonem /x/ akurasinya 100% dengan menggunakan jarak Euclid dan 80% dengan menggunakan jarak Euclid range dan jarak Euclid standar deviasi.

Akurasi fonem dengan menggunakan jarak Mahalanobis sangat berbeda dengan ketiga metode jarak lainnya, hanya ada beberapa yang memiliki akurasi tinggi hampir sama dengan ketiga metode lainnya, yaitu fonem /q/ akurasinya sebesar 90%, fonem /h/ akurasinya sebesar 80% dan fonem /n/, /u/ dan /v/ akurasinya sebesar 70% . akurasi yang sangat jauh berbeda yaitu Fonem /b/, /o/ dan /z/ akurasinya sebesar 60%. Fonem /f/, /g/ dan /y/ akurasinya sebesar 50%. Fonem /m/ dan /s/ akurasinya sebesar 40%. Fonem /c/, /d/, /i/, /j/, /k/, dan /w/ akurasinya sebesar 20%, dan


(31)

untuk fonem /a/, /e/, /r/ dan /x/ akurasi sebesar 10%. Fonem /t/ dapat dideteksi meskipun akurasi yang dihasilkan kecil, yaitu 10%, hal ini dapat disebabkan ketika dalam proses frame blocking dengan menggunakan overlap 75%, ciri yang didapat untuk fonem /t/ bisa mewakili fonem tersebut.

Perbandingan overlap 25%, overlap 50% dan

overlap 75%

Gambar 14 memperlihatkan grafik per-bandingan tingkat akurasi dengan menggunakan overlap 25%, 50%, dan 75%. Terlihat bahwa overlap yang digunakan berpengaruh terhadap hasil akurasi yang didapat tetapi tidak berlaku ketika menggunakan jarak Euclid. Dengan metode jarak Mahalanobis, jarak Euclid standar deviasi dan jarak Euclid range semakin tinggi overlap yang digunakan maka akurasi yang dihasilkan juga meningkat, meskipun pada metode jarak Euclid range, terlihat ketika menggunakan overlap 25% dan overlap 50% tidak ada perubahan akurasi. Dengan metode jarak Euclid akurasi tertinggi ketika menggunakan overlap 50% sebesar 83.08%. Dengan metode Mahalanobis akurasi tertinggi pada overlap 75% sebesar 38.08%. Untuk metode jarak Euclid range akurasi tertinggi pada overlap 75% sebesar 88.85% dan jarak Euclid standar deviasi hasil akurasi tertinggi dengan menggunakan overlap 75% sebesar 89.23%.

Gambar 14 Perbandingan Overlap 25%, Overlap 50%, Overlap 75% KESIMPULAN DAN SARAN Kesimpulan

Dari penelitian ini dihasilkan bahwa untuk metode ukuran jarak dengan overlap 75% lebih baik dibandingkan dengan overlap 25% dan overlap 50% ketika menggunakan metode ukuran jarak euclid standar deviasi, jarak Euclid range dan jarak Mahalanobis untuk kasus

pengenalan fonem menggunakan metode ukuran jarak dengan ekstraksi ciri MFCC.

Dari keempat metode ukuran jarak yang digunakan untuk pengenalan fonem, metode dengan jarak Euclid standar deviasi yang lebih baik dibandingkan dari ketiga metode ukuran jarak lainnya, dengan mengunakan overlap 75% akurasinya sebesar 89.23%. Pengenalan fonem menggunakan metode ukuran jarak dengan MFCC sebagai ekstraksi ciri kurang baik digunakan ketika menggunakan metode ukuran jarak Mahalanobis, karena akurasi yang dihasilkan di bawah 50%.

Saran

Penelitian ini masih memungkinkan untuk dikembangkan lagi ke tahap berikutnya yaitu, pengenalan kata berbasis fonem, dengan melakukan segmentasi secara otomatis dengan menggunakan auto correlation. Selain itu, data yang digunakan dapat ditambahkan lagi dengan jumlah data yang lebih banyak dan kata yang lebih bervariasi dengan demikian dapat mewakili untuk tiap fonem yang berada di posisi depan, tengah, belakang, dan melakukan perekaman suara dengan menggunakan beberapa suara orang yang berbeda.

DAFTAR PUSTAKA

Aprillia, Helli. 2009. Pengembangan Model Pengenalan Kata dengan MFCC sebagai Ekstraksi Ciri dan PNN sebagai Pengenalan Pola. [skripsi]. Bogor : Departemen Ilmu Komputer, IPB.

Buono, Agus. 2009. Representasi Nilai Hos dan Model MFCC sebagai Ekstraksi Ciri pada Sistem Identifikasi pembicara di Lingkungan Ber-Noise Menggunakan HMM. [Disertasi]. Jakarta : Departemen Ilmu Komputer, Universitas Indonesia. Do MN. 1994. Digital Signal Processing

Mini-Project : An Automatic Recognation System. Audio Visual Communication Laboratoru, Swiss Federal Institute of Technology, Switzerland.

Hand D, Mannila H, Smyth P. 2001.Principle of Data Mining. America : United States of America.

Mustofa, Ali. 2007. Sistem Pengenalan Penutur dengan Metode Mel-frequency. Teknik Elektro. Volume 7 No 2, hal 88-96, September 2007.

Tim Redaksi Kamus Besar Bahasa Indonesia Pusat Bahasa. 2008. Kamus Besar Bahasa Indonesia Edisi Keempat. Jakarta : PT. Gramedia, Pustaka Utama.


(32)

(33)

(34)

(35)

Lampiran 3 Hasil Akurasi Pengenalan Fonem dengan Overlap 25%

Huruf Euclid Mahalanobis Euclid Range Euclid Standar

Deviasi

a 100% 20% 90% 90%

b 100% 20% 100% 100%

c 100% 20% 100% 100%

d 80% 10% 90% 90%

e 70% 50% 70% 70%

f 100% 20% 100% 100%

g 80% 20% 100% 100%

h 90% 10% 100% 100%

i 90% 40% 90% 90%

j 20% 70% 100% 100%

k 100% 50% 100% 100%

l 100% 30% 100% 90%

m 90% 40% 90% 90%

n 80% 30% 100% 100%

o 100% 30% 100% 100%

p 80% 30% 80% 80%

q 80% 60% 100% 100%

r 100% 10% 100% 100%

s 80% 60% 80% 80%

t 0% 0% 0% 0%

u 70% 10% 90% 90%

v 100% 40% 100% 100%

w 90% 40% 90% 90%

x 100% 0% 60% 70%

y 60% 10% 60% 60%


(36)

Lampiran 4 Hasil Akurasi Pengenalan Fonem dengan Overlap 50%

Huruf Euclid Mahalanobis Euclid Range Euclid Standar

Deviasi

a 100% 50% 90% 90%

b 100% 50% 100% 100%

c 90% 10% 100% 80%

d 80% 20% 90% 90%

e 70% 70% 60% 80%

f 100% 40% 100% 100%

g 90% 10% 100% 100%

h 100% 20% 100% 100%

i 90% 20% 80% 70%

j 40% 60% 100% 100%

k 90% 50% 100% 100%

l 100% 10% 100% 100%

m 90% 50% 90% 90%

n 80% 20% 100% 100%

o 100% 20% 100% 100%

p 100% 0% 100% 100%

q 30% 20% 100% 100%

r 100% 20% 100% 100%

s 90% 30% 80% 70%

t 0% 0% 0% 0%

u 80% 10% 90% 90%

v 100% 90% 100% 100%

w 80% 20% 90% 90%

x 100% 10% 60% 70%

y 60% 40% 70% 70%


(37)

Lampiran 5 Hasil Akurasi Pengenalan Fonem dengan Overlap 75%

Huruf Euclid Mahalanobis Euclid Range Euclid Standar

Deviasi

a 100% 10% 90% 90%

b 100% 60% 100% 100%

c 100% 20% 100% 100%

d 80% 20% 90% 90%

e 70% 10% 80% 80%

f 100% 50% 100% 100%

g 80% 50% 80% 100%

h 90% 80% 100% 100%

i 90% 20% 70% 80%

j 20% 20% 100% 100%

k 100% 20% 100% 100%

l 100% 30% 100% 90%

m 90% 40% 90% 90%

n 80% 70% 100% 100%

o 100% 60% 100% 100%

p 80% 0% 100% 100%

q 70% 90% 100% 100%

r 100% 10% 100% 100%

s 80% 40% 80% 70%

t 0% 10% 0% 0%

u 70% 70% 90% 90%

v 100% 70% 100% 100%

w 90% 20% 90% 90%

x 100% 10% 80% 80%

y 60% 50% 70% 70%


(38)

Lampiran 6 Grafik Rata-rata Hasil Akurasi Pengenalan Fonem

Euclid Mahalanobis Range standar deviasi

overlap 25% 82.69% 30.00% 88.08% 88.08%

overlap 50% 83.08% 30.77% 88.46% 88.08%

overlap 75% 82.69% 38.08% 88.85% 89.23%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%


(39)

(40)

(41)

(1)

(2)

(3)

Lampiran 3 Hasil Akurasi Pengenalan Fonem dengan Overlap 25%

Huruf Euclid Mahalanobis Euclid Range Euclid Standar

Deviasi

a 100% 20% 90% 90%

b 100% 20% 100% 100%

c 100% 20% 100% 100%

d 80% 10% 90% 90%

e 70% 50% 70% 70%

f 100% 20% 100% 100%

g 80% 20% 100% 100%

h 90% 10% 100% 100%

i 90% 40% 90% 90%

j 20% 70% 100% 100%

k 100% 50% 100% 100%

l 100% 30% 100% 90%

m 90% 40% 90% 90%

n 80% 30% 100% 100%

o 100% 30% 100% 100%

p 80% 30% 80% 80%

q 80% 60% 100% 100%

r 100% 10% 100% 100%

s 80% 60% 80% 80%

t 0% 0% 0% 0%

u 70% 10% 90% 90%

v 100% 40% 100% 100%

w 90% 40% 90% 90%

x 100% 0% 60% 70%

y 60% 10% 60% 60%


(4)

a 100% 50% 90% 90%

b 100% 50% 100% 100%

c 90% 10% 100% 80%

d 80% 20% 90% 90%

e 70% 70% 60% 80%

f 100% 40% 100% 100%

g 90% 10% 100% 100%

h 100% 20% 100% 100%

i 90% 20% 80% 70%

j 40% 60% 100% 100%

k 90% 50% 100% 100%

l 100% 10% 100% 100%

m 90% 50% 90% 90%

n 80% 20% 100% 100%

o 100% 20% 100% 100%

p 100% 0% 100% 100%

q 30% 20% 100% 100%

r 100% 20% 100% 100%

s 90% 30% 80% 70%

t 0% 0% 0% 0%

u 80% 10% 90% 90%

v 100% 90% 100% 100%

w 80% 20% 90% 90%

x 100% 10% 60% 70%

y 60% 40% 70% 70%


(5)

Lampiran 5 Hasil Akurasi Pengenalan Fonem dengan Overlap 75%

Huruf Euclid Mahalanobis Euclid Range Euclid Standar

Deviasi

a 100% 10% 90% 90%

b 100% 60% 100% 100%

c 100% 20% 100% 100%

d 80% 20% 90% 90%

e 70% 10% 80% 80%

f 100% 50% 100% 100%

g 80% 50% 80% 100%

h 90% 80% 100% 100%

i 90% 20% 70% 80%

j 20% 20% 100% 100%

k 100% 20% 100% 100%

l 100% 30% 100% 90%

m 90% 40% 90% 90%

n 80% 70% 100% 100%

o 100% 60% 100% 100%

p 80% 0% 100% 100%

q 70% 90% 100% 100%

r 100% 10% 100% 100%

s 80% 40% 80% 70%

t 0% 10% 0% 0%

u 70% 70% 90% 90%

v 100% 70% 100% 100%

w 90% 20% 90% 90%

x 100% 10% 80% 80%

y 60% 50% 70% 70%


(6)

Euclid Mahalanobis Range standar deviasi

overlap 25% 82.69% 30.00% 88.08% 88.08%

overlap 50% 83.08% 30.77% 88.46% 88.08%

overlap 75% 82.69% 38.08% 88.85% 89.23%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%