Perbandingan pemodelan Wavelet dan MFCC sebagai ekstraksi ciri pada pengenalan fonem dengan teknik jaringan syaraf tiruan sebagai classifier

(1)

MUTIA FIJRI TAUFANI. A comparison modeling of wavelet and mfcc as feature extraction on phoneme recognition with neural network techniques as a classifier. Supervised by AGUS BUONO.

Researches on voice signals have been carried out using various signal processing methods, such as Linear Prediction Coding (LPC), Mel Frequency cepstrum coefficients (MFCC), and Neural Predictive Coding (NPC) which the whole method is based on Fourier transformation. Therefore, comparisons will be made with other approaches based on Wavelet transformation. This research would be the comparison of two feature extraction types, that are Wavelet daubechies and MFCC.

Wavelet Transformation has become increasingly popular in signal processing as image and speech. Wavelet transformation has demonstrated good time-frequency localization properties and are appropiate tools for the analysis of non-stationary signals like speech. MFCC feature extraction that computes the cepstral coefficients by considering the human hearing. ANN multilayer perceptron, known as backpropagation used as classifier.

From the research that has been done, it can be concluded that the use of Daubechies Wavelet methods as feature extraction on phoneme recognition is not better than MFCC. The accuracy of Daubechies Wavelet method with a 220 hidden neurons ANN learning has achived 36% rate as the best test results. While on phoneme recognition with MFCC method achieved 100% accuracy rate with a 240 hidden neuron learning ANN.


(2)

PENDAHULUAN Latar Belakang

Pengenalan fonem adalah implementasi dari speech to teks yang merupakan bagian dari speech recognition atau pengenalan ucapan. Pengenalan ucapan lebih dikonsentrasikan pada ekstraksi dari beberapa bagian informasi pesan yang di dalamnya berisikan teks yang diucapkan. Teks yang diucapkan ini mengandung unit-unit linguistik terkecil yang disebut sebagai fonem yang akan dikenali melalui sinyal suara.

Sinyal suara manusia mempunyai tingkat variabilitas yang sangat tinggi. Suatu sinyal suara yang mengucapkan teks yang berbeda-beda akan menghasilkan pola ucapan yang berbeda-beda pula. Salah satu cara yang paling handal dalam pengenalan pola adalah Jaringan Syaraf Tiruan (JST). JST mampu menyelesaikan persoalan rumit yang sulit atau bahkan tidak mungkin jika diselesaikan dengan menggunakan komputasi konvensional. Salah satu jenis JST yang mampu memberikan unjuk kerja yang bagus adalah JST dengan arsitektur Multi-Layer Perceptron (MLP) dan pembelajaran Backpropagation (Fu,1994).

Penelitian mengenai sinyal suara telah banyak dilakukan dengan berbagai metode pemrosesan sinyal, seperti Linier Prediction Coding (LPC), Mel Frequency Cepstrum Coefficients (MFCC), dan Neural Predictive Coding (NPC) yang mana keseluruhan metode di atas berbasiskan transformasi Fourier. Untuk itu, akan dilakukan perbandingan konsep atau pendekatan lain tanpa berbasiskan transformasi Fourier yaitu transformasi Wavelet.

Transformasi Wavelet merupakan sarana yang mulai populer untuk pemrosesan sinyal, seperti citra dan suara. Penelitian sebelumnya yang menggunakan transformasi Wavelet pada analisis suara telah dilakukan oleh dan Ruhi Sarikaya (1998) dan Ketut Agustini (2006). Kedua penelitian tersebut menggunakan transformasi Wavelet sebagai ekstraksi ciri pada identifikasi pembicara. Maka dari itu, penelitian ini akan melakukan implementasi transformasi wavelet pada bidang analisis suara lainnya yaitu pengenalan fonem.

Tujuan Penelitian

Tujuan penelitian ini adalah untuk membandingkan dua metode ekstraksi ciri yang berbasis transformasi Fourier dan transformasi Wavelet pada pengenalan fonem serta penggunaan JST sebagai classifier.

Ruang Lingkup Penelitian

Ruang lingkup penelitian ini adalah : 1. Akuisisi data dilakukan dengan mikrofon. 2. Menggunakan sebelas kata yang telah

mencakup fonem a-z, yaitu: coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat. Serta tidak memperhatikan pemakaian kata homograf dan homofon. 3. Semua kata diucapkan oleh satu orang. 4. Menggunakan transformasi Wavelet

Daubechies orde empat pada level satu. 5. Menggunakan JST dengan arsitektur

multi-layer perceptron dan pembelajaran backpropagation sebagai classifier.

Manfaat Penelitian

Penelitian ini diharapkan dapat memberikan informasi tingkat akurasi hasil perbandingan transformasi Wavelet dan MFCC sebagai ekstraksi ciri pada proses pengenalan fonem menggunakan teknik JST sebagai classifier.

TINJAUAN PUSTAKA Suara dan sinyal

Sinyal suara merupakan gelombang yang tercipta dari tekanan udara yang berasal dari paru-paru yang berjalan melewati lintasan suara menuju mulut dan rongga hidung dengan bentuk artikulator yang senantiasa berubah. Manusia mendengar bunyi saat gelombang bunyi, yaitu getaran di udara atau medium lain sampai ke gendang telinga manusia. Batas frekuensi bunyi yang dapat didengar oleh telinga manusia sekitar 20 Hz sampai 20 KHz atau sering disebut audiosonik.

Secara matematika suatu sinyal dirumuskan sebagai fungsi dari satu atau lebih peubah bebas. Berdasarkan pada peubah bebas waktu (t) sinyal dibedakan menjadi dua jenis, yaitu: a. Sinyal Analog

Sinyal analog adalah suatu besaran yang berubah dalam waktu dan atau dalam ruang dan yang memiliki semua nilai untuk setiap nilai waktu (dan atau setiap nilai ruang). Sinyal analog sering disebut sinyal kontinu untuk menggambarkan bahwa besaran itu memiliki nilai yang kontinu (tak terputus). Contoh grafik sinyal analog dapat dilihat pada Gambar 1.


(3)

PENDAHULUAN Latar Belakang

Pengenalan fonem adalah implementasi dari speech to teks yang merupakan bagian dari speech recognition atau pengenalan ucapan. Pengenalan ucapan lebih dikonsentrasikan pada ekstraksi dari beberapa bagian informasi pesan yang di dalamnya berisikan teks yang diucapkan. Teks yang diucapkan ini mengandung unit-unit linguistik terkecil yang disebut sebagai fonem yang akan dikenali melalui sinyal suara.

Sinyal suara manusia mempunyai tingkat variabilitas yang sangat tinggi. Suatu sinyal suara yang mengucapkan teks yang berbeda-beda akan menghasilkan pola ucapan yang berbeda-beda pula. Salah satu cara yang paling handal dalam pengenalan pola adalah Jaringan Syaraf Tiruan (JST). JST mampu menyelesaikan persoalan rumit yang sulit atau bahkan tidak mungkin jika diselesaikan dengan menggunakan komputasi konvensional. Salah satu jenis JST yang mampu memberikan unjuk kerja yang bagus adalah JST dengan arsitektur Multi-Layer Perceptron (MLP) dan pembelajaran Backpropagation (Fu,1994).

Penelitian mengenai sinyal suara telah banyak dilakukan dengan berbagai metode pemrosesan sinyal, seperti Linier Prediction Coding (LPC), Mel Frequency Cepstrum Coefficients (MFCC), dan Neural Predictive Coding (NPC) yang mana keseluruhan metode di atas berbasiskan transformasi Fourier. Untuk itu, akan dilakukan perbandingan konsep atau pendekatan lain tanpa berbasiskan transformasi Fourier yaitu transformasi Wavelet.

Transformasi Wavelet merupakan sarana yang mulai populer untuk pemrosesan sinyal, seperti citra dan suara. Penelitian sebelumnya yang menggunakan transformasi Wavelet pada analisis suara telah dilakukan oleh dan Ruhi Sarikaya (1998) dan Ketut Agustini (2006). Kedua penelitian tersebut menggunakan transformasi Wavelet sebagai ekstraksi ciri pada identifikasi pembicara. Maka dari itu, penelitian ini akan melakukan implementasi transformasi wavelet pada bidang analisis suara lainnya yaitu pengenalan fonem.

Tujuan Penelitian

Tujuan penelitian ini adalah untuk membandingkan dua metode ekstraksi ciri yang berbasis transformasi Fourier dan transformasi Wavelet pada pengenalan fonem serta penggunaan JST sebagai classifier.

Ruang Lingkup Penelitian

Ruang lingkup penelitian ini adalah : 1. Akuisisi data dilakukan dengan mikrofon. 2. Menggunakan sebelas kata yang telah

mencakup fonem a-z, yaitu: coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat. Serta tidak memperhatikan pemakaian kata homograf dan homofon. 3. Semua kata diucapkan oleh satu orang. 4. Menggunakan transformasi Wavelet

Daubechies orde empat pada level satu. 5. Menggunakan JST dengan arsitektur

multi-layer perceptron dan pembelajaran backpropagation sebagai classifier.

Manfaat Penelitian

Penelitian ini diharapkan dapat memberikan informasi tingkat akurasi hasil perbandingan transformasi Wavelet dan MFCC sebagai ekstraksi ciri pada proses pengenalan fonem menggunakan teknik JST sebagai classifier.

TINJAUAN PUSTAKA Suara dan sinyal

Sinyal suara merupakan gelombang yang tercipta dari tekanan udara yang berasal dari paru-paru yang berjalan melewati lintasan suara menuju mulut dan rongga hidung dengan bentuk artikulator yang senantiasa berubah. Manusia mendengar bunyi saat gelombang bunyi, yaitu getaran di udara atau medium lain sampai ke gendang telinga manusia. Batas frekuensi bunyi yang dapat didengar oleh telinga manusia sekitar 20 Hz sampai 20 KHz atau sering disebut audiosonik.

Secara matematika suatu sinyal dirumuskan sebagai fungsi dari satu atau lebih peubah bebas. Berdasarkan pada peubah bebas waktu (t) sinyal dibedakan menjadi dua jenis, yaitu: a. Sinyal Analog

Sinyal analog adalah suatu besaran yang berubah dalam waktu dan atau dalam ruang dan yang memiliki semua nilai untuk setiap nilai waktu (dan atau setiap nilai ruang). Sinyal analog sering disebut sinyal kontinu untuk menggambarkan bahwa besaran itu memiliki nilai yang kontinu (tak terputus). Contoh grafik sinyal analog dapat dilihat pada Gambar 1.


(4)

b. Sinyal Diskret

Sinyal Diskret merupakan suatu besaran yang berubah dalam waktu dan atau dalam ruang dan yang memiliki nilai pada suatu titik-titik waktu tertentu. Jarak setiap titik waktu bisa saja berbeda-beda namun untuk kemudahan penurunan sifat matematikanya biasanya jarak antar titik waktu adalah sama. Contoh grafik sinyal diskret dapat dilihat pada Gambar 2.

Gambar 2 Sinyal diskret.

Digitalisasi gelombang suara

Gelombang suara yang ditangkap berupa sinyal analog. Sinyal analog harus diubah menjadi sinyal digital yang disebut proses digitalisasi. Proses digitalisasi suara terdiri atas dua tahap, yaitu sampling dan kuantisasi (Jurafsky & Martin 2000). Sampling adalah pengambilan nilai-nilai dalam jangka waktu tertentu. Sampling rate yang biasanya digunakan pada pengenalan suara ialah 8000 Hz sampai dengan 16.000 Hz (Jurafsky & Martin 2000). Hubungan panjang vektor yang dihasilkan, sampling rate dan panjang data suara yang digitalisasikan dinyatakan dengan persamaan:

S = Fs x T (1)

Keterangan: S = panjang vektor

Fs = sampling rate yang digunakan (Hertz)

T = panjang suara (detik)

Setelah tahap sampling maka proses selanjutnya adalah proses kuantisasi. Proses ini menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 2000).

Ekstraksi Ciri

Ekstraksi ciri merupakan proses menentukan suatu nilai atau vektor yang dapat dipergunakan sebegai penciri objek atau individu. Banyak metode yang ada untuk ekstraksi ciri di antaranya Linier Predictive Coding (LPC), Mel Frequency Cepstrum Coefficients (MFCC), dan filter bank. Transform Wavelet Diskcet (TWD) adalah bagian dari filter bank selain Discret Fourier Transform (DFT), merupakan metode baru yang mempunyai karakteristik khusus yang sesuai untuk analisis sinyal, termasuk sinyal suara. Transformasi ini dapat digunakan untuk

memberikan informasi mengenai sinyal secara bersamaan dalam domain waktu dan frekuensi.

MFCC

Salah satu teknik ekstraksi ciri sinyal suara adalah teknik MFCC yang menghitung koefisien cepstral dengan mempertimbangkan persepsi sistem pendengaran manusia terhadap frekuensi suara. Teknik MFCC dapat merepresentasikan sinyal lebih baik dibandingkan LPC, LPCC dan yang lainnya dalam pengenalan suara (Buono 2009).

Teknik MFCC sebagai ekstraksi ciri dan teknik parameterisasi sinyal suara telah banyak digunakan pada berbagai bidang area pemrosesan suara. Gambar 6 merupakan diagram alur MFCC. Tahap-tahap dalam teknik MFCC lebih jelasnya yaitu sebagai berikut :

Gambar 3 Diagram alur MFCC. (Buono 2009)

a. Frame blocking

Untuk keperluan pemrosesan, sinyal analog yang sudah melalui proses sampling dan kuantisasi (digitasi suara) dibaca dari frame demi frame dengan lebar tertentu yang saling tumpang tindih (overlap). Proses ini dikenal dengan frame blocking.

b. Windowing

Setiap frame mengandung satu unit informasi, sehingga barisan frame akan menyimpan suatu informasi yang lengkap


(5)

dari sebuah sinyal suara. Untuk itu, distorsi antar frame harus diminimalisasi. Salah satu teknik untuk meminimalkan distorsi antar frame adalah dengan melakukan proses filtering pada setiap frame. Pada penelitian kali ini jenis filter yang digunakan yaitu Windowing karena pemrosesan sinyal yang akan dilakukan dalam domain frekuensi. Proses windowing dilakukan pada setiap frame. Dalam hal ini sinyal digital dikalikan dengan fungsi window tertentu yang berukuran sama dengan ukuran frame. Jika sinyal digital frame ke-i adalah xi dan fungsi window yang digunakan adalah wi, maka output windowing frame ke-i adalah perkalian skalar antara vektor xi dengan wi. Fungsi window yang digunakan pada penelitian ini adalah Hamming karena memiliki ekspersi matematika yang cukup sederhana.

c. Transformasi Fourier

Analisis Fourier merupakan suatu teknik matematika untuk mendekomposisi sinyal menjadi sinyal-sinyal sinusoidal. Untuk dapat melihat perbedaan sinyal suara yang berbeda-beda maka harus dilihat dari domain frekuensi karena jika dilihat dari domain waktu sulit terlihat perbedaannya. Untuk itu dari sinyal suara yang berada pada domain waktu diubah ke domain frekuensi dengan Fast Fourier Transform (FFT). FFT merupakan suatu algoritme untuk mengimplementasikan Discrete Fourier Transform (DFT) (Do 1994).

d. Mel frequency wrapping

Persepsi sistem pendengaran manusia terhadap frekuensi sinyal suara ternyata tidak hanya bersifat linear. Oleh karena itu, untuk setiap nada dengan frekuensi aktual f (dalam Hertz) tinggi subjektifnya diukur dengan skala mel (Melody). Skala mel-frequency adalah selang frekuensi di bawah 1000Hz bersifat linear dan untuk selang frekuensi di atas 1000Hz bersifat logaritmik (Do 1994).

e. Transformasi Kosinus

Langkah terakhir yaitu mengkonversikan log mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients. Cara untuk mengkonversikan log mel spectrum ke bentuk domain waktu yaitu dengan menggunakan Discrete Cosine Transform (DCT).

Transformasi Wavelet Daubechies

Transformasi adalah proses merepresentasikan suatu sinyal ke dalam domain atau kawasan lain. Tujuan dari transformasi adalah untuk lebih menonjolkan sifat atau karakteristik sinyal tersebut.

Definisi Wavelet (secara harfiah berarti “gelombang kecil”) adalah himpunan fungsi dalam ruang vektor L2I, yang mempunyai sifat-sifat sebagai berikut (Burrus et al,1998): - berenergi terbatas

- merupakan fungsi band-pass pada domain frekuensi

- merupakan hasil penggeseran (translasi) dan penskala (dilatasi) dari sebuah fungsi tunggal (induk) yang ditujukan oleh persamaan berikut.

(2)

Dengan a,b ∈ R (bilangan nyata), dan a ≠ 0. dalam hal ini a adalah parameter penskala dan b adalah parameter penggeser posisi terhadap sumbu t. Pada dasarnya, transformasi Wavelet merupakan sebuah teknik pemrosesan sinyal multiresolusi. Dengan sifat penskalaannya, wavelet dapat memilah-milah suatu sinyal data berdasarkan komponen frekuensi yang berbeda-beda. Dengan demikian tiap-tiap bagian dapat dipelajari berdasarkan skala resolusi yang sesuai, sehingga diperoleh gambaran data secara keseluruhan dan detail.

Teori Wavelet didasari oleh pembangkitan sejumlah tapis (filter) dengan cara menggeser dan menskala suatu wavelet induk (mother wavelet) berupa tapis pelewat tengah (band-pass filter). Dengan demikian hanya diperlukan pembangkitan sebuah tapis. Tapis lain mengikuti aturan penskalaan, baik pada kawasan waktu maupun kawasan frekuensi. Penambahan skala Wavelet akan meningkatkan durasi waktu, mengurangi lebar bidang dan menggeser frekuensi pusat ke nilai frekuensi yang lebih rendah. Sebaliknya pengurangan skala menurunkan durasi waktu, menambah lebar bidang dan menggeser frekuensi ke nilai frekuensi yang lebih tinggi (Burrus et al, 1998)

Secara garis besar, transformasi Wavelet dibedakan menjadi dua, yaitu Transformasi Wavelet Kontinu (Continuous Wavelet Transform atau Integrated Wavelet Transform) dan Wavelet Diskret (Discret Wavelet Transform). Transformasi Wavelet kontinu mempunyai dua kelemahan, yaitu redudancy


(6)

dan ketidakpraktisan (Mallat 1999). Transformasi Wavelet diskret bertujuan mengurangi redudansi yang terjadi dengan teknik yang efisien yaitu dengan teknik analisis resolusi jamak (multi resolution analysis) yang dikembangkan Mallat tahun 1998.

Persamaan 3 merupakan hasil turunan dari persamaan transformasi Wavelet kontinu sehingga parameter skala kontinu adalah kebalikan (inversely) dari parameter skala binary dan hal inilah yang membuat muncul dalam persamaan di atas sebagai penyebut (denominator). Transformasi Wavelet Diskret yang digunakan adalah persamaan berikut (Gonzales 2000).

(3)

Sinyal masukan dilewatkan melalui 2 filter komplementer (low-pass H dan high-pass G), dan downsampling dengan membuang setiap data kedua, sehingga diperoleh koefisien pendekatan cA (komponen frekuensi rendah) dan koefisien detil cD (komponen frekuensi tinggi). Proses ini dapat diiterasi dengan cara melanjutkan dekomposisi terhadap koefisien cA. Dengan demikian suatu sinyal dapat dipecah (didekomposisi) menjadi komponen-komponen dengan resolusi yang lebih rendah.

Wavelet Daubechies secara historis berasal dari sistem Haar. Wavelet Daubechies ini merupakan karya gemilang dari Ingrid Daubechies (Agustini 2006).

(4) (5) (6) (7)

Persamaan (4, 5, 6, dan 7) merupakan empat persamaan dengan empat bilangan yang tidak diketahui yaitu h0, h1, h2, dan h3. Persamaan

tersebut pertama kalinya diperkenalkan dan diselesaikan oleh Ingrid Daubechies, ditunjukkannya bahwa persamaan-persamaan ini mempunyai penyelesaian tunggal.

; ;

; ;

Matriks Transformasi ditemukan oleh Ingrid Daubechies yang memungkinkan melalui suatu sinyal dari resolusi 2j ke resolusi 2j+1. Untuk

menyederhanakannya, matriks ini disebut matriks DAUB (Agustini 2006).

(8) (9)

Pada persamaan (8) dan (9) dimana H berkaitan dengan suatu filter low pass dan G berkaitan dengan filter high pass. H dan G disebut filter konjugasi kuadratur.

(10) (11)

Dari persamaan (10) dan (11), dapat dibentuk suatu matriks transformasi yang mempunyai elemen-elemen h(n) dan g(n). Yang dapat dihitung dengan persamaan g(n) = (-1)n h((2N-1)-n). Jika N = 2 maka akan diperoleh:

g(0) = h(3); g(1) = -h(2); g(2) = h(1); g(3) = -h(0);

Dengan mengganti variabel-variabel yang bersesuaian, akan diperoleh matriks DAUB4 dengan empat koefisien (Agustini 2006).

Gambar 4 Matriks transformasi

Jaringan Syaraf Tiruan

Jaringan syaraf tiruan adalah sistem pemroses informasi yang memiliki karakteristik mirip dengan jaringan syaraf biologi (Siang 2005). JST dibentuk sebagai generalisasi model matematika dari jaringan syaraf biologi, dengan asumsi bahwa :

• Pemrosesan informasi terjadi pada banyak elemen sederhana (neuron)

• Sinyal dikirimkan di antara neuron melalui penghubung-penghubung

• Penghubung antar neuron memiliki bobot yang akan memperkuat atau memperlemah sinyal

• Untuk menentukan output, setiap neuron menggunakan fungsi aktivasi (biasanya bukan fungsi linear) yang dikenakan pada jumlah input yang diterima untuk menentukan keluarannya.


(7)

Jaringan syaraf tiruan juga dikenal sebagai black box technology atau tidak transparan karena tidak dapat menerangkan bagaimana suatu hasil didapatkan. Hal inilah yang membuat jaringan syaraf tiruan mampu digunakan untuk menyelesaikan persoalan yang tidak terstruktur dan sulit didefinisikan (Hermawan 2006). JST ditentukan oleh tiga hal: 1. Pola hubungan neuron (arsitektur jaringan) 2. Metode untuk menentukan bobot

penghubung (metode training atau learning) 3. Fungsi Aktivasi

Fungsi aktivasi akan menghitung input yang diterima oleh suatu neuron, kemudian neuron tersebut meneruskan hasil dari fungsi aktivasi ke neuron berikutnya, sehingga fungsi aktivasi berfungsi sebagai penentu kuat lemahnya sinyal yang dikeluarkan oleh suatu neuron. Salah satu fungsi aktivasi yang digunakan dalam JST propagasi balik adalah fungsi sigmoid biner, yaitu fungsi biner yang memiliki rentang nol sampai dengan satu dengan persamaan sebagai berikut :

(12)

Gambar 5 Sigmoid biner pada selang [0,1]. Backpropagation merupakan salah satu model JST untuk pencocokan pola yang menggunakan arsitektur multi layer perceptron dan pembelajaran terbimbing. Walaupun JST Backpropagation membutuhkan waktu yang lama untuk pembelajaran tetapi bila pembelajaran telah selesai dilakukan, JST akan dapat mengenali suatu pola dengan cepat. Jaringan Multi Layer adalah karakteristik dari JST Backpropagation yang mempunyai lapisan input, lapisan tersembunyi dan lapisan output dan setiap neuron pada satu lapisan menerima input dari semua neuron pada lapisan sebelumnya. Gambar 6 menunjukkan arsitektur multilayer perceptron.

Secara garis besar proses backpropagation adalah sebagai berikut: ketika JST diberikan pola masukan sebagai pola pelatihan maka pola tersebut menuju ke unit-unit pada lapis tersembunyi untuk diteruskan ke unit-unit lapis keluaran. Kemudian unit-unit lapis keluaran memberikan tanggapan yang disebut sebagai

keluaran JST. Saat keluaran JST tidak sama dengan keluaran yang diharapkan maka keluaran akan disebarkan mundur (backward) pada lapis tersembunyi diteruskan ke unit pada lapis masukan.

Gambar 6 Arsitektur Multilayer Perceptron. Dalam pelatihan JST backpropagation ini terdapat algoritme pelatihan yang terdiri dari dua tahapan, yaitu feedforward dan backpropagtion.

1. Feedforward

Pada lapisan input setiap elemen vektor input akan diterima oleh sebuah neuron sehingga jumlah neuron pada lapisan ini akan sama dengan banyaknya elemen vektor input. Lapisan input memiliki fungsi pengaktifan berupa fungsi identitas sehinggga hanya berfungsi meneruskan input yang diterima ke lapisan berikutnya.

Lapisan tersembunyi akan menerima output yang dikeluarkan oleh lapisan input. Setiap neuron pada lapisan tersembunyi menerima input dari seluruh neuron pada lapisan input dikalikan dengan bobotnya. Input yang masuk dihitung dengan suatu fungsi pengaktifan dan hasil dari fungsi pengaktifan ini akan menjadi output tiap neuron pada lapisan tersembunyi. Banyaknya neuron pada lapisan tersembunyi dapat bervariasi dan dapat dianggap cukup jika JST dapat mengenali pola-pola yang ada dengan cukup baik.

Lapisan output akan menerima output yang dikeluarkan oleh lapisan tersembunyi. Setiap neuron pada lapisan output menerima input dari seluruh neuron pada lapisan tersembunyi dikalikan dengan bobotnya. Input yang masuk juga dihitung dengan suatu fungsi pengaktifan dan hasil dari fungsi pengaktifan ini akan menjadi output tiap neuron. Untuk kemudahan dan hasil yang lebih baik jumlah neuron pada lapisan output dapat ditentukan sama dengan jumlah pola yang ada. Fase dari pertama kali


(8)

masuk dalam lapisan input sampai lapisan output memberikan hasil merupakan fase feedforward (Fu 1994).

2. Backpropagation

Jika telah diperoleh hasil pada lapisan output maka hasil ini akan dibandingkan dengan target pasangan untuk data yang masuk. Dari perbedaan nilai antara target yang diinginkan dengan hasil saat ini dapat dihitung suatu nilai kesalahan. Untuk seluruh data yang ada dapat dihitung suatu nilai total kesalahan. Fase ini merupakan fase kalkulasi error. Nilai error yang diperoleh akan digunakan untuk memperbaiki nilai bobot-bobot pada JST sehingga JST akan semakin baik mengenali pola-pola yang ada. Fase ini disebut dengan fase penyesuaian bobot.

Setelah bobot-bobot diperbaiki data pembelajaran kembali di-input-kan dalam jaringan dan kembali diperoleh nilai error dan bobot akan kembali diperbaiki sehingga pembelajaran akan bersifat iteratif. Fase pembelajaran yang di-input-kan kembali dengan bobot yang telah diperbaiki ini disebut fase backpropagation (Fu 1994).

Iterasi dapat dihentikan jika kriteria error tertentu dipenuhi atau jumlah epoch (satu cycle seluruh data pembelajaran melewati jaringan) tertentu dipenuhi. Kriteria henti dengan menggunakan suatu nilai error tertentu mengimplikasikan jika nilai error cukup kecil maka jaringan akan cukup baik untuk mengenali pola-pola yang ada. Namun nilai error yang terlalu kecil akan membuat jaringan terlalu spesifik mengenali pola-pola pembelajaran (overtrained) dan kemampuannya mengenali pola-pola baru yang serupa tetapi tdak identik dengan pola pembelajaran akan menurun (Fu 1994).

Fonem

Fonem merupakan satuan bunyi terkecil yang mampu menunjukkan kontras makna (Depdikbud 2003). Fonem dibagi menjadi dua, yaitu:

1. Fonem vokal merupakan bunyi ujaran akibat adanya udara yang keluar dari paru-paru tidak terkena hambatan atau halangan. Jumlah fonem vokal ada lima yaitu: a, i, u, e, dan o.

2. Fonem konsonan merupakan bunyi ujaran akibat adanya udara yang keluar dari paru-paru mendapatkan hambatan atau halangan. Jumlah fonem konsonan ada 21 buah yaitu: b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, y, dan z.

METODOLOGI

Pada bab ini akan dijelaskan mengenai tahapan-tahapan yang akan dilakukan dalam penelitian. Tahapan akan dimulai dari proses pencarian dan pengumpulan data, kemudian mempelajari data yang ada untuk digunakan pada tahap pelatihan dan pengujian. Gambar 7 adalah ilustrasi tahapan metodologi penelitian yang digambarkan dengan diagram alur penelitian.

Gambar 7 Diagram alur penelitian.

Data Suara

Penelitian ini dilakukan dengan mengambil data suara dari satu orang (speaker dependent) dengan satu kata sebanyak 16 kali (“coba”, ”fana”, ”gajah”, ”jaya”, ”pacu”, ”malu”,


(9)

masuk dalam lapisan input sampai lapisan output memberikan hasil merupakan fase feedforward (Fu 1994).

2. Backpropagation

Jika telah diperoleh hasil pada lapisan output maka hasil ini akan dibandingkan dengan target pasangan untuk data yang masuk. Dari perbedaan nilai antara target yang diinginkan dengan hasil saat ini dapat dihitung suatu nilai kesalahan. Untuk seluruh data yang ada dapat dihitung suatu nilai total kesalahan. Fase ini merupakan fase kalkulasi error. Nilai error yang diperoleh akan digunakan untuk memperbaiki nilai bobot-bobot pada JST sehingga JST akan semakin baik mengenali pola-pola yang ada. Fase ini disebut dengan fase penyesuaian bobot.

Setelah bobot-bobot diperbaiki data pembelajaran kembali di-input-kan dalam jaringan dan kembali diperoleh nilai error dan bobot akan kembali diperbaiki sehingga pembelajaran akan bersifat iteratif. Fase pembelajaran yang di-input-kan kembali dengan bobot yang telah diperbaiki ini disebut fase backpropagation (Fu 1994).

Iterasi dapat dihentikan jika kriteria error tertentu dipenuhi atau jumlah epoch (satu cycle seluruh data pembelajaran melewati jaringan) tertentu dipenuhi. Kriteria henti dengan menggunakan suatu nilai error tertentu mengimplikasikan jika nilai error cukup kecil maka jaringan akan cukup baik untuk mengenali pola-pola yang ada. Namun nilai error yang terlalu kecil akan membuat jaringan terlalu spesifik mengenali pola-pola pembelajaran (overtrained) dan kemampuannya mengenali pola-pola baru yang serupa tetapi tdak identik dengan pola pembelajaran akan menurun (Fu 1994).

Fonem

Fonem merupakan satuan bunyi terkecil yang mampu menunjukkan kontras makna (Depdikbud 2003). Fonem dibagi menjadi dua, yaitu:

1. Fonem vokal merupakan bunyi ujaran akibat adanya udara yang keluar dari paru-paru tidak terkena hambatan atau halangan. Jumlah fonem vokal ada lima yaitu: a, i, u, e, dan o.

2. Fonem konsonan merupakan bunyi ujaran akibat adanya udara yang keluar dari paru-paru mendapatkan hambatan atau halangan. Jumlah fonem konsonan ada 21 buah yaitu: b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, y, dan z.

METODOLOGI

Pada bab ini akan dijelaskan mengenai tahapan-tahapan yang akan dilakukan dalam penelitian. Tahapan akan dimulai dari proses pencarian dan pengumpulan data, kemudian mempelajari data yang ada untuk digunakan pada tahap pelatihan dan pengujian. Gambar 7 adalah ilustrasi tahapan metodologi penelitian yang digambarkan dengan diagram alur penelitian.

Gambar 7 Diagram alur penelitian.

Data Suara

Penelitian ini dilakukan dengan mengambil data suara dari satu orang (speaker dependent) dengan satu kata sebanyak 16 kali (“coba”, ”fana”, ”gajah”, ”jaya”, ”pacu”, ”malu”,


(10)

”quran”, ”tip-x”, ”visa”, ”weda”, ”zakat”). Dengan demikian, total data suara yang akan dikumpulkan yakni sebanyak 176 kata. Pengambilan data suara menggunakan software Audacity. Setiap pengucapan direkam dengan rentang waktu satu detik dengan nilai sampling rate 12000 Hz.

Penghapusan silence

Data suara yang sudah didapat harus melalui tahap praproses terlebih dahulu. Tahapan praproses terdiri atas standardisasi suara dan penghapusan silence. Silence merupakan bagian ‘diam’ yang biasanya terdapat pada saat awal dan akhir perekaman suara. Berikut ilustrasinya:

Gambar 8 Ilustrasi pemotongan silence.

Normalisasi

Setiap rekaman suara memiliki nilai range amplitudo yang berbeda-beda. Oleh karena itu, semua data suara dinormalisasi dengan cara membagi setiap nilai dengan nilai maksimum pada data masing-masing suara sehingga didapatkan range nilai amplitudo suara yang sama.

Segmentasi Sinyal

Tahap segmentasi sinyal merupakan tahap dimana setiap fonem dari kata-kata yang ada akan dipisahkan secara manual menggunakan Audacity. Segmentasi dari semua kata-kata tersebut dapat dihasilkan 26 fonem yakni a sampai z.

Data Latih dan Data Uji

Data dibagi menjadi data latih dan data uji. Proporsi data latih dan data uji yaitu 75%:25%. Data uji yang digunakan yaitu data tanpa penambahan noise dan data yang ditambah noise 30 dB, 20 dB, dan 10 dB.

Proses ekstrasi ciri

Data suara yang sudah direkam dan dihapus silence disegmentasi terlebih dahulu menjadi beberapa bagian fonem tunggal. Hasilnya masih terlalu besar jika diproses untuk pengenalan

pola maka dilakukan proses ekstraksi ciri yang merupakan proses menentukan suatu nilai atau vektor yang dapat digunakan sebagai penciri objek atau individu. Metode ekstraksi ciri yang digunakan yaitu Wavelet Daubechies dan MFCC.

Ekstraksi Ciri (MFCC dan Wavelet)

Tahap ekstraksi ciri merupakan tahap untuk menentukan vektor penciri dan biasanya menggunakan koefisien cepstral. Proses yang dilakukan pada tahap ini adalah Framing, windowing, penggunaan Fast Fourier Transform dan Transformasi Wavelet daubechies, Mel-Frequency Wrapping, dan Cepstrum. Proses MFCC dan transformasi Wavelet akan dibuat fungsi pada MATLAB yang membutuhkan lima parameter, yaitu : 1. Input suara merupakan data suara dijital

yang disimpan dalam format (.wav).

2. Sampling rate yaitu banyaknya nilai yang diambil dari setiap detik. Penelitian ini menggunakan sampling rate sebesar 12000 Hz.

3. Time frame yaitu waktu yang digunakan untuk satu frame (dalam milidetik). Time frame yang digunakan adalah 30 ms. 4. Lap yaitu overlaping yang diinginkan (harus

kurang dari 100%). Lap yang digunakan pada penelitian ini adalah 50%.

5. Cepstral coefficient yaitu jumlah koefisien yang diinginkan sebagai output. Cepstral coefficient yang digunakan sebanyak 13. Setiap data suara dilakukan proses framing dimana masing-masing frame berukuran 30 ms dengan overlap 50% tanpa noise. Penelitian ini menggunakan 13 koefisien mel cepstrum untuk masing-masing frame. Hasil matriks ini yang merupakan masukan untuk pembelajaran JST.

Proses ekstraksi ciri dengan menggunakan Wavelet akan menghasilkan koefisien-koefisien (koefisien detail dan perkiraan) yang diperoleh dari hasil dekomposisi pada level 1. Pada penelitian ini koefisien yang diambil sebagai masukan ke proses selanjutnya adalah koefisien yang dihasilkan dari frekuensi rendah yaitu koefisien perkiraan (approximation) karena bagian penting dari suatu sinyal terletak pada frekuensi tersebut, yang mampu memberikan identitas dari suatu sinyal. Koefisien yang dihasilkan akan membentuk suatu vektor. Algoritme berikut adalah untuk mencari koefisien detail dan perkiraan pada proses multiple dekomposisi.


(11)

• Sinyal yang masuk difilter ke dalam sinyal frekuensi rendah (low-pass filter) dan sinyal frekuensi tinggi (high-pass filter)

• Lakukan downsampling pada kedua sinyal tersebut

Low-pass frekuensi hasil downsampling selanjutnya melalui proses seperti pada tahap pertama

• Lakukan ulang sampai pada level yang diinginkan

Jika diilustrasikan dalam gambar terlihat pada Gambar 9.

Gambar 9 Proses multiple dekomposisi

Perata-rataan hasil MFCC dan Wavelet

Hasil MFCC dan Wavelet memiliki hasil berupa matriks ciri n×k, n adalah koefisien dan k adalah jumlah frame. Agar ukuran matriks sama untuk setiap fonem yakni berbentuk n×1 untuk setiap fonem, maka dilakukan proses perata-rataan koefisien pada setiap baris.

Pemodelan JST

Pembentukan model referensi fonem dilakukan menggunakan JST Backpropagation dengan arsitektur Multi Layer Perceptron, dengan satu lapisan tersembunyi. Jumlah neuron pada lapisan masukan disesuaikan dengan dimensi hasil ekstraksi ciri, sedangkan jumlah neuron pada lapisan tersembunyi akan dicobakan beberapa nilai sebagai perbandingan dan jumlah neuron pada lapisan keluaran sama dengan jumlah banyaknya fonem). Struktur JST dapat dilihat dalam Tabel 1 dan skema JST yang digunakan terdapat pada Lampiran 1.

Tabel 1 Struktur JST

Karakteristik Spesifikasi

Arsitektur 1 lapisan tersembunyi Neuron lapis

masukan

13 (koefisien hasil ekstrasi ciri)

Neuron lapis tersembunyi

200, 210, 220, 230, 240, 250

Neuron lapis keluaran

26 (banyaknya fonem)

Fungsi Aktivasi Sigmoid biner Toleransi galat 0,0003 Epoch maksimal 5000 Pembelajaran Traingdx Laju pembelajaran 0,01

Laju pembelajaran yg dipakai dalam penelitian ini adalah 0,01. Namun dengan pembelajaran traingdx, nlai laju pembelajaran dapat berubah-ubah karena mengalami rasio penurunan atau peningkatan nilai yang disesuaikan dengan kebutuhan selama pembelajaran berlangsung.

Jumlah epoch maksimal yang ditetapkan adalah 5000. Hal ini diperlukan sebagai kriteria henti jaringan di samping toleransi galat untuk membatasi waktu yang disediakan bagi jaringan dalam melakukan pembelajaran.

Target menggunakan nilai satu pada neuron lapisan keluaran untuk fonem yang bersesuaian. Misalnya untuk target dengan nilai elemen pertama satu maka target tersebut menunjukkan kelas pertama. Pendefinisian target terdapat pada Lampiran 2.

Pengujian model JST

Pada proses identifikasi, pembuatan keputusan dilakukan dengan metode nilai maksimum. Jika neuron output ke-n merupakan neuron dengan nilai maksimum maka data yang masuk dikenali sebagai fonem ke-n. Sebagai contoh jika neuron pertama pada lapisan output bernilai satu maka input diidentifikasi sebagai fonem pertama yaitu a.

Analisis akurasi

Dari hasil pengujian, dapat diketahui berapa nilai akurasi yang didapat untuk penelitian pengenalan fonem ini. Nilai akurasi menunjukkan seberapa besar keberhasilan penerapan metode MFCC dan transformasi Wavelet untuk ekstrasi ciri pada pengenalan fonem ini. Satuan akurasi dinyatakan dalam persen (%). Berkut ini adalah persamaan untuk menghitung akurasi :

HASIL DAN PEMBAHASAN

Pengujian yang telah dilakukan adalah tahap praproses meliputi proses akuisisi data suara digital, proses sinyal yang ditambahkan noise dan proses sinyal tanpa penambahan noise, proses frame blocking dan windowing, serta proses ekstraksi ciri dengan MFCC yang berbasis Transformasi Fourier dan Wavelet yang bebasis Transformasi Wavelet dengan tipe Daubechies berorde empat.


(12)

• Sinyal yang masuk difilter ke dalam sinyal frekuensi rendah (low-pass filter) dan sinyal frekuensi tinggi (high-pass filter)

• Lakukan downsampling pada kedua sinyal tersebut

Low-pass frekuensi hasil downsampling selanjutnya melalui proses seperti pada tahap pertama

• Lakukan ulang sampai pada level yang diinginkan

Jika diilustrasikan dalam gambar terlihat pada Gambar 9.

Gambar 9 Proses multiple dekomposisi

Perata-rataan hasil MFCC dan Wavelet

Hasil MFCC dan Wavelet memiliki hasil berupa matriks ciri n×k, n adalah koefisien dan k adalah jumlah frame. Agar ukuran matriks sama untuk setiap fonem yakni berbentuk n×1 untuk setiap fonem, maka dilakukan proses perata-rataan koefisien pada setiap baris.

Pemodelan JST

Pembentukan model referensi fonem dilakukan menggunakan JST Backpropagation dengan arsitektur Multi Layer Perceptron, dengan satu lapisan tersembunyi. Jumlah neuron pada lapisan masukan disesuaikan dengan dimensi hasil ekstraksi ciri, sedangkan jumlah neuron pada lapisan tersembunyi akan dicobakan beberapa nilai sebagai perbandingan dan jumlah neuron pada lapisan keluaran sama dengan jumlah banyaknya fonem). Struktur JST dapat dilihat dalam Tabel 1 dan skema JST yang digunakan terdapat pada Lampiran 1.

Tabel 1 Struktur JST

Karakteristik Spesifikasi

Arsitektur 1 lapisan tersembunyi Neuron lapis

masukan

13 (koefisien hasil ekstrasi ciri)

Neuron lapis tersembunyi

200, 210, 220, 230, 240, 250

Neuron lapis keluaran

26 (banyaknya fonem)

Fungsi Aktivasi Sigmoid biner Toleransi galat 0,0003 Epoch maksimal 5000 Pembelajaran Traingdx Laju pembelajaran 0,01

Laju pembelajaran yg dipakai dalam penelitian ini adalah 0,01. Namun dengan pembelajaran traingdx, nlai laju pembelajaran dapat berubah-ubah karena mengalami rasio penurunan atau peningkatan nilai yang disesuaikan dengan kebutuhan selama pembelajaran berlangsung.

Jumlah epoch maksimal yang ditetapkan adalah 5000. Hal ini diperlukan sebagai kriteria henti jaringan di samping toleransi galat untuk membatasi waktu yang disediakan bagi jaringan dalam melakukan pembelajaran.

Target menggunakan nilai satu pada neuron lapisan keluaran untuk fonem yang bersesuaian. Misalnya untuk target dengan nilai elemen pertama satu maka target tersebut menunjukkan kelas pertama. Pendefinisian target terdapat pada Lampiran 2.

Pengujian model JST

Pada proses identifikasi, pembuatan keputusan dilakukan dengan metode nilai maksimum. Jika neuron output ke-n merupakan neuron dengan nilai maksimum maka data yang masuk dikenali sebagai fonem ke-n. Sebagai contoh jika neuron pertama pada lapisan output bernilai satu maka input diidentifikasi sebagai fonem pertama yaitu a.

Analisis akurasi

Dari hasil pengujian, dapat diketahui berapa nilai akurasi yang didapat untuk penelitian pengenalan fonem ini. Nilai akurasi menunjukkan seberapa besar keberhasilan penerapan metode MFCC dan transformasi Wavelet untuk ekstrasi ciri pada pengenalan fonem ini. Satuan akurasi dinyatakan dalam persen (%). Berkut ini adalah persamaan untuk menghitung akurasi :

HASIL DAN PEMBAHASAN

Pengujian yang telah dilakukan adalah tahap praproses meliputi proses akuisisi data suara digital, proses sinyal yang ditambahkan noise dan proses sinyal tanpa penambahan noise, proses frame blocking dan windowing, serta proses ekstraksi ciri dengan MFCC yang berbasis Transformasi Fourier dan Wavelet yang bebasis Transformasi Wavelet dengan tipe Daubechies berorde empat.


(13)

Pembentukan referensi fonem dan pencocokan pola

Pengujian yang dilakukan merupakan kombinasi dari sinyal yang ditambahkan noise atau tidak serta jumlah neuron tersembunyi. Total keseluruhan adalah 48 percobaan dimana 36 percobaan merupakan kombinasi dari sinyal yang ditambahkan noise. Percobaan ini menggunakan kombinasi enam neuron tersembunyi, data yang ditambah noise dan dua jenis tipe ekstraksi ciri.

Hal-hal yang dilihat dalam pencocokan pola JST adalah jumlah epoch yang dilalui dalam proses, waktu yang dibutuhkan untuk mencapai jumlah epoch tersebut dan nilai generalisasi yang didapat dari pembelajaran yang telah dilakukan.

Sinyal suara tanpa ditambahkan noise

(sinyal asli)

Wavelet Daubechies orde 4 (db4)

Pengujian pertama dilakukan pada tipe Wavelet Daubechies db4 level satu, dengan toleransi galat 0.00003, laju pembelajaran 0.01, dan kombinasi jumlah neuron tersembunyi 200 sampai 250 dengan selang 10. Dari enam pengujian tersebut didapat hasil akurasi yang terbaik dilakukan pada saat proses pembelajaran dengan 220 neuron tersembunyi. Gambar 10 merupakan grafik proses pembelajaran yang dilakukan pengujian tersebut. Walaupun pengujian tersebut tidak mencapai kekonvergenan pada pembelajaran ini, tetapi prosesnya berhasil menyelesaikan 5000 epoch dalam waktu 4 menit 32 detik.

Gambar10 Proses Pembelajaran Wavelet dengan 220 neuron tersembunyi.

Gambar 11 menunjukkan hasil dari seluruh pengujian pengenalan fonem dengan transformasi Wavelet sebagai ekstraksi ciri. Tingkat akurasi terbaik didapat sebesar 36% untuk generalisasi 26 fonem yang diujikan.

Gambar 11 Grafik tingkat akurasi Wavelet. Gambar 12 menunjukkan tingkat akurasi masing-masing fonem pada pengujian dengan 220 neuron tersembunyi sebagai percobaan terbaik dalam transformasi Wavelet sebagai ekstraksi ciri.

Gambar 12 Grafik hasil pengenalan fonem dengan Wavelet.

Akurasi pengenalan fonem terbaik pada pengujian transformasi Wavelet sebagai ekstraksi ciri terdapat pada fonem /h/ dan /n/ sebesar 100% seperti yang ditunjukan pada gambar 11. Fonem /e/ dan /u/ mencapai akurasi sebesar 75 %. Fonem /a/, /f/, /g/, /m/, /q/, dan /y/ mencapai akurasi sebesar 50%. Di lain pihak, sisa fonem yang lainnya hanya mencapai akurasi yang tidak lebih besar dari 25%.

MFCC

Pengujian selanjutnya dilakukan dengan ekstraksi ciri berbasis transformasi Fourier yaitu MFCC, dengan toleransi galat 0.00003, laju pembelajaran 0.01, dan kombinasi jumlah neuron tersembunyi 200 sampai 250 dengan selang 10. Dari enam pengujian tersebut, berbeda dengan hasil pengujian sebelumnya dengan transformasi Wavelet sebagai ekstraksi ciri, MFCC mendapat hasil akurasi terbaik yang dilakukan pada saat pembelajaran dengan 240 neuron tersembunyi. Gambar 13 merupakan grafik proses pembelajaran yang terbaik yang didapat pada pengujian ini. Walaupun pengujian tidak mencapai kekonvergenan pada saat pembelajaran, tetapi prosesnya berhasil menyelesaikan 5000 epoch dalam waktu 4 menit 50 detik.


(14)

Gambar 13 Proses Pembelajaran MFCC dengan 240 neuron tersembunyi.

Gambar 14 Grafik tingkat akurasi MFCC. Gambar 14 menunjukkan hasil dari seluruh pengujian yang dilakukan pada pengenalan fonem dengan MFCC sebagai transformasi berbasis transformasi Fourier. Hasil yang terbaik yang didapat dari serangkaian pengujian sebesar 100% pada proses pembelajaran dengan 240 neuron tersembunyi.

Tabel 2 Hasil pengujian pengenalan fonem berdasarkan tipe ekstraksi ciri.

Tabel 2 menunjukkan hasil seluruh pengujian pengenalan fonem berdasarkan ekstraksi ciri. Terlihat bahwa hasil yang didapat dari transformasi Wavelet sebagai ekstraksi ciri sangat jauh di bawah hasil MFCC sebagai ekstraksi ciri. MFCC memperoleh hasil terbaik sebesar 100%, sedangkan Wavelet hanya mencapai 36% dengan jumlah neuron tersembunyi yang berbeda pada saat proses pembelajaran.

Tabel 3 Perbandingan hasil pengenalan fonem

Tabel 3 menunjukkan hasil akurasi setiap fonem pada pengujian terbaik di masing-masing metode ekstraksi ciri. Pengenalan fonem dengan MFCC sebagai ekstraksi ciri dapat mengenali seluruh fonem dengan sempurna, sedangkan pengenalan fonem dengan transformasi Wavelet sebagai ekstraksi ciri dapat mengenali fonem dengan sempurna hanya pada fonem /h/ dan /n/.

Sinyal suara ditambahkan noise

Pengujian selanjutnya yaitu dengan menambahkan noise berupa white gaussian noise pada data suara asli dengan nilai 10 dB, 20 dB, dan 30 dB. Data latih yang digunakan untuk membuat model JST tetap menggunakan data asli. Perbandingan data latih dan data uji menggunakan perbandingan 75:25 seperti pada pengujian dengan sinyal suara tanpa ditambahkan noise.

Wavelet Daubechies orde 4 (db4)

Gambar 15 Grafik perbandingan akurasi Wavelet data asli dan data ber-noise.


(15)

Gambar 15 menunjukkan grafik perbandingan akurasi pada data asli tanpa penambahan noise dan data dengan penambahan noise 10 dB, 20 dB, dan 30 dB. Pada gambar tersebut dapat terlihat bahwa tingkat akurasi tidak mengalami perubahan yang signifikan walaupun data uji ditambah dengan noise pada saat pengujian.

Tabel 4 Hasil pengujian Wavelet data asli dan data yang ditambahkan noise.

Tabel 4 menunjukkan secara detail hasil akurasi perbandingan data asli tanpa penambahan noise dan data dengan penambahan noise. Untuk pengujian yang menggunakan pembelajaran JST dengan 200, 210, 220, dan 250 neuron tersembunyi sama sekali tidak mengalami perubahan tingkat akurasi. Pada pengujian dengan pembelajaran JST 230 dan 240 neuron tersembunyi mengalami penurunan tingkat akurasi, walaupun hanya 1% pada penambahan noise 10 dB untuk 230 neuron tersembunyi dan 1% pada penambahan noise 20 dB dan 30 dB untuk 240 neuron tersembunyi.

MFCC

Gambar 16 menunjukkan grafik perbandingan akurasi pada data asli tanpa penambahan noise dan data dengan penambahan noise 10 dB, 20 dB, dan 30 dB. Pengujian ini pun melakukan kombinasi pada neuron tersembunyi seperti pengujian sebelumnya. Pada gambar 16 ini dapat terlihat perbedaan hasil dengan pengujian sebelumnya.

Gambar 16 Grafik perbandingan akurasi MFCC data asli dan data ber-noise.

Data uji yang ditambah noise pada pengenalan fonem dengan MFCC sebagai ekstraksi ciri mengalami penurunan tingkat akurasi. Seperti terlihat pada Tabel 5 yang menunjukkan secara detail hasil akurasi pengujian ini, setiap pengujian dengan kombinasi neuron tersembunyi mengalami penurunan tingkat akurasi. Penurunan tingkat akurasi yang paling signifikan terjadi pada penambahan noise 10 dB sebesar 13% pada saat pembelajaran JST 220 neuron tersembunyi. Penambahan noise 20 dB mempengaruhi penurunan tingkat akurasi sampai dengan 32% pada saat pembelajaran JST 230 neuron tersembunyi. Penambahan noise 30 dB mempengaruhi tingkat akurasi hasil pengenalan fonem hingga 64% pada pembelajaran JST 230 neuron tersembunyi.

Tabel 5 Hasil pengujian MFCC data asli dan data yang ditambahkan noise.


(16)

Hasil pengujian secara keseluruhan dengan membandingkan tingkat akurasi antara pengenalan fonem dengan menggunakan ekstraksi ciri berbasis transformasi Fourier dan transformasi Wavelet yang ditambahkan noise didapat bahwa pengenalan fonem dengan ekstraksi ciri berbasis transformasi Fourier yang ditambah noise semakin merusak sinyal asli sehingga pola masing-masing fonem semakin tidak jelas. Hasil terbaik dengan menggunakan sinyal suara yang ditambahkan noise untuk transformasi Fourier adalah 73% dengan 30 dB pada pembelajaran JST dengan 240 neuron tersembunyi.

Pengenalan fonem dengan ekstraksi ciri berbasis transformasi Wavelet yang ditambah noise, tingkat akurasinya menunjukkan bahwa penambahan noise tidak mempengaruhi penurunan tingkat akurasi. Hal ini terlihat dari perbandingan pada Gambar 15 dan Tabel 4 yang menunjukkan penurunan tingkat akurasi terburuk hanya sebesar 1% pada penambahan noise 10 dB untuk pembelajaran JST 230 neuron tersembunyi. Serta 1% pada penambahan noise 20 dB dan 30 dB untuk 240 neuron tersembunyi pada saat pembelajaran model JST.

KESIMPULAN DAN SARAN Kesimpulan

Dari penelitian yang telah dilakukan, dapat disimpulkan bahwa penggunaan metode Wavelet Daubechies sebagai ekstraksi ciri pada pengenalan pola tidak lebih baik dari metode MFCC. Untuk metode Wavelet Daubechies dengan pembelajaran JST 220 neuron tersembunyi mempunyai tingkat akurasi 36% sebagai hasil pengujian terbaik. Pada pengenalan fonem dengan metode MFCC mencapai tingkat akurasi 100% dengan pembelajaran JST 240 neuron tersembunyi.

Dengan menggunakan data uji yang ditambahkan noise, didapat kesimpulan bahwa noise sangat mempengaruhi penurunan tingkat akurasi pengenalan fonem dengan MFCC sebagai ekstraksi ciri sampai 13%. Sedangkan untuk pengenalan fonem dengan transformasi Wavelet sebagai ekstraksi ciri, penambahan noise pada data uji tidak mempengaruhi tingkat akurasi secara signifikan.

Saran

1. Pengembangan penelitian yang disarankan ke arah pengenalan kata berbasis fonem. 2. Penggunaan kamus data yang lebih besar.

3. Penerapan auto-correlation untuk segmentasi otomatis pada kata yang digunakan.

4. Pengembangan metode ekstraksi ciri lanjut dengan Wavelet.

5. Penambahan data suara yang lebih banyak dan lebih bervariasi untuk data latih.

DAFTAR PUSTAKA

Agustini, Ketut. 2006. Perbandingan Metode Transformasi Wavelet sebagai praproses pada sistem identifikasi pembicara. [tesis]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Buono, Agus. 2009. Representasi Nilai HOS dan Model MFCC Sebagai Ekstraksi Ciri Pada Sistem Identifikasi Pembicara di Lingkungan Ber-Noise Menggunakan HMM. [disertasi]. Depok: Program Pascasarjana, Universitas Indonesia. Burrus, C.S. Gopinath R.A., Guo, H. 1998.

Introduction to Wavelets and Wavelet Transforms A Primer, International Edition, Prentice-Hall International, Inc.

[Depdikbud] Departemen Pendidikan dan Kebudayaan, Pusat Pembinaan dan Pengembangan Bahasa. 2003. Kamus Besar Bahasa Indonesia. Ed ke-3. Jakarta : Balai Pustaka.

Do, Minh N. 1994. Digital Signal Processing Mini-Project: An Automatic Speaker Recognition System Audio Visual Communications Laboratory, Swiss Federal Institute of Technology, Lausanne, Switzerland.

Fu, L. 1994. Neural Network in Computer Intelligence. McGraw-Hill, Singapore. Gonzalez R.C., Wood, R.E. 2002, Digital Image

Processing, Second Edition, Prentice Hall, Inc.

Hermawan, Arief. 2006. Jaringan Syaraf Tiruan Teori dan Aplikasi. Yogyakarta: Penerbit ANDI.

Jurafsky D, Martin JH. 2000. Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. New Jersey:Prentice Hall. Mallat, Stephane. 1999. A Wavelet Tour Of

Signal Processing, Second Edition, Academic Press 24-28 Oval Road, London NW1 7DX UK, http://www.hbuk.co.uk/ap/


(17)

Hasil pengujian secara keseluruhan dengan membandingkan tingkat akurasi antara pengenalan fonem dengan menggunakan ekstraksi ciri berbasis transformasi Fourier dan transformasi Wavelet yang ditambahkan noise didapat bahwa pengenalan fonem dengan ekstraksi ciri berbasis transformasi Fourier yang ditambah noise semakin merusak sinyal asli sehingga pola masing-masing fonem semakin tidak jelas. Hasil terbaik dengan menggunakan sinyal suara yang ditambahkan noise untuk transformasi Fourier adalah 73% dengan 30 dB pada pembelajaran JST dengan 240 neuron tersembunyi.

Pengenalan fonem dengan ekstraksi ciri berbasis transformasi Wavelet yang ditambah noise, tingkat akurasinya menunjukkan bahwa penambahan noise tidak mempengaruhi penurunan tingkat akurasi. Hal ini terlihat dari perbandingan pada Gambar 15 dan Tabel 4 yang menunjukkan penurunan tingkat akurasi terburuk hanya sebesar 1% pada penambahan noise 10 dB untuk pembelajaran JST 230 neuron tersembunyi. Serta 1% pada penambahan noise 20 dB dan 30 dB untuk 240 neuron tersembunyi pada saat pembelajaran model JST.

KESIMPULAN DAN SARAN Kesimpulan

Dari penelitian yang telah dilakukan, dapat disimpulkan bahwa penggunaan metode Wavelet Daubechies sebagai ekstraksi ciri pada pengenalan pola tidak lebih baik dari metode MFCC. Untuk metode Wavelet Daubechies dengan pembelajaran JST 220 neuron tersembunyi mempunyai tingkat akurasi 36% sebagai hasil pengujian terbaik. Pada pengenalan fonem dengan metode MFCC mencapai tingkat akurasi 100% dengan pembelajaran JST 240 neuron tersembunyi.

Dengan menggunakan data uji yang ditambahkan noise, didapat kesimpulan bahwa noise sangat mempengaruhi penurunan tingkat akurasi pengenalan fonem dengan MFCC sebagai ekstraksi ciri sampai 13%. Sedangkan untuk pengenalan fonem dengan transformasi Wavelet sebagai ekstraksi ciri, penambahan noise pada data uji tidak mempengaruhi tingkat akurasi secara signifikan.

Saran

1. Pengembangan penelitian yang disarankan ke arah pengenalan kata berbasis fonem. 2. Penggunaan kamus data yang lebih besar.

3. Penerapan auto-correlation untuk segmentasi otomatis pada kata yang digunakan.

4. Pengembangan metode ekstraksi ciri lanjut dengan Wavelet.

5. Penambahan data suara yang lebih banyak dan lebih bervariasi untuk data latih.

DAFTAR PUSTAKA

Agustini, Ketut. 2006. Perbandingan Metode Transformasi Wavelet sebagai praproses pada sistem identifikasi pembicara. [tesis]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Buono, Agus. 2009. Representasi Nilai HOS dan Model MFCC Sebagai Ekstraksi Ciri Pada Sistem Identifikasi Pembicara di Lingkungan Ber-Noise Menggunakan HMM. [disertasi]. Depok: Program Pascasarjana, Universitas Indonesia. Burrus, C.S. Gopinath R.A., Guo, H. 1998.

Introduction to Wavelets and Wavelet Transforms A Primer, International Edition, Prentice-Hall International, Inc.

[Depdikbud] Departemen Pendidikan dan Kebudayaan, Pusat Pembinaan dan Pengembangan Bahasa. 2003. Kamus Besar Bahasa Indonesia. Ed ke-3. Jakarta : Balai Pustaka.

Do, Minh N. 1994. Digital Signal Processing Mini-Project: An Automatic Speaker Recognition System Audio Visual Communications Laboratory, Swiss Federal Institute of Technology, Lausanne, Switzerland.

Fu, L. 1994. Neural Network in Computer Intelligence. McGraw-Hill, Singapore. Gonzalez R.C., Wood, R.E. 2002, Digital Image

Processing, Second Edition, Prentice Hall, Inc.

Hermawan, Arief. 2006. Jaringan Syaraf Tiruan Teori dan Aplikasi. Yogyakarta: Penerbit ANDI.

Jurafsky D, Martin JH. 2000. Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. New Jersey:Prentice Hall. Mallat, Stephane. 1999. A Wavelet Tour Of

Signal Processing, Second Edition, Academic Press 24-28 Oval Road, London NW1 7DX UK, http://www.hbuk.co.uk/ap/


(18)

MUTIA FIJRI TAUFANI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2011


(19)

Hasil pengujian secara keseluruhan dengan membandingkan tingkat akurasi antara pengenalan fonem dengan menggunakan ekstraksi ciri berbasis transformasi Fourier dan transformasi Wavelet yang ditambahkan noise didapat bahwa pengenalan fonem dengan ekstraksi ciri berbasis transformasi Fourier yang ditambah noise semakin merusak sinyal asli sehingga pola masing-masing fonem semakin tidak jelas. Hasil terbaik dengan menggunakan sinyal suara yang ditambahkan noise untuk transformasi Fourier adalah 73% dengan 30 dB pada pembelajaran JST dengan 240 neuron tersembunyi.

Pengenalan fonem dengan ekstraksi ciri berbasis transformasi Wavelet yang ditambah noise, tingkat akurasinya menunjukkan bahwa penambahan noise tidak mempengaruhi penurunan tingkat akurasi. Hal ini terlihat dari perbandingan pada Gambar 15 dan Tabel 4 yang menunjukkan penurunan tingkat akurasi terburuk hanya sebesar 1% pada penambahan noise 10 dB untuk pembelajaran JST 230 neuron tersembunyi. Serta 1% pada penambahan noise 20 dB dan 30 dB untuk 240 neuron tersembunyi pada saat pembelajaran model JST.

KESIMPULAN DAN SARAN Kesimpulan

Dari penelitian yang telah dilakukan, dapat disimpulkan bahwa penggunaan metode Wavelet Daubechies sebagai ekstraksi ciri pada pengenalan pola tidak lebih baik dari metode MFCC. Untuk metode Wavelet Daubechies dengan pembelajaran JST 220 neuron tersembunyi mempunyai tingkat akurasi 36% sebagai hasil pengujian terbaik. Pada pengenalan fonem dengan metode MFCC mencapai tingkat akurasi 100% dengan pembelajaran JST 240 neuron tersembunyi.

Dengan menggunakan data uji yang ditambahkan noise, didapat kesimpulan bahwa noise sangat mempengaruhi penurunan tingkat akurasi pengenalan fonem dengan MFCC sebagai ekstraksi ciri sampai 13%. Sedangkan untuk pengenalan fonem dengan transformasi Wavelet sebagai ekstraksi ciri, penambahan noise pada data uji tidak mempengaruhi tingkat akurasi secara signifikan.

Saran

1. Pengembangan penelitian yang disarankan ke arah pengenalan kata berbasis fonem. 2. Penggunaan kamus data yang lebih besar.

3. Penerapan auto-correlation untuk segmentasi otomatis pada kata yang digunakan.

4. Pengembangan metode ekstraksi ciri lanjut dengan Wavelet.

5. Penambahan data suara yang lebih banyak dan lebih bervariasi untuk data latih.

DAFTAR PUSTAKA

Agustini, Ketut. 2006. Perbandingan Metode Transformasi Wavelet sebagai praproses pada sistem identifikasi pembicara. [tesis]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Buono, Agus. 2009. Representasi Nilai HOS dan Model MFCC Sebagai Ekstraksi Ciri Pada Sistem Identifikasi Pembicara di Lingkungan Ber-Noise Menggunakan HMM. [disertasi]. Depok: Program Pascasarjana, Universitas Indonesia. Burrus, C.S. Gopinath R.A., Guo, H. 1998.

Introduction to Wavelets and Wavelet Transforms A Primer, International Edition, Prentice-Hall International, Inc.

[Depdikbud] Departemen Pendidikan dan Kebudayaan, Pusat Pembinaan dan Pengembangan Bahasa. 2003. Kamus Besar Bahasa Indonesia. Ed ke-3. Jakarta : Balai Pustaka.

Do, Minh N. 1994. Digital Signal Processing Mini-Project: An Automatic Speaker Recognition System Audio Visual Communications Laboratory, Swiss Federal Institute of Technology, Lausanne, Switzerland.

Fu, L. 1994. Neural Network in Computer Intelligence. McGraw-Hill, Singapore. Gonzalez R.C., Wood, R.E. 2002, Digital Image

Processing, Second Edition, Prentice Hall, Inc.

Hermawan, Arief. 2006. Jaringan Syaraf Tiruan Teori dan Aplikasi. Yogyakarta: Penerbit ANDI.

Jurafsky D, Martin JH. 2000. Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. New Jersey:Prentice Hall. Mallat, Stephane. 1999. A Wavelet Tour Of

Signal Processing, Second Edition, Academic Press 24-28 Oval Road, London NW1 7DX UK, http://www.hbuk.co.uk/ap/


(20)

Sarikaya R, Pellom B, Hansen J. 1998. Wavelet Packet Transform Features With Application To Speaker Identification. Robust Speech Processing Laboratory Duke University;

http://www.ee.duke.edu/Research/Speech. Siang, Jong Jek. 2009. Jaringan Syaraf Tiruan

dan Pemrogramannya menggunakan MATLAB. Yogyakarta: Penerbit ANDI.


(21)

MUTIA FIJRI TAUFANI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2011


(22)

MUTIA FIJRI TAUFANI

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2011


(23)

MUTIA FIJRI TAUFANI. A comparison modeling of wavelet and mfcc as feature extraction on phoneme recognition with neural network techniques as a classifier. Supervised by AGUS BUONO.

Researches on voice signals have been carried out using various signal processing methods, such as Linear Prediction Coding (LPC), Mel Frequency cepstrum coefficients (MFCC), and Neural Predictive Coding (NPC) which the whole method is based on Fourier transformation. Therefore, comparisons will be made with other approaches based on Wavelet transformation. This research would be the comparison of two feature extraction types, that are Wavelet daubechies and MFCC.

Wavelet Transformation has become increasingly popular in signal processing as image and speech. Wavelet transformation has demonstrated good time-frequency localization properties and are appropiate tools for the analysis of non-stationary signals like speech. MFCC feature extraction that computes the cepstral coefficients by considering the human hearing. ANN multilayer perceptron, known as backpropagation used as classifier.

From the research that has been done, it can be concluded that the use of Daubechies Wavelet methods as feature extraction on phoneme recognition is not better than MFCC. The accuracy of Daubechies Wavelet method with a 220 hidden neurons ANN learning has achived 36% rate as the best test results. While on phoneme recognition with MFCC method achieved 100% accuracy rate with a 240 hidden neuron learning ANN.


(24)

Menyetujui:

Pembimbing

Dr. Ir. Agus Buono M.Si M.Kom NIP. 196607021993021001

Mengetahui:

Ketua Departemen Ilmu Komputer

Dr. Ir. Sri Nurdiati M.Sc NIP. 196011261986012001


(25)

Penulis bernama Mutia Fijri Taufani dilahirkan di Bogor pada tanggal 17 Mei 1986 sebagai anak kedua dari dua bersaudara dari pasangan Bapak Drs. Etje Djayadi Idrus (Alm) dan Ibu Siti Mardiyah, S.Pd.

Penulis menyelesaikan pendidikan lanjutan atas di SMU Negeri 3 Bogor pada tahun 2004. Kemudian melanjutkan studi di Program Studi Diploma 3 Teknik Informatika, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam IPB. Penulis lulus dari Program Studi Diploma 3 IPB tahun 2007 dan pada tahun 2008 melanjutkan studi ke jenjang Sarjana Ilmu Komputer di tempat yang sama.

Selama melanjutkan studi ke jenjang sarjana penulis sempat bekerja di PT. Xsis Mitra Utama IT Service Management dan Center International Foresty Research (CIFOR) Bogor sebagai Java dan PHP programmer.


(26)

Alhamdulillah, puji serta syukur penulis panjatkan kehadirat Allah SWT yang telah melimpahkan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan penelitian ini dengan baik. Tema penelitian ini yaitu mengenai pengenalan suara yang dilaksanakan sejak November 2010 dengan judul Perbandingan Pemodelan Wavelet dan MFCC sebagai ekstraksi ciri pada pengenalan fonem dengan teknik jaringan syaraf tiruan sebagai classifier.

Terselesaikannya penelitian ini tidak luput dari bantuan dan dukungan dari banyak pihak. Untuk itu saya ingin menyampaikan terima kasih kepada:

1. Ibunda tercinta yang telah memberi dukungan moral dan spiritual kepada penulis serta kakakku Mochammad Riyadi Fazar atas motivasi, nasihat, dan dorongan kepada penulis.

2. Bapak Dr.Ir. Agus Buono M.Si M.Kom selaku dosen pembimbing.

3. Teman-teman mahasiswa Sarjana Penyelenggaraan Khusus Ilmu Komputer, Departemen Ilmu Komputer FMIPA IPB khususnya angkatan 3.

Akhirnya penulis berharap semoga penelitian ini dapat bermanfaat bagi semua pihak yang membutuhkan. Amin.

Bogor, Maret 2011


(27)

, Penguji: 1. Aziz Kustiyo, S.Si, M.Kom 2. Musthofa S.Kom, M.Sc


(28)

DAFTAR ISI

Halaman DAFTAR GAMBAR...v DAFTAR TABEL ...v DAFTAR LAMPIRAN ...v PENDAHULUAN

Latar Belakang ...1 Tujuan Penelitian ...1 Ruang Lingkup Penelitian...1 Manfaat Penelitian ...1 TINJAUAN PUSTAKA

Suara dan sinyal ...1 Digitalisasi gelombang suara ...1 Ekstraksi Ciri ...2 MFCC ...2 Transformasi Wavelet Daubechies...3 Jaringan Syaraf Tiruan ...4 Fonem ...6 METODOLOGI

Data Suara ...6 Penghapusan silence...7 Normalisasi ...7 Segmentasi Sinyal ...7 Data Latih dan Data Uji ...7 Proses ekstrasi ciri...7 Ekstraksi Ciri (MFCC dan Wavelet) ...7 Perata-rataan hasil MFCC dan Wavelet...8 Pemodelan JST...8 Pengujian model JST ...8 Analisis akurasi ...8 HASIL DAN PEMBAHASAN

Pembentukan referensi fonem dan pencocokan pola...9 Sinyal suara tanpa ditambahkan noise (sinyal asli) ...9 Sinyal suara ditambahkan noise...10 KESIMPULAN DAN SARAN

Kesimpulan ...12 Saran ...12 DAFTAR PUSTAKA ...12 LAMPIRAN ...14


(29)

DAFTAR TABEL

Halaman

1 Struktur JST ...8

2 Hasil pengujian pengenalan fonem berdasarkan tipe ekstraksi ciri...10

3 Perbandingan hasil pengenalan fonem ...10

4 Hasil pengujian Wavelet data asli dan data yang ditambahkan noise...11

DAFTAR GAMBAR Halaman 1 Sinyal analog. ...1

2 Sinyal diskret. ...2

3 Diagram alur MFCC. (Buono 2009)...2

5 Sigmoid biner pada selang [0,1]. ...5

7 Diagram alur penelitian. ...6

8 Ilustrasi pemotongan silence...7

10 Proses Pembelajaran Wavelet dengan 220 neuron tersembunyi...9

11 Grafik tingkat akurasi Wavelet. ...9

12 Grafik hasil pengenalan fonem dengan Wavelet. ...9

13 Proses Pembelajaran MFCC dengan 240 neuron tersembunyi. ...10

14 Grafik tingkat akurasi MFCC. ...10

15 Grafik perbandingan akurasi Wavelet data asli dan data ber-noise. ...10

16 Grafik perbandingan akurasi MFCC data asli dan data ber-noise. ...11

DAFTAR LAMPIRAN Halaman 1 Skema JST ...15


(30)

PENDAHULUAN Latar Belakang

Pengenalan fonem adalah implementasi dari speech to teks yang merupakan bagian dari speech recognition atau pengenalan ucapan. Pengenalan ucapan lebih dikonsentrasikan pada ekstraksi dari beberapa bagian informasi pesan yang di dalamnya berisikan teks yang diucapkan. Teks yang diucapkan ini mengandung unit-unit linguistik terkecil yang disebut sebagai fonem yang akan dikenali melalui sinyal suara.

Sinyal suara manusia mempunyai tingkat variabilitas yang sangat tinggi. Suatu sinyal suara yang mengucapkan teks yang berbeda-beda akan menghasilkan pola ucapan yang berbeda-beda pula. Salah satu cara yang paling handal dalam pengenalan pola adalah Jaringan Syaraf Tiruan (JST). JST mampu menyelesaikan persoalan rumit yang sulit atau bahkan tidak mungkin jika diselesaikan dengan menggunakan komputasi konvensional. Salah satu jenis JST yang mampu memberikan unjuk kerja yang bagus adalah JST dengan arsitektur Multi-Layer Perceptron (MLP) dan pembelajaran Backpropagation (Fu,1994).

Penelitian mengenai sinyal suara telah banyak dilakukan dengan berbagai metode pemrosesan sinyal, seperti Linier Prediction Coding (LPC), Mel Frequency Cepstrum Coefficients (MFCC), dan Neural Predictive Coding (NPC) yang mana keseluruhan metode di atas berbasiskan transformasi Fourier. Untuk itu, akan dilakukan perbandingan konsep atau pendekatan lain tanpa berbasiskan transformasi Fourier yaitu transformasi Wavelet.

Transformasi Wavelet merupakan sarana yang mulai populer untuk pemrosesan sinyal, seperti citra dan suara. Penelitian sebelumnya yang menggunakan transformasi Wavelet pada analisis suara telah dilakukan oleh dan Ruhi Sarikaya (1998) dan Ketut Agustini (2006). Kedua penelitian tersebut menggunakan transformasi Wavelet sebagai ekstraksi ciri pada identifikasi pembicara. Maka dari itu, penelitian ini akan melakukan implementasi transformasi wavelet pada bidang analisis suara lainnya yaitu pengenalan fonem.

Tujuan Penelitian

Tujuan penelitian ini adalah untuk membandingkan dua metode ekstraksi ciri yang berbasis transformasi Fourier dan transformasi Wavelet pada pengenalan fonem serta penggunaan JST sebagai classifier.

Ruang Lingkup Penelitian

Ruang lingkup penelitian ini adalah : 1. Akuisisi data dilakukan dengan mikrofon. 2. Menggunakan sebelas kata yang telah

mencakup fonem a-z, yaitu: coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat. Serta tidak memperhatikan pemakaian kata homograf dan homofon. 3. Semua kata diucapkan oleh satu orang. 4. Menggunakan transformasi Wavelet

Daubechies orde empat pada level satu. 5. Menggunakan JST dengan arsitektur

multi-layer perceptron dan pembelajaran backpropagation sebagai classifier.

Manfaat Penelitian

Penelitian ini diharapkan dapat memberikan informasi tingkat akurasi hasil perbandingan transformasi Wavelet dan MFCC sebagai ekstraksi ciri pada proses pengenalan fonem menggunakan teknik JST sebagai classifier.

TINJAUAN PUSTAKA Suara dan sinyal

Sinyal suara merupakan gelombang yang tercipta dari tekanan udara yang berasal dari paru-paru yang berjalan melewati lintasan suara menuju mulut dan rongga hidung dengan bentuk artikulator yang senantiasa berubah. Manusia mendengar bunyi saat gelombang bunyi, yaitu getaran di udara atau medium lain sampai ke gendang telinga manusia. Batas frekuensi bunyi yang dapat didengar oleh telinga manusia sekitar 20 Hz sampai 20 KHz atau sering disebut audiosonik.

Secara matematika suatu sinyal dirumuskan sebagai fungsi dari satu atau lebih peubah bebas. Berdasarkan pada peubah bebas waktu (t) sinyal dibedakan menjadi dua jenis, yaitu: a. Sinyal Analog

Sinyal analog adalah suatu besaran yang berubah dalam waktu dan atau dalam ruang dan yang memiliki semua nilai untuk setiap nilai waktu (dan atau setiap nilai ruang). Sinyal analog sering disebut sinyal kontinu untuk menggambarkan bahwa besaran itu memiliki nilai yang kontinu (tak terputus). Contoh grafik sinyal analog dapat dilihat pada Gambar 1.


(31)

b. Sinyal Diskret

Sinyal Diskret merupakan suatu besaran yang berubah dalam waktu dan atau dalam ruang dan yang memiliki nilai pada suatu titik-titik waktu tertentu. Jarak setiap titik waktu bisa saja berbeda-beda namun untuk kemudahan penurunan sifat matematikanya biasanya jarak antar titik waktu adalah sama. Contoh grafik sinyal diskret dapat dilihat pada Gambar 2.

Gambar 2 Sinyal diskret.

Digitalisasi gelombang suara

Gelombang suara yang ditangkap berupa sinyal analog. Sinyal analog harus diubah menjadi sinyal digital yang disebut proses digitalisasi. Proses digitalisasi suara terdiri atas dua tahap, yaitu sampling dan kuantisasi (Jurafsky & Martin 2000). Sampling adalah pengambilan nilai-nilai dalam jangka waktu tertentu. Sampling rate yang biasanya digunakan pada pengenalan suara ialah 8000 Hz sampai dengan 16.000 Hz (Jurafsky & Martin 2000). Hubungan panjang vektor yang dihasilkan, sampling rate dan panjang data suara yang digitalisasikan dinyatakan dengan persamaan:

S = Fs x T (1)

Keterangan: S = panjang vektor

Fs = sampling rate yang digunakan (Hertz)

T = panjang suara (detik)

Setelah tahap sampling maka proses selanjutnya adalah proses kuantisasi. Proses ini menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 2000).

Ekstraksi Ciri

Ekstraksi ciri merupakan proses menentukan suatu nilai atau vektor yang dapat dipergunakan sebegai penciri objek atau individu. Banyak metode yang ada untuk ekstraksi ciri di antaranya Linier Predictive Coding (LPC), Mel Frequency Cepstrum Coefficients (MFCC), dan filter bank. Transform Wavelet Diskcet (TWD) adalah bagian dari filter bank selain Discret Fourier Transform (DFT), merupakan metode baru yang mempunyai karakteristik khusus yang sesuai untuk analisis sinyal, termasuk sinyal suara. Transformasi ini dapat digunakan untuk

memberikan informasi mengenai sinyal secara bersamaan dalam domain waktu dan frekuensi.

MFCC

Salah satu teknik ekstraksi ciri sinyal suara adalah teknik MFCC yang menghitung koefisien cepstral dengan mempertimbangkan persepsi sistem pendengaran manusia terhadap frekuensi suara. Teknik MFCC dapat merepresentasikan sinyal lebih baik dibandingkan LPC, LPCC dan yang lainnya dalam pengenalan suara (Buono 2009).

Teknik MFCC sebagai ekstraksi ciri dan teknik parameterisasi sinyal suara telah banyak digunakan pada berbagai bidang area pemrosesan suara. Gambar 6 merupakan diagram alur MFCC. Tahap-tahap dalam teknik MFCC lebih jelasnya yaitu sebagai berikut :

Gambar 3 Diagram alur MFCC. (Buono 2009)

a. Frame blocking

Untuk keperluan pemrosesan, sinyal analog yang sudah melalui proses sampling dan kuantisasi (digitasi suara) dibaca dari frame demi frame dengan lebar tertentu yang saling tumpang tindih (overlap). Proses ini dikenal dengan frame blocking.

b. Windowing

Setiap frame mengandung satu unit informasi, sehingga barisan frame akan menyimpan suatu informasi yang lengkap


(32)

dari sebuah sinyal suara. Untuk itu, distorsi antar frame harus diminimalisasi. Salah satu teknik untuk meminimalkan distorsi antar frame adalah dengan melakukan proses filtering pada setiap frame. Pada penelitian kali ini jenis filter yang digunakan yaitu Windowing karena pemrosesan sinyal yang akan dilakukan dalam domain frekuensi. Proses windowing dilakukan pada setiap frame. Dalam hal ini sinyal digital dikalikan dengan fungsi window tertentu yang berukuran sama dengan ukuran frame. Jika sinyal digital frame ke-i adalah xi dan fungsi window yang digunakan adalah wi, maka output windowing frame ke-i adalah perkalian skalar antara vektor xi dengan wi. Fungsi window yang digunakan pada penelitian ini adalah Hamming karena memiliki ekspersi matematika yang cukup sederhana.

c. Transformasi Fourier

Analisis Fourier merupakan suatu teknik matematika untuk mendekomposisi sinyal menjadi sinyal-sinyal sinusoidal. Untuk dapat melihat perbedaan sinyal suara yang berbeda-beda maka harus dilihat dari domain frekuensi karena jika dilihat dari domain waktu sulit terlihat perbedaannya. Untuk itu dari sinyal suara yang berada pada domain waktu diubah ke domain frekuensi dengan Fast Fourier Transform (FFT). FFT merupakan suatu algoritme untuk mengimplementasikan Discrete Fourier Transform (DFT) (Do 1994).

d. Mel frequency wrapping

Persepsi sistem pendengaran manusia terhadap frekuensi sinyal suara ternyata tidak hanya bersifat linear. Oleh karena itu, untuk setiap nada dengan frekuensi aktual f (dalam Hertz) tinggi subjektifnya diukur dengan skala mel (Melody). Skala mel-frequency adalah selang frekuensi di bawah 1000Hz bersifat linear dan untuk selang frekuensi di atas 1000Hz bersifat logaritmik (Do 1994).

e. Transformasi Kosinus

Langkah terakhir yaitu mengkonversikan log mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients. Cara untuk mengkonversikan log mel spectrum ke bentuk domain waktu yaitu dengan menggunakan Discrete Cosine Transform (DCT).

Transformasi Wavelet Daubechies

Transformasi adalah proses merepresentasikan suatu sinyal ke dalam domain atau kawasan lain. Tujuan dari transformasi adalah untuk lebih menonjolkan sifat atau karakteristik sinyal tersebut.

Definisi Wavelet (secara harfiah berarti “gelombang kecil”) adalah himpunan fungsi dalam ruang vektor L2I, yang mempunyai sifat-sifat sebagai berikut (Burrus et al,1998): - berenergi terbatas

- merupakan fungsi band-pass pada domain frekuensi

- merupakan hasil penggeseran (translasi) dan penskala (dilatasi) dari sebuah fungsi tunggal (induk) yang ditujukan oleh persamaan berikut.

(2)

Dengan a,b ∈ R (bilangan nyata), dan a ≠ 0. dalam hal ini a adalah parameter penskala dan b adalah parameter penggeser posisi terhadap sumbu t. Pada dasarnya, transformasi Wavelet merupakan sebuah teknik pemrosesan sinyal multiresolusi. Dengan sifat penskalaannya, wavelet dapat memilah-milah suatu sinyal data berdasarkan komponen frekuensi yang berbeda-beda. Dengan demikian tiap-tiap bagian dapat dipelajari berdasarkan skala resolusi yang sesuai, sehingga diperoleh gambaran data secara keseluruhan dan detail.

Teori Wavelet didasari oleh pembangkitan sejumlah tapis (filter) dengan cara menggeser dan menskala suatu wavelet induk (mother wavelet) berupa tapis pelewat tengah (band-pass filter). Dengan demikian hanya diperlukan pembangkitan sebuah tapis. Tapis lain mengikuti aturan penskalaan, baik pada kawasan waktu maupun kawasan frekuensi. Penambahan skala Wavelet akan meningkatkan durasi waktu, mengurangi lebar bidang dan menggeser frekuensi pusat ke nilai frekuensi yang lebih rendah. Sebaliknya pengurangan skala menurunkan durasi waktu, menambah lebar bidang dan menggeser frekuensi ke nilai frekuensi yang lebih tinggi (Burrus et al, 1998)

Secara garis besar, transformasi Wavelet dibedakan menjadi dua, yaitu Transformasi Wavelet Kontinu (Continuous Wavelet Transform atau Integrated Wavelet Transform) dan Wavelet Diskret (Discret Wavelet Transform). Transformasi Wavelet kontinu mempunyai dua kelemahan, yaitu redudancy


(1)

14


(2)

15

Lampiran 1 Skema JST

Keterangan :

Xn = Jumlah koefisien hasil ekstraksi ciri (13)

hn = banyaknya neuron tersembunyi


(3)

16

Lampiran 2 Definisi target jaringan

No TARGET KELAS

FONEM 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 A 2 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 B 3 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 C 4 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 D 5 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 E 6 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 F 7 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 G 8 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 H 9 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 I 10 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 J 11 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 K 12 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 L 13 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 M 14 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 N 15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 O 16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 P 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 Q 18 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 R 19 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 S 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 T 21 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 U 22 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 V 23 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 W 24 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 X 25 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 Y 26 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 Z


(4)

14


(5)

15

Lampiran 1 Skema JST

Keterangan :

Xn = Jumlah koefisien hasil ekstraksi ciri (13)

hn = banyaknya neuron tersembunyi


(6)

16

Lampiran 2 Definisi target jaringan

No TARGET KELAS

FONEM 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 A 2 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 B 3 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 C 4 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 D 5 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 E 6 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 F 7 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 G 8 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 H 9 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 I 10 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 J 11 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 K 12 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 L 13 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 M 14 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 N 15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 O 16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 P 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 Q 18 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 R 19 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 S 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 T 21 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 U 22 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 V 23 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 W 24 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 X 25 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 Y 26 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 Z