Model Fonem dengan Pendekatan Distribusi Normal untuk Pengenalan Kata Menggunakan MFCC sebagai Ekstraksi Ciri

vii

MODEL FONEM DENGAN PENDEKATAN DISTRIBUSI NORMAL
UNTUK PENGENALAN KATA MENGGUNAKAN MFCC
SEBAGAI EKSTRAKSI CIRI

ADITYA DWI HAPSARI

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

vii

MODEL FONEM DENGAN PENDEKATAN DISTRIBUSI NORMAL
UNTUK PENGENALAN KATA MENGGUNAKAN MFCC
SEBAGAI EKSTRAKSI CIRI

ADITYA DWI HAPSARI


Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

vii

ABSTRACT
ADITYA DWI HAPSARI. Phoneme Model with Normal Distribution Approach to
Word Recognition Using MFCC as Feature Extraction. Supervised by AGUS
BUONO.
Voice recognition is a field study in voice processing. Research on voice signal
has several methods of processing, one of them is the Mel Frequency Cepstrum

Coefficients (MFCC). The purpose of MFCC is to extract voice features. The goal of
this research is to apply MFCC as a feature extraction and the normal distribution as
a method for word recognition. The first step of the research is data reprocessing, and
then data extraction using MFCC. Afterwards, the normal distribution method is used
to process the data.
From the result, it can be concluded that the normal distribution method can be
used for word recognition.The results obtained from the word recognition using
normal distribution and MFCC as feature extraction have the highest accuracy of
100% for the phonemes /g/, /n/, /p/, /v/, /x/, /y/ and the lowest accuracy of 67% for
the phonemes /a/ and /k/.
Keywords : normal distribution,MFCC, word recognition

viii

Judul Skripsi : Model Fonem dengan Pendekatan Distribusi Normal untuk
Pengenalan Kata Menggunakan MFCC sebagai Ekstraksi Ciri
Nama
NIM

: Aditya Dwi Hapsari

: G64086031

Menyetujui:
Pembimbing

Dr. Ir. Agus Buono, M.Si.,M.Kom.
NIP. 19660702 199302 1 001

Mengetahui:
Ketua Departemen

Dr. Ir. Agus Buono, M.Si.,M.Kom.
NIP. 19660702 199302 1 001

Tanggal Lulus :

0

RIWAYAT HIDUP
Penulis bernama Aditya Dwi Hapsari dilahirkan di Wamena pada tanggal 24 Juni 1987

sebagai anak kedua dari 2 bersaudara dari pasangan Bapak Tri Suharyono dan Ibu Siti Nur Fatimah
Tri Sutanti. Penulis menyelesaikan pendidikan lanjutan atas di SMU Negeri 2 Bogor pada tahun 2005.
Pada tahun yang sama, penulis diterima sebagai mahasiswa di Institut Pertanian Bogor (IPB) pada
Program Studi Diploma Manajemen Informatika, Departemen Ilmu Komputer, Fakultas Matematika
dan Ilmu Pengetahuan Alam melalui jalur reguler.
Penulis menyelesaikan pendidikan D3 selama tiga tahun dari tahun 2005 sampai dengan 2008.
Kemudian, penulis melanjutkan program studi Sarjana di Departemen Ilmu Komputer, Institut
Pertanian Bogor,

PRAKATA
Alhamdulillaahirabbil ‘aalamiin, puji serta syukur penulis panjatkan ke
hadirat Allah Subhanahu wata’ala atas segala curahan rahmat dan karunia-Nya
sehingga penelitian ini berhasil diselesaikan. Karya tulis ini merupakan salah satu
syarat memperoleh gelar Sarjana Komputer di Departemen Ilmu Komputer,
Fakultas Matematika dan Ilmu Pengetahuan Alam. Judul dari karya ilmiah ini
adalah Model Fonem dengan Pendekatan Distribusi Normal untuk Pengenalan
Kata Menggunakan MFCC sebagai Ekstraksi Ciri.
Penyelesaian penelitian ini tidak luput dari dukungan dan bantuan berbagai
pihak. Oleh karena itu, penulis ingin mengucapkan terima kasih sebesar-besarnya
kepada:

1 Kedua orang tua tercinta Ayahanda Tri Suharyono dan Ibunda Siti Nur Fatimah
Tri Sutanti, kakak penulis yang bernama Indri Iriana Prameswari, dan segenap
keluarga besar penulis atas do’a, dukungan dan semangat yang tidak pernah
berhenti diberikan selama ini sehingga penulis dapat menyelesaikan studi di
Departemen Ilmu Komputer IPB.
2 Bapak Dr.Ir. Agus Buono M.Si M.Kom selaku dosen pembimbing. Bapak
Ahmad Ridha SKom dan Bapak Toto Haryanto SKom MSi selaku dosen
penguji, atas waktu, ilmu, saran, nasihat, dan masukan yang diberikan.
3 Teman-teman penulis di Ekstensi Ilmu Komputer khususnya angkatan 3, serta
teman-teman lain yang tidak dapat penulis sebutkan satu per satu atas bantuan,
motivasi, serta semangat kepada penulis.
4 Departemen Ilmu Komputer, Bapak/Ibu Dosen dan Tenaga Kependidikan yang
telah begitu banyak membantu baik selama pelaksanaan penelitian ini maupun
sebelumnya.
Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar
selama pengerjaan penelitian ini yang tidak dapat disebutkan satu-persatu, penulis
ucapkan terima kasih banyak. Segala kesempurnaan hanya milik Allah Subhanahu
wata’ala. Semoga hasil penelitian ini dapat bermanfaat, Amin.

Bogor, Juni 2012


Aditya Dwi Hapsari

iv

DAFTAR ISI
Halaman
DAFTAR TABEL ............................................................................................................................ vi 
DAFTAR GAMBAR ....................................................................................................................... vi 
PENDAHULUAN............................................................................................................................. 1 
Latar Belakang ............................................................................................................................. 1 
Tujuan Penelitian .......................................................................................................................... 1 
Ruang Lingkup Penelitian ............................................................................................................ 1 
Manfaat Penelitian ........................................................................................................................ 1 
TINJAUAN PUSTAKA.................................................................................................................... 1 
Fonem ........................................................................................................................................... 1 
Sinyal............................................................................................................................................ 2 
Data Suara Digital ........................................................................................................................ 2 
Mel Frequency Cepstrum Coefficients (MFCC)........................................................................... 2 
Distribusi Normal ......................................................................................................................... 3 

METODOLOGI PENELITIAN ........................................................................................................ 4 
Pengambilan Data......................................................................................................................... 4 
Penghapusan Silence .................................................................................................................... 4 
Normalisasi................................................................................................................................... 5 
Segmentasi Sinyal ........................................................................................................................ 5 
Data Latih dan Data Uji................................................................................................................ 5 
Proses Ekstraksi Ciri .................................................................................................................... 5 
Perata-rataan Hasil MFCC ........................................................................................................... 5 
Pemodelan Distribusi Normal ...................................................................................................... 5 
Pengujian ...................................................................................................................................... 5 
Perhitungan Nilai Akurasi ............................................................................................................ 5 
HASIL DAN PEMBAHASAN ......................................................................................................... 5 
Praproses ...................................................................................................................................... 5 
Hasil Pengujian dengan MFCC .................................................................................................... 6 
KESIMPULAN DAN SARAN ......................................................................................................... 7 
Kesimpulan................................................................................................................................... 7 
Saran ............................................................................................................................................. 7 
DAFTAR PUSTAKA ....................................................................................................................... 7 

v


DAFTAR TABEL
Halaman
1 Daftar kata dan fonem dalam penelitian ......................................................................................... 4 
2 Hasil pengujian dengan ekstraksi ciri MFCC ................................................................................. 6 

DAFTAR GAMBAR
1
2
3
4
5
6
7
8

Halaman
Diagram alur MFCC ..................................................................................................................... 2 
Distribusi normal. .......................................................................................................................... 3 
Diagram alur penelitian. ................................................................................................................ 4 

Pemotongan silence. ...................................................................................................................... 4 
Grafik hasil pengujian dengan ekstraksi........................................................................................ 6 
Proses pada sinyal suara ‘n’ dan ‘o’. ............................................................................................. 6 
Proses pada sinyal suara ‘v’ dan ‘e’. ............................................................................................. 6 
Proses pada sinyal suara ‘l’. .......................................................................................................... 6 

vi

1

PENDAHULUAN
Latar Belakang
Salah satu cara interaksi manusia dengan
komputer adalah melalui suara. Dalam
beberapa hal, cara ini memiliki beberapa
kelebihan dibandingkan dengan interaksi
melalui gerakan mekanis. Agar interaksi
melalui suara berjalan baik, salah satu
kemampuan yang harus dimiliki oleh
komputer adalah kemampuan mengenali suara

manusia, yaitu tersusun dari fonem-fonem apa
saja suara tersebut.
Pengucapan fonem-fonem tersebut akan
membentuk kata yang dikenal dengan
pengenalan kata. Pengenalan kata termasuk ke
dalam speech to text yang merupakan bagian
dari speech recognition karena dibutuhkan
proses mengubah sinyal akustik yang
ditangkap oleh mikrofon untuk setiap fonem
yang dimasukan.
Pengenalan suara atau yang sering disebut
dengan Automatic Speech Recogniton (ASR)
adalah pengembangan teknik dan sistem yang
memungkinkan komputer untuk menerima
masukan berupa kata yang diucapkan. Katakata yang diucapkan diubah bentuknya
menjadi sinyal digital dengan cara mengubah
gelombang suara menjadi sekumpulan angka
yang kemudian disesuaikan dengan kode-kode
tertentu untuk mengidentifikasikan kata-kata
tersebut. Hasil dari identifikasi kata yang

diucapkan dapat ditampilkan dalam bentuk
tulisan atau dapat dibaca oleh perangkat
teknologi sebagai sebuah komando untuk
melakukan suatu pekerjaan, misalnya
penekanan tombol pada telepon genggam
yang dilakukan secara otomatis dengan
komando suara.
Penelitian ini menggunakan metode
pendekatan
distribusi
normal
dengan
menggunakan Mel Frequency Cepstrum
Coefficients (MFCC) sebagai ekstrakasi ciri,
dengan ditambahkan proses Noise Canceling
untuk mengetahui kualitas suara.
Tujuan Penelitian
Penelitian ini bertujuan memberikan
informasi akurasi model kata berbasis fonem
dengan
pendekatan
distribusi
normal
menggunakan Mel Frequency Cepstrum
Coefficients (MFCC) sebagai ekstraksi ciri.
Ruang Lingkup Penelitian
Ruang lingkup
penelitian ini ialah:

permasalahan

pada

1 Penelitian dilakukan untuk mengenali
fonem.
Proses
pengambilan
suara
dilakukan dengan menggunakan mikrofon.
2 Data yang digunakan diambil dari satu
orang pembicara.
3 Kata-kata yang diucapkan pembicara telah
ditentukan. Terdapat 19 kata, yaitu:
aqidah, autentik, bacem, bahasa, bayem,
cendol, efektif, gerigi, jejer, novel, payet,
pepes, rezeki, survei, tipx, waqaf, wesel,
xilem, dan zebra.
4 Masing-masing kata diucapkan sebanyak
30 kali.
5 Menggunakan Mel Frequency Cepstrum
Coefficients (MFCC) sebagai ekstraksi
ciri.
6 Penelitian
difokuskan
dengan
menggunakan
pendekatan
distribusi
normal.
7 Pengembangan
penelitian
ini
menggunakan Matlab.
Manfaat Penelitian
Penelitian
ini
diharapkan
dapat
memberikan informasi keakuratan pengenalan
fonem dari kata yang telah diucapkan oleh
pembicara dengan menggunakan pendekatan
distribusi normal dan Mel Frequency
Cepstrum Coefficients (MFCC) sebagai
ekstraksi ciri .

TINJAUAN PUSTAKA
Fonem
Fonem merupakan satuan bunyi terkecil
yang mampu menunjukkan kontras makna
(KBBI). Fonem dibagi menjadi empat, yaitu:
1 Fonem vokal merupakan bunyi ujaran
akibat adanya udara yang keluar dari paruparu dan tidak terkena hambatan atau
halangan. Jumlah fonem vokal ada lima,
yaitu: a, i, u, e, dan o
2 Fonem konsonan merupakan bunyi ujaran
akibat adanya udara yang keluar dari paruparu yang mendapatkan hambatan atau
halangan. Jumlah fonem konsonan ada 21
buah yaitu: b, c, d, f, g, h, j, k, l, m, n, p, q,
r, s, t, v, w, x, y, dan z.
3 Fonem vokal rangkap adalah gabungan
dua fonem vokal yang menghasilkan bunyi
rangkap, yaitu: ai, au.
4 fonem konsonan rangkap adalah gabungan
dua buah konsonan, yaitu : ny, ng, kh, dan
sy. 
 

2

Sinyal
Sinyal suara merupakan gelombang yang
tercipta dari tekanan udara yang berasal dari
paru-paru yang berjalan melewati lintasan
suara menuju mulut dan rongga hidung
dengan bentuk artikulator yang senantiasa
berubah. Manusia mendengar bunyi saat
gelombang bunyi, yaitu getaran di udara atau
medium lain, sampai ke gendang telinga
manusia. Batas frekuensi bunyi yang dapat
didengar oleh manusia berkisar antara
frekuensi 20 Hz sampai dengan 20 KHz, dan
frekuensi yang dapat didengar dengan baik
dan jelas oleh telinga manusia yaitu di atas
10000 Hz (Pelton 1993).
Data Suara Digital
Suara merupakan gelombang analog yang
dapat ditangkap oleh mikrofon. Sinyal analog
tersebut dapat diubah menjadi sinyal digital
melalui proses sampling, yaitu proses untuk
memperoleh nilai dari sinyal analog dalam
waktu diskret.
Sinyal analog harus diubah menjadi sinyal
digital yang disebut proses digitalisasi. Proses
digitalisasi terdiri atas dua tahap, yaitu
sampling dan kuantisasi. (Jurafsky & Martin
2000). Sampling adalah proses pengambilan
nilai setiap jangka waktu tertentu. Nilai ini
menyatakan amplitudo volume suara pada saat
itu. Hasilnya adalah sebuah vektor yang
menyatakan nilai-nilai hasil sampling.
Panjang vektor data ini tergantung pada
panjang atau lamanya suara yang didigitasikan
serta sampling rate yang digunakan pada
proses digitasinya. Sampling rate sendiri
adalah banyaknya nilai yang diambil setiap
detik. Sampling rate yang biasa digunakan
ialah 8000 Hz dan 16000 Hz. Hubungan
antara panjang vektor data yang dihasilkan
dengan sampling rate dan panjangnya data
suara yang didigitasikan dapat dinyatakan
secara sederhana sebagai berikut:

Mel Frequency
(MFCC)

Cepstrum

Coefficients

Ekstraksi
ciri
merupakan
proses
menentukan suatu nilai atau vektor yang dapat
digunakan sebagai penciri objek atau individu.
Pada pemrosesan suara, ciri yang biasa
digunakan adalah nilai koefisien cepstral dari
sebuah frame. Salah satu teknik ekstraksi ciri
sinyal suara adalah teknik Mel Frequency
Cepstrum
Coefficients
(MFCC)
yang
menghitung koefisien cepstral dengan
mempertimbangkan
persepsi
sistem
pendengaran manusia terhadap frekuensi
suara.
Teknik MFCC dapat merepresentasikan
sinyal lebih baik dibanding LPC, LPCC, dan
teknik lainnya dalam pengenalan suara.
Teknik MFCC sebagai ekstraksi ciri dan
teknik parameterisasi sinyal suara telah
banyak digunakan pada berbagai bidang area
pemrosesan suara. Gambar 1 merupakan
ilustrasi MFCC.

WINDOWING
Y(t) = X(t) * W(n), 0