Penerapan Model Codebook untuk Transkripsi Suara ke Teks dengan Ekstraksi Ciri Mel-Frequency Cepstrum Coefficients (MFCC)

PENERAPAN MODEL CODEBOOK UNTUK TRANSKRIPSI
SUARA KE TEKS DENGAN EKSTRAKSI CIRI
MEL-FREQUENCY CEPSTRUM COEFFICIENTS (MFCC)

MEGGA DARA NINGGAR SUHARTO

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Penerapan Model
Codebook untuk Transkripsi Suara ke Teks dengan Ekstraksi Ciri Mel-Frequency
Cepstrum Coefficients (MFCC) adalah benar karya saya dengan arahan dari
komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan
tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang
diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks
dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, April 2014
Megga Dara Ninggar Suharto
NIM G64114029

ABSTRAK
MEGGA DARA NINGGAR SUHARTO. Penerapan Model Codebook untuk
Transkripsi Suara ke Teks dengan Ekstraksi Ciri Mel-Frequency Cepstrum
Coefficients (MFCC). Dibimbing oleh AGUS BUONO.
Seiring dengan perkembangan teknologi informasi, maka tuntutan manusia
untuk memanfaatkan komputer guna mempermudah kehidupan sehari-hari juga
makin bervariasi. Salah satunya adalah untuk membuat komputer mampu
berkomunikasi secara alami dengan manusia. Penelitian ini menggunakan MFCC
sebagai metode ekstraksi ciri dan codebook sebagai metode pengenalan pola
untuk transkripsi suara ke teks. Teknik cluster yang digunakan pada penelitian ini
adalah k-means. Data hasil MFCC diklasterkan menggunakan k-means, kemudian
dibuat modelnya dengan metode codebook. Parameter MFCC yang digunakan
adalah sampling rate 11 000 Hz, time frame 23.27 ms, overlapping 39%.
Sebanyak 300 data suara berdurasi 5 detik dan berekstensi WAV digunakan

sebagai data latih dan data uji untuk menemukan jumlah koefisien cepstral dan
jumlah cluster yang menghasilkan akurasi tertinggi. Percobaan ini dilakukan
dengan mengenali setiap suku kata pada 60 data uji dengan menggunakan 240
data latih. Hasil simulasi menunjukkan bahwa akurasi maksimum yang diperoleh
adalah 98.3% pada koefisien cepstral 26 dan jumlah cluster 12.
Kata kunci : codebook, k-means, MFCC, transkripsi suara

ABSTRACT
MEGGA DARA NINGGAR SUHARTO. Application of Codebook Model for
Voice to Text Transcription with Mel-Frequency Cepstrum Coefficients (MFCC)
Feature Extraction. Supervised by AGUS BUONO.
The advancement of information technology has triggered various demands
in utilizing computer. One of them is to make computers able to communicate
naturally with humans. This study uses MFCC as a feature extraction method and
codebook as a pattern recognition method for voice-to-text transcription. The
clustering technique used in this study is k-means. Data obtained from MFCC are
clustered using the k-means method, and the model for classification is
constructed using the codebook method. The utilized MFCC parameters are
sampling frequency 11 000 Hz, time frame 23.27 ms, overlapping 39%. 300 voice
data in WAV files with 5 seconds of duration each, are used as the training data

and test data to determine the number of cepstral coefficients and the number of
cluster that can produce the highest accurancy. The experiment is conducted by
recognizing each syllable in 60 the test data with 240 training data. Simulation
result shows that the maximum accurancy obtained is 98.3% at 26 cepstral
coefficients and 12 clusters.
Keywords : codebook, k-means, MFCC, voice transcription

PENERAPAN MODEL CODEBOOK UNTUK TRANSKRIPSI
SUARA KE TEKS DENGAN EKSTRAKSI CIRI
MEL-FREQUENCY CEPSTRUM COEFFICIENTS (MFCC)

MEGGA DARA NINGGAR SUHARTO

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Ilmu Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014

Penguji:
1 Karlisa Priandana, ST MEng
2 Toto Haryanto, SKom MSi

Judul Skripsi : Penerapan Model Codebook untuk Transkripsi Suara ke Teks
dengan Ekstraksi Ciri Mel-Frequency Cepstrum Coefficients
(MFCC)
Nama
: Megga Dara Ninggar Suharto
NIM
: G64114029

Disetujui oleh

Dr Ir Agus Buono, MSi MKom

Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian ini ialah pengenalan suara, dengan judul Penerapan
Model Codebook untuk Transkripsi Suara ke Teks dengan Ekstraksi Ciri MelFrequency Cepstrum Coefficients (MFCC).
Terima kasih penulis ucapkan kepada:
1 Ayah, Ibu, Adik dan seluruh keluarga atas segala doa dan dukungan dalam
pengerjaan karya ilmiah ini.
2 Bapak Dr Ir Agus Buono, MSi MKom selaku dosen pembimbing yang telah
banyak memberi saran saat bimbingan.
3 Bapak Toto Haryanto, SKom MSi dan Ibu Karlisa Priandana, ST. M.Eng

selaku dosen penguji atas kesediaannya sebagai penguji.
4 Tino Akbar mahasiswa ilkom angkatan 6 yang telah membantu selama
pengumpulan data.
5 Teman-teman Ilkom alih jenis angkatan 6 khususnya teman-teman satu
bimbingan yang senantiasa memberikan dukungan dan bantuan selama
pengerjaan karya ilmiah ini.
Semoga karya ilmiah ini bermanfaat.

Bogor, April 2014
Megga Dara Ninggar Suharto

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi


PENDAHULUAN

1

Latar Belakang

1

Tujuan Penelitian

1

Manfaat Penelitian

1

Ruang Lingkup Penelitian

2


METODE

2

Lingkungan Pengembangan

3

Studi Literatur

3

Pengambilan Data Suara

3

Praproses

3


Pembagian Data Latih dan Data Uji

6

Pemodelan Codebook

7

Pengujian

8

Rancangan Percobaan

8

HASIL DAN PEMBAHASAN

9


Pengambilan Data Suara

9

Praproses

9

Pemodelan Codebook

10

Implementasi Sistem

10

Hasil dan Analisis Percobaan

11


SIMPULAN DAN SARAN

13

Simpulan

13

Saran

13

DAFTAR PUSTAKA

13

RIWAYAT HIDUP

14

DAFTAR TABEL
1
2
3
4

Data latih
Hasil akurasi dengan parameter jumlah cluster
Confusion matrix kesalahan dalam pengenalan suku kata pada koefisien
Persentase keberhasilan pengujian kata pada koefisien

6
12
12
12

DAFTAR GAMBAR
5
6
7
8
9
10
11
12
13
14
15
16

Tahapan proses penelitian
Alur praproses
Sinyal suara yang mengandung jeda dan silent
Diagram alur proses MFCC
Ilustrasi sebaran codebook (Marta 2013)
Ilustrasi perhitungan jarak data uji dengan sebuah codebook
Sinyal suara kata hama dari satu pembicara
Proses normalisasi sinyal suara (a) sebelum normalisasi, (b) sesudah
normalisasi
Proses segmentasi sinyal suara
Tampilan antarmuka proses pengenalan suku kata
Tampilan antarmuka proses akurasi penelitian
Hasil akurasi penelitian

2
3
4
4
7
8
9
9
10
10
11
11

PENDAHULUAN
Latar Belakang
Seiring dengan perkembangan teknologi informasi, maka tuntutan manusia untuk
memanfaatkannya guna mempermudah kehidupan sehari-hari juga makin bervariasi.
Salah satunya adalah untuk membuat komputer mampu berkomunikasi secara alami
dengan manusia. Secara umum, dalam berkomunikasi manusia menggunakan bahasa
yang disampaikan dalam bentuk perkataan. Komunikasi digunakan oleh manusia untuk
menciptakan dan menggunakan informasi tersebut agar dapat terhubung dengan
lingkungannya dan orang lain (Brent dan Stewart 2006). Agar suatu informasi dapat
dipahami, informasi tersebut harus disampaikan dengan baik agar tidak terjadi
misinterpretasi dari informasi. Bagi manusia, mengenali suara bukanlah hal yang sulit
untuk dilakukan lain halnya dengan komputer.
Hal inilah yang mendorong dikembangkannya penelitian dalam bidang suara,
salah satunya transkripsi suara ke teks. Dalam proses transkripsi suara ke teks hal yang
perlu diperhatikan adalah pengenalan kata. Pada proses tersebut, pengenalan kata
digunakan untuk membandingkan suara masukan dengan data latih suara dan
menghasilkan data suara yang paling cocok dengan cluster data latih suara tersebut.
Pada penelitian ini dibangun sebuah sistem yang dapat mendeteksi suara dan akan
ditranskripsi ke teks. Secara sederhana kerja sistem ini dengan mencari ciri dari setiap
suku kata dengan menggunakan mel frequency cepstrum coefficient (MFCC). MFCC
digunakan pada sistem ini karena teknik MFCC telah banyak digunakan dalam berbagai
bidang pemrosesan suara. Tujuan utama MFCC adalah meniru perilaku telinga manusia.
Selain itu MFCC telah terbukti bisa merepresentasikan variasi dari gelombang suara
(Do 1994). Setelah melakukan ekstraksi ciri, pada sistem ini akan digunakan codebook
sebagai pengidentifikasi pola.
Pemilihan kedua metode ini berdasarkan penelitian yang dilakukan oleh Haryono
(2013) dan Wisnudisastra dan Buono (2011) yang menggunakan codebook sebagai
metode pengenalan pola dan MFCC sebagai metode ekstraksi ciri. Penelitian Haryono
(2013) menghasilkan akurasi di atas 98.89%, sedangkan penelitian Wisnudisastra dan
Buono (2011) menghasilkan akurasi 96%. Pemilihan MFCC sebagai metode ekstraksi
ciri dan codebook sebagai metode identifikasi diharapkan dapat membantu pengguna
sistem dalam mentranskripsi suara ke teks.
Tujuan Penelitian
Tujuan dari penelitian ini ialah:
1 Menerapkan MFCC sebagai metode ekstraksi ciri dan codebook sebagai metode
indentifikasi pola untuk transkripsi suara ke teks.
2 Mengetahui akurasi transkripsi suara ke teks dengan ekstraksi ciri MFCC dan
codebook sebagai metode identifiasi pola.
Manfaat Penelitian
Penelitian ini diharapkan dapat memberikan informasi mengenai akurasi dan
mengetahui kinerja pemodelan dengan metode codebook dengan ekstraksi ciri MFCC
dalam transkripsi suara ke teks.

2

Ruang Lingkup Penelitian
1
2
3
4
5
6

Ruang lingkup dalam penelitian ini ialah:
Kata yang digunakan ialah kata bahasa Indonesia.
Difokuskan pada pengenalan suku kata, bukan pengenalan kalimat.
Menggunakan satu pembicara untuk pengambilan data latih (suara laki-laki usia ± 23
tahun).
Jumlah suku kata acuan ada empat berasal dari suku kata ME-, MA-, HA-, dan MI-.
Jumlah suku kata yang digunakan untuk acuan penelitian adalah dua suku kata.
Kata yang diujikan pada penelitian ini adalah hama, mama, maha, mimi, mami, dan
memi.

METODE
Penelitian ini dilakukan dengan beberapa tahapan proses, yaitu studi literatur,
pengambilan data suara, praproses, pemodelan codebook, penentuan jumlah cluster (kmeans), dan pengujian. Tahapan proses penelitian ini dapat dilihat pada Gambar 1.
Mulai
Studi literatur

Pengambilan data suara
Praproses

Data
latih

Data
uji

Penentuan jumlah cluster
(k-means)
Pemodelan codebook
Pengujian
Hasil
codebook

Selesai

Gambar 1 Tahapan proses penelitian

3
Lingkungan Pengembangan
Penelitian ini menggunakan perangkat keras dan perangkat lunak dengan
spesifikasi sebagai berikut:
1 Perangkat Keras
 Processor Intel Core 2 Duo CPU @ 2.10 GHz.
 Memori 2 GB.
 Harddisk 300 GB.
 Keyboard dan mouse.
 Monitor.
2 Perangkat Lunak
 Sistem operasi Windows 8 Pro 64 bit.
 Matlab 7.7.0 (R2008b).
Studi Literatur
Pada tahapan ini dilakukan pencarian dan pembelajaran tentang kebutuhan dalam
penelitian ini. Hal-hal yang dibutuhkan antara lain tentang metode pengenalan pola
codebook dan juga MFCC. Selain itu, hal-hal yang terkait dengan pengenalan suara
akan dicari dan dipelajari untuk dijadikan referensi dalam penelitian ini.
Pengambilan Data Suara
Data yang digunakan dalam penelitian ini adalah data suara yang direkam oleh
satu orang pembicara. Data suara yang direkam adalah suku kata berbahasa Indonesia
dengan panjang suku kata yang direkam berjumlah dua suku kata. Banyaknya data suara
yang direkam adalah sebanyak 300 data suara. Data suara direkam selama 5 detik,
sampling rate 11 000 Hz, time frame 23.27 ms, overlap 39%, serta koefisien cepstral 13
dan 26 dengan ekstensi fail WAV.
Praproses
Tahapan ini mengolah setiap data suara yang telah direkam oleh pembicara. Alur
dari tahapan ini dapat dilihat pada Gambar 2. Normalisasi dilakukan terhadap data suara
agar nilai absolut maksimumnya menjadi |1|.

Data Suara

Normalisasi
Segmentasi

Mel Cepstrum
Gambar 2 Alur praproses

Ekstraksi ciri MFCC

4
Selanjutnya dilakukan segmentasi karena data yang telah direkam merupakan data
kotor yang mengandung blank dan jeda yang terdapat pada awal dan akhir suara seperti
pada Gambar 3. Proses ini disebut pembersihan data (cutting silent). Tahap praproses
selanjutnya adalah ekstraksi ciri sinyal suara yang menggunakan metode MFCC. MFCC
telah banyak digunakan dalam berbagai bidang pemrosesan suara karena dapat
mempresentasikan ciri sebuah sinyal suara (Do 1994). Dengan dilakukan ekstraksi ciri
sinyal suara ditransformasikan ke dalam vektor-vektor ciri, dengan setiap vektornya
merepresentasikan informasi yang terdapat pada beberapa frame. Selain itu, MFCC
telah terbukti dapat merepresentasikan variasi dari gelombang suara (Do 1944).
Diagram alur proses MFCC dapat dilihat pada Gambar 4. Parameter yang
digunakan dalam proses ini yaitu:
1 Input yang digunakan adalah data suara dengan ekstensi WAV. Sinyal suara yang
digunakan telah melalui tahap pembersihan data.
2 Sampling rate yaitu banyaknya data yang akan diambil dalam satu detik.
3 Time frame adalah waktu yang dipakai untuk membagi data suara menjadi beberapa
bagian frame.
4 Overlapping digunakan untuk mengurangi hilangnya informasi saat proses frame
blocking.
5 Koefisien cepstral yaitu banyaknya koefisien cepstral yang diinginkan sebagai
output.

Silent

Jeda

Silent

Gambar 3 Sinyal suara yang mengandung jeda dan silent
Frame Blocking

Windowing

FFT

Cepstrum Coefficients

Mel Frequency Wrapping

Gambar 4 Diagram alur proses MFCC

5
Frame Blocking
Pada proses ini, sinyal suara dibagi menjadi beberapa frame. Setiap frame
memilki N sample yang direpresentasikan dalam bentuk vektor. Frame-frame yang
bersebelahan akan saling tumpang tindih (overlap). Hal ini dilakukan agar tidak ada
sedikitpun sinyal yang hilang (deletion).
Windowing
Sinyal analog yang sudah diubah menjadi sinyal digital dibaca frame demi frame
dan pada setiap frame-nya dilakukan windowing dengan fungsi window tertentu. Proses
windowing bertujuan untuk meminimalisasi ketidakberlanjutan sinyal pada awal dan
akhir setiap frame (Do 1994). Fungsi window yang dipakai adalah Hamming window
yang dapat dilihat pada persamaan (1) (Do 1994):
(1)
wn
n
, 0  n  N-1
Keterangan:
N = jumlah sampel pada setiap frame
n = frame ke-n
w = fungsi Hamming window
Fast Fourier Transform (FFT)
Proses ini mengubah setiap frame dari domain waktu ke domain frekuensi. Hal ini
dilakukan untuk mempermudah pemrosesan selanjutnya. Dengan algoritme FFT,
kompleksitas menjadi rendah (Buono 2009). Dengan alasan inilah maka pada penelitian
ini, transformasi Fourier yang digunakan adalah algoritme FFT. Algoritme FFT
ditunjukkan oleh persamaan (2) (Do 1994):
n



-

n

-

,n

, , ,…,N-1

(2)

Keterangan:
Xn = magnitude frekuensi
xk = nilai-nilai sampel
N = jumlah data sampel
j
= bilangan imajiner
Mel-frequency
Persepsi manusia dalam frekuensi sinyal suara tidak mengikuti skala linear. Untuk
setiap bunyi dengan frekuensi aktual f (dalam satuan Hz) nilai subyektif dari pitch-nya
diukur dengan menggunakan skala mel. Skala mel-frequency adalah selang frekuensi
linear di bawah 1000 Hz dan selang logaritmik untuk frekuensi di atas 1000 Hz. Satu
relasi antara frekuensi bunyi (dalam Hz) dengan skala mel ditunjukkan pada persamaan
(3) (Nilsson dan Ejnarsson 2002):
(3)
Mel-frequency wrapping umumnya dilakukan dengan menggunakan filterbank.
Perhitungannya ditunjukkan pada persamaan (4) (Do 1994):


-

|

|

Keterangan:
Hi (k) = nilai filter segitiga ke-i
X(k) = nilai data ke-k hasil proses FFT
M
= jumlah filter

,i

, ,3,…,M

(4)

6
N

= banyaknya data

Transformasi Kosinus (Discrete Cosine Transform)
Proses selanjutnya yaitu konversi log mel spectrum ke domain waktu. Hasilnya
disebut mel frequency cepstrum coefficients. Representasi cepstral spectrum suara
merupakan representasi property spectral local yang baik dari suatu sinyal untuk
analisis frame. Mel spectrum coefficients dan logaritmanya berupa bilangan riil
sehingga dapat dikonversikan ke domain waktu dengan menggunakan Discrete Cosine
Transform (DCT). Proses DCT ditunjukkan pada persamaan (5) (Do 1994):

(( - )
)
(5)
Keterangan:
Cj = nilai koefisien C ke- j
j
= jumlah koefisien cepstral
i
= jumlah wrapping
Xi = hasil mel-frequency pada frekuensi ke- i
Pembagian Data Latih dan Data Uji
Pengambilan data suara diambil sebanyak 300 data suara. Sebanyak 240 data
suara dijadikan data latih yang berasal dari 15 kata untuk masing-masing suku kata me,ma-, ha-, dan mi-. Setiap kata dilakukan pengulangan sebanyak 4 kali. Enam puluh data
suara sisanya digunakan sebagai data uji yang berasal dari 6 kata yang berbeda dari data
latih dan dilakukan pengulangan setiap kata sebanyak 10 kali. Data uji yang digunakan
pada penelitian ini adalah kata hama, mama, maha, mimi, mami, dan memi. Setiap kata
yang direkam terdiri dari 2 suku kata. Tabel 1 menyajikan data latih yang digunakan
pada penelitian ini.
Tabel 1 Data latih
Suku Kata

Kata

Awalan Me-

Awalan Ma-

Awalan Ha-

Awalan Mi-

Megah
Mekah
Mekar
Melar
Melas
Melit
Menang
Menit
Merak
Mesin
Mesir
Mecut
Meluk
Meram
Metik

Mabuk
Mahar
Majas
Makam
Makan
Malam
Malang
Malas
Mama
Manis
Marah
Mari
Masak
Masuk
Mayat

Hadap
Hadir
Hadis
Hafal
Haji
Hakim
Halo
Halus
Hama
Hapus
Harap
Hari
Hasil
Hati
Hawa

Mika
Mikir
Milan
Mili
Milik
Mimik
Minat
Minor
Minum
Minus
Mirah
Miring
Mirip
Misal
Mitos

7
Pemodelan Codebook
Pengenalan pola dengan codebook dilakukan untuk data latih setelah vektor ciri
diperoleh dari proses MFCC. Codebook adalah kumpulan titik (vektor) yang mewakili
distribusi suara dari suara tertentu dalam ruang suara. Setiap titik pada codebook dikenal
sebagai codeword. Codebook merupakan cetakan yang dihasilkan suara setelah
melakukan proses training. Setiap suara yang sudah direkam dibuat codebook yang
terdiri atas beberapa codeword untuk merepresentasikan ciri suaranya. Codebook
dibentuk dengan cara membentuk cluster semua vektor ciri yang dijadikan sebagai
training set dengan menggunakan algoritme clustering. Algoritme clustering yang akan
dipakai adalah k-means. Ilustrasi prinsip dasar pembuatan codebook dapat dilihat pada
Gambar 5.

Misal :
Kelas A
centroid A :
Kelas B
centroid B :
Kelas C
centroid C :
Data uji : X
K:2

Gambar 5 Ilustrasi sebaran codebook (Marta 2013)
Langkah pertama yang dilakukan oleh algoritme ini adalah menentukan K-initial
centroid, dengan k (jumlah cluster) adalah parameter spesifik yang ditentukan user,
yang merupakan jumlah cluster yang diinginkan. Setiap titik atau objek kemudian
ditempatkan pada centroid terdekat. Kumpulan titik atau objek pada tiap centroid
disebut cluster.
Kemudian, langkah penempatan objek dan perubahan centroid diulangi sampai
tidak ada objek yang berpindah cluster. Setiap suara yang masuk, akan dihitung
jaraknya dengan codebook setiap kelas. Setelah itu, jarak setiap sinyal suara ke
codebook dihitung sebagai jumlah jarak setiap frame sinyal suara tersebut ke setiap
codeword yang ada pada codebook. Kemudian dipilih codeword dengan jarak
minimum. Setelah itu, setiap sinyal suara yang masuk akan diidentifikasi berdasarkan
jumlah dari jarak minimum tersebut. Perhitungan jarak dilakukan dengan menggunakan
jarak euclid yang didefinisikan pada persamaan (6) (Buono dan Kusumoputro 2007):
deucl dean

√∑

-

(6)

dengan x dan y adalah vektor yang ada sepanjang vector dimension (D).
Jika dalam sinyal suara input O terdapat T frame dan codewordk merupakan
masing-masing codeword yang ada pada codebook, jarak sinyal input dengan codebook
dapat dirumuskan pada persamaan (7):

12
Tabel 2 Hasil akurasi dengan parameter jumlah cluster
Koefisien
cepstral

Jumlah cluster
8

12

16

20

24

28

32

100

13

88.3%

95.0%

95.8%

97.5%

94.1%

95.8%

93.8%

97.5%

26

85.0%

98.3%

96.6%

95.0%

95.8%

97.5%

96.6%

97.5%

Pada penelitian ini, pengujian yang paling baik dengan menggunakan koefisien
cepstral 26 dan jumlah cluster 12. Parameter tersebut digunakan karena semakin kecil
jumlah cluster yang digunakan semakin cepat proses pengujian terjadi. Tabel 3
menyajikan confusion matrix dari pengujian dengan menggunakan parameter seperti
yang disebutkan sebelumnya, yaitu koefisien cepstral 26 dan jumlah cluster 12.
Tabel 3 Confusion matrix kesalahan dalam pengenalan suku kata pada koefisien
cepstral 26 dengan jumlah cluster 12
Data suara
(suku kata)
MeMaHaMi-

Me-

Ma-

Ha-

Mi-

10
0
0
0

0
49
0
0

0
1
19
0

0
0
1
40

Pada Tabel 4 diketahui banyak suku kata yang diujikan pada data latih yaitu 120
suku kata yang terdiri atas:
 Suku kata me- sebanyak 10.
 Suku kata ma- sebanyak 50.
 Suku kata ha- sebanyak 20.
 Suku kata mi- sebanyak 40.
Dapat dilihat bahwa dengan menggunakan koefisien cepstral 26 dan jumlah
cluster 12 hanya terjadi 2 kesalahan dalam pengenalan suku kata yaitu pada 1 suku kata
ma teridentifikasi menjadi ha dan 1 suku kata ha teridentifikasi menjadi suku kata mi.
Tabel 4 menyajikan hasil persentase keberhasilan dari kata yang diujikan.
Tabel 4 Persentase keberhasilan pengujian kata pada koefisien
cepstral 26 dan jumlah cluster 12
Data uji

Persentase (%) keberhasilan

Hama
Mama
Maha
Mimi
Mami
Memi

100 %
99 %
99 %
100 %
100 %
100 %

13

SIMPULAN DAN SARAN
Simpulan
Berdasarkan penelitian yang telah dilakukan, maka dapat disimpulkan bahwa:
1 Penelitian ini telah berhasil menerapkan metode pengenalan pola codebook dan
ekstraksi ciri MFCC dalam transkripsi suara ke teks.
2 Akurasi tertinggi yang dihasilkan 98.3% yang diperoleh pada koefisien cepstral 26
dengan jumlah cluster 12.
Saran
Saran untuk pengembangan selanjutnya yaitu:
1 Jumlah kata yang lebih banyak agar diperoleh suku kata yang lebih variatif.
2 Banyaknya suku kata di setiap perekaman kata lebih banyak dari 2 suku kata.
3 Pembicara yang melakukan perekaman lebih dari satu pembicara.

DAFTAR PUSTAKA
Buono A. 2009. Representasi nilai HOS dan model MFCC sebagai ekstraksi ciri pada
aplikasi indentifikasi pembicara di lingkungan ber-noise menggunakan HMM.
[disertasi]. Depok (ID): Program Studi Ilmu Komputer, Universitas Indonesia.
Buono A, Kusumoputro B. 2007. Pengembangan model HMM berbasis maksimum lokal
menggunakan jarak Euclid untuk sistem identifikasi pembicara. Di dalam: Prosiding
Workshop NACSIIT; 2007 Jan 29-30; Depok (ID). hlm 52.
Do MN. 1994. Digital Signal Processing Mini-Project: An Automatic Speaker
Recognition System. Laussane (CH): Audio Visual Communications Laboratory,
Swiss Federal Institute of Technology.
Haryono T. 2013. Pengembangan model codebook untuk konversi suara gitar ke tangga
nada [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Marta A. 2013. Pembangunan metode codebook untuk identifikasi chord gitar dengan
teknik ekstraksi ciri MFCC [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Nilsson M, Ejnarsson M. 2002. Speech recognition using hidden markov model:
performance evaluation in noisy environment [tesis]. Karlskrona: Department of
Telecommunications and Speech Processing, Blekinge Institute of Technology.
Brent DR, Stewart LP. 2006. Communication and Human Behavior. Waipahu (US):
Allyn and Bacon
Wisnudisastra E, Buono A. 2010. Pengenalan chord pada alat musik gitar menggunakan
codebook dengan teknik ekstraksi ciri MFCC. Jurnal Ilmiah Ilmu Komputer,
14(1): 16 – 21.

14

RIWAYAT HIDUP
Penulis dilahirkan di Sukabumi, Jawa Barat, Indonesia pada tanggal 16 September
1990. Penulis merupakan anak pertama dari dua bersaudara, dari pasangan Suharto, dan
Tuti Ernawati, SE.
Penulis memulai pendidikan formal dari TK Nugraha 3 Bogor dan lulus pada
tahun 1996, kemudian melanjutkan pendidikan di SD Negeri Polisi 4 Bogor dan lulus
pada tahun 2001. Pendidikan menegah diselesaikan di SMP Negeri 5 Bogor dan lulus
tahun 2005. Lalu, penulis melanjutkan pendidikan tingkat atas di SMA Negeri 2 Bogor
dan lulus pada tahun 2008.
Pada tahun 2008, penulis melanjutkan pendidikan di Institut Pertanian Bogor
Program Diploma, Program Keahlian Manajemen Informatika melalui jalur Undangan
Seleksi Masuk (USMI) dan lulus pada tahun 2011. Pada tahun 2011, penulis
melanjutkan pendidikan di Program Alih Jenis S1 Ilmu Komputer, Fakultas Matematika
dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Dokumen yang terkait

Perangkat Lunak Untuk Membuka Aplikasi Pada Komputer Dengan Perintah Suara menggunakan Metode Mel Frequency Cepstrum Coefficients (MFCC)

5 16 138

Implementasi Metode Mel-Frequency Cepstrum Coefficients (MFCC) Dalam IDentifikasi jenis Suara Burung Berkicau

15 74 61

Penerapan Mel Frequency Cepstrum Coefficients (MFCC) sebagai ekstraksi ciri pada pengenalan fonem dengan Probabilistic Neural Network (PNN) sebagai classifier

0 8 48

Penerapan Learning Vector Quantization (LVQ) dan Ekstraksi Ciri Menggunakan Mel-Frequency Cepstrum Coeffecients (MFCC) untuk Transkripsi Suara ke Teks

0 5 28

Penerapan mel-frequency cepstrum coefficients (mfcc) sebagai ekstraksi ciri pada transkripsi suara ke teks dengan self organizing maps (som)

1 7 30

Pengenalan Karakteristik Suara Menggunakan Mel Frequency Cepstrum Coefficients (Mfcc) Pada Sistem Pengenalan Pembicara (Speaker Recognition Sistem)

2 15 65

Pengenalan Karakteristik Suara Menggunakan Mel Frequency Cepstrum Coefficients (Mfcc) Pada Sistem Pengenalan Pembicara (Speaker Recognition Sistem)

0 1 8

Aplikasi Pengenalan Ucapan Dengan Ekstraksi Ciri Mel- Frequency Cepstrum Coefficients (MFCC) dan Jaringan Syaraf Tiruan (JST) Propagasi Balik Untuk Buka dan Tutup Pintu

0 0 12

Metoda Mel Frequency Cepstrum Coefficients (MFCC) untuk Mengenali Ucapan pada Bahasa Indonesia

0 0 10

IDENTIFIKASI PENUTUR MENGGUNAKAN METODE MEL FREQUENCY CEPSTRAL COEFFICIENTS (MFCC) DAN JARINGAN SYARAF TIRUAN MODEL MADALINE Speaker Identification using Mel Frequency Cepstrum Coefficients (MFCC) and Madaline Neural Network

0 1 12