SISTEM PENGENALAN SUARA UNTUK MENGENALI PERINTAH SUARA MENGGUNAKAN JARINGAN SYARAF TIRUAN BACKPROPAGATION

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

SISTEM PENGENALAN SUARA UNTUK MENGENALI
PERINTAH SUARA MENGGUNAKAN JARINGAN SYARAF
TIRUAN BACKPROPAGATION
SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana
Komputer Program Studi Teknik Informatika

Oleh :
I Putu Desyanndana
145314065

TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA YOGYAKARTA
2019

i


PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

VOICE RECOGNITION SYSTEM FOR RECOGNIZE VOICE
COMMAND USING BACKPROPAGATION NEURAL NETWORK

FINAL PROJECT

Presented as Partial Fulfillment of Requirements to Obtain Sarjana
Komputer Degree in Informatics Engineering Department

By :
I Putu Desyandana
145314065

INFORMATICS ENGINEERING STUDY PROGRAM
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY YOGYAKARTA
2019

ii


PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

iii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

iv

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

MOTO

JIKA KAMU TIDAK MENYUKAI SESUATU, UBAHLAH.
JIKA TIDAK BISA MENGUBAHNYA, UBAH SIKAPMU
MAYA ANGELOU

SATU-SATUNYA CARA UNTUK MENCINTAI
PEKERJAAN YANG HEBAT ADALAH DENGAN
MENCINTAI APA YANG KAMU LAKUKAN

STEVE JOBS

v

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PERNYATAAN KEASLIAN KARYA
Saya menyatakan sesungguhnya bahwa di dalam skripsi yang saya tulis ini
tidak memuat karya atau bagian karya orang lain, kecuali telah disebutkan dalam
kutipan dan daftar pustaka, sebagaimana layaknya karya ilmiah.

Yogyakarta, 31 Januari 2019
Penulis

I Putu Desyanndana

vi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI


LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI
ILMIAH UNTUK KEPENTINGAN AKADEMIS

Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma:
Nama : I Putu Desyanndana
NIM

: 145314065

Demi pengembangan ilmu pengetahuan, saya memberikan kepada
Perpustakaan Universitas Sanata Dharma karya ilmiah yang berjudul :
SISTEM PENGENALAN SUARA UNTUK MENGENALI PERINTAH
SUARA MENGGUNAKAN JARINGAN SYARAF TIRUAN
BACKPROPAGATION
Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya
memberikan kepada perpustakaan Universitas Sanata Dharma hak untuk
menyimpan, mengalihkan daam bentuk media lain, mengelolanya dalam bentuk
pangkalan data, mendistribusikan secara terbatas, dan mempublikasikannya di
internet atau media lain untuk kepentingan akademis tanpa perlu meminta izin
dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan

nama saya sebagai penulis.
Demikian pernyataan ini saya buat dengan sebenarnya.

Dibuat di Yogyakarta
Pada Tanggal 31 Januari 2019
Yang Menyatakan

I Putu Desyanndana

vii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

INTISARI
Suara manusia merupakan gelombang yang sangat unik. Hal itu
dikarenakan setiap manusia memiliki gelombang suara yang berbeda. Telinga
manusia normal dapat mendengarkan berbagai jenis ucapan sehingga mampu
mendefinisikan huruf, kalimat atau kata yang diucapkan. Berdasarkan hal tersebut
dibentuklah sistem yang mampu mengenali suara manusia. Secara khusus lagi,
penulis membuat sistem pengenalan perintah suara dalam mengendalikan

peralatan elektronik di rumah.
Penelitian ini memproses suara yang merupakan file rekaman dari kalimat
perintah suara. Menggunakan metode Mel Frequency Cepstral Coefficients dalam
melakukan ekstraksi ciri suara. Hasil ekstraksi ciri suara dimasukkan ke Jaringan
Syaraf Tiruan Backpropagation untuk klasifikasi.
Percobaan klasifikasi dengan Jaringan Syaraf Tiruan Backpropagation,
dengan optimalisasi arsitektur jaringan, dihasilkan akurasi terbaik menggunakan
dua hidden layer dengan 15 neuron untuk setiap hidden layer sebesar 71,52%.

Kata Kunci: Pengenalan Suara, Segmentasi Suara, Mel Frequency
Cepstral Coefficients, Jaringan Syaraf Tiruan Backpropagation

viii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ABSTRACT
Human voice is a very unique wave. That is because every human being
has different sound waves. Normal human ears can listen to various types of
speech so they are able to define letters, sentences or words that are spoken. Based

on this, a system is formed that is able to recognize human voices. In particular
again, the author made a system of recognition of voice commands in controlling
electronic equipment at home.
This research processes sound which is a recording file from a voice
command sentence. Using the Mel Frequency Cepstral Coefficients method in
performing voice feature extraction. The feature extraction results are entered into
Backpropagation Artificial Neural Networks for classification.
Classification experiments with Backpropagation Artificial Neural
Networks, by optimizing network architecture, produced the best accuracy using
two hidden layers with 15 neurons for each hidden layer at 71.52%.
Keyword: Voice Recognition, Audio Segmentation, Mel Frequency
Cepstral Coefficients, Backpropagation Artificial Neural Network.

ix

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

KATA PENGANTAR
Puji syukur penulis panjatkan kepada Ida Sang Hyang Widhi Wasa, Tuhan
Yang Maha Esa, yang telah memberikan karunia berlimpah sehingga penulis

dapat menyelesaikan tugas akhir dengan sangat baik.
Penulis menyadari bahwa pada saat pengerjaan tugas akhir ini penulis
mendapatkan banyak bantuan dari berbagai pihak, baik berupa perhatian, kritik,
dan saran yang sangat penulis butuhkan untuk kelancaran dan mendapatkan hasil
yang baik. Pada kesempatan ini penulis akan menyampaikan ucapan terima kasih
kepada:
1. Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku Dekan Fakultas Sains dan
Teknologi Universitas Sanata Dharma Yogyakarta.
2. Dr. Cyprianus Kuntoro Adi, S.J., M.A., M.Sc., selaku dosen pembimbing tugas
akhir yang telah sabar dan penuh perhatian membimbing saya dalam
penyusunan tugas akhir.
3. Dr. Anastasia Rita Widiarti, M.Kom., selaku Ketua Program Studi Teknik
Informatika yang selalu memberikan dukungan dan perhatian serta saran
kepada mahasiswa tugas akhir dan pengerjaan tugas akhir.
4. Kedua orang tua tercinta yang selalu mendoakan dan memberikan dukungan
berupa moral maupun materi kepada penulis, sehingga penulis dapat
menyelesaikan tugas akhir ini.
5. Seluruh dosen Teknik Informatika atas ilmu yang telah diberikan selama
perkuliahan dan pengalaman yang sangat berarti bagi penulis.
6. Seluruh anggota grup line Keluarga Ya-Ampun yang selalu bertanya kapan

lulus.
7. Keluarga Besar Teknik Informatika 2014 yang selalu mendukung penulis, serta
seluruh teman – teman yang berjuang bersama dan saling mendukung dalam
penyusunan tugas akhir ini.

x

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

8. Teman-teman Game Online yang menemani setiap malam penulis.

Yogyakarta, 20 Januari 2019
Penulis

I Putu Desyanndana

xi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI


DAFTAR ISI

SAMPUL…………………………………………………………………………..i
COVER……………………………………………………………………………ii
HALAMAN PERSETUJUAN PEMBIMBING………………………………….iii
MOTO……………………………………………………………………………..v
PERNYATAAN KEASLIAN KARYA………………………………………….vi
LEMBAR PERNYATAAN……………………………………………………...vii
ABSTRAK………………………………………………………………………viii
ABSTRACT………………………………………………………………………ix
KATA PENGATAR………………………………………………………………x
DAFTAR ISI……………………………………………………………………..xii
DAFTAR TABEL……………………………………………………………….xiv
DAFTAR GAMBAR……………………………………………………………xiv
BAB I PENDAHULUAN….……………………………………………………...1
1.1. Latar Belakang…………………………………………………….1
1.2. Rumusan Masalah…………………………………………………2
1.3. Tujuan Penelitian………………………………………………….3
1.4. Batasan Masalah…………………………………………………..3
1.5. Metodologi Penelitian……………………………………………..3

1.6. Sistematika Penulisan……………………………………………..4
BAB II DASAR TEORI.………………………………………………………….6
2.1. Pengenalan Suara………………………………………………….6
2.2. Mel Frequency Cepstral Coefficients……………………………..6
2.3. Jaringan Syaraf Tiruan……………………………………………12
2.4. K-Fold Cross Validation………………………………………….18
2.5. Confussion Matrix………………………………………………..18
BAB III METODOLOGI PENELITIAN …………………………………… ....19
3.1. Gambaran Penelitian……………………………………………...19
3.2. Data……………………………………………………………….22
3.3. Preprocessing……………………………………………………..25
3.4. Ekstraksi Ciri……………………………………………………..29
3.5. Jaringan Syaraf Tiruan……………………………………………32
3.6. Metode Pengujian………………………………………………...38
3.7. Model Pengenalan Data Tungga ………………………………...38
3.8. Algoritma…….…………………………………………………...41
3.8. Kebutuhan Sistem………………………………………………. 43
BAB IV IMPLEMENTASI DAN ANALISA …………………………………..46
4.1. Preprocessing……………………………………………………..46
4.1.1. Merubah Format File Suara……………………………….46
4.1.2. Pemotongan File Suara……………………………………47
4.1.3. Normalisasi Data Sample Suara…………………………..49
4.1.4. Deteksi Silence Voice atau Suara Hening……………… . 50

xii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

4.1.5. Feature Data (MFCC)…………………………………..…54
4.1.6. 3-Fold Cross Validation …………………………………..56
4.2. Klasifikasi………………………………………………………...56
4.3. Uji Data Tunggal…………………………………………………49
BAB V PENUTUP ………………………………………………………………69
5.1. Kesimpulan……………………………………………………….69
5.2. Saran……………………………………………………………...70
DAFTAR PUSTAKA……………………………………………………………71
LAMPIRAN……………………………………………………………………...76

xiii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR TABEL
Tabel 3.2 Tabel Kata dalam Kalimat Perintah Suara……………………19
Tabel 3.4 3-Fold Cross Validation………………………………………23
Tabel 4.1 Tabel Persentase Hasil Potongan Suara………………………53
Tabel 4.1.5 Tabel Label Ciri Data…………………………….…………55
Tabel 4.2.1 Tabel Fold Pertama…………………………………………61
Tabel 4.2.2 Tabel Fold Kedua………………………………………….. 62
Tabel 4.2.3 Tabel Fold Ketiga……………………………………… …..62
DAFTAR GAMBAR
Gambar 2.3.1 Ilustrasi Jaringan Lapis Tunggal………………………...13
Gambar 2.3.2 Ilustrasi Jaringan Lapis Majemuk……………………….13
Gambar 2.3.2.1 Jaringan Fungsi Aproksimasi………………………….14
Gambar 2.3.4.1 Jaringan 3 Lapis Notasi Ringkas………………………15
Gambar 3.1 Diagram Blok Sistem…………………..…………………..21
Gambar 3.2.1 Contoh Sinyal Digital……………………………………24
Gambar 3.2.2 Contoh Sinyal Spectogram………………………………24
Gambar 3.3.1 Deteksi Energy………………………………………......26
Gambar 3.3.2 Gambar Hasil Deteksi Energi Potongan ………………..26
Gambar 3.3.3 Contoh Deteksi Zero-Crossing Dari Potongan Suara 1…27
Gambar 3.3.4 Contoh Deteksi Zero-Crossing Dari Potongan Suara 2…28
Gambar 3.4 Hasil Ekstraksi ciri MFCC………………………………...24
Gambar 3.5 Arsitektur Jaringan Untuk Pelatihan & Pengujian………...27

xiv

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 3.7 Diagram Blok Sistem Pengenalan Data Tunggal ………….38
Gambar 3.8 Flow Chart Sistem …………………………………………41
Gambar 3.9 Rancangan Antarmuka Sistem ……………………………..34
Gambar 4.1.1 Merubah Format Suara dengan Format Factory………….47
Gambar 4.1.2.1 Pemotongan File Kalimat dengan Wavepad……...…….48
Gambar 4.1.2.2 Block diagram Sistem Pemotongan Manual……...…….49
Gambar 4.1.4.1 Deteksi Silence Voice dengan Energy…….……………50
Gambar 4.1.4.2 Deteksi Silence Voice dengan ZeroCrossing...…………51
Gambar 4.1.4.3 Deteksi Silence Voice dengan ZeroCrossing…………...51
Gambar 4.1.4.4 Deteksi Silence Voice dengan ZeroCrossing…………...52
Gambar 4.1.4.5 Deteksi Silence Voice dengan ZeroCrossing……...……52
Gambar 4.1.4.6 Deteksi Silence Voice dengan ZeroCrossing…...………52
Gambar 4.1.5 Diagram Blok MFCC……………………………………..54
Gambar 4.2.1 Arsitektur JST Satu Hidden Layer………………………..56
Gambar 4.2.2 Grafik Klasifikasi dengan 1 Hidden Layer……………….57
Gambar 4.2.3 Arsitektur satu Hidden Layer Variasi Bobot & Bias …….57
Gambar 4.2.4 Grafil Klasifikasi 1 Hidden Layer Variasi Bobot & Bias...58
Gambar 4.2.5 Arsitektur JST Dua Hidden Layer………………………..59
Gambar 4.2.6 Grafik Klasifikasi dengan 2 Hidden Layer……………….59
Gambar 4.2.7 Grafik Arsitektur JST Optimal……………………………60
Gambar 4.2.8 Arsitektur JST optimal ………………………………...…60
Gambar 4.3.1 Uji Data 1…………………………………………………63

xv

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 4.3.2 Uji Data 2…………………………………………………64
Gambar 4.3.3 Uji Data 3…………………………………………………65
Gambar 4..3.4 Uji Data 4……………………………………...…………65
Gambar 4.3.5 Uji Data 5…………………………………………………66
Gambar 4.4.1 Grafik perbandingan seluruh hasil akurasi JST…………..67

xvi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB I
PENDAHULUAN
1.1. Latar Belakang Masalah
Di zaman yang sudah modern ini sistem kendali jarak jauh telah banyak
digunakan. Salah satu contohnya adalah dalam melakukan pengendalian
perangkat elektronik di dalam rumah dengan menggunakan perintah suara.
Namun, karena suara manusia memiliki keunikan tersendiri maka ada beberapa
hal yang harus diatasi dalam mengimplementasikan pengenalan suara seperti
derau (noise), frekuensi ucapan yang berubah-ubah, pola kata yang diucapkan,
serta mengklasifikasi kata-kata yang diucapkan tersebut. Maka dari itu, dalam
melakukan pengendalian perangkat elektronik di dalam rumah dengan perintah
suara dibutuhkan sebuah sistem pengenalan suara yang mampu mengenali
perintah suara yang diucapkan manusia.
Pada tahun 2013 terdapat penelitian dengan judul “Pengenalan Suara
Manusia Menggunakan Metode Linear Predictive Coding”(Khoirul, 2013).
Pada penelitian tersebut dikatakan bahwa pengenalan suara pembicara (speec
recognition) tidak membutuhkan biaya yang besar dan tidak membutuhkan
peralatan khusus. Pada tahun 2014 juga terdapat penelitian dengan judul
“Aplikasi Pengenalan Suara Untuk Rumah Pintar Menggunakan Algoritma
Fast Fourier Transform Berbasiskan Android” (Andika, Bayu 2014). Penelitian
tersebut bertujuan untuk membuat sebuah program yang dapat mengatur
peralatan yang ada di rumah dengan menggunakan media suara. Nilai akurasi

1

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2

yang dihasilkan pada penelitian tersebut adalah 70% dengan waktu proses ratarata 2,67 detik. Selain itu pada tahun 2016 juga terdapat penelitian dengan judul
“Klasifikasi Burung Berdasarkan Suara Kicau Burung Menggunakan Jaringan
Syaraf Tiruan Propagasi Balik” (Echo, 2016). Penelitian ini bertujuan untuk
melakukan klasifikasi burung berdasarkan suara kicau. Dimana nilai akurasi
yang dihasilkan pada penelitian ini sebesar 85,28% untuk klasisfikasi
menggunakan 3 fold, 98,61% untuk klasifikasi menggunakan 5 fold dan sebesar
99,17% untuk klasifikasi menggunakan 10 fold.
Pada tugas akhir ini penulis akan mencoba untuk membuat suatu sistem
yang dapat melakukan klasifikasi dalam pengenalan perintah suara dengan
menggunakan metode Jaringan Syaraf Tiruan Backpropagation.
1.2. Rumusan Masalah
Berdasarkan latar belakang di atas, rumusan masalah dalam
penelitian ini adalah :
1.2.1. Bagaimana

metode

Jaringan

Syaraf

Tiruan

Back

Propagation mampu mengklasifikasi perintah suara?
1.2.2. Berapakah akurasi yang dihasilkan oleh metode Jaringan
Syaraf Tiruan dalam melakukan klasifikasi perintah suara?
1.3. Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk mengetahui akurasi dari metode
Jaringan Syaraf Tiruan bila diterapkan dalam melakukan klasifikasi
perintah suara.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3

1.4. Batasan Masalah
Agar pengerjaan tugas akhir ini lebih terfokus pada tujuan yangtelah
ditetapkan maka perlu adanya batasan-batasan masalah. Dalam Batasanbatasan tersebut yaitu : terdapat 4 ( Empat ) jenis perintah yang aplikasi
dapat kenali yaitu : hidup (on), mati (off), buka (open) dan tutup (close).
Dalam melakukan ekstraksi ciri penulis menggunakan Mell Frequency
Cepstral Coefficient (MFCC). Sedangkan untuk melakukan pengenalan
pola suara peneliti menggunakan metode Jaringan Syaraf Tiruan (JST).
Sedangkan untuk proses perekaman suara dilakukan dari jarak sejauh 3
hinggan 5 sentimeter dari bibir pembicara.
1.5. Metodologi Penelitian
Langkah-langkah dalam penelitian :
1.5.1.

Pengumpulan referensi berupa buku-buku dan jurnal-jurnal
ilmiah mengenai pengolahan suara, metode Jaringan Syaraf
Tiruan (JST) dan ekstraksi ciri MCFF ( Mell Frequency Cepstral
Coefficient ).

1.5.2.

Pembuatan Sistem
Sistem yang dibuat akan berjalan di perangkat komputer dengan
sistem operasi windows. Pembuatan sistem menggunakan
Matlab 2014.b.

1.5.3.

Pengambilan data dilakukan secara offline dengan cara merekam
data ucapan pada setiap kata perintah. Data tersebut kemudian di

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4

kirimkan ke software yang ada di komputer untuk di deteksi nilai
dari setiap data ucapan yang ada.

1.5.4.

Analisa dan penyimpulan hasil percobaan.
Analisa data dilakukan dengan cara meneliti jumlah variasi
perintah suara yang dimasukkan ke sistem. Sedangkan dalam
mengambil kesimpulan dilakukan dengan cara mencari jumlah data
perintah yang dapat dikenali dengan benar oleh sistem.

1.5.1.

Pengujian secara real time
Pengujian secara real time adalah pengujian dengan
memberikan masukan berupa perintah suara kedalam sistem
secara langsung. Setelah perintah dimasukkan sistem akan
secara lansung meneruskan ke sistem dan akan diproses
sehingga sistem akan mengeluarkan output berupa perintah
untuk mengendalikan barang elektronik. Pengujian ini bertujuan
untuk menguji kinerja sistem pada saat real time.

1.6. Sistematika Penulisan
Sistematika penulisan tugas akhir ini dibagi menjadi beberapa bab
dengan susunan sebagai berikut :
BAB I : PENDAHULUAN
Bab ini membahas latar belakang, rumusan masalah, tujuan,
manfaat, batasan masalah, metodologi penelitian, dan sistematika
penulisan.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5

BAB II : LANDASAN TEORI
Bab ini membahas teori-teori yang mendukung dan menjadi dasar
pemecahan masalah, antara lain teori mengenai rumah pintar dan voice
recognition. Pada bab ini juga membahas mengenai metode-metode seperti:
Mell Frequency Cepstral Coefficient (MFCC) dan Jaringan Syaraf Tiruan
(JST).
BAB III : METODOLOGI PENELITIAN
Bab ini membahas mengenai perancangan aplikasi pengenalan
suara. Bab ini juga membahas mengenai analisa komponen-komponen yang
akan digunakan untuk pengerjaan tugas akhir.
BAB IV : IMPLEMENTASI DAN ANALISIS HASIL
Bab ini membahas analisa hasil perancangan sistem dan pengujian
rekaman perintah suara.
BAB V : KESIMPULAN DAN SARAN
Bab ini berisi kesimpulan dari hasil analisa dan saran-saran untuk
pengembangan lebih lanjut.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB II
DASAR TEORI
Bab ini membahas teori-teori yang bersangkutan dengan penulisan proposal
Tugas Akhir ini. Teori-teori tersebut adalah Pengenalan Suara (Voice Recognition),
Mel Frequency Cepstral Coefficients, Jarigan Saraf Tiruan (Artificial Neural
Network), K-Fold Cross Validation, Confusion Matrix.
2.1.

Pengenalan Suara (Voice Recognition)
Pengenalan suara (Voice Recognition) merupakan proses atau
metode dalam menterjemahkan signal suara menjadi tulisan dengan
menggunakan alat berupa komputer (T. Ginnakopoulos, 2014). Pengenalan
suara bertujuan untuk mengidentifikasi atau mengenali suara dimana dalam
prosesnya komputer akan menerima input berupa kata yang diucapkan.
Kata-kata tersebut kemudian diubah menjadi sinyal digital dengan cara
merubah gelombang suara menjadi sekumpulan angka lalu disesuaikan
dengan kode tertentu dan dicocokkan dengan suatu pola yang tersimpan
dalam sistem. Hasil identifikasi kata kemudian ditampilkan dalam bentuk
tulisan atau kode yang dapat dibaca oleh perangkat teknologi (A. Astri,
2016).

2.2.

Mel Frequency Cepstral Coefficients
Mel Frequency Cepstral Coefficients (MFCC) merupakan metode
yang cukup popular digunakan dalam melakukan ekstraksi ciri dari data
suara. Metode ini didasarkan atas variasi bandwidth kritis terhadap

6

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7

frekuensi telinga manusia. Dimana telinga manusia merupakan filter yang
bekerja secara linier pada frekuensi rendah dan bekerja secara logaritmik
pada frekuensi tinggi. Untuk meniru kondisi telinga, karakteristik ini
digambarkan dalam skala mel-frekuensi, yang merupakan frekuensi linier
di bawah 1000Hz dan frekuensi logaritmik di atas 1000Hz(Setiawan, dkk
2011).
2.2.1. Pre-emphasis
Menurut Jang (2005), sinyal suara s(n) dikirim ke
filter high-pass:
S2(n) = S(n) – a * S(n-1)

… (2.2.1.1)

Dimana S2(n) merupakan sinyal output dan nilai a
biasanya antara 0.9 dan 1.0. Sedangkan Z-transform dari
filter adalah:
H(z) = 1 – a * z-1
Tujuan

dari

… (2.2.1.2)
pre-emphasis

adalah

untuk

mengkompensasi bagian frekuensi tinggi yang ditekan pada
saat produksi suara manusia. Selain itu juga dapat
memperkuat forman penting dari frekuensi tinggi.
2.2.2. Frame Blocking
Pada tahap ini sinyal suara kontinyu diblok menjadi
frame-frame N sample, dengan frame-frame berdekatan
dengan spasi M (M < N). Frame pertama terdiri dari N
sampel pertama. Frame kedua dengan M sampel setelah

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8

frame pertama, dan overlap dengan N-M sampel. Dengan
cara yang sama, frame ketiga dimulai 2M sampel setelah
frame pertama (atau M sampel setelah frame kedua) dan
overlap dengan N-2M sampel. Proses ini berlanjut hingga
semua suara dihitung dalam satu atau banyak frame. Nilai
tipikal untuk N = 256 dan M = 100 (Mustofa,2007).
2.2.3. Hamming Windowing
Tahap selanjutnya adalah pemrosesan dengan
window pada masing-masing frame individual untuk
meminimalisasi sinyal yang tidak kuntinyu pada awal dan
akhir frame. Window dinyatakan dengan w(n), 0 < n < N-1,
dengan N adalah jumlah sampel dalam masing-masing
frame, X1(n) adalah sinyal input dan hasil windowing adalah
Y1(n).
Y1(n) = X1(n)w(n), 0 < n < N-1
… (2.2.3.1)
Jenis window yang digunakan adalah window
Hamming.
w(n) = 0.54 – 0.46 cos [ (2πn)/(N-1) ] , 0 < n < N-1
… (2.2.3.2)
Dengan N adalah jumlah sampel.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9

2.2.4. Fast Fourier Transform
Tahap ini bertujuan untuk mengubah masing-masing
frame N sample dari domain waktu menjadi domain
frekuensi.

FFT

merupakan

algoritma

cepat

untuk

mengimplementasikan discrete fourier transform (DFT)
dengan didefinisikan pada kumpulan N sampel.

… (2.2.4.1)
Dengan :
Xk = Deretan aperiodik dengan nilai N
N = Jumlah sampel
2.2.5. Triangular Bandpass Filter
Persepsi manusia dari kandungan frekuensi suara
pada sinyal wicara tidak mengikuti skala linier. Untuk
masing-masing nada dengan frekuensi aktual, f dalam Hz,
pitch diukur dengan skala ‘mel’. Skala mel-frequency
merupakan frekuensi linear yang berada dibawah 1000Hz
dan bentuk logaritmik berada diatas 1000Hz. Sebagai titik
referensi adalah pitch dengan tone 1 kHz, 40dB diatas nilai
batas ambang pendengaran, ini dinyatakan 1000mel.
Pendekatan persamaan untuk menghitung mel dalam
frekuensi adalah :
mel( f ) = 2595 x log10( 1 + f / 700 ) … (2.2.5.1)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10

Salah satu pendekatan simulasi spektrum yaitu
menggunakan filter bank, satu filter untuk masing-masing
komponen mel-frequency yang diinginkan. Filter bank
mempunyai respon frekuensi bandpass segitiga dan jarak
bandwidth ditentukan oleh konstanta interval mel-frequency.
2.2.6. Discrete Cosine Transform
Langkah selanjutnya yaitu merubah spektrum log
mel menjadi domain waktu. Hasil ini disebut mel frequency
cepstrum coefficient (MFCC). Representasi cepstral dari
spectrum suara memberikan representasi baik dari sifat-sifat
spektral lokal sinyal untuk analisis frame yang diketahui.
Karena koefisien mel spectrum adalah bilangan nyata.
Dengan mengubahnya menjadi domain waktu menggunakan
discrete cosine transform (DCT). Jika koefisien spektrum
daya mel hasilnya adalah
… (2.2.6.1)
Maka MFCC dapat dihitung sebagai :

… (2.2.6.2)
Dimana :
= Koefisien cepstrum mel-frequency
= koefisien daya mel

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11

2.2.7. Log Energy
Merupakan salah satu cara untuk menambah nilai
koefisien yang dihitung dari linear prediction atau melcepstrum, nilai tersebut merupakan log energy signal. Ini
berarti pada setiap frame terdapat nilai energi yang
ditambahkan.
2.2.8. Delta Cepstrum
Secara umum metode yang digunakan untuk
mendapat informasi dari ciri yang dinamis biasa disebut
dengan delta-features. Turunan waktu dari ciri dapat
dihitung dengan beberapa metode, hasil perhitungan delta
akan ditambahkan ke vector ciri, sehingga menghasilkan
vektor ciri yang lebih besar. Nilai delta akan diturunkan
sekali lagi terhadap waktu menjadi nilai delta-delta pada
beberapa kasus delta-delta disebut dengan koefisien
percepatan, karena nilai tersebut merupakan turunan dari
kuadrat waktu dari koefisien. Persamaannya adalah :

… (2.2.8.1)
Nilai M biasanya bernilai 2. Jika menambahkan
kecepatan, feature berdimensi 26. Jika menambahkan baik
kecepatan dan akselerasi, dimensi feature menjadi 39. Pada

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12

umumnya sistem pengenalan suara menggunakan 39 feature
untuk mengenali ( Jang, 2005 ).
2.3. Jaringan Saraf Tiruan ( Artificial Neural Network )
Jaringan Saraf Tiruan atau sering disebut Artificial Neural Network
merupakan sistem komputasi yang memiliki arsitekstur dan cara kerja seperti
layaknya sel saraf biologis dalam otak manusia. Jaringan Saraf Tiruan dapat
digambarkan sebagai model matematis dan komputasi untuk fungsi aprokimasi
non-linier, klasifikasi data cluster, dan regresi non-parametrik atau sebuah simulasi
dari model saraf biologi. Jaringan Saraf Tiruan mampu menangani sistem yang
kompleks, rumit dan tidak linier serta mamp belajar dengan variabel-variabel
keputusan

(decision

variable).(Mittal

&

Zang,

2001;Hermawan,

2006

;Siang,2005).
Jaringan Saraf Tiruan memiliki 2 jenis arsitektur yakni lapis tunggal dan
lapis majemuk.


Pada arsitektur lapis tunggal input atau masukan dihubungkan
dengan lapisan neuron tunggal sehingga pemrosesan data hanya
diproses sekali untuk mendapatkan output.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13

Gambar 2.3.1 Ilustrasi Jaringan Lapis Tunggal (Hagan
& Beale, 2014)


Pada arsitektur jaringan lapis majemuk jaringan memiliki lebih dari
satu lapisan neuron dan berupa proses berantai yang sering disebut
layer tersembunyi (Hidden Layer). Arsitektur ini dapat memproses
informasi yang lebih kompleks sehingga diharapkan mampu
menghasilkan akurasi yang lebih baik dari arsitektur tunggal.

Gambar 2.3.2 Ilustrasi Jaringan Lapis Majemuk (Hagan & Beale, 2014)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14

2.3.1. Backpropagation
Backpropagation digunakan dalam melatih jaringan untuk
mendapatkan keseimbangan antara kemampuan jaringan dalam
mengenali pola yang digunakan selama pelatihan serta kemampuan
jaringan untuk memberi respon yang benar terhadap pola masukan.
Dimana backpropagation yang telah dilatih dengan baik akan
memberikan keluaran yang masukakal jika diberikan masukan yang
serupa dengan pola yang dipakai dalam pelatihan. ( Siang, 2005).
2.3.2. Fungsi Aktifasi
Berikut ini merupakan contoh jaringan fungsi aproksimasi

Gambar 2.3.2.1 Contoh Jaringan Fungsi Aproksimasi
(Hagan & Beale, 2014)
2.3.3. Propagasi Maju
Pada

propagasi

dipropagasikan

ke

maju,
lapisan

atau

masukan

tersembunyi

dengan

input

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15

menggunakan fungsi aktivasi yang telah di tentukan.
Dimana keluaran-nya akan di propagasikan maju lagi ke
lapisan tersembunyi selanjutnya dan akan terus berlanjut
sampai menghasilkan hasil. Hasil luaran akan dibandingkan
dengan ouput atau target minimum dan perbaikan dilakukan
bila hasil tidak mencapai target minimum.
2.3.4. Propagasi Mundur
Propagasi mundur digunakan untuk melakukan
perbaikan dari hasil luaran propagasi maju yang tidak
mencapai target minimum.
Algoritma backpropagation digambarkan dengan
rumus :
Am+1 = f m+1 (W m+1 am + bm+1 ) untuk m = 0, 1,.. M-1

...(2.3.4.1)

Dimana m merupakan jumlah layer dari jaringan
tersebut.

Gambar 2.3.4.1 Gambar Jaringan 3 Lapis, dengan
notasi ringkas (Hagan & Beale, 2014)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16

2.3.5. Perbaikan Bobot
Setelah semua faktor 𝛿 dihitung, bobot semua garis

dimodifikasi bersamaan. Perubahan bobot suatu garis
didasarkan atas faktor 𝛿 neuron di lapis atasnya.

Secara umum algoritma pelatihan untuk jaringan

backpropagation adalah sebagai berikut :
1. Ini sialisasi bilangan bobot dengan nilai kecil
2. Jika kondisi untuk pemberhentian belum terpenuhi,
lakukan langkah 3-10
3. Untuk setiap pasang data pelatihan, lakukan langkah 4-9
4. Setiap neuron menerima sinyal dan meneruskannya ke
neuron tersembunyi selanjutnya
5. Hitung semua luaran di neuron tersembunyi z_j (j = 1, 2,
3, … , p)
𝑧_𝑛𝑒𝑡𝑗 = 𝑣𝑗0 + ∑𝑛𝑖=1 𝑥𝑖 𝑣𝑗𝑖
𝑧𝑗 = 𝑓 (𝑧𝑛𝑒𝑡 𝑗 ) =

1+𝑒

1

−𝑧_𝑛𝑒𝑡𝑗

… ( 2.3.5.1 )
… ( 2.3.5.2 )

6. Hitung semua luaran jaringan di neuron y_k (k = 1, 2, 3,
… , m)
𝑦_𝑛𝑒𝑡𝑘 = 𝑤𝑘0 + ∑𝑛𝑗=1 𝑥𝑗 𝑤𝑘𝑖

𝑦𝑘 = 𝑓(𝑦𝑛𝑒𝑡 𝑘 ) =

1

1+𝑒 −𝑦_𝑛𝑒𝑡𝑘

… ( 2.3.5.3 )
… ( 2.3.5.4 )

7. Hitung faktor δ neuron luaran berdasarakan error
disetiap neuron luaran y_k (k = 1, 2, 3, … , m)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17

𝛿𝑘 = (𝑡𝑘 − 𝑦𝑘 )𝑓 ′ (𝑦𝑛𝑒𝑡𝑘 ) = (𝑡𝑘 − 𝑦𝑘 )𝑦𝑘 (1 −

𝑦𝑘 ) … ( 2.3.5.5 )

Hitung suku perubahan bobot w_kj dengan laju

percepatan α
∆𝑤𝑘𝑗 = 𝛼𝛿𝑘 𝑧𝑗 ; 𝑘 = 1, 2, … , 𝑚 ; 𝑗 = 0, 1, … , 𝑝

… ( 2.3.5.6 )

8. Hitung faktor δ neuron luaran berdasarakan error
disetiap neuron luaran z_j (j = 1, 2, 3, … , p)
𝛿_𝑛𝑒𝑡𝑗 = ∑𝑚
𝑘=1 𝛿𝑘 𝑤𝑘𝑗

… ( 2.3.5.7 )

Faktor δ neuron tersembunyi :
𝛿𝑗 = 𝛿_𝑛𝑒𝑡𝑗 𝑓′(𝑧𝑛𝑒𝑡 𝑗 ) = 𝛿𝑛𝑒𝑡 𝑗 𝑧𝑗 (1 − 𝑧𝑗 )

… ( 2.3.5.7 )

Hitung suku perubahan bobot v_ij
∆𝑣𝑖𝑗 = 𝛼𝛿𝑗 𝑥𝑖 ; 𝑗 = 1, 2, … , 𝑝 ; 𝑥 = 0, 1, … , 𝑛

… ( 2.3.5.8 )

9. Hitung semua perubahan bobot
Perubahan bobot garis yang menuju ke neuron
luaran:
𝑤𝑘𝑗 (𝑏𝑎𝑟𝑢) = 𝑤𝑘𝑗 (𝑙𝑎𝑚𝑎)∆𝑤𝑘𝑗 (𝑘 =

1, 2, … , 𝑚 ; 𝑗 = 0, 1, … , 𝑝)…(2.3.5.9)

Perubahan bobot garis yang menuju ke neuron

tersembunyi:

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18

𝑣𝑗𝑖 (𝑏𝑎𝑟𝑢) = 𝑣𝑗𝑖 (𝑙𝑎𝑚𝑎)∆𝑣𝑗𝑖 (𝑗 = 1, 2, … , 𝑝 ; 𝑖 = 0, 1, … , 𝑛)…(2.3.5.10)
10. Bandingkan kondisi penghentian.

2.4. K-Fold Cross Validation
K-Fold Cross Validation merupakan teknik umum untuk menguji
kenerja dari klasifikasi. Data dibagi menjadi k bagian ( fold ), kemudian
selama I = 1,…,k dilakukan pelatihan terhadap data selain fold ke-I dan
dilakukan pengujian terhadap data fold ke-I tersebut. Kemudian menghitung
jumlah pengujian yang mengalami kesalahan klasifikasi.
2.5. Confusion Matrix
Confusion Matrix menunjukkan jumlah prediksi yang benar dan
salah yang dibuat oleh model klasifikasi dibandingkan dengan hasil yang
sebenarnya dalam data. Matrix adalah n x n, dimana n adalah jumlah nilai
target. Kinerja model ini biasanya dievaluasi dengan menggunakan data
dalam matrix (Diana dan Shidik, 2014).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB III
METODOLOGI PENELITIAN
Bab ini membahas analsisa kebutuhan sistem mencangkup metode
yang digunakan untuk ekstraksi ciri, klasisfikasi, dan pengujian sistem. Bab
ini juga berisi perancangan sistem mencangkup preprocessing, ekstraksi
ciri, klasifikasi, metode pengujian, algoritma, dan perancangan antar muka
sistem.
3.1.Gambaran Penelitian
Sesuai dengan gambar 3.1 pada penelitian ini data hasil rekaman
kalimat suara akan di proses dengan melakukan tahap pre-processing
terlebih dahulu. Pada tahap ini data suara akan dirubah format dan
frekuensinya menjadi .WAV dengan frekuensi 11025Hz mono channel.
Kemudian sistem akan melakukan normalisasi nilai sampel suara yang
selanjutnya dicari nilai energi dan zero-crossing dari data suara. Nilai energi
dan zero-crossing kemudian digunakan dalam proses pemotongan file
kalimat suara menjadi potongan kata.
Setelah kalimat suara dipotong menjadi beberapa kata, proses
selanjunya yang dilakukan adalah proses ekstraksi ciri. Pada proses ini hasil
potongan kata akan di cari ciri atau feature dari setiap potongan kata dimana
dalam prosesnya dilakukan dengan metode Mel Frequency Cepstral
Coefficients (MFCC). Adapun tahapan yang dilakukan adalah preemphasis, frame blocking, hamming windowing, fast fourier transform,

19

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20

triangular bandpass filter, discrete cosine transform, log energy dan delta
cepstrum.
Proses selanjutnya adalah dengan membagi hasil ekstraksi ciri
menjadi 3 kelompok data dimana 1 kelompok data akan dijadikan data
testing dan 2 kelompok data akan dijadikan data training. Setelah itu
dilakukan proses klasifikasi dengan metode jaringan syaraf tiruan sehingga
didapat hasil yang diinginkan.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21

Gambar 3.1 Diagram Blok Sistem

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22

3.2.Data
Data suara yang dipakai merupakan data suara hasil rekaman 14
jenis perintah suara berupa kalimat perintah dari 10 orang berbeda yang
direkam dengan menggunakan HandPhone dan disimpan dalam format
.mp3 . Untuk setiap jenis perintah suara akan dikumpulkan maksimal
sebanyak 6 data rekaman suara per-orang (3 rekaman dari depan & 3
rekaman dari samping) yang akan dijadikan sebagai data training. Data
rekaman yang didapat haruslah bersih dari noise (gangguan suara) atau
sekurang-kurangnya memiliki noise yang masih dapat di toleransi.
Adapun jenis perintah kalimat suara yang digunakan adalah sebagai
berikut :
➢ Hidupkan lampu ruang tamu
➢ Hidupkan lampu kamar
➢ Hidupkan lampu garasi
➢ Matikan lampu ruang tamu
➢ Matikan lampu kamar
➢ Matikan lampu garasi
➢ Hidupkan TV ruang tamu
➢ Hidupkan TV kamar
➢ Matikan TV ruang tamu

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23

➢ Matikan TV kamar
➢ Buka pintu
➢ Buka jendela
➢ Tutup pintu
➢ Tutup jendela
Tabel 3.2: Tabel Kata dalam Kalimat Perintah Suara
Perintah

Objek

Lokasi

Hidupkan

Lampu

Ruang Tamu

Matikan

Televisi

Kamar
Garasi

Buka

Pintu

Tutup

Jendela

Data perintah suara yang digunakan bila dirubah menjadi sinyal
digital dan spektogram dalam penelitian ini :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24

Gambar 3.2.1 Sinyal digital “Hidupkan Lampu Ruang Tamu”

Gambar 3.2.2 Sinyal spectogram “Hidupkan Lampu Ruang Tamu”

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25

3.3.Preprocessing
Terdapat beberapa tahapan dalam preprocessing yakni : merubah
file ke format .WAV, melakukan proses deteksi silence voice,
normalisasi nilai data, dan memotong suara per-kata.
3.3.1. Merubah Format File Suara
Pada tahap ini file suara dalam format .WAV di konversi
dari frekuensi 44100Hz stereo channel ke dalam bentuk file
.WAV dengan format

Pulse-Code Modulation

(PCM),

11025Hz, 8 bit, mono channel. Dalam proses ini membutuhkan
aplikasi Format Factory 4.1.0.
3.3.2. Normalisasi
Proses ini dilakukan dengan metode min-max yang
bertujuan untuk menyetarakan nilai tertinggi dan terendah dari
suatu kesatuan nilai signal data suara. Pada proses ini nilai
tertinggi dan terendah dari nilai signal ditetapkan secara
konstan. Dimana pada proses ini menggunakan rumus :

Zi = [

𝑋𝑖 − min(𝑋)
]
max(𝑋) − min(𝑋)

Dimana Zi merupakan nilai hasil normalisasi ke i dari
matriks X, Xi merupakan nilai ke i dari matriks X.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26

3.3.3. Deteksi Silence Voice
Proses deteksi Silence Voice dilakukan dengan cara
mencari Energy & Zero-Crossing dari suatu data suara. Dalam
prosesnya data suara akan di potong menjadi beberapa Frame
dan dicari nilai Energy & Zero-Crossing -nya.

Gambar 3.3.1 Deteksi Energy dari Data Suara AgusDepan (1)
“Hidupkan Lampu Ruang Tamu”

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27

Gambar 3.3.2 Gambar hasil deteksi energi potongan pertama dan
ke-2 yang masih memiliki kemungkinan terdapat potongan kata di
dalamnya
Dalam prosesnya pertama-tama sistem akan mencari Energy dari
data suara sehingga didapatkan energy seperti pada gambar 3.3.1 diatas.
Dimana pada gambar bisa di dapatkan 5 potongan suara dimana
potongan pertama dan ke-2 masih memiliki kemungkinan untuk adanya
potongan suara (kata) di dalamnya.

Gambar 3.3.3 Deteksi Zero-Crossing Dari Potongan Suara
Pertama

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28

Gambar 3.3.4 Deteksi Zero-Crossing Dari Potongan Suara ke-2
Setelah melakukan pemotongan suara dengan menggunakan nilai
energy, selanjutnya hasil potongan akan di cari zero-crossingnya. Pada
gambar 3.3.3 sistem tidak menemukan nilai zero-crossing unik pada
data potongan suara sehingga dapat disimpulkan bahwa potongan suara
merupakan satu kesatuan. Sedangkan pada gambar 3.3.4 terdapat nilai
zero-crossing yang unik sehingga suara dapat di potong lagi menjadi 2
potongan suara.


Potong per-Kata
Pada proses ini koordinat dari Silence Voice akan
digunakan untuk menentukan jarak atau panjang data kalimat
suara yang akan di potong sehingga menjadi suatu data kata
suara. Data yang dipotong adalah data suara yang telah di
Normalisasi terlebih dahulu.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29

3.4.Ekstraksi Ciri
Ekstraksi ciri menggunakan metode MFCC (Mel Frequency Cepstral
Coefficient). Dimana metode tersebut dipilih karena sering digunakan
dalam speech recognition. Salah satu contohnya adalah pada penelitian
dengan judul “Klasifikasi Burung Berdasarkan Suara Kicau Burung
Menggunakan Jaringan Syaraf Tiruan Propagasi Balik” (Lorencious Echo,
2016) dimana pada penelitian tersebut didaptkan akurasi yang cukup tinggi
dalam melakukan klasifikasi yakni berkisar dari 85,28% hingga 99,17%.
Namun dari penelitian tersebut juga dapat dilihat kekurangan dari metode
jaringan syaraf tiruan yakni proses klasifikasi yang lama dan peneliti harus
mencoba-coba kombinasi secara manual hingga mendapatkan kombinasi
model yang optimal.
Untuk proses ekstraksi ciri dilakukan pada semua file suara dengan
menentukan terlebih dahulu ukuran frame dan overlap yang akan digunakan
pada saat proses perhitungan nilai MFCC. Kemudian nilai MFCC yang
dihasilkan dari setiap rekaman direduksi ciri dengan menghitung nilai
statistic berupa nilai mean, variance, standart-deviasi, dan standar deviasi
by mean dari nilai MFCC yang nantinya akan digunakan sebagai nilai input
dalam HMM.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30

Gambar 3.4 Gambar Tabel hasil ekstraksi ciri MFCC ( Tabel lengkap
dapat dilihat pada bagian lampiran dokumen )
Pada gambar 3.4 diatas nilai 13 merupakan jumlah koefisien MFCC
yang dihasilkan, sedangkan 27 merupakan jumlah frame yang
dihasilkan pada saat proses frame blocking. Jumlah frame sebanyak 27
dihasilkan melalui perhitungan sebagai berikut :
Sample Rate = 11025 Hz
Frame Size = 15ms = (15/1000)*11025 = 165.375 sample point
Overlap = 10ms = (10/1000)*11025 = 110.25 sample point
Step = 165.375 – 110.25 = 55.125
Duration = 0.1486s

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31

Sample Total = 0.1486*11025 = 1638.315 , Dibulatkan = 1638
Sample
Jumlah Frame = (1638-110.25)/55.125 = 27.714
Proses reduksi ciri dilakukan dengan menghitung nilai mean,
median, standar deviasi dan standar deviasi by mean setiap baris
koefisien MFCC (baris 1-13) yang nantinya akan menghasilkan
sebanyak 52x1 ciri untuk masing-masing potongan file suara.
Ada 9 tahap yang dilakukan pada proses ekstraksi ciri, dengan 8
tahap merupakan proses dari MFCC dan 1 tahap lainnya merupakan
perhitungan terhadap nilai MFCC yang telah dihasilkan. Tahap-tahap
tersebut adalah :
➢ Pre-Emphasis
➢ Frame Blocking
➢ Hamming Windowing
➢ Fast Fourier Transform ( FFT )
➢ Triangular Bandpass Filter
➢ Discrete Cosine Transform ( DCT )
➢ Log Energy
➢ Delta Cepstrum

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32

➢ Menghitung nilai mean, median, standar deviasi dan standar
deviasi by mean
Kemudian data dibagi menjadi 3 kelompok data ciri yang
berisikan ciri dari potongan kata kalimat suara. Kelompok data ini
kemudian akan dijadikan sebagai data training sebanyak 2
kelompok data ciri dan data testing sebanyak 1 kelompok data ciri.
Tabel 3.4 : 3-Fold Cross Validation
Percobaa
n

Trai
n

Validatio
n

Tes
t

1

2,3

1

1

2

1,3

2

2

3

1,2

3

3

Setelah itu data feature yang telah dipilih akan dijadikan
sebagai input pada jaringan saraf tiruan.
3.5.Jaringan Syaraf Tiruan
Ada 2 jenis arsitektur jaringan syaraf tiruan yang akan
digunakan untuk proses pelatihan dan pengujian, yaitu arsitektur
jaringan syaraf tiruan dengan 1 hidden layer dan 2 hidden layer. Setiap
arsitektur akan dilakukan percobaan dengan mengkombinasikan
beberapa parameter yakni jumlah neuron input yang bervariasi serta
fungsi aktivasi purelin.
➢ Arsitektur Jaringan Syaraf Tiruan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33

Gambar 3.5 : Arsitektur Jaringan untuk Pelatihan dan Pengujian
Arsitektur jaringan yang digunakan pada proses pelatihan
dan pengujian arsitektur memiliki kombinasi 1 hingga 25 neuron
pada setiap hidden layer-nya. Pada sistem ini menggunakan 12 input
sehingga luaran yang dihasilkan adalah [0 0 0 1] hingga [1 1 0 0]
jadi akan ada 4 neuron output untuk mendapatkan luaran yang
diinginkan.
Pada Gambar 3.5 dijelaskan bahwa masukan ciri berupa P
dimana banyak masukan maksimum sebanyak n. Feature yang
dimasukkan bergantung pada jumlah data hasil ekstraksi ciri dan n
merupakan neuron yang divariasikan dengan nilai variasi maksimun
25 neuron dan dikombinasi menggunakan 2 hidden layer untuk
menghasilkan luaran sebanyak 4 luaran yang dapat mewakili 12
label kata.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34

Adapun percobaan perhitungan, jika gambar sebelumnya
akan menghasilkan perintah “Hidup” maka hasil tersebut akan
diberikan nilai. Pada percobaan ini akan diberi nilai W = [1 0 0 0],
setelah itu masuk ke dalam jaringan syaraf tiruan dengan bobot dan
bias bilangan random dengan nilai terkecil. Dilakukan pelatihan
hingga mendapatkan nilai mendekati target yang diinginkan yakni
sesuai dengan label asli.
Adapun percobaan perhitungannya adalah sebagai berikut ,

1
1
0
𝑊 1 ( 0 ) = [ ] , 𝑏1 ( 0 ) = [ 0 ] , 𝑊 2 ( 0 ) = [ 0 1
0
0
0
0
= [ 0] ,

0 0] , 𝑏 2 (0)

1
1
𝑊 3 (0) = [0] , 𝑏3 (0) = [0],
0
0
0
0

Luaran lapis Pertama

1
1
0
𝑎1 = 𝑓 1 (𝑊 1 𝑎0 + 𝑏1 ) = 𝑙𝑜𝑔𝑠𝑖𝑔 ([ ] [1] + [0])
0
0
0
0
2
= 𝑙𝑜𝑔𝑠𝑖𝑔 ([0])
0
0

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35

1
1 + 𝑒 −2
1
0,88
0
1
+
𝑒
=[ 2 ]
=
1
2
2
1 + 𝑒0
1
[ 1 + 𝑒0 ]
𝑎2 = 𝑓 2 (𝑊 2 𝑎1 + 𝑏2 ) = 𝑙𝑜𝑔𝑠𝑖𝑔 ([0

=[

= 𝑙𝑜𝑔𝑠𝑖𝑔([2])

1

0,88
0 0] [ 2 ] + [0])
2
2

1
] = [0,88]
1 + 𝑒 −2

𝑎3 = 𝑓 3 (𝑓 2 (𝑊 3 𝑎0 + 𝑏3 ) + 𝑏2 )+𝑏3

1
1
= 𝑝𝑢𝑟𝑒𝑙𝑖𝑛 ([0] [0,88] + [0])
0
0
0
0

0,88
=[ 0 ]
0
0

Perbaikan Error
𝜋
𝜋
𝑒 = 𝑡 − 𝑎 = {1 + sin ( 𝑝)} − 𝑎3 = {1 + sin ( 1)} − 0,88
4
4
= 1,88

Langkah selanjutnya dari algoritma yakni sensitivitas

backpropagation, untuk memanggil kembali diperlukan turunan
fungsi transfer dari f 1(n), f 2(n) dan f 3(n) untuk lapis pertama
𝑓 1 (𝑛 ) =

𝑑
1
𝑒 −𝑛
1
1
(
)
=
= (1 −
)(
)
𝑛
−𝑛
−𝑛
2
𝑑𝑛 1 + 𝑒
1+𝑒
1 + 𝑒 −𝑛
(1 + 𝑒 )

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36

= (1 − 𝑎1 )(𝑎1 )

untuk lapis kedua

𝑓 2 (𝑛 ) =

1
(𝑒 𝑛 − 1)𝑒 𝑛
𝑑2
(
)
=
(1 + 𝑒 𝑛 )3
𝑑𝑛2 1 + 𝑒 𝑛

3
1
1
1
= (1 −
) (2
)(
)
1 + 𝑒 −𝑛
1 + 𝑒 −𝑛 1 + 𝑒 −𝑛

= (1 − 𝑎2 )(2𝑎2 )(𝑎2 )3

Untuk lapis ketiga,
𝑓 3 (𝑛 ) =

𝑑
(𝑛 ) = 1
𝑑𝑛

Backpropagation dimulai dari lapis ketiga
0,88
0,88
𝑠 3 = −2𝐹 3 (𝑛3 )(𝑡 − 𝑎) = −2[𝑓 3 (𝑛3 )] [ 0 ] = −2[1] [ 0 ]
0
0
0
0
−1,76
=[ 0 ]
0
0

Sensitifitas layer pertama dan kedua merupakan komputasi

dari backpropagation sensitifitas lapis ketiga.

2

2 ( 2 )(

𝑠 =𝐹 𝑛
= [0,22 0

𝑊

0,12
𝑠 = [ 0 ] [1 0
0
0

3 )𝑇 3

0,88
0
0 0] [
] = [1,936]
0
0

𝑠1 = 𝐹1 (𝑛1 )(𝑊 2 )𝑇 𝑠 2

0,88
0 ]
0 0] [
0
0

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37

0,12 1
0
0
] [ ] [0,1936]
=[
0
0
0
0

0,22
0,426
0 [
0
] 0.1936] = [
]
=[
0
0
0
0
Langkah terakhir yakni memperbaharui bobot dengan

menggunakan laju pembelajaran α =1.
𝑊 2 (1) = 𝑊 2 (0) − αs2 (a1 )𝑇

1
0
= [ ] − 1[0.1936][0.88 2
0
0

2 2]

= [0.728 0 0 0],

𝑏2 (1) = 𝑏2 (0) − αs 2 = [0] − 1[0.1936] = [−0.1936],

0,426
1
0,574
0
0
] [1] = [ 0 ],
𝑊1 (1) = 𝑊 1 (0) − αs1 (a0 )𝑇 = [ ] − 1 [
0
0
0
0
0
0
1
0,426
0,574
0
0
] = [ 0 ],
𝑏1 (1) = 𝑏1 (0) − αs1 = [ ] − 1 [
0
0
0
0
0
0

Hasil dari iterasi pertama, untuk mencari nilai optimal

diperlukan beberapa kali iterasi lagi sehingga didapatkan nilai hasil
yang mencapai atau mendekati target.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38

3.6.Metode Pengujian
Metode pengujian akan menggunakan K-Fold Cross Validation,
dengan k=3. Metode ini dipakai karena menghasilkan data yang berbeda
untuk proses pelatihan dan pengujian, sehingga dapat diketahui rata-rata
akurasi yang dihasilkan pada percobaan berdasarkan confusion matrix
yang dihasilkan.
3.7. Pengenalan Data Tunggal

Gambar 3.7 Diagram Pengenalan Data Tunggal

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39

Pada proses pengenalan data tunggal data suara yang digunakan
sebagai masukan merupakan file suara dari kalimat perintah suara
dimana seperti pada gambar 3.7 pertama-tama data suara masukan atau
data input akan dibaca oleh sistem. Setelah data terbaca sistem akan
melakukan proses normalisasi dari sampel data masukan. Hasil
normalisasi tersebut kemudian akan digunakan dalam proses
pemotongan kalimat suara menjadi beberapa kata.
Dalam proses pemotongan kalimat suara terdapat beberapa
tahap yang dilakukan. Tahap pertama adalah mencari nilai energi dari
sampel suara yang telah di normalisasi dimana nilai energi tersebut akan
digunakan untuk mencari letak jeda atau suara hening dengan
menggunakan metode horizontal projecting. Ketika jeda suara telah di
dapatkan maka sistem akan melakukan pemotongan sampel kalimat
suara menjadi beberapa sampel kata. Tahap kedua adalah mencari nilai
zero-crossing dari hasil pemotongan sampel kata dengan energi. Nilai
zero-crossing ini nantinya akan digunakan untuk mencari jeda atau
suara hening dari sampel suara potongan kata dengan metode horizontal
projecting. Bila dalam sampel suara potongan kata ditemukan jeda maka
sistem akan memotong kembali sampel suara tersebut menjadi beberapa
potongan kata baru. Namun bila tidak ditemukan jeda pada sampel
potongan suara maka sampel potongan suara tersebut akan masuk
kedalam proses ekstraksi ciri.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40

Proses Ekstraksi ciri dilakukan dengan metode Mel Frequency
Cepstral Coefficient (MFCC) dimana nanti hasil MFCC akan diambil
nilai mean, median, standar deviasi dan standar deviasi by mean nya
yang kemudian digunakan sebagai ciri dari sampel suara. Ciri suara
yang didapatkan diberikan label ciri.
Setelah ciri suara beserta labelnya ada maka proses selanjutnya
adalah membagi ciri suara menjadi 3 kelompok data dimana dua
kelompok data akan digunakan sebagai data training dan satu kelompok
data akan digunakan sebagai data testing.
Selanjutnya sistem akan melakukan klasifikasi dari data ciri
suara yang telah dimiliki dengan model jaringan syaraf tiruan. Setelah
hasil atau luaran dari proses klasifikasi didapatkan maka sistem dapat
menghitung akurasi dari klasifikasi data suara.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41

3.7.Algoritma

Gambar 3.8 Flow Chart Sistem
Seperti yang digambarkan pada gambar 3.8, ketika sistem dimulai
pertama-tama sistem akan melakukan proses Baca File Suara dengan
menggunakan fungsi