Pengenalan Chord Dengan Tiga Nada Penyusun Pada Instrumen Piano Menggunakan Learning Vector Quantization

PENGENALAN SUARA CHORD DENGAN TIGA NADA
PENYUSUN PADA INSTRUMEN PIANO MENGGUNAKAN
LEARNING VECTOR QUANTIZATION

SARAH RAHMANIA HANIF

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Pengenalan Chord
dengan Tiga Nada Penyusun pada Instrumen Piano Menggunakan Learning Vector
Quantization adalah benar karya saya dengan arahan dari komisi pembimbing dan
belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
.
Bogor, Agustus 2015
Sarah Rahmania Hanif
NIM G64110092

ABSTRAK
SARAH RAHMANIA HANIF. Pengenalan Chord dengan Tiga Nada Penyusun
pada Instrumen Piano Menggunakan Learning Vector Quantization. Dibimbing
oleh AGUS BUONO.
Piano merupakan alat musik yang banyak digemari baik untuk dinikmati oleh
pendengarnya atau dipelajari secara langsung. Proses belajar piano tidaklah mudah
terutama dalam pembelajaran chord. Chord yang umum digunakan adalah triad,
yaitu chord yang tersusun atas 3 nada. Begitu banyak kombinasi chord dalam istilah
musik sehingga mudah mengecoh orang yang baru mulai belajar, terutama bagi
pelajar otodidak yang tidak sensitif terhadap perbedaan nada. Sebuah sistem
dibutuhkan untuk membantu proses belajar para pemula dalam mengenali dan
membedakan suara chord pada piano. Sistem dikembangkan menggunakan metode
klasifikasi jaringan syaraf tiruan learning vector quantization (LVQ) dan metode

ekstraksi ciri mel frequency cepstrum coefficient (MFCC). Ekstraksi ciri MFCC
dilakukan menggunakan sampling rate sebesar 11000 Hz, frame rate 100 frame per
detik, dan menghasilkan 13 koefisien cepstral. Pemodelan LVQ dilakukan dengan
menggunakan parameter learning rate yang bervariasi. Hasil pengujian
menunjukkan akurasi tertinggi adalah 95.833% dengan nilai learning rate antara
0.036 sampai 0.076, nilai rataan kolom kelas inisiasi sebagai bobot awal, penurunan
learning rate 0.5, serta epoch sebanyak 30.
Kata kunci: chord, ekstraksi ciri, LVQ, MFCC, piano.

ABSTRACT
SARAH RAHMANIA HANIF. Three-Toned Chord Voice Recognition in Piano
Instrument using Learning Vector Quantization. Supervised by AGUS BUONO.
Piano is a musical instrument that is being popular whether for amusement or
its playing skill. The process of learning piano is not easy, especially in learning
chord. The chord that commonly used are triad, which means a 3-note chord. There
are so many chord combinations in music term so that the beginners are easily
deceived, especially those who have a low sense of hearing note differences.
Therefore, a system that is able to differ chords sound on piano is needed to help
the piano beginners. The system is developed using neural network learning vector
quantization (LVQ) classification method and mel frequency cepstrum coefficient

(MFCC) feature extraction method. The MFCC feature extraction is applied using
sampling rate of 11000 Hz, frame rate of 100 frame per second, and generates 13
cepstrum coefficients. The LVQ modeling is applied using several value of learning
rate parameter. The testing results show that the highest accuracy is 95.833% with
learning rate value between 0.036 and 0.076, mean of the initiation class collumn
as initial weight, learning rate decrement factor is 0.5, and epoch value is 30.
Keywords: chord, feature extraction, LVQ, MFCC, piano.

PENGENALAN SUARA CHORD DENGAN TIGA NADA
PENYUSUN PADA INSTRUMEN PIANO MENGGUNAKAN
LEARNING VECTOR QUANTIZATION

SARAH RAHMANIA HANIF

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer


DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

Penguji:
1 Muhammad Asyhar Agmalaro, SSi MKom
2 Dr Imas Sukaesih Sitanggang, SSi MKom

Judul Skripsi : Pengenalan Chord dengan Tiga Nada Penyusun pada Instrumen
Piano Menggunakan Learning Vector Quantization
Nama
: Sarah Rahmania Hanif
NIM
: G64110092

Disetujui oleh

Dr Ir Agus Buono, MSi MKom

Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Desember 2014 ini ialah
implementasi kecerdasan komputasional untuk pemodelan suara, dengan judul
Pengenalan Suara Chord Dengan Tiga Nada Penyusun pada Instrumen Piano
Menggunakan Learning Vector Quantization.
Terima kasih penulis ucapkan kepada:
1 Ayah, ibu, dan kedua kakak yang selalu mencurahkan perhatiannya,
mengingatkan serta mendoakan selama pengerjaan tugas akhir.
2 Bapak Dr Ir Agus Buono, MSi MKom selaku dosen pembimbing yang selalu

meluangkan waktu untuk bimbingan serta memberi banyak masukan bermanfaat
selama proses pengerjaan tugas akhir.
3 Bapak Muhammad Asyhar Agmalaro, SSi MKom dan Ibu Dr Imas Sukaesih
Sitanggang, SSi MKom selaku dosen penguji atas kesediaan sebagai penguji.
4 Teman-teman Ilkom 48 serta keluarga besar Gentra Kaheman yang selalu
memberi dukungan untuk lulus tepat pada waktunya.
Semoga karya ilmiah ini bermanfaat.

Bogor, Agustus 2015
Sarah Rahmania Hanif

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi


DAFTAR LAMPIRAN

vii

PENDAHULUAN

1

Perumusan Masalah

1

Tujuan Penelitian

2

Manfaat Penelitian

2


Ruang Lingkup Penelitian

2

TINJAUAN PUSTAKA

2

Nada

2

Chord

3

Sinyal

4


METODE

5

Kerangka Penelitian

5

Lingkungan Pengembangan

6

Data Penelitian

7

Praproses Data

7


Pemodelan LVQ

10

Evaluasi

12

HASIL DAN PEMBAHASAN

12

Pengumpulan Data

12

Praproses

13


Pelatihan

14

Pengujian

15

Evaluasi

17

KESIMPULAN DAN SARAN

18

Kesimpulan

18

Saran

18

DAFTAR PUSTAKA

18

DAFTAR TABEL
1 Daftar chord triad yang digunakan sebagai data penelitian
2 Pembagian data latih dan data uji untuk proses cross validation dibagi
menjadi empat variasi data
3 Confusion matrix model lvq0 pada learning rate 0.005 dengan akurasi
95.833%

7
16
17

DAFTAR GAMBAR
1 Ilustrasi tujuh huruf pertama alfabet sebagai notasi pada nada
2 Ilustrasi dari beberapa notasi musik serta batas antar oktaf pada tangga
nada diatonis dan kromatis (Benward dan Saker 2003)
3 Lima kelas chord berdasarkan jumlah nada penyusun (Benward dan
Saker 2003)
4 Proses digitalisasi sinyal analog (Proakis dan Manolakis 2007)
5 Konversi bentuk sinyal analog menjadi sinyal diskret dalam proses
Sampling
6 Pemberian level pada amplitudo (y) dalam proses quantization dan
coding pada setiap level kuantisasi.
7 Tahapan pengembangan sistem pengenalan chord pada piano
8 Hasil sinyal window yang diperoleh dengan mengalikan sinyal pada
frame dengan fungsi window Hamming.
9 Skala mel digambarkan dengan 20 filter segitiga sama tinggi yang terdiri
dari 10 linear dan 10 algoritmik
10 Alur proses pembelajaran metode LVQ
11 Alur proses pengujian metode LVQ (Hidayati dan Warsito 2010)
12 Ilustrasi bentuk sinyal chord A (kiri) dan G (kanan) hasil pengambilan
data melalui rekaman
13 Chord A (kiri) dan G (kanan) dinormalisasi
14 Chord A (kiri) dan G (kanan) setelah melalui proses silent removal
15 Kode fungsi beserta nilai parameter yang digunakan dalam MFCC
16 Penulisan kode program yang berbeda antara bobot C0 (kiri) dengan
bobot C1 sampai C13 (kanan)
17 Iterasi yang dilakukan sistem untuk memperbarui nilai learning rate
18 Perhitungan jarak Euclidean yang digunakan dalam proses pengujian
19 Tingkat akurasi hasil klasifikasi data menggunakan empat belas model
LVQ
20 Tingkat akurasi empat belas model lvq berdasarkan nilai learning rate
(α)
21 Akurasi yang dihasilkan model lvq0 setelah dilakukan cross validatio

2
3
4
4
5
5
6
8
9
11
12
12
13
13
13
14
14
15
15
16
16

DAFTAR LAMPIRAN
1 Confusion matrix model lvq1 dengan perolehan akurasi terbaik 80.833%
pada learning rate 0.001
2 Confusion matrix model lvq2 dengan perolehan akurasi terbaik 85.00%
pada learning rate 0.004
3 Confusion matrix model lvq3 dengan perolehan akurasi terbaik 83.333%
pada learning rate 0.001
4 Confusion matrix model lvq4 dengan perolehan akurasi terbaik 91.667%
pada learning rate 0.005
5 Confusion matrix model lvq5 dengan perolehan akurasi terbaik 90.833%
pada learning rate 0.010
6 Confusion matrix model lvq6 dengan perolehan akurasi terbaik 90.00%
pada learning rate 0.001
7 Confusion matrix model lvq7 dengan perolehan akurasi terbaik 94.167%
pada learning rate 0.003
8 Confusion matrix model lvq8 dengan perolehan akurasi terbaik 93.333%
pada learning rate 0.002
9 Confusion matrix model lvq9 dengan perolehan akurasi terbaik 90.833%
pada learning rate 0.001
10 Confusion matrix model lvq10 dengan perolehan akurasi terbaik
89.167% pada learning rate 0.005
11 Confusion matrix model lvq11 dengan perolehan akurasi terbaik
89.167% pada learning rate 0.008
12 Confusion matrix model lvq12 dengan perolehan akurasi terbaik 95.00%
pada learning rate 0.001
13 Confusion matrix model lvq13 dengan perolehan akurasi terbaik
91.667% pada learning rate 0.005

20
21
22
23
24
25
26
27
28
29
30
31
32

PENDAHULUAN
Piano merupakan alat musik yang paling dikenal dan paling disukai dari
seluruh instrumen musik yang ada. Piano juga memiliki cakupan dan fleksibilitas
yang lebih luas dibanding alat musik lain sehingga musik dari instrumen lainnya
dapat diaransemen dalam bentuk piano dengan mudah (Ehrlich 1990). Dengan
semakin berkembangnya dunia industri musik dan hiburan, instrumen piano
semakin banyak diminati oleh khalayak ramai. Masyarakat dari berbagai kalangan
pun banyak yang mulai mempelajari piano baik dengan mengikuti kursus atau
belajar secara otodidak. Dalam belajar piano ada tahap yang harus dilalui seorang
pemula, seperti pengenalan nada, not balok, istilah-istilah dasar, dan pada akhirnya
dikenalkan dengan istilah chord beserta teknik permainan piano. Orang yang
belajar secara otodidak sebagian besar tidak menjalani tahap tersebut dan langsung
masuk ke proses pengenalan nada dan chord.
Chord merupakan gabungan dari dua nada atau lebih yang dibunyikan secara
bersandingan dengan pola permainan tertentu dan menghasilkan suara yang
harmonis. Pola permainan chord pada piano yang paling mudah adalah dengan
ditekan secara bersamaan kemudian ditahan sepanjang waktu tertentu.
Permasalahan timbul ketika seseorang tidak tahu atau memiliki pengetahuan
minimum tentang chord apa yang sedang dimainkan. Masalah ini sering dialami
oleh pemula yang baru mengenal piano, terutama yang belajar secara otodidak.
Oleh karena itu dibutuhkan sarana pendukung belajar piano bagi pemula berupa
sistem yang dapat mengenali suara chord. Untuk meningkatkan daya gunanya,
sistem diharapkan tidak hanya bisa mengenali chord yang dimainkan, tapi juga bisa
mengidentifikasi nada-nada pembangun chord tersebut.
Penelitian dalam bidang suara intrumen musik telah banyak dilakukan, salah
satunya adalah penelitian Wisnudisastra dan Buono (2009). Dalam penelitian
Wisnudisastra, dilakukan pemodelkan chord pada gitar menggunakan codebook
tanpa mengindahkan nada penyusun chord. Fruandta (2011) melakukan penelitian
serupa menggunakan instrumen piano. Penelitian tersebut mengidentifikasi suara
nada campuran pada piano serta nada penyusunnya menggunakan codebook dan
menghasilkan akurasi sebesar 98.2051%. Mengacu pada penelitian Fruandta (2011)
yang menggunakan kombinasi dua nada sebagai fokus penelitian, penulis akan
melakukan pemodelan pada chord piano dengan kombinasi tiga nada sebagai
penyusun chord.
Penelitian ini akan menggunakan metode learning vector quantization (LVQ)
sebagai metode klasifikasi dan mel-frequency cepstrum coefficients (MFCC)
sebagai fitur ekstraksi ciri. Salah satu alasan digunakannya MFCC sebagai fitur
ekstraksi ciri adalah berhasilnya pengaplikasian MFCC terhadap musik dalam
penelitian yang dilakukan Logan (2000).

Perumusan Masalah
Berdasarkan latar belakang di atas, maka perumusan masalah dalam
penelitian ini adalah:

2
1 Bagaimana ekstraksi ciri MFCC diterapkan dalam proses pengolahan suara
chord?
2 Bagaimana metode LVQ diterapkan dalam pengenalan suara chord dengan tiga
nada penyusun pada instrumen piano?

Tujuan Penelitian
Tujuan dari penelitian ini adalah menerapkan MFCC sebagai fitur ekstraksi
ciri dan metode LVQ sebagai classifier terhadap suara chord dengan tiga nada
penyusun pada instrumen piano.

Manfaat Penelitian
Penelitian ini diharapkan dapat mengasilkan model LVQ yang
mengklasifikasikan chord dengan tepat agar bisa dikembangkan mejadi sistem yang
membantu proses belajar piano.

Ruang Lingkup Penelitian
Adapun ruang lingkup dari penelitian ini antara lain:
1 Kombinasi nada yang dikenali hanya terdiri dari tiga nada dan berada pada oktaf
ke-4.
2 Suara yang dikenali sistem hanya chord mayor dan minor yang dimainkan
dengan ditekan secara bersamaan.
3 Sampel suara diambil dari suara piano pada electone Yamaha EL-100.

TINJAUAN PUSTAKA
Nada
Nada adalah istilah suara tunggal dalam musik yang memiliki nilai pitch
tertentu. Pitch dapat disamakan dengan frekuensi, sehingga variasi pitch dan variasi
frekuensi adalah sama. Perbedaan nada merupakan akibat dari pitch yang bervariasi.
Secara umum nada dinotasikan dengan tujuh huruf alfabet (A B C D E F G)
(Benward dan Saker 2003) seperti yang diilustrasikan pada Gambar 1.

Gambar 1 Ilustrasi tujuh huruf pertama alfabet sebagai notasi pada
nada

3
Nada yang sama dari alat musik yang berbeda akan memancarkan frekuensi
yang sama. Hal yang menyebabkan perbedaan suara alat musik adalah warna suara,
yaitu perbedaan bentuk, bahan, atau dimensi dari sumber suara. Menurut Benward
dan Saker (2003) dalam musik terdapat beberapa istilah susunan tangga nada.
 Tangga nada diatonis, terdiri dari tujuh nada dasar: C (do), D (re), E (mi), F (fa),
G (sol), A (la), B (si).
Jarak antar nada : 1 – 1 – – 1 – 1 – 1 –
 Tangga nada kromatis, terdiri dari dua belas nada yang berasal dari modifikasi
nada diatonis : C, C#, D, D#, E, F, F#, G, G#, A, A#, B.
Jarak antar nada : – – – – – – – – – – –
Nada dituliskan dalam berbagai bentuk notasi. Notasi yang umum digunakan
oleh musisi adalah not balok, yaitu nada yang dituliskan di atas staff (lima garis
horizontal yang sejajar dan berjarak sama) dan selalu diawali oleh sebuah cleff
(simbol yang selalu ditempatkan di depan staff). Namun dalam pembelajaran di
sekolah, notasi yang umum digunakan adalah not angka karena lebih mudah
dimengerti oleh khalayak ramai.
Notasi umum lain adalah sharp (#) dan flat (b). Sharp berfungsi untuk
menaikkan nada sebanyak setengah, dan flat berfungsi untuk menurunkan nada
sebanyak setengah (lihat jarak tangga nada kromatis). Untuk mengidentifikasi
tinggi rendahnya frekuensi suara pada suatu nada digunakan istilah oktaf. Tiap
oktaf dibatasi oleh nada C dan B, sehingga dalam satu oktaf terdiri atas nada C – D
– E – F – G – A – B. Ilustrasi dari beberapa notasi umum dalam not balok dapat
dilihat pada Gambar 2.

Gambar 2 Ilustrasi dari beberapa notasi musik serta batas antar oktaf pada
tangga nada diatonis dan kromatis (Benward dan Saker 2003)

Chord
Menurut Benward dan Saker (2003) chord merupakan gabungan dari paling
sedikit tiga nada yang dibunyikan secara bersandingan dengan pola permainan
tertentu dan menghasilkan suara yang harmonis. Triad merupakan chord yang
terdiri atas tiga nada penyusun, yang merupakan data penelitian ini. Setiap triad
memiliki sebuah nada root yang menentukan chord yang dimainkan. Terdapat
empat triad yang umum digunakan:
 Major triad, terdiri atas major third dan perfect fifth.

4
 Minor triad, terdiri atas minor third dan perfect fifth.
 Diminished triad, terdiri atas minor third dan diminished fifth.
 Augmented triad, terdiri atas major third dan augmented fifth.
Dari empat kelas triad hanya diambil major triad dan minor triad sebagai
data penelitian karena kombinasinya terbukti lebih kuat dan stabil dibandingkan
dengan diminished triad dan augmented triad. Selain triad masih ada bentuk chord
yang terdiri atas lebih dari tiga nada penyusun. Chord dengan empat nada penyusun
disebut seventh chord yang biasa dilambangkan dengan angka 7 dicetak superscript.
Chord dengan lima nada penyusun disebut ninth chord. Chord dengan enam nada
penyusun disebut eleventh chord, dan chord dengan tujuh nada penyusun disebut
thirteenth chord. Pada Gambar 3 terdapat lima ilustrasi bentuk chord berdasarkan
jumlah nada penyusunnya dengan menggunakan nada root G.

Triad

Seventh
chord

Ninth
chord

Eleventh
chord

Thirteenth
chord

Gambar 3 Lima kelas chord berdasarkan jumlah nada penyusun (Benward
dan Saker 2003)

Sinyal
Sinyal merupakan suatu besaran fisik yang berubah terhadap variabel aktu,
ruang, atau variabel independen lainnya, sedangkan sinyal suara yang dihasilkan
manusia adalah getaran yang dihasilkan dengan memaksa udara melewati pita suara
(Proakis dan Manolakis 2007). Sinyal yang dihasilkan suara manusia ataupun hasil
getaran objek lain seperti instrumen musik merupakan suatu sinyal waktu kontinu
atau sinyal analog. Komputer tidak bisa mengolah sinyal dalam bentuk analog,
sehingga harus dilakukan proses digitalisasi sinyal analog (analog to digital
conversion). Gambar 4 merupakan ilustrasi analog to digital converter.
A/D converter

Sampler

Analog
signal

Quantizer

Discrete-time
signal

Coder

Quantized
signal

Digital
signal

Gambar 4 Proses digitalisasi sinyal analog (Proakis dan Manolakis 2007)
Menurut Proakis dan Manolakis (2007) proses digitalisasi dapat dibagi
menjadi tiga rangkaian proses:
 Sampling, merupakan konversi dari bentuk sinyal dengan waktu kontinyu x(t)
menjadi sinyal diskret x(nT), dimana n merepresentasikan index sampel dan T

5
merepresentasikan periode sampling. Ilustrasi proses sampling dapat dilihat
pada Gambar 5. Jumlah titik sampel ditentukan berdasarkan nilai frekuensi (f)
dan periode sampling merupakan nilai 1/f untuk setiap detik suara yang diambil.
x(t)

x(nT)

t

t

Sampler

Gambar 5 Konversi bentuk sinyal analog menjadi sinyal diskret dalam proses
sampling
 Quantization, merupakan proses konversi nilai amplitudo yang bersifat kontinyu
menjadi beberapa level kuantisasi. Masukan dari proses kuantisasi adalah sinyal
diskret x(nT) hasil sampling dan menghasilkan keluaran berupa level kuantisasi
y(nT) dari setiap sampel. Ilustrasi pembagian level kuantisasi pada A/D
converter terdapat pada Gambar 6.
 Coding, pemberian bilangan biner pada setiap level kuantisasi dan merupakan
hasil akhir dari proses anolog to digital converter. Implementasi bilangan biner
hasil dari coding dapat dilihat pada Gambar 6.
Output

Input

Gambar 6 Pemberian level pada amplitudo (y) dalam proses quantization dan
coding pada setiap level kuantisasi.

METODE
Kerangka Penelitian
Secara umum tahapan pengembangan dari sistem pengenalan chord dengan
tiga nada penyusun menggunakan LVQ terdiri dari empat kegiatan utama, yaitu
akuisisi data, praproses, pemodelan sistem, dan evaluasi. Alur metode penelitian
dapat dilihat pada Gambar 7.

6

LVQ training

Gambar 7 Tahapan pengembangan sistem pengenalan chord pada piano
Lingkungan Pengembangan
Pada penelitian ini digunakan beberapa perangkat keras dan perangkat lunak
dengan spesifikasi sebagai berikut:
Perangkat keras:
• Komputer personal ASUS N46V, Prosesor Intel Core i7
• Instrumen musik Yamaha Electone EL-100
Perangkat lunak:
• Sistem operasi Windows 7 Home Premium
• Matlab 2008, sebagai text editor dan compiler
• Microsoft Excel 2013, sebagai media pengolah data

7
Data Penelitian
Data yang digunakan adalah suara dari 24 chord triad yang berada pada kelas
major triad dan minor triad. Suara yang dikenali sistem adalah suara chord yang
dimainkan dengan cara ditekan secara bersamaan kemudian ditahan selama
hitungan waktu tertentu. Daftar 24 chord yang akan dijadikan sampel akan
dipaparkan pada Tabel 1.
Tabel 1 Daftar chord triad yang digunakan sebagai data penelitian
Major triad

Minor triad

C

Cm

C#

C#m

D

Dm

D#

D#m

E

Em

F

Fm

F#

F#m

G

Gm

G#

G#m

A

Am

b

B

Bbm

B

Bm

Chord dimainkan menggunakan alat musik Electone tipe EL-100 dan
direkam langsung menggunakan Matlab pada laptop selama 3 detik dengan
sampling rate sebesar 11000 Hz. Setiap chord akan dimainkan dengan pengulangan
sebanyak 20 kali, dengan pembagian 15 suara sebagai data latih dan 5 suara sebagai
data uji. Jumlah total data yang akan diperoleh adalah sebanyak 480 sampel suara,
dengan 360 sampel digunakan sebagai data latih, dan 120 sampel sebagai data uji.

Praproses Data
Praproses data terdiri dari tiga tahap kegiatan, yaitu normalisasi, silent
removal, dan ekstraksi ciri MFCC. Normalisasi adalah mengubah jarak maksimum
amplitudo seluruh sinyal menjadi satu standar yang sama, sedangkan silent removal
adalah menghilangkan bagian tanpa suara yang terdapat pada suatu sinyal.
Ekstraksi ciri merupakan proses untuk menentukan satu nilai atau vektor yang
dapat digunakan sebagai penciri objek. Dalam pemrosesan suara, ciri yang biasa
digunakan adalah nilai koefisien cepstral dari sebuah sinyal. MFCC banyak
digunakan dalam berbagai bidang pemrosesan suara terutama sistem speaker
identification. MFCC dalam music identification telah dilakukan oleh Logan (2000).
Pada penelitiannya Logan menyatakan bahwa pemodelan suara yang dihasilkan
melalui ekstraksi ciri berbasis skala mel jauh lebih baik dibanding ekstraksi ciri
berbasis linear. Terdapat lima proses utama dalam ekstraksi ciri MFCC yaitu frame

8
blocking, wondowing, fast fourier transform, mel frequency wrapping, dan
cepstrum coefficient (Gan dan Kuo 2005).
1 Frame blocking
Sinyal analog yang sudah didigitalisasi akan dibaca frame demi frame
dengan lebar tertentu. Setiap frame memiliki N sample yang direpresentasikan
dalam bentuk vektor. Tidak menutup kemungkinan terjadi overlapping antar
frame. Overlap dilakukan untuk mengurangi diskontinuitas antar frame tetangga.
Proses overlapping dipengaruhi oleh performa komputer, semakin besar nilai
overlap akan membutuhkan performa yang lebih besar. Jika komputer memiliki
performa rendah nilai overlap bisa dikurangi atau bahkan bernilai negatif.
2 Windowing
Windowing bertujuan untuk mengurangi terjadinya aliasing yang
merupakan suatu efek dari timbulnya sinyal baru yang memiliki frekuensi
berbeda dengan sinyal aslinya. Efek tersebut dapat terjadi karena rendahnya
jumlah sampling rate atau karena proses frame blocking yang menyebabkan
sinyal menjadi diskontinu.
Windowing dilakukan dengan mengalikan tiap frame dengan fungsi
window. Ilustrasi proses windowing dapat dilihat pada Gambar 8. Jika kita
mendefinisikan fungsi window sebagai w(n), dan x(n) sebagai sinyal digital pada
frame ke-n, maka hasil dari windowing diformulasikan sebagai berikut:
y n = x n ∙ w(n

(1)

dengan:
y = vektor hasil windowing
x = vektor sinyal pada satu frame
w = fungsi window Hamming
n = indeks sampel pada satu frame
Pada umumnya window yang digunakan adalah Hamming window. Nilai
Hamming window dapat diperoleh menggunakan formula berikut:
w n = 0.54 - 0.46 cos 2π

n
N-1

(2)

dengan: N = jumlah sampel pada satu frame

Gambar 8 Hasil sinyal window yang diperoleh dengan mengalikan sinyal pada
frame dengan fungsi Hamming window
3 Fast Fourier transform (FFT)
FFT adalah algoritme cepat untuk mengimplementasikan discrete Fourier
transform (DFT). FFT akan mengubah masing-masing frame N sampel dari
domain waktu menjadi domain frekuensi yang didefinisikan sebagai berikut
(Gan dan Kuo 2005):

9
N

X(k) = ∑ y(n) exp (

-2πjkn
)
N

(3)

n=0

dengan:
X =
k =
y =
j =
N =

vektor hasil transformasi Fourier
indeks hasil transformasi Fourier pada satu frame
vektor hasil windowing
bilangan imajiner
jumlah sampel pada satu frame

Ada kalanya array dalam domain frekuensi direpresentasikan dalam
koordinat polar Re X[k] dan Im X[k], yang merupakan pasangan bilangan real
dan imajiner. Dalam koordinat polar, domain frekuensi dapat ditulis dalam
bentuk:
1/2
(4)
|X[k]|=(Re X[k]2 +Im X[k]2 )
dengan: |X[k]| = Magnitude vektor transformasi Fourier

4 Mel frequency wrapping
Dalam proses wrapping diperlukan beberapa filter yang saling overlap
dalam domain frekuensi. Skala mel dibentuk untuk mengikuti persepsi sistem
pendengaran manusia, yaitu frekuensi rendah yang bersifat linear di bawah 1000
Hz dan frekuensi tinggi yang bersifat logaritmik di atas 1000 Hz. Ilustrasi skala
mel dalam filter segitiga dapat dilihat pada Gambar 9.

Gambar 9 Skala mel digambarkan dengan 20 filter segitiga sama tinggi yang
terdiri dari 10 linear dan 10 algoritmik
Dengan Hi(k) adalah nilai filter segitiga ke-i, dapat dihitung spektrum mel
menggunakan formula berikut:
N-1

s(i)= log10 ∑|X k |Hi k

, i=1, 2, 3, …, M

k=0

dengan:
s =
i =
M =
H =
X =
k =

vektor spektrum mel
indeks filter
jumlah filter
nilai filter segitiga
vektor hasil transformasi Fourier
indeks hasil transformasi Fourier pada satu frame

(5)

10
5 Cepstrum coefficient
Koefisien cepstral merupakan hasil transformasi cosinus dari spektrum
mel yang kemudian dipilih sebanyak k koefisien. Transformasi cosinus berfungsi
untuk mengembalikan domain, dari domain frekuensi menjadi domain waktu.
Berikut adalah formula discrete cosine transform (Gan dan Kuo 2005):
M

Cj = ∑ s(i) cos j
i=1

dengan:
C =
j =
s =
M =

i-1 π
2 M

(6)

vektor koefisien cepstral
indeks koefisien cepstral
vektor spektrum mel
jumlah filter

Pemodelan LVQ
Learning vector quantization (LVQ) adalah salah satu metode pengenalan
pola (klasifikasi) yang masing-masing unit output mewakili kategori atau kelas
tertentu. LVQ termasuk salah satu jenis jaringan syaraf tiruan (JST). Vektor bobot
yang merepresentasikan setiap kelas seringkali disebut vector reference atau
codebook. Berikut adalah algoritme LVQ menurut Fausett (1994):
1 Tentukan vektor referensi dan learning rate, α(0)
2 Selama kondisi berhenti belum terpenuhi, lakukan langkah 3-6
3 Untuk semua vektor masukan X, lakukan langkah 4-5
4 Temukan J sehingga || X – Wj || bernilai minimum
5 Update nilai Wj sesuai ketentuan pada dua persamaan berikut:
Wj baru = Wj lama + α [X - Wj lama ]; jika T = Cj
Wj baru = Wj lama - α [X - Wj lama ]; jika T ≠ Cj
6 Kurangi learning rate dengan besaran Dec α
α = α * Dec α
7 Cek kondisi berhenti yitu ketika jumlah iterasi mencapai nilai yang ditentukan
dengan:
X
= vektor uji atau vektor masukan (X1, X2, ..., Xi, ..., Xn)
T
= kategori atau kelas yang benar untuk vektor masukan
Wj
= vektor bobot untuk unit kerja j (W1j, W2j, ..., Wij, ..., Wnj)
Cj
= kategori atau kelas direpresentasikan oleh unit keluaran ke j
|| Xi Wj || = jarak euclidean antara vektor masukan dan unit keluaran ke j
Pada tahap ini JST (LVQ) digunakan untuk proses pelatihan dan pengujian.
Beberapa parameter yang akan dibutuhkan dalam algoritma LVQ diantaranya
adalah, α yaitu learning rate, Dec α yaitu penurunan learning rate, dan epoch atau
iterasi maksimum yang boleh dilakukan selama pelatihan. Sebelum tahap pelatihan
dimulai, bobot (w) harus diinisiasi terlebih dahulu sebagai bobot awal. Vektor yang
akan dilatih adalah vektor koefisien cepstral dari data latih. Proses pelatihan data
menggunakan LVQ diilustrasikan pada Gambar 10. Bagan pelatihan LVQ diadopsi
dari penelitian Hidayati dan Warsito (2010).

11

Gambar 10 Alur proses pembelajaran metode LVQ
Setelah dilakukan pelatihan, akan diperoleh bobot akhir (W) atau dikenal
sebagai model LVQ. Dalam percobaan akan dihasilkan empat belas model LVQ
dengan inisiasi bobot awal yang berbeda. Empat belas model ini selanjutnya akan
digunakan untuk melakukan simulasi pengujian. Gambar 11 akan mengilustrasikan
proses pengujian LVQ menggunakan data uji dan model yang sudah diperoleh.

12

Gambar 11 Alur proses pengujian metode LVQ (Hidayati dan Warsito 2010)
Pengujian LVQ dimulai dengan memasukkan data uji dan bobot akhir
kemudian menghitung jarak antara keduanya. Perhitungan jarak dilakukan
menggunakan formula euclidean distance. Setelah diperoleh jarak untuk setiap
bobot, pilih neuron dengan nilai jarak paling kecil. Neuron dengan jarak terkecil
mengindikasikan kelas hasil klasifikasi LVQ.
.
Evaluasi
Evaluasi merupakan tahap terakhir untuk menentukan tingkat akurasi proses
klasifikasi. Perhitungan dilakukan dengan membandingkan banyaknya chord yang
diklasifikasikan benar dengan jumlah seluruh chord yang diujikan.
akurasi =

∑ chord benar
× 100%
∑ chord yang diuji

(7)

HASIL DAN PEMBAHASAN
Pengumpulan Data
Data yang dikumpulkan berjumlah 480 data suara yang terdiri dari 24 chord
triad. Suara direkam langsung menggunakan matlab selama 3 detik dengan
sampling rate sebesar 11.000 Hz. Suara yang direkam akan disimpan dalam extensi
*.wav. Gambar 12 menunjukkan bentuk sinyal dari dua chord yang telah direkam.

Gambar 12 Ilustrasi bentuk sinyal chord A (kiri) dan G (kanan) hasil pengambilan
data melalui rekaman

13
Praproses
Setelah data sinyal diperoleh dilakukan proses normalisasi sinyal. Standar
jarak amplitudo yang digunakan dalam penelitian ini adalah 1.0 dan -1.0. Setelah
dinormalisasi sinyal akan melalui tahap silent removal. Silent removal dilakukan
menggunakan algoritma pitch tracking dan deteksi unvoice dari penelitian yang
dilakukan oleh Wasserblat et al. (2008). Gambar 13 akan menunjukkan sinyal yang
sudah dinormalisasi dan Gambar 14 menunjukkan bentuk sinyal yang sudah
menjalani silent removal.

Gambar 13 Chord A (kiri) dan G (kanan) dinormalisasi

Gambar 14 Chord A (kiri) dan G (kanan) setelah melalui proses silent removal
Tahap praproses berikutnya adalah melakukan ekstraksi ciri MFCC terhadap
data yang sudah dinormalisasi. MFCC dilakukan dengan menggunakan sampling
rate 11000 Hz, frame rate 25 ms, window size 256, dan menghasilkan 13 koefisien
cepstral dalam bentuk vektor. Gambar 15 menunjukkan fungsi yang digunakan
pada MFCC.
chord_mfcc{n} = mean (mfcc
(speech,fs,Tw,Ts,alpha,window,R,M,N,L)’);
%
%
%
%
%
%
%

Speech = input;
Fs = 11000;
Tw = 25;
Ts = 10;
alpha = 0.95;
window = 256
R = [ 300 3700 ];

%
%
%

M = 20;
C = 13;
L = 22;

%
%
%
%
%

analysis frame duration (ms)
analysis frame shift (ms)
preemphasis coefficient
analysis window function handle
frequency range for filterbank
analysis
% number of filterbank channels
% number of cepstral coefficients
% cepstral sine lifter parameter

Gambar 15 Kode fungsi beserta nilai parameter yang digunakan dalam MFCC

14
Pelatihan
Pelatihan dilakukan pada 360 data latih yang sudah melalui tahap ekstraksi
ciri MFCC. Pertama akan dilakukan inisiasi kelas data training serta bobot awal.
Kelas inisiasi terdiri dari 24 kelas yang merepresentasikan 24 chord triad yaitu C,
C#, Cm, C#m, D, D#, Dm, D#m, E, Em, F, F#, Fm, F#m, G, G#, Gm, G#m, A, A#,
Am, A#m, B, dan Bm.
Terdapat empat parameter utama yang mempengaruhi hasil pelatihan LVQ
yaitu learning rate (α), bobot awal (W0), faktor penurunan learning rate, dan jumlah
maksimal iterasi (epoch). Bobot awal (W0) dan learning rate (α) akan menjadi
variabel bebas dalam percobaan pemodelan LVQ sedangkan nilai faktor penurunan
learning rate adalah 0.5 dan nilai epoch sebesar 30.
Bobot awal LVQ menggunakan 14 variasi vektor, yaitu 13 vektor yang
diambil dari masing-masing kolom kelas inisiasi (C1, C2, C3, C4, C5, C6, C7, C8,
C9, C10, C11, C12, C13) dan 1 vektor yang diperoleh dari hasil rata-rata seluruh
kolom kelas inisiasi (C0). Gambar 16 menunjukkan penulisan kode program yang
berbeda untuk setiap variasi bobot awal.
rata-rata sebagai bobot awal

c = 1
% c = kolom
menjadi bobot (1:13)

w{1}(:,1)=mean(class{1})';
w{1}(:,2)=mean(class{2})';
w{1}(:,3)=mean(class{3})';

w{1}(:,1)=class{1}(c,:)';
w{1}(:,2)=class{2}(c,:)';
w{1}(:,3)=class{3}(c,:)';
...

...
w{1}(:,22)=mean(class{22})';
w{1}(:,23)=mean(class{23})';
w{1}(:,24)=mean(class{24})';

yang

w{1}(:,22)=class{22}(c,:)';
w{1}(:,23)=class{23}(c,:)';
w{1}(:,24)=class{24}(c,:)';

Gambar 16 Penulisan kode program yang berbeda antara bobot C0 (kiri) dengan
bobot C1 sampai C13 (kanan)
Learning rate bernilai lebih besar dari 0 dan lebih kecil dari 1. Untuk setiap
variasi bobot awal, learning rate akan dimulai dari 0.001 dan seterusnya ditambah
sebesar 0.001 hingga mencapai nilai 0.999 sehingga terdapat 999 variasi nilai pada
learning rate. Implementasi dari iterasi penambahan learning rate dapat dilihat
pada Gambar 17.
alfa = 0.001;
epoch = 30;
lvq_model = [];
while alfa < 1;
lvq_model = lvq(alfa, epoch);
alfa = alfa + 0.001;
i = i + 1;
end

Gambar 17 Iterasi yang dilakukan sistem untuk memperbarui nilai learning rate

15
Bobot awal akan diperbarui secara bertahap sesuai dengan besarnya epoch
yang sudah ditentukan. Setelah mencapai iterasi maksimal bobot yang paling
terakhir diperbarui menjadi bobot akhir. Bobot akhir dari proses pelatihan
LVQakan menjadi model untuk proses klasifikasi pada pengujian. Pada akhir
proses pelatihan akan terbentuk empat belas model LVQ (lvq0, lvq1, lvq2, lvq3,
lvq4, lvq5, lvq6, lvq7, lvq8, lvq9, lvq10, lvq11, lvq12, lvq13) yang masing-masing
menggunakan bobot awal yang berbeda.

Pengujian
Pengujian dilakukan dengan membandingkan selisih jarak antara koefisien
data uji dengan model LVQ yang sudah diperoleh. Pada Gambar 18 dapat dilihat
bahwa perhitungan jarak Euclidean digunakan untuk menghitung selisih vektor
model LVQ dengan vektor koefisien input. Dengan membandingkan selisih jarak
antara data uji dan 24 kelas output akan diperoleh hasil klasifikasi data input.
for i=1:24;
temp_class=model_lvq{k}(:,i)';
jarak (n,i)=sqrt(sum(((temp_class)-(input {1,n})).^2));
end

Gambar 18 Perhitungan jarak Euclidean yang digunakan dalam proses pengujian
Gambar 19 menunjukkan akurasi tertinggi yang diperoleh dari empat belas
model LVQ dengan masing-masing inisiasi bobot awal yang berbeda. Akurasi
tertinggi dilihat dari persentase jumlah data benar terbanyak dalam satu model LVQ
pada satu nilai learning rate (α).
100

95.83

91.67 90.83 90.00 94.17 93.33 90.83 89.17 89.17 95.00 91.67
80.83 85.00 83.33

lvq0

lvq1

Akurasi (%)

80
60
40
20
0
lvq2

lvq3

lvq4

lvq5

lvq6

lvq7

lvq8

lvq9 lvq10 lvq11 lvq12 lvq13

Model LVQ

Gambar 19 Tingkat akurasi hasil klasifikasi data menggunakan empat belas
model LVQ
Empat belas model LVQ pada Gambar 19 hanya menunjukkan akurasi yang
bernilai maksimal pada satu nilai learning rate, sedangkan terdapat 999 nilai
learning rate yang diujikan, yaitu antara 0.001 sampai 0.999. Untuk nilai alfa yang
berbeda, akurasi tertinggi yang dicapai bisa berasal dari model yang berbeda pula.
Gambar 20 memperlihatkan tingkat akurasi empat belas model LVQ terhadap 999
nilai learning rate.
Hasil percobaan menunjukkan bahwa akurasi tertinggi, yaitu puncak paling
tinggi pada grafik, diperoleh dari model lvq0 dengan nilai 95.833%. Tingkat akurasi
tersebut diperoleh secara stabil ketika learning rate (α) bernilai antara 0.036 sampai
0.076. Sedangkan akurasi paling rendah diperoleh dari model lvq1 ketika learning
rate bernilai 0.993 yaitu sebesar 0.833%.

100
90
80
70
60
50
40
30
20
10
0
0.001
0.029
0.057
0.085
0.113
0.141
0.169
0.197
0.225
0.253
0.281
0.309
0.337
0.365
0.393
0.421
0.449
0.477
0.505
0.533
0.561
0.589
0.617
0.645
0.673
0.701
0.729
0.757
0.785
0.813
0.841
0.869
0.897
0.925
0.953
0.981

Akurasi (%)

16

Learning rate (α)
lvq0
lvq7

lvq1
lvq8

lvq2
lvq9

lvq3
lvq10

lvq4
lvq11

lvq5
lvq12

lvq6
lvq13

Gambar 20 Tingkat akurasi 14 model LVQ berdasarkan nilai learning rate (α)
Berikutnya dilakukan cross validation terhadap model lvq0 menggunakan
variasi data latih dan data uji yang berbeda. Cross validation dilakukan untuk
membandingkan tingkat akurasi suatu model ketika mengganti variasi data latih dan
data uji yang sebelumnya digunakan. Tabel 2 menunjukkan pola data yang
digunakan dalam cross validation sedangkan Gambar 21 merupakan ilustrasi hasil
cross validation model lvq0.
Tabel 2 Pembagian data latih dan data uji untuk proses cross validation dibagi
menjadi empat variasi data
Pembagian data
cross validation
Fold-1
Fold-2
Fold-3
Fold-4

1-5
Latih
Uji
Latih
Latih

Indeks data suara untuk setiap chord
6 - 10
11 - 15
Latih
Latih
Latih
Latih
Uji
Latih
Latih
Uji

16 – 20
Uji
Latih
Latih
Latih

100
90
80
70
60
50
40
30
20
10
0
0.001
0.027
0.053
0.079
0.105
0.131
0.157
0.183
0.209
0.235
0.261
0.287
0.313
0.339
0.365
0.391
0.417
0.443
0.469
0.495
0.521
0.547
0.573
0.599
0.625
0.651
0.677
0.703
0.729
0.755
0.781
0.807
0.833
0.859
0.885
0.911
0.937
0.963
0.989

Akurasi (%)

Data uji terdiri dari 120 data yang terbagi menjadi 24 kelas, sehingga terdapat
5 data uji pada masing-masing kelas dari keseluruhan 20 data. Pola awal yang
digunakan pada semua model adalah Fold-1, yaitu menggunakan data 16 sampai
20 sebagai data uji. Terhadap model lvq0 dilakukan tiga kali cross validation
menggunakan pola Fold-2, Fold-3 dan Fold-4.

Learning rate (α)
fold1

fold2

fold3

fold4

Gambar 21 Akurasi yang dihasilkan model lvq0 setelah dilakukan cross validation

17
Hasil cross validation menunjukkan bahwa tiga pola pembagian data tersebut
menghasilkan akurasi yang lebih tinggi daripada Fold-1. Fold-2 menghasilkan
akurasi tertinggi sebesar 97.500%, Fold-3 sebesar 99.167% dan Fold-4 sebesar
99.167%. Melalui percobaan tersebut dapat dikatakan bahwa komposisi data latih
pada Fold-2, Fold-3 dan Fold-4 lebih mewakili seluruh data dibandingkan Fold-1.

Evaluasi
Berdasarkan hasil pengujian diperoleh akurasi tertinggi sebesar 95.833% dari
model lvq0 dengan bobot awal C0 (rata-rata dari seluruh kolom kelas) dan learning
rate bernilai antara 0.036 sampai 0.076. Akurasi paling rendah adalah 0.833% dari
model lvq1 dengan bobot awal C1 (kolom pertama kelas) dan learning rate 0.993.
Tabel 3 menunjukkan hasil pengujian model lvq0 yang diilustrasikan menggunakan
confusion matrix pada learning rate 0.005 yang masih berada pada jarak 0.036 dan
0.076.

Bm

Bm

B

B

A#m

A#m

Am

Am

A#

A#

A

A

G#m

G#m

Gm

Gm

G#

G#

G

G

F#m

F#m

Fm

Fm

F#

F#

F

F

Em

Em

E

E

D#m

D#m

Dm

Dm

D#

D#

D

D

C#m

C#m

Cm

Cm

C#

C#

C

C

Tabel 3 Confusion matrix model lvq0 pada learning rate 0.005 dengan akurasi
95.833%

5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
4
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
3
0
0
5
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
5
1
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
4
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0

0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5

18
Confusion matrix menunjukkan bahwa dari 120 data uji yang ada, 115 data
terklasifikasi secara benar dan 5 data lainnya terklasifikasi salah. Kesalahan
klasifikasi terjadi pada tiga chord yaitu 1 chord Dm terklasifikasi menjadi G#m, 3
chord Em terklasifikasi menjadi Fm, dan 1 chord G terklasifikasi menjadi F#m.
Confusion matrix pada nilai learning rate yang berbeda menunjukkan hal serupa,
yaitu kesalahan klasifikasi terbanyak terdapat pada chord Em. Confusion matrix
untuk model lvq1 sampai lvq13 dapat dilihat pada Lampiran 1 sampai Lampiran
13.

KESIMPULAN DAN SARAN
Kesimpulan
Penelitian ini telah berhasil mengenali suara chord triad dengan menerapkan
metode klasifikasi JST LVQ. Berdasarkan hasil pengujian tingkat akurasi tertinggi
adalah 95.833% diperoleh dari model lvq0 dengan bobot awal C0, learning rate
antara 0.036 sampai 0.076, penurunan learning rate sebesar 0.5, serta epoch sebesar
30.
Semua model LVQ memiliki beberapa kesamaan. Pertama, kesalahan
klasifikasi selalu terjadi pada chord Em dalam jumlah yang cukup banyak. Hal ini
dapat disebabkan oleh pola sinyal chord Em yang mirip dengan chord lain sehingga
LVQ mendekatkannya pada vektor bobot kelas lain. Selain chord Em, chord yang
memiliki akurasi rendah secara stabil pada beberapa model LVQ adalah Dm dan
Fm. Persamaan lain yang dimiliki semua model LVQ adalah, akurasi tertinggi dari
setiap model dicapai pada learning rate tertentu yang lebih kecil dari 0.100. Akurasi
mulai mengalami penurunan secara signifikan ketika alfa mendekati nilai 1.0.

Saran
Saran untuk pengembangan berikutnya yaitu:
1 Membuat implementasi dari model LVQ yang sudah diperoleh
2 Menganalisis penyebab rendahnya akurasi pada chord Em dan beberapa chord
dengan akurasi rendah lainnya.

DAFTAR PUSTAKA
Benward B, Saker M. 2003. Music: In Theory and Practice, Volume ke-1. Ed ke8. New York (US): McGraw-Hill.
Ehrlich C. 1990. The Piano: A History. Oxford (GB): Clarendon Press.
Fausett L. 1994. Fundamentals of Neural Network: Architectures, Algorithms, and
Applications. New Jersey (US): Prentice-Hall.

19
Fruandta A. 2011. Identifikasi campuran nada pada suara piano menggunakan
codebook [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Gan WS, Kuo SM. 2005. Digital Signal Processing: Architectures,
Implementations, and Applications. New Jersey (US): Prentice-Hall.
Hidayati N, Warsito B. 2010. Prediksi terjangkitnya penyakit jantung dengan
metode learning vector quantization. Media Statistika. 3(1):21-30.
Logan B. 2000. Mel frequency cepstral coefficient for music modeling. Di
dalam: International Symposium on Music Information Retrieval; 2000 Okt
23-25; Massachusetts, USA. Cambridge (GB): Cambridge Research
Laboratory. hlm 1-11.
Proakis JG, Manolakis DG. 1996. Digital Signal Processing: Principles,
Algorithms, and Applications. Ed ke-3. New Jersey (US): Prentice-Hall.
Wasserblat M, Gainza M, Dorran D, Domb Y. 2008. Pitch tracking and
voiced/unvoiced detection in noisy environment using optimal sequence
estimation. IET Irish Signals and Systems Conference; 2008; Galway, Ireland.
Galway (IE): Dublin Institute of Technology. hlm 43-48.
Wisnudisastra E, Buono A. 2009. Pengenalan chord pada alat musik gitar
menggunakan codebook dengan teknik ekstraksi ciri MFCC. JIIK. 14(1):1621.

20

Bm

Bm

B

B

A#m

A#m

Am

Am

A#

A#

A

A

G#m

G#m

Gm

Gm

G#

G#

G

G

F#m

F#m

Fm

Fm

F#

F#

F

F

Em

Em

E

E

D#m

D#m

Dm

Dm

D#

D#

D

D

C#m

C#m

Cm

Cm

C#

C#

C

C

Lampiran 1 Confusion matrix model lvq1 dengan perolehan akurasi terbaik
80.833% pada learning rate 0.001

5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
2
0
0
2
0
0
0
0
0
0
0
0
0
0
0

0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
3
0
2
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
4
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
2
0
3
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
5
0
3
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
5
1
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
4
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
4
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
4
1
0
0
0
5

21

Bm

Bm

B

B

A#m

A#m

Am

Am

A#

A#

A

A

G#m

G#m

Gm

Gm

G#

G#

G

G

F#m

F#m

Fm

Fm

F#

F#

F

F

Em

Em

E

E

D#m

D#m

Dm

Dm

D#

D#

D

D

C#m

C#m

Cm

Cm

C#

C#

C

C

Lampiran 2 Confusion matrix model lvq2 dengan perolehan akurasi terbaik
85.00% pada learning rate 0.004

2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
5
0
0
0
0
0
0
0
2
0
0
2
0
0
0
0
0
0
0
0
0
0
0

2
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
5
0
0
2
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
5
0
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
5
0
3
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
5
1
0
0
0
0
0
0
0
0
0

1
0
0
0
0
0
0
0
0
0
0
0
0
0
4
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0

0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
1

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
4

22

Bm

Bm

B

B

A#m

A#m

Am

Am

A#

A#

A

A

G#m

G#m

Gm

Gm

G#

G#

G

G

F#m

F#m

Fm

Fm

F#

F#

F

F

Em

Em

E

E

D#m

D#m

Dm

Dm

D#

D#

D

D

C#m

C#m

Cm

Cm

C#

C#

C

C

Lampiran 3 Confusion matrix model lvq3 dengan perolehan akurasi terbaik
83.333% pada learning rate 0.001

5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
5
0
1
0
0
0
0
0
3
0
0
1
0
0
0
0
0
0
0
0
0
0
0

0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
2
0
0
4
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
5
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0

0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
5
0
4
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
4
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0

0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
3

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2

23

Bm

Bm

B

B

A#m

A#m

Am

Am

A#

A#

A

A

G#m

G#m

Gm

Gm

G#

G#

G

G

F#m

F#m

Fm

Fm

F#

F#

F

F

Em

Em

E

E

D#m

D#m

Dm

Dm

D#

D#

D

D

C#m

C#m

Cm

Cm

C#

C#

C

C

Lampiran 4 Confusion matrix model lvq4 dengan perolehan akurasi terbaik
91.667% pada learning rate 0.005

2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
4
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
5
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
1
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

3
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
4
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
1
0
0
0
5
1
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
4
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0

0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
1

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
4

24

Bm

Bm

B

B

A#m

A#m

Am

Am

A#

A#

A

A

G#m

G#m

Gm

Gm

G#

G#

G

G

F#m

F#m

Fm

Fm

F#

F#

F

F

Em

Em

E

E

D#m

D#m

Dm

Dm

D#

D#

D

D

C#m

C#m

Cm

Cm

C#

C#

C

C

Lampiran 5 Confusion matrix model lvq5 dengan perolehan akurasi terbaik
90.833% pada learning rate 0.010

5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
4
0
0
0
0
0
0
0
3
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
1
0
5
0
0
1
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
4
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
4
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
5
1
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
4
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0

0
0
0
0
1
0
3
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5

25

Bm