Arsitektur Sistem Confusion Matrix

4.3.2 Akurasi Model VFI

Akurasi maksimum atau tingkat pengenalan sistem dalam memprediksi genre musik pada model VFI yang telah dibuat oleh peneliti adalah sebesar 85 . Hasil tersebut diperoleh menggunakan ciri MFCC dengan 7 koefisien pada berkas musik dengan waktu 30 detik. Sedangkan akurasi terendah adalah 45 diperoleh dengan menggunakan ciri MFCC dengan 7 koefisien pada berkas musik dengan waktu 1 detik. Pada Gambar 20 dapat dilihat perbandingan akurasi dari seluruh hasil penelitian yang telah dilakukan oleh peneliti. Terlihat pada gambar bahwa penggunaan waktu berkas musik yang semakin besar menghasilkan akurasi yang semakin baik. Gambar 20. Perbandingan akurasi VFI dari penelitian yang telah dilakukan Tabel 7 memperlihatkan rincian voting dari percobaan dengan model VFI yang memiliki akurasi maksimum yang dilakukan oleh peneliti. Terlihat pada tabel bahwa sistem salah memprediksi 3 berkas musik yang genre sebenarnya adalah disko dan memprediksinya sebagai genre metal. Pada ketiga prediksi yang salah, voting pada kelas genre sebenarnya memiliki voting kedua tertinggi. 45 70 75 85 50 65 70 75 45 60 70 80 35 45 55 65 75 85 95 1 5 10 30 A k u r as i Waktu berkas musik detik 7 MFCC 13 MFCC 20 MFCC Tabel 7. Rincian voting sistem dengan menggunakan ciri MFCC 7 koefisien dan 30 detik berkas musik NO. LAGU KLASIK DISKO METAL REGGAE SEB PRED 1 K11 0,3895692 0,2013605 0,2521542 0,1569161 K K 2 K12 0,5021164 0,252381 0,1259259 0,1195767 K K 3 K13 0,4108466 0,2556878 0,162963 0,1705026 K K 4 K14 0,4203704 0,1939211 0,1141707 0,2715378 K K 5 K15 0,496164 0,1203373 0,1270172 0,2564815 K K 6 D11 0,0460317 0,3754791 0,3250869 0,2534023 D D 7 D12 0,1038549 0,2717169 0,3713867 0,2530415 D M 8 D13 0,0664399 0,3771024 0,293779 0,2626787 D D 9 D14 0,095262 0,2752257 0,4190773 0,210435 D M 10 D15 0,1276644 0,2963201 0,3745613 0,2014542 D M 11 M11 0,2824263 0,2292234 0,4113662 0,0769841 M M 12 M12 0,284127 0,1825397 0,4920635 0,0412698 M M 13 M13 0,0537037 0,2329365 0,5507937 0,1625661 M M 14 M14 0,0426304 0,0947846 0,6716553 0,1909297 M M 15 M15 0,0537037 0,0953704 0,4740741 0,3768519 M M 16 R11 0,2415205 0,1405836 0,2830648 0,3348311 R R 17 R12 0,1276644 0,1987528 0,2961451 0,3774376 R R 18 R13 0,1480726 0,2314059 0,1818594 0,4386621 R R 19 R14 0,0712018 0,251819 0,1341418 0,5428374 R R 20 R15 0,1190715 0,2418357 0,1809254 0,4581674 R R

4.4 Implementasi Metode JST

Setelah proses ekstraksi ciri dan diperlakukan normalisasi vektor ciri, maka proses pembelajaran pada model JST dapat dilakukan. Sama seperti pada metode VFI, proses pembelajaran dilakukan menggunakan data training sebanyak 60 berkas musik yang terdiri dari 15 berkas musik pada setiap genre. Sedangkan untuk pengujian, digunakan 5 berkas musik untuk setiap genre.

4.4.1 Desain Arsitektur Model JST

Untuk melakukan prediksi genre musik yang memerlukan data atau pola input yang relatif besar, jaringan dengan banyak lapisan multilayer net dengan algoritma backpropagation dan metode pembelajaran terawasi supervised learning merupakan pilihan yang baik. Pada jaringan model JST diberikan sepasang pola yang terdiri dari pola masukan dan pola yang diinginkan atau target. Dengan besarnya data yang akan digunakan dan relatif kompleksnya persoalan yang harus diselesaikan maka model JST yang akan dikembangkan adalah JST dengan arsitektur multilayer net yang terdiri dari 3 tiga layer lapisan yaitu :  Satu lapisan input yang terdiri dari beberapa neuron yang jumlahnya disesuaikan pola input.  Satu lapisan tersembunyi dengan beberapa neuron yang jumlahnya dilakukan dengan coba-coba trial and error, yang dipilih adalah yang menghasilkan konvergensi dengan jumlah iterasi epoch paling sedikit.  Satu lapisan outputkeluaran yang terdiri dari bebarapa neuron tergantung pola keluaran yang diinginkan.

4.4.2 Penentuan Pola Input dan Output

Pola input disesuaikan dengan banyaknya ciri yang digunakan. Pada penelitian ini digunakan 3 tiga variasi ciri yaitu MFCC koefisien ke-1 hingga ke-7, MFCC koefisien ke-1 hingga ke-13 dan MFCC koefisien ke-1 hingga ke-20. Sehingga masing-masing percobaan memiliki neuron input sebanyak 7,13 dan 20 neuron. Keluaran atau output yang diharapkan dari model atau jaringan adalah berupa prediksi genre musik. Pada penelitian ini digunakan Unary Encoding dengan kombinasi angka 1 dan 0 variabel bilangan biner. Sebagai contoh untuk data genre musik klasik adalah 1000, disko adalah 0100, metal adalah 0010 dan reggae adalah 0001. Arsitektur model JST yang dikembangkan dapat dilihat pada Gambar 21. Pada gambar, I 1 hingga I n merupakan neuron input yang jumlahnya sesuai dengan banyaknya koefisien MFCC yang digunakan, Z 1 hingga Z n merupakan neuron di hidden layer, sedangkan Y 1 hingga Y 4 merupakan neuron output yang jumlahnya sesuai dengan banyaknya kelas genre.

4.4.3. Algoritma Pembelajaran Jaringan

Algoritma pembelajaran yang diterapkan pada model prediksi JST adalah backpropagasi backpropagation dengan metode supervised learning pembelajaran terawasi, dimana ada nilai target yang akan dicapai oleh keluaran output jaringanmodel JST yang dikembangkan. Gambar 21. Arsitektur model JST yang telah dikembangkan

4.4.4. Hasil Pelatihan Model JST

Kinerja dari model JST dinyatakan dengan MSE mean square error. MSE dinyatakan dengan rumus : 2 1 1 2 1 1 k Q k k Q k k a t Q e Q MSE        27 dengan : Q = jumlah pola yang dihitung t k = vektor target a k = vektor keluaran jaringan e k = t k – a k Pelatihan backpropagation menggunakan metode pencarian titik minimum untuk mencari bobot dengan error minimum. Pada proses pencarian ini dikenal 2 macam mode yaitu metode incremental dan metode kelompok batch. Dalam metode incremental, bobot diubah setiap kali pola masukan diberikan ke jaringan. Sebaliknya, dalam mode kelompok, bobot diubah I 1 I 2 I 3 I n Z 1 Z 2 Z 3 Z n Y 1 Y 2 Y 3 Y 4 setelah semua pola masukan diberikan ke jaringan. Error yang terjadi dalam setiap pola masukan dijumlahkan untuk menghasilkan bobot baru. Metode yang paling sederhana untuk merubah bobot adalah metode penurunan gradien gradient descent. Bobot dan bias diubah pada arah dimana unjuk kerja fungsi menurun paling cepat, yaitu dalam arah negatif gradiennya. Untuk mencapai konvergensi yang lebih cepat model yang dikembangkan diatur pada learning rate, jumlah neuron pada lapisan tersembunyi hidden layer serta dengan mengubah fungsi pelatihan atau training functions. Pada penelitian ini banyaknya data pola data yang digunakan untuk training adalah 60 pola. Dengan mencoba berbagai jumlah neuron hidden layer dari 10 hingga 100 neuron, fungsi aktivasi tansig dan fungsi pelatihan trainlm, maka dipilih hasil akurasi yang tertinggi dari setiap percobaan. Pada nilai tersebut ketika pelatihan training dilakukan, proses iterasi yang terjadi pada model JST menghasilkan nilai MSE yang semakin baik atau terjadi konvergen menjadi lebih cepat. Nilai tersebut didapatkan dengan cara coba-coba trial and error. Tabel 8. Hasil akurasi percobaan model JST dengan beragam jumlah neuron hidden layer pada ciri 13 koefisien MFCC dan waktu berkas musik 10 detik No. Jumlah Neuron Hidden Layer Akurasi 1 10 85 2 20 75 3 30 95 4 40 75 5 50 85 6 60 80 7 70 80 8 80 70 9 90 70 10 100 70 Pada Tabel 8 memperlihatkan hasil akurasi percobaan model JST dengan beragam jumlah neuron hidden layer pada ciri 13 koefisien MFCC dan waktu berkas musik 10 detik. Terlihat bahwa akurasi yang tertinggi yaitu 95 didapat pada percobaan dengan jumlah neuron hidden layer sebanyak 30 neuron. Pada model JST, prediksi sistem didapatkan dengan melihat nilai yang terbesar dari keempat neuron layer output yang masing-masing neuron memberikan nilai prediksi kepada setiap kelas genre. Pada Tabel 9 memperlihatkan hasil prediksi dari percobaan model JST dengan jumlah neuron hidden layer sebesar 30 neuron, 13 koefisien MFCC dan 10 detik waktu berkas musik. Nilai prediksi sistem pada berkas musik yang salah diprediksi, memiliki nilai kedua terbesar pada genre sebenarnya. Tabel 9. Hasil prediksi percobaan model JST dengan 30 neuron hidden layer pada ciri 13 koefisien MFCC dan waktu berkas musik 10 detik NO. LAGU KLASIK DISKO METAL REGGAE SEB PRED 1 K11 0,9999312 0,0056437 0,0011468 0,0011953 K K 2 K12 0,9960457 0,0073991 0,0227637 0,0151162 K K 3 K13 0,7746381 0,049482 0,4609026 0,0014325 K K 4 K14 0,99741 0,0915585 0,0004104 0,0046159 K K 5 K15 0,9383156 0,0054218 0,0090847 0,0567543 K K 6 D11 0,0003719 0,9855018 0,025785 0,0417412 D D 7 D12 0,0002363 0,6794918 0,6187476 0,1085879 D D 8 D13 0,0294863 0,8893485 0,0386948 0,0111701 D D 9 D14 7,679E-05 0,7438239 0,2044273 0,4004555 D D 10 D15 0,0020639 0,6635944 0,5950788 0,0039463 D D 11 M11 0,0032837 0,0974499 0,988707 0,0337503 M M 12 M12 0,1862668 0,656192 0,9623735 0,0010125 M M 13 M13 0,0043123 0,009421 0,9968142 0,0078728 M M 14 M14 0,0303633 0,0005624 0,9996626 0,0045542 M M 15 M15 0,0141649 0,0002596 0,9996795 0,0131499 M M 16 R11 0,0011888 0,8139638 0,0005787 0,960649 R R 17 R12 0,0322781 0,003094 0,0095377 0,8539628 R R 18 R13 0,0771975 0,0015715 0,0016967 0,8253715 R R 19 R14 0,0600059 0,000501 0,0007807 0,9992335 R R 20 R15 0,0059396 0,6119903 0,140584 0,3591586 R D

4.4.5 Akurasi Model JST

Pada penelitian ini juga dilakukan perhitungan akurasi metode Jaringan Saraf Tiruan JST. Pada Gambar 3 dapat dilihat akurasi metode JST dalam mengklasifikasi genre musik. Gambar 22. Perbandingan akurasi JST dari penelitian yang telah dilakukan Gambar 22 menunjukkan bahwa akurasi metode JST dengan ciri 13 dan 20 koefisien MFCC menghasilkan akurasi yang sama untuk setiap rentang waktu. Adapun hasil akurasi prediksi maksimum terdapat pada model JST dengan ciri 13 dan 20 koefisien MFCC dengan 10 dan 30 detik berkas musik yaitu sebesar 95.

4.5 Confusion Matrix

Pada Tabel 10 dan 11 disajikan confusion matrix dimana baris mewakili genre musik sebenarnya dan kolom mewakili prediksi genre yang dilakukan oleh sistem. Pada tabel confusion matrix ini, setiap label mewakili sebuah genre tertentu dengan jumlah berkas musik yang tersedia untuk setiap genre. Pola diagonal yang dimulai dari kiri atas tabel hingga kanan bawah tabel mengilustrasikan jumlah klasifikasi yang benar oleh sistem. Sedangkan angka-angka yang tersebar di luar pola diagonal menyatakan jumlah klasifikasi yang salah oleh sistem. Pengujian confusion matrix ini dilakukan dengan 4 fold cross validation pada percobaan yang memiliki akurasi tertinggi dari kedua metode yaitu 7 koefisien MFCC dan 30 detik waktu berkas musik pada metode VFI dan 13 koefisien MFCC dan 10 detik waktu berkas musik pada metode JST. 85 90 85 90 80 85 95 95 80 85 95 95 70 75 80 85 90 95 100 1 5 10 30 A k u r as i Waktu berkas musik detik 7 MFCC 13 MFCC 20 MFCC Akurasi pengklasifikasian menunjukkan presentase jumlah data pengujian yang prediksinya benar untuk setiap genre. Sedangkan reliability pengklasifikasian menunjukkan tingkat keandalan pada hasil prediksi untuk setiap genre. Tabel 10. Confusion matrix dari prediksi sistem dengan metode VFI dengan ciri 7 koefisien MFCC dan 30 detik berkas musik KLASIK DISKO METAL REGGAE AKURASI KLASIK 20 100 DISKO 3 8 6 3 40 METAL 5 15 75 REGGAE 1 1 18 90 RELIABILITY 83,33 57,14 71,43 85,71 Tabel 11. Confusion matrix dari prediksi sistem dengan metode JST dengan ciri 13 koefisien MFCC dan 10 detik berkas musik KLASIK DISKO METAL REGGAE AKURASI KLASIK 17 3 85 DISKO 1 16 2 1 80 METAL 5 15 75 REGGAE 2 18 90 RELIABILITY 94,44 69,57 88,24 81,82 Gambar 23 menunjukkan diagram batang perbandingan dari akurasi dengan reliability dari prediksi sistem pada kedua metode. Terlihat pada gambar bahwa akurasi genre metal dan reggae memiliki nilai yang sama besar pada kedua metode. Akurasi tertinggi terdapat pada genre klasik yaitu 100 dengan menggunakan metode VFI. Sedangkan akurasi terendah terdapat pada genre disko yaitu 40 dengan menggunakan metode VFI. Pada metode VFI, beberapa voting berkas musik yang salah diprediksi memiliki voting kedua terbesar pada genre sebenarnya. Pada Tabel 12 dapat dilihat voting prediksi dari genre musik disko yang sistem salah prediksi. Terdapat 9 dari 12 berkas musik yang memiliki voting kedua terbesar pada genre sebenarnya. Gambar 23. Diagram batang dari akurasi dan reliability sistem Tabel 12. Voting prediksi dari genre musik disko yang sistem salah prediksi NO. LAGU KLASIK DISKO METAL REGGAE 1 D16 0,3885 0,1093 0,2729 0,2293 2 D18 0,4466 0,1480 0,1325 0,2729 3 D19 0,3876 0,2592 0,1234 0,2298 4 D12 0,1039 0,2717 0,3714 0,2530 5 D14 0,0953 0,2752 0,4191 0,2104 6 D15 0,1277 0,2963 0,3746 0,2015 7 D6 0,1096 0,3288 0,3781 0,1834 8 D9 0,1096 0,3157 0,3246 0,2501 9 D10 0,2245 0,2499 0,2397 0,2859 10 D1 0,1673 0,2137 0,1546 0,4644 11 D4 0,0486 0,3087 0,4400 0,2027 12 D5 0,2291 0,2284 0,2664 0,2760 Gambar 24 menunjukkan perbandingan mean akurasi dan mean reliability sistem pada kedua metode. Terlihat bahwa metode JST memiliki mean akurasi dan reliability yang lebih baik daripada metode VFI. 35 45 55 65 75 85 95 KLASIK DISKO METAL REGGAE Genre Akurasi JST Akurasi VFI Reliability JST Reliability VFI Gambar 24. Diagram batang perbandingan mean akurasi dan mean reliability sistem 82,50 76,25 83,52 74,40 68,00 70,00 72,00 74,00 76,00 78,00 80,00 82,00 84,00 86,00 JST VFI Mean Akurasi Mean Reliability V SIMPULAN DAN SARAN

5.1 Simpulan

Dari hasil penelitian yang telah dilakukan dapat disimpulkan beberapa hal sebagai berikut : 1. Penggunaan ciri koefisien MFCC optimum yaitu 13 koefisien dengan hasil akurasi yaitu 95. Hasil akurasi tersebut juga didapatkan dengan pengunaan ciri 20 koefisien MFCC. 2. Hasil akurasi cenderung meningkat dengan bertambahnya besaran waktu berkas musik yang digunakan dimana akurasi pada penggunaan waktu 1 detik yaitu 80 dan akurasi pada penggunaan waktu 30 detik yaitu 95 pada metode JST dengan 13 dan 20 koefisien MFCC. 3. Akurasi dengan metode JST memiliki akurasi yang terbaik yaitu 95 yang diperoleh dengan jumlah neuron hidden layer sebanyak 30 layer pada 10 detik waktu berkas musik dan penggunaan ciri 13 koefisien MFCC. 4. Akurasi dengan metode VFI mencapai hingga 85 dengan 30 detik waktu berkas musik dan penggunaan ciri 7 koefisien MFCC. 5. Genre musik yang paling mudah dikenali pada metode VFI yaitu genre klasik dengan akurasi sebesar 100. 6. Reliabilitas pada genre musik berkisar dari 57,14 pada genre disko hingga 94,44 pada genre klasik.

5.2 Saran

Penelitian ini masih dapat dikembangkan sebagai upaya untuk meningkatkan akurasi model VFI ataupun JST dalam melakukan prakiraan atau prediksi genre musik, antara lain dengan menambah data training dan testing. Pada penelitian ini, data set yang digunakan sebanyak 80 data. Oleh karena itu, diperlukan penelitian lebih lanjut dengan menggunakan data set yang lebih banyak sehingga memperoleh akurasi yang lebih baik. Perlu dilakukan pengujian dengan menambahkan ciri selain dari MFCC dan melihat kinerja akurasi kedua metode dalam mengklasifikasi genre musik. Penelitian ini perlu dikembangkan menjadi sebuah sistem prototipe dengan mendesain sebuah program aplikasi antar muka graphic user interface untuk mendapatkan sistem prediksi yang lebih baik dan mudah digunakan oleh pengguna awam. DAFTAR PUSTAKA Ahrendt P. 2006. Music Genre Classification System – A Computational Approach. IMM-PHD-2006-164. Technical University of Denmark. Andersson T. 2004. Audio Classification and Content Description [tesis]. Lulea, Sweden: Lulea University of Technology. Buono A. 2009. Representasi Nilai HOS dan Model MFCC Sebagai Ekstraksi Ciri Pada Sistem Identifikasi Pembicara di Lingkungan Ber- Noise Menggunakan HMM [disertasi]. Depok: Program Pascasarjana Fakultas Ilmu komputer, Universitas Indonesia. Butler D. Music. Microsoft® Encarta® 2006 DVD. Redmond, WA: Microsoft Corporation; 2005. Costa CHL, Valle JD Jr, Koerich AL. 2004. Automatic Classification of Audio Data. IEEE International Conference on Systems, Man and Cybernetics; The Hague, The Netherlands.10-13 Oktober 2004. Demiroz G. 1997. Non-Incremental Classification Learning Algorithms Based On Voting Feature Intervals [tesis]. Institute of Engineering And Science of Bilkent University. Duda, Richard O. Hart, Peter E. Stork, David G. 2000. Pattern Classification. John Wiley Son, New York. Duda R, Hart P, Stork D. 2001. Pattern Classification, Second Edition. Canada: John Wiley and Sons Inc. Fausset, L. 1994. Fundamentals of Neural Network. Prentice Hall, Englewood Cliffs, New Jersey. Foote, J. 1999. An Overview of Audio Information Retrieval. Multimedia Systems, 71: 2 –10. Grimaldi M, Cunningham P, Kokaram A. 2003. An Evaluation of Alternative Feature Selection Strategies and Ensemble Techniques for Classifying Music. Ireland: Computer Science and Electronic Engineering Department, Trinity College Dublin. Hainsworth SW. 2003. Techniques for the Automated Analysis of Musical Audio [tesis]. UK: University of Cambridge. Han J, Kamber M. 2001. Data Mining : Concept, Model, Methods, and Algorithm. New Jersey: Wiley-Interscience. Hayne M. Mee D, Rumble R. Influence of Music Genre and Composition on Entertainment Noise Limits. Proceedings of ACOUSTIC 2005; Busselton, Western Australia. 9-11 November 2005. Jang, JSR. Sun, CT, Mizutani, E. 1997. Neuro Fuzzy and Soft Computing, A Computanional Approach to Learning and Machine Intelligence, International Edition, Prentice-Hall International Inc. Kantardzic M. 2003. Data Mining : Concept and Techniques. San Fransisco: Morgan Kaufmann Publisher. Kusumadewi, S. 2004. Membangun Jaringan Saraf Tiruan Menggunakan Matlab dan Excel Link. Yogyakarta. Graha Ilmu. Lai HK. 2003. Speech Processing Workstation, Project Report. New Zealand: University of Auckland. Lampropoulus, AS. Lampropoulou, PS. Tsihrintzis, GA. 2005. Musical Genre Classification Enhanced by Improved Source Separation Techniques. University of Piraeus. McKay C. 2004. Issues in Automatic Musical Genre Classification. Faculty of Music, McGill University. Nilsson M, Ejnarsson M. 2002. Speech Recognition using Hidden Markov Model [tesis]. Karlskrona, Sweden: Blekinge Institute of Technology. Norowi NM, Doraisamy S, Wirza R. 2005. Factors Affecting Automatic Genre Classification : An Investigation Incorporating Non-Western Musical Forms. Faculty of Computer Science and Information technology, University Putra Malaysia. Rabiner LR, Juang BH. 1993, Fundamentals of Speech Recognition. New Jersey: Prentice Hall. ISBN 0-13-015157-2. Rumelhart, D. E., Hinton, G. E., and Williams, R. J. 1986. Learning Internal Representations by Error Propagation. In Parallel Distributed Processing, Volume 1. MIT Press, Cambridge, MA. Tzanetakis G, Cook P. 2000. Marsyas : A framework for Audio Analysis. Organised Sound, 43.