PENDAHULUAN LANDASAN TEORI ANALISIS DAN PERANCANGAN SISTEM IMPLEMENTASI DAN PENGUJIAN PENDAHULUAN

DAFTAR ISI Halaman Persetujuan ii Pernyataan iii Penghargaan iv Abstrak vi Abstract vii Daftar Isi viii Daftar Tabel x Daftar Gambar viiii Daftar Lampiran viiii

BAB 1 PENDAHULUAN

1.1 Latar Belakang 1 1.2 Rumusan Masalah 2 1.3 Batasan Masalah 3 1.4 Tujuan Penelitian 3 1.5 Manfaat Penelitian 4 1.6 Metodologi Penelitian 4 1.7 Sistematika Penulisan 5

BAB 2 LANDASAN TEORI

2.1 Data Mining 7 2.2 Support Vector Machine 8 2.2.1 Support Vector Backpropagation 9 2.2.1.1 Arsitektur Support Vector Backpropagation 11 2.2.1.2 Algoritma Support Vector Backpropagation 12 2.3 High Dimensional Classification 18 2.3.1 Curse Of Dimensionality 19 2.3.2 Feature Selection 19

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

3.1 Pengumpulan Data Pelatihan 22 3.2 Cluster-isasi Pada Iris Plants Dataset 24 3.3 Cluster-isasi Pada Wisconsin Diagnostic Breast Cancer Dataset 27 Universitas Sumatera Utara 3.4 Cluster-isasi Pada Cleveland Heart Disease Dataset 31 3.5 Cluster-isasi Pada John Hopkins University Ionosphere Dataset 36 3.6 Konfigurasi Support Vector Backpropagation 42 1 Konfigurasi Support Vector Backpropagation pada Iris Plants Dataset 43 2 Konfigurasi Support Vector Backpropagation pada Wisconsin Diagnostic Breast Cancer Dataset 44 3 Konfigurasi Support Vector Backpropagation pada Cleveland Heart Disease Dataset 45 4 Konfigurasi Support Vector Backpropagation pada John Hopkins University Ionosphere Dataset 47

BAB 4 IMPLEMENTASI DAN PENGUJIAN

4.1 Proses Transformasi Iris Plants Dataset Oleh Support Vector Backpropagation 49 4.2 Proses Transformasi Wisconsin Diagnostic Breast Cancer Dataset Oleh Support Vector Backpropagation 57 4.3 Proses Transformasi Cleveland Heart Disease Dataset Oleh Support Vector Backpropagation 66 4.4 Proses Transformasi John Hopkins University Ionosphere Dataset Oleh Support Vector Backpropagation 76

BAB 5 KESIMPULAN DAN SARAN

5.1 Kesimpulan 86 5.2 Saran 87 Daftar Pustaka 88 Universitas Sumatera Utara DAFTAR TABEL Halaman Tabel 3.1 Data Penelitian 23 Tabel 3.2 Training Sample Iris Plants Dataset 24 Tabel 3.3 Deskripsi Iris Plants Dataset 24 Tabel 3.4 Cluster Pada Iris Plants Dataset 26 Tabel 3.5 Training Sample Wisconsin Diagnostic Breast Cancer Dataset 28 Tabel 3.6 Deskripsi Wisconsin Diagnostic Breast Cancer Dataset 29 Tabel 3.7 Cluster Pada Wisconsin Diagnostic Breast Cancer Dataset 31 Tabel 3.8 Training Sample Cleveland Heart Disease Dataset 32 Tabel 3.9 Deskripsi Cleveland Heart Disease Dataset 33 Tabel 3.10 Cluster Pada Cleveland Heart Disease Dataset 35 Tabel 3.11 Training Sample John Hopkins University Ionosphere Dataset 37 Tabel 3.12 Deskripsi John Hopkisn University Ionosphere Dataset 39 Tabel 3.13 Cluster Pada John Hopkins University Ionosphere Dataset 42 Tabel 3.14 Konfigurasi Support Vector Backpropagation Pada Iris Plants Dataset 43 Tabel 3.15 Konfigurasi Support Vector Backpropagation Pada Wisconsin Diagnostic Breast Cancer Dataset 44 Tabel 3.16 Konfigurasi Support Vector Backpropagation Pada Cleveland Heart Disease Dataset 46 Tabel 3.17 Konfigurasi Support Vector Backpropagation Pada John Hopkins University Ionosphere Dataset 47 Tabel 4.1 Training Sample Iris Plants Dataset Sebelum Transformasi 50 Tabel 4.2 Training Sample Iris Plants Pada Tabel 4.1 Setelah Transformasi 52 Tabel 4.3 Training Sample Iris Plants Dataset a Sebelum Transformasi b Sesudah Transformasi 53 Tabel 4.4 Cluster-isasi Pada Iris Plants Dataset Setelah Transformasi 54 Tabel 4.5 Perbandingan Tingkat Ketelitian Classifier Pada Iris Plants Dataset Sebelum Dan Sesudah Transformasi 55 Tabel 4.6 Training Sample Wisconsin Diagnostic Breast Cancer Dataset Sebelum Transformasi 57 Tabel 4.7 Training Sample Wisconsin Diagnostic Breast Cancer Dataset Pada Tabel 4.6 Setelah Transformasi 60 Universitas Sumatera Utara Tabel 4.8 Training Sample Wisconsin Diagnostic Breast Cancer Dataset a Sebelum Transformasi b Sesudah Transformasi 61 Tabel 4.9 Cluster-isasi Pada Wisconsin Diagnostic Breast Cancer Dataset Setelah Transformasi 62 Tabel 4.10 Perbandingan Tingkat Ketelitian Classifier Pada Wisconsin Diagnostic Breast Cancer Dataset Sebelum Dan Sesudah Transformasi 63 Tabel 4.11 Training Sample Cleveland Heart Disease Sebelum Transformasi 67 Tabel 4.12 Training Sample Cleveland Heart Disease Pada Tabel 4.11 Setelah Transformasi 70 Tabel 4.13 Training Sample Cleveland Heart Disease Dataset a Sebelum Transformasi b Sesudah Transformasi 71 Tabel 4.14 Cluster-isasi Pada Cleveland Heart Disease Dataset Setelah Transformasi 72 Tabel 4.15 Perbandingan Tingkat Ketelitian Classifier Pada Cleveland Heart Disease Sebelum Dan Sesudah Transformasi 73 Tabel 4.16 Training Sample John Hopkins University Ionosphere Dataset Sebelum Transformasi 76 Tabel 4.17 Traning Sample John Hopkins University Ionosphere Dataset Pada Tabel 4.16 Setelah Transformasi 79 Tabel 4.18 Training Sample John Hopkins University Ionosphere Dataset a Sebelum Transformasi b Sesudah Transformasi 80 Tabel 4.19 Cluster-isasi Pada John Hopkins University Ionosphere Dataset Setelah Transformasi 81 Tabel 4.20 Perbandingan Tingkat Ketelitian Classifier Pada John Hopkins University Ionosphere Dataset Sebelum Dan Sesudah Transformasi 82 Universitas Sumatera Utara DAFTAR GAMBAR Halaman Gambar 2.1 Flowchart Support Vector Backpropagation 10 Gambar 2.2 Arsitektur Support Vector Backpropagation 11 Gambar 3.1 Arsitektur Support Vector Backpropagation Pada Iris Plants Dataset 43 Gambar 3.2 Arsitektur Support Vector Backpropagation Pada Wisconsin Diagnostic Breast Cancer Dataset 45 Gambar 3.3 Arsitektur Support Vector Backpropagation Pada Cleveland Heart Disease Dataset 46 Gambar 3.4 Arsitektur Support Vector Backpropagation Pada John Hopkins University Ionosphere Dataset 48 Gambar 4.1 Grafik Perbandingan Tingkat Ketelitian Classifier Iris Plants Dataset Sebelum Dan Sesudah Transformasi 55 Gambar 4.2 Grafis Hasil Cluster Pada Iris Plants Dataset Sesudah Transformasi 56 Gambar 4.3 Grafik Perbandingan Tingkat Ketelitian Classifier Wisconsin Diagnostic Breast Cancer Dataset Sebelum Dan Sesudah Transformasi 63 Gambar 4.4 Grafis Hasil Cluster Pada Wisconsin Diagnostic Breast Cancer Dataset Sesudah Transformasi 64 Gambar 4.5 Grafik Perbandingan Tingkat Ketelitian Classifier Cleveland Heart Disease Dataset Sebelum Dan Sesudah Transformasi 73 Gambar 4.6 Grafis Hasil Cluster Pada Cleveland Heart Disease Dataset Sesudah Transformasi 74 Gambar 4.7 Grafik Perbandingan Tingkat Ketelitian Classifier John Hopkins University Ionosphere Dataset Sebelum Dan Sesudah Transformasi 82 Gambar 4.8 Grafis Hasil Cluster Pada John Hopkins University Ionosphere Dataset Sesudah Transformasi 83 Universitas Sumatera Utara DAFTAR LAMPIRAN Halaman A Listing Program 90 B Dataset Description 111 C Daftar Riwayat Hidup 122 Universitas Sumatera Utara ABSTRAK Pada penelitian ini, diperkenalkan Support Vector Backpropagation dimana Backpropagation digunakan sebagai feature reductor pada sebuah Support Vector Machine dalam upaya mengurangi pengaruh curse of dimensionality serta menciptakan visualisasi pada high dimensional data, keduanya merupakan masalah yang dihadapi dalam real-world domain pattern recognition dan Backpropagation dipilih karena tidak ada algoritma deterministik untuk mentransformasikan sebuah high dimensional data menjadi low dimensional data. Metode ini bekerja dalam 2 fase yaitu: fase mapping oleh Backpropagation untuk men-transformasi-kan sebuah high dimensional data menjadi low dimensional data untuk kemudian menuju fase classifying yang dilakukan oleh Support Vector Machine dan output dari sistem adalah hasil analisis diskriminan beserta visualisasi data-nya. Data sample yang digunakan dalam penelitain ini didapat dari UCI Machine Learning Repository, yaitu: Wisconsin Diagnostic Breast Cancer Dataset, Cleveland Heart Disease Dataset, Fisher Iris Plants Dataset, John Hopkins University Ionosphere Dataset. Dari pengujian yang dilakukan didapat hasil bahwa Support Vector Backpropagation dapat mengurangi pengaruh curse of dimensionality, ini terbukti bahwa Support Vector Backpropagation memiliki tingkat akurasi yang sama bahkan terkadang lebih baik daripada Support Vector Machine jika menggunakan sample pelatihan yang jauh lebih sedikit serta mampu menciptakan visualisasi high dimensional data-nya pada ruang 2D secara akurat. Kata kunci: Support Vector Backpropagation, Backpropagation, Support Vector Machine, feature reductor, curse of dimensionality, visualisasi. Universitas Sumatera Utara SUPPORT VECTOR BACKPROPAGATION: IMPLEMENTATION OF BACKPROPAGATION AS FEATURE REDUCTOR ON SUPPORT VECTOR MACHINE ABSTRACT In this research, introduced Support Vector Backpropagation, where Backpropagation used as feature reductor on a Support Vector Machine in means to reduce the curse of dimensionality effect and also creating the visualization on it’s high dimensional data, both problems are always deal in real-world domain pattern recognition and Backpropagation chosen because there isn’t a deterministic algorithm to transform a high dimensional data into low dimensional data. This method works in 2 phase, which is: mapping phase by Backpropagation to transform a high dimensional data into low dimensional data and then flow into classifying phase done by Support Vector Machine and the system’s output are the result of discriminant analysis and also it’s visualization. Sample data that used in this research taken from UCI Machine Learning Repository, those are Wisconsin Diagnostic Breast Cancer Dataset, Cleveland Heart Disease Dataset, Fisher Iris Plants Dataset, John Hopkins University Ionosphere Dataset. By the test had done, got the result that Support Vector Backpropagation has same accuracy rate even better than Support Vector Machine if we use less training sample and also creating it’s high dimensional visualization in 2D space accurately. Keywords: Support Vector Backpropagation, Backpropagation, Support Vector Machine, feature reductor, curse of dimensionality, visualization. Universitas Sumatera Utara BAB 1 PENDAHULUAN

1.1. Latar Belakang

Seperti halnya semua algoritma dalam pattern recognition pada real-world domain, Support Vector Machine juga selalu mengalami masalah pada tingginya dimensi data yang diolah atau yang biasa disebut high dimensional data. Misalnya data observasi meteorologi untuk menentukan muncul atau tidaknya kabut berkisar 26 attribut, data biomedis yang dipakai untuk memprediksi efektifitas terapi interferon pada pasien hepatitis C kronis berkisar 30 attribut Nugroho, 2007 , dimensi input data hasil feature extraction pada tulisan tangan adakalanya lebih dari 700 attribut, bahkan ada yang ribuan dimensi, contohnya: gen manusia yang memiliki attribut sebanyak 22.000 attribut. Banyaknya dimensi mengakibatkan meningkatnya kebutuhan data secara signifikan, inilah yang disebut oleh Richard E. Bellman pada tahun 1957 sebagai curse of dimensionality Bellman, 1957 . Visualisasi adalah grafis yang me-representasikan data, data di-petakan kedalam sebuah bentuk numerik dan diterjemahkan dalam sebuah representasi gambar. High dimensional data pada Support Vector Machine juga memiliki keterbatasan pada dimensi ruang, ini terbukti bahwa optimal decision boundary pada Support Vector Machine hanya dapat dibentuk sebanyak dimensi data dalam ruang 2 Dimensi atau 3 Dimensi. Transformasi sebuah high dimensional data menjadi sebuah low dimensional data memungkinkan visualisasi high dimensional data dalam ruang 2D, transformasi ini diharapkan dapat tetap me-representasi baik secara visual Universitas Sumatera Utara maupun informasi yang telah di-ekstrak dalam sebuah low dimensional data Hinton, 2006 . “Kutukan” dan masalah visualisasi ini dianggap menarik oleh penulis, penulis merasa tertantang menemukan cara melakukan reduksi dan visualisasi terhadap dimensi data yang diolah sehingga sebuah high dimensional data tetap dapat ditemukan decision boundary-nya secara rational dalam sebuah ruang 2 Dimensi. Penulis memperkenalkan sebuah algoritma bernama Support Vector Backpropagation, sebuah algoritma hasil modifikasi kombinasi Backpropagation dan Support Vector Machine yang mampu mengubah sebuah high dimensional data menjadi sebuah low dimensional data hanya memiliki 2 attribut sebagai dimensi dalam ruang sebelum dilakukan proses analisa diskriminan-nya. Backpropagation dipilih oleh penulis dikarenakan tidak adanya algoritma deterministik yang mampu mentransformasikan sebuah high dimensional data menjadi low dimensional data. Menggunakan algoritma ini sebuah decision boundary dari sebuah high dimensional data akan mungkin diciptakan dan ditangkap secara visual. Seperti halnya Support Vector Machine, otak manusia juga selalu terbatas pada ruang 3D. Kita tidak dapat membayangkan dan memahami apapun yang diletakkan dan digambarkan dalam ruang 4D atau lebih.

1.2. Rumusan Masalah

1. Dapatkah Support Vector Backpropagation melakukan proses cluster pada high dimensional dataset? 2. Apakah proses cluster menggunakan dataset yang telah ditransformasikan oleh Support Vector Backpropagation dapat mencapai performa classifier yang optimal? Universitas Sumatera Utara

1.3. Batasan Masalah

Batasan masalah dalam penelitian ini adalah: 1. Perbandingan Support Vector Backpropagation hanyalah dengan metode Support Vector Machine. 2. Penelitian ini hanya menggunakan sebuah pengujian, yaitu: Accuracy Test 3. Penelitian ini menggunakan dataset dalam format .mat dan .txt 4. Penelitian ini menggunakan dataset yang telah tersedia dalam UCI Machine Learning Repository, yaitu: Cleveland Heart Disease, Wisconsin Diagnostic Breast Cancer Dataset, John Hopkins Univesity Ionosphere Dataset, Fisher Iris Dataset. 5. Penelitian ini menggunakan dataset yang telah mengalami pre-processing terlebih dahulu. 6. Penelitian ini bersifat eksperimental, sehingga pembuatan aplikasi bukan priorotas utama. 7. Bahasa pemrograman yang digunakan dalam penelitian ini adalah MATLAB R2010a.

1.4. Tujuan Penelitian

Tujuan penelitian ini adalah untuk mengetahui tingkat ketelitian proses cluster pada high dimensional dataset yang telah ditransformasi menjadi low dimensional dataset oleh Support Vector Backpropagation. Universitas Sumatera Utara

1.5. Manfaat Penelitian

Manfaat penelitian ini adalah: 1. Menemukan cara yang lebih efisien dalam melakukan cluster-isasi pada high dimensional data walaupun jumlah training sample yang tersedia sangat terbatas. 2. Sebagai alternatif feature reduction dalam mengatasi curse of dimensionality pada semua high dimensional data.

1.6. Metodologi Penelitian

Metodologi penelitian yang digunakan dalam penulisan tugas akhir ini adalah sebagai berikut: a. Studi Literatur Penulis melakukan studi kepustakan melalui penelitan berupa buku jurnal maupun artikel-artikel yang relevan mengenai Machine Learning, curse of dimensionality, Backpropagation, Support Vector Machine, high dimensional data, visualisasi. b. Analisis dan perancangan Analisis masalah dimulai dengan tahap mengidentifikasi masalah, memahami cara kerja sistem yang akan dibuat, menganalisis dan membuat laporan tentang hasil analisis, dan perancangan yang dimaksud adalah menggambarkan sistem menggunakan flowchart. c. Implementasi Metode ini dilaksanakan dengan mengimplementasikan rancangan sistem yang telah dibuat pada implementasi sistem menggunakan MATLAB R2010a. Universitas Sumatera Utara d. Pengujian Metode ini dilaksanakan dengan melakukan pengujian terhadap sistem yang telah dibangun. e. Dokumentasi Metode ini dilaksanakan dengan membuat dokumentasi dalam bentuk laporan tugas akhir.

1.7. Sistematika Penulisan

Penulisan skripsi ini menggunakan sistematika penulisan yang membagi pembahasan skripsi dalam lima bagian utama, yang terdiri atas:

BAB 1 PENDAHULUAN

Pada bab ini merupakan pendahuluan yang berisi latar belakang, rumusan masalah, tujuan penelitian, batasan masalah, metodologi penelitian, dan sistematika penulisan skripsi.

BAB 2 LANDASAN TEORI