DAFTAR ISI
Halaman Persetujuan
ii Pernyataan
iii Penghargaan
iv Abstrak
vi Abstract
vii Daftar Isi
viii Daftar Tabel
x Daftar Gambar
viiii Daftar Lampiran
viiii
BAB 1 PENDAHULUAN
1.1 Latar Belakang 1
1.2 Rumusan Masalah 2
1.3 Batasan Masalah 3
1.4 Tujuan Penelitian 3
1.5 Manfaat Penelitian 4
1.6 Metodologi Penelitian 4
1.7 Sistematika Penulisan 5
BAB 2 LANDASAN TEORI
2.1 Data Mining 7
2.2 Support Vector Machine 8
2.2.1 Support Vector Backpropagation 9
2.2.1.1 Arsitektur Support Vector Backpropagation 11
2.2.1.2 Algoritma Support Vector Backpropagation 12
2.3 High Dimensional Classification 18
2.3.1 Curse Of Dimensionality 19
2.3.2 Feature Selection 19
BAB 3 ANALISIS DAN PERANCANGAN SISTEM
3.1 Pengumpulan Data Pelatihan 22
3.2 Cluster-isasi Pada Iris Plants Dataset 24
3.3 Cluster-isasi Pada Wisconsin Diagnostic Breast Cancer Dataset
27
Universitas Sumatera Utara
3.4 Cluster-isasi Pada Cleveland Heart Disease Dataset
31 3.5 Cluster-isasi Pada John Hopkins University
Ionosphere Dataset 36
3.6 Konfigurasi Support Vector Backpropagation 42
1 Konfigurasi Support Vector Backpropagation pada Iris Plants Dataset
43 2 Konfigurasi Support Vector Backpropagation pada
Wisconsin Diagnostic Breast Cancer Dataset 44
3 Konfigurasi Support Vector Backpropagation pada Cleveland Heart Disease Dataset
45 4 Konfigurasi Support Vector Backpropagation pada John
Hopkins University Ionosphere Dataset 47
BAB 4 IMPLEMENTASI DAN PENGUJIAN
4.1 Proses Transformasi Iris Plants Dataset Oleh Support Vector Backpropagation
49 4.2 Proses Transformasi Wisconsin Diagnostic Breast Cancer
Dataset Oleh Support Vector Backpropagation 57
4.3 Proses Transformasi Cleveland Heart Disease Dataset Oleh Support Vector Backpropagation
66 4.4 Proses Transformasi John Hopkins University Ionosphere
Dataset Oleh Support Vector Backpropagation 76
BAB 5 KESIMPULAN DAN SARAN
5.1 Kesimpulan 86
5.2 Saran 87
Daftar Pustaka 88
Universitas Sumatera Utara
DAFTAR TABEL
Halaman Tabel 3.1
Data Penelitian 23
Tabel 3.2 Training Sample Iris Plants Dataset
24 Tabel 3.3
Deskripsi Iris Plants Dataset 24
Tabel 3.4 Cluster Pada Iris Plants Dataset
26 Tabel 3.5
Training Sample Wisconsin Diagnostic Breast Cancer Dataset
28 Tabel 3.6
Deskripsi Wisconsin Diagnostic Breast Cancer Dataset 29
Tabel 3.7 Cluster Pada Wisconsin Diagnostic Breast Cancer Dataset
31 Tabel 3.8
Training Sample Cleveland Heart Disease Dataset 32
Tabel 3.9 Deskripsi Cleveland Heart Disease Dataset
33 Tabel 3.10
Cluster Pada Cleveland Heart Disease Dataset 35
Tabel 3.11 Training Sample John Hopkins University Ionosphere
Dataset 37
Tabel 3.12 Deskripsi John Hopkisn University Ionosphere Dataset
39 Tabel 3.13
Cluster Pada John Hopkins University Ionosphere Dataset 42
Tabel 3.14 Konfigurasi Support Vector Backpropagation Pada Iris
Plants Dataset 43
Tabel 3.15 Konfigurasi Support Vector Backpropagation Pada
Wisconsin Diagnostic Breast Cancer Dataset 44
Tabel 3.16 Konfigurasi Support Vector Backpropagation Pada
Cleveland Heart Disease Dataset 46
Tabel 3.17 Konfigurasi Support Vector Backpropagation Pada John
Hopkins University Ionosphere Dataset 47
Tabel 4.1 Training Sample Iris Plants Dataset Sebelum Transformasi
50 Tabel 4.2
Training Sample Iris Plants Pada Tabel 4.1 Setelah Transformasi
52 Tabel 4.3
Training Sample Iris Plants Dataset a Sebelum Transformasi b Sesudah Transformasi
53 Tabel 4.4
Cluster-isasi Pada Iris Plants Dataset Setelah Transformasi 54
Tabel 4.5 Perbandingan Tingkat Ketelitian Classifier Pada Iris Plants
Dataset Sebelum Dan Sesudah Transformasi 55
Tabel 4.6 Training Sample Wisconsin Diagnostic Breast Cancer
Dataset Sebelum Transformasi 57
Tabel 4.7 Training Sample Wisconsin Diagnostic Breast Cancer
Dataset Pada Tabel 4.6 Setelah Transformasi 60
Universitas Sumatera Utara
Tabel 4.8 Training Sample Wisconsin Diagnostic Breast Cancer
Dataset a Sebelum Transformasi b Sesudah Transformasi
61
Tabel 4.9 Cluster-isasi Pada Wisconsin Diagnostic Breast Cancer
Dataset Setelah Transformasi 62
Tabel 4.10 Perbandingan Tingkat Ketelitian Classifier
Pada Wisconsin Diagnostic Breast Cancer Dataset Sebelum Dan
Sesudah Transformasi 63
Tabel 4.11 Training Sample Cleveland Heart Disease Sebelum
Transformasi 67
Tabel 4.12 Training Sample Cleveland Heart Disease Pada Tabel 4.11
Setelah Transformasi 70
Tabel 4.13 Training Sample Cleveland Heart Disease Dataset a
Sebelum Transformasi b Sesudah Transformasi 71
Tabel 4.14 Cluster-isasi Pada Cleveland Heart Disease Dataset Setelah
Transformasi 72
Tabel 4.15 Perbandingan Tingkat Ketelitian Classifier Pada Cleveland
Heart Disease Sebelum Dan Sesudah Transformasi 73
Tabel 4.16 Training Sample John Hopkins University Ionosphere
Dataset Sebelum Transformasi 76
Tabel 4.17 Traning Sample John Hopkins University Ionosphere
Dataset Pada Tabel 4.16 Setelah Transformasi 79
Tabel 4.18 Training Sample John Hopkins University Ionosphere
Dataset a Sebelum Transformasi b Sesudah Transformasi
80
Tabel 4.19 Cluster-isasi Pada John Hopkins University Ionosphere
Dataset Setelah Transformasi 81
Tabel 4.20 Perbandingan Tingkat Ketelitian Classifier Pada John
Hopkins University Ionosphere Dataset Sebelum Dan Sesudah Transformasi
82
Universitas Sumatera Utara
DAFTAR GAMBAR
Halaman Gambar 2.1
Flowchart Support Vector Backpropagation 10
Gambar 2.2 Arsitektur Support Vector Backpropagation
11 Gambar 3.1
Arsitektur Support Vector Backpropagation Pada Iris Plants Dataset
43 Gambar 3.2
Arsitektur Support Vector Backpropagation Pada Wisconsin Diagnostic Breast Cancer Dataset
45 Gambar 3.3
Arsitektur Support Vector Backpropagation Pada Cleveland Heart Disease Dataset
46 Gambar 3.4
Arsitektur Support Vector Backpropagation Pada John Hopkins University Ionosphere Dataset
48 Gambar 4.1
Grafik Perbandingan Tingkat Ketelitian Classifier Iris Plants Dataset Sebelum Dan Sesudah Transformasi
55 Gambar 4.2
Grafis Hasil Cluster Pada Iris Plants Dataset Sesudah Transformasi
56 Gambar 4.3
Grafik Perbandingan Tingkat Ketelitian Classifier Wisconsin Diagnostic Breast Cancer Dataset Sebelum Dan Sesudah
Transformasi 63
Gambar 4.4 Grafis Hasil Cluster Pada Wisconsin Diagnostic Breast
Cancer Dataset Sesudah Transformasi 64
Gambar 4.5 Grafik Perbandingan Tingkat Ketelitian Classifier Cleveland
Heart Disease Dataset Sebelum Dan Sesudah Transformasi 73
Gambar 4.6 Grafis Hasil Cluster Pada Cleveland Heart Disease Dataset
Sesudah Transformasi 74
Gambar 4.7 Grafik Perbandingan Tingkat Ketelitian Classifier John
Hopkins University Ionosphere Dataset Sebelum Dan Sesudah Transformasi
82
Gambar 4.8 Grafis Hasil Cluster Pada John Hopkins University
Ionosphere Dataset Sesudah Transformasi 83
Universitas Sumatera Utara
DAFTAR LAMPIRAN
Halaman A
Listing Program 90
B Dataset Description
111 C
Daftar Riwayat Hidup 122
Universitas Sumatera Utara
ABSTRAK
Pada penelitian ini, diperkenalkan Support Vector Backpropagation dimana Backpropagation digunakan sebagai feature reductor pada sebuah Support Vector
Machine dalam upaya mengurangi pengaruh curse of dimensionality serta menciptakan visualisasi pada high dimensional data, keduanya merupakan
masalah yang dihadapi dalam real-world domain pattern recognition dan Backpropagation dipilih karena tidak ada algoritma deterministik untuk
mentransformasikan sebuah high dimensional data menjadi low dimensional data. Metode ini bekerja dalam 2 fase yaitu: fase mapping oleh Backpropagation untuk
men-transformasi-kan sebuah high dimensional data menjadi low dimensional data untuk kemudian menuju fase classifying yang dilakukan oleh Support Vector
Machine dan output dari sistem adalah hasil analisis diskriminan beserta visualisasi data-nya. Data sample yang digunakan dalam penelitain ini didapat
dari UCI Machine Learning Repository, yaitu: Wisconsin Diagnostic Breast Cancer Dataset, Cleveland Heart Disease Dataset, Fisher Iris Plants Dataset, John
Hopkins University Ionosphere Dataset. Dari pengujian yang dilakukan didapat hasil bahwa Support Vector Backpropagation dapat mengurangi pengaruh curse
of dimensionality, ini terbukti bahwa Support Vector Backpropagation memiliki tingkat akurasi yang sama bahkan terkadang lebih baik daripada Support Vector
Machine jika menggunakan sample pelatihan yang jauh lebih sedikit serta mampu menciptakan visualisasi high dimensional data-nya pada ruang 2D secara akurat.
Kata kunci: Support Vector Backpropagation, Backpropagation, Support Vector Machine, feature reductor, curse of dimensionality, visualisasi.
Universitas Sumatera Utara
SUPPORT VECTOR BACKPROPAGATION: IMPLEMENTATION OF BACKPROPAGATION AS FEATURE REDUCTOR
ON SUPPORT VECTOR MACHINE
ABSTRACT
In this research, introduced Support Vector Backpropagation, where Backpropagation used as feature reductor on a Support Vector Machine in means
to reduce the curse of dimensionality effect and also creating the visualization on it’s high dimensional data, both problems are always deal in real-world domain
pattern recognition and Backpropagation chosen because there isn’t a deterministic algorithm to transform a high dimensional data into low
dimensional data. This method works in 2 phase, which is: mapping phase by Backpropagation to transform a high dimensional data into low dimensional data
and then flow into classifying phase done by Support Vector Machine and the system’s output are the result of discriminant analysis and also it’s visualization.
Sample data that used in this research taken from UCI Machine Learning Repository, those are Wisconsin Diagnostic Breast Cancer Dataset, Cleveland
Heart Disease Dataset, Fisher Iris Plants Dataset, John Hopkins University Ionosphere Dataset. By the test had done, got the result that Support Vector
Backpropagation has same accuracy rate even better than Support Vector Machine if we use less training sample and also creating it’s high dimensional
visualization in 2D space accurately.
Keywords: Support Vector Backpropagation, Backpropagation, Support Vector Machine, feature reductor, curse of dimensionality, visualization.
Universitas Sumatera Utara
BAB 1
PENDAHULUAN
1.1. Latar Belakang
Seperti halnya semua algoritma dalam pattern recognition pada real-world domain, Support Vector Machine juga selalu mengalami masalah pada tingginya dimensi data
yang diolah atau yang biasa disebut high dimensional data. Misalnya data observasi meteorologi untuk menentukan muncul atau tidaknya kabut berkisar 26 attribut, data
biomedis yang dipakai untuk memprediksi efektifitas terapi interferon pada pasien hepatitis C kronis berkisar 30 attribut Nugroho, 2007 , dimensi input data hasil
feature extraction pada tulisan tangan adakalanya lebih dari 700 attribut, bahkan ada yang ribuan dimensi, contohnya: gen manusia yang memiliki attribut sebanyak 22.000
attribut. Banyaknya dimensi mengakibatkan meningkatnya kebutuhan data secara signifikan, inilah yang disebut oleh Richard E. Bellman pada tahun 1957 sebagai
curse of dimensionality Bellman, 1957 . Visualisasi adalah grafis yang me-representasikan data, data di-petakan
kedalam sebuah bentuk numerik dan diterjemahkan dalam sebuah representasi gambar. High dimensional data pada Support Vector Machine juga memiliki
keterbatasan pada dimensi ruang, ini terbukti bahwa optimal decision boundary pada Support Vector Machine hanya dapat dibentuk sebanyak dimensi data dalam ruang 2
Dimensi atau 3 Dimensi. Transformasi sebuah high dimensional data menjadi sebuah low dimensional data memungkinkan visualisasi high dimensional data dalam ruang
2D, transformasi ini diharapkan dapat tetap me-representasi baik secara visual
Universitas Sumatera Utara
maupun informasi yang telah di-ekstrak dalam sebuah low dimensional data Hinton, 2006 .
“Kutukan” dan masalah visualisasi ini dianggap menarik oleh penulis, penulis merasa tertantang menemukan cara melakukan reduksi dan visualisasi terhadap
dimensi data yang diolah sehingga sebuah high dimensional data tetap dapat ditemukan decision boundary-nya secara rational dalam sebuah ruang 2 Dimensi.
Penulis memperkenalkan sebuah algoritma bernama Support Vector Backpropagation, sebuah algoritma hasil modifikasi kombinasi Backpropagation dan Support Vector
Machine yang mampu mengubah sebuah high dimensional data menjadi sebuah low dimensional data hanya memiliki 2 attribut sebagai dimensi dalam ruang sebelum
dilakukan proses analisa diskriminan-nya. Backpropagation dipilih oleh penulis dikarenakan tidak adanya algoritma deterministik yang mampu mentransformasikan
sebuah high dimensional data menjadi low dimensional data. Menggunakan algoritma ini sebuah decision boundary dari sebuah high dimensional data akan mungkin
diciptakan dan ditangkap secara visual. Seperti halnya Support Vector Machine, otak manusia juga selalu terbatas pada
ruang 3D. Kita tidak dapat membayangkan dan memahami apapun yang diletakkan dan digambarkan dalam ruang 4D atau lebih.
1.2. Rumusan Masalah
1. Dapatkah Support Vector Backpropagation melakukan proses cluster pada high dimensional dataset?
2. Apakah proses cluster menggunakan dataset yang telah ditransformasikan oleh Support Vector Backpropagation dapat mencapai performa classifier yang
optimal?
Universitas Sumatera Utara
1.3. Batasan Masalah
Batasan masalah dalam penelitian ini adalah:
1. Perbandingan Support Vector Backpropagation hanyalah dengan metode Support Vector Machine.
2. Penelitian ini hanya menggunakan sebuah pengujian, yaitu: Accuracy Test 3. Penelitian ini menggunakan dataset dalam format .mat dan .txt
4. Penelitian ini menggunakan dataset yang telah tersedia dalam UCI Machine Learning Repository, yaitu: Cleveland Heart Disease, Wisconsin
Diagnostic Breast Cancer Dataset, John Hopkins Univesity Ionosphere Dataset, Fisher Iris Dataset.
5. Penelitian ini menggunakan dataset yang telah mengalami pre-processing terlebih dahulu.
6. Penelitian ini bersifat eksperimental, sehingga pembuatan aplikasi bukan priorotas utama.
7. Bahasa pemrograman yang digunakan dalam penelitian ini adalah MATLAB R2010a.
1.4. Tujuan Penelitian
Tujuan penelitian ini adalah untuk mengetahui tingkat ketelitian proses cluster pada high dimensional dataset yang telah ditransformasi menjadi low dimensional dataset
oleh Support Vector Backpropagation.
Universitas Sumatera Utara
1.5. Manfaat Penelitian
Manfaat penelitian ini adalah: 1. Menemukan cara yang lebih efisien dalam melakukan cluster-isasi pada high
dimensional data walaupun jumlah training sample yang tersedia sangat terbatas.
2. Sebagai alternatif feature reduction dalam mengatasi curse of dimensionality pada semua high dimensional data.
1.6. Metodologi Penelitian
Metodologi penelitian yang digunakan dalam penulisan tugas akhir ini adalah sebagai berikut:
a. Studi Literatur
Penulis melakukan studi kepustakan melalui penelitan berupa buku jurnal maupun artikel-artikel yang relevan mengenai Machine Learning, curse of dimensionality,
Backpropagation, Support Vector Machine, high dimensional data, visualisasi.
b. Analisis dan perancangan
Analisis masalah dimulai dengan tahap mengidentifikasi masalah, memahami cara kerja sistem yang akan dibuat, menganalisis dan membuat laporan tentang hasil
analisis, dan perancangan yang dimaksud adalah menggambarkan sistem menggunakan flowchart.
c. Implementasi
Metode ini dilaksanakan dengan mengimplementasikan rancangan sistem yang telah dibuat pada implementasi sistem menggunakan MATLAB R2010a.
Universitas Sumatera Utara
d. Pengujian
Metode ini dilaksanakan dengan melakukan pengujian terhadap sistem yang telah dibangun.
e. Dokumentasi
Metode ini dilaksanakan dengan membuat dokumentasi dalam bentuk laporan tugas akhir.
1.7. Sistematika Penulisan
Penulisan skripsi ini menggunakan sistematika penulisan yang membagi pembahasan skripsi dalam lima bagian utama, yang terdiri atas:
BAB 1 PENDAHULUAN
Pada bab ini merupakan pendahuluan yang berisi latar belakang, rumusan masalah, tujuan penelitian, batasan masalah, metodologi penelitian, dan sistematika penulisan
skripsi.
BAB 2 LANDASAN TEORI