Support Vector Backpropagation: Implementasi Backpropagation Sebagai Feature Reductor Pada Support Vector Machine
SUPPORT VECTOR BACKPROPAGATION
: IMPLEMENTASI BACKPROPAGATION SEBAGAI FEATURE REDUCTOR PADA SUPPORT VECTOR MACHINE SKRIPSI ANGGI PERMANA HARIANJA
121421089 PROGRAM STUDI EKSTENSI S1 ILMU KOMPUTER FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2014
SUPPORT VECTOR BACKPROPAGATION
: IMPLEMENTASI BACKPROPAGATION SEBAGAI FEATURE REDUCTOR PADA SUPPORT VECTOR MACHINE
SKRIPSI Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijasah
Sarjana Ilmu Komputer ANGGI PERMANA HARIANJA
121421089 PROGRAM STUDI EKSTENSI S1 ILMU KOMPUTER FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN
2014
PERSETUJUAN
Judul : SUPPORT VECTOR BACKPROPAGATION:
IMPLEMENTASI BACKPROPAGATION SEBAGAI
FEATURE REDUCTOR PADA SUPPORT VECTOR MACHINE
Kategori : SKRIPSI Nama : ANGGI PERMANA HARIANJA Nomor Induk Mahasiswa : 121421089 Program Studi : EKSTENSI S1 ILMU KOMPUTER Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA Diluluskan di
Medan, Agustus 2014 Komisi Pembimbing : Pembimbing 2 Pembimbing 1 Herriyance, S.T., M.Kom Dr. Poltak Sihombing, M.Kom NIP.198010242010121002 NIP. 1961203171991031001 Diketahui/Disetujui oleh Program Studi S1 Ilmu Komputer Ketua, Dr. Poltak Sihombing, M.Kom NIP. 196203171991031001
PERNYATAAN
SUPPORT VECTOR BACKPROPAGATION : IMPLEMENTASI
BACKPROPAGATION SEBAGAI FEATURE REDUCTOR
PADA SUPPORT VECTOR MACHINE SKRIPSI Saya menyatakan bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya.
Medan, Agustus 2014 Anggi Permana Harianja NIM. 121421089
PENGHARGAAN
Segala puji dan syukur Penulis ucapkan kepada Tuhan Yesus Kristus yang senantiasa melimpahkan rahmat dan karunia-Nya sehingga skripsi ini dapat diselesaikan.
Ucapan terima kasih Penulis sampaikan kepada semua pihak yang telah membantu Penulis dalam menyelesaikan skripsi ini baik secara langsung maupun tidak langsung, teristimewa untuk kedua orangtua terkasih. Pada kesempatan ini penulis ingin mengucapkan terima kasih yang sebesar-besarnya kepada :
1. Bapak Prof. Dr. dr. Syahril Pasaribu, DTM&H, M.Sc(CTM), Sp.A(K) selaku Rektor Universitas Sumatera Utara.
2. Bapak Prof. Dr. Muhammad Zarlis selaku Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
3. Bapak Dr. Poltak Sihombing, M.Kom selaku Ketua Program Studi S1 Ilmu Komputer Universitas Sumatera Utara.
4. Ibu Maya Silvi Lydia, B.Sc, M.Sc selaku Sekretaris Program Studi S1 Ilmu Komputer Universitas Sumatera Utara.
5. Bapak Dr. Poltak Sihombing, M.Kom selaku Dosen Pembimbing I yang telah memberikan bimbingan, saran dan masukan kepada penulis dalam pengerjaan skripsi ini.
6. Bapak Herriyance, S.T., M.Kom selaku Dosen Pembimbing II yang telah memberikan bimbingan, saran dan masukan kepada penulis dalam pengerjaan skripsi ini.
7. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc selaku Dosen Pembanding I yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.
8. Bapak Amer Sharif, S.Si, M.Si selaku Dosen Pembanding II yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.
9. Semua dosen dan semua pegawai di Program Studi S1 Ilmu Komputer Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
10. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat penulis ucapkan satu per satu yang telah membantu penyelesaian skripsi ini. Penulis menyadari bahwa skripsi ini masih terdapat kekurangan. Oleh karena itu, kepada pembaca agar kiranya memberikan kritik dan saran yang bersifat membangun demi kesempurnaan skripsi ini. Sehingga dapat bermanfaat bagi kita semuanya.
Medan, Agustus 2014 Penulis, (Anggi Permana Harianja)
ABSTRAK
Pada penelitian ini, diperkenalkan Support Vector Backpropagation dimana
Backpropagation digunakan sebagai feature reductor pada sebuah Support Vector Machine dalam upaya mengurangi pengaruh curse of dimensionality serta
menciptakan visualisasi pada high dimensional data, keduanya merupakan masalah yang dihadapi dalam real-world domain pattern recognition dan
Backpropagation dipilih karena tidak ada algoritma deterministik untuk
mentransformasikan sebuah high dimensional data menjadi low dimensional data.Metode ini bekerja dalam 2 fase yaitu: fase mapping oleh Backpropagation untuk men-transformasi-kan sebuah high dimensional data menjadi low dimensional
data untuk kemudian menuju fase classifying yang dilakukan oleh Support Vector
Machine dan output dari sistem adalah hasil analisis diskriminan beserta
visualisasi data-nya. Data sample yang digunakan dalam penelitain ini didapat dari UCI Machine Learning Repository, yaitu: Wisconsin Diagnostic Breast Cancer Dataset, Cleveland Heart Disease Dataset, Fisher Iris Plants Dataset, John Hopkins University Ionosphere Dataset. Dari pengujian yang dilakukan didapat hasil bahwa Support Vector Backpropagation dapat mengurangi pengaruh curse
of dimensionality , ini terbukti bahwa Support Vector Backpropagation memiliki
tingkat akurasi yang sama bahkan terkadang lebih baik daripada Support Vector
Machine jika menggunakan sample pelatihan yang jauh lebih sedikit serta mampu menciptakan visualisasi high dimensional data-nya pada ruang 2D secara akurat.
Kata kunci: Support Vector Backpropagation, Backpropagation, Support Vector Machine , feature reductor, curse of dimensionality, visualisasi.
SUPPORT VECTOR BACKPROPAGATION: IMPLEMENTATION OF
BACKPROPAGATION AS FEATURE REDUCTOR
ON SUPPORT VECTOR MACHINEABSTRACT In this research, introduced Support Vector Backpropagation, where Backpropagation used as feature reductor on a Support Vector Machine in means to reduce the curse of dimensionality effect and also creating the visualization on it’s high dimensional data, both problems are always deal in real-world domain pattern recognition and Backpropagation chosen because there isn’t a deterministic algorithm to transform a high dimensional data into low dimensional data. This method works in 2 phase, which is: mapping phase by Backpropagation to transform a high dimensional data into low dimensional data and then flow into classifying phase done by Support Vector Machine and the system’s output are the result of discriminant analysis and also it’s visualization. Sample data that used in this research taken from UCI Machine Learning Repository, those are Wisconsin Diagnostic Breast Cancer Dataset, Cleveland Heart Disease Dataset, Fisher Iris Plants Dataset, John Hopkins University Ionosphere Dataset. By the test had done, got the result that Support Vector Backpropagation has same accuracy rate even better than Support Vector Machine if we use less training sample and also creating it’s high dimensional visualization in 2D space accurately. Keywords: Support Vector Backpropagation, Backpropagation, Support Vector Machine, feature reductor, curse of dimensionality, visualization.
DAFTAR ISI
Halaman Persetujuan ii
Pernyataan iii
Penghargaan iv
Abstrak vi
Abstract
vii Daftar Isi viii
Daftar Tabel x
Daftar Gambar viiii
Daftar Lampiran viiii
BAB 1 PENDAHULUAN
1.1 Latar Belakang
1
1.2 Rumusan Masalah
2
1.3 Batasan Masalah
3
1.4 Tujuan Penelitian
3
1.5 Manfaat Penelitian
4
1.6 Metodologi Penelitian
4
1.7 Sistematika Penulisan
5 BAB 2 LANDASAN TEORI
2.1 Data Mining
7
2.2 Support Vector Machine
8
2.2.1 Support Vector Backpropagation
9
2.2.1.1 Arsitektur Support Vector Backpropagation
11
2.2.1.2 Algoritma Support Vector Backpropagation
12
2.3 High Dimensional Classification
18
2.3.1 Curse Of Dimensionality
19
2.3.2 Feature Selection
19 BAB 3 ANALISIS DAN PERANCANGAN SISTEM
3.1 Pengumpulan Data Pelatihan
22
3.2 Cluster-isasi Pada Iris Plants Dataset
24
3.3 Cluster-isasi Pada Wisconsin Diagnostic Breast
27 Cancer Dataset
3.4 Cluster-isasi Pada Cleveland Heart Disease
31 Dataset
3.5 Cluster-isasi Pada John Hopkins University
36 Ionosphere Dataset
3.6 Konfigurasi Support Vector Backpropagation
42
1 Konfigurasi Support Vector Backpropagation pada Iris
43 Plants Dataset
2 Konfigurasi Support Vector Backpropagation pada
44 Wisconsin Diagnostic Breast Cancer Dataset
3 Konfigurasi Support Vector Backpropagation pada
45 Cleveland Heart Disease Dataset
4 Konfigurasi Support Vector Backpropagation pada John
47 Hopkins University Ionosphere Dataset
BAB 4 IMPLEMENTASI DAN PENGUJIAN
4.1 Proses Transformasi Iris Plants Dataset Oleh Support
49 Vector Backpropagation
4.2 Proses Transformasi Wisconsin Diagnostic Breast Cancer
57 Dataset Oleh Support Vector Backpropagation
4.3 Proses Transformasi Cleveland Heart Disease Dataset Oleh
66 Support Vector Backpropagation
4.4 Proses Transformasi John Hopkins University Ionosphere
76 Dataset Oleh Support Vector Backpropagation
BAB 5 KESIMPULAN DAN SARAN
5.1 Kesimpulan
86
5.2 Saran
87 Daftar Pustaka
88
DAFTAR TABEL
42 Tabel 3.14 Konfigurasi Support Vector Backpropagation Pada Iris Plants Dataset
Wisconsin Diagnostic Breast Cancer Dataset Pada Tabel 4.6 Setelah Transformasi
Training Sample
57 Tabel 4.7
55 Tabel 4.6 Training Sample Wisconsin Diagnostic Breast Cancer Dataset Sebelum Transformasi
54 Tabel 4.5 Perbandingan Tingkat Ketelitian Classifier Pada Iris Plants Dataset Sebelum Dan Sesudah Transformasi
53 Tabel 4.4 Cluster -isasi Pada Iris Plants Dataset Setelah Transformasi
52 Tabel 4.3 Training Sample Iris Plants Dataset (a) Sebelum Transformasi (b) Sesudah Transformasi
50 Tabel 4.2 Training Sample Iris Plants Pada Tabel 4.1 Setelah Transformasi
47 Tabel 4.1 Training Sample Iris Plants Dataset Sebelum Transformasi
46 Tabel 3.17 Konfigurasi Support Vector Backpropagation Pada John Hopkins University Ionosphere Dataset
44 Tabel 3.16 Konfigurasi Support Vector Backpropagation Pada Cleveland Heart Disease Dataset
43 Tabel 3.15 Konfigurasi Support Vector Backpropagation Pada Wisconsin Diagnostic Breast Cancer Dataset
39 Tabel 3.13 Cluster Pada John Hopkins University Ionosphere Dataset
Halaman
37 Tabel 3.12 Deskripsi John Hopkisn University Ionosphere Dataset
35 Tabel 3.11 Training Sample John Hopkins University Ionosphere Dataset
33 Tabel 3.10 Cluster Pada Cleveland Heart Disease Dataset
32 Tabel 3.9 Deskripsi Cleveland Heart Disease Dataset
31 Tabel 3.8 Training Sample Cleveland Heart Disease Dataset
29 Tabel 3.7 Cluster Pada Wisconsin Diagnostic Breast Cancer Dataset
28 Tabel 3.6 Deskripsi Wisconsin Diagnostic Breast Cancer Dataset
26 Tabel 3.5 Training Sample Wisconsin Diagnostic Breast Cancer Dataset
24 Tabel 3.4 Cluster Pada Iris Plants Dataset
24 Tabel 3.3 Deskripsi Iris Plants Dataset
23 Tabel 3.2 Training Sample Iris Plants Dataset
Tabel 3.1 Data Penelitian60
Tabel 4.8 Training Sample Wisconsin Diagnostic Breast Cancer61 Dataset (a) Sebelum Transformasi (b) Sesudah Transformasi
Tabel 4.9 Cluster -isasi Pada Wisconsin Diagnostic Breast Cancer62 Dataset Setelah Transformasi
Tabel 4.10 Perbandingan Tingkat Ketelitian Classifier Pada63 Wisconsin Diagnostic Breast Cancer Dataset Sebelum Dan Sesudah Transformasi
Tabel 4.11 Training Sample Cleveland Heart Disease Sebelum67 Transformasi
Tabel 4.12 Training Sample Cleveland Heart Disease Pada Tabel 4.1170 Setelah Transformasi
Tabel 4.13 Training Sample Cleveland Heart Disease Dataset (a)71 Sebelum Transformasi (b) Sesudah Transformasi
Tabel 4.14 Cluster -isasi Pada Cleveland Heart Disease Dataset Setelah72 Transformasi
Tabel 4.15 Perbandingan Tingkat Ketelitian Classifier Pada Cleveland73 Heart Disease Sebelum Dan Sesudah Transformasi
Tabel 4.16 Training Sample John Hopkins University Ionosphere76 Dataset Sebelum Transformasi
Tabel 4.17 Traning Sample John Hopkins University Ionosphere79 Dataset Pada Tabel 4.16 Setelah Transformasi
Tabel 4.18 Training Sample John Hopkins University Ionosphere80 Dataset (a) Sebelum Transformasi (b) Sesudah Transformasi
Tabel 4.19 Cluster -isasi Pada John Hopkins University Ionosphere81 Dataset Setelah Transformasi
Tabel 4.20 Perbandingan Tingkat Ketelitian Classifier Pada John82 Hopkins University Ionosphere Dataset Sebelum Dan Sesudah Transformasi
DAFTAR GAMBAR
Halaman
Gambar 2.1 Flowchart Support Vector Backpropagation10 Gambar 2.2 Arsitektur Support Vector Backpropagation
11 Gambar 3.1 Arsitektur Support Vector Backpropagation Pada Iris Plants
43 Dataset
Gambar 3.2 Arsitektur Support Vector Backpropagation Pada Wisconsin45 Diagnostic Breast Cancer Dataset
Gambar 3.3 Arsitektur Support Vector Backpropagation Pada Cleveland46 Heart Disease Dataset
Gambar 3.4 Arsitektur Support Vector Backpropagation Pada John48 Hopkins University Ionosphere Dataset
Gambar 4.1 Grafik Perbandingan Tingkat Ketelitian Classifier Iris Plants55 Dataset Sebelum Dan Sesudah Transformasi
Gambar 4.2 Grafis Hasil Cluster Pada Iris Plants Dataset Sesudah56 Transformasi
Gambar 4.3 Grafik Perbandingan Tingkat Ketelitian Classifier Wisconsin63 Diagnostic Breast Cancer Dataset Sebelum Dan Sesudah Transformasi
Gambar 4.4 Grafis Hasil Cluster Pada Wisconsin Diagnostic Breast64 Cancer Dataset Sesudah Transformasi
Gambar 4.5 Grafik Perbandingan Tingkat Ketelitian Classifier Cleveland73 Heart Disease Dataset Sebelum Dan Sesudah Transformasi
Gambar 4.6 Grafis Hasil Cluster Pada Cleveland Heart Disease Dataset74 Sesudah Transformasi
Gambar 4.7 Grafik Perbandingan Tingkat Ketelitian Classifier John82 Hopkins University Ionosphere Dataset Sebelum Dan Sesudah Transformasi
Gambar 4.8 Grafis Hasil Cluster Pada John Hopkins University83 Ionosphere Dataset Sesudah Transformasi