Support Vector Backpropagation: Implementasi Backpropagation Sebagai Feature Reductor Pada Support Vector Machine

(1)

SUPPORT VECTOR BACKPROPAGATION: IMPLEMENTASI

BACKPROPAGATION SEBAGAI FEATURE REDUCTOR

PADA SUPPORT VECTOR MACHINE

SKRIPSI

ANGGI PERMANA HARIANJA

121421089

PROGRAM STUDI EKSTENSI S1 ILMU KOMPUTER

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

2014


(2)

SUPPORT VECTOR BACKPROPAGATION: IMPLEMENTASI

BACKPROPAGATION SEBAGAI FEATURE REDUCTOR

PADA SUPPORT VECTOR MACHINE

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijasah Sarjana Ilmu Komputer

ANGGI PERMANA HARIANJA 121421089

PROGRAM STUDI EKSTENSI S1 ILMU KOMPUTER FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA MEDAN


(3)

PERSETUJUAN

Judul : SUPPORT VECTOR BACKPROPAGATION:

IMPLEMENTASI BACKPROPAGATION SEBAGAI FEATURE REDUCTOR PADA SUPPORT VECTOR MACHINE

Kategori : SKRIPSI

Nama : ANGGI PERMANA HARIANJA

Nomor Induk Mahasiswa : 121421089

Program Studi : EKSTENSI S1 ILMU KOMPUTER

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

Diluluskan di

Medan, Agustus 2014 Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Herriyance, S.T., M.Kom Dr. Poltak Sihombing, M.Kom NIP.198010242010121002 NIP. 1961203171991031001

Diketahui/Disetujui oleh

Program Studi S1 Ilmu Komputer Ketua,

Dr. Poltak Sihombing, M.Kom NIP. 196203171991031001


(4)

PERNYATAAN

SUPPORT VECTOR BACKPROPAGATION: IMPLEMENTASI BACKPROPAGATION SEBAGAI FEATURE REDUCTOR

PADA SUPPORT VECTOR MACHINE

SKRIPSI

Saya menyatakan bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya.

Medan, Agustus 2014

Anggi Permana Harianja NIM. 121421089


(5)

PENGHARGAAN

Segala puji dan syukur Penulis ucapkan kepada Tuhan Yesus Kristus yang senantiasa melimpahkan rahmat dan karunia-Nya sehingga skripsi ini dapat diselesaikan.

Ucapan terima kasih Penulis sampaikan kepada semua pihak yang telah membantu Penulis dalam menyelesaikan skripsi ini baik secara langsung maupun tidak langsung, teristimewa untuk kedua orangtua terkasih. Pada kesempatan ini penulis ingin mengucapkan terima kasih yang sebesar-besarnya kepada :

1. Bapak Prof. Dr. dr. Syahril Pasaribu, DTM&H, M.Sc(CTM), Sp.A(K) selaku Rektor Universitas Sumatera Utara.

2. Bapak Prof. Dr. Muhammad Zarlis selaku Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

3. Bapak Dr. Poltak Sihombing, M.Kom selaku Ketua Program Studi S1 Ilmu Komputer Universitas Sumatera Utara.

4. Ibu Maya Silvi Lydia, B.Sc, M.Sc selaku Sekretaris Program Studi S1 Ilmu Komputer Universitas Sumatera Utara.

5. Bapak Dr. Poltak Sihombing, M.Kom selaku Dosen Pembimbing I yang telah memberikan bimbingan, saran dan masukan kepada penulis dalam pengerjaan skripsi ini.

6. Bapak Herriyance, S.T., M.Kom selaku Dosen Pembimbing II yang telah memberikan bimbingan, saran dan masukan kepada penulis dalam pengerjaan skripsi ini.

7. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc selaku Dosen Pembanding I yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.


(6)

8. Bapak Amer Sharif, S.Si, M.Si selaku Dosen Pembanding II yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.

9. Semua dosen dan semua pegawai di Program Studi S1 Ilmu Komputer Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

10. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat penulis ucapkan satu per satu yang telah membantu penyelesaian skripsi ini.

Penulis menyadari bahwa skripsi ini masih terdapat kekurangan. Oleh karena itu, kepada pembaca agar kiranya memberikan kritik dan saran yang bersifat membangun demi kesempurnaan skripsi ini. Sehingga dapat bermanfaat bagi kita semuanya.

Medan, Agustus 2014 Penulis,


(7)

ABSTRAK

Pada penelitian ini, diperkenalkan Support Vector Backpropagation dimana Backpropagation digunakan sebagai feature reductor pada sebuah Support Vector Machine dalam upaya mengurangi pengaruh curse of dimensionality serta menciptakan visualisasi pada high dimensional data, keduanya merupakan masalah yang dihadapi dalam real-world domain pattern recognition dan Backpropagation dipilih karena tidak ada algoritma deterministik untuk mentransformasikan sebuah high dimensional data menjadi low dimensional data. Metode ini bekerja dalam 2 fase yaitu: fase mapping oleh Backpropagation untuk men-transformasi-kan sebuah high dimensional data menjadi low dimensional data untuk kemudian menuju fase classifying yang dilakukan oleh Support Vector Machine dan output dari sistem adalah hasil analisis diskriminan beserta visualisasi data-nya. Data sample yang digunakan dalam penelitain ini didapat dari UCI Machine Learning Repository, yaitu: Wisconsin Diagnostic Breast Cancer Dataset, Cleveland Heart Disease Dataset, Fisher Iris Plants Dataset, John Hopkins University Ionosphere Dataset. Dari pengujian yang dilakukan didapat hasil bahwa Support Vector Backpropagation dapat mengurangi pengaruh curse of dimensionality, ini terbukti bahwa Support Vector Backpropagation memiliki tingkat akurasi yang sama bahkan terkadang lebih baik daripada Support Vector Machine jika menggunakan sample pelatihan yang jauh lebih sedikit serta mampu menciptakan visualisasi high dimensional data-nya pada ruang 2D secara akurat. Kata kunci: Support Vector Backpropagation, Backpropagation, Support Vector Machine, feature reductor, curse of dimensionality, visualisasi.


(8)

SUPPORT VECTOR BACKPROPAGATION: IMPLEMENTATION OF BACKPROPAGATION AS FEATURE REDUCTOR

ON SUPPORT VECTOR MACHINE

ABSTRACT

In this research, introduced Support Vector Backpropagation, where Backpropagation used as feature reductor on a Support Vector Machine in means to reduce the curse of dimensionality effect and also creating the visualization on it’s high dimensional data, both problems are always deal in real-world domain pattern recognition and Backpropagation chosen because there isn’t a deterministic algorithm to transform a high dimensional data into low dimensional data. This method works in 2 phase, which is: mapping phase by Backpropagation to transform a high dimensional data into low dimensional data and then flow into classifying phase done by Support Vector Machine and the system’s output are the result of discriminant analysis and also it’s visualization. Sample data that used in this research taken from UCI Machine Learning Repository, those are Wisconsin Diagnostic Breast Cancer Dataset, Cleveland Heart Disease Dataset, Fisher Iris Plants Dataset, John Hopkins University Ionosphere Dataset. By the test had done, got the result that Support Vector Backpropagation has same accuracy rate even better than Support Vector Machine if we use less training sample and also creating it’s high dimensional visualization in 2D space accurately.

Keywords: Support Vector Backpropagation, Backpropagation, Support Vector Machine, feature reductor, curse of dimensionality, visualization.


(9)

DAFTAR ISI

Halaman

Persetujuan ii

Pernyataan iii

Penghargaan iv

Abstrak vi

Abstract vii

Daftar Isi viii

Daftar Tabel x

Daftar Gambar viiii

Daftar Lampiran viiii

BAB 1 PENDAHULUAN

1.1 Latar Belakang 1

1.2 Rumusan Masalah 2

1.3 Batasan Masalah 3

1.4 Tujuan Penelitian 3

1.5 Manfaat Penelitian 4

1.6 Metodologi Penelitian 4

1.7 Sistematika Penulisan 5

BAB 2 LANDASAN TEORI

2.1 Data Mining 7

2.2 Support Vector Machine 8

2.2.1 Support Vector Backpropagation 9 2.2.1.1 Arsitektur Support Vector Backpropagation 11 2.2.1.2 Algoritma Support Vector Backpropagation 12 2.3 High Dimensional Classification 18 2.3.1 Curse Of Dimensionality 19 2.3.2 Feature Selection 19

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

3.1 Pengumpulan Data Pelatihan 22

3.2 Cluster-isasi Pada Iris Plants Dataset 24 3.3 Cluster-isasi Pada Wisconsin Diagnostic Breast

Cancer Dataset


(10)

3.4 Cluster-isasi Pada Cleveland Heart Disease Dataset

31 3.5 Cluster-isasi Pada John Hopkins University

Ionosphere Dataset

36

3.6 Konfigurasi Support Vector Backpropagation 42 1 Konfigurasi Support Vector Backpropagation pada Iris

Plants Dataset

43 2 Konfigurasi Support Vector Backpropagation pada

Wisconsin Diagnostic Breast Cancer Dataset

44 3 Konfigurasi Support Vector Backpropagation pada

Cleveland Heart Disease Dataset

45 4 Konfigurasi Support Vector Backpropagation pada John

Hopkins University Ionosphere Dataset

47

BAB 4 IMPLEMENTASI DAN PENGUJIAN

4.1 Proses Transformasi Iris Plants Dataset Oleh Support Vector Backpropagation

49 4.2 Proses Transformasi Wisconsin Diagnostic Breast Cancer

Dataset Oleh Support Vector Backpropagation

57 4.3 Proses Transformasi Cleveland Heart Disease Dataset Oleh

Support Vector Backpropagation

66 4.4 Proses Transformasi John Hopkins University Ionosphere

Dataset Oleh Support Vector Backpropagation

76

BAB 5 KESIMPULAN DAN SARAN

5.1 Kesimpulan 86

5.2 Saran 87


(11)

DAFTAR TABEL

Halaman

Tabel 3.1 Data Penelitian 23

Tabel 3.2 Training Sample Iris Plants Dataset 24

Tabel 3.3 Deskripsi Iris Plants Dataset 24

Tabel 3.4 Cluster Pada Iris Plants Dataset 26

Tabel 3.5 Training Sample Wisconsin Diagnostic Breast Cancer Dataset

28 Tabel 3.6 Deskripsi Wisconsin Diagnostic Breast Cancer Dataset 29 Tabel 3.7 Cluster Pada Wisconsin Diagnostic Breast Cancer Dataset 31 Tabel 3.8 Training Sample Cleveland Heart Disease Dataset 32 Tabel 3.9 Deskripsi Cleveland Heart Disease Dataset 33 Tabel 3.10 Cluster Pada Cleveland Heart Disease Dataset 35 Tabel 3.11 Training Sample John Hopkins University Ionosphere

Dataset

37 Tabel 3.12 Deskripsi John Hopkisn University Ionosphere Dataset 39 Tabel 3.13 Cluster Pada John Hopkins University Ionosphere Dataset 42 Tabel 3.14 Konfigurasi Support Vector Backpropagation Pada Iris

Plants Dataset

43 Tabel 3.15 Konfigurasi Support Vector Backpropagation Pada

Wisconsin Diagnostic Breast Cancer Dataset

44 Tabel 3.16 Konfigurasi Support Vector Backpropagation Pada

Cleveland Heart Disease Dataset

46 Tabel 3.17 Konfigurasi Support Vector Backpropagation Pada John

Hopkins University Ionosphere Dataset

47 Tabel 4.1 Training Sample Iris Plants Dataset Sebelum Transformasi 50 Tabel 4.2 Training Sample Iris Plants Pada Tabel 4.1 Setelah

Transformasi

52 Tabel 4.3 Training Sample Iris Plants Dataset (a) Sebelum

Transformasi (b) Sesudah Transformasi

53 Tabel 4.4 Cluster-isasi Pada Iris Plants Dataset Setelah Transformasi 54 Tabel 4.5 Perbandingan Tingkat Ketelitian Classifier Pada Iris Plants

Dataset Sebelum Dan Sesudah Transformasi

55 Tabel 4.6 Training Sample Wisconsin Diagnostic Breast Cancer

Dataset Sebelum Transformasi

57 Tabel 4.7 Training Sample Wisconsin Diagnostic Breast Cancer

Dataset Pada Tabel 4.6 Setelah Transformasi


(12)

Tabel 4.8 Training Sample Wisconsin Diagnostic Breast Cancer Dataset (a) Sebelum Transformasi (b) Sesudah Transformasi

61

Tabel 4.9 Cluster-isasi Pada Wisconsin Diagnostic Breast Cancer Dataset Setelah Transformasi

62 Tabel 4.10 Perbandingan Tingkat Ketelitian Classifier Pada

Wisconsin Diagnostic Breast Cancer Dataset Sebelum Dan Sesudah Transformasi

63

Tabel 4.11 Training Sample Cleveland Heart Disease Sebelum Transformasi

67 Tabel 4.12 Training Sample Cleveland Heart Disease Pada Tabel 4.11

Setelah Transformasi

70 Tabel 4.13 Training Sample Cleveland Heart Disease Dataset (a)

Sebelum Transformasi (b) Sesudah Transformasi

71 Tabel 4.14 Cluster-isasi Pada Cleveland Heart Disease Dataset Setelah

Transformasi

72 Tabel 4.15 Perbandingan Tingkat Ketelitian Classifier Pada Cleveland

Heart Disease Sebelum Dan Sesudah Transformasi

73 Tabel 4.16 Training Sample John Hopkins University Ionosphere

Dataset Sebelum Transformasi

76 Tabel 4.17 Traning Sample John Hopkins University Ionosphere

Dataset Pada Tabel 4.16 Setelah Transformasi

79 Tabel 4.18 Training Sample John Hopkins University Ionosphere

Dataset (a) Sebelum Transformasi (b) Sesudah Transformasi

80

Tabel 4.19 Cluster-isasi Pada John Hopkins University Ionosphere Dataset Setelah Transformasi

81 Tabel 4.20 Perbandingan Tingkat Ketelitian Classifier Pada John

Hopkins University Ionosphere Dataset Sebelum Dan Sesudah Transformasi


(13)

DAFTAR GAMBAR

Halaman Gambar 2.1 Flowchart Support Vector Backpropagation 10 Gambar 2.2 Arsitektur Support Vector Backpropagation 11 Gambar 3.1 Arsitektur Support Vector Backpropagation Pada Iris Plants

Dataset

43 Gambar 3.2 Arsitektur Support Vector Backpropagation Pada Wisconsin

Diagnostic Breast Cancer Dataset

45 Gambar 3.3 Arsitektur Support Vector Backpropagation Pada Cleveland

Heart Disease Dataset

46 Gambar 3.4 Arsitektur Support Vector Backpropagation Pada John

Hopkins University Ionosphere Dataset

48 Gambar 4.1 Grafik Perbandingan Tingkat Ketelitian Classifier Iris Plants

Dataset Sebelum Dan Sesudah Transformasi

55 Gambar 4.2 Grafis Hasil Cluster Pada Iris Plants Dataset Sesudah

Transformasi

56 Gambar 4.3 Grafik Perbandingan Tingkat Ketelitian Classifier Wisconsin

Diagnostic Breast Cancer Dataset Sebelum Dan Sesudah Transformasi

63

Gambar 4.4 Grafis Hasil Cluster Pada Wisconsin Diagnostic Breast Cancer Dataset Sesudah Transformasi

64 Gambar 4.5 Grafik Perbandingan Tingkat Ketelitian Classifier Cleveland

Heart Disease Dataset Sebelum Dan Sesudah Transformasi

73 Gambar 4.6 Grafis Hasil Cluster Pada Cleveland Heart Disease Dataset

Sesudah Transformasi

74 Gambar 4.7 Grafik Perbandingan Tingkat Ketelitian Classifier John

Hopkins University Ionosphere Dataset Sebelum Dan Sesudah Transformasi

82

Gambar 4.8 Grafis Hasil Cluster Pada John Hopkins University Ionosphere Dataset Sesudah Transformasi


(14)

DAFTAR LAMPIRAN

Halaman

A Listing Program 90

B Dataset Description 111


(15)

ABSTRAK

Pada penelitian ini, diperkenalkan Support Vector Backpropagation dimana Backpropagation digunakan sebagai feature reductor pada sebuah Support Vector Machine dalam upaya mengurangi pengaruh curse of dimensionality serta menciptakan visualisasi pada high dimensional data, keduanya merupakan masalah yang dihadapi dalam real-world domain pattern recognition dan Backpropagation dipilih karena tidak ada algoritma deterministik untuk mentransformasikan sebuah high dimensional data menjadi low dimensional data. Metode ini bekerja dalam 2 fase yaitu: fase mapping oleh Backpropagation untuk men-transformasi-kan sebuah high dimensional data menjadi low dimensional data untuk kemudian menuju fase classifying yang dilakukan oleh Support Vector Machine dan output dari sistem adalah hasil analisis diskriminan beserta visualisasi data-nya. Data sample yang digunakan dalam penelitain ini didapat dari UCI Machine Learning Repository, yaitu: Wisconsin Diagnostic Breast Cancer Dataset, Cleveland Heart Disease Dataset, Fisher Iris Plants Dataset, John Hopkins University Ionosphere Dataset. Dari pengujian yang dilakukan didapat hasil bahwa Support Vector Backpropagation dapat mengurangi pengaruh curse of dimensionality, ini terbukti bahwa Support Vector Backpropagation memiliki tingkat akurasi yang sama bahkan terkadang lebih baik daripada Support Vector Machine jika menggunakan sample pelatihan yang jauh lebih sedikit serta mampu menciptakan visualisasi high dimensional data-nya pada ruang 2D secara akurat. Kata kunci: Support Vector Backpropagation, Backpropagation, Support Vector Machine, feature reductor, curse of dimensionality, visualisasi.


(16)

SUPPORT VECTOR BACKPROPAGATION: IMPLEMENTATION OF BACKPROPAGATION AS FEATURE REDUCTOR

ON SUPPORT VECTOR MACHINE

ABSTRACT

In this research, introduced Support Vector Backpropagation, where Backpropagation used as feature reductor on a Support Vector Machine in means to reduce the curse of dimensionality effect and also creating the visualization on it’s high dimensional data, both problems are always deal in real-world domain pattern recognition and Backpropagation chosen because there isn’t a deterministic algorithm to transform a high dimensional data into low dimensional data. This method works in 2 phase, which is: mapping phase by Backpropagation to transform a high dimensional data into low dimensional data and then flow into classifying phase done by Support Vector Machine and the system’s output are the result of discriminant analysis and also it’s visualization. Sample data that used in this research taken from UCI Machine Learning Repository, those are Wisconsin Diagnostic Breast Cancer Dataset, Cleveland Heart Disease Dataset, Fisher Iris Plants Dataset, John Hopkins University Ionosphere Dataset. By the test had done, got the result that Support Vector Backpropagation has same accuracy rate even better than Support Vector Machine if we use less training sample and also creating it’s high dimensional visualization in 2D space accurately.

Keywords: Support Vector Backpropagation, Backpropagation, Support Vector Machine, feature reductor, curse of dimensionality, visualization.


(17)

BAB 1

PENDAHULUAN

1.1. Latar Belakang

Seperti halnya semua algoritma dalam pattern recognition pada real-world domain, Support Vector Machine juga selalu mengalami masalah pada tingginya dimensi data yang diolah atau yang biasa disebut high dimensional data. Misalnya data observasi meteorologi untuk menentukan muncul atau tidaknya kabut berkisar 26 attribut, data biomedis yang dipakai untuk memprediksi efektifitas terapi interferon pada pasien hepatitis C kronis berkisar 30 attribut ( Nugroho, 2007 ), dimensi input data hasil feature extraction pada tulisan tangan adakalanya lebih dari 700 attribut, bahkan ada yang ribuan dimensi, contohnya: gen manusia yang memiliki attribut sebanyak 22.000 attribut. Banyaknya dimensi mengakibatkan meningkatnya kebutuhan data secara signifikan, inilah yang disebut oleh Richard E. Bellman pada tahun 1957 sebagai curse of dimensionality ( Bellman, 1957 ).

Visualisasi adalah grafis yang me-representasikan data, data di-petakan kedalam sebuah bentuk numerik dan diterjemahkan dalam sebuah representasi gambar. High dimensional data pada Support Vector Machine juga memiliki keterbatasan pada dimensi ruang, ini terbukti bahwa optimal decision boundary pada Support Vector Machine hanya dapat dibentuk sebanyak dimensi data dalam ruang 2 Dimensi atau 3 Dimensi. Transformasi sebuah high dimensional data menjadi sebuah low dimensional data memungkinkan visualisasi high dimensional data dalam ruang 2D, transformasi ini diharapkan dapat tetap me-representasi baik secara visual


(18)

maupun informasi yang telah di-ekstrak dalam sebuah low dimensional data ( Hinton, 2006 ).

“Kutukan” dan masalah visualisasi ini dianggap menarik oleh penulis, penulis merasa tertantang menemukan cara melakukan reduksi dan visualisasi terhadap dimensi data yang diolah sehingga sebuah high dimensional data tetap dapat ditemukan decision boundary-nya secara rational dalam sebuah ruang 2 Dimensi. Penulis memperkenalkan sebuah algoritma bernama Support Vector Backpropagation, sebuah algoritma hasil modifikasi kombinasi Backpropagation dan Support Vector Machine yang mampu mengubah sebuah high dimensional data menjadi sebuah low dimensional data ( hanya memiliki 2 attribut sebagai dimensi dalam ruang ) sebelum dilakukan proses analisa diskriminan-nya. Backpropagation dipilih oleh penulis dikarenakan tidak adanya algoritma deterministik yang mampu mentransformasikan sebuah high dimensional data menjadi low dimensional data. Menggunakan algoritma ini sebuah decision boundary dari sebuah high dimensional data akan mungkin diciptakan dan ditangkap secara visual.

Seperti halnya Support Vector Machine, otak manusia juga selalu terbatas pada ruang 3D. Kita tidak dapat membayangkan dan memahami apapun yang diletakkan dan digambarkan dalam ruang 4D atau lebih.

1.2. Rumusan Masalah

1. Dapatkah Support Vector Backpropagation melakukan proses cluster pada high dimensional dataset?

2. Apakah proses cluster menggunakan dataset yang telah ditransformasikan oleh Support Vector Backpropagation dapat mencapai performa classifier yang optimal?


(19)

1.3. Batasan Masalah

Batasan masalah dalam penelitian ini adalah:

1. Perbandingan Support Vector Backpropagation hanyalah dengan metode Support Vector Machine.

2. Penelitian ini hanya menggunakan sebuah pengujian, yaitu: Accuracy Test 3. Penelitian ini menggunakan dataset dalam format *.mat dan *.txt

4. Penelitian ini menggunakan dataset yang telah tersedia dalam UCI Machine Learning Repository, yaitu: Cleveland Heart Disease, Wisconsin Diagnostic Breast Cancer Dataset, John Hopkins Univesity Ionosphere Dataset, Fisher Iris Dataset.

5. Penelitian ini menggunakan dataset yang telah mengalami pre-processing terlebih dahulu.

6. Penelitian ini bersifat eksperimental, sehingga pembuatan aplikasi bukan priorotas utama.

7. Bahasa pemrograman yang digunakan dalam penelitian ini adalah MATLAB R2010a.

1.4. Tujuan Penelitian

Tujuan penelitian ini adalah untuk mengetahui tingkat ketelitian proses cluster pada high dimensional dataset yang telah ditransformasi menjadi low dimensional dataset oleh Support Vector Backpropagation.


(20)

1.5. Manfaat Penelitian

Manfaat penelitian ini adalah:

1. Menemukan cara yang lebih efisien dalam melakukan cluster-isasi pada high dimensional data walaupun jumlah training sample yang tersedia sangat terbatas.

2. Sebagai alternatif feature reduction dalam mengatasi curse of dimensionality pada semua high dimensional data.

1.6. Metodologi Penelitian

Metodologi penelitian yang digunakan dalam penulisan tugas akhir ini adalah sebagai berikut:

a. Studi Literatur

Penulis melakukan studi kepustakan melalui penelitan berupa buku jurnal maupun artikel-artikel yang relevan mengenai Machine Learning, curse of dimensionality, Backpropagation, Support Vector Machine, high dimensional data, visualisasi.

b. Analisis dan perancangan

Analisis masalah dimulai dengan tahap mengidentifikasi masalah, memahami cara kerja sistem yang akan dibuat, menganalisis dan membuat laporan tentang hasil analisis, dan perancangan yang dimaksud adalah menggambarkan sistem menggunakan flowchart.

c. Implementasi

Metode ini dilaksanakan dengan mengimplementasikan rancangan sistem yang telah dibuat pada implementasi sistem menggunakan MATLAB R2010a.


(21)

d. Pengujian

Metode ini dilaksanakan dengan melakukan pengujian terhadap sistem yang telah dibangun.

e. Dokumentasi

Metode ini dilaksanakan dengan membuat dokumentasi dalam bentuk laporan tugas akhir.

1.7. Sistematika Penulisan

Penulisan skripsi ini menggunakan sistematika penulisan yang membagi pembahasan skripsi dalam lima bagian utama, yang terdiri atas:

BAB 1 PENDAHULUAN

Pada bab ini merupakan pendahuluan yang berisi latar belakang, rumusan masalah, tujuan penelitian, batasan masalah, metodologi penelitian, dan sistematika penulisan skripsi.

BAB 2 LANDASAN TEORI

Pada bab ini membahas mengenai teori-teori yang digunakan untuk memahami permasalahan yang berkaitan dengan machine learning, Backpropagation, Support Vector Machine, curse of dimensionality, visualisasi data.

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

Pada bab ini berisikan analisis mengenai metode yang digunakan untuk menyelesaikan masalah dan perancangan dari sistem yang dibangun.


(22)

BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM

Pada bab ini dibahas cara kerja sistem beserta proses pengujian terhadap sistem yang telah dikembangkan

BAB 5 KESIMPULAN DAN SARAN

Pada bab ini dibuat mengenai rangkuman dari hasil analisis dan implementasi kerja sistem pada bagian sebelumnya, dan pada bagian ini terdapat saran yang diberikan untuk pengembangan sistem selanjutnya.


(23)

BAB 2

LANDASAN TEORI

Dalam bab ini dibahas teori yang digunakan sebagai landasan pengerjaan Support Vector Backpropagation. Pembahasan bertujuan untuk menguraikan teori dan algoritma yang digunakan dalam Support Vector Backpropagation dalam upaya mengurangi pengaruh curse of dimensionality dan menciptakan visualisasinya.

2.1. Data Mining

Data mining merupakan teknologi dalam menggabungkan metoda analisis tradisional dengan algoritma yang canggih untuk memproses data dengan volume besar. Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi dalam sebuah database. Data mining merupakan proses semi automatic yang menggunakan statistika, matematika, kecerdasan buatan dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang bermanfaat yang tersimpan dalam database besar.

Analisis yang diautomatisasi yang dilakukan oleh data mining melebihi yang dilakukan oleh sistem pendukung keputusan tradisional yang sudah banyak digunakan. Data mining dapat menjawab pertanyaan-pertanyaan bisnis yang dengan cara tradisional memerlukan waktu dan biaya yang banyak. Data mining mengeksplorasi database untuk menemukan pola-pola tersembunyi, mencari informasi untuk memprediksi yang mungkin saja terlupa oleh para pelaku bisnis karena diluar ekspektasi mereka.


(24)

2.2. Support Vector Machine

Pattern recognition merupakan salah satu bidang dalam computer science yang memetakan suatu data ke dalam konsep tertentu yang telah didefinisikan sebelumnya. Konsep tertentu ini disebut class atau category. Aplikasi pattern recognition sangat luas, diantaranya mengenali suara dalam sistem security, membaca huruf dalam Optical Character Recognition, mengklasifikasi penyakit secara otomatis berdasarkan hasil diagnosa kondisi medis pasien dan sebagainya. Berbagai metode dikenal dalam pattern recognition, seperti Linear Discriminant Analysis, Hidden Markov hingga metode kecerdasan buatan seperti artificial neural network. Salah satu metoda yang akhir-akhir ini banyak mendapat perhatian sebagai state of the art dalam pattern recognition adalah Support Vector Machine. Support Vector Machine dikembangkan oleh Boser dan Guyon, dan pertama kali dipresentasikan pada tahun 1992 pada Annual Workshop on Computational Learning Theory ( Boser & Guyon, 1992 ). Konsep dasar Support Vector Machine sebenarnya merupakan kombinasi harmonis dari teori-teori komputasi yang telah ada puluhan tahun sebelumnya, seperti Margin Hyperplane ( Duda & Hart, 1973 ), sebagaimana yang telah dijelaskan oleh Thomas M. Cover yang menmbahas tentang large margin hyperplanes dan juga persebarannya pada feature space ( Cover, 1965 ), selanjutnya oleh Vapnik dan Chervonenkis mengembangkan lebih lanjut mengenai generalized portrait algorithm ( Vapnik & Chervonenkis, 1964 ), sementara konsep dan teori kernel diperkenalkan oleh Aronszajn tahun 1950 ( Aronszajn, 1950 ) dan oleh Aizerman dan Braverman serta Rozoner memperkenalkan interpretasi geometri oleh kernel sebagai inner product pada sebuah feature space ( Aizerman et al, 1964 ), dan demikian juga dengan konsep-konsep pendukung lainnya. Akan tetapi hingga tahun 1992, belum pernah ada upaya merangkaikan komponen-komponen tersebut. Berbeda dengan strategi neural network yang berusaha mencari hyperplane pemisah antar class, Support Vector Machine berusaha menemukan hyperplane terbaik pada input space. Prinsip dasar Support Vector Machine adalah linear classifier, dan selanjutnya dikembangkan agar dapat bekerja pada problem non-linear dengan memasukkan konsep kernel trick pada ruang kerja berdimensi tinggi ( Vapnik, 1995 ). Perkembangan ini memberikan rangsangan minat penelitian dalam bidang pattern


(25)

recognition untuk meng-investigasi potensi kemampuan Support Vector Machine secata teoritis maupun dari segi aplikasi. Dewasa ini Support Vector Machine telah berhasil diaplikasikan dalam problema dunia nyata, dan secara umum memberi solusi yang lebih baik dibandingkan metoda konvensional seperti misalnya artificial neural network.

Support Vector Backpropagation adalah pengembangan dari Support Vector Machine, digunakan untuk mengatasi curse of dimensionality yang selalu menjadi constraint dalam proses cluster sebuah high dimensional data. Support Vector Backpropagation memanfaatkan konsep jaringan syaraf tiruan dengan algoritma backpropagation untuk mentransformasikan high dimensional dataset menjadi low dimensional dataset.

2.2.1. Support Vector Backpropagation

Penulis memperkenalkan sebuah pendekatan baru dalam klasifikasi high dimensional data bernama Support Vector Backpropagation yang mengimplementasikan backpropagation sebagai feature reductor pada Support Vector Machine sehingga curse of dimensionality yang selalu ditemukan dalam proses cluster pada high dimensional dataset dapat diatasi, penulis mendapati bahwa penggunaan jaringan syaraf tiruan khususnya algoritma Backpropagation dapat dimanfaatkan dalam mempelajari pola input seperti yang telah dikemukakan oleh Geofrey E. Hinton ( Hinton, 2006 ) dan kemudian dapat memberikan sebuah titik penanda ( classifier point ) berupa nilai low dimensional yang merepresentasikan pola input dalam keadaan awal ( high dimensional data ) sehingga proses cluster akan dilakukan pada nilai low dimensional dan bukan pada nilai high dimensional. Proses cluster pada Support Vector Backpropagation diawali dengan proses transformasi dataset oleh jaringan syaraf tiruan sehingga diciptakan sebuah dataset pengganti dalam low dimensional, dengan dataset pengganti ini proses cluster akan dilakukan secara normal oleh Support Vector Machine. Berikut adalah flowchart Support Vector Backpropagation:


(26)

START

Inisialisasi Bobot JST

Feedforwardpropagation High

Dimensional Training Data

Output == Target

Backpropagation

Bobot JST yang baru

No Yes

Low Dimensional Training Data

Similarity Function (radial basis function)

Update Bobot Support Vector

Machine Hitung

Bobot x similarity function

MSE terkecil?

Output cluster

End

no yes

Bobot Support Vector

Machine


(27)

2.2.1.1. Aristektur Support Vector Backpropagation

Support Vector Backpropagation memiliki arsitektur yang unik karena menggabungkan sebuah jaringan syaraf tiruan sebagai transformator yang akan meng-ubah semua dataset yang di-inputkan menjadi low dimensional dataset, penetuan jumlah neuron dan layer jaringan syaraf tiruan dalam Support Vector Backpropagation tidak memerlukan ketentuan khusus, seluruh proses yang terjadi sama halnya dengan algoritma Backpropagation biasa. Berikut gambar arsitektur Support Vector Backpropagation:

x11 x12 x13 x14

x21 x22 x23 x24

x31 x32

SVM

Ouput


(28)

2.2.1.2. Algoritma Support Vector Backpropagation

Algoritma Support Vector Backpropagation terbagi kedalam 2 fase, fase pertama adalah fase transformasi yang dilakukan oleh Backpropagation untuk kemudian di-cluster menggunakan Support Vector Machine. Berikut ini adalah algoritma Support Vector Backpropagation:

1. Proses tranformasi menggunakan Backpropagation 1. Inisialisasi bobot

Proses inisialisasi bobot pada jaringan syaraf tiruan digunakan untuk memberi nilai awal bobot berupa nilai acak dan sangat kecil, diperlukan nilai epsiloninit dalam penentuan bobot awal, nilai ini digunakan untuk

symmetry breaking yang seringkali menjadi constraint bagi jaringan syaraf tiruan dalam proses learning, nilai bobot awal yang dihasilkan akan selalu berada disekitar niali epsiloninit. Berikut adalah persamaan yang digunakan

dalam inisialisasi bobot yang digunakan dalam jaringan syaraf tiruan:

(2.1)

keterangan:

l = layer (l = 1,2,3,…,n)

2. Feedforwardpropagation

Proses selanjutnya yang dilakukan oleh Backpropagation adalah feedforwardpropagation, ini dilakukan dengan cara mengitung jumlah bobot dan nilai input pada masing-masing neuron dan kemudian dihitung nilai aktivasinya, seperti yang dijelaskan pada persamaan berikut:


(29)

keterangan:

= neuron ke -i layer ke-l (i,j = 1,2,3,…,n) = bobot neuron ke-i layer ke-l (i,j = 1,2,3,…,n) = input neuron ke-i layer ke-l (i,j = 1,2,3,…,n)

Dimana nilai fungsi aktivasi pada masing-masing neuron adalah sebagai berikut:

(2.3) keterangan:

= nilai aktivasi neuron ke-i layer ke-l (i,j = 1,2,3,…,n) = neuron ke -i layer ke-l (i,j = 1,2,3,…,n)

Dimana nilai fungsi aktivasi menggunakan fungsi sigmoid biner sebagai berikut:

(2.4)

keterangan:


(30)

3. Hitung nilai Mean Square Error

Setelah semua nilai aktivasi pada masing-masing neuron pada tiap layer didapat maka selanjutnya akan dihitung nilai Mean Square Error nya menggunakan learing rate (lambda), nilai Mean Square Error terkecil menandakan bahwa jaringan syaraf tiruan telah berhasil menemukan pola dan bobot yang akan digunakan dalam proses transformasi, adapun persamaan Mean Square Error adalah sebagai berikut:

(2.5) keterangan:

= output ke-i layer ke-l (i,j = 1,2,3,…,n)

= nilai aktivasi neuron ke-i layer ke-l (i,j = 1,2,3,…,n) lambda = learning rate

m = banyaknya sample

4. Hitung nilai error

Dikarenakan nilai output neuron pada output layer tidak sama dengan target yang diinginkan maka selanjutnya dihitung nilai error-nya, nilai error meupakan selisih antara output dengan target, nilai error terbagi dua yaitu nilai error pada output layer dan hidden layer dan tidak ada nilai error yang dicari pada input layer, perhitungan nilai output layer dijelaskan pada persamaan berikut:


(31)

Nilai error pada output layer:

(2.6) Nilai error pada hidden layer:

(2.7) keterangan:

= nilai error pada output layer

= nilai aktvasi neuron ke-i pada output layer (i = 1,2,3,…,n) = nilai error pada hidden layer

= bobot neuron hidden layer

Dimana nilai sigmoidGradients didapat dengan cara turunan pertama fungsi sigmoid yaitu:

(2.7)

Dimana nilai fungsi sigmoid didapat pada persamaan (2.4)

5. Hitung nilai Thetagrad

Setelah diperoleh nilai error pada masing-masing neuron output layer dan hidden layer, maka proses berikutnya adalah menghitung nilai Thetagrad menggunakan persamaan berikut:


(32)

(2.8)

keterangan:

= Thetagrad layer ke-l (l = 1,2,3,…,n)

= nilai error neuron ke-i layer ke-l (i,j = 1,2,3,…,n)

6. Update bobot jaringan syaraf tiruan

Setelah didapat nilai Thetagradmaka akan didapat bobot jaringan syaraf

terbaru yang akan di-iterasi sehingga mendapatkan bobot yang optimal menggunakan persamaan berikut:

(2.9) keterangan:

= bobot neuron ke-i layer-l (i,l = 1,2,3,…,n)

= Thetagradneuron ke-i layer-l (i,l = 1,2,3,…,n)

2. Proses cluster menggunakan Support Vector Machine 1. Penentuan nilai kernel

Proses cluster menggunakan Support Vector Machine diawali dari proses menghitung similarity function mangunakan radial basis function, yang didapat menggunakan persamaan berikut:

(2.10)

keterangan:

= similarity function ke-i (i = 1,2,3,…,n) feature x training sample


(33)

= landmark x

y = feature y training sample = landmark y

= variance

2. Penentuan nilai cost

Setelah didapat nilai similarity function, maka kita akan melakukan summation pada masing input feature dengan bobot Support Vector Machine yang dihitung dengan persamaan:

(2.11) keterangan:

= cost sample ke-i pada similarity function ke-i = sample ke-i

= similarity function ke-i

3. Perhitungan Mean Square Error Support Vector Machine

Untuk mengetahui apakah sebuah classifier telah menemukan cluster yang tepat dapat dilihat dari nilai Mean Square Error minimum yang didapat dari persamaan (2.11) dengan persamaan berikut:

(2.12) keterangan:


(34)

= cost sample ke-i pada similarity function ke-i lambda = learning rate

m = banyaknya sample

2.3. High Dimensional Classification

Dalam aplikasi yang melibatkan klasifikasi dengan high dimensional dataset, salah satu permasalahan umum dalam tingkat praktiknya adalah kondisi yang disebut curse of dimensionality ( Bellman, 1957 ). Bagaimanapun, masalah utama ini melibatkan kondisi overfitting dan cara menyediakan jumlah training sample yang meningkat secara eksponensial. Masalah ini mudah dipahami jika kita membagi sebuah n-dimensional feature space kedalam sebuah n-n-dimensional hypercubes dengan resolusi yang konstan dalam tiap dimensi ( Bishop, 2006 ). Ketika kita melakukan ini, jumlah hypercubes akan meningkat secara eksponensial seiring jumlah dimensi. Oleh karena itu terlihat jelas bahwa persebaran data menjadi sebuah masalah dan teknik non-parametrik seperti metoda histogram menjadi tidak mungkin. Dalam banyak aplikasi, jumlah dimensi menjadi masalah yang tak terpisahkan dan terasa tidak realistis untuk menydiakan jumlah training sample yang dibutuhkan untuk mengimbangi persebaran data.

2.3.1. Curse of Dimensionality

Tools yang digunakan dalam analisis data berdasarkan pada prinsip pembelajaran dari pada pengetahuan, atau informasi dari training sample yang tersedia. Jelas sekali bahwa model yang dibangun hanya valid pada range atau volume sebanyak training sample yang tersedia. Bagaimanapun model yang dibangun, generalisasi pada data yang sangat berbeda dari semua titik pembelajaran adalah mustahil. Dengan kata lain, generalisasi yang relevan dimungkinkan dalam interpolation.

Salah satu kompinen kunci dalam pengembangan algoritma pembelajaran yang berhasil adalah tersedianya training sample yang cukup untuk mengisi semua space


(35)

dibagian mana model tersebut adalah valid. Dapat dilihat dengan mudah bahwa jika setiap constraint yang ada tidak mengalami perubahan maka jumlah training sample akan meningkat secara eksponensial seiring dimensinya. Kenaikan jumlah training sample secara eksponensial ini adalah apa yang disebut curse of dimensionality ( Bellman, 1957) dan juga dikemukakan lagi oleh Christopher M. Bishop ( Bishop, 2006 ).

Secara umum, curse of dimensionality adalah kondisi dari semua fenomena yang muncul dalam high dimensional dataset, dan yang paling sering menjadi penghalang dalam behavior dan performa sebuah learning algorithm.

2.3.2. Feature Selection

Salah satu cara dalam mengatasi curse of dimensionality ( yang seringkali mengakibatkan kondisi overfitting dikarenakan tingginya jumlah parameter r) adalah mereduksi jumlah dimensi pada tahap preprocessing. Dalam permasalahan high dimensional dataset seringkali didapat input variable didapati redundant, jika kita dapat menghapus semua variable yang redundant, sebuah classifier dapat saja melalui proses pembelajaran dalam low dimensional dataset.

Feature selection membutuhkan pengenalan pada ukuran persebaran yang menjelaskan perbedaan nilai antara variable input yang digunakan. Ukuran persebaran data yang ideal adalah Bayes error rate dalam permasalahan klasifikasi. Sayangnya, jumlah training sample yang dibutuhkan akan selalu berubah setiap proses feature selection.

Jika ukruan persebaran yang idela telah didapat, proses ini masih saja memerlukan jumlah input variable yang optimal, ini dapat dicapai dengan mencari segala kemungkinan input variable yang telah ditetapkan, sebuah metoda brute force dapat digunakan dan salah satu yang paling sederhana adalah sequential forward dan backward selection.


(36)

BAB 3

ANALISIS DAN PERANCANGAN SISTEM

Pada bab ini akan dijelaskan proses analisis dan perancangan sistem yang digunakan dalam penelitian ini, dimulai dari pengumpulan data serta proses cluster-isasi pada masing-masing dataset, sehingga alur sistem yang dirancang akan dapat dipahami proses pembutannya.

3.1. Pengumpulan Data Pelatihan

Langkah-langkah pengumpulan data untuk penelitian ini adalah sebagai berikut: 1. Membuat rancangan data input dan output yang akan dimasukkan sebagai data

pelatihan dan pengujian. Semua sample diimplementasikan dalam tipe data numeric dan logic. Dalam penelitian ini sample dapat memiliki noise atau ketidak-lengkapan yang diharapkan Support Vector Backpropagation dapat meng-analisa sample walau terdapat noise. Pada penelitian ini akan digunakan dataset yang digunakan adalah Cleveland Heart Disease Dataset, Wisconsin Diagnosis Breast Cancer, Iris Plants Dataset, John Hopkins University Ionosphere Dataset.

2. Memisahkan data penelitian menjadi dua bagian, yaitu data pelatihan dan data pengujian. Data pelatihan digunakan untuk mengamati kemampuan jaringan dalam hal mengenali pola-pola yang telah dipelajari ( memorisasi ) sedang data pelatihan digunakan untuk mengamati kemampuan jaringan dalam hal mengenali pola-pola yang belum pernah dipelajari ( generalisasi ).


(37)

Tabel 3.1 Data Penelitian Year Donated 1988 1988 1989 1995 Area Life Life Object Life Associated Tasks Classification Classification Classification Classification Attribut Chcracterist ics Categorical, Integer, real Integer, real Categorical, Integer, real Categorical, Integer, real #Instances 297 150 351 699 # Attributes 14 5 35 10 Dataset Characteristics Multivariate Numeric Multivariate Multivariate Dataset Name

Cleveland Heart Disease Dataset

Iris Plants Dataset

John Hopkins University Ionosphere Dataset

Wisconsi Diagnostic Breast Cancer Dataset

Universitas

Sumatera


(38)

3.2. Cluster-isasi Pada Iris Plants Dataset

Dataset ini adalah salah satu dataset yang paling tua dan juga paling banyak digunakan dalam banyak buku dan jurnal penelitian dalam data mining. Dataset ini merupakan hasil pekerjaan dari Sir. R. A. Fisher pada tahun 1988 yang terdiri dari 4 buah feature dari sebuah bunga iris, dataset ini terdiri dari 150 sample yang terbagi atas instance iris setosa sebanyak 50 sample, instance iris virginica sebanyak 50 sample dan instance iris versicolor sebanyak 50 sample ( Fisher, 1988 ) yang dijelaskan secara singkat dalam tabel berikut:

Tabel 3.2 Training Sample Iris Plants Dataset

sample# Sepal Length

Sepal Width

Petal Length

Petal Width Target

1 5,1 3,5 1,4 0,2 Iris Setosa

… … … …

51 5,2 2,7 3,9 1,4 Iris Virginica

… … … …

120 6 3 4,8 1,8 Iris Versicolor

Berikut disertakan ringkasan dari masing-masing attribut dalam Iris Plants Dataset, seperti yang disajikan dalam tabel 3.3 berikut:

Tabel 3.3 Deskripsi Iris Plants Dataset

Attribute Name

Attribute

Type Max Min Mean

Standard Deviasi sepal length real 7,9 4,3 5,8433 0,8281 sepal width real 4,4 2 3,0540 0,4336 petal length real 6,9 1 3,7587 1,7644 petal width real 2,5 0,1 1,1987 0,7632


(39)

Proses cluster pada Iris Plants Dataset diawali dengan penentuan kernel yang digunakan yaitu radial basis function, pertimbangan penggunaan kernel ini adalah kenyataan bahwa dataset di cluster secara non-linear, berikut akan dijelaskan pada proses cluster pada Iris Plants Dataset:

Berikut adalah contoh proses cluster pada sebuah sample bunga iris: sepal length = 5,1

sepal width = 4,9 petal length = 4,7 petal width = 4,6

sehingga x = [5,1 4,9 4,7 4,6] akan di-cluster terhadap beberapa landmark yang ada, yaitu:

Dengan menggunakan standard deviasi = 0,8441, menggunakan persamaan (2.10) maka:

Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a dalam perhitungan me-minimisasi nilai pada fungsi pada persamaan (2.12) untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki oleh , dan . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses cluster pada training sample dan landmark pada Iris Plants Dataset:


(40)

Tabel 3.4 Cluster Pada Iris Plants Dataset

sample 1 2 3 … 51 52 53 … 101 102 103

1 1 0,5 0.7 … 0,02 0 0,022 … 0 0 0

2 0,5 1 0.8 … 0,08 0,02 0,03 … 0,002 0 0 3 0,7 0,87 1 … 0,04 0,006 0,02 … 0 0 0

… … … …

51 0,02 0,08 0,04 … 1 0,23 0,5 … 0,27 0,02 0,5 52 0,0009 0,02 0,006 … 0,23 1 0,03 … 0,25 0 0,04 53 0,02 0,03 0,02 … 0,54 0,03 1 … 0,17 0,18 0,63

… … … …

101 0,0002 0,002 0,006 … 0,27 0,25 0,17 … 1 0,02 0,28 102 0,0001 0,0001 0 … 0,02 0 0,18 … 0,02 1 0,1 103 0,0021 0,005 0,003 … 0,54 0,04 0,63 … 0,28 0,16 1

keterangan:

= instance iris setosa = instance iris versicolor = instance iris virginica

= sample dengan nilai similarity function = 1

Hasil cluster-isasi didapat bahwa dalam Iris Plants Dataset terdapat 50 sample termasuk dalam class iris setosa, 50 sample termasuk dalam class iris versicolor dan 50 sample termasuk dalam class iris virginica.


(41)

3.3. Cluster-isasi Pada Wisconsin Diagnostic Breast Cancer Dataset

Wisconsin Diagnostic Breast Cancer Dataset pertama sekali diteliti dalam hasil penelitian yang dituangkan dalam jurnal ilmiah oleh O.L. Mangasarian, W.N. Street dan W.H. Wolberg pada tahun 1995, dataset ini awalnya terdiri dari 30 input features yang kemudian telah direduksi oleh para peneliti selama ini menjadi hanya 10 input features antara lain: radius, perimeter, area, smoothness, compactness, concavity, concave points, symmetry, fractal dimension yang keseluruhan nilainya didapat dari hasil komputerisasi dari sebuah gambar fine needle aspirate ( FNA ) dari sebuah breast mass yang telah dikomputerisasi untuk dapat diketahui apakah sample tersebut termasuk dalam class benign ataupun malignant ( Wollberg et al, 1995 ). Berikut adalah deskripsi dari Wisconsin Diagnostic Breast Cancer Dataset:


(42)

Tabel 3.5 TrainingSample Wisconsin Diagnostic Breast Cancer Dataset Target Malignant Malignant … Benign … Benign symmet ry 1 1 … 1 … 3 concave point 1 2 … 10 … 8 concav 3 3 … 9 … 7 compactne 1 10 … 10 … 8 smotth ness 2 7 … 5 … 5 area 1 5 … 5 … 3 perimeter 1 4 … 8 … 10 texture 1 4 … 7 … 5 radius 5 5 … 8 … 10 sample# 1 2 … 484 … 606 Universitas Sumatera Utara


(43)

Berikut disertakan ringkasan dari masing-masing attribut dalam Wisconsin Diagnostic Breast Cancer Dataset, seperti yang disajikan dalam tabel 3.6 berikut:

Tabel 3.6 Deskripsi Wisconsin Diagnostic Breast Cancer Dataset

Attribute Name

Attribute

Type Max Min Mean

Standard Deviasi

radius real 10 1 4,4500 2,8243

texture real 10 1 3,1206 3,0228

perimeter real 10 1 3,1985 2,9443

area real 10 1 2,8088 2,8557

smoothness real 10 1 3,2265 2,2328 compactness real 10 1 3,5441 3,6429 concavity real 10 1 3,4397 2,4069 concave

points

real 10 1 2,8647 3,0570

symmetry real 10 1 1,5809 1,7057

class categorical 1 0 N/A N/A

Proses cluster pada Wisconsin Diagnostic Breast Cancer Dataset menggunakan Support Vector Machine dengan menggunakan radial basis function sebagai kernel sama seperti proses cluster pada Iris Plants Dataset yang telah dilakukan pada BAB 3, proses cluster pada Wisconsin Diagnostic Breast Cancer Dataset menggunakan 9 features yang akan dihitung nilai similarity nya untuk dapat menentukan apakah sebuah sample breast cancer termasuk dalam class benign ataupun malignant, pada banyak percobaan semakin banyak feature yang akan dihitung nilai similarity-nya maka akan semakin sulit ditemukan cluster-nya seperti yang terlihat pada proses berikut:


(44)

Berikut adalah contoh proses cluster pada sebuah training sample pada Wisconsin Diagnostic Breast Cancer Dataset:

radius = 5 texture = 1 perimeter = 1 area = 1 smootness = 2 compactness = 1 concavity = 3 concave points = 1 symmetry = 1

sehingga didapat x = [5 1 1 1 2 1 3 1 1] yang akan di-cluster terhadap beberapa landmark yang ada, yaitu:

Dengan menggunakan nilai standard deviasi = 2,8 maka proses perhitungan similarity function pada persamaan (2.10) adalah sebagai berikut:

Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a dalam perhitungan me-minimisasi nilai pada fungsi pada persamman (2.12) untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki oleh . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses cluster pada training sample dan landmark pada Wisconsin Diagnostic Breast Cancer Dataset:


(45)

Tabel 3.7 Cluster Pada Wisconsin Diagnostic Breast Cancer Dataset

Sample 1 250 455 653 … 13 280 474 531

1 1 0,77 0,29 0,86 … 0,2 0 0,66 0

250 0,77 1 0,48 0,67 … 0,18 0 0,66 0

455 0,29 0,48 1 0,35 … 0,07 0 0,56 0

653 0,86 0,67 0,35 1 … 0,24 0 0,81 0

… … … …

13 0,2 0,18 0,07 0,24 … 1 0 0,1 0,01

280 0 0 0 0 … 0 1 0 0

474 0,6 0,66 0,56 0,81 … 0 0 1 0

531 0 0 0 0 … 0 0 0 1

keterangan:

= instance benign

= sample dengan nilai similarity function = 1

Hasil cluster-isasi didapat bahwa dalam Wisconsin Diagnostic Breast Cancer Dataset terdapat 357 sample termasuk dalam class benign, dan 212 sample termasuk dalam class malignant.

3.4. Cluster-isasi Pada Cleveland Heart Disease Dataset

Cleveland Heart Disease adalah dataset yang berkaitan dengan diagnosis penyakit jantung, dataset ini merupakan hasil pengumpulan data oleh Robert Detrano pada tahun 1989 terdiri dari 76 input features yang telah direduksi menjadi 14 input features ( Detrano, 1988 ) dimana seluruh nilai attributnya adalah numeric antara lain: age, sex, chest pain type, resting blood pressure, serum cholesterol in mg/dl, fasting blood sugar>120 mg/dl, resting electrocardiographic result, maximum heart rate achieved, exercise induced angina, ST depression induced by exercise relative to rest, the slope of the peak exercise ST segment, number of major vessels ( 0-3 ) colored by florousopy, heart rate, diagnosis of heart disease. Berikut disajikan tabel deskripsi Cleveland Heart Disease Dataset:


(46)

Tabel 3.8 TrainingSample Cleveland Heart Disease Dataset Target Positif Sakit Jantung … Positif Sakit Jantung … Negatif Sakit Jantung … Negatif Sakit Jantung thal 3 … 7 … 3 … 7 ca 3 … 3 … 0 … 1 slope 2 … 3 … 1 … 2 oldpeak 1,5 … 6,2 … 0 … 0,2 exang 1 … 0 … 0 … 1 thala c 108 … 145 … 179 … 105 rest c 2 … 2 … 0 … 0 fbs 0 … 0 … 0 … 0 chol 286 … 164 … 250 … 263 trest 160 … 160 … 112 … 128 cp 4 … 4 … 3 … 4 sex 1 … 0 … 1 … 1 age 67 … 62 … 41 … 64 Sample # 2 … 91 … 147 … 250 Universitas Sumatera Utara


(47)

Berikut disertakan ringkasan dari masing-masing attribut dalam Cleveland Heart Disease Dataset, seperti yang disajikan dalam tabel 3.9 berikut:

Tabel 3.9 Deskripsi Cleveland Heart Disease Dataset

Attribute Name

Attribute

Type Max Min Mean

Standard Deviasi

age integer 77 29 54,5421 9,0497

sex logical 1 0 N/A N/A

cp integer 4 1 3,1582 0,9649

trestbps integer 200 94 131,6936 17.7628 chol integer 564 126 247,3502 51,9976

fbs logical 1 0 N/A N/A

restecg logical 2 0 N/A N/A

thalach integer 202 71 149,5993 22,9416

exang logical 1 0 N/A N/A

oldpeak real 6,2 0 1,0556 1,1661

slope categorical 3 1 N/A N/A

ca categorical 3 0 N/A N/A

thal categorical 7 0 N/A N/A

class categorical 1 0 N/A N/A

Proses cluster pada Cleveland Heart Disease Dataset menggunakan Support Vector Machine dengan menggunakan radial basis function sebagai kernel sama seperti proses cluster pada Iris Plants Dataset yang telah dilakukan pada BAB 3 dengan menggunakan, proses cluster pada Cleveland Heart Disease Dataset menggunakan 14 features yang akan dihitung nilai similarity nya untuk dapat menentukan apakah sebuah sample terindikasi penyakit jantung atau tidak. Berikut disajikan proses cluster pada Cleveland Heart Disease Dataset:


(48)

Berikut adalah contoh proses cluster pada sebuah training sample pada Cleveland Heart Disease Dataset:

age = 63 sex = 1 cp = 1

trestbps = 145 chol = 233 fbs =1 restecg = 2 thalach= 150 exang = 0 oldpeak = 2,3 slope = 3 ca = 0 thal = 6

sehingga didapat x = [63 1 1 145 233 1 2 150 0 2,3 3 0 6] yang akan di-cluster terhadap beberapa landmark yang ada, yaitu:

Dengan menggunakan nilai standard deviasi = 1,1 maka proses perhitungan similarity function pada persamaan (2.10) adalah sebagai berikut:


(49)

Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a dalam perhitungan me-minimisasi nilai pada fungsi pada persamman (2.12) untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki oleh , . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses cluster pada training sample dan landmark pada Cleveland Heart Disease Dataset:

Tabel 3.10 Cluster Pada Cleveland Heart Disease Dataset

sample 3 25 63 77 2 91 180 244

3 1 0,55 0,28 0,3 … 0 0 0 0

25 0,55 1 0,54 0,29 … 0 0 0 0

63 0,28 0,54 1 0,06 … 0 0 0 0

77 0,3 0,29 0,06 1 … 0 0 0 0

… … … …

2 0 0 0 0 … 1 0,5 0,41 0,44

91 0 0 0 0 … 0,5 1 0,38 0,26

180 0 0 0 0 … 0,41 0,38 1 0,61

244 0 0 0 0 … 0,44 0,26 0,61 1

keterangan:

= instance positif sakit jantung = instance negatif sakit jantung

= sample dengan similarity function = 1

Hasil cluster-isasi didapat bahwa dalam Cleveland Heart Disease Dataset terdapat 164 sample termasuk dalam class positif terkena penyakit jantung, dan 139 sample termasuk dalam class negative terkena penyakit jantung.


(50)

3.5. Cluster-isasi Pada John Hopkins University Ionosphere Dataset

John Hopkins University Ionosphere Dataset adalah sebuah dataset yang dikumpulkan oleh Vince Sigillito pada tahun 1989 yang bersumber dari Space Physics Group Applied Physics Laboratory John Hopkins University terdiri dari 35 input features dari rangakaian 16 antenna frekuensi tinggi dengan total energi yang dialirkan pada tingkat 6,4 kilowatts ( Sigillito, 1989 ). Target pada dataset ini adalah elektron bebas pada ionosphere yang menunjukkan kondisi baik jika masih terdapat elektron bebas pada ionosphere dan menunjukkan kondisi buruk jika sebaliknya. Berikut disajikan deskripsi John Hopkins University Ionosphere Dataset:


(51)

Tabel 3.11 TrainingSample John Hopkins University Ionosphere Dataset 35 Good … Good … Bad … Bad 34 -0,4 … 0 … 0,2 … 0 33 0,1 … 0,7 … -0,1 … 0 32 -0,5 … 0 … 0,3 … 0 31 -0,5 … 0 … 0,3 … 0 30 0,4 … 0,7 … 0 … 0 29 -0,3 … 0,2 … 0,1 … 0 28 0,2 … 1 … -0,1 … 0 27 -0,4 … 0 … 0,2 … 0,2 26 0,4 … 0,8 … 0 … 1 25 -0,5 … -0,1 … 0,2 … 0 24 0,5 … 0,8 … 0 … 0 23 -0,4 … 0,1 … 0,2 … -1 22 0,3 … 0,7 … 0 … 1 21 -0,2 … 0 … 0 … 0 20 0,5 … 0,6 … 0,2 … 0 19 -0,3 … 0 … 0,2 … -1 18 0,5 … 1 … 0 … -1 17 -0,3 … 0 … 0,3 … 0 16 0,8 … 0,8 … 0 … 0 15 -0,3 … 0 … 0,2 … -0,1 Universitas Sumatera Utara


(52)

14 0,6 … 0,7 … 0 … -0,1 13 -0,4 … 0,1 … 0,3 … 0,3 12 0,5 … 0,8 … 0,2 … 1 11 -0,1 … 0 … 0,2 … 0 10 0,8 … 0,9 … 0,1 … 0 9 0 … 0 … 0,1 … 1 8 1 … 0,8 … 0,2 … -1 7 -0,3 … 0,2 … 0,2 … 0 6 0,8 … 0,7 … 0,2 … 0 5 0,8 … -0,1 … 0,07 … 0 4 -0,05 … 0,2 … 0,1 … 0 3 0,9 … 0,9 … 0,3 … 0 2 0 … 0 … 0 … 0 1 1 … 1 … 1 … 1 radar# sample# 1 … 178 … 237 … 253 Universitas Sumatera Utara


(53)

Berikut disertakan ringkasan dari masing-masing attribut dalam John Hopkins University Ionosphere Dataset, seperti yang disajikan dalam tabel 3.12 berikut:

Tabel 3.12 Deskripsi John Hopkins University Ionosphere Dataset

Attribute Name

Attribute

Type Max Min Mean

Standard Deviasi

radar 1 real 1 0 0,8733 0,3112

radar 2 real 0 0 0 0

radar 3 real 1 -1 0,6110 0,4977

radar 4 real 1 -1 0,0258 0,4414

radar 5 real 1 -1 0,5705 0,5199

radar 6 real 1 -1 0,0989 0,4608

radar 7 real 1 -1 0,5332 0,4927

radar 8 real 1 -1 0,0858 0,5207

radar 9 real 1 -1 0,5103 0,5071

radar 10 real 1 -1 0,1592 0,4839

radar 11 real 1 -1 0,4891 0,5635

radar 12 real 1 -1 0,1311 0,4948

radar 13 real 1 -1 0,4165 0,6222

radar 14 real 1 -1 0,0707 0,4949

radar 15 real 1 -1 0,3609 0,6528

radar 16 real 1 -1 0,0617 0,4584

radar 17 real 1 -1 0,4033 0,6180

radar 18 real 1 -1 -0,0045 0,4968

radar 19 real 1 -1 0,3726 0,6263

radar 20 real 1 -1 -0,0154 0,5191

radar 21 real 1 -1 0,3321 0,6098

radar 22 real 1 -1 0,0390 0,5182

radar 23 real 1 -1 0,3511 0,6038

radar 24 real 1 -1 -0,0357 0,5275


(54)

radar 26 real 1 -1 -0,0486 0,5085

radar 27 real 1 -1 0,53524 0,5162

radar 28 real 1 -1 -0,0533 0,5500

radar 29 real 1 -1 0,3360 0,5759

radar 30 real 1 -1 -0,0170 0,5080

radar 31 real 1 -1 0,3049 0,5715

radar 32 real 1 -1 0,0065 0,5136

radar 33 real 1 -1 0,3037 0,5227

radar 34 real 1 -1 0,0175 0,4683

class categorical 1 0 N/A N/A

Proses cluster pada John Hopkins University Ionosphere Dataset menggunakan Support Vector Machine dengan menggunakan radial basis function sebagai kernel sama seperti proses cluster pada Iris Plants Dataset yang telah dilakukan pada BAB 3, proses cluster pada John Hopkins University Ionosphere Dataset menggunakan 34 features yang akan dihitung nilai similarity nya untuk dapat menentukan apakah sebuah sample dalam kondisi baik atau buruk. Berikut disajikan proses cluster pada John Hopkins University Ionosphere Dataset:

Berikut adalah contoh proses cluster pada sebuah training sample pada John Hopkins Ionosphere Dataset:

radar1 = 1 radar8 = -0,3 radar15 = 0,6 radar22 = -0,2 radar29 =0,2 radar2 = 0 radar9 = 1 radar16 = -0,3 radar23 =0,3 radar30 =-0,3 radar3 = 0,9 radar10 = 0,03 radar17 = 0,8 radar24 =-0,4 radar31 =0,4 radar4 = -0,05 radar11 = 0,8 radar18 = -0,3 radar25 =0,5 radar32 =-0,5 radar5 = 0,8 radar12 = -0,1 radar19 = 0,5 radar26 =-0,5 radar33 =0,1 radar6 = 0,02 radar13 = 0,5 radar20 = -0,3 radar27 =0,4 radar34 =-0,4 radar7 = 0,8 radar14 = -0,4 radar21 = 0,5 radar28 =-0,4


(55)

Training sample akan di-cluster terhadap landmark menggunakan standard deviasi = 0,5 pada persamaan (2.10), sehingga akan diperoleh nilai similarity function sebagai berikut:

Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a dalam perhitungan me-minimisasi nilai pada fungsi pada persamaan (2.12) untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki oleh , , . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses cluster pada training sample dan landmark pada John Hopkins University Ionosphere Dataset:


(56)

Tabel 3.13 Cluster Pada John Hopkins University Ionosphere Dataset

sample 1 4 9 11 2 7 22 28

1 1 0,68 1 0,42 … 0 0 0 0

4 0,68 1 1 0,42 … 0 0 0 0

9 1 1 1 0,42 … 0 0 0 0

11 0,42 0,42 0,42 1 … 0 0 0 0

… … … …

2 0 0 0 0 … 1 0,32 0,98 0,68

7 0 0 0 0 … 0,32 1 0,22 0,06

22 0 0 0 0 … 0,98 0,22 1 0,78

28 0 0 0 0 … 0,68 0,06 0,78 1

keterangan:

= instance tidak ada electron bebas pada ionosphere = instance ada electron bebas pada ionosphere = sample dengan nilai similarity function = 1

Hasil cluster-isasi didapat bahwa dalam John Hopkins University Ionosphere Dataset terdapat 174 sample termasuk dalam class kondisi baik, dan 126 sample termasuk dalam class kondisi baik.

3.6. Konfigurasi Support Vector Backpropagation

Setelah seluruh dataset di-cluster pada masing-masing class, maka langkah selanjutnya adalah merancang konfigurasi Support Vector Backpropagation yang di-setting secara unik pada masing-masing dataset, berikut disajikan konfigurasi Support Vector Backpropagation yang digunakan dalam penelitian ini:

1. Konfigurasi Support Vector Backpropagation pada Iris Plants Dataset

Konfigurasi Support Vector Backpropagation pada Iris Plants Dataset menggunakan jaringan syaraf tiruan dengan 4 buah neuron input dengan 1 buah hidden layer dengan 4 buah neuron dengan 2 buah neuron pada output


(57)

layer beserta property khusus yang digunakan Support Vector Backpropagation seperti yang dijelaskan dalam tabel berikut:

Tabel 3.14 Konfigurasi Support Vector Backpropagation Pada Iris Plants Dataset

x11 x12 x13 x14

x21 x22 x23 x24

x31 x32

SVM

Ouput

Gambar 3.1 Arsitektur Support Vector Backpropagation Pada Iris Plants Dataset

Backpropagation Segment

Input layer 4 neurons

Hidden layer 4 neurons

Output layer 2 neurons

Bobot layer pertama Matriks 4 baris x 5 kolom Bobot layer kedua Matriks 2 baris x 5 kolom Fungsi aktivasi Sigmoid biner

Learning rate 0.02

Tolerance function 1.0e-8 Fungsi minimisasi fmincg Support Vector Machine Segment

Fungsi kernel Radial Basis Function


(58)

2. Konfigurasi Support Vector Backpropagation pada Wisconsin Diagnostic Breast Cancer Dataset

Konfigurasi Support Vector Backpropagation pada Wisconsin Diagnostic Breast Cancer Dataset menggunakan jaringan syaraf tiruan dengan 9 buah neuron pada input layer dan 5 buah neuron pada hidden layer dan 2 buah neuron pada output layer beserta property khusus yang digunakan dalam Support Vector Backpropagation seperti yang dijelaskan pada tabel berikut:

Tabel 3.15 Konfigurasi Support Vector Backpropagation Pada Wisconsin Diagnostic Breast Cancer Dataset

Backpropagation Segment

Input layer 9 neurons

Hidden layer 5 neurons

Output layer 2 neurons

Bobot layer pertama Matriks 5 baris x 9 kolom Bobot layer kedua Matriks 2 baris x 6 kolom Fungsi aktivasi Sigmoid biner

Learning rate 0.02

Tolerance function 1.0e-8 Fungsi minimisasi fmincg Support Vector Machine Segment

Fungsi kernel Radial Basis Function


(59)

x11 x12 x13 x14

x21 x22 x23 x24

x31 x 3

2

SVM

Ouput

x15 x17 x18 x19

x25

...

Gambar 3.2 Arsitektur Support Vector Backpropagation Pada Wisconsin Diagnostic Breast Cancer Dataset

3. Konfigurasi Support Vector Backpropagation pada Cleveland Heart Disease Dataset

Konfigurasi Support Vector Backpropagation pada Cleveland Heart Disease Dataset menggunakan jaringan syaraf tiruan dengan 13 buah neuron pada input layer dan 7 buah neuron pada hidden layer dan 2 buah neuron pada output layer serta beberapa property khusus yang digunakan pada Support Vector Backpropagation seperti yang dijalskan pada tabel berikut:


(60)

Tabel 3.16 Konfigurasi Support Vector Backpropagation Pada Cleveland Heart Disease Dataset

x11 x 1 2 x 1 3 x 1 4

x21 x22 x23 x24

x31 x 3

2

SVM

Ouput

x15 x

1 11 x 1 12 x 1 13

x25

...

x26 x27

Gambar 3.3 Arsitektur Support Vector Backpropagation Pada Cleveland Heart Disease Dataset

Backpropagation Segment

Input layer 13 neurons

Hidden layer 7 neurons

Output layer 2 neurons

Bobot layer pertama Matriks 7 baris x 14 kolom Bobot layer kedua Matriks 2 baris x 8 kolom Fungsi aktivasi Sigmoid biner

Learning rate 0.02

Tolerance function 1.0e-8 Fungsi minimisasi fmincg Support Vector Machine Segment

Fungsi kernel Radial Basis Function


(61)

4. Konfigurasi Support Vector Backpropagation pada John Hopkins University Ionosphere Dataset

Konfigurasi Support Vector Backpropagation pada John Hopkins University Ionosphere Dataset menggunakan jaringan syaraf tiruan dengan 34 buah neuron pada input layer, 17 neuron pada hidden layer, dan 2 buah neuron pada output layer beserta property khusus pada Support Vector Backpropagation seperti yang disajikan dalam tabel berikut:

Tabel 3.17 Konfigurasi Support Vector Backpropagation Pada John Hopkins University Ionosphere Dataset

Backpropagation Segment

Input layer 34 neurons

Hidden layer 17 neurons

Output layer 2 neurons

Bobot layer pertama Matriks 17 baris x 35 kolom Bobot layer kedua Matriks 2 baris x 18 kolom Fungsi aktivasi Sigmoid biner

Learning rate 0.02

Tolerance function 1.0e-8 Fungsi minimisasi fmincg Support Vector Machine Segment

Fungsi kernel Radial Basis Function


(62)

x11 x12 x13 x14

x21 x 2

2 x

2

3 x

2 4

x31 x32

SVM

Ouput

x15 x132 x133 x134

x25

...

x217 ...

Gambar 3.4 Arsitektur Support Vector Backpropagation Pada John Hopkins University Ionosphere Dataset


(63)

BAB 4

IMPLEMENTASI DAN PENGUJIAN

Pada bab ini akan dibahas hasil proses komputasi Support Vector Backpropagation yang dilakukan menggunakan program MATLAB R2010a. MATLAB R2010a merupakan software yang cocok dipakai sebagai alat komputasi yang melibatkan penggunaan matriks dan vector. Fungsi-fungsi dalam paket perangkat lunak (toolbox) Matlab R2010a dibuat untuk memudahkan perhitungan tersebut. Banyak model jaringan syaraf tiruan dan machine learning menggunakan manipulasi matriks atau vector dalam iterasinya. Oleh karena itu MATLAB R2010a merupakan perangkat lunak yang cocok dipakai dalam penelitian ini.

4.1. Proses Transformasi Iris Plants Dataset Oleh Support Vector Backpropagation

Proses transformasi Iris Plants Dataset yang memiliki 4 attributes menjadi sebuah dataset berdimensi rendah ( 2 dimensi ) mengharuskan proses transformasi memperhatikan persebaran data dalam dimensi ruang untuk menghindari overfitting penyebeb kegagalan proses cluster walaupun proses ini juga bergantung dari banyaknya sample pelatihan yang ditransformasi-kan namun diharapkan proses transformasi tetap dapat mempertahankan tingkat akurasi yang optimal, seperti proses transformasi sebuah sample pelatihan Iris Plants Dataset yang dilakukan oleh Support Vector Backpropagation berikut ini:


(64)

Tabel 4.1 Training Sample Iris Plants Dataset Sebelum Transformasi

Proses transformasi yang akan dilakukan pada seluruh sample pelatihan dalam Iris Plants Dataset seperti yang diwakili oleh proses transformasi pada sample tabel 4.1 diawali dengan penentuan bobot awal dengan nilai epsilon_init = 0,002 sesuai dengan persamaan (2.1), sehingga didapat bobot awal jaringan syaraf tiruan sebagai berikut:

Setelah didapat bobot awal jaringan syaraf tiruan maka dilakukan proses pembelajaran menggunakan feedforwardpropagation pada hidden layer seperti pada persamaan (2.2), didapat hasil sebagai berikut:

Selanjutnya nilai akan dicari nilai fungsi aktivasi-nya menggunkan sigmoid biner seperti pada persamaan (2.3), didapat hasil sebagai berikut:

sepal length sepal width petal length petal width Target


(65)

Selanjutnya nilai akan melewati proses fordwardpropagation pada output layer seperti pada persamaan (2.2), sehingga didapat hasil sebagai berikut:

Untuk kemudian didapatkan nilai fungsi aktivasi menggunakan fungsi sigmoid pada output layer seperti pada persamaan (2.3), sehingga didapat hasil sebagai berikut:

Karena a3 Target, maka langkah selanjutnya adalah menghitung nilai error pada output layer seperti pada secara backpropagation persamaan (2.6), sehingga didapat hasil sebagai berikut:

Kemudian backpropagation dilanjutkan menuju hidden layer seperti pada persamaan (2.7), sehingga didapat hasil:

Kemudian hitung nilai Thetagrad sesuai dengan persamaan (2.8) pada Theta1 dan

Theta2 sehingga didapat nilai Thetagrad sebagai berikut:


(66)

Setelah didapat nilai Thetagrad maka akan dilakukan penambahan bobot jaringan syaraf

tiruan dengan learning rate ( lambda ) = 0,02 seperti pada persamaan (2.8), sehingga didapat penambahan bobot-bobot awal sebagai berikut:

Kemudian dilakukan proses update bobot-bobot jaringan syaraf tiruan untuk mengetahui nilai Mean Square Error seperti pada persamaan (2.5), setelah dilakukan proses pelatihan sebanyak epochs = 30 didapat nilai Mean Square Error terkecil=1,3814 pada bobot optimal jaringan syaraf tiruan sebagai berikut:

Dengan bobot optimal yang telah didapatakan maka kita dapat mentransformasikan sample pada tabel 4.1 dengan cara forwardpropagation seperti pada persamaan (2.3), sehingga didapat hasil transformasi sample pada tabel 4.1 sebagai berikut:


(67)

Tabel 4.2 Sample Iris Plants Dataset Pada Tabel 4.1 Setelah Transformasi

Feature 1 Feature 2 Target 0,4946 0,5030 Iris Virginica

Proses transformasi yang telah dilakukan pada seluruh sample pelatihan dalam Iris Plants Dataset, menghasilkan sebuah dataset baru hasil transformasi seperti pada tabel berikut:


(68)

Tabel 4.3 Training Sample Iris Plants Dataset (a) Sebelum Transformasi (b) Sesudah Transformasi

sample# Sepal Length

Sepal Width

Petal Length

Petal Width Target

1 5,1 3,5 1,4 0,2 Iris Setosa

… … … …

6 5,4 3,9 1,7 0,4 Iris Setosa

… … … …

51 5,2 2,7 3,9 1,4 Iris Virginica

… … … …

60 6,2 2,2 4,5 1,5 Iri Virginica

… … … …

120 6,3 3,0 4,8 1,8 Iris Versicolor

(a)

sample# Feature 1 Feature 2 Target 1 0,4987 0,498 Iris Setosa

… … … …

6 0,4986 0,498 Iris Setosa

… … … …

51 0,4987 0,498 Iris Virginica

… … … …

60 0,4988 0,498 Iris Virginica

… … … …

120 0,4988 0,498 Iris Versicolor (b)

Setelah proses transformasi selesai dilakukan pada seluruh sample dalam Iris Plants Dataset, selanjutnya akan melalui proses cluster seperti pada pada persamaan (2.10), sebagai berikut:


(69)

Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a dalam perhitungan me-minimisasi nilai pada fungsi pada persamaan (2.12) untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki oleh ,. Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses cluster :

Tabel 4.4 Cluster-isasi Pada Iris Plants Dataset Setelah Transformasi

sample# 1 6 51 60 120

1 1 0,98 … 0,03 0 … 0,01

6 0,98 1 … 0,02 0 … 0,01

… … … …

51 0,03 0,02 … 1 0,73 … 0,96

60 0 0 … 0,73 1 … 0,87

… … … …

120 0,01 0,01 … 0,96 0,87 … 1

keterangan:

= instance iris setosa

= instance iris versicolor atau iris virginica = sample dengan nilai similarity function = 1

Setelah seluruh training sample di-transformasi kedalam low dimensional data, maka akan diuji tingkat akurasi classifier maupun sebelum maupun sesudah dataset di-transformasi, hasilnya dijabarkan dalam tabel 4.5 berikut:


(1)

Pada gambar 4.8 berikut, disajikan grafis hasil proses cluster mulai dari jumlah training sample paling sedikit yaitu 50 training sample sampai 250 training sample:

(a) (b)

(c) (d)

(e)

Gambar 4.8 Grafis Hasil Cluster Pada John Hopkins University Ionosphere Dataset Sesudah Transformasi (a) 50 Sample (b) 100 Sample (c) 140 Sample

(d) 200 Sample (e) 250 Sample

Terlihat pada hasil percobaan penggunaan Support Vector Backpropagation pada klasifikasi John Hopkins University Ionosphere Dataset pada gambar 4.9 menggunakan (a) diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah ditransformasi ( hanya memiliki 2 features ) adalah sebesar 90% sementara pada dataset yang tidak ditransformasi ( memiliki 34 features ) diperoleh tingkat ketelitian sebesar 90%, dalam hal ini tingkat ketelitian klasifikasi pada dataset yang telah ditransformasi ( hanya memilki 2 features ) sama dengan tingkat ketelitian


(2)

pada dataset yang tidak ditrasformasi ( memilki 34 features ). Pada hasil percobaan (b) diperoleh tingkat ketelitian dalam melakukan proses cluster-isasi pada dataset yang telah ditransformasi ( hanya memiliki 2 features ) adalah sebesar 80% sementara pada dataset yang tidak ditransformasi diperoleh tingkat ketelitian sebesar 90%, dalam hal ini tingkat ketelitian klasifikasi pada dataset yang telah ditransformasi (hanya memiliki 2 features ) 10 % lebih rendah daripada tingkat ketelitian klasifikasi pada dataset yang tidak ditransformasi ( memiliki 34 features ). Pada hasil percobaan (c) diperoleh tingkat ketelitian dalam melakukan proses cluster-isasi pada dataset yang telah ditransformasi ( hanya memiliki 2 features ) adalah sebesar 80% sementara pada dataset yang tidak ditransformasi diperoleh tingkat ketelitian sebesar 90%, dalam hal ini tingkat ketelitian klasifikasi pada dataset yang telah ditransformasi (hanya memiliki 2 features ) 10% lebih rendah daripada tingkat ketelitian klasifikasi pada dataset yang tidak ditransformasi ( memiliki 34 features ). Pada hasil percobaan (d) diperoleh tingkat ketelitian dalam melakukan proses cluster-isasi pada dataset yang telah ditrasformasi ( hanya memiliki 2 features ) adalah sebesar 90% sementara pada dataset yang tidak ditransformasi ( memiliki 34 features ) diperoleh tingkat ketelitian sebesar 90%, dalam hal ini tingkat ketelitian klasifikasi pada dataset yang telah ditrasnformasi ( hanya memiliki 2 features ) sama dengan tingkat klasifikasi pada dataset yang tidak ditransformasi ( memiliki 34 features ). Pada percobaan (e) diperoleh tingkat ketelitian dalam melakukan proses cluster-isasi pada dataset yang telah ditransformasi ( hanya memiliki 2 features ) adalah sebesar 80% sementara pada dataset yang tidak ditransformasi ( memililki 34 features ) diperoleh tingkat ketelitian sebesar 90%, dalam hal ini tingkat ketelitian klasifikasi pada dataset yang telah ditransformasi ( hanya memiliki 2 features ) sama dengan tingkat ketelitian pada dataset yang tidak ditransformasi ( memiliki 34 features ). Secara keseluruhan hasil percobaan penggunaan Support Vector Backpropagation pada John Hopkins University Ionosphere Dataset memberikan hasil tingkat ketelitian yang cenderung sama pada dataset yang telah ditransformasi (hanya memiliki 2 features) dengan dataset yang tidak ditransformasi ( memiliki 34 features ).


(3)

Hopkins University Ionosphere Dataset yang memilki 34 attributes, penelitian juga dilakukan menggunakan jumlah training sample yang beragam mulai dari 30, 50, 100, 150, 300 bahkan sampai 600 sample. Dari hasil penelitian terlihat bahwa proses cluster pada Iris Plants Dataset menggunakan dataset yang telah ditransformasi oleh Support Vector Backpropagation mencapai tingkat akurasi menggunakan hanya 30 dari 150 training sample. Hasil penelitian proses cluster pada Wisconsin Diagnostic Breast Cancer Dataset menggunakan dataset yang telah ditransformasi oleh Support Vector Backpropagation mencapai tingkat akurasi 100% menggunakan 100 dari 680 training sample, namun tingkat akurasi akan turun drastis menjadi 0% jika menggunakan training sample lebih dari 100 sample ( 200-680 sample ) ini dikarenakan persebaran ( sparness ) data dalam feature space menjadi sangat padat mengakibatkan masing-masing class akan saling membaur dalam feature space yang sangat terbatas, kondisi ini sering disebut overfitting sehingga tidak mungkin ditemukan garis pemisah ( decision boundary ) yang akan memisahkan masing-masing class. Hasil penelitian proses cluster pada Cleveland Heart Disease Dataset menggunakan dataset yang telah ditransformasi oleh Support Vector Backpropagation mencapai tingkat akurasi optimal sebesar 70% menggunakan hanya 50 dari 250 training sample. Hasil penelitian proses cluster pada John Hopkins University Ionosphere Dataset menggunakan dataset yang telah ditransformasi oleh Support Vector Backpropagation mencapai tingkat akurasi optimal sebesar 90% menggunakan hanya 50 dari 300 training sample.


(4)

BAB 5

KESIMPULAN DAN SARAN

5.1. Kesimpulan

Berdasarkan analisis dari sistem dan pengujian sistem secara menyeluruh yang telah dilakukan pada bab sebelumnya, maka kesimpulan pada penelitian ini antara lain:

1. Penggunaan Support Vector Backpropagation dalam proses cluster-isasi pada high dimensional dataset dapat mencapai tingkat ketelitan optimal walaupun training sample yang tersedia jumlahnya sedikit.

2. Cluster-isasi menggunakan Support Vector Backpropagation pada Iris Plants Dataset mancapai tingkat ketelitian optimal sebesar 100% hanya pada 30 dari 150 training sample, sementara pada Wisconsin Diagnostic Breast Cancer Dataset dicapai tingkat ketelitian optimal sebesar 100% hanya pada 100 dari 680 training sample, sementara pada Cleveland Heart Disease Dataset dicapai tingakat ketelitian optimal sebesar 70% hanya pada 50 dari 250 training sample, sementara pada John Hopkins University Ionosphere Dataset dicapai tingkat ketelitian sebesar 90% hanya pada 50 dari 250 training sample.

3. Khusus pada proses cluster-isasi pada Wisconsin Diagnostic Breast Cancer Dataset dicapai akurasi sebesar 100% pada 100 training sample namun tingkat akurasi menurun menjadi 0% jika menggnakan training sample lebih dari 100 sample, ini diakibatkan proses clusterisasi pada jumlah training sample yang sangat banyak meningkatkan persebaran data mengalami overfitting.


(5)

5.2. Saran

Pada penelitian ini terdapat beberapa saran dalam pengembangan penelitian ini lebih lanjut, yakni:

1. Perlunya pembuatan Graphical User Interface yang layak. 2. Perlunya penelitian lebih lanjut dalam proses cluster-isasi.

3. Percobaan dapat menggunakan algoritma jaringan syaraf tiruan yang berbeda contohnya Perceptron atau LVQ.


(6)

DAFTAR PUSTAKA

Aizerman, A., Braverman, E.M. & Rozoner, L.I. 1964. Therotical foundations of the potential function method in pattern recognition learning. Automation and Remote Control 25:821-837.

Aronszajn, N. 1950. Theory of reproducing kernels. Transactions of the American Mathematical Society, 337-404.

Bellman, R.E. 1957. Dynamic Programming. Princeton Universtity press.

Bishop, C.M. 2006. Neural Network for Pattern Recognition. Oxford University press.

Boser, B.E. & Guyon, I.M. 1992. A training algorithm for optimal margin classifiers. In: COLT ’92: Proceedings of the Fifth Annual Workshop on Computational Learning Theory. New York, NY, USA: ACM Press, pp. 144-152.

Cortes, C. & Vapnik, V. 1995. Support Vector Networks. Machine Learning 20:273-297.

Cover, T.M. 1965. Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition. IEEE Transactions on Electronic Computers, 326-334.

Detrano, R. 1988. UCI repository of machine learning database. Dept.of information and computer science, University of California, Irvine.

Fisher, R.A. 1988. UCI repository of machine learning database. Dept.of information and computer science, University of California, Irvine.

Hinton, G.E. & Salakhutdinov, R.R. 2006. Reducing the Dimensionality of Data with Neural Network.

Nugroho, A.S. 2007. Efficiency of Interferon Treatment for Chronic Hepatitic C Predicted by Feature Subset Selection and Support Vector Machine. Journal of Medical Systems.

Sigillito. V. 1989. UCI repository of machine learning database. Dept.of information and computer science. University of California, Irvine.

Wolberg, W.H., Street, W.N., & Mangasarian O.L., 1995. UCI repository of machine learning database. Dept.of information and computer science, University of California, Irvine.