Pengumpulan Data Pelatihan KESIMPULAN DAN SARAN

BAB 3 ANALISIS DAN PERANCANGAN SISTEM Pada bab ini akan dijelaskan proses analisis dan perancangan sistem yang digunakan dalam penelitian ini, dimulai dari pengumpulan data serta proses cluster-isasi pada masing-masing dataset, sehingga alur sistem yang dirancang akan dapat dipahami proses pembutannya.

3.1. Pengumpulan Data Pelatihan

Langkah-langkah pengumpulan data untuk penelitian ini adalah sebagai berikut: 1. Membuat rancangan data input dan output yang akan dimasukkan sebagai data pelatihan dan pengujian. Semua sample diimplementasikan dalam tipe data numeric dan logic. Dalam penelitian ini sample dapat memiliki noise atau ketidak-lengkapan yang diharapkan Support Vector Backpropagation dapat meng-analisa sample walau terdapat noise. Pada penelitian ini akan digunakan dataset yang digunakan adalah Cleveland Heart Disease Dataset, Wisconsin Diagnosis Breast Cancer, Iris Plants Dataset, John Hopkins University Ionosphere Dataset. 2. Memisahkan data penelitian menjadi dua bagian, yaitu data pelatihan dan data pengujian. Data pelatihan digunakan untuk mengamati kemampuan jaringan dalam hal mengenali pola-pola yang telah dipelajari memorisasi sedang data pelatihan digunakan untuk mengamati kemampuan jaringan dalam hal mengenali pola-pola yang belum pernah dipelajari generalisasi . Universitas Sumatera Utara Tabel 3.1 Data Penelitian Year Donated 1988 1988 1989 1995 Area Life Life Object Life Associated Tasks Classification Classification Classification Classification Attribut Chcracterist ics Categorical, Integer, real Integer, real Categorical, Integer, real Categorical, Integer, real Instances 297 150 351 699 Attributes 14 5 35 10 Dataset Characteristics Multivariate Numeric Multivariate Multivariate Dataset Name Cleveland Heart Disease Dataset Iris Plants Dataset John Hopkins University Ionosphere Dataset Wisconsi Diagnostic Breast Cancer Dataset Universitas Sumatera Utara 3.2. Cluster-isasi Pada Iris Plants Dataset Dataset ini adalah salah satu dataset yang paling tua dan juga paling banyak digunakan dalam banyak buku dan jurnal penelitian dalam data mining. Dataset ini merupakan hasil pekerjaan dari Sir. R. A. Fisher pada tahun 1988 yang terdiri dari 4 buah feature dari sebuah bunga iris, dataset ini terdiri dari 150 sample yang terbagi atas instance iris setosa sebanyak 50 sample, instance iris virginica sebanyak 50 sample dan instance iris versicolor sebanyak 50 sample Fisher, 1988 yang dijelaskan secara singkat dalam tabel berikut: Tabel 3.2 Training Sample Iris Plants Dataset sample Sepal Length Sepal Width Petal Length Petal Width Target 1 5,1 3,5 1,4 0,2 Iris Setosa … … … … … … 51 5,2 2,7 3,9 1,4 Iris Virginica … … … … … … 120 6 3 4,8 1,8 Iris Versicolor Berikut disertakan ringkasan dari masing-masing attribut dalam Iris Plants Dataset, seperti yang disajikan dalam tabel 3.3 berikut: Tabel 3.3 Deskripsi Iris Plants Dataset Attribute Name Attribute Type Max Min Mean Standard Deviasi sepal length real 7,9 4,3 5,8433 0,8281 sepal width real 4,4 2 3,0540 0,4336 petal length real 6,9 1 3,7587 1,7644 petal width real 2,5 0,1 1,1987 0,7632 class categorical 1 NA NA Universitas Sumatera Utara Proses cluster pada Iris Plants Dataset diawali dengan penentuan kernel yang digunakan yaitu radial basis function, pertimbangan penggunaan kernel ini adalah kenyataan bahwa dataset di cluster secara non-linear, berikut akan dijelaskan pada proses cluster pada Iris Plants Dataset: Berikut adalah contoh proses cluster pada sebuah sample bunga iris: sepal length = 5,1 sepal width = 4,9 petal length = 4,7 petal width = 4,6 sehingga x = [5,1 4,9 4,7 4,6] akan di-cluster terhadap beberapa landmark yang ada, yaitu: Dengan menggunakan standard deviasi = 0,8441, menggunakan persamaan 2.10 maka: Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a dalam perhitungan me-minimisasi nilai pada fungsi pada persamaan 2.12 untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki oleh , dan . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses cluster pada training sample dan landmark pada Iris Plants Dataset: Universitas Sumatera Utara Tabel 3.4 Cluster Pada Iris Plants Dataset sample 1 2 3 … 51 52 53 … 101 102 103 1 1 0,5 0.7 … 0,02 0 0,022 … 0 2 0,5 1 0.8 … 0,08 0,02 0,03 … 0,002 0 3 0,7 0,87 1 … 0,04 0,006 0,02 … 0 … … … … … … … … … … … … 51 0,02 0,08 0,04 … 1 0,23 0,5 … 0,27 0,02 0,5 52 0,0009 0,02 0,006 … 0,23 1 0,03 … 0,25 0,04 53 0,02 0,03 0,02 … 0,54 0,03 1 … 0,17 0,18 0,63 … … … … … … … … … … … … 101 0,0002 0,002 0,006 … 0,27 0,25 0,17 … 1 0,02 0,28 102 0,0001 0,0001 0 … 0,02 0 0,18 … 0,02 1 0,1 103 0,0021 0,005 0,003 … 0,54 0,04 0,63 … 0,28 0,16 1 keterangan: = instance iris setosa = instance iris versicolor = instance iris virginica = sample dengan nilai similarity function = 1 Hasil cluster-isasi didapat bahwa dalam Iris Plants Dataset terdapat 50 sample termasuk dalam class iris setosa, 50 sample termasuk dalam class iris versicolor dan 50 sample termasuk dalam class iris virginica. Universitas Sumatera Utara

3.3. Cluster-isasi Pada Wisconsin Diagnostic Breast Cancer Dataset