BAB 3
ANALISIS DAN PERANCANGAN SISTEM
Pada bab ini akan dijelaskan proses analisis dan perancangan sistem yang digunakan dalam penelitian ini, dimulai dari pengumpulan data serta proses cluster-isasi pada
masing-masing dataset, sehingga alur sistem yang dirancang akan dapat dipahami proses pembutannya.
3.1. Pengumpulan Data Pelatihan
Langkah-langkah pengumpulan data untuk penelitian ini adalah sebagai berikut: 1. Membuat rancangan data input dan output yang akan dimasukkan sebagai data
pelatihan dan pengujian. Semua sample diimplementasikan dalam tipe data numeric dan logic. Dalam penelitian ini sample dapat memiliki noise atau
ketidak-lengkapan yang diharapkan Support Vector Backpropagation dapat meng-analisa sample walau terdapat noise. Pada penelitian ini akan digunakan
dataset yang digunakan adalah Cleveland Heart Disease Dataset, Wisconsin Diagnosis Breast Cancer, Iris Plants Dataset, John Hopkins University
Ionosphere Dataset. 2. Memisahkan data penelitian menjadi dua bagian, yaitu data pelatihan dan data
pengujian. Data pelatihan digunakan untuk mengamati kemampuan jaringan dalam hal mengenali pola-pola yang telah dipelajari memorisasi sedang
data pelatihan digunakan untuk mengamati kemampuan jaringan dalam hal mengenali pola-pola yang belum pernah dipelajari generalisasi .
Universitas Sumatera Utara
Tabel 3.1 Data Penelitian
Year Donated
1988
1988
1989
1995
Area
Life
Life
Object
Life
Associated Tasks
Classification
Classification
Classification
Classification
Attribut Chcracterist
ics
Categorical, Integer, real
Integer, real
Categorical, Integer, real
Categorical, Integer, real
Instances
297
150
351
699
Attributes
14
5
35
10
Dataset Characteristics
Multivariate
Numeric
Multivariate
Multivariate
Dataset Name
Cleveland Heart Disease Dataset
Iris Plants Dataset
John Hopkins University Ionosphere Dataset
Wisconsi Diagnostic Breast Cancer Dataset
Universitas
Sumatera
Utara
3.2. Cluster-isasi Pada Iris Plants Dataset
Dataset ini adalah salah satu dataset yang paling tua dan juga paling banyak digunakan dalam banyak buku dan jurnal penelitian dalam data mining. Dataset ini
merupakan hasil pekerjaan dari Sir. R. A. Fisher pada tahun 1988 yang terdiri dari 4 buah feature dari sebuah bunga iris, dataset ini terdiri dari 150 sample yang terbagi
atas instance iris setosa sebanyak 50 sample, instance iris virginica sebanyak 50 sample dan instance iris versicolor sebanyak 50 sample Fisher, 1988 yang
dijelaskan secara singkat dalam tabel berikut:
Tabel 3.2 Training Sample Iris Plants Dataset
sample Sepal Length
Sepal Width
Petal Length
Petal Width Target
1 5,1
3,5 1,4
0,2 Iris Setosa
… …
… …
… …
51 5,2
2,7 3,9
1,4 Iris Virginica
… …
… …
… …
120 6
3 4,8
1,8 Iris Versicolor
Berikut disertakan ringkasan dari masing-masing attribut dalam Iris Plants Dataset, seperti yang disajikan dalam tabel 3.3 berikut:
Tabel 3.3 Deskripsi Iris Plants Dataset
Attribute Name
Attribute Type
Max Min
Mean Standard
Deviasi
sepal length real
7,9 4,3
5,8433 0,8281
sepal width real
4,4 2
3,0540 0,4336
petal length real
6,9 1
3,7587 1,7644
petal width real
2,5 0,1
1,1987 0,7632
class categorical
1 NA
NA
Universitas Sumatera Utara
Proses cluster pada Iris Plants Dataset diawali dengan penentuan kernel yang digunakan yaitu radial basis function, pertimbangan penggunaan kernel ini adalah
kenyataan bahwa dataset di cluster secara non-linear, berikut akan dijelaskan pada proses cluster pada Iris Plants Dataset:
Berikut adalah contoh proses cluster pada sebuah sample bunga iris: sepal length = 5,1
sepal width = 4,9 petal length = 4,7
petal width = 4,6 sehingga x = [5,1 4,9 4,7 4,6] akan di-cluster terhadap beberapa landmark yang ada,
yaitu:
Dengan menggunakan standard deviasi = 0,8441, menggunakan persamaan 2.10 maka:
Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a dalam perhitungan me-minimisasi nilai
pada fungsi pada persamaan 2.12
untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki oleh
, dan
. Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses cluster pada training sample dan landmark pada Iris Plants Dataset:
Universitas Sumatera Utara
Tabel 3.4 Cluster Pada Iris Plants Dataset
sample 1 2
3 … 51
52 53
… 101 102
103 1
1 0,5
0.7 … 0,02 0
0,022 … 0
2 0,5
1 0.8
… 0,08 0,02 0,03
… 0,002 0
3 0,7
0,87 1
… 0,04 0,006 0,02 … 0
… …
… …
… … …
… … …
… …
51 0,02
0,08 0,04
… 1 0,23
0,5 … 0,27
0,02 0,5
52 0,0009 0,02
0,006 … 0,23 1 0,03
… 0,25 0,04
53 0,02
0,03 0,02
… 0,54 0,03 1
… 0,17 0,18 0,63
… …
… …
… … …
… … …
… …
101
0,0002 0,002 0,006 … 0,27 0,25
0,17 … 1
0,02 0,28
102 0,0001 0,0001 0
… 0,02 0 0,18
… 0,02 1
0,1
103 0,0021 0,005
0,003 … 0,54 0,04 0,63
… 0,28 0,16 1
keterangan: = instance iris setosa
= instance iris versicolor = instance iris virginica
= sample dengan nilai similarity function = 1
Hasil cluster-isasi didapat bahwa dalam Iris Plants Dataset terdapat 50 sample termasuk dalam class iris setosa, 50 sample termasuk dalam class iris versicolor dan
50 sample termasuk dalam class iris virginica.
Universitas Sumatera Utara
3.3. Cluster-isasi Pada Wisconsin Diagnostic Breast Cancer Dataset