3.3. Cluster-isasi Pada Wisconsin Diagnostic Breast Cancer Dataset
Wisconsin Diagnostic Breast Cancer Dataset pertama sekali diteliti dalam hasil penelitian yang dituangkan dalam jurnal ilmiah oleh O.L. Mangasarian, W.N. Street
dan W.H. Wolberg pada tahun 1995, dataset ini awalnya terdiri dari 30 input features yang kemudian telah direduksi oleh para peneliti selama ini menjadi hanya 10 input
features antara lain: radius, perimeter, area, smoothness, compactness, concavity, concave points, symmetry, fractal dimension yang keseluruhan nilainya didapat dari
hasil komputerisasi dari sebuah gambar fine needle aspirate FNA dari sebuah breast mass yang telah dikomputerisasi untuk dapat diketahui apakah sample tersebut
termasuk dalam class benign ataupun malignant Wollberg et al, 1995 . Berikut adalah deskripsi dari Wisconsin Diagnostic Breast Cancer Dataset:
Universitas Sumatera Utara
Tabel 3.5 Training Sample Wisconsin Diagnostic Breast Cancer Dataset
Target
Malignant Malignant
…
Benign …
Benign
symmet ry
1 1
…
1 …
3
concave point
1 2
…
10 …
8
concav
3 3
…
9 …
7
compactne
1 10
…
10 …
8
smotth ness
2 7
…
5 …
5
area
1 5
…
5 …
3
perimeter
1 4
…
8 …
10
texture
1 4
…
7 …
5
radius
5 5
…
8 …
10
sample
1 2
…
484 …
606
Universitas
Sumatera
Utara
Berikut disertakan ringkasan dari masing-masing attribut dalam Wisconsin Diagnostic Breast Cancer Dataset, seperti yang disajikan dalam tabel 3.6 berikut:
Tabel 3.6 Deskripsi Wisconsin Diagnostic Breast Cancer Dataset
Attribute Name
Attribute Type
Max Min
Mean Standard
Deviasi
radius real
10 1
4,4500 2,8243
texture real
10 1
3,1206 3,0228
perimeter real
10 1
3,1985 2,9443
area real
10 1
2,8088 2,8557
smoothness real
10 1
3,2265 2,2328
compactness real 10
1 3,5441
3,6429 concavity
real 10
1 3,4397
2,4069 concave
points real
10 1
2,8647 3,0570
symmetry real
10 1
1,5809 1,7057
class categorical
1 NA
NA
Proses cluster pada Wisconsin Diagnostic Breast Cancer Dataset menggunakan Support Vector Machine dengan menggunakan radial basis function
sebagai kernel sama seperti proses cluster pada Iris Plants Dataset yang telah dilakukan pada BAB 3, proses cluster pada Wisconsin Diagnostic Breast Cancer
Dataset menggunakan 9 features yang akan dihitung nilai similarity nya untuk dapat menentukan apakah sebuah sample breast cancer termasuk dalam class benign
ataupun malignant, pada banyak percobaan semakin banyak feature yang akan dihitung nilai similarity-nya maka akan semakin sulit ditemukan cluster-nya seperti
yang terlihat pada proses berikut:
Universitas Sumatera Utara
Berikut adalah contoh proses cluster pada sebuah training sample pada Wisconsin Diagnostic Breast Cancer Dataset:
radius = 5 texture = 1
perimeter = 1 area = 1
smootness = 2 compactness = 1
concavity = 3 concave points = 1
symmetry = 1 sehingga didapat x = [5 1 1 1 2 1 3 1 1] yang akan di-cluster terhadap beberapa
landmark yang ada, yaitu:
Dengan menggunakan nilai standard deviasi = 2,8 maka proses perhitungan similarity function pada persamaan 2.10 adalah sebagai berikut:
Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a dalam perhitungan me-minimisasi nilai
pada fungsi pada persamman 2.12
untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki oleh
. Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses cluster pada training sample dan landmark pada Wisconsin Diagnostic Breast Cancer
Dataset:
Universitas Sumatera Utara
Tabel 3.7 Cluster Pada Wisconsin Diagnostic Breast Cancer Dataset
Sample 1 250
455 653
… 13
280 474
531 1
1 0,77
0,29 0,86
… 0,2
0,66 250
0,77 1
0,48 0,67
… 0,18
0,66 455
0,29 0,48
1 0,35
… 0,07
0,56 653
0,86 0,67
0,35 1
… 0,24
0,81 …
… …
… …
… …
… …
… 13
0,2 0,18
0,07 0,24
… 1
0,1 0,01
280 …
1 474
0,6 0,66
0,56 0,81
… 1
531 …
1
keterangan: = instance benign
= sample dengan nilai similarity function = 1
Hasil cluster-isasi didapat bahwa dalam Wisconsin Diagnostic Breast Cancer Dataset terdapat 357 sample termasuk dalam class benign, dan 212 sample termasuk dalam
class malignant.
3.4. Cluster-isasi Pada Cleveland Heart Disease Dataset
Cleveland Heart Disease adalah dataset yang berkaitan dengan diagnosis penyakit jantung, dataset ini merupakan hasil pengumpulan data oleh Robert Detrano pada
tahun 1989 terdiri dari 76 input features yang telah direduksi menjadi 14 input features Detrano, 1988 dimana seluruh nilai attributnya adalah numeric antara lain:
age, sex, chest pain type, resting blood pressure, serum cholesterol in mgdl, fasting blood sugar120 mgdl, resting electrocardiographic result, maximum heart rate
achieved, exercise induced angina, ST depression induced by exercise relative to rest, the slope of the peak exercise ST segment, number of major vessels 0-3 colored by
florousopy, heart rate, diagnosis of heart disease. Berikut disajikan tabel deskripsi Cleveland Heart Disease Dataset:
Universitas Sumatera Utara
Tabel 3.8 Training Sample Cleveland Heart Disease Dataset
Target
Positif Sakit
Jantung …
Positif Sakit
Jantung …
Negatif Sakit
Jantung …
Negatif Sakit
Jantung
thal
3
… 7
… 3
… 7
ca
3
… 3
…
… 1
slope
2
… 3
… 1
… 2
oldpeak
1,5
… 6,2
…
… 0,2
exang
1
…
…
… 1
thala c
108
… 145
… 179
… 105
rest c
2
… 2
…
…
fbs
…
…
…
chol
286
… 164
… 250
… 263
trest
160
… 160
… 112
… 128
cp
4
… 4
… 3
… 4
sex
1
…
… 1
… 1
age
67
… 62
… 41
… 64
Sample
2
… 91
… 147
… 250
Universitas
Sumatera
Utara
Berikut disertakan ringkasan dari masing-masing attribut dalam Cleveland Heart Disease Dataset, seperti yang disajikan dalam tabel 3.9 berikut:
Tabel 3.9 Deskripsi Cleveland Heart Disease Dataset
Attribute Name
Attribute Type
Max Min
Mean Standard
Deviasi
age integer
77 29
54,5421 9,0497
sex logical
1 NA
NA cp
integer 4
1 3,1582
0,9649 trestbps
integer 200
94 131,6936
17.7628 chol
integer 564
126 247,3502
51,9976 fbs
logical 1
NA NA
restecg logical
2 NA
NA thalach
integer 202
71 149,5993
22,9416 exang
logical 1
NA NA
oldpeak real
6,2 1,0556
1,1661 slope
categorical 3
1 NA
NA ca
categorical 3
NA NA
thal categorical
7 NA
NA class
categorical 1 NA
NA
Proses cluster pada Cleveland Heart Disease Dataset menggunakan Support Vector Machine dengan menggunakan radial basis function sebagai kernel sama
seperti proses cluster pada Iris Plants Dataset yang telah dilakukan pada BAB 3 dengan menggunakan, proses cluster pada Cleveland Heart Disease Dataset
menggunakan 14 features yang akan dihitung nilai similarity nya untuk dapat menentukan apakah sebuah sample terindikasi penyakit jantung atau tidak. Berikut
disajikan proses cluster pada Cleveland Heart Disease Dataset:
Universitas Sumatera Utara
Berikut adalah contoh proses cluster pada sebuah training sample pada Cleveland Heart Disease Dataset:
age = 63 sex = 1
cp = 1 trestbps = 145
chol = 233 fbs =1
restecg = 2 thalach= 150
exang = 0 oldpeak = 2,3
slope = 3 ca = 0
thal = 6 sehingga didapat x = [63 1 1 145 233 1 2 150 0 2,3 3 0 6] yang akan di-cluster
terhadap beberapa landmark yang ada, yaitu:
Dengan menggunakan nilai standard deviasi = 1,1 maka proses perhitungan similarity function pada persamaan 2.10 adalah sebagai berikut:
Universitas Sumatera Utara
Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a dalam perhitungan me-minimisasi nilai
pada fungsi pada persamman 2.12
untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki oleh
, . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses
cluster pada training sample dan landmark pada Cleveland Heart Disease Dataset:
Tabel 3.10 Cluster Pada Cleveland Heart Disease Dataset
sample 3 25
63 77
… 2
91 180
244 3
1 0,55
0,28 0,3
…
25 0,55
1 0,54
0,29 …
63 0,28
0,54 1
0,06 …
77 0,3
0,29 0,06
1 …
… …
… …
… …
… …
… …
2
… 1
0,5 0,41
0,44
91 …
0,5 1
0,38 0,26
180 …
0,41 0,38
1 0,61
244 …
0,44 0,26
0,61 1
keterangan: = instance positif sakit jantung
= instance negatif sakit jantung = sample dengan similarity function = 1
Hasil cluster-isasi didapat bahwa dalam Cleveland Heart Disease Dataset terdapat 164 sample termasuk dalam class positif terkena penyakit jantung, dan 139 sample
termasuk dalam class negative terkena penyakit jantung.
Universitas Sumatera Utara
3.5. Cluster-isasi Pada John Hopkins University Ionosphere Dataset