Cluster-isasi Pada Wisconsin Diagnostic Breast Cancer Dataset

3.3. Cluster-isasi Pada Wisconsin Diagnostic Breast Cancer Dataset

Wisconsin Diagnostic Breast Cancer Dataset pertama sekali diteliti dalam hasil penelitian yang dituangkan dalam jurnal ilmiah oleh O.L. Mangasarian, W.N. Street dan W.H. Wolberg pada tahun 1995, dataset ini awalnya terdiri dari 30 input features yang kemudian telah direduksi oleh para peneliti selama ini menjadi hanya 10 input features antara lain: radius, perimeter, area, smoothness, compactness, concavity, concave points, symmetry, fractal dimension yang keseluruhan nilainya didapat dari hasil komputerisasi dari sebuah gambar fine needle aspirate FNA dari sebuah breast mass yang telah dikomputerisasi untuk dapat diketahui apakah sample tersebut termasuk dalam class benign ataupun malignant Wollberg et al, 1995 . Berikut adalah deskripsi dari Wisconsin Diagnostic Breast Cancer Dataset: Universitas Sumatera Utara Tabel 3.5 Training Sample Wisconsin Diagnostic Breast Cancer Dataset Target Malignant Malignant … Benign … Benign symmet ry 1 1 … 1 … 3 concave point 1 2 … 10 … 8 concav 3 3 … 9 … 7 compactne 1 10 … 10 … 8 smotth ness 2 7 … 5 … 5 area 1 5 … 5 … 3 perimeter 1 4 … 8 … 10 texture 1 4 … 7 … 5 radius 5 5 … 8 … 10 sample 1 2 … 484 … 606 Universitas Sumatera Utara Berikut disertakan ringkasan dari masing-masing attribut dalam Wisconsin Diagnostic Breast Cancer Dataset, seperti yang disajikan dalam tabel 3.6 berikut: Tabel 3.6 Deskripsi Wisconsin Diagnostic Breast Cancer Dataset Attribute Name Attribute Type Max Min Mean Standard Deviasi radius real 10 1 4,4500 2,8243 texture real 10 1 3,1206 3,0228 perimeter real 10 1 3,1985 2,9443 area real 10 1 2,8088 2,8557 smoothness real 10 1 3,2265 2,2328 compactness real 10 1 3,5441 3,6429 concavity real 10 1 3,4397 2,4069 concave points real 10 1 2,8647 3,0570 symmetry real 10 1 1,5809 1,7057 class categorical 1 NA NA Proses cluster pada Wisconsin Diagnostic Breast Cancer Dataset menggunakan Support Vector Machine dengan menggunakan radial basis function sebagai kernel sama seperti proses cluster pada Iris Plants Dataset yang telah dilakukan pada BAB 3, proses cluster pada Wisconsin Diagnostic Breast Cancer Dataset menggunakan 9 features yang akan dihitung nilai similarity nya untuk dapat menentukan apakah sebuah sample breast cancer termasuk dalam class benign ataupun malignant, pada banyak percobaan semakin banyak feature yang akan dihitung nilai similarity-nya maka akan semakin sulit ditemukan cluster-nya seperti yang terlihat pada proses berikut: Universitas Sumatera Utara Berikut adalah contoh proses cluster pada sebuah training sample pada Wisconsin Diagnostic Breast Cancer Dataset: radius = 5 texture = 1 perimeter = 1 area = 1 smootness = 2 compactness = 1 concavity = 3 concave points = 1 symmetry = 1 sehingga didapat x = [5 1 1 1 2 1 3 1 1] yang akan di-cluster terhadap beberapa landmark yang ada, yaitu: Dengan menggunakan nilai standard deviasi = 2,8 maka proses perhitungan similarity function pada persamaan 2.10 adalah sebagai berikut: Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a dalam perhitungan me-minimisasi nilai pada fungsi pada persamman 2.12 untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki oleh . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses cluster pada training sample dan landmark pada Wisconsin Diagnostic Breast Cancer Dataset: Universitas Sumatera Utara Tabel 3.7 Cluster Pada Wisconsin Diagnostic Breast Cancer Dataset Sample 1 250 455 653 … 13 280 474 531 1 1 0,77 0,29 0,86 … 0,2 0,66 250 0,77 1 0,48 0,67 … 0,18 0,66 455 0,29 0,48 1 0,35 … 0,07 0,56 653 0,86 0,67 0,35 1 … 0,24 0,81 … … … … … … … … … … 13 0,2 0,18 0,07 0,24 … 1 0,1 0,01 280 … 1 474 0,6 0,66 0,56 0,81 … 1 531 … 1 keterangan: = instance benign = sample dengan nilai similarity function = 1 Hasil cluster-isasi didapat bahwa dalam Wisconsin Diagnostic Breast Cancer Dataset terdapat 357 sample termasuk dalam class benign, dan 212 sample termasuk dalam class malignant. 3.4. Cluster-isasi Pada Cleveland Heart Disease Dataset Cleveland Heart Disease adalah dataset yang berkaitan dengan diagnosis penyakit jantung, dataset ini merupakan hasil pengumpulan data oleh Robert Detrano pada tahun 1989 terdiri dari 76 input features yang telah direduksi menjadi 14 input features Detrano, 1988 dimana seluruh nilai attributnya adalah numeric antara lain: age, sex, chest pain type, resting blood pressure, serum cholesterol in mgdl, fasting blood sugar120 mgdl, resting electrocardiographic result, maximum heart rate achieved, exercise induced angina, ST depression induced by exercise relative to rest, the slope of the peak exercise ST segment, number of major vessels 0-3 colored by florousopy, heart rate, diagnosis of heart disease. Berikut disajikan tabel deskripsi Cleveland Heart Disease Dataset: Universitas Sumatera Utara Tabel 3.8 Training Sample Cleveland Heart Disease Dataset Target Positif Sakit Jantung … Positif Sakit Jantung … Negatif Sakit Jantung … Negatif Sakit Jantung thal 3 … 7 … 3 … 7 ca 3 … 3 … … 1 slope 2 … 3 … 1 … 2 oldpeak 1,5 … 6,2 … … 0,2 exang 1 … … … 1 thala c 108 … 145 … 179 … 105 rest c 2 … 2 … … fbs … … … chol 286 … 164 … 250 … 263 trest 160 … 160 … 112 … 128 cp 4 … 4 … 3 … 4 sex 1 … … 1 … 1 age 67 … 62 … 41 … 64 Sample 2 … 91 … 147 … 250 Universitas Sumatera Utara Berikut disertakan ringkasan dari masing-masing attribut dalam Cleveland Heart Disease Dataset, seperti yang disajikan dalam tabel 3.9 berikut: Tabel 3.9 Deskripsi Cleveland Heart Disease Dataset Attribute Name Attribute Type Max Min Mean Standard Deviasi age integer 77 29 54,5421 9,0497 sex logical 1 NA NA cp integer 4 1 3,1582 0,9649 trestbps integer 200 94 131,6936 17.7628 chol integer 564 126 247,3502 51,9976 fbs logical 1 NA NA restecg logical 2 NA NA thalach integer 202 71 149,5993 22,9416 exang logical 1 NA NA oldpeak real 6,2 1,0556 1,1661 slope categorical 3 1 NA NA ca categorical 3 NA NA thal categorical 7 NA NA class categorical 1 NA NA Proses cluster pada Cleveland Heart Disease Dataset menggunakan Support Vector Machine dengan menggunakan radial basis function sebagai kernel sama seperti proses cluster pada Iris Plants Dataset yang telah dilakukan pada BAB 3 dengan menggunakan, proses cluster pada Cleveland Heart Disease Dataset menggunakan 14 features yang akan dihitung nilai similarity nya untuk dapat menentukan apakah sebuah sample terindikasi penyakit jantung atau tidak. Berikut disajikan proses cluster pada Cleveland Heart Disease Dataset: Universitas Sumatera Utara Berikut adalah contoh proses cluster pada sebuah training sample pada Cleveland Heart Disease Dataset: age = 63 sex = 1 cp = 1 trestbps = 145 chol = 233 fbs =1 restecg = 2 thalach= 150 exang = 0 oldpeak = 2,3 slope = 3 ca = 0 thal = 6 sehingga didapat x = [63 1 1 145 233 1 2 150 0 2,3 3 0 6] yang akan di-cluster terhadap beberapa landmark yang ada, yaitu: Dengan menggunakan nilai standard deviasi = 1,1 maka proses perhitungan similarity function pada persamaan 2.10 adalah sebagai berikut: Universitas Sumatera Utara Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a dalam perhitungan me-minimisasi nilai pada fungsi pada persamman 2.12 untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki oleh , . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses cluster pada training sample dan landmark pada Cleveland Heart Disease Dataset: Tabel 3.10 Cluster Pada Cleveland Heart Disease Dataset sample 3 25 63 77 … 2 91 180 244 3 1 0,55 0,28 0,3 … 25 0,55 1 0,54 0,29 … 63 0,28 0,54 1 0,06 … 77 0,3 0,29 0,06 1 … … … … … … … … … … … 2 … 1 0,5 0,41 0,44 91 … 0,5 1 0,38 0,26 180 … 0,41 0,38 1 0,61 244 … 0,44 0,26 0,61 1 keterangan: = instance positif sakit jantung = instance negatif sakit jantung = sample dengan similarity function = 1 Hasil cluster-isasi didapat bahwa dalam Cleveland Heart Disease Dataset terdapat 164 sample termasuk dalam class positif terkena penyakit jantung, dan 139 sample termasuk dalam class negative terkena penyakit jantung. Universitas Sumatera Utara

3.5. Cluster-isasi Pada John Hopkins University Ionosphere Dataset