Uji coba pada Database Proses Pemecahan Node

44 Ketika menghitung akurasi persentase untuk dataset di mana variabel target merupakan diskrit, jumlah klasifikasi yang benar dari setiap hasil akan menentukan ukuran keseluruhan kinerja algoritma FCART.

3.2. Uji coba pada Database

Database yang digunakan untuk uji coba pada penelitian ini adalah sebuah database contoh. Database dibagi menjadi dua bagian secara acak, yaitu data learning dan data testing dengan proporsi 80 data learning dan 20 sisanya data testing. Data training digunakan untuk membentuk model klasifikasi, kemudian data testing digunakan untuk menguji akurasi prediksi model terhadap data baru. Dilakukan analisis data terhadap 686 pasien kanker payudara yang dilakukan oleh German Breast Cancer Study Group. Terdapat enam variabel, yaitu usia pasien tahun, tsize atau ukuran tumor mm, pnodes atau banyaknya node positif, kandungan progesteron ngdL, kandungan esterogen pgdL, dan indikator sensor 0:tersensor, 1:tidak tersensor. Data tersebut terkategorikan dengan dalam variabel seperti pada tabel 2. Data learning berjumlah 549 dari 686 baris data yang dipilih secara acak, dan sisanya 137 pada data testing. Data learning selanjutnya akan digunakan untuk membuat model klasifikasi dengan algoritma CART sesuai dengan kategorinya. Tabel 2. Variabel Kategorik Pasien Kanker Variabel Dependen Kategori Sensor 1 Tersensor 2 Tidak Tersensor 1 Universitas Sumatera Utara 45 Variabel Independen Usia 1 ≤ 25 Tahun Muda 1 2 25 - 45 Tahun Parobaya 2 3 45 Tahun Tua 3 Ukuran Tumor 1 ≤ 20 mm Kecil 1 2 20 – 50 mm Sedang 2 3 50 mm Besar 3 Node Positif 1 20 Sedikit 1 2 20 - 25 Normal 2 3 25 Banyak 3 Progesteron 1 30 ngdL Sedikit 1 2 30 - 95 ngdL Normal 2 3 95 ngdL Banyak 3 Esterogen 1 25 pgdL Sedikit 1 2 25 - 75 pgdL Normal 2 3 75 pgdL Banyak 3

a. Proses Pemecahan Node

Untuk mempermudah penghitungan, data ditabulasikan silang seperti yang terdapat pada lampiran 1. Pemilahan variabel berdasarkan kriteria goodness of split. Suatu split s akan digunakan untuk memecah node t menjadi dua buah node t R dan node t L jika s memaksimalkan nilai ∆is,t = max s ∆is,t. Root node biasa disebut dengan node 0. Untuk variabel yang lebih dari 2, akan dikombinasikan kategorinya untuk menemukan splitter terbaik. Berikutnya pemilihan split untuk node 1 dan node 2. Untuk variabel usia yang pertama, kombinasi kategorinya sebagai berikut : Universitas Sumatera Utara 46 Tabel 3. Kombinasi Kategori Usia Pertama Usia T=0 TT=1 Jumlah 1 3 3 2 dan 3 302 244 546 Jumlah 302 247 549 Impurity Index-nya dihitung sebagai berikut : ∑ { } { } { } Selanjutnya dihitung ∆is,t node tersebut : Untuk variabel usia yang kedua, kombinasi kategorinya sebagai berikut : Tabel 4. Kombinasi Kategori Usia Kedua Usia T=0 TT=1 Jumlah 1 dan 2 59 67 126 3 243 180 423 Jumlah 302 247 549 Dengan cara perhitungan yang sama diperoleh sebagai berikut : ∑ { } { } { } Universitas Sumatera Utara 47 Untuk variabel tsize yang pertama, kombinasi kategorinya sebagai berikut : Tabel 5. Kombinasi Kategori Tsize Pertama Tsize T=0 TT=1 Jumlah 1 92 58 150 2 dan 3 210 189 399 Jumlah 302 247 549 ∑ { } { } { } Penghitungan ini dilakukan pada semua variabel dan kombinasi kategorinya, sehingga didapatkan seluruh nilai seperti dalam tabel berikut : Tabel 6. Decrease Impurity Variabel Data Pasien Kanker No. Variabel Kategori it ∆is,t 1 2 3 4 5 1 Usia 0.4950 0.0033 1 0.0000 2 dan 3 0.4944 2 Usia 0.4950 0.0040 1 dan 2 0.4980 3 0.4889 Universitas Sumatera Utara 48 1 2 3 4 5 3 Tsize 0.4950 0.0030 1 0.4743 2 dan 3 0.4986 4 Tsize 0.4950 0.0016 1 dan 2 0.4931 3 0.4962 5 Pnode 0.4950 0.0053 1 0.4936 2 dan 3 0.2188 6 Pnode 0.4950 0.0013 1 dan 2 0.4945 3 0.3750 7 Progesteron 0.4950 0.0193 1 0.4941 2 dan 3 0.4593 8 Progesteron 0.4950 0.0165 1 dan 2 0.4996 3 0.4355 9 Esterogen 0.4950 0.0042 1 0.5000 2 dan 3 0.4842 10 Esterogen 0.4950 0.0052 1 dan 2 0.4997 3 0.4713 Dari tabel di atas diperoleh nilai = 0,0193, yaitu pada variabel progesteron, sehingga variabel ini terpilih sebagai pemilah terbaik pertama yang membagi node 0 menjadi dua. Node 1 adalah variabel progesteron dengan kategori 1 dan node 2 adalah kategori progesteron dengan kategori 2 dan 3, seperti yang terlihat pada diagram pada gambar 8. Proses serupa diulangi pada node 1 dan node 2 yang telah terbentuk, juga dilakukan pada node-node berikutnya, hingga tersisa satu objek saja pada node terakhir atau semua objek yang berada dalam sebuah node merupakan anggota kelas yang sudah homogen. Universitas Sumatera Utara 49 Node 0 T = 302 TT = 247 Progesteron 1 2 dan 3 Node 1 Node 2 T = 115 T = 187 TT = 143 TT = 104 Gambar 11. Pemecahan Root Node

b. Pelabelan Kelas