44
Ketika menghitung akurasi persentase untuk dataset di mana variabel target merupakan diskrit, jumlah klasifikasi yang benar dari setiap hasil akan
menentukan ukuran keseluruhan kinerja algoritma FCART.
3.2. Uji coba pada Database
Database yang digunakan untuk uji coba pada penelitian ini adalah sebuah database contoh. Database dibagi menjadi dua bagian secara acak, yaitu data
learning dan data testing dengan proporsi 80 data learning dan 20 sisanya data testing. Data training digunakan untuk membentuk model klasifikasi,
kemudian data testing digunakan untuk menguji akurasi prediksi model terhadap data baru.
Dilakukan analisis data terhadap 686 pasien kanker payudara yang dilakukan oleh German Breast Cancer Study Group. Terdapat enam variabel,
yaitu usia pasien tahun, tsize atau ukuran tumor mm, pnodes atau banyaknya node positif, kandungan progesteron ngdL, kandungan esterogen pgdL, dan
indikator sensor 0:tersensor, 1:tidak tersensor. Data tersebut terkategorikan dengan dalam variabel seperti pada tabel 2.
Data learning berjumlah 549 dari 686 baris data yang dipilih secara acak, dan sisanya 137 pada data testing. Data learning selanjutnya akan digunakan
untuk membuat model klasifikasi dengan algoritma CART sesuai dengan kategorinya.
Tabel 2. Variabel Kategorik Pasien Kanker
Variabel Dependen Kategori
Sensor 1
Tersensor 2
Tidak Tersensor 1
Universitas Sumatera Utara
45
Variabel Independen
Usia 1
≤ 25 Tahun Muda 1
2 25 - 45 Tahun Parobaya
2 3
45 Tahun Tua 3
Ukuran Tumor 1
≤ 20 mm Kecil 1
2 20
– 50 mm Sedang 2
3 50 mm Besar
3 Node Positif
1 20 Sedikit
1 2
20 - 25 Normal 2
3 25 Banyak
3 Progesteron
1 30 ngdL Sedikit
1 2
30 - 95 ngdL Normal 2
3 95 ngdL Banyak
3 Esterogen
1 25 pgdL Sedikit
1 2
25 - 75 pgdL Normal 2
3 75 pgdL Banyak
3
a. Proses Pemecahan Node
Untuk mempermudah penghitungan, data ditabulasikan silang seperti yang terdapat pada lampiran 1. Pemilahan variabel berdasarkan kriteria goodness of
split. Suatu split s akan digunakan untuk memecah node t menjadi dua buah node t
R
dan node t
L
jika s memaksimalkan nilai ∆is,t = max
s
∆is,t. Root node biasa disebut dengan node 0. Untuk variabel yang lebih dari 2, akan
dikombinasikan kategorinya untuk menemukan splitter terbaik. Berikutnya pemilihan split untuk node 1 dan node 2.
Untuk variabel usia yang pertama, kombinasi kategorinya sebagai berikut :
Universitas Sumatera Utara
46
Tabel 3. Kombinasi Kategori Usia Pertama
Usia T=0
TT=1 Jumlah
1 3
3 2 dan 3
302 244
546 Jumlah
302 247
549 Impurity Index-nya dihitung sebagai berikut :
∑ {
}
{ }
{ }
Selanjutnya dihitung ∆is,t node tersebut :
Untuk variabel usia yang kedua, kombinasi kategorinya sebagai berikut : Tabel 4. Kombinasi Kategori Usia Kedua
Usia T=0
TT=1 Jumlah
1 dan 2 59
67 126
3 243
180 423
Jumlah 302
247 549
Dengan cara perhitungan yang sama diperoleh sebagai berikut : ∑
{ }
{ }
{ }
Universitas Sumatera Utara
47
Untuk variabel tsize yang pertama, kombinasi kategorinya sebagai berikut : Tabel 5. Kombinasi Kategori Tsize Pertama
Tsize T=0
TT=1 Jumlah
1 92
58 150
2 dan 3 210
189 399
Jumlah 302
247 549
∑
{ }
{ }
{ }
Penghitungan ini dilakukan pada semua variabel dan kombinasi kategorinya, sehingga didapatkan seluruh nilai
seperti dalam tabel berikut :
Tabel 6. Decrease Impurity Variabel Data Pasien Kanker
No. Variabel
Kategori it
∆is,t
1 2
3 4
5
1 Usia
0.4950 0.0033
1 0.0000
2 dan 3 0.4944
2 Usia
0.4950 0.0040
1 dan 2 0.4980
3 0.4889
Universitas Sumatera Utara
48
1 2
3 4
5
3 Tsize
0.4950 0.0030
1 0.4743
2 dan 3 0.4986
4 Tsize
0.4950 0.0016
1 dan 2 0.4931
3 0.4962
5 Pnode
0.4950 0.0053
1 0.4936
2 dan 3 0.2188
6 Pnode
0.4950 0.0013
1 dan 2 0.4945
3 0.3750
7 Progesteron
0.4950 0.0193
1 0.4941
2 dan 3 0.4593
8 Progesteron
0.4950 0.0165
1 dan 2 0.4996
3 0.4355
9 Esterogen
0.4950 0.0042
1 0.5000
2 dan 3 0.4842
10 Esterogen
0.4950 0.0052
1 dan 2 0.4997
3 0.4713
Dari tabel di atas diperoleh nilai = 0,0193, yaitu pada variabel
progesteron, sehingga variabel ini terpilih sebagai pemilah terbaik pertama yang membagi node 0 menjadi dua. Node 1 adalah variabel progesteron dengan
kategori 1 dan node 2 adalah kategori progesteron dengan kategori 2 dan 3, seperti yang terlihat pada diagram pada gambar 8.
Proses serupa diulangi pada node 1 dan node 2 yang telah terbentuk, juga dilakukan pada node-node berikutnya, hingga tersisa satu objek saja pada node
terakhir atau semua objek yang berada dalam sebuah node merupakan anggota kelas yang sudah homogen.
Universitas Sumatera Utara
49
Node 0 T =
302 TT =
247
Progesteron
1 2 dan 3
Node 1 Node 2
T = 115 T
= 187
TT =
143 TT
= 104
Gambar 11. Pemecahan Root Node
b. Pelabelan Kelas