commit to user 37
Variabel dependen yang digunakan terbagi menjadi dua kelas yaitu kelas tidak lancar dan kelas lancar.
Data ini diolah dengan menggunakan paket software CART Pro Ex 6.0 produk dari Salford Systems http:www.salford-systems.com. Ada tiga kondisi yang
digunakan untuk membuat pohon klasifikasi dengan menggunakan algoritma CART. 1. Kondisi pertama adalah pembagian data menjadi dua bagian yaitu data
learning dan data testing dengan proporsi data learning data testing 70:30.
2. Kondisi kedua adalah pembagian data menjadi dua bagian yaitu data learning dan data testing dengan proporsi data learning = data testing 50:50.
3. Kondisi ketiga pembagian data menjadi dua bagian yaitu data learning dan data testing dengan proporsi data learning data testing 40:60.
4.2. Hasil Analisis CART
4.2.1. Pembentukan Pohon Klasifikasi Kondisi Pertama
1. Proses Splitting Node
Pada kondisi pertama pembagian data menjadi dua bagian data learning dan data testing dengan proporsi 70:30. Dengan demikian data
learning berjumlah 534 buah data, sedangkan data testing berjumlah 208 buah
data. Sebelum dilakukan proses splitting node, terlebih dahulu memilih variabel pemilah terbaik dari kedelapan variabel independen. Pemilahan
variabel berdasarkan kriteria goodness of split. Suatu split s akan digunakan untuk memecah node t menjadi dua buah node yaitu node
dan node jika s memaksimalkan nilai
∆
∗
, = max ∆ , , dimana ∆
∗
, adalah
nilai yang paling maksimaltertinggi dari ∆ , . Root node dipecah dengan
kriteria pemecahan Cara Bayar adalah dengan cara Triwulanan, Setengah
commit to user 38
Tahunan, dan Tahunan. Variabel Cara Bayar terpilih karena nilai improvement yaitu
∆ , dari variabel Cara Bayar tertinggi dari competitor yang lain. Hal ini dapat dilihat pada Tabel 4.2.
Tabel 4.2. Kriteria Pemilahan Terbaik Root Node Kondisi Pertama
Main Splitter Improvement = 0.12801 Competitor
Split Improvement
N Left
N Right
N Missing
Main Cara Bayar
Triwulanan, Setengah
Tahunan, Tahunan
0.12801 415
119
1 Macam
Asuransi Mitra Prima,
Mitra Pelangi, Ekawaktu Ideal,
Mitra Beasiswa Berencana,
Mitra Melati, Mitra Cerdas,
Mitra Sehat 0.12533
416 118
2 Penghasilan
8000040 0.10874
120 414
3 Premi Dasar
100000.50 0.10874
120 414
4 Status
Kawin 0.04960
258 276
5 Jangka
Waktu Asuransi
9.5 0.02272
140 394
6 Jenis
Kelamin Laki-laki
0.00063 237
297
7 Mata Uang
Dolar 0.00023
1 533
commit to user 39
Setelah terbentuk dan terpilih kriteria pemilihan terbaik, maka node utama yang berisi 534 objek data dipilah menjadi dua buah terminal nodes. Terminal node 1
terbentuk akibat kriteria variabel Cara Bayar adalah triwulanan, setengah tahunan, dan tahunan. Terminal node 2 terbentuk akibat kriteria variabel Cara Bayar adalah
bulanan. Proses pemilahan dapat dilihat pada Gambar 4.1. Proses serupa terus berjalan pada node-node lainnya, hingga tersisa satu objek saja yang berada dalam
node terakhir atau semua objek yang berada dalam sebuah node merupakan anggota dari kelas yang sama homogen.
Gambar 4.1. Pemilahan Root Node Kondisi Pertama
2. Pelabelan Kelas
Pada bagian ini adalah pemberian label kelas pada node-node yang telah terbentuk. Prosedur pemberian label kelas berdasarkan Definisi 2.14
class assignment rule yaitu jika | = max |
∗
= , dimana
∗
adalah kelas yang diidentifikasikan pada node t. Sebagai contoh, pada Gambar 4.1
tidak lancar| = 130
534 = 0.243
lancar| = 404
534 = 0.757
CARA_BAYAR = Triw ulanan... Terminal
Node 1 Class = Lancar
Class Cases
Tidak Lancar 45
10.8 Lancar
370 89.2
W = 415.00 N = 415
CARA_BAYAR = Bulanan Terminal
Node 2 Class = Tidak Lancar
Class Cases
Tidak Lancar 85
71.4 Lancar
34 28.6
W = 119.00 N = 119
Node 1 Class = Lancar
CARA_BAYAR = Triw ulanan,Setengah Tahunan,
Tahunan Class
Cases Tidak Lancar
130 24.3
Lancar 404
75.7 W = 534.00
N = 534
commit to user 40
sehingga root node diberi label kelas lancar, karena peluang kelas lancar lebih besar daripada peluang kelas lainnya. Proses pelabelan kelas ini berlaku pada
semua node terutama terminal node, karena terminal node adalah node yang sangat penting dalam memprediksi suatu objek pada kelas tertentu jika objek
berada pada terminal node tersebut.
3. Proses Penghentian Pemecahan
Proses splitting node yang berulang-ulang akan berhenti dan menghasilkan pohon maksimal yang dapat dilihat pada Gambar 4.3. Proses
splitting node akan berhenti karena pada ujung pohon klasifikasi terdapat terminal node dimana anggotanya terdapat pada kelas yang sama. Hal ini
terlihat pada terminal node 46 dan 47 dalam Gambar 4.2. Pohon maksimal Gambar 4.3. untuk kondisi pertama mempunyai 46 nonterminal nodes dan
47 terminal nodes.
Gambar 4.2. Terminal node 46 dan 47 kondisi pertama
Gambar 4.3 . Pohon Klasifikasi Maksimal Kondisi Pertama
Terminal Node 47
Class = Tidak Lancar Class
Cases Tidak Lancar
4 100.0
Lancar 0.0
W = 4.00 N = 4
Terminal Node 46
Class = Lancar Class
Cases Tidak Lancar
0.0 Lancar
1 100.0
W = 1.00 N = 1
= Nonterminal nodes = Terminal nodes
dan
commit to user 41
4. Proses Pemangkasan Pohon
Proses pemangkasan pohon dapat dilihat pada Lampiran 2. Proses pemangkasan pohon klasifikasi maksimal menghasilkan 9 subtree. Proses
pemangkasan pohon klasifikasi dimulai dengan mengambil yang
merupakan right child node dan yang merupakan left child node dari �
yang dihasilkan dari parent node t. Jika diperoleh dua child node dan parent node yang memenuhi persamaan
= + , maka child node dan dipangkas. Proses tersebut diulangi sampai tidak ada lagi pemangkasan
yang mungkin terjadi. Dan diperoleh urutan sebagai berikut �
1
, �
2
, ⋯ ,
1
, �
1
�
2
⋯ {
1
},
Gambar 4.4. Pohon klasifikasi kondisi pertama yang akan dipangkas
Pada Gambar 4.4 terdapat node yang akan dipangkas yaitu node 36 . Node tersebut mengalami pemangkasan karena parent node dan child node
memenuhi persamaan = + .
Gambar 4.5 . Node 36 pada kondisi pertama yang akan dipangkas
JANGKA_WAKTU_ASURANSI = 5.50 Terminal
Node 33 Class = Tidak Lancar
Class Cases
Tidak Lancar 43
72.9 Lancar
16 27.1
W = 59.00 N = 59
JANGKA_WAKTU_ASURANSI 5.50 Terminal
Node 34 Class = Tidak Lancar
Class Cases
Tidak Lancar 6
85.7 Lancar
1 14.3
W = 7.00 N = 7
Node 36 Class = Tidak Lancar
JANGKA_WAKTU_ASURANSI = 5.50 Class
Cases Tidak Lancar
49 74.2
Lancar 17
25.8 W = 66.00
N = 66
commit to user 42
Proses pemangkasan ini dapat dilihat dari perhitungan di bawah ini
Parent Node Node 36 :
Nilai = .
dengan = 1 − max | dan | adalah peluang beberapa objek
berada dalam node t. Dalam node 36 terdapat dua kelas yaitu kelas tidak lancar dan kelas
lancar. Nilai probabilitas tiap kelas dalam node 36 adalah sebagai berikut: tidak lancar|
36 =
49 66
= 0.742 lancar|
36 =
17 66
= 0.258 sehingga dengan menggunakan rumus
= 1 − max | , maka diperoleh
36 = 1 − max |
= 1 − 0.742 = 0.258 .
Nilai probabilitas objek yang berada dalam node 36 adalah 36
= 36
= 66
534 = 0.1236 .
Oleh karena itu, 36
= 36
. 36
= 0.258 × 0.1236 = 3.18 × 10
−2
.
Selanjutnya pada child node , yaitu terminal node 33 dan terminal node 34 :
Dengan cara perhitungan yang sama maka, terminal node 33 memiliki nilai max
| sebesar 0.729, sehingga nilai = 1 − max | = 1 − 0.729 = 0.271.
adalah peluang banyaknya objek pada anak node sebelah kiri terminal node 33, sehingga
commit to user 43
= =
59 534
= 0.11 oleh karena itu,
= . = 0.271 × 0.11 = 2.99 × 10
−2
. Terminal node 34 memiliki nilai
max | sebesar 0.857, maka nilai
= 1 − max | = 1 − 0.857 = 0.143 adalah peluang banyaknya objek pada anak node sebelah kanan
terminal node 34, maka nilai =
= 7
534 = 1.31 × 10
−2
sehingga = . = 0.143 × 1.31 × 10
−2
= 1.87 × 10
−3
. Dengan demikian, persamaan
= + 3.18 × 10
−2
= 1.87 × 10
−3
+ 2.99 × 10
−2
3.18 × 10
−2
= 3.18 × 10
−2
terpenuhi untuk node 36, sehingga dilakukan pemangkasan.
5. Pohon Klasifikasi Optimal
Setelah dilakukan pemangkasan pohon, langkah selanjutnya pemilihan pohon klasifikasi optimal. Dari 9 subtree akan dipilih satu pohon klasifikasi dengan
nilai penduga pengganti yang terkecil. Dalam mencari pohon klasifikasi optimal digunakan metode Test Sample Estimate yaitu
� =
1
2
|
2 ,
, karena ukuran data yang besar. Nilai penduga pengganti sample uji test sample estimate dari masing-masing subtree terlihat pada
Tabel 4.3.
commit to user 44
Tabel 4.3. Tree Sequence Kondisi Pertama
Tree number
Terminal Nodes Test Set Relative Cost
Resubstitution Relative Cost
1 47
0.74162 ± 0.10700
0.47403 2
35 0.74063
± 0.10553 0.47426
3 32
0.75986 ± 0.10603
0.47441 4
26 0.75986
± 0.10603 0.48979
5 19
0.78057 ± 0.10890
0.51241 6
17 0.76134
± 0.10828 0.52003
7 9
0.66272 ± 0.10144
0.55887 8
2 0.68097
± 0.10023 0.60510
9 1
1.00000 ± 0.00000
1.00000
Optimal
Pada Tabel 4.3. terlihat bahwa dari kesembilan subtree yang terbentuk, subtree nomor 7 dengan 9 terminal nodes adalah pohon klasifikasi optimal.
Hal ini dikarenakan memenuhi kriteria nilai test set relative cost �
= min
� yaitu subtree nomor 7 memiliki nilai paling kecil dari kesembilan subtree yang lainnya. Pohon klasifikasi optimal dapat dilihat pada
Lampiran 3.
6. Predictive Accuracy
Pohon klasifikasi optimal yang telah terpilih tadi kemudian diuji tingkat keakuratannya dalam mengelompokkan data learning. Uji keakuratan pohon
klasifikasi optimal pada kondisi pertama dengan menggunakan =
1
1
≠
, ∈ℒ
1
= 35 + 38
534 =
73 534
= 0.1367
commit to user 45
Dengan nilai = 0.1367, maka ketepatan klasifikasinya adalah
1 − 0.1367 = 0.8633 atau 86.33 . Hasil dari klasifikasi pohon optimal
dengan menggunakan data learning dapat dilihat pada Tabel 4.4.
Tabel 4.4. Tingkat Akurasi Pohon Optimal Dengan Data Learning Kondisi
Pertama Kelas Sebenarnya
Total Kelas Persentase
Akurasi Lancar
N = 407 Tidak Lancar
N = 127 Lancar
404 91.34
369 35
Tidak Lancar 130
70.77 38
92 Total
534 Rata-rata
81.05
Persentase Keseluruhan
Akurasi 86.33
Kemudian pohon optimal diuji keakuratannya dengan cara mengklasifikasikan data testing untuk melihat kemampuan pohon klasifikasi
optimal dalam mengklasifikasikan data baru. Persamaan yang digunakan pada data testing adalah
= 1
2
≠
, ∈ℒ
2
= 18 + 16
208 =
34 208
= 0.1634
Oleh karena itu ketepatan klasifikasinya adalah 1
− 0.1634 = 0.8365 atau 83.65. Hasil dari klasifikasi pohon optimal dengan menggunakan data
testing dapat dilihat pada Tabel 4.5.
commit to user 46
Tabel 4.5. Tingkat Akurasi Pohon Optimal Dengan Data Testing Kondisi
Pertama Kelas Sebenarnya
Total Kelas Persentase
Akurasi Lancar
N = 407 Tidak Lancar
N = 127 Lancar
156 88.46
138 18
Tidak Lancar 52
69.23 16
36 Total
208 Rata-rata
78.85
Persentase Keseluruhan
Akurasi 83.65
4.2.2. Pembentukan Pohon Klasifikasi Kondisi Kedua