commit to user 46
Tabel 4.5. Tingkat Akurasi Pohon Optimal Dengan Data Testing Kondisi
Pertama Kelas Sebenarnya
Total Kelas Persentase
Akurasi Lancar
N = 407 Tidak Lancar
N = 127 Lancar
156 88.46
138 18
Tidak Lancar 52
69.23 16
36 Total
208 Rata-rata
78.85
Persentase Keseluruhan
Akurasi 83.65
4.2.2. Pembentukan Pohon Klasifikasi Kondisi Kedua
1. Proses Splitting Node
Pada kondisi kedua pembagian data menjadi dua bagian data learning dan data testing dengan proporsi 50:50. Dengan demikian data learning
berjumlah 382 buah data, sedangkan data testing berjumlah 360 buah data.
Sebelum dilakukan proses splitting node, terlebih dahulu memilih variabel pemilah terbaik dari kedelapan variabel independen. Pemilahan variabel
berdasarkan kriteria goodness of split. Suatu split s akan digunakan untuk memecah node t menjadi dua buah node yaitu node
dan node jika s
memaksimalkan nilai ∆
∗
, = max ∆ , , dimana ∆
∗
, adalah nilai
yang paling maksimaltertinggi dari ∆ , . Root node dipecah dengan
kriteria pemecahan Cara Bayar adalah dengan cara triwulanan, Setengah tahunan, dan Tahunan. Variabel Cara Bayar terpilih karena nilai improvement
yaitu ∆ , dari variabel Cara Bayar tertinggi dari competitor yang lain. Hal
ini dapat dilihat pada Tabel 4.6.
commit to user 47
Tabel 4.6. Kriteria Pemilahan Terbaik Root Node Kondisi Kedua
Main Splitter Improvement = 0.15039 Competitor
Split Improvement
N Left
N Right
N Missing
Main Cara Bayar
Triwulanan, Setengah
Tahunan, Tahunan
0.15039 297
85
1 Macam
Asuransi Ekawaktu
Ideal, Mitra Beasiswa
Berencana, Mitra Melati,
Mitra Cerdas, Mitra Sehat
0.14610 298
84
2 Penghasilan
8000080 0.12346
85 297
3 Premi Dasar
100001 0.12346
85 297
4 Status
Kawin 0.05521
186 196
5 Jangka
Waktu Asuransi
9.5 0.02326
94 288
6 Jenis
Kelamin Laki-laki
0.00139 172
210
Setelah terbentuk dan terpilih kriteria pemilihan terbaik, maka node utama yang berisi 382 objek data dipilah menjadi dua buah terminal nodes.
Terminal node 1 terbentuk akibat kriteria variabel Cara Bayar adalah
commit to user 48
triwulanan, setengah tahunan dan tahunan. Terminal node 2 terbentuk akibat kriteria variabel Cara Bayar adalah bulanan. Proses pemilahan dapat dilihat
pada Gambar 4.6. Proses serupa terus berjalan pada node-node lainnya, hingga tersisa satu objek saja yang berada dalam node terakhir atau semua
objek yang berada dalam sebuah node merupakan anggota dari kelas yang sama homogen.
Gambar 4.6 . Pemilahan Root Node Kondisi Kedua
2. Pelabelan Kelas
Pada bagian ini adalah pemberian label kelas pada node-node yang telah terbentuk. Prosedur pemberian label kelas berdasarkan Definisi 2.14
class assignment rule yaitu jika | = max |
∗
= , dimana
∗
adalah kelas yang diidentifikasikan pada node t . Sebagai contoh, pada Gambar 4.6
tidak lancar| = 86
382 = 0.225
lancar| = 296
382 = 0.775
sehingga root node diberi label kelas lancar, karena peluang kelas lancar lebih besar daripada peluang kelas lainnya. Proses pelabelan kelas ini berlaku pada
CARA_BAYAR = Triw ulanan... Terminal
Node 1 Class = Lancar
Class Cases
Tidak Lancar 25
8.4 Lancar
272 91.6
W = 297.00 N = 297
CARA_BAYAR = Bulanan Terminal
Node 2 Class = Tidak Lancar
Class Cases
Tidak Lancar 61
71.8 Lancar
24 28.2
W = 85.00 N = 85
Node 1 Class = Lancar
CARA_BAYAR = Triw ulanan,Setengah Tahunan,
Tahunan Class
Cases Tidak Lancar
86 22.5
Lancar 296
77.5 W = 382.00
N = 382
commit to user 49
semua node terutama terminal node, karena terminal node adalah node yang sangat penting dalam memprediksi suatu objek pada kelas tertentu jika objek
berada pada terminal node tersebut.
3. Proses Penghentian Pemecahan
Proses splitting node yang berulang-ulang akan berhenti dan menghasilkan pohon maksimal yang dapat dilihat pada Gambar 4.8. Proses
splitting node akan berenti karena pada ujung pohon klasifikasi terdapat terminal node dimana anggotanya terdapat pada kelas yang sama. Hal ini
terlihat pada terminal node 23 dan 24 dalam gambar 4.7. Pohon maksimal Gambar 4.8. untuk kondisi kedua mempunyai 23 nonterminal nodes dan 24
terminal nodes.
Gambar 4.7. Terminal node 23 dan 24 kondisi kedua
Gambar 4.8
. Pohon Klasifikasi Maksimal Kondisi Kedua
Terminal Node 23
Class = Lancar Class
Cases Tidak Lancar
0.0 Lancar
1 100.0
W = 1.00 N = 1
Terminal Node 24
Class = Tidak Lancar Class
Cases Tidak Lancar
4 100.0
Lancar 0.0
W = 4.00 N = 4
= Nonterminal nodes = Terminal nodes
dan
commit to user 50
4. Proses Pemangkasan Pohon Tree Prunning Process
Proses pemangkasan pohon dapat dilihat pada Lampiran 4. Proses pemangkasan pohon klasifikasi maksimal menghasilkan 8 subtree. Proses
pemangkasan pohon klasifikasi dimulai dengan mengambil yang
merupakan right child node dan yang merupakan left child node dari �
yang dihasilkan dari parent node t. Jika diperoleh dua child node dan parent node yang memenuhi persamaan
= + , maka child node dan dipangkas. Proses tersebut diulangi sampai tidak ada lagi pemangkasan
yang mungkin terjadi. Dan diperoleh urutan sebagai berikut �
1
, �
2
, ⋯ ,
1
, �
1
�
2
⋯ {
1
},
Gambar 4.9. Pohon klasifikasi kondisi kedua yang akan dipangkas
Pada Gambar 4.9 terdapat node yang akan dipangkas yaitu node 8 . Node tersebut mengalami pemangkasan karena parent node dan child node
memenuhi persamaan = + .
Gambar 4.10 . Node 8 pada kondisi kedua yang akan dipangkas
PREMI_DASAR = 582620.00 Terminal
Node 7 Class = Lancar
Class Cases
Tidak Lancar 2
16.7 Lancar
10 83.3
W = 12.00 N = 12
PREMI_DASAR 582620.00 Terminal
Node 8 Class = Tidak Lancar
Class Cases
Tidak Lancar 2
66.7 Lancar
1 33.3
W = 3.00 N = 3
PREMI_DASAR = 601567.50 Node 9
Class = Lancar PREMI_DASAR = 582620.00
Class Cases
Tidak Lancar 4
26.7 Lancar
11 73.3
W = 15.00 N = 15
PREMI_DASAR 601567.50 Terminal
Node 9 Class = Lancar
Class Cases
Tidak Lancar 2
9.5 Lancar
19 90.5
W = 21.00 N = 21
Node 8 Class = Lancar
PREMI_DASAR = 601567.50 Class
Cases Tidak Lancar
6 16.7
Lancar 30
83.3 W = 36.00
N = 36
commit to user 51
Proses pemangkasan ini dapat dilihat dari perhitungan di bawah ini
Parent Node Node 8 :
Nilai = .
dengan = 1 − max | dan | adalah peluang beberapa objek
berada dalam node t. Dalam node 8 terdapat dua kelas yaitu kelas tidak lancar dan kelas
lancar. Nilai probabilitas tiap kelas dalam node 8 adalah sebagai berikut: tidak lancar|
8 =
6 36
= 0.167 lancar|
8 =
30 36
= 0.833 sehingga dengan menggunakan rumus
= 1 − max | , maka diperoleh
8 = 1 − max |
= 1 − 0.833 = 0.167 .
Nilai probabilitas objek yang berada dalam node 8 adalah 8
= 8
= 36
382 = 9.42 × 10
−2
. oleh karena itu,
8 =
8 .
8 = 0.167 × 9.42 × 10
−2
= 1.57 × 10
−2
.
Selanjutnya pada child node , yaitu node 9 dan terminal node 9 :
Dengan cara perhitungan yang sama maka, node 9 memiliki nilai max
|
sebesar 0.733, sehingga nilai
= 1 − max | = 1 − 0.733 = 0.267. adalah peluang banyaknya objek pada anak node sebelah kiri node 9,
sehingga nilai
commit to user 52
= =
15 382
= 3.93 × 10
−2
. Oleh karena itu,
= . = 0.267 × 3.93 × 10
−2
= 1.05 × 10
−2
. Terminal node 9 memiliki nilai
max | sebesar 0.905, sehingga nilai
= 1 − max | = 1 − 0.905 = 0.095. adalah peluang banyaknya objek pada anak node sebelah kanan
terminal node 9, sehingga nilai
= =
21 382
= 5.497 × 10
−2
. Oleh karena itu,
= . = 0.095 × 5.497 × 10
−2
= 5.22 × 10
−3
. Dengan demikian persamaan
= + 1.57 × 10
−2
= 5.22 × 10
−3
+ 1.05 × 10
−2
1.57 × 10
−2
= 1.57 × 10
−2
terpenuhi untuk node 8, sehingga dilakukan pemangkasan.
5. Pohon Klasifikasi Optimal
Setelah dilakukan pemangkasan pohon, langkah selanjutnya pemilihan pohon klasifikasi optimal. Dari 8 subtree akan dipilih satu pohon klasifikasi
dengan nilai penduga pengganti yang terkecil. Dalam mencari pohon klasifikasi optimal digunakan metode Test Sample Estimate yaitu
� =
1
2
|
2 ,
, karena ukuran data yang besar. Nilai penduga pengganti sample uji test sample estimate dari masing-masing subtree terlihat pada
Tabel 4.7.
commit to user 53
Tabel 4.7. Tree Sequence Kondisi Kedua
Tree number Terminal Nodes Test Set Relative Cost Resubstitution
Relative Cost 1
24 0.94486
± 0.08833 0.40857
2 20
0.94362 ± 0.08797
0.42143 3
18 0.93568
± 0.08851 0.43183
4 14
0.86451 ± 0.08508
0.45508 5
12 0.84120
± 0.08397 0.46794
6 8
0.83202 ± 0.08418
0.49666 7
2 0.70928
± 0.07548 0.54018
8 1
1.00000 ± 0.00000
1.00000
Optimal
Pada Tabel 4.7. terlihat bahwa dari kedelapan subtree yang terbentuk, subtree nomor 7 dengan 2 terminal nodes adalah pohon klasifikasi optimal.
Hal ini dikarenakan memenuhi kriteria nilai test set relative cost �
= min
� yaitu subtree nomor 7 memiliki nilai paling kecil dari kedelapan subtree yang lainnya. Pohon klasifikasi optimal dapat dilihat pada
Lampiran 5.
6. Predictive Accuracy
Pohon klasifikasi optimal yang telah terpilih tadi kemudian diuji tingkat keakuratannya dalam mengelompokkan data learning. Uji keakuratan
pohon klasifikasi optimal pada kondisi pertama dengan menggunakan
= 1
1
≠
, ∈ℒ
1
= 24 + 25
382 =
49 382
= 0.128
commit to user 54
Dengan nilai = 0.128, maka ketepatan klasifikasinya adalah
1 − 0.128 = 0.8717 atau 87.17. Hasil dari klasifikasi pohon optimal
dengan menggunakan data learning dapat dilihat pada Tabel 4.8
Tabel 4.8. Tingkat Akurasi Pohon Optimal Dengan Data Learning Kondisi
Kedua Kelas Sebenarnya
Total Kelas Persentase
Akurasi Lancar
N = 297 Tidak Lancar
N = 85 Lancar
296 91.89
272 24
Tidak Lancar 86
70.93 25
61 Total
382 Rata-rata
81.41
Persentase Keseluruhan
Akurasi 87.17
Kemudian pohon optimal diuji keakuratannya dengan cara mengklasifikasikan data testing untuk melihat kemampuan pohon klasifikasi
optimal dalam mengklasifikasikan data baru. Persamaan yang digunakan pada data testing adalah
= 1
2
≠
, ∈ℒ
2
= 26 + 39
360 =
65 360
= 0.180
Oleh karena itu, ketepatan klasifikasinya adalah 1
− 0.180 = 0.8194 atau
81.94 . Hasil dari klasifikasi pohon optimal dengan menggunakan data testing dapat dilihat pada Tabel 4.9.
commit to user 55
Tabel 4.9. Tingkat Akurasi Pohon Optimal Dengan Data Testing Kondisi
Kedua Kelas Sebenarnya
Total Kelas Persentase
Akurasi Lancar
N = 277 Tidak Lancar
N = 83 Lancar
264 90.15
238 26
Tidak Lancar 96
59.38 39
57 Total
360 Rata-rata
74.76
Persentase Keseluruhan
Akurasi 81.94
4.2.3. Pembentukan Pohon Klasifikasi Kondisi Ketiga