commit to user 16
dari kriteria sedangkan node
3
terbentuk akibat kriteria pemecahan .
Kemudian proses partisi berlanjut pada node
3
, dengan kriteria pemecahan dan
. Node
4
terbentuk karena memenuhi kriteria dan node
5
terbentuk karena kriteria
. 2.1.7
Langkah Kerja CART
Menurut Lewis [3] pada dasarnya dalam membuat sebuah pohon klasifikasi, CART bekerja dalam empat langkah utama. Langkah pertama adalah tree building
process yaitu proses pembentukan dan pembuatan pohon klasifikasi. Terdiri dari proses splitting nodes yaitu proses pemecahan parent nodes menjadi dua buah child
node melalui aturan pemecahan tertentu dan dilakukan secara berulang-ulang serta proses pelabelan kelas yaitu proses mengidentifikasi node-node yang terbentuk pada
suatu kelas tertentu melalui aturan pengidentifikasian. Langkah kedua adalah proses penghentian pembuatan atau pembentukan pohon klasifikasi stopping the trees
building process. Pada tahap ini pohon terakhir atau maximal tree �
telah terbentuk. Langkah ketiga adalah pruning the tree yaitu proses pemangkasan atau
pemotongan �
menjadi pohon yang lebih kecil T. Selanjutnya langkah terakhir adalah proses optimal tree selection yaitu pemilihan atau penentuan pohon klasifikasi
yang optimal.
2.1.7.1 Proses Pemecahan Node
Proses pemecahan pada masing-masing parent node didasarkan pada goodness of split criterion kriteria pemecahan terbaik. Kriteria pemecahan terbaik
ini dibentuk berdasarkan fungsi impurity fungsi keragaman.
Definisi 2.9. Breiman et al, 1993 Fungsi impurity adalah sebuah fungsi
� yang
didefinisikan oleh
1
,
2
, ⋯ , ;
= 1, = 1, 2, ⋯ , .
Fungsi impurity �
memenuhi kriteria: i
� maksimum apabila nilai-nilai
commit to user 17
1
,
2
, ⋯ , =
1 1
, 1
2 ,
⋯ , 1
. ii
� minimum apabila nilai-nilai
1
,
2
, ⋯ , = 1, 0, ⋯ ,0 , 0,1, ⋯ ,0 , ⋯ , 0,0, ⋯ ,1 .
iii �
adalah fungsi simetris dari
1
,
2
, ⋯ ,
.
Definisi 2.10. Breiman et al, 1993 Diberikan fungsi impurity, maka impurity
measure ukuran impurity it dari beberapa node t sebagai = � 1| , 2| , ⋯ , | .
Definisi 2.11. Breiman et al, 1993 Diberikan impurity measure it, maka Gini
Diversity Index Indek Keragaman Gini adalah : = | | 2.4
≠
Dalam sebuah node t, andaikan terdapat 1, 2
⋯ , kelas. Untuk j = 1 dan i adalah
kelas-kelas lainnya maka 2.4 dapat dituliskan | |
≠
= 1| 2| + 1| 3| + ⋯ + 1| |
= 1| [ 2| + 3| + ⋯ + | ] 2.5
Karena | = 1 , sehingga 2.5 menjadi
1| 2| + 3| + ⋯ + | = 1| | − 1|
= 1| 1 − 1|
= 1| −
2
1| . Begitu pula untuk j = 2 dan i adalah kelas-kelas lainnya maka 2.4 dapat dituliskan
| | =
≠
| −
2
|
2 =1,
≠
. Untuk j = 3 dan i adalah kelas-kelas lainnya maka 2.4 dapat dituliskan
commit to user 18
| | =
≠
| −
2
|
3 =1,
≠
Sehingga untuk j kelas secara umum, didapatkan : | | =
≠
| −
2
|
= | −
2
| = 1
−
2
| .
Sehingga berdasarkan 2.4 Gini Diversity Index dapat dituliskan = 1 −
2
| . Rumus 2.4 hanya berlaku apabila besar cost untuk resiko kesalahan
klasifikasi masing-masing kelas sama, C1|2 = C1|3 = Ci|j jika besar cost berbeda maka 2.4 dituliskan
= | | .
≠
Definisi 2.12. Breiman et al, 1993 Jika sebuah split s dalam node t dibagi ke dalam
dengan proporsi banyaknya objek yang masuk dalam adalah
, dan dengan proporsi banyaknya objek yang masuk dalam
adalah , maka didefinisikan
decrease impurity pengurangan keragaman ∆ , = −
− 2.6
Nilai ∆ , digunakan sebagai uji goodness of split criterion kriteria uji
pemecahan terbaik. Suatu split s akan digunakan untuk memecah node t menjadi dua buah node yaitu node
dan jika s memaksimalkan nilai ∆
∗
, = max ∆ , .
Berdasarkan 2.6 ∆ , akan maksimum apabila diperoleh
dan minimum. Hal ini berarti splitting pemecahan dilakukan untuk membuat dua buah
commit to user 19
node baru yang keragamannya lebih kecil homogen apabila dibandingkan dengan node awalnya parent node. Misalkan sebuah pohon klasifikasi telah terbentuk dan
memiliki sekumpulan atau himpunan terminal nodes � , didefinisikan impurity node
It, dengan = .
Didefinisikan pula tree impurity � , dengan
� = =
∈ � ∈ �
sehingga didapatkan hasil sebagai berikut ∆ , = − − .
Proposisi 2.1. Pemilihan split s yang memaksimalkan
∆ , ekuivalen dengan pemilihan split s yang meminimalkan tree impurity
.
2.1.7.2 Pelabelan Kelas