commit to user 21
terakhir atau yang tidak mengalami pemecahan lagi sebagai akibat dari kondisi di atas akan menjadi terminal nodes dan diidentifikasikan pada suatu kelas tertentu sesuai
dengan class assignment rule yang telah dijelaskan sebelum ini. Pohon klasifikasi yang terbentuk sebagai hasil dari proses ini dinamakan “maximal tree” �
.
2.1.7.4. Proses Pemangkasan Pohon
Maximal tree �
yang dihasilkan dari proses tree building dapat mengakibatkan dua masalah, Webb dan Yohannes [8] :
1. Meskipun �
memiliki tingkat akurasi yang tinggi dengan nilai misclassification rate atau misclassification cost yang kecil bahkan bernilai
nol dihitung dengan metode resubstitution estimate, namun �
dapat menyebabkan over-fitting atau pencocokan nilai yang terlalu kompleks pada
data-data baru. Hal ini dikarenakan terlalu banyak variabel independen yang digunakan untuk melakukan prediksi terhadap data baru tersebut.
2. Sebagai akibat dari point 1, �
akan sulit untuk dipahami atau diinterpretasikan. Sehingga
� akan lebih cepat dikatakan sebagai complex
tree yang kompleksitasnya ditentukan dari banyaknya terminal node yang dimiliki.
Proses pemangkasan pohon dimaksudkan untuk menghilangkan kedua masalah tersebut dengan memotong atau memangkas
� menjadi beberapa pohon
klasifikasi T yang ukurannya lebih kecil subtrees. Untuk mempermudah dalam memahami proses pemangkasan ini, berikut diberikan penjelasan awal mengenai
proses ini. Sebuah node
′ disebut descendan anak dari node t dan node t disebut ancestor dari node
′
jika kedua node ini bisa dihubungkan oleh jalur-jalur yang bergerak dari atas ke bawah node t berada di atas node
′. Pada Gambar 2.3 pohon klasifikasi T,
4
,
5
,
8
,
9
,
10
,
dan
11
adalah descendan dari
2
tetapi tidak dengan
6
commit to user 22
t
1
t
2
t
3
t
4
t
5
t
6
t
7
t
8
t
9
t
10
t
11
Gambar 2.3. Pohon Klasifikasi T
t
2
t
4
t
5
t
8
t
9
t
11
t
10
Gambar 2.4. Branch T
t2
t
1
t
2
t
3
t
7
t
6
Gambar 2.5.
Pohon Klasifikasi T – T
t2
pruned subtree Breiman et al., 1993
dan
7
. Begitu pula dengan
4
,
2
,
dan
1
adalah ancestor dari
,
9
,
tetapi
3
bukanlah ancestor dari
9
.
commit to user 23
Definisi 2.16. Breiman et al, 1993 Suatu branch
� dari T dengan root node node akar
∈ � terdiri dari node t itu sendiri dengan semua descendant dari t dalam T. Sebagai contoh pada gambar 2.4. branch
�
2
.
Definisi 2.17. Breiman et al, 1993 Pruning pemangkasan sebuah branch
� dari sebuah pohon T akan menghapus atau menghasilkan semua descendant t dari T
kecuali root nodenya t itu sendiri. Sebagai contoh pada Gambar 2.5. pohon klasifikasi
� − �
2
.
Definisi 2.18. Breiman et al, 1993 Jika
�′ diperoleh dari � sebagai hasil dari pemangkasan suatu branch, maka
�′ disebut pruned subtree dari T dan dinotasikan dengan
�
′
�. Sebagai catatan �′ dan T memiliki root node node akar yang sama. Sebagai contoh gambar pohon klasifikasi
� − �
2
menunjukkan pruned subtree. Metode yang digunakan dalam proses pemangkasan pohon berdasarkan pada
minimal cost complexity pruning. � = =
∈� ∈�
� adalah tree misclassification cost atau tree resubtitution cost, sedangkan disebut node misclassification cost.
Definisi 2.19. Breiman et al, 1993 Diketahui subtree
� � didefinisikan
complexity kompleksitas dari subtree ini adalah � , yaitu banyaknya terminal
nodes yang dimiliki T, � 0 adalah complexity parameter atau node complexity dan
cost complexity measure ukuran ongkos kompleksitas
�
�, maka
�
� = � + � � . Nilai
� bisa diartikan sebagai penalty setiap terminal node berdasarkan kompleksitasnya, semakin besar nilai
� maka ukuran tree yang dihasilkan akan kecil, sebaliknya jika nilai
� kecil maka kompleksitas nodenya juga kecil sehingga ukuran tree yang dihasilkan akan besar. Sehingga contoh sebuah
� memiliki terminal
node yang berisi hanya satu objek atau homogen sehingga sehingga nilai � untuk
� adalah 0 dan complexity measure mencapai minimum karena
�
max
= 0.
commit to user 24
Nilai � akan terus meningkat selama proses pruning berlangsung dan akan mencapai
nilai terbesar pada saat terminal node sama dengan root node. Cost complexity pruning menentukan suatu pohon bagian
�� yang meminimumkan
�
� pada seluruh pohon bagian, atau untuk setiap nilai �, dicari pohon bagian
� � � yang meminimumkan
�
� yaitu
�
� � = min
�� �
� . Proses pemangkasan pohon klasifikasi dimulai dengan mengambil
yang merupakan right child node dan
yang merupakan left child node dari �
yang dihasilkan dari parent node t. jika diperoleh dua child node dan parent node yang
memenuhi persamaan = + maka child node dan dipangkas.
Hasilnya adalah pohon �
1
yang memenuhi kriteria �
1
= � . Proses tersebut
diulang sampai tidak ada lagi pemangkasan yang mungkin terjadi. Dan diperoleh urutan sebagai berikut
�
1
, �
2
, ⋯ ,
1
, �
1
�
2
⋯ {
1
} . Dengan urutan �
sebagai berikut �
1
= 0 �
2
�
3
⋯ � .
2.1.7.5. Pohon Klasifikasi Optimal