Proses Pemangkasan Pohon Binary Recursive Partitioning

commit to user 21 terakhir atau yang tidak mengalami pemecahan lagi sebagai akibat dari kondisi di atas akan menjadi terminal nodes dan diidentifikasikan pada suatu kelas tertentu sesuai dengan class assignment rule yang telah dijelaskan sebelum ini. Pohon klasifikasi yang terbentuk sebagai hasil dari proses ini dinamakan “maximal tree” � .

2.1.7.4. Proses Pemangkasan Pohon

Maximal tree � yang dihasilkan dari proses tree building dapat mengakibatkan dua masalah, Webb dan Yohannes [8] : 1. Meskipun � memiliki tingkat akurasi yang tinggi dengan nilai misclassification rate atau misclassification cost yang kecil bahkan bernilai nol dihitung dengan metode resubstitution estimate, namun � dapat menyebabkan over-fitting atau pencocokan nilai yang terlalu kompleks pada data-data baru. Hal ini dikarenakan terlalu banyak variabel independen yang digunakan untuk melakukan prediksi terhadap data baru tersebut. 2. Sebagai akibat dari point 1, � akan sulit untuk dipahami atau diinterpretasikan. Sehingga � akan lebih cepat dikatakan sebagai complex tree yang kompleksitasnya ditentukan dari banyaknya terminal node yang dimiliki. Proses pemangkasan pohon dimaksudkan untuk menghilangkan kedua masalah tersebut dengan memotong atau memangkas � menjadi beberapa pohon klasifikasi T yang ukurannya lebih kecil subtrees. Untuk mempermudah dalam memahami proses pemangkasan ini, berikut diberikan penjelasan awal mengenai proses ini. Sebuah node ′ disebut descendan anak dari node t dan node t disebut ancestor dari node ′ jika kedua node ini bisa dihubungkan oleh jalur-jalur yang bergerak dari atas ke bawah node t berada di atas node ′. Pada Gambar 2.3 pohon klasifikasi T, 4 , 5 , 8 , 9 , 10 , dan 11 adalah descendan dari 2 tetapi tidak dengan 6 commit to user 22 t 1 t 2 t 3 t 4 t 5 t 6 t 7 t 8 t 9 t 10 t 11 Gambar 2.3. Pohon Klasifikasi T t 2 t 4 t 5 t 8 t 9 t 11 t 10 Gambar 2.4. Branch T t2 t 1 t 2 t 3 t 7 t 6 Gambar 2.5. Pohon Klasifikasi T – T t2 pruned subtree Breiman et al., 1993 dan 7 . Begitu pula dengan 4 , 2 , dan 1 adalah ancestor dari , 9 , tetapi 3 bukanlah ancestor dari 9 . commit to user 23 Definisi 2.16. Breiman et al, 1993 Suatu branch � dari T dengan root node node akar ∈ � terdiri dari node t itu sendiri dengan semua descendant dari t dalam T. Sebagai contoh pada gambar 2.4. branch � 2 . Definisi 2.17. Breiman et al, 1993 Pruning pemangkasan sebuah branch � dari sebuah pohon T akan menghapus atau menghasilkan semua descendant t dari T kecuali root nodenya t itu sendiri. Sebagai contoh pada Gambar 2.5. pohon klasifikasi � − � 2 . Definisi 2.18. Breiman et al, 1993 Jika �′ diperoleh dari � sebagai hasil dari pemangkasan suatu branch, maka �′ disebut pruned subtree dari T dan dinotasikan dengan � ′ �. Sebagai catatan �′ dan T memiliki root node node akar yang sama. Sebagai contoh gambar pohon klasifikasi � − � 2 menunjukkan pruned subtree. Metode yang digunakan dalam proses pemangkasan pohon berdasarkan pada minimal cost complexity pruning. � = = ∈� ∈� � adalah tree misclassification cost atau tree resubtitution cost, sedangkan disebut node misclassification cost. Definisi 2.19. Breiman et al, 1993 Diketahui subtree � � didefinisikan complexity kompleksitas dari subtree ini adalah � , yaitu banyaknya terminal nodes yang dimiliki T, � 0 adalah complexity parameter atau node complexity dan cost complexity measure ukuran ongkos kompleksitas � �, maka � � = � + � � . Nilai � bisa diartikan sebagai penalty setiap terminal node berdasarkan kompleksitasnya, semakin besar nilai � maka ukuran tree yang dihasilkan akan kecil, sebaliknya jika nilai � kecil maka kompleksitas nodenya juga kecil sehingga ukuran tree yang dihasilkan akan besar. Sehingga contoh sebuah � memiliki terminal node yang berisi hanya satu objek atau homogen sehingga sehingga nilai � untuk � adalah 0 dan complexity measure mencapai minimum karena � max ⁡ = 0. commit to user 24 Nilai � akan terus meningkat selama proses pruning berlangsung dan akan mencapai nilai terbesar pada saat terminal node sama dengan root node. Cost complexity pruning menentukan suatu pohon bagian �� yang meminimumkan � � pada seluruh pohon bagian, atau untuk setiap nilai �, dicari pohon bagian � � � yang meminimumkan � � yaitu � � � = min �� � � . Proses pemangkasan pohon klasifikasi dimulai dengan mengambil yang merupakan right child node dan yang merupakan left child node dari � yang dihasilkan dari parent node t. jika diperoleh dua child node dan parent node yang memenuhi persamaan = + maka child node dan dipangkas. Hasilnya adalah pohon � 1 yang memenuhi kriteria � 1 = � . Proses tersebut diulang sampai tidak ada lagi pemangkasan yang mungkin terjadi. Dan diperoleh urutan sebagai berikut � 1 , � 2 , ⋯ , 1 , � 1 � 2 ⋯ { 1 } . Dengan urutan � sebagai berikut � 1 = 0 � 2 � 3 ⋯ � .

2.1.7.5. Pohon Klasifikasi Optimal