Pelabelan Kelas Binary Recursive Partitioning

commit to user 19 node baru yang keragamannya lebih kecil homogen apabila dibandingkan dengan node awalnya parent node. Misalkan sebuah pohon klasifikasi telah terbentuk dan memiliki sekumpulan atau himpunan terminal nodes � , didefinisikan impurity node It, dengan = . Didefinisikan pula tree impurity � , dengan � = = ∈ � ∈ � sehingga didapatkan hasil sebagai berikut ∆ , = − − . Proposisi 2.1. Pemilihan split s yang memaksimalkan ∆ , ekuivalen dengan pemilihan split s yang meminimalkan tree impurity .

2.1.7.2 Pelabelan Kelas

Pelabelan kelas adalah proses pengidentifikasian tiap nodes pada suatu kelas tertentu. Pelabelan kelas tidak hanya diberlakukan untuk terminal nodes saja, nonterminal nodes bahkan root node mengalami proses ini. Hal ini dikarenakan setiap nonterminal nodes memiliki kesempatan untuk menjadi terminal nodes. Sehingga proses pelabelan kelas akan terus dilakukan selama proses splitting masih berlanjut. Walaupun semua nodes mengalami proses ini, tentu saja diantaranya yang paling membutuhkan proses ini adalah terminal nodes, karena terminal nodes adalah nodes yang sangat penting dalam memprediksi suatu objek pada kelas tertentu jika objek tersebut berada pada terminal nodes tersebut. Misalkan sebuah pohon klasifikasi telah terbentuk dan memiliki terminal nodes � . Definisi 2.13. Breiman et al, 1993 Class assignment rule mengidentifikasikan sebuah kelas ∈ {1, 2, ⋯ , } pada setiap terminal node ∈ � . Kelas yang diidentifikasikan pada node ∈ � dinotasikan dengan ∗ . commit to user 20 Ada dua aturan pelabelan kelas, masing-masing aturan berdasarkan kepada dua macam misclassification cost yang berbeda. Kedua aturan itu diterangkan pada definisi-definisi berikut Definisi 2.14. Breiman et al, 1993 Class assignment rule ∗ didefinisikan apabila | = max | ∗ = Aturan ini disebut the plurality rule aturan keragaman dan berdasarkan nilai misclassification cost yang sama pada setiap kelas. Definisi 2.15. Breiman et al, 1993 Didefinisikan class assignment rule ∗ , ∗ = apabila meminimalkan | | Aturan ini berdasarkan nilai misclassification cost yang berbeda untuk tiap kelas | 0 jika ≠ dan | = 0 jika = . Resubstitution estimate adalah konsekuensi logis dari proses pelabelan kelas ini. Resubstitution estimate adalah probabilitas terjadinya misclassification yang dialami beberapa objek-objek tersebut pada node t tertentu. Proses splitting pada node t menyatakan yang kecil pada kedua node baru yang terbentuk. Hal ini dibuktikan melalui proposisi berikut. Proposisi 2.2. Breiman, et al, 1993 Untuk setiap pemecahan node t menjadi dan berlaku + . 2.1.7.3. Proses Penghentian Pemecahan Menurut Vayssieres [4], proses splitting atau pembuatan pohon klasifikasi akan berhenti apabila sudah tidak dimungkinkan lagi dilakukan proses pemecahan. Proses pemecahan akan berhenti apabila hanya tersisa satu objek saja yang ada dalam node terakhir atau semua objek yang berada di dalam sebuah node merupakan anggota kelas yang sama homogen. Kemudian , bernilai 0 atau 1. = 0, dan resubstitution estimate � untuk nilai misclassification sama dengan 0. Pada umumnya nilai � menurun saat jumlah terminal node meningkat. Node-node commit to user 21 terakhir atau yang tidak mengalami pemecahan lagi sebagai akibat dari kondisi di atas akan menjadi terminal nodes dan diidentifikasikan pada suatu kelas tertentu sesuai dengan class assignment rule yang telah dijelaskan sebelum ini. Pohon klasifikasi yang terbentuk sebagai hasil dari proses ini dinamakan “maximal tree” � .

2.1.7.4. Proses Pemangkasan Pohon