Struktur atau Bentuk Pohon Klasifikasi CART

commit to user 12 dalam dua child nodes secara berulang-ulang diawali dengan root node. Dalam skripsi ini pembahasan dikhususkan pada pohon klasifikasi. Menurut Lewis [3] beberapa keunggulan CART dibanding dengan metode statistik yang lain khususnya parametrik diantaranya adalah 1. variabel-variabel dalam CART baik variabel independen maupun dependen tidak mendasarkan atau mengasumsikan distribusi populasinya pada distribusi probabilitas tertentu. Sehingga CART termasuk dalam kelompok metode statistik nonparametrik. 2. variabel –variabel independen dalam CART bisa bertipe kategorik nominal atau ordinal tanpa diperlukannya pembuatan variabel dummy ataupun juga bisa bertipe kontinu. 3. CART mampu untuk mengatasi missing value. 4. CART tidak terpengaruh oleh adanya outlier, kolinearitas, dan heteroskedastisitas diantara variabel independennya. 5. dalam CART tidak berlaku adanya transformasi data. Data-data asli yang dirubah ke dalam bentuk apapun tidak akan mempengaruhi dalam pembentukan pohon klasifikasinya. 6. interpretasi dari pohon klasifikasi yang dihasilkan oleh CART sangat mudah dipahami oleh para pengguna.

2.1.5 Struktur atau Bentuk Pohon Klasifikasi CART

Algoritma CART termasuk dalam anggota analisis klasifikasi yang disebut decision trees karena proses analisis dari CART digambarkan dalam bentuk atau struktur yang menyerupai sebuah pohon, lebih tepatnya pohon klasifikasi yang berbentuk biner. Biner di sini bararti bahwa setiap pemecahan parent node menghasilkan 2 child nodes. commit to user 13 Adapun bentuk pohon klasifikasi CART digambarkan pada Gambar 2.1 berikut: t 1 t 2 t 3 t 4 t 7 t 5 t 6 t 8 t 10 t 11 t 12 t 9 t 13 t 14 t 15 t 16 t 17 t 1 A 4 A 6 A 3 A 1 A 2 A 5 A 3 A 2 Split 4 Split 5 Split 7 Split 6 Split 8 A 4 Split 3 Split 2 Split 1 X 1 ≤ a = Root Node = nonterminal node = branch = terminal node X 1 a X 2 b X 2 ≤ b Gambar 2.1 Pohon Klasifikasi CART Keterangan Gambar 2.1 : 1. Root Node digambarkan dengan lingkaran. Merupakan nonterminal node paling awal atau paling atas dan tempat inisialisasi learning sample yang dimiliki. Inisialisasi disini menyangkut beberapa objek atau cases yang dimiliki oleh tiap- tiap kelas. 2. Branch digambarkan dengan 2 garis lurus yang merupakan cabang dari root node. Branch merupakan tempat kriteria pemecahan dari masing-masing nonterminal node. Sebagai contoh : kriteria pemecahan pertama split 1 pada branch kiri adalah 1 dan branch kanan adalah 1 . commit to user 14 3. Nonterminal nodes digambarkan dengan lingkaran. Merupakan subset atau himpunan bagian dari nonterminal node di atasnya yang memenuhi kriteria pemecahan tertentu. Sebagai contoh : objek-objek yang berada dalam nonterminal node 5 merupakan subset atau himpunan bagian dari objek-objek yang berada dalam nonterminal node 2 yang memenuhi kriteria pemecahan 2 . 4. Terminal nodes, digambarkan dengan persegi. Merupakan node tempat diprediksikannya sebuah objek pada kelas tertentu class labeled. Sebagai contoh : jika ada beberapa objek yang masuk dalam terminal node 6 , maka objek-objek tersebut akan dimasukkan kedalam kelas 4 . 5. Node 4 dan 5 merupakan child node dari node 2 , sedangkan node 2 merupakan child node dari root node 1 . Begitu pun sebaliknya root node 1 merupakan parent node untuk node 2 dan node 3 , node 2 merupakan parent node untuk node 4 dan 5 , sedangkan node 3 merupakan parent node untuk node 6 dan node 7 , dst.

2.1.6 Binary Recursive Partitioning