Classification Tree Classification and Regression Tree CART

16 memprediksi objek atau kasus dalam kelas-kelas dengan satu variabel dependent terikat yang kategorik dari satu atau lebih variabel bebas. Classification tree dibangun berdasarkan splitting rule yang dipilih. Splitting rule adalah aturan pemisahan pada tree yakni aturan yang melaksanakan pemisahan data percobaan learning sample menjadi bagian yang lebih kecil dengan mencari kemungkinan didapatkan kehomogenitasan yang maksimum. Homogenitas maksimum adalah sebuah kondisi di mana pemisahan node berdasarkan kehomogenan kelas data sehingga pada terminal node akan didapatkan data yang lebih murni pure. Kemurnian data yang didapat itulah yang dapat menentukan keakuratan sebuah prediksi. Semakin murni sebuah hasil yang didapat maka akan semakin akurat prediksinya, dan sebaliknya semakin tidak murni impure hasil yang didapat maka akan semakin tidak tepat prediksinya [6]. Aturan pemisah tree pada metode CART digambarkan dalam diagram di bawah ini [8] : Gambar 2.2 Diagram Algoritma Pemisah CART 17 Dengan adalah parent node dan berturut-turut adalah node kiri dan node kanan dari parent node tersebut. Sedangkan adalah variabel j dan adalah nilai pemisah yang terbaik dari variabel . Homogenitas maksimum child node didefinisikan sebagai impurity function it. Impurity function adalah suatu fungsi yang digunakan untuk mengukur keakuratan model dengan memberikan indikasi kehomogenan kelas- kelas pada data, sehingga pada simpul akhir terminal node akan didapatkan data yang lebih murni. Jika kemurnian dari parent node konstan untuk setiap kemungkinan pemisah , j = 1,2, … , p, maka homogenitas maksimum dari child node kiri dan kanan akan ekivalen ke maksimisasi perubahan impurity function : [ ] dengan : : Impurity function untuk parent simpul : child node kiri dan kanan dari parent node : impurity function untuk [ ] : ekspektasi dari Diasumsikan bahwa P 1 dan P 2 adalah proporsi sample ke node kiri dan kanan, maka didapatkan : Atau 18 [ ] [ ] CART akan mencari semua nilai yang mungkin dari semua variabel dalam matriks X untuk mencari pemisah yang terbaik yang akan memaksimumkan perubahan impurity function . Impurity function yang akan dipakai dalam penelitian ini adalah Twoing Splitting Rule. Twoing Splitting Rule Metode twoing berusaha untuk mencari persentase kelas yang paling besar dan kelas paling kecil dalam data untuk kemudian memisahkan kedua kelas tersebut ke dalam node terpisah. Sebagai contoh terdapat 4 buah kelas yaitu kelas A, B, C, D yang masing-masing memiliki data sebesar 40, 30, 20, dan 10 persen dari data. Kemudian aturan twoing akan berusaha menempatkan kelas A sebagai kelas yang memiliki persen terbesar dari data dan kelas D yang memiliki persen kelas paling kecil dalam satu node. Diagram di bawah ini menunjukkan proses pemisahan yang mungkin dilakukan oleh Twoing untuk data seperti yang telah disebutkan sebelumnya. Gambar 2.3 Grafik Pemisahan Twoing Splitting Rule Kelas A = 40 Kelas B = 30 Kelas C = 20 Kelas D = 10 Kelas A = 40 Kelas D = 10 Kelas B = 30 Kelas C= 20 19 Dapat disimpulkan bahwa metode twoing berusaha memisahkan kelas dengan memfokuskannya pada dua buah kelas pada waktu yang bersamaan. Twoing akan selalu mengerjakan kelas yang memiliki data yang paling besar dan kelas yang memilki data paling kecil. Berdasarkan [8] dan [2] Twoing splitting rule menggunakan impurity function sebagai berikut : ∑ dengan : = probabilitas node kiri = probabilitas node kanan = probabilitas kondisional kelas ke-k yang disajikan dalam node = probabilitas kondisional kelas ke-k yang disajikan dalam node

2.5.2 Maksimum Tree

Proses pengklasifikasian data pada CART dibagi menjadi dua tahapan. Pertama proses pembentukan model, di mana pada proses ini akan dijelaskan dan diuraikan himpunan kelas yang ditentukan. Kemudian tahap kedua yaitu proses pemakaian model yang dilakukan setelah model tree terbentuk. Pada proses ini akan diklasifikasi data-data baru yang belum diketahui pengklasifikasiannya berdasarkan model yang terbentuk. 20 Pada proses klasifikasi dengan tahapan proses pembentukan model pada CART diperlukan learning sample data percobaan yang merupakan sekumpulan data yang digunakan untuk membentuk sebuah model tree dan biasanya learning sample berukuran besar agar dapat membentuk pengklasifikasian yang baik. Ketika model tree sudah terbentuk maka model itu dapat digunakan untuk mengklasifikasian data yang belum diketahui. Tujuan klasifikasi ini adalah menentukan aturan pada variabel yang lain yang memprediksi variabel kelas. Untuk menguji keakuratan model yang dibuat dapat digunakan test sample data uji di mana test sample tersebut biasanya berukuran lebih kecil dibandingkan dengan data percobaan yang sebenarnya. Pada pembentukan model, data percobaan yang digunakan akan dipisah menjadi dua buah node secara rekursif atau bertingkat hingga mencapai terminal node dengan menggunakan algoritma tertentu. Seperti yang telah dibahas dalam subbab sebelumnya, ada beberapa jenis algoritma yang dapat digunakan sebagai alat pemisah dalam pembentukan model. Seperti yang sudah dijelaskan sebelumnya, pada penelitian kali ini, akan digunakan algoritma pemisah yaitu Twoing Splitting Rule. Pertumbuhan tree dari data percobaan akan menghasilkan level dari suatu node yang paling besar dibandingkan dengan model tree lainnya, serta memiliki jumlah terminal node simpul akhir yang paling banyak. Tree yang paling besar seperti ini disebut dengan maksimum tree.