Classification Tree Classification and Regression Tree CART
16
memprediksi objek atau kasus dalam kelas-kelas dengan satu variabel dependent terikat yang kategorik dari satu atau lebih variabel bebas.
Classification tree dibangun berdasarkan splitting rule yang dipilih. Splitting rule adalah aturan pemisahan pada tree yakni aturan yang
melaksanakan pemisahan data percobaan learning sample menjadi bagian yang lebih kecil dengan mencari kemungkinan didapatkan kehomogenitasan
yang maksimum. Homogenitas maksimum adalah sebuah kondisi di mana pemisahan node berdasarkan kehomogenan kelas data sehingga pada terminal
node akan didapatkan data yang lebih murni pure. Kemurnian data yang didapat itulah yang dapat menentukan keakuratan sebuah prediksi. Semakin
murni sebuah hasil yang didapat maka akan semakin akurat prediksinya, dan sebaliknya semakin tidak murni impure hasil yang didapat maka akan
semakin tidak tepat prediksinya [6]. Aturan pemisah tree pada metode CART digambarkan dalam diagram di
bawah ini [8] :
Gambar 2.2 Diagram Algoritma Pemisah CART
17
Dengan adalah parent node dan
berturut-turut adalah node kiri dan node kanan dari parent node tersebut. Sedangkan
adalah variabel j dan adalah nilai pemisah yang terbaik dari variabel
. Homogenitas maksimum child node didefinisikan sebagai impurity
function it. Impurity function adalah suatu fungsi yang digunakan untuk mengukur keakuratan model dengan memberikan indikasi kehomogenan kelas-
kelas pada data, sehingga pada simpul akhir terminal node akan didapatkan data yang lebih murni. Jika kemurnian dari parent node
konstan untuk setiap kemungkinan pemisah
,
j = 1,2, … , p, maka homogenitas maksimum dari child node kiri dan kanan akan ekivalen ke maksimisasi perubahan
impurity function :
[ ]
dengan : : Impurity function untuk parent simpul
: child node kiri dan kanan dari parent node : impurity function untuk
[ ] : ekspektasi dari
Diasumsikan bahwa P
1
dan P
2
adalah proporsi sample ke node kiri dan kanan, maka didapatkan :
Atau
18
[ ]
[ ]
CART akan mencari semua nilai yang mungkin dari semua variabel dalam matriks X untuk mencari pemisah yang terbaik
yang akan memaksimumkan perubahan impurity function
. Impurity function yang akan dipakai dalam penelitian ini adalah Twoing Splitting Rule.
Twoing Splitting Rule
Metode twoing berusaha untuk mencari persentase kelas yang paling besar dan kelas paling kecil dalam data untuk kemudian memisahkan kedua
kelas tersebut ke dalam node terpisah. Sebagai contoh terdapat 4 buah kelas yaitu kelas A, B, C, D yang masing-masing memiliki data sebesar 40, 30, 20,
dan 10 persen dari data. Kemudian aturan twoing akan berusaha menempatkan kelas A sebagai kelas yang memiliki persen terbesar dari data dan kelas D yang
memiliki persen kelas paling kecil dalam satu node. Diagram di bawah ini menunjukkan proses pemisahan yang mungkin dilakukan oleh Twoing untuk
data seperti yang telah disebutkan sebelumnya.
Gambar 2.3
Grafik Pemisahan Twoing Splitting Rule
Kelas A = 40 Kelas B = 30 Kelas C = 20 Kelas D = 10
Kelas A = 40 Kelas D = 10
Kelas B = 30 Kelas C= 20
19
Dapat disimpulkan bahwa metode twoing berusaha memisahkan kelas dengan memfokuskannya pada dua buah kelas pada waktu yang bersamaan.
Twoing akan selalu mengerjakan kelas yang memiliki data yang paling besar dan kelas yang memilki data paling kecil. Berdasarkan [8] dan [2] Twoing
splitting rule menggunakan impurity function sebagai berikut :
∑
dengan : = probabilitas node kiri
= probabilitas node kanan = probabilitas kondisional kelas ke-k yang disajikan
dalam node = probabilitas kondisional kelas ke-k yang disajikan
dalam node