24
klasifikasi yang paling besar atau maksimal proses splitting tidak bisa dilakukan lagi Damayanti, 2011.
2.7.2. Langkah Kerja CART
Menurut Lewis 2000 pada dasarnya dalam membuat sebuah pohon klasifikasi, CART bekerja dalam empat langkah utama. Langkah pertama adalah
tree building process yaitu proses pembentukan dan pembuatan pohon klasifikasi. Terdiri dari proses splitting nodes yaitu proses pemecahan parent nodes menjadi
dua buah child node melalui aturan pemecahan tertentu dan dilakukan secara berulang-ulang serta proses pelabelan kelas yaitu proses mengidentifikasi node-
node yang terbentuk pada suatu kelas tertentu melalui aturan pengidentifikasian. Langkah kedua adalah proses penghentian pembuatan atau pembentukan pohon
klasifikasi stopping the trees building process. Pada tahap ini pohon terakhir atau maximal tree
�
��
telah terbentuk. Langkah ketiga adalah pruning yaitu proses pemangkasan atau pemotongan
�
��
menjadi pohon yang lebih kecil T. Sehingga proses tersebut menghasilkan optimal tree atau pohon klasifikasi yang
optimal.
a. Proses Pemecahan Node
Proses pemecahan pada masing-masing parent node didasarkan pada goodness of split criterion kriteria pemecahan terbaik. Kriteria
pemecahan terbaik ini dibentuk berdasarkan fungsi impurity fungsi keragaman. Fungsi impurity adalah sebuah fungsi
� yang didefinisikan dengan
⋯ dengan ∑
, dimana ⋯ .
Universitas Sumatera Utara
25
Impurity measure ukuran impurity dari beberapa node t sebagai
berikut Breiman, et al., 1993 : � ⋯
maka Gini Diversity Index Indeks Keragaman Gini adalah : ∑
Dalam sebuah node t, andaikan terdapat n kelas 1, 2 ⋯ , . Untuk
n = 1 dan i adalah kelas-kelas lainnya maka 2.1 dapat dituliskan sebagai berikut :
∑
∑ [ ⋯ ]
Karena ∑
, sehingga 2.2 menjadi
[ ⋯ ] ∑
[ ⋯ ] [ ⋯ ]
Begitu pula untuk n = 2 dan i adalah kelas-kelas lainnya maka 2.1 dapat dituliskan :
∑ ∑
Universitas Sumatera Utara
26
Untuk j = 3 dan i adalah kelas-kelas lainnya maka 2.1 dapat dituliskan : ∑
∑
Sehingga untuk n kelas secara umum, didapatkan : ∑
∑
∑ ∑
∑
∑ ∑
Sehingga berdasarkan 2.1 Gini Diversity Index dapat dituliskan sebagai berikut Breiman, et al., 1993 :
∑
Jika sebuah split s dalam node t dibagi ke dalam
�
dengan proporsi banyaknya objek yang masuk dalam
�
adalah
�
, dan
�
dengan proporsi banyaknya objek yang masuk dalam
�
adalah
�
, maka didefinisikan decrease impurity pengurangan keragaman :
Nilai digunakan sebagai uji goodness of split criterion
kriteria uji pemecahan terbaik. Suatu split s akan digunakan untuk memecah node t menjadi dua buah node yaitu node
�
dan
�
jika s memaksimalkan nilai :
Universitas Sumatera Utara
27
�� Hal ini berarti splitting pemecahan dilakukan untuk membuat dua buah
node baru yang keragamannya lebih kecil homogen apabila dibandingkan dengan node awalnya parent node. Misalkan sebuah
pohon klasifikasi telah terbentuk dan memiliki sekumpulan atau himpunan terminal nodes
�̃ , didefinisikan impurity node It, dengan
Didefinisikan pula tree impurity � , dengan
� ∑
̃
∑
̃
sehingga didapatkan hasil sebagai berikut
b. Pelabelan Kelas