Proses Pemecahan Node Studi Algoritma CART dengan Induksi Fuzzy dalam Mengklasifikasikan Data

24 klasifikasi yang paling besar atau maksimal proses splitting tidak bisa dilakukan lagi Damayanti, 2011.

2.7.2. Langkah Kerja CART

Menurut Lewis 2000 pada dasarnya dalam membuat sebuah pohon klasifikasi, CART bekerja dalam empat langkah utama. Langkah pertama adalah tree building process yaitu proses pembentukan dan pembuatan pohon klasifikasi. Terdiri dari proses splitting nodes yaitu proses pemecahan parent nodes menjadi dua buah child node melalui aturan pemecahan tertentu dan dilakukan secara berulang-ulang serta proses pelabelan kelas yaitu proses mengidentifikasi node- node yang terbentuk pada suatu kelas tertentu melalui aturan pengidentifikasian. Langkah kedua adalah proses penghentian pembuatan atau pembentukan pohon klasifikasi stopping the trees building process. Pada tahap ini pohon terakhir atau maximal tree � �� telah terbentuk. Langkah ketiga adalah pruning yaitu proses pemangkasan atau pemotongan � �� menjadi pohon yang lebih kecil T. Sehingga proses tersebut menghasilkan optimal tree atau pohon klasifikasi yang optimal.

a. Proses Pemecahan Node

Proses pemecahan pada masing-masing parent node didasarkan pada goodness of split criterion kriteria pemecahan terbaik. Kriteria pemecahan terbaik ini dibentuk berdasarkan fungsi impurity fungsi keragaman. Fungsi impurity adalah sebuah fungsi � yang didefinisikan dengan ⋯ dengan ∑ , dimana ⋯ . Universitas Sumatera Utara 25 Impurity measure ukuran impurity dari beberapa node t sebagai berikut Breiman, et al., 1993 : � ⋯ maka Gini Diversity Index Indeks Keragaman Gini adalah : ∑ Dalam sebuah node t, andaikan terdapat n kelas 1, 2 ⋯ , . Untuk n = 1 dan i adalah kelas-kelas lainnya maka 2.1 dapat dituliskan sebagai berikut : ∑ ∑ [ ⋯ ] Karena ∑ , sehingga 2.2 menjadi [ ⋯ ] ∑ [ ⋯ ] [ ⋯ ] Begitu pula untuk n = 2 dan i adalah kelas-kelas lainnya maka 2.1 dapat dituliskan : ∑ ∑ Universitas Sumatera Utara 26 Untuk j = 3 dan i adalah kelas-kelas lainnya maka 2.1 dapat dituliskan : ∑ ∑ Sehingga untuk n kelas secara umum, didapatkan : ∑ ∑ ∑ ∑ ∑ ∑ ∑ Sehingga berdasarkan 2.1 Gini Diversity Index dapat dituliskan sebagai berikut Breiman, et al., 1993 : ∑ Jika sebuah split s dalam node t dibagi ke dalam � dengan proporsi banyaknya objek yang masuk dalam � adalah � , dan � dengan proporsi banyaknya objek yang masuk dalam � adalah � , maka didefinisikan decrease impurity pengurangan keragaman : Nilai digunakan sebagai uji goodness of split criterion kriteria uji pemecahan terbaik. Suatu split s akan digunakan untuk memecah node t menjadi dua buah node yaitu node � dan � jika s memaksimalkan nilai : Universitas Sumatera Utara 27 �� Hal ini berarti splitting pemecahan dilakukan untuk membuat dua buah node baru yang keragamannya lebih kecil homogen apabila dibandingkan dengan node awalnya parent node. Misalkan sebuah pohon klasifikasi telah terbentuk dan memiliki sekumpulan atau himpunan terminal nodes �̃ , didefinisikan impurity node It, dengan Didefinisikan pula tree impurity � , dengan � ∑ ̃ ∑ ̃ sehingga didapatkan hasil sebagai berikut

b. Pelabelan Kelas