24
klasifikasi yang paling besar atau maksimal proses splitting tidak bisa dilakukan lagi Damayanti, 2011.
2.7.2. Langkah Kerja CART
Menurut  Lewis  2000  pada  dasarnya  dalam  membuat  sebuah  pohon klasifikasi, CART bekerja dalam empat langkah utama.  Langkah pertama adalah
tree building process yaitu proses pembentukan dan pembuatan pohon klasifikasi. Terdiri  dari  proses  splitting  nodes  yaitu  proses  pemecahan  parent  nodes  menjadi
dua  buah  child  node  melalui  aturan  pemecahan  tertentu  dan  dilakukan  secara berulang-ulang  serta  proses  pelabelan  kelas  yaitu  proses  mengidentifikasi  node-
node  yang  terbentuk  pada  suatu  kelas  tertentu  melalui  aturan  pengidentifikasian. Langkah  kedua  adalah  proses  penghentian  pembuatan  atau  pembentukan  pohon
klasifikasi  stopping  the  trees  building  process.  Pada  tahap  ini  pohon  terakhir atau  maximal  tree
�
��
telah terbentuk.  Langkah  ketiga  adalah  pruning   yaitu proses  pemangkasan  atau  pemotongan
�
��
menjadi  pohon  yang  lebih  kecil  T. Sehingga  proses  tersebut  menghasilkan  optimal  tree  atau  pohon  klasifikasi  yang
optimal.
a.  Proses Pemecahan Node
Proses  pemecahan  pada  masing-masing  parent  node  didasarkan pada  goodness  of  split  criterion  kriteria  pemecahan  terbaik.  Kriteria
pemecahan  terbaik  ini  dibentuk  berdasarkan  fungsi  impurity  fungsi keragaman.  Fungsi  impurity  adalah  sebuah  fungsi
�  yang  didefinisikan dengan
⋯ dengan  ∑
,  dimana ⋯    .
Universitas Sumatera Utara
25
Impurity  measure  ukuran  impurity dari  beberapa  node  t  sebagai
berikut Breiman, et al., 1993 : �                 ⋯
maka Gini Diversity Index Indeks Keragaman Gini adalah : ∑
Dalam sebuah node t, andaikan terdapat n kelas 1, 2 ⋯ ,  . Untuk
n = 1 dan i adalah kelas-kelas lainnya maka 2.1 dapat dituliskan sebagai berikut :
∑
∑ [                  ⋯         ]
Karena ∑
, sehingga 2.2 menjadi
[         ⋯         ] ∑
[         ⋯         ] [         ⋯         ]
Begitu pula untuk n = 2 dan i adalah kelas-kelas lainnya maka 2.1 dapat dituliskan :
∑ ∑
Universitas Sumatera Utara
26
Untuk j = 3 dan i adalah kelas-kelas lainnya maka 2.1 dapat dituliskan : ∑
∑
Sehingga untuk n kelas secara umum, didapatkan : ∑
∑
∑ ∑
∑
∑ ∑
Sehingga  berdasarkan  2.1  Gini  Diversity  Index  dapat  dituliskan  sebagai berikut Breiman, et al., 1993 :
∑
Jika  sebuah  split  s  dalam  node  t  dibagi  ke  dalam
�
dengan proporsi banyaknya objek yang masuk dalam
�
adalah
�
, dan
�
dengan proporsi  banyaknya  objek  yang  masuk  dalam
�
adalah
�
,  maka didefinisikan decrease impurity pengurangan keragaman :
Nilai digunakan  sebagai  uji  goodness  of  split  criterion
kriteria  uji  pemecahan  terbaik.  Suatu  split  s  akan  digunakan  untuk memecah  node  t  menjadi  dua  buah  node  yaitu  node
�
dan
�
jika  s memaksimalkan nilai :
Universitas Sumatera Utara
27
�� Hal  ini  berarti  splitting  pemecahan  dilakukan  untuk  membuat  dua  buah
node  baru  yang  keragamannya  lebih  kecil  homogen  apabila dibandingkan  dengan  node  awalnya  parent  node.  Misalkan  sebuah
pohon klasifikasi telah terbentuk dan memiliki sekumpulan atau himpunan terminal nodes
�̃ , didefinisikan impurity node It, dengan
Didefinisikan pula tree impurity � , dengan
�    ∑
̃
∑
̃
sehingga didapatkan hasil sebagai berikut
b.  Pelabelan Kelas