Pembentukan decision tree terdiri dari beberapa tahap, yaitu H an Kamber
2001: 1.
Konstruksi pohon, yaitu membuatan pohon yang diawali dengan
pembentukan bagian akar, kemudian data terbagi berdasarkan atribut –atribut
yang cocok untuk dijadikan leaf node.
2. Pemangkasan pohon tree pruning,
yaitu mengidentifikasi dan membuang cabang yang tidak diperlukan pada
pohon yang telah terbentuk. Ada dua metode dalam melakukan pemangkasan
dalam decis ison tree, yaitu:
- prepruning: pemangkasan dilakukan sejak awal pembentukan pohon.
- postpruning : pemangkasan dilakukan saat pohon telah terbentuk secara utuh
3. Pembentukan aturan keputusan, yaitu
membuat aturan keputusan dari pohon yang telah dibentuk.
Algoritme dasar dari decision tree adalah Dyer 2001 :
- Construct set of candidate
partitions S -
Select best S in S - Describe each cell C
i
in S - Test termination condition on
each C
i
true: form a leaf
node
- false: recurse with C
i
as new training set
Pada algoritme tersebut, langkah pertama yang dilakukan adalah menentukan partisi
kandidat , S. S dipilih dari S, S terbaik akan dijadikan node. Pemilihan S terbaik
juga bergantung terhadap nilai C
i
. Untuk nilai S lainnya yang tidak terpilih sebagai
node akan dilakukan pemilihan ulang secara rekursif dengan menggunakan sisa C
i
sebagai training set yang baru. Decision tree memiliki beberapa cara
dalam menentukan ukuran data dalam membentuk
tree, yaitu menggunakan information gain
untuk algoritme
ID3C4.5C5.0, gini index untuk algoritme IBMIntelligentMiner dan algoritme SLIQ
Clifton 2004. Dari semua algoritme pada decision tree,
yang paling populer adalah C4.5, sedangkan C5.0 merupakan algoritme perbaikan dari
C4.5. Namun akhir–akhir ini sedang dikembangkan algoritme decision tree yang
mampu menangani data dalam skala besar yang tidak dapat ditampung oleh main
memory. Algoritme
decision tree banyak
digunakan dalam proses data mining karena memiliki beberapa kelebihan, yaitu Hoffer
2004: 1.
Tidak memerlukan biaya yang mahal saat membangun algoritme ini.
2. Mudah untuk diinterpretasikan.
3. Mudah mengintegrasikan dengan sistem
basis data. 4.
Memiliki nilai ketelitian yang baik. 5.
Dapat menemukan hubungan tak terduga dari suatu data.
6. Dapat menggunakan data pastimutlak
atau data kontinu. 7.
Mengakomodasi data yang hilang. Selain memiliki keuntungan, decision
tree juga memiliki kelemahan, yaitu hubungan yang ditemukan mungkin saja
palsu.
2.6 Algoritme C5.0
C5.0 merupakan penyempurna an dari algoritme terdahulu yang dibentuk oleh Ross
Quinlan pada tahun 1987, yaitu ID3 dan C4.5. Dalam algoritme C5.0, pemilihan
atribut yang akan diproses menggunakan ukuran information gain.
Ukuran information gain digunakan untuk memilih atribut uji pada setiap node di
dalam tree. Ukuran ini digunakan untuk memilih atau membentuk node pada pohon.
Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi
node selanjutnya.
Formula untuk information gain adalah Kantardzic, 2003:
∑ =
• −
= k
i S
S i
C freq
S S
i C
freq S
Info 1
| |
, 2
log |
| ,
∑ =
∑ =
• −
• =
n i
k i
T T
i C
freq T
T i
C freq
T i
T T
x Info
1 1
| |
, 2
log |
| ,
| |
| |
maka nilai Information Gain X dapat dihitung dengan
T x
Info S
Info X
Gain Informatin
− =
Dari formula di atas, T adalah training sample yang terbagi menjadi T
1
, T
2
,..., T
n.
. Jika S adalah kumpulan dari sampel yang
ada, maka freqC
i
, S adalah jumlah dari sampel S yang dimiliki oleh kelas C
i
dan |S| adalah jumlah dari sampel S. |T| merupakan
jumlah dari sampel T. Secara umum terdapat mekanisme
untuk melakukan perhitungan information gain, yaitu Kantardzic 2003 :
1. Standar test yang dilakukan pada data
atribut dengan tipe diskrit, dengan satu nilai keluaran dan satu cabang untuk
setiap nilai atribut yang mungkin.
2. Jika atribut Y adalah atribut dengan
tipe numerik, perhitungan akan dilakukan dengan Y = Z dan Y Z,
dimana Z merupakan nilai perbandingan. Untuk mencari nilai
perbandingan dapat digunakan nilai tengah dari tiap int erval dari data yang
digunakan
+ +
2 1
i v
i v
. Dari formula tersebut, v
i
adalah nilai ke -i dari data yang digunakan.
3. Pengujian yang lebih kompleks juga
terjadi pada atribut diskrit, dimana nilai yang mungkin dialokasikan untuk setiap
kelompok vari abel dengan satu keluaran dan cabang untuk setiap grup.
Seperti algoritme sebelumnya, C5.0 menggunakan
algoritme greedy sebagai dasar dari pembentukan
algoritmenya. Berikut adalah algoritme dari C5.0 Dyer
2001 :
If empty examples then return default
If same-classification example then return class example
Best = choose-attribute attributes,example
Tree = new node with attribute best For each value v of attribute best do
v-example = subset of example with attribute best = v
subtree = decision-tree-learning v-example, attribute best, majority-
classification example add a branch from tree to
subtree with arc labeled v return tree
Algoritme pemangkasan pohon pada C5.0 adalah sebagai berikut Dyer 2001:
Let bestTree = the tree p roduced by C5.0 on the TRAINING set
Let bestAccuracy = the accuracy of bestTree on the TUNING set
Let progressMade = true while progressMade
SET {
Set progressMade = false Let currentTree = bestTree
For each interiorNode N including the root in
currentTree {
Let prunedTree be a copy of currentTree,
except replace N by a leaf node whose label equals the
majority class among TRAINING set examples that reached
node N break ties in favor of - Let newAccuracy =
accuracy of prunedTree on the TUNING set
IfnewAccuracy = bestAccuracy
{ bestAccuracy =
newAccuracy bestTree =
prunedTree progressMade = true
} }
} return bestTree
C5.0 memiliki beberapa fitur penting yang membuat algoritme ini menjadi lebih
unggul dibandingkan dengan algoritme
terdahulunya dan mengurangi kelemahan yang ada pada algoritme decision tree
sebelumnya. Fitur tersebut adalah Quinlan, 2004:
1. C5.0 telah dirancang untuk dapat
menganalisis basis data substansial yang berisi puluhan sampai ratusan record
dan satuan hingga ratusan field numerik dan nominal.
2. Untuk memaksimumkan tingkat
penafsiran pengguna terhadap hasil yang disajikan, maka klasifikasi C5.0
disajikan dalam dua bentuk, menggunakan pohon keputusan dan
sekumpulan aturan IF-T HEN yang lebih mudah untuk dimengerti dibandingkan
neural network.
3. C5.0 mudah digunakan dan tidak
membutuhkan pengetahuan tinggi tentang statistik atau machine learning.
METODE PENELITIAN
3.1 Proses Dasar Sistem