1. Membagi hanya dengan satu variabel.
2. Memiliki pohon keputusan yang tidak stabil.
2.4 Algoritma C4.5
2.4.1 Definisi Algoritma C4.5
Algoritma C4.5 merupakan salah satu algoritma modern yang digunakan untuk melakukan penambangan data. Dalam algoritma C4.5,
input
berupa sampel
training
, label
training
dan atribut. Sampel
training
berupa data contoh yang akan digunakan untuk membangun sebuah
tree
yang telah diuji kebenarannya. Sedangkan atribut merupakan
field-field
data yang nantinya akan digunakan sebagai parameter dalam melakukan klasifikasi data.
Kelebihan algoritma C4.5 adalah sebagai berikut : 1.
Mampu menangani atribut dengan tipe diskrit atau kontinu. 2.
Mampu menangani atribut yang kosong
missing value
3. Pembentukan model mudah dipahami.
4. Bisa memangkas cabang.
Kekurangan algoritma C4.5 adalah sebagai berikut : 1.
Susah membaca data berjumlah besar. Algoritma dasar C4.5 untuk membangun pohon keputusan adalah
sebagai berikut : 1.
Memilih atribut sebagai akar
root
. 2.
Membuat cabang untuk masing-masing nilai. 3.
Membagi kasus dalam cabang. 4.
Mengulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.
Berikut adalah algoritma C4.5 Mitchell, 1997 : Algoritma C4.5
Input : sampel training, label training, atribut Buat simpul akar untuk pohon yang dibuat.
Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri label +.
Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri label -.
Jika atribut kosong, berhenti dengan suatu pohon dengan satu simpul akar, dengan label sesuai dengan
nilai yang terbanyak yang ada pada label training. Untuk yang lain,
Mulai : o
A atribut yang mengklasifikasikan sampel
dengan hasil yang terbaik berdasarkan gain ratio.
o Atribut keputusan untuk simpul akar
A. o
Untuk setiap nilai, v
i
yang mungkin untuk A :
Tambahkan cabang di bawah akar yang berhubungan dengan A = v
i
. Tentukan sampel Sv
i
sebagai subset dari sampel yang mempunyai nilai v
i
untuk atribut A.
Jika sampel Sv
i
kosong : Dibawah cabang tambahkan
simpul daun dengan label = nilai yang terbanyak yang ada pada
label training. Yang lain, tambah cabang baru
dibawah cabang yang sekarang C4.5 sampel training, label
training, atribut-[A]. Berhenti
Sebelum memilih atribut sebagai akar, dilakukan perhitungan nilai
entropy
yang dapat dilihat pada persamaan 2.1 Craw, S.
....................................................2.1
Keterangan: S
: Himpunan kasus n
: Jumlah partisi S pi
: Proporsi dari Si terhadap S
Untuk memilih atribut sebagai akar, didasarkan pada nilai
gain
tertinggi dari atribut-atribut yang ada. Untuk menghitung
gain
digunakan persamaan berikut seperti pada persamaan 2.2 Craw, S.
............................2.2
Keterangan: S
: Himpunan kasus A
: Atribut n
: Jumlah partisi atribut A |Si|
: Jumlah kasus pada partisi ke i |S|
: Jumlah kasus dalam S PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Untuk menghitung
GainRatio
perlu diketahui suatu
term
baru yang disebut
SplitInformation
pemisah informasi.
SplitInformation
dihitung dengan persamaan sebagai berikut.
............................2.3
Dimana sampai
adalah c
subset
yang dihasilkan dari pemecahan dengan menggunakan atribut A yang mempunyai sebanyak c
nilai. Selanjutnya
GainRatio
dihitung dengan persamaan berikut.
............................2.4
2.5
K-Fold Cross Validation
Pada pendekatan ini, setiap data digunakan dalam jumlah yang sama untuk pelatihan dan tepat satu kali untuk pengujian. Bentuk umum
pendekatan ini disebut dengan
k-fold cross validation
, yang memecah set data menjadi
k
bagian set data dengan ukuran yang sama. Setiap kali berjalan, satu pecahan berperan sebagai set data uji sedangkan pecahan
lainnya menjadi set data latih. Prosedur tersebut dilakukan sebanyak
k
kali sehingga setiap data berkesempatan menjadi data uji tepat satu kali dan
menjadi data latih sebanyak
k
-1 kali. Total
error
didapatkan dengan menjumlah semua
error
yang didapat dari
k
kali proses Angga, 2014. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2.6 Confusion Matriks dan Akurasi