17
Rumus untuk menghitung SplitEntropy, seperti di bawah ini: = −
| |
| | ∗
| |
| |
Rumus untuk menghitung GainRatio, dibawah ini: =
Keterangan: S = Himpunan Kasus
A = Atribut n = jumlah partisi atribut A
|S
i
| = jumlah kasus pada partisi ke-i |S| = jumlah kasus dalam S
4. Ulangi langkah ke-2 dan ke-3 hingga semua tupel terpartisi 5. Proses partisi pohon keputusan akan berhenti disaat:
a. Semua
tupel dalam node N mendapatkan kelas yang sama
b. Tidak ada atribut didalam tupel yang dipartisi lagi c. Tidak ada tupel didalam cabang yang kosong
2.2.3 Contoh Penerapan Agoritma C4.5 - Menentukan data training yang sudah ditentukan kelasnya.
Tabel 2.11 Pelanggan AllElektronik
No Age
Income Student Credit Rating
Class_buys computer 1
youth high
No Fair
no 2
youth high
No Exellent
no 3
middle aged high No
Fair yes
4 senior
medium No
Fair yes
5 senior
low yes
Fair yes
6 senior
low yes
Exellent no
7 middle aged low
yes Exellent
yes 8
youth medium
No Fair
no 9
youth low
yes Fair
yes 10
senior medium
yes Fair
yes 4
5
18
11 youth
medium yes
Exellent yes
12 middle aged medium
No Exellent
yes 13
middle aged high yes
Fair yes
14 senior
medium No
Exellent no
- Menghitung akar pohon dengan cara menghitung GainRatio, sebelumnya menghitung Total Entropy, Entropy Class, Gain, SplitEntropy
• Menghitung Total Entropy = -914ln914ln2+-514n514ln2
= 0.94 • Menghitung Entropy Class
Entropy age – youth =-25ln25ln2+-35ln35ln2 =
0.25 Entropy age –middle aged
= -44ln44ln2+-04ln04ln2 =
Entropy age –middle aged =-35 ln35ln2+-25ln25ln2
= 0.97 Entropy income –high
=-24 ln24ln2+-24ln24ln2 =
1 Entropy income –medium
=-46ln46ln2+-26ln26ln2 = 0.92
Entropy income –low =-34ln34ln2+-14lnN14ln2 =
0.81 Entropy student –yes
=-67LN67LN2+-17LN17LN2 = 0.59
Entropy student –no =-37LN37LN2+-47LN47LN2 =
0.99 Entropy credit rating –fair
=-68LN68LN2+-28LN28LN2 = 0.81
Entropy credit rating - excelent =-36LN36LN2+-36LN36LN2 =
1 • Kunci pencarian entrophy
• Jika diantara kolom “yes” atau “no” ada yang bernilai 0 nol maka
entropy-nya di pastikan juga bernilai 0 nol.
19
• Jika kolom “yes” dan “no” mempunyai nilai yang sama maka entropy-nya di pastikan juga bernilai 1 satu.
• Menghitung Gain Gain age
= 0.94 - 514 0.97+4140+ 514 0.97 =
0.25 Gain income
= 0.94 - 414 1+6140.92+ 414 0.81 =
0.03 Gain student
= 0.94 - 714 0.59+7140.99 =
0.15 Gain credit rating
= 0.94 - 814 0.81+6141 =
0.05 • Menghitung SplitEntropy
SplitEntropy age =-514LN514LN2+-414LN414LN2+-
514LN514LN2 = 1.58
SplitEntropy income =-414LN414LN2+-614LN614LN2+-
414LN414LN2 = 1.56
SplitEntropy student =-714LN714LN2+-714LN714LN2 =
1 SplitEntropy credit rating
=-814LN814LN2+-614LN614LN2 = 0.99
• Menghitung GainRatio GainRatio age
= 0.25 1.58 =
0.16 GainRatio income
= 0.03 1.56 =
0.02 GainRatio student
= 0.15 1 =
0.15
20
Ringkasan tabel di bawah ini merupakan hasil perhitungan di atas.
Tabel 2.12 Hasil perhitungan Node 1
NODE Jumlah yes
no Entropy
Gain SplitEntropy
Gain Ratio
1 Total
14 9
5 0.94
age 0.25 1.58
0.16
youth 5
2 3
0.97 middle
aged 4
4 senior
5 3
2 0.97
income 0.03 1.56
0.02 high
4 2
2 1
medium 6
4 2
0.92 low
4 3
1 0.81
student 0.15 1
0.15 yes
7 6
1 0.59
no 7
3 4
0.99 Credit
rating 0.05 0.99
0.05 fair
8 6
2 0.81
excellent 6 3
3 1
Tabel 2.13 Hasil perhitungan Node 1.1
NODE jumlah yes no Entropy Gain SplitInfo Gain
Ratio 1.1
total Age
- youth 5
2 3
0.971
income 0.57 1.52
0.38 high
2 2
medium 2
1 1
1 low
1 1
student 0.97 0.97
1 yes
2 2
no 3
3 credit_
rating 0.02 0.97
0.02 fair
3 1
2 0.92
excellent 2 1
1 1
21
Tabel 2.14 Hasil perhitungan Node 1.2
NODE 1.2
jumlah yes no Entropy Gain SplitInfo Gain Ratio
1 total
Age - senior 5
3 2
0.97
income 0.02
0.97 0.02
medium 3
2 1
0.92 low
2 1
1 1
student 0.02
0.97 0.02
yes 3
2 1
0.92 no
2 1
1 1
credit_ rating 0.97
0.97 0.97
fair 3
3 excellent 2
2
Dari perhitungan di atas diketahui bahwa nilai GainRatio age merupakan GainRatio tertinggi, oleh karena itu atribut age menjadi akar pohon, dan akan dihasilkan pohon
keputusan seperti dibawah ini.
Gambar 2.2 Pohon keputusan [16]
Age ?
Student ? Credit
Rating ?
yes no
yes
yes no
youth Middle senior
senior
yes no
excellent fair
22
2.2.4 Algoritma Naïve Bayes Naïve Bayes merupakan pengklasifikasian statistik yang dapat digunakan untuk
memprediksi probabilitas keanggotaan suatu class [16]. Bayes memiliki akurasi dan kecepatan yang sangat tinggi saat diaplikasi ke dalam database dengan data yang besar.
Naive Bayes merupakan algoritma yang dapat meminimalkan tingkat dibandingkan dengan semua pengklasifikasi lainnya. Namun, dalam praktek ini tidak selalu terjadi,
karena untuk ketidak akuratan dalam asumsi yang dibuat untuk penggunaannya class yang tidak utuh dan kurangnya data probabilitas yang tersedia.
Pengklasifikasi Bayesian juga berguna dalam pembenaran teoritis untuk pengklasifikasi lain yang tidak secara eksplisit menggunakan teorema [16].
Teorema Bayes adalah suatu pendekatan pada ketidaktentuan yang diukur dengan probabilitas. Teorema Bayes memiliki rumusan umum sebagai berikut:
Naive Bayes adalah penyederhanaan dari teorema bayes. Berikut rumus Naive Bayes menurut [16]:
Keterangan: X
: data dengan class yang belum diketahui H
: hipotesis data X, merupakan suatu class spesifik PH|X : probabilitas hipotesis H berdasarkan kondisi X posteriori probability
PH : probabilitas hipotesis H prior probability PX|H : probabilitas X berdasarkan kondisi pada hipotesis H
PX : probabilitas dari X Beberapa keuntungan dari algoritma klasifikasi Naive Bayes [17], adalah:
1. Kuat terhadap pengisolasi gangguan pada data 2. Jika terjadi kasus missing value ketika proses komputasi sedang berlangsung, maka
objek tersebut akan diabaikan | =
| 6
| = | 7
23
3. Dapat digunakan untuk data yang tidak relevan Beberapa kelemahan dari algoritma klasifikasi Naive Bayes [18]:
1. Harus mengasumsi bahwa antar fitur tidak terkait independent Dalam realita, keterkaitan itu ada.
2. Keterkaitan tersebut tidak dapat dimodelkan oleh Naïve Bayesian Classifier. 2.2.5 Contoh Penerapan Algoritma Naïve Bayes
Contoh penerapan algoritma Naïve Bayes, data set diambil dari tabel 2.11 dengan data testing di bawah ini, dimana data testing di bawah ini belum diketahui kelasnya.
Tabel 2.15 Contoh Data testing untuk menentukan class pada Naive Bayes
No Age
Income Student
Credit Rating Class_buys computer 1
youth medium yes
fair ?
JAWAB | = |
Tahap 1 menghitung prior probability dari setiap kelaslabel Pbuys computer = yes = 914 = 0.643
Pbuys computer = no = 514 = 0.357 Tahap 2 menghitung probabilitas hipotesis posteriori probability
Page = youth | buys computer = yes = 29 = 0.222
Page = youth | buys computer = no = 35 = 0.600
Pincome = medium | buys computer = yes = 49 = 0.444
Pincome = medium | buys computer = no = 25 = 0.400
Pstudent = yes | buys computer = yes = 69 = 0.667
Pstudent = yes | buys computer = no = 15 = 0.200
Pcredit rating = fair | buys computer = yes = 69 = 0.667
Pcredit rating = fair | buys computer = no = 25 = 0.400
Dari probability di atas, diperoleh: PH | buys computer = yes = Page = youth | buys computer = yes
Pincome = medium | buys computer = yes Pstudent = yes | buys computer = yes
24
Pcredit rating = fair | buys computer = yes =
0.222 0.444 0.667 0.667 = 0.044 PH | buys computer = no = Page = youth | buys computer = no
Pincome = medium | buys computer = no Pstudent = yes | buys computer = no
Pcredit rating = fair | buys computer = yes =
0.600 0.400 0.200 0.400 = 0.019 Menentukan kelas dapat dihitung:
PH | buys computer = yes Pbuys computer = yes = 0.044 0.643 = 0.028 PH | buys computer = no Pbuys computer = no = 0.019 0.357 = 0.007
Sehingga diketahui untuk kelaslabel buys computer = yes karena yes lebih besar daripada no.
Dari uraian di atas dapat dibuat ringkasan antara kelebihan dan kekurangan antara C4.5 dengan Naïve Bayes. Adapun kelebihan dari dan kelemahannya, seperti
tabel berikut:
Tabel 2.16 Kelebihan dan kelemahan algoritma C4.5 dan Naive Bayes
NO. METODE KELEBIHAN
KELEMAHAN 1
C4.5 [19] 1. Daerah pengambilan
keputusan yang sebelumnya kompleks
dan sangat global, dapat diubah menjadi
lebih simpel dan spesifik.
2. Eliminasi perhitungan- perhitungan yang tidak
diperlukan, karena ketika menggunakan
metode pohon keputusan maka sample
diuji hanya berdasarkan kriteria atau kelas
1. Terjadi overlap terutama ketika
kelas-kelas dan kriteria yang
digunakan jumlahnya sangat
banyak. Hal tersebut juga dapat
menyebabkan meningkatnya waktu
pengambilan keputusan dan jumlah
memori yang diperlukan.
2. Pengakumulasian
25
tertentu. 3. Fleksibel
untuk memilih fitur dari
internal node yang berbeda, fitur yang
terpilih akan membedakan suatu
kriteria dibandingkan kriteria yang lain dalam
node yang sama. Kefleksibelan metode
pohon keputusan ini meningkatkan kualitas
keputusan yang dihasilkan jika
dibandingkan ketika menggunakan metode
penghitungan satu tahap yang lebih
konvensional. jumlah eror dari
setiap tingkat dalam sebuah pohon
keputusan yang besar.
3. Kesulitan dalam
mendesain pohon keputusan yang
optimal.
2 NAÏVE BAYES [17]
[18] 1. Kuat terhadap
pengisolasi gangguan pada data
2. Jika terjadi kasus missing value ketika
proses komputasi sedang berlangsung,
maka objek tersebut akan diabaikan.
3. Dapat digunakan untuk data yang tidak relevan.
1. Harus mengasumsi bahwa antar fitur
tidak terkait independent Dalam
realita, keterkaitan itu ada.
2. Keterkaitan tersebut tidak dapat
dimodelkan oleh Naïve Bayesian
Classifier. 3.
Tidak membutuhkan
26
skema estimasi parameter perulangan
yang rumit, ini berarti bisa diaplikasikan
untuk data set
berukuran besar [20]
Dari tabel diatas, setelah menganalisa kelebihan dan kekurangan dari kedua algoritma tersebut, maka yang sesuai dengan dataset peneliti yaitu dari Pima Indian
Diabetes Data PIDD dengan menerapkan sequential methods untuk penanganan missing value-nya maka teknik Assigning All Possible Attribute Values to a Missing
Attribute Value dan Assigning All Possible Attribute Values Restricted to a Concept yang diimplementasikan pada algoritma Naïve Bayes menghasilkan akurasi yang lebih
baik.
2.2.6 Evaluasi Algoritma Klasifikasi Data Mining