IF MATERI DATA MINING PERTEMUAN 03

Universitas Putra Indonesia YPTK Padang
Fakultas Ilmu Komputer
Program Studi Teknik Informatika

Classification – Decision Tree

Classification – Decision Tree
Pengertian Pohon Keputusan
Pohon keputusan adalah pemetaan mengenai alternatif
pemecahan masalah, menganalisa resiko dan dapat
mencari penyelesaian terbaik dengan
memperhitungkan faktor-faktor masalah tersebut
.

Classification – Decision Tree
• Model Pohon Keputusan.

Classification – Decision Tree
Manfaat pohon keputusan:
• Mem-break down (memecah) proses pengambilan
keputusan yang kompleks menjadi lebih simpel

sehingga pengambil keputusan akan lebih
menginterpretasikan solusi dari permasalahan
• Untuk mengeksplorasi data, menemukan hubungan
tersembunyi antara sejumlah calon variabel input
dengan sebuah variabel target

Classification – Decision Tree
Kelebihan Pohon Keputusan
- Keputusan yang sebelumnya kompleks dan global,
diubah menjadi simpel dan spesifik.
- Meng-eliminasi perhitungan yang tidak diperlukan,
karena sample yang diuji hanya berdasarkan
kriteria atau kelas tertentu.
- Fleksibel untuk memilih fitur dari internal node
yang berbeda, meningkatkan kualitas keputusan
- Menghindari munculnya permasalahan karena
menggunakan kriteria yang lebih sedikit

Classification – Decision Tree
Kekurangan Pohon Keputusan

- Terjadi overlap, ketika kelas-kelas dan kriteria yang
digunakan jumlahnya sangat banyak.
- Pengakumulasian jumlah error yang besar dari
setiap tingkat dalam satu pohon keputusan.
- Kualitas keputusan yang dihasilkan sangat
tergantung pada bagaimana pohon keputusan
tersebut didesain.

Classification – Decision Tree

ALGORITMA C4.5

Algoritma C 4.5
Salah satu algoritma induksi pohon keputusan yaitu
ID3 (Iterative Dichotomiser 3).
ID3 dikembangkan oleh J. Ross Quinlan. Dalam
prosedur algoritma ID3, input berupa sampel
training, label training dan atribut.
Algoritma C4.5 merupakan pengembangan dari ID3.


Algoritma C 4.5
Algoritma C 4.5 :
1. Pilih atribut sebagai akar
2. Buat cabang untuk tiap-tiap nilai
3. Bagi kasus di dalam cabang
4. Ulangi Proses untuk setiap cabang sampai semua
kasus pada cabang memiliki kelas yang sama

Algoritma C 4.5
Untuk memilih atribut akar, didasarkan pada nilai GAIN
tertinggi dari atribut-atribut yang ada.
Untuk mendapatkan nilai GAIN, harus ditentukan terlebih
dahulu nilai ENTROPY

Algoritma C 4.5
Rumus Entropy :

Keterangan :
S
= Himpunan Kasus

n
= Jumlah Partisi S
pi
= Proporsi dari Si terhadap S

Algoritma C 4.5
Rumus Gain :

Keterangan :
S
= Himpunan Kasus
A
= Atribut
n
= Jumlah Partisi Atribut A
| Si | = Jumlah Kasus pada partisi ke-i
| S | = Jumlah Kasus dalam S

Algoritma C 4.5
Tabel Keputusan Bermain Tenis


Algoritma C 4.5
Solusi :
a. Hitung Jumlah Kasus
b. Hitung Jumlah Keputusan “Yes”
c. Hitung Jumlah Keputusan “No”
d. Hitung :
- Entropy (Total),
- Entropy (Outlook),
- Entropy (Temperature),
- Entropy (Humidity), dan
- Entropy (Windy)

Algoritma C 4.5

Algoritma C 4.5

Algoritma C 4.5

Algoritma C 4.5


e. Hitung :
- Gain (Total, Outlook)
- Gain (Total, Temperature)
- Gain (Total, Humidity)
- Gain (Total, Windy)

Algoritma C 4.5

Algoritma C 4.5

Algoritma C 4.5

Algoritma C 4.5
Dari tabel diatas, Gain Tertinggi adalah HUMIDITY dan
menjadi node akar.
Maka diperoleh bentuk pohon keputusan awal seperti :
1.
HUMIDITY


High

1.1
?????

Normal

Yes

Algoritma C 4.5
f. Hitung :
- Entropy (Humidity-High),
- Entropy (Outlook),
- Entropy (Temperature), dan
- Entropy (Windy)
h. Hitung :
- Gain (Humidity-High, Outlook)
- Gain (Humidity-High, Temperature)
- Gain (Humidity-High, Windy)


Algoritma C 4.5

Algoritma C 4.5
Dari tabel diatas, Gain
Tertinggi adalah OUTLOOK
dan menjadi node cabang dari
atribut HIGH.

1.
HUMIDITY
High

Normal

1.1
OUTLOOK

Cloudy
Rainy


Yes

1.1.2
?????

Yes

Sunny

No

Algoritma C 4.5
i. Hitung :
- Entropy (Outlook-Rainy),
- Entropy (Temperature), dan
- Entropy (Windy)
j. Hitung :
- Gain (Outlook-Rainy, Temperature)
- Gain (Outlook-Rainy, Windy)


Algoritma C 4.5

Algoritma C 4.5
1.
HUMIDITY
High

Normal

1.1
OUTLOOK

Cloudy

Yes

Sunny

Rainy


1.1.2
WINDY

Yes
False

Yes

No
True

No

Dari tabel diatas,
Gain Tertinggi
adalah WINDY
dan menjadi
node cabang dari
atribut RAINY.

Terima Kasih !!!