IF MATERI DATA MINING PERTEMUAN 03
Universitas Putra Indonesia YPTK Padang
Fakultas Ilmu Komputer
Program Studi Teknik Informatika
Classification – Decision Tree
Classification – Decision Tree
Pengertian Pohon Keputusan
Pohon keputusan adalah pemetaan mengenai alternatif
pemecahan masalah, menganalisa resiko dan dapat
mencari penyelesaian terbaik dengan
memperhitungkan faktor-faktor masalah tersebut
.
Classification – Decision Tree
• Model Pohon Keputusan.
Classification – Decision Tree
Manfaat pohon keputusan:
• Mem-break down (memecah) proses pengambilan
keputusan yang kompleks menjadi lebih simpel
sehingga pengambil keputusan akan lebih
menginterpretasikan solusi dari permasalahan
• Untuk mengeksplorasi data, menemukan hubungan
tersembunyi antara sejumlah calon variabel input
dengan sebuah variabel target
Classification – Decision Tree
Kelebihan Pohon Keputusan
- Keputusan yang sebelumnya kompleks dan global,
diubah menjadi simpel dan spesifik.
- Meng-eliminasi perhitungan yang tidak diperlukan,
karena sample yang diuji hanya berdasarkan
kriteria atau kelas tertentu.
- Fleksibel untuk memilih fitur dari internal node
yang berbeda, meningkatkan kualitas keputusan
- Menghindari munculnya permasalahan karena
menggunakan kriteria yang lebih sedikit
Classification – Decision Tree
Kekurangan Pohon Keputusan
- Terjadi overlap, ketika kelas-kelas dan kriteria yang
digunakan jumlahnya sangat banyak.
- Pengakumulasian jumlah error yang besar dari
setiap tingkat dalam satu pohon keputusan.
- Kualitas keputusan yang dihasilkan sangat
tergantung pada bagaimana pohon keputusan
tersebut didesain.
Classification – Decision Tree
ALGORITMA C4.5
Algoritma C 4.5
Salah satu algoritma induksi pohon keputusan yaitu
ID3 (Iterative Dichotomiser 3).
ID3 dikembangkan oleh J. Ross Quinlan. Dalam
prosedur algoritma ID3, input berupa sampel
training, label training dan atribut.
Algoritma C4.5 merupakan pengembangan dari ID3.
Algoritma C 4.5
Algoritma C 4.5 :
1. Pilih atribut sebagai akar
2. Buat cabang untuk tiap-tiap nilai
3. Bagi kasus di dalam cabang
4. Ulangi Proses untuk setiap cabang sampai semua
kasus pada cabang memiliki kelas yang sama
Algoritma C 4.5
Untuk memilih atribut akar, didasarkan pada nilai GAIN
tertinggi dari atribut-atribut yang ada.
Untuk mendapatkan nilai GAIN, harus ditentukan terlebih
dahulu nilai ENTROPY
Algoritma C 4.5
Rumus Entropy :
Keterangan :
S
= Himpunan Kasus
n
= Jumlah Partisi S
pi
= Proporsi dari Si terhadap S
Algoritma C 4.5
Rumus Gain :
Keterangan :
S
= Himpunan Kasus
A
= Atribut
n
= Jumlah Partisi Atribut A
| Si | = Jumlah Kasus pada partisi ke-i
| S | = Jumlah Kasus dalam S
Algoritma C 4.5
Tabel Keputusan Bermain Tenis
Algoritma C 4.5
Solusi :
a. Hitung Jumlah Kasus
b. Hitung Jumlah Keputusan “Yes”
c. Hitung Jumlah Keputusan “No”
d. Hitung :
- Entropy (Total),
- Entropy (Outlook),
- Entropy (Temperature),
- Entropy (Humidity), dan
- Entropy (Windy)
Algoritma C 4.5
Algoritma C 4.5
Algoritma C 4.5
Algoritma C 4.5
e. Hitung :
- Gain (Total, Outlook)
- Gain (Total, Temperature)
- Gain (Total, Humidity)
- Gain (Total, Windy)
Algoritma C 4.5
Algoritma C 4.5
Algoritma C 4.5
Algoritma C 4.5
Dari tabel diatas, Gain Tertinggi adalah HUMIDITY dan
menjadi node akar.
Maka diperoleh bentuk pohon keputusan awal seperti :
1.
HUMIDITY
High
1.1
?????
Normal
Yes
Algoritma C 4.5
f. Hitung :
- Entropy (Humidity-High),
- Entropy (Outlook),
- Entropy (Temperature), dan
- Entropy (Windy)
h. Hitung :
- Gain (Humidity-High, Outlook)
- Gain (Humidity-High, Temperature)
- Gain (Humidity-High, Windy)
Algoritma C 4.5
Algoritma C 4.5
Dari tabel diatas, Gain
Tertinggi adalah OUTLOOK
dan menjadi node cabang dari
atribut HIGH.
1.
HUMIDITY
High
Normal
1.1
OUTLOOK
Cloudy
Rainy
Yes
1.1.2
?????
Yes
Sunny
No
Algoritma C 4.5
i. Hitung :
- Entropy (Outlook-Rainy),
- Entropy (Temperature), dan
- Entropy (Windy)
j. Hitung :
- Gain (Outlook-Rainy, Temperature)
- Gain (Outlook-Rainy, Windy)
Algoritma C 4.5
Algoritma C 4.5
1.
HUMIDITY
High
Normal
1.1
OUTLOOK
Cloudy
Yes
Sunny
Rainy
1.1.2
WINDY
Yes
False
Yes
No
True
No
Dari tabel diatas,
Gain Tertinggi
adalah WINDY
dan menjadi
node cabang dari
atribut RAINY.
Terima Kasih !!!
Fakultas Ilmu Komputer
Program Studi Teknik Informatika
Classification – Decision Tree
Classification – Decision Tree
Pengertian Pohon Keputusan
Pohon keputusan adalah pemetaan mengenai alternatif
pemecahan masalah, menganalisa resiko dan dapat
mencari penyelesaian terbaik dengan
memperhitungkan faktor-faktor masalah tersebut
.
Classification – Decision Tree
• Model Pohon Keputusan.
Classification – Decision Tree
Manfaat pohon keputusan:
• Mem-break down (memecah) proses pengambilan
keputusan yang kompleks menjadi lebih simpel
sehingga pengambil keputusan akan lebih
menginterpretasikan solusi dari permasalahan
• Untuk mengeksplorasi data, menemukan hubungan
tersembunyi antara sejumlah calon variabel input
dengan sebuah variabel target
Classification – Decision Tree
Kelebihan Pohon Keputusan
- Keputusan yang sebelumnya kompleks dan global,
diubah menjadi simpel dan spesifik.
- Meng-eliminasi perhitungan yang tidak diperlukan,
karena sample yang diuji hanya berdasarkan
kriteria atau kelas tertentu.
- Fleksibel untuk memilih fitur dari internal node
yang berbeda, meningkatkan kualitas keputusan
- Menghindari munculnya permasalahan karena
menggunakan kriteria yang lebih sedikit
Classification – Decision Tree
Kekurangan Pohon Keputusan
- Terjadi overlap, ketika kelas-kelas dan kriteria yang
digunakan jumlahnya sangat banyak.
- Pengakumulasian jumlah error yang besar dari
setiap tingkat dalam satu pohon keputusan.
- Kualitas keputusan yang dihasilkan sangat
tergantung pada bagaimana pohon keputusan
tersebut didesain.
Classification – Decision Tree
ALGORITMA C4.5
Algoritma C 4.5
Salah satu algoritma induksi pohon keputusan yaitu
ID3 (Iterative Dichotomiser 3).
ID3 dikembangkan oleh J. Ross Quinlan. Dalam
prosedur algoritma ID3, input berupa sampel
training, label training dan atribut.
Algoritma C4.5 merupakan pengembangan dari ID3.
Algoritma C 4.5
Algoritma C 4.5 :
1. Pilih atribut sebagai akar
2. Buat cabang untuk tiap-tiap nilai
3. Bagi kasus di dalam cabang
4. Ulangi Proses untuk setiap cabang sampai semua
kasus pada cabang memiliki kelas yang sama
Algoritma C 4.5
Untuk memilih atribut akar, didasarkan pada nilai GAIN
tertinggi dari atribut-atribut yang ada.
Untuk mendapatkan nilai GAIN, harus ditentukan terlebih
dahulu nilai ENTROPY
Algoritma C 4.5
Rumus Entropy :
Keterangan :
S
= Himpunan Kasus
n
= Jumlah Partisi S
pi
= Proporsi dari Si terhadap S
Algoritma C 4.5
Rumus Gain :
Keterangan :
S
= Himpunan Kasus
A
= Atribut
n
= Jumlah Partisi Atribut A
| Si | = Jumlah Kasus pada partisi ke-i
| S | = Jumlah Kasus dalam S
Algoritma C 4.5
Tabel Keputusan Bermain Tenis
Algoritma C 4.5
Solusi :
a. Hitung Jumlah Kasus
b. Hitung Jumlah Keputusan “Yes”
c. Hitung Jumlah Keputusan “No”
d. Hitung :
- Entropy (Total),
- Entropy (Outlook),
- Entropy (Temperature),
- Entropy (Humidity), dan
- Entropy (Windy)
Algoritma C 4.5
Algoritma C 4.5
Algoritma C 4.5
Algoritma C 4.5
e. Hitung :
- Gain (Total, Outlook)
- Gain (Total, Temperature)
- Gain (Total, Humidity)
- Gain (Total, Windy)
Algoritma C 4.5
Algoritma C 4.5
Algoritma C 4.5
Algoritma C 4.5
Dari tabel diatas, Gain Tertinggi adalah HUMIDITY dan
menjadi node akar.
Maka diperoleh bentuk pohon keputusan awal seperti :
1.
HUMIDITY
High
1.1
?????
Normal
Yes
Algoritma C 4.5
f. Hitung :
- Entropy (Humidity-High),
- Entropy (Outlook),
- Entropy (Temperature), dan
- Entropy (Windy)
h. Hitung :
- Gain (Humidity-High, Outlook)
- Gain (Humidity-High, Temperature)
- Gain (Humidity-High, Windy)
Algoritma C 4.5
Algoritma C 4.5
Dari tabel diatas, Gain
Tertinggi adalah OUTLOOK
dan menjadi node cabang dari
atribut HIGH.
1.
HUMIDITY
High
Normal
1.1
OUTLOOK
Cloudy
Rainy
Yes
1.1.2
?????
Yes
Sunny
No
Algoritma C 4.5
i. Hitung :
- Entropy (Outlook-Rainy),
- Entropy (Temperature), dan
- Entropy (Windy)
j. Hitung :
- Gain (Outlook-Rainy, Temperature)
- Gain (Outlook-Rainy, Windy)
Algoritma C 4.5
Algoritma C 4.5
1.
HUMIDITY
High
Normal
1.1
OUTLOOK
Cloudy
Yes
Sunny
Rainy
1.1.2
WINDY
Yes
False
Yes
No
True
No
Dari tabel diatas,
Gain Tertinggi
adalah WINDY
dan menjadi
node cabang dari
atribut RAINY.
Terima Kasih !!!