IPK dikatagorikan (Bagus, Cukup, Kurang)
LEARNING
ARTIFICIAL INTELLIGENT Outline Decision tree learning
Jaringan Syaraf Tiruan
K-Nearest Neighborhood
Naïve Bayes
Decision Tree Learning :
Klasifikasi untuk penerimaan pegawai baru
merupakan salah satu studi kasus yang akan
dijabarkan. Dimana terdapat 11 orang yangmengikuti tes penerimaan pegawai baru dengan
menggunakan 3 parameter atau atribut penilaian
sebagai berikut: IPK dikatagorikan (Bagus, Cukup, Kurang)
Psikologi dikatagorikan (Tinggi, Sedang, Rendah)
Wawancara dikatagorikan (Baik, Buruk)
Bagaimana menemukan aturan?
Pelamar
IPK Psikologi Wawancara Diterima
P1 Bagus Tinggi Baik Ya P2 Bagus Sedang Baik Ya P3 Bagus Sedang Buruk Tidak P4 Bagus Rendah Buruk Tidak P5 Cukup Tinggi Baik Ya P6 Cukup Sedang Baik Ya P7 Cukup Sedang Buruk Tidak P8 Cukup Rendah Buruk Tidak P9 Kurang Tinggi Baik Ya
P10 Kurang Sedang Baik Ya P11 Kurang Sedang Buruk Tidak
Wawancara Baik Ya
Buruk Tidak Ya' ' Diterima ) Baik' ' (Wawancara
Pelamar
P1 Bagus Tinggi Baik Ya P2 Bagus Sedang Baik Ya P3 Bagus Sedang Buruk Ya P4 Bagus Rendah Buruk Tidak P5 Cukup Tinggi Baik Ya P6 Cukup Sedang Baik Ya P7 Cukup Sedang Buruk Ya P8 Cukup Rendah Buruk Tidak P9 Kurang Tinggi Baik Ya
P10 Kurang Sedang Buruk Tidak P11 Kurang Rendah Baik Ya
Bagaimana menemukan aturan?
IPK Psikologi Wawancara Diterima
Wawancara Baik Buruk
Psikologi Ya Tinggi
Rendah Sedang Tidak
Tidak
IPK Bagus Cukup Kurang
Ya Ya Tidak Rule Wawancara Baik
( ' ' ) Wawancara Buruk Psikologi Sedang
IPK Bagus
(( ' ' ) ( ' ' ) ( ' ' ))
Wawancara Buruk Psikologi Sedang
IPK Cukup ( ( ' ' ) ( ' ' ) ( ' ' )) Diterima Ya
' ' Masalah
Data tidak lengkap
IPK : 3 kemungkinan nilai
Psikologi: 3 kemungkinan nilai
Wawancara: 2 kemungkinan nilai
Data lengkap = 3 x 3 x 2 = 18 records
Aturan yang men-generalisasi unseen data? Learning
Bagaimana untuk data yang sangat banyak?
Bagaimana menemukan aturan?
Bagaimana jika datanya tidak lengkap?
Aturan yang general untuk data yang akan datang?
Menemukan perbedaan dari dua hal yang mirip?
Menemukan kesamaan dari dua hal yang berbeda?
Data penerimaan pegawai baru
Pelamar
IPK Psikologi Wawancara Diterima
P1 Bagus Tinggi Baik Ya P2 Bagus Sedang Baik Ya P3 Bagus Sedang Buruk Ya P4 Bagus Rendah Buruk Tidak P5 Cukup Tinggi Baik Ya P6 Cukup Sedang Baik Ya P7 Cukup Sedang Buruk Ya P8 Cukup Rendah Buruk Tidak P9 Kurang Tinggi Baik Ya
P10 Kurang Sedang Buruk Tidak P11 Kurang Rendah Baik Ya
Langkah Pertama
Tentukan akar dari pohon, akar atau node
awal akan diambil dari atribut yang dipilih,
dengan cara menghitung kemudian memilih
informasi gain tertinggi dari masing-masing atribut. Namun sebelum menghitung gain dari atribut,
harus dihitung dulu nilai entropy dari setiap
tupel.Jumlah sampel setiap atribut :
3
6
6
2 Baik
1
3
1 Rendah
4
5
3 Sedang
Jumlah Sampel Ya Tidak Himpunan Kasus
11
2
3
1 Kurang
3
4
1 Cukup
3
4
3 IPK Bagus
8
1 Psikologi Tinggi Menghitung Entropy
Perhitungan untuk mencari nilai Entropy dari setiap tupel atribut masing-masing Entropy
Parameter untuk mengukur heterogenitas (keberagaman) dari kumpulan sampel data.
Jika kumpulan sampel data semakin heterogen,
maka nilai entropy-nya semakin besar.Entropy S : Himpunan Kasus n : jumlah kelas pada atribut target (jumlah kelas klasifikasi).
p : Proporsi sampel untuk kelas i ( Proporsi dari Si terhadap S)
iJumlah sampel setiap atribut :
3
6
6
2 Wawancara Baik
1
3
1 Rendah
4
5
3 Sedang
Jumlah Sampel Ya Tidak Himpunan Kasus
11
2
3
1 Kurang
3
4
1 Cukup
3
4
3 IPK Bagus
8
1 Psikologi Tinggi Entropy (Total-Kelas)
Entropy IPK-Bagus
Entropy IPK-Cukup
Entropy IPK-Kurang
Entropy Psikologi-Tinggi
Entropy Psikologi-Sedang
Entropy Psikologi-Rendah
Entropy Wawancara-Baik
Entropy Wawancara-Buruk
Menghitung Information Gain (IG)
Efektivitas atribut dalam mengklasifikasikan data
Dihitung berdasarkan entropy
Information Gain (IG)
S : himpunan kasus
A : atribut n : jumlah partisi pada atribut A
|S i
| : jumlah sampel pada partisi ke i
|S| : jumlah seluruh sampel data pada kasus S
Entropy(S ) : entropy untuk sampel-sampel pada partisi ke i IG untuk IPK
IG untuk Psikologi
IG untuk Wawancara
Hasil Perhitungan Gain dan Entropy
1 0.918295834 Psikologi
6
6
2 0.918295834 Wawancara Baik
1
3
1 0.647517476 Rendah
4
5
3
0.300580492 Tinggi
Jumlah kasus Ya Tidak Entropi Gain Himpunan kasus
11
3
1 0.811278124 Kurang
3
4
1 0.811278124 Cukup
3
4
IPK 0.0048 Bagus
3 0.845350936
8
2
Menentukan Root dari Decision Tree
Gain Tertinggi adalah atribut Wawancara (nilai = 0.404009756), Sehingga Atribut Wawancara menjadi root dari Decision Tree
Atribut Wawancara (Nilai : Baik dan Buruk)
Nilai : Baik ada 6 kasus “Ya” diterima dan
0 kasus “Tidak” diterima Pohon Keputusan Pada Node Pertama
Penentuan Node Pada Wawancara - Nilai Buruk Pelamar
IPK Psikologi Wawancara Diterima
P3 Bagus Sedang Buruk Ya
P4 Bagus Rendah Buruk TidakP7 Cukup Sedang Buruk Ya
P8 Cukup Rendah Buruk Tidak
P10 Kurang Sedang Buruk Tidak
Menghitung Entropy dari Wawancara - nilai “Buruk” Entropy IPK-Bagus
Entropy IPK-Cukup
Entropy IPK-Kurang
Entropy Psikologi-Sedang
Entropy Psikologi-Rendah
Menghitung Gain dari nilai
“Buruk”
Hasil Perhitungan Entropy dan Gain
1
2
2
Rendah
1 0.918295834
2
3
Sedang
1 Psikologi 0.419973093
1
1 Kurang
Jumlah kasus Ya Tidak Entropi Gain
Wawancara
2
1 Cukup
1
1
2
Bagus
IPK 0.170950594
3 0.970950594
2
5
1 Penentuan Node Lanjutan
Gain tertinggi adalah Psikologi sebesar 0.419973093 atribut Psikologi dapat menjadi node lanjutan dari atribut Wawancara
- – Buruk
Atribut Psikologi (Nilai : Sedang dan Rendah)
Nilai : Rendah ada 2 kasus “Tidak” diterima dan 0 kasus “Ya” diterima Pohon Keputusan Pada Node Lanjutan
Menentukan Daun/Leaf (Node Terakhir)
PelamarIPK Psikologi Wawancara Diterima
P3 Bagus Sedang Buruk Ya
P7 Cukup Sedang Buruk Ya
P10 Kurang Sedang Buruk Tidak Menentukan Daun/Leaf (Node Terakhir)
Tanpa menghitung nilai Entropy dan Gain
Hal ini dikarenakan, untuk nilai Psikologi
- – Sedang, hanya didapati sisa 3 cabang dan langsung melengkapi yang kurang
Atruan (Rule)
“JIKA wawancara = baik MAKA diterima”
“JIKA wawancara = buruk AND psikologi = sedang AND ipk = bagus MAKA diterima”
“JIKA wawancara = buruk AND psikologi = sedang AND ipk = cukup MAKA diterima”
“JIKA wawancara = buruk AND psikologi = sedang AND ipk = kurang MAKA ditolak”
“JIKA wawancara = buruk AND psikologi = rendah MAKA ditolak”
“JIKA wawancara = buruk AND psikologi = tinggi MAKA ditolak ” Aturan (Rule) Wawancara Baik
( ' ' ) Wawancara Buruk Psikologi Sedang
IPK Bagus
(( ' ' ) ( ' ' ) ( ' ' ))
Wawancara Buruk Psikologi Sedang
IPK Cukup ( ( ' ' ) ( ' ' ) ( ' ' )) Diterima Ya
' ' Diskusi
Jika terdapat dua atribut dengan IG yang sama?
Jika ada data yang sama tetapi kelasnya berbeda?
Berapa jumlah learning data minimum?
Imbalance Class?
Dua atribut dengan IG sama ?
Gain(S,IPK) = 0,0049
0,4040 Gain(S,Psikologi) =
0,4040
Gain(S,Wawancara) = Data sama, kelasnya beda?
Pelamar
IPK Psikologi Wawancara Diterima
P1 Bagus Tinggi Baik Ya P2 Bagus Sedang Baik Ya P3 Bagus Sedang Buruk Ya P4 Bagus Rendah Buruk Tidak P5 Cukup Tinggi Baik Ya P6 Cukup Sedang Baik Ya
P7 Cukup Sedang Buruk Ya P8 Cukup Sedang Buruk Tidak
P9 Kurang Tinggi Baik Ya P10 Kurang Sedang Buruk Tidak P11 Kurang Rendah Baik Ya Jumlah learning data ?
200.000 kata
Masalah Sentiment Analysis atau Email Spam Filtering
Masing-masing kata muncul 0
- – 100 kali
Training data: 10.000 postingan atau email
Imbalance Class?
Data latih untuk tiap kelas tidak seimbang
Terutama untuk kasus data kesehatan (rekam medis)
Misalnya: klasifikasi penyakit Daftar Pustaka
Suyanto. 2007. Artificial Intelligence: Searching, Reasoning, Planning and Learning. Informatika, Bandung Indonesia. ISBN: 979-1153-05-1.
Russel, Stuart and Norvig, Peter. 1995. Artificial Intelligence: A Modern Approach. Prentice Hall International, Inc.