Contoh Penerapan Algoritma TINJAUAN PUSTAKA
Tabel 2.9 Boolean matriks dengan maksimal b dan c atribut
a b
c d
X
4
X
1
1
X
4
X
2
1 1
X
4
X
7
1 1
X
4
X
3
1 1
X
4
X
5
1 1
1 1
X
4
X
6
1 1
1 1
X
1
X
3
1 1
1
X
1
X
5
1 1
1 1
X
1
X
6
1 1
1 1
X
2
X
3
1 1
X
2
X
5
1 1
1
X
2
X
6
1 1
1
X
7
X
3
1 1
1 1
X
7
X
5
1 1
X
7
X
6
1 1
SUM
8 12
12 10
{b, c}
Selanjutnya setiap atribut „b‟ dan „c‟ yang bernila satu akan dihapus,
sehingga hasilnya menjadi seperti tabel 2.10 dan 2.11 dibawah ini.
Tabel 2.10 Boolean matrix yang nilai atribut b dan c adalah 1 dihapus a
b c
d X
4
X
1
1
X
4
X
2
1 1
X
4
X
7
1 1
X
4
X
3
1 1
X
4
X
5
1 1
1 1
x
X
4
X
6
1 1
1 1
x
X
1
X
3
1 1
1 x
X
1
X
5
1 1
1 1
x
X
1
X
6
1 1
1 1
x
X
2
X
3
1 1
x
X
2
X
5
1 1
1 x
X
2
X
6
1 1
1 x
X
7
X
3
1 1
1 1
x
X
7
X
5
1 1
X
7
X
6
1 1
Mencari lagi atribut yang paling maksimal untuk ditambahkan kedalam SPA nya.
Tabel 2.11 Boolean matriks hasil penghapusan a
b c
d X
4
X
1
1
X
4
X
2
1 1
X
4
X
7
1 1
X
4
X
3
1 1
X
7
X
5
1 1
X
7
X
6
1 1
SUM
1 3
3 4
{d}
Lakukan lagi penghapusan, pada atribut maksimal yang nilainya adalah „1‟.
Pada table 2.12 dibawah ini, hapus matrik Boolean yang nilai atribut “d” nya
adalah satu. Baris yang harus dihapus adalah pasangan objek X4X2,X4X3,X7X5 dan X7X6. Hasil penghapusan baris ini bias dilihat pada table 2.13.
Tabel 2.12 Boolean matriks hapus nilai atribut d adalah 1 a
b c
d X
4
X
1
1
X
4
X
2
1 1
x
X
4
X
7
1 1
X
4
X
3
1 1
x
X
7
X
5
1 1
x
X
7
X
6
1 1
x
Tabel 2.13 Boolean matriks hasil penghapusan dan maksimal nya menjadi 2 a
b c
d X
4
X
1
1
X
4
X
7
1 1
SUM 1
2
{b}
Masih pada table 2.13, setelah baris dihapus pada table 2.12, hitung kembali nilai maksimal dari matrik boolean.
Tabel 2.14 Boolean matriks hapus yang nilai b adalah 1 a
b c
d X
4
X
1
1 x
X
4
X
7
1 1
x
Reduct : {b,c}, {d}, {b} Jadi reduct atau SPA yang didapatkan dari tabel 2.2 diatas adalah {b,c},
{d}, {b}. Core
nya adalah
‘b’.
Ada beberapa algoritmanpohon keputusan, salah satunya adalah C4.5. C4.5 merupakan pengembangan dari dari algoritma ID3 Iterative Dichotomiser
3 , oleh karena itu C4.5 membuat pohon keputusan mempunyai langkah-langkah
yang sama seperti pada ID3. ID3 sendiri dikembangkan oleh J. Ross Quinlan. Sedangkan pada perangkat lunak open source WEKA mempunyai versi sendiri
yang dikenal sebagai J48.
Gambar 2.5 Algoritma C4.5
Sumber : Said, 2006 Untuk memilih atribut sebagai akar, dipilih atribut yang menghasilkan
simpul yang paling “purest” paling bersih. Kalau dalam satu cabang anggotanya
berasal dari satu kelas maka cabang ini disebut pure. Semakin pure suatu cabang semakin baik. Ukuran purity dinyatakan dengan tingkat impurity. Salah satu
criteria impurity adalah information gain. Jadi dalam memilih atribut untuk untuk
memecah obyek dalam beberapa kelas harus dipilih atibut yang menghasilkan information gain
paling besar. Pohon dibangun dengan cara membagi data secara rekursif hingga tiap
bagian terdiri dari data yang berasal dari kelas yang sama. Bentuk pemecahan split yang digunakan untuk membagi data tergantung dari jenis atribut yang
digunakan dalam split. Algoritma C4.5 dapat menangani data numerik kontinyu
dan diskret. Split untuk atribut numerik yaitu mengurutkan contoh berdasarkan atribut kontiyu A, kemudian membentuk ambang batas threshold M dari contoh-
contoh yang ada dari kelas mayoritas pada setiap partisi yang bersebelahan, lalu menggabungkan partisi-partisi yang bersebelahan tersebut dengan kelas mayoritas
yang sama. Split untuk atribut diskret A mempunyai bentuk value A ε X, dimana
X ⊂ domainA.
Untuk melakukan pemisahan obyek split dilakukan tes terhadap atribut dengan mengukur tingkat ketidakmurnian pada sebuah simpul node. Pada
algoritma C4.5 digunakan rasio perolehan gain ratio. Sebelum menghitung rasio perolehan, perlu menghitung dulu nilai informasi dalam satuan bits dari suatu
kumpulan objek. Cara menghitungnya dilakukan dengan menggunakan konsep entropi.
…………2.3
S : ruang data sampel yang digunakan untuk pelatihan
p
+
: jumlah yang bersolusi positif mendukung pada data sampel untuk kriteria tertentu
p
-
: jumlah yang bersolusi negatif tidak mendukung pada data sampel untuk kriteria tertentu.
Catatan : 1. EntropiS = 0, jika semua contoh pada S berada dalam kelas yang
sama. 2. EntropiS = 1, jika jumlah contoh positif dan negatif dalam S
adalah sama. 3. 0 EntropiS 1, jika jumlah contoh positif dan negatif dalam S
tidak sama.
Entropi split yang membagi S dengan n record menjadi himpunan- himpunan S
1
dengan n
1
baris dan S
2
dengan n
2
baris adalah :
…………2.4
Kemudian menghitung perolehan informasi dari output data atau variabel dependent y yang dikelompokkan berdasarkan atribut A, dinotasikan
dengan gain y,A. Perolehan informasi, gain y,A, dari atribut A relatif terhadap output data y adalah:
…2.5
Nilai A adalah semua nilai yang mungkin dari atribut A, dan yc adalah subset dari y dimana A mempunyai nilai c. Term pertama dalam persamaan di atas
adalah entropi total y dan term kedua adalah entropi sesudah dilakukan pemisahan data berdasarkan atribut A.
Untuk menghitung rasio perolehan perlu diketahui suatu term baru yang disebut pemisahan informasi Split Info. Pemisahan informasi dihitung dengan
cara :
…2.6 bahwa S1 sampai Sc adalah c subset yang dihasilkan dari pemecahan S dengan
menggunakan atribut A yang mempunyai sebanyak c nilai. Selanjutnya rasio perolehan gain ratio dihitung dengan cara :
…2.7