Model Klasifikasi LANDASAN TEORI

himpunan S relatif terhadap klasifikasi biner yang didefinisikan sebagai berikut : entropi S = - P + log 2 P + - P - log 2 P - ...................... 2.1 dimana : S = ruang sampel data yang digunakan untuk training. P + = rasio dari kejadian positif dalam S terhadap jumlah sampel dalam S. P - = rasio dari kejadian negatif dalam S terhadap jumlah sampel dalam S. Entropi bernilai 0 bila himpunan S homogen sempurna. Entropi bernilai 1 bila himpunan S tak homogen sempurna. Jika himpunan memuat jumlah sampel positif dan negatif tak sama, entropi akan terletak diantara 0 dan 1. Nilai rata-rata entropi suatu atribut dirumuskan sebagai berikut: E = ∑ = ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ × ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ inst i i t i e n n 1 ........................................................... 2.2 dimana : inst = jumlah kejadian n i = jumlah data kejadian ke-i n t = jumlah total data keseluruhan e i = nilai entropi kejadian ke-i Setelah menghitung nilai rata-rata entropi, dilakukan perhitungan nilai gain. Gain S A adalah informasi yang PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI diperoleh melalui percabangan simpul pada atribut A. Gain dirumuskan sebagai berikut : Gain S A = Entropi S – Nilai rata-rata Entropi S…2.3 dimana : S = ruang sampel data yang digunakan untuk training. A = atribut dalam sampel data training b. Menyusun pohon Menyusun pohon dimulai pada simpul terpilih setelah dicari nilai gain. Nilai gain atribut yang terbesar yang dijadikan simpul terpilih. Semakin besar nilai gain, semakin banyak informasi yang dapat diperoleh tentang atribut output. Untuk menentukan simpul daun selanjutnya, dilakukan langkah-langkah berikut ini : 1 Pilih simpul daun yang memiliki sampel data yang tidak homogen. 2 Cari nilai gain pada setiap atribut kecuali atribut yang telah menjadi simpul di atasnya. 3 Tentukan simpul selanjutnya dengan memilih atribut yang memiliki nilai gain paling besar. 2. Mengubah simpul pohon menjadi aturan Pada langkah ini simpul atau pohon yang telah selesai dibangun diubah menjadi aturan if...then. Simpul-simpul yang ada PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI