Discernibilty Matrix Himpunan Kasar Rough Set

Dari beberapa kekurangan tersebut pohon keputusan memiliki beberapa penyempurnaan dan pengembangan.

II.3.4 Jenis-jenis Pohon Keputusan

Beberapa jenis model pohon keputusan yang sudah dikembangkan antara lain ID3, C4.5 dan CART Classification and Regression Tree. 1. CART Dalam CART, setiap simpul dipecah menjadi 2 cabang. Ada dua langkah penting yang harus diikuti untuk mendapatkan pohon tree dengan performansi yang optimal. Yang pertama adalah pemecahan obyek secara berulang berdasarkan atribut tertentu. Yang kedua, pemangkasan pruning dengan menggunakan data validasi Santoso,2007. 2. ID3 dan C4.5 ID3 menggunakan kriteria information gain untuk memilih atribut yang akan digunakan untuk pemisahan obyek. Atribut yang mempunyai information gain paling tinggi dibanding atribut yang lain relatif terhadap set y dalam suatu data, dipilih untuk melakukan pemecahan. Sedangkan C4.5 merupakan pengembangan dari ID3. Perbaikan dilakukan dalam hal : 1. Dapat mengatasi data yang hilang 2. Dapat mengatasi data kontinyu. 3. Pemangkasan. 4. Aturan. Dalam penelitian Tugas akhir ini algoritma yang digunakan untuk membentuk pohon keputusan adalah algoritma C4.5.

II.4. Algoritma C4.5

Merupakan pengembangan dari dari algoritma ID3 Iterative Dichotomiser 3, Maka dari itu dalam membuat pohon keputusan algoritma C4.5 mempunyai langkah-langkah yang mirip dengan ID3. ID3 sendiri dikembangkan oleh J. Ross Quinlan. Sedangkan pada perangkat lunak open source WEKA mempunyai versi sendiri yang dikenal sebagai J48. Pada gambar 2.5 dibawah ini adalah gambar dari algoritma C4.5 itu sendiri. Gambar 2.4 Algoritma C.45 http:fairuzelsaid.files.wordpress.com200911image004.gif?w=443h=311 Pohon dibangun dengan cara membagi data secara rekursif hingga tiap bagian terdiri dari data yang berasal dari kelas yang sama. Bentuk pemecahan split yang digunakan untuk membagi data tergantung dari jenis atribut yang digunakan dalam split. Algoritma C4.5 dapat menangani data numerik kontinyu dan diskret. Split untuk atribut numerik yaitu mengurutkan contoh berdasarkan atribut kontiyu A, kemudian membentuk minimum permulaan threshold M dari contoh-contoh yang ada dari kelas mayoritas pada setiap partisi yang bersebelahan, lalu menggabungkan partisi-partisi yang bersebelahan tersebut dengan kelas mayoritas yang sama. Split untuk atribut diskret A mempunyai bentuk value A ε X, dimana X ⊂ domainA. Untuk melakukan pemisahan obyek split dilakukan tes terhadap atribut dengan mengukur tingkat ketidakmurnian pada sebuah simpul node. Pada algoritma C4.5 digunakan rasio perolehan gain ratio. Sebelum menghitung rasio perolehan, perlu menghitung dulu nilai informasi dalam satuan bits dari suatu kumpulan objek. Cara menghitungnya dilakukan dengan menggunakan konsep entropi. � = − + � 2 + − − � 2 − Keterangan : S : ruang data sampel yang digunakan untuk pelatihan p + : jumlah yang bersolusi positif mendukung pada data sampel untuk kriteria tertentu p - : jumlah yang bersolusi negatif tidak mendukung pada data sampel untuk kriteria tertentu. Catatan : 1. EntropiS = 0, jika semua contoh pada S berada dalam kelas yang sama. 2. EntropiS = 1, jika jumlah contoh positif dan negatif dalam S adalah sama. 3. 0 EntropiS 1, jika jumlah contoh positif dan negatif dalam S tidak sama. Entropi split yang membagi S dengan n record menjadi himpunan- himpunan S 1 dengan n 1 baris dan S 2 dengan n 2 baris adalah : � 1 , 2 = 1 � 1 + 2 � 2 Kemudian menghitung perolehan informasi dari output data atau variabel dependent y yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain y,A. Perolehan informasi, gain y,A, dari atribut A relatif terhadap output data y adalah: ��� �, � = �� � � − � � � �= ���� � �� � � � Nilai A adalah semua nilai yang mungkin dari atribut A, dan yc adalah subset dari y dimana A mempunyai nilai c. Term pertama dalam persamaan di atas adalah entropi total y dan term kedua adalah entropi sesudah dilakukan pemisahan data berdasarkan atribut A. Untuk menghitung rasio perolehan perlu diketahui suatu term baru yang disebut pemisahan informasi Split Info. Pemisahan informasi dihitung dengan cara : ....................…2.6 ....................…2.5 ...............…2.7