Pengertian Pohon Keputusan Kelebihan Pohon Keputusan

� = − + � 2 + − − � 2 − Keterangan : S : ruang data sampel yang digunakan untuk pelatihan p + : jumlah yang bersolusi positif mendukung pada data sampel untuk kriteria tertentu p - : jumlah yang bersolusi negatif tidak mendukung pada data sampel untuk kriteria tertentu. Catatan : 1. EntropiS = 0, jika semua contoh pada S berada dalam kelas yang sama. 2. EntropiS = 1, jika jumlah contoh positif dan negatif dalam S adalah sama. 3. 0 EntropiS 1, jika jumlah contoh positif dan negatif dalam S tidak sama. Entropi split yang membagi S dengan n record menjadi himpunan- himpunan S 1 dengan n 1 baris dan S 2 dengan n 2 baris adalah : � 1 , 2 = 1 � 1 + 2 � 2 Kemudian menghitung perolehan informasi dari output data atau variabel dependent y yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain y,A. Perolehan informasi, gain y,A, dari atribut A relatif terhadap output data y adalah: ��� �, � = �� � � − � � � �= ���� � �� � � � Nilai A adalah semua nilai yang mungkin dari atribut A, dan yc adalah subset dari y dimana A mempunyai nilai c. Term pertama dalam persamaan di atas adalah entropi total y dan term kedua adalah entropi sesudah dilakukan pemisahan data berdasarkan atribut A. Untuk menghitung rasio perolehan perlu diketahui suatu term baru yang disebut pemisahan informasi Split Info. Pemisahan informasi dihitung dengan cara : ....................…2.6 ....................…2.5 ...............…2.7 ���� , � = − � � �=1 � 2 � bahwa S1 sampai Sc adalah c subset yang dihasilkan dari pemecahan S dengan menggunakan atribut A yang mempunyai sebanyak c nilai. Selanjutnya rasio perolehan gain ratio dihitung dengan cara : ��� ��� , � = ��� ,� ���� ,�

II.5. Algoritma Reduct Based Decision Tree RDT

II.5.1 Pendahuluan

Dalam Algoritma penambangan data Reduct Based Decision Tree RDT terdapat dua langkah penting yaitu Reduct Computation dan pembentukan pohon keputusan. Reduct Based Decision TreeRDT mengkombinasikan teori himpunan kasar Rough Set dan induksi algoritma pohon keputusan, yang meningkatkan efisiensi dan sederhana. Datasets dapat diskret ataupun kontinyu.

II.5.2 Reduct Computation dan Pembentukan Pohon Keputusan

Di dalam proses Reduct Computation Algorithm RCA, tabel keputusan diberikan sebagai input dan atribut utama predominant attributes yang disebut reduct diperoleh sebagai output. Jika data yang digunakan besar, digunakan fragmentasi vertikal. Atribut keputusan ditambahkan ke tiap fragmen dan RCA dipergunakan. Predominant attributes untuk semua fragmen diperoleh dan dikelompokkan bersama dengan informasi fragmen dan atribut keputusan. Selanjutnya RCA digunakan lagi. Himpunan baru dari atribut disebut composite reduct. Menurut Ramadevi 2008 langkah-langkah dalam Reduct Computation Algorithm RCA adalah sebagai berikut. ...............…2.8 ...............…2.9