Pengertian Pohon Keputusan Kelebihan Pohon Keputusan
� = −
+
�
2 +
−
−
�
2 −
Keterangan : S
: ruang data sampel yang digunakan untuk pelatihan p
+
: jumlah yang bersolusi positif mendukung pada data sampel untuk kriteria tertentu
p
-
: jumlah yang bersolusi negatif tidak mendukung pada data sampel untuk kriteria tertentu.
Catatan : 1.
EntropiS = 0, jika semua contoh pada S berada dalam kelas yang sama. 2.
EntropiS = 1, jika jumlah contoh positif dan negatif dalam S adalah sama. 3.
0 EntropiS 1, jika jumlah contoh positif dan negatif dalam S tidak sama.
Entropi split yang membagi S dengan n record menjadi himpunan- himpunan S
1
dengan n
1
baris dan S
2
dengan n
2
baris adalah :
�
1
,
2
=
1
�
1
+
2
�
2
Kemudian menghitung perolehan informasi dari output data atau variabel dependent y yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain
y,A. Perolehan informasi, gain y,A, dari atribut A relatif terhadap output data y adalah:
��� �, � = �� � � −
�
�
� �= ���� �
�� � �
�
Nilai A adalah semua nilai yang mungkin dari atribut A, dan yc adalah subset dari y dimana A mempunyai nilai c. Term pertama dalam persamaan di atas
adalah entropi total y dan term kedua adalah entropi sesudah dilakukan pemisahan data berdasarkan atribut A.
Untuk menghitung rasio perolehan perlu diketahui suatu term baru yang disebut pemisahan informasi Split Info. Pemisahan informasi dihitung dengan
cara : ....................…2.6
....................…2.5
...............…2.7
���� , � = −
�
� �=1
�
2
�
bahwa S1 sampai Sc adalah c subset yang dihasilkan dari pemecahan S dengan menggunakan atribut A yang mempunyai sebanyak c nilai. Selanjutnya
rasio perolehan gain ratio dihitung dengan cara :
��� ��� , � =
��� ,� ����
,�