teknik menggunakan suatu algoritma pembelajaran learning algorithm untuk mendapatkan suatu model yang paling memenuhi hubungan antara himpunan
atribut dan label kelas dalam data masukan. Masukan dari model klasifikasi merupakan sekumpulan record training set. Tiap record meliputi himpunan
attributes, yang salah satu atributnya merupakan class. Model untuk atribut kelas merupakan suatu fungsi dari nilai
– nilai atribut lainnya. Suatu test set digunakan untuk menentukan keakuratan model tersebut. Biasanya data
– set yang diberikan dibagi menjadi training dan test sets, dimana training set digunakan untuk
membangun model dan test set digunakan untuk memvalidasi.
2.4 Decision Tree Pohon Keputusan
Pohon tree adalah sebuah struktur data yang terdiri dari simpul node dan rusuk edge. Simpul pada sebuah pohon dibedakan menjadi tiga, yaitu simpul
akar root node, simpul percabanganinternal branchinternal node dan simpul daun leaf node. Pohon keputusan merupakan representasi sederhana dari teknik
klasifikasi untuk sejumlah kelas berhingga, dimana simpul internal maupun simpul akar ditandai dengan nama atribut, rusuk
– rusuknya diberi label nilai atribut yang mungkin dan simpul daun ditandai dengan kelas
– kelas yang berbeda.
Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan
– himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing
– PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
masing rangkaian pembagian,anggota himpunan hasil menjadi mirip satu dengan yang lain Berry Linoff, 2004.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut
– atribut yang ada. Untuk menhitung gain digunakan rumus seperti tertera dalam persamaan :
2.1
Keterangan :
S : himpunan kasus
n : jumlah partisi S
p
i
: proporsi dari S
i
terhadap S Sementara itu, perhitungan nilai entropi dapat dilihat pada persamaan berikut :
2.2
Keterangan :
S : himpunan kasus
A : atribut
n : jumlah partisi atribut A
|Si| : jumlah kasus pada partisi ke-i
|S| : jumlah kasus dalam S
2.5 Kegunaan Pohon Keputusan
Prosedur diagram pohon dapat digunakan untuk : 1.
Segmentasi
Mengidentifikasi orang – orang yang dapat dimasukkan ke dalam kelompok
tertentu. 2.
Stratifikasi
Mengenakan kasus – kasus data ke dalam satu dari beberapa kategori,
seperti kelompok – kelompok yang berisiko rendah, menengah dan tinggi.
3. Prediksi
Membuat aturan dan menggunakan aturan tersebut untuk memprediksi kejadian
– kejadian di masa yang akan datang. 4.
Pengurangan data dan penyaringan variabel
Memilih prediktor – prediktor yang bermanfaat dari seperangkat variabel
untuk digunakan dalam membuat model parametric baku. 5.
Penggabungan kategori dan diskretisasi variabel – variabel kontinu
Mengode ulang kategori – kategori prediktor dalam kelompok dan variabel
kontinu dengan meminimisasi hilangnya informasi dikarenakan proses
diskretisasi. 2.6
Kelebihan dan kekurangan dari Decision Tree Pohon Keputusan 2.6.1
Kelebihan Decision Tree Pohon Keputusan
1. Berguna dalam mengeksplorasi data, sehingga data yang tersembunyi bisa
diolah dan dikembangkan lagi.
2. Untuk mem-break down proses pengambilan keputusan yang kompleks
menjadi lebih simple sehingga pengambil keputusan akan lebih
menginterpretasikan solusi dari permasalahan.
3.
Bisa dijadikan sebagai tool pengambilan keputusan terakhir.
4. Mengubah keputusan yang kompleks menjadi lebih simple, spesifik dan
mudah.
2.6.2 Kekurangan Decision Tree Pohon Keputusan
1. Kesulitan dalam mendesain pohon keputusan yang optimal.
2. Hasil kualitas keputusan yang didapatkan dari metode pohon keputusan
sangat tergantung pada bagaimana pohon tersebut didesain. 3.
Terjadi overlap terutama ketika kelas – kelas dan kriteria yang digunakan
jumlahnya sangat banyak. 4.
Pengakumulasian jumlah error dari setiap tingkat dalam sebuah pohon keputusan yang besar.
2.7 Algoritma Decision Tree Pohon Keputusan