POHON KEPUTUSAN Dr. Erna Budhiarti Nababan 4. Drs. Sawaluddin, MIT

λ α λ α α α λ ,..., 2 , 1 , ,..., 2 , 1 , 1 = ≤ ≤ = ≤ ≤ = − ∑ = i C i C i i i i i Dimana C didefinisikan oleh user, j i x x K , adalah dot-product kernel yang didefinisikan sebagai j i T j i x x x x K ϕ ϕ = , . Dengan menggunakan langrange multiplier dan kondisi optimalitas, fungsi regresi secara eksplisit dirumuskan sebagai berikut: b x x K x f i i i i + − = ∑ = λ α α 1 , 7

2.6 POHON KEPUTUSAN

Sebuah model pohon keputusan terdiri dari satu set aturan untuk membagi suatu populasi heterogen besar menjadi lebih kecil, kelompok yang lebih homogen dengan memperhatikan suatu variabel target tertentu Larose, 2005. Sebuah pohon keputusan adalah pohon di mana setiap simpul non-terminal merupakan tes atau keputusan pada item data dipertimbangkan. Pilihan cabang tertentu tergantung pada hasil tes. Untuk mengklasifikasikan item data tertentu, Mulai dari akar simpul dan mengikuti asersi bawah sampai mencapai node terminal atau daun. Sebuah keputusan dibuat ketika terminal node didekati. Pohon Keputusan juga dapat diartikan sebagai bentuk khusus dari suatu set aturan, yang ditandai oleh organisasi hirarkis mereka aturan Banyak algoritma dikembangkan untuk melakukan membuat pohon keputusan, diantaranya ID3, CART dan C4.5. Algoritma C4.5 merupakan pengembangan dari algoritma ID3 Larose, 2005. Gupta et al., 2011 . Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut Craw, 2005: a. Pilih atribut sebagai root b. Buat cabang untuk masing-masing nilai Universitas Sumatera Utara c. Bagi kasus dalam cabang d. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama. CART Classification and Regression Tree adalah algoritma data-eksplorasi dan prediksi mirip dengan C4.5, yang merupakan algoritma konstruksi pohon Breiman et al. 1984. Klasifikasi dan pohon regresi, pada entropi informasi, memperkenalkan ukuran node yang dibuang. Hal ini digunakan pada berbagai masalah yang berbeda, seperti deteksi klorin dari data yang terdapat dalam spektrum massa. Meskipun pohon keputusan mungkin bukan metode terbaik untuk akurasi klasifikasi. Menggunakan lingkaran sebagai node keputusan dan sebuah persegi sebagai node terminal. Setiap node keputusan mempunyai kondisi yang diwakili oleh fungsi F, dan parameter adalah titik pemecahan atribut split. Setiap node terminal memiliki label kelas C, nilai yang mewakili sebuah kelas. Hal ini jelas bahwa adalah mudah digunakan pohon keputusan untuk menafsirkan pohon aturan, dari analisa yang bisa kita lakukan, dan mudah untuk menafsirkan representasi dari pemetaan input-output nonlinier . Pada setiap node dari pohon, C4.5 memilih satu atribut data yang paling efektif membagi himpunan dari sampel ke subset diperkaya dalam satu kelas atau yang lain. Kriteria adalah keuntungan informasi dinormalisasi perbedaan entropi yang hasil dari pemilihan atribut untuk membelah data. Atribut dengan information gain tertinggi dinormalisasi dipilih untuk membuat keputusan. Algoritma C4.5 kemudian recurses pada sublists lebih kecil. Algoritma ini memiliki beberapa kasus dasar. Semua sampel dalam daftar ini termasuk ke dalam kelas yang sama. Ketika ini terjadi, itu hanya menciptakan node daun untuk pohon mengatakan keputusan untuk memilih kelas tersebut. Tidak ada fitur yang memberikan keuntungan informasi. Dalam hal ini, keputusan C4.5 menciptakan node lebih tinggi pohon dengan menggunakan nilai yang diharapkan dari kelas. Instance dari kelas sebelumnya-tak terlihat yang dihadapi. Sekali lagi, keputusan C4.5 menciptakan node lebih tinggi pohon menggunakan nilai yang diharapkan Quinlan, 1993. Universitas Sumatera Utara BAB III METODE PENELITIAN

3.1 Rancangan Penelitian