λ α
λ α
α α
λ
,..., 2
, 1
, ,...,
2 ,
1 ,
1
= ≤
≤ =
≤ ≤
= −
∑
=
i C
i C
i i
i i
i
Dimana C didefinisikan oleh user,
j i
x x
K ,
adalah dot-product kernel yang didefinisikan sebagai
j i
T j
i
x x
x x
K ϕ
ϕ =
, . Dengan menggunakan langrange
multiplier dan kondisi optimalitas, fungsi regresi secara eksplisit dirumuskan sebagai berikut:
b x
x K
x f
i i
i i
+ −
=
∑
= λ
α α
1
, 7
2.6 POHON KEPUTUSAN
Sebuah model pohon keputusan terdiri dari satu set aturan untuk membagi suatu populasi heterogen besar menjadi lebih kecil, kelompok yang lebih homogen dengan
memperhatikan suatu variabel target tertentu Larose, 2005. Sebuah pohon keputusan adalah pohon di mana setiap simpul non-terminal
merupakan tes atau keputusan pada item data dipertimbangkan. Pilihan cabang tertentu tergantung pada hasil tes. Untuk mengklasifikasikan item data tertentu, Mulai dari akar
simpul dan mengikuti asersi bawah sampai mencapai node terminal atau daun. Sebuah keputusan dibuat ketika terminal node didekati. Pohon Keputusan juga dapat diartikan
sebagai bentuk khusus dari suatu set aturan, yang ditandai oleh organisasi hirarkis mereka aturan
Banyak algoritma dikembangkan untuk melakukan membuat pohon keputusan, diantaranya ID3, CART dan C4.5. Algoritma C4.5 merupakan pengembangan dari
algoritma ID3 Larose, 2005. Gupta et al., 2011
.
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut Craw, 2005:
a. Pilih atribut sebagai root
b. Buat cabang untuk masing-masing nilai
Universitas Sumatera Utara
c. Bagi kasus dalam cabang
d. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang
memiliki kelas yang sama.
CART Classification and Regression Tree adalah algoritma data-eksplorasi dan prediksi mirip dengan C4.5, yang merupakan algoritma konstruksi pohon Breiman et al.
1984. Klasifikasi dan pohon regresi, pada entropi informasi, memperkenalkan ukuran node yang dibuang. Hal ini digunakan pada berbagai masalah yang berbeda, seperti
deteksi klorin dari data yang terdapat dalam spektrum massa. Meskipun pohon keputusan mungkin bukan metode terbaik untuk akurasi klasifikasi. Menggunakan lingkaran sebagai
node keputusan dan sebuah persegi sebagai node terminal. Setiap node keputusan mempunyai kondisi yang diwakili oleh fungsi F, dan parameter adalah titik pemecahan
atribut split. Setiap node terminal memiliki label kelas C, nilai yang mewakili sebuah kelas. Hal ini jelas bahwa adalah mudah digunakan pohon keputusan untuk menafsirkan
pohon aturan, dari analisa yang bisa kita lakukan, dan mudah untuk menafsirkan representasi dari pemetaan input-output nonlinier
. Pada setiap node dari pohon, C4.5 memilih satu atribut data yang paling efektif
membagi himpunan dari sampel ke subset diperkaya dalam satu kelas atau yang lain. Kriteria adalah keuntungan informasi dinormalisasi perbedaan entropi yang hasil dari
pemilihan atribut untuk membelah data. Atribut dengan information gain tertinggi dinormalisasi dipilih untuk membuat keputusan. Algoritma C4.5 kemudian recurses pada
sublists lebih kecil.
Algoritma ini
memiliki beberapa
kasus dasar.
Semua sampel dalam daftar ini termasuk ke dalam kelas yang sama. Ketika ini terjadi, itu hanya menciptakan node daun untuk pohon mengatakan keputusan untuk memilih kelas
tersebut. Tidak ada fitur yang memberikan keuntungan informasi. Dalam hal ini, keputusan C4.5 menciptakan node lebih tinggi pohon dengan menggunakan nilai yang
diharapkan dari kelas. Instance dari kelas sebelumnya-tak terlihat yang dihadapi. Sekali lagi, keputusan C4.5 menciptakan node lebih tinggi pohon menggunakan nilai yang
diharapkan Quinlan, 1993.
Universitas Sumatera Utara
BAB III
METODE PENELITIAN
3.1 Rancangan Penelitian