label dengan nilai class yang paling banyak di D langkah 5. Alternatif lain distribusi class pada record di node tersebut dapat disimpan.
• Tidak ada record pada cabang yaitu ketika partisi kosong langkah 12. Pada kasus ini, daun dibuat dengan class yang paling banyak muncul di D
langkah 13 8. Hasil dari Decision tree dikembalikan langkah 15.
Han dan Kamber, 2006, pp291-296
2.1.13 Support Vector Machine SVM
SVM dapat digunakan untuk classification baik data linear maupun non- linear
. SVM menggunakan nonlinear mapping untuk mentransformasikan data training
ke dimensi yang lebih tinggi.Dalam dimensi baru ini dicari hyperplane bidang optimal sebagai pemisah. Hyperplane ini merupakan batas yang
memisahkan record dari satu kelas dengan kela lainnya. SVM menemukan hyperplane
dengan menggunakan support vector dan margin didefinisikan oleh support vector
. Waktu training dari SVM lebih lambat dan memakan waktu bila
dibandingkan dengan metode classification lainnya tetapi SVM memiliki tingkat akurasi yang tinggi dan tidak rentan terhadap overfitting. SVM dapat digunakan
untuk memprediksi nilai categorical atau nilai continue. Jika diberikan suatu masalah apakah seorang pelanggan akan membeli
komputer atau tidak, dengan label kelas yang memiliki 2 nilai dimana kelas merupakan linearly separable dengan data set D dalam bentuk
, ,
, ,…,
, , dimana
adalah sekumpulan record data
training yang diasosiasikan dengan label kelas . Setiap dapat memiliki satu
dari dua nilai yaitu +1 buys_computer=yes atau -1 buy_computer=no. Setiap dijelaskan oleh dua atribut
dan seperti ditunjukkan pada gambar 2.15
Gambar 2.13 Contoh hyperplane SVM
Dari gambar 2.13 terlihat bahwa data 2-D tersebut linearly separable karena sebuah garis lurus dapat digambarkan untuk memisahkan semua record dari kelas
+1 dengan record dari kelas -1. Jumlah garis pemisah yang ada adalah tak terbatas infinite. Jika data adalah 1-D 1 atribut yang dicari adalah titik pemisah, jika
data 3-D memiliki 3 atribut maka yang dicari adalah bidang plane. Digeneralisasikan menjadi n-dimensi maka pemisah tersebut disebut dengan
hyperplane . SVM berusaha mencari hyperplane terbaik yang memiliki error
classification terkecil.
Gambar 2.14 Contoh margin SVM
SVM mencari hyperplane terbaik dengan mencari maximum marginal hyperplane
MM H. Gambar 2.14 menunjukkan contoh 2 hyperplane pemisah yang mungkin dilengkapi dengan margin masing-masing. Dari gambar 2.14
terlihat bahwa kedua hyperplane dapat dengan benar memisahkan semua record data yang diberikan. Akan tetapi, hyperplane yang memiliki margin terbesar lebih
akurat dalam memprediksi kelas dari record data yang belum pernah dilihat
sebelumnya. Karena itu selama fase learning atau training, SVM mencari hyperplane
dengan margin terbesar yaitu MM H. Jarak terdekat dari hyperplane ke salah satu sisi margin sama dengan jarak terdekat dari hyperplane tersebut ke sisi
margin lainnya. Jarak terdekat ini adalah jarak dari MMH ke record training terdekat dari masing-masing kelas.
Record training yang berada pada sisi margin dari hyperplane disebut dengan support vector. Support vector adalah record yang paling sulit untuk
diklasifikasikan dan memberikan informasi paling banyak mengenai classification. Jika semua record selain support vector di keluarkan dari training data dan
training dilakukan ulang, maka akan tetap didapatkan hyperplane yang serupa.
Komplekstitisitas dari classifier lebih ditentukan oleh banyaknya support vector dibanding dimensi data.
SVM juga dapat digunakan untuk mencari non-linear decision boundary
.Non-linear decision boundary dicari apabila kelas pada data tidak dapat dipisahkan oleh liner hyperplane. Han dan Kamber, 2006, pp337-344
Gambar 2.15
Data dengan kelas non-linearly separable
2.1.14 Bayesian Classification