Support Vector Machine SVM

label dengan nilai class yang paling banyak di D langkah 5. Alternatif lain distribusi class pada record di node tersebut dapat disimpan. • Tidak ada record pada cabang yaitu ketika partisi kosong langkah 12. Pada kasus ini, daun dibuat dengan class yang paling banyak muncul di D langkah 13 8. Hasil dari Decision tree dikembalikan langkah 15. Han dan Kamber, 2006, pp291-296

2.1.13 Support Vector Machine SVM

SVM dapat digunakan untuk classification baik data linear maupun non- linear . SVM menggunakan nonlinear mapping untuk mentransformasikan data training ke dimensi yang lebih tinggi.Dalam dimensi baru ini dicari hyperplane bidang optimal sebagai pemisah. Hyperplane ini merupakan batas yang memisahkan record dari satu kelas dengan kela lainnya. SVM menemukan hyperplane dengan menggunakan support vector dan margin didefinisikan oleh support vector . Waktu training dari SVM lebih lambat dan memakan waktu bila dibandingkan dengan metode classification lainnya tetapi SVM memiliki tingkat akurasi yang tinggi dan tidak rentan terhadap overfitting. SVM dapat digunakan untuk memprediksi nilai categorical atau nilai continue. Jika diberikan suatu masalah apakah seorang pelanggan akan membeli komputer atau tidak, dengan label kelas yang memiliki 2 nilai dimana kelas merupakan linearly separable dengan data set D dalam bentuk , , , ,…, , , dimana adalah sekumpulan record data training yang diasosiasikan dengan label kelas . Setiap dapat memiliki satu dari dua nilai yaitu +1 buys_computer=yes atau -1 buy_computer=no. Setiap dijelaskan oleh dua atribut dan seperti ditunjukkan pada gambar 2.15 Gambar 2.13 Contoh hyperplane SVM Dari gambar 2.13 terlihat bahwa data 2-D tersebut linearly separable karena sebuah garis lurus dapat digambarkan untuk memisahkan semua record dari kelas +1 dengan record dari kelas -1. Jumlah garis pemisah yang ada adalah tak terbatas infinite. Jika data adalah 1-D 1 atribut yang dicari adalah titik pemisah, jika data 3-D memiliki 3 atribut maka yang dicari adalah bidang plane. Digeneralisasikan menjadi n-dimensi maka pemisah tersebut disebut dengan hyperplane . SVM berusaha mencari hyperplane terbaik yang memiliki error classification terkecil. Gambar 2.14 Contoh margin SVM SVM mencari hyperplane terbaik dengan mencari maximum marginal hyperplane MM H. Gambar 2.14 menunjukkan contoh 2 hyperplane pemisah yang mungkin dilengkapi dengan margin masing-masing. Dari gambar 2.14 terlihat bahwa kedua hyperplane dapat dengan benar memisahkan semua record data yang diberikan. Akan tetapi, hyperplane yang memiliki margin terbesar lebih akurat dalam memprediksi kelas dari record data yang belum pernah dilihat sebelumnya. Karena itu selama fase learning atau training, SVM mencari hyperplane dengan margin terbesar yaitu MM H. Jarak terdekat dari hyperplane ke salah satu sisi margin sama dengan jarak terdekat dari hyperplane tersebut ke sisi margin lainnya. Jarak terdekat ini adalah jarak dari MMH ke record training terdekat dari masing-masing kelas. Record training yang berada pada sisi margin dari hyperplane disebut dengan support vector. Support vector adalah record yang paling sulit untuk diklasifikasikan dan memberikan informasi paling banyak mengenai classification. Jika semua record selain support vector di keluarkan dari training data dan training dilakukan ulang, maka akan tetap didapatkan hyperplane yang serupa. Komplekstitisitas dari classifier lebih ditentukan oleh banyaknya support vector dibanding dimensi data. SVM juga dapat digunakan untuk mencari non-linear decision boundary .Non-linear decision boundary dicari apabila kelas pada data tidak dapat dipisahkan oleh liner hyperplane. Han dan Kamber, 2006, pp337-344 Gambar 2.15 Data dengan kelas non-linearly separable

2.1.14 Bayesian Classification