teori dasar SVM dan aplikasinya dalam bioinformatika, khususnya pada analisaekspresi gen yang diperoleh dari analisa microarray.
Konsep SVM dapat dijelaskan secara sederhanasebagai usaha mencari hyperplaneterbaik yangberfungsi
sebagai pemisah dua buah class padainput space. Konsep dasar SVMsebenarnya merupakan kombinasi harmonis dariteori-teori
komputasi yang telah ada puluhantahun sebelumnya, seperti margin hyperplaneDuda Hart tahun 1973, Cover tahun 1965,Vapnik 1964, dsb., kernel diperkenalkan
olehAronszajn tahun 1950, dan demikian jugadengan konsep-konsep pendukung yang lain.
Akan tetapi hingga tahun 1992, belum pernahada upaya merangkaikan komponen- komponentersebut.
II.7.1
KARAKTERISTIK SVM
Karakteristik SVM sebagaimana telah dijelaskanpada bagian sebelumnya, dirangkumkan sebagaiberikut:
1. Secara prinsip SVM adalah linear classifier
2. Pattern recognition dilakukan denganmentransformasikan data pada input
spaceke ruang yang berdimensi lebih tinggi, danoptimisasi dilakukan pada ruang vector yangbaru tersebut. Hal ini membedakan SVMdari solusi pattern
recognition padaumumnya, yang melakukan optimisasiparameter pada ruang hasil transformasiyang berdimensi lebih rendah daripadadimensi input space.
3. Menerapkan strategi Structural RiskMinimization SRM
4.
Prinsip kerja SVM pada dasarnya hanyamampu menangani klasifikasi dua class.
II.7. 2 KELEBIHAN DAN KEKURANGAN SVM
Dalam memilih solusi untuk menyelesaikansuatu masalah, kelebihan dan kelemahanmasing-masing metode harus diperhatikan.Selanjutnya metode yang tepat
dipilih denganmemperhatikan karakteristik data yang diolah.Dalam hal SVM, walaupun berbagai studi telahmenunjukkan kelebihan metode SVMdibandingkan metode
konvensional lain, SVMjuga memiliki berbagai kelemahan. KelebihanSVM antara lain sbb.
Universitas Sumatera Utara
1. Generalisasi
Generalisasi didefinisikan sebagaikemampuan suatu metode SVM, neuralnetwork, dsb. untuk mengklasifikasikansuatu pattern, yang tidak
termasuk data yangdipakai dalam fase pembelajaran metode itu.Vapnik menjelaskan bahwa generalizationerror dipengaruhi oleh dua faktor:
errorterhadap training set, dan satu faktor lagiyang dipengaruhi oleh dimensi VCVapnik-Chervokinensis. Strategipembelajaran pada neural network
danumumnya metode learning machinedifokuskan pada usaha untukmeminimimalkan error pada training-set.Strategi ini disebut Empirical
RiskMinimization ERM. Adapun SVM selainmeminimalkan error pada training-set, jugameminimalkan faktor kedua. Strategi inidisebut Structural
Risk Minimization SRM,dan dalam SVM diwujudkan denganmemilih hyperplane dengan margin terbesar.Berbagai studi empiris menunjukkan
bahwapendekatan SRM pada SVM memberikanerror generalisasi yang lebih kecil daripadayang diperoleh dari strategi ERM padaneural network maupun
metode yang lain. 2.
Curse of dimensionality. Curse of dimensionality didefinisikansebagai masalah yang dihadapi
suatumetode pattern recognition dalammengestimasikan parameter misalnyajumlah hidden neuron pada neural network,stopping criteria dalam
proses pembelajarandsb. dikarenakan jumlah sampel data yangrelatif sedikit dibandingkan dimensionalruang vektor data tersebut. Semakin tinggidimensi
dari ruang vektor informasi yang diolah, membawa konsekuensi dibutuhkannya jumlah data dalam proses pembelajaran. ada kenyataannya
seringkali terjadi, data yang diolah berjumlah terbatas, dan untuk mengumpulkan data yang lebih banyak tidak mungkin dilakukan karena
kendala biaya dan kesulitan teknis. Dalam kondisi tersebut, jika metode itu “terpaksa”harus bekerja pada data yang berjumlah relatif sedikit
dibandingkan dimensinya,akan membuat proses estimasi parameter metode menjadi sangat sulit.Curse of dimensionality sering dialami dalam aplikasi di
Universitas Sumatera Utara
bidang biomedicalengineering, karena biasanya data biologi yang tersedia sangat terbatas, dan penyediaannya memerlukan biaya tinggi.Vapnik
membuktikan bahwa tingkat generalisasi yang diperoleh oleh SVM tidak dipengaruhi oleh dimensi dari input vector. Hal ini merupakan alasan
mengapa SVM merupakan salah satu metode yang tepat dipakai untuk memecahkan masalah berdimensi tinggi, dalam keterbatasan sampel data
yang ada. 3.
Landasan teoriSebagai metode yang berbasis statistik,SVM memiliki landasan teori yang dapatdianalisa dengan jelas, dan tidak bersifat.
Universitas Sumatera Utara
BAB III METODOLOGI PENELITIAN
Tujuan dari Tesis ini adalah untuk membuat model penerapan dalam memprediksi mahasiswa yang berpeluang drop out dengan keterhubungan data mahasiswa
dengan jurusan untuk meningkatkan disiplin mahasiswa yang lebih baik dengan menyediakan data prestasi akademik mahasiswa berupa indeksprestasi yang dapat
digunakan sebagai pedoman analisis dalam pembuatan keputusan. Pada bagian ini kita mulai dengan menggambarkan studi kasus data
mining pada system penilaian akademik di perguruan tinggi dan prosedur bagaimana mengumpulkan data yang dapat digunakan pada penelitian ini.
Data dikumpulkan dari database pendidikan akademik dan mensurvei mahasiswa diploma yang telah menempuh semester 1sampaidengantahun 2011 di
Politeknik Negeri Medan. Instrumen penelitian yang digunakan harus mempunyai ukuran yang akurat. Secara terperinci, bagaimana mendapatkan input yang lebih
baik dalam proses data mining yang digambarkan pada bagian sebelum pemprosesan data. Penulis memberikan tinjauan singkat dari beberapa analysis
data yang digunakan pada penelitian ini.
III.1 Tempat dan Waktu Penelitian
Penelitian ini diambil dilokasi Politeknik Negeri Medan Jln. Almamater No.1 Kampus USU Padang Bulan Medan. Penelitian ini dimulai pada bulan Pebruari -
Juni 2010, dan penelitian ini membutuhkan waktu selama 5 bulan dalam menyelesaikan penelitian ini.
III.2 Pelaksanaan Penelitian
Penelitian ini memanfaatkan daftar nilai akhir mahasiswa,daftar kehadiran mahasiswa, melanggar peraturan akademik antara lain : pencurian, merusak nama
baik institusi.
Universitas Sumatera Utara