= cost sample ke-i pada similarity function ke-i lambda = learning rate
m = banyaknya sample
2.3. High Dimensional Classification
Dalam aplikasi yang melibatkan klasifikasi dengan high dimensional dataset, salah satu permasalahan umum dalam tingkat praktiknya adalah kondisi yang disebut curse
of dimensionality Bellman, 1957 . Bagaimanapun, masalah utama ini melibatkan kondisi overfitting dan cara menyediakan jumlah training sample yang meningkat
secara eksponensial. Masalah ini mudah dipahami jika kita membagi sebuah n- dimensional feature space kedalam sebuah n-dimensional hypercubes dengan resolusi
yang konstan dalam tiap dimensi Bishop, 2006 . Ketika kita melakukan ini, jumlah hypercubes akan meningkat secara eksponensial seiring jumlah dimensi. Oleh karena
itu terlihat jelas bahwa persebaran data menjadi sebuah masalah dan teknik non- parametrik seperti metoda histogram menjadi tidak mungkin. Dalam banyak aplikasi,
jumlah dimensi menjadi masalah yang tak terpisahkan dan terasa tidak realistis untuk menydiakan jumlah training sample yang dibutuhkan untuk mengimbangi persebaran
data.
2.3.1. Curse of Dimensionality Tools yang digunakan dalam analisis data berdasarkan pada prinsip pembelajaran dari
pada pengetahuan, atau informasi dari training sample yang tersedia. Jelas sekali bahwa model yang dibangun hanya valid pada range atau volume sebanyak training
sample yang tersedia. Bagaimanapun model yang dibangun, generalisasi pada data yang sangat berbeda dari semua titik pembelajaran adalah mustahil. Dengan kata lain,
generalisasi yang relevan dimungkinkan dalam interpolation. Salah satu kompinen kunci dalam pengembangan algoritma pembelajaran yang
berhasil adalah tersedianya training sample yang cukup untuk mengisi semua space
Universitas Sumatera Utara
dibagian mana model tersebut adalah valid. Dapat dilihat dengan mudah bahwa jika setiap constraint yang ada tidak mengalami perubahan maka jumlah training sample
akan meningkat secara eksponensial seiring dimensinya. Kenaikan jumlah training sample secara eksponensial ini adalah apa yang disebut curse of dimensionality
Bellman, 1957 dan juga dikemukakan lagi oleh Christopher M. Bishop Bishop, 2006 .
Secara umum, curse of dimensionality adalah kondisi dari semua fenomena yang muncul dalam high dimensional dataset, dan yang paling sering menjadi
penghalang dalam behavior dan performa sebuah learning algorithm.
2.3.2. Feature Selection Salah satu cara dalam mengatasi curse of dimensionality yang seringkali
mengakibatkan kondisi overfitting dikarenakan tingginya jumlah parameter r adalah mereduksi jumlah dimensi pada tahap preprocessing. Dalam permasalahan high
dimensional dataset seringkali didapat input variable didapati redundant, jika kita dapat menghapus semua variable yang redundant, sebuah classifier dapat saja melalui
proses pembelajaran dalam low dimensional dataset. Feature selection membutuhkan pengenalan pada ukuran persebaran yang
menjelaskan perbedaan nilai antara variable input yang digunakan. Ukuran persebaran data yang ideal adalah Bayes error rate dalam permasalahan klasifikasi. Sayangnya,
jumlah training sample yang dibutuhkan akan selalu berubah setiap proses feature selection.
Jika ukruan persebaran yang idela telah didapat, proses ini masih saja memerlukan jumlah input variable yang optimal, ini dapat dicapai dengan mencari
segala kemungkinan input variable yang telah ditetapkan, sebuah metoda brute force dapat digunakan dan salah satu yang paling sederhana adalah sequential forward dan
backward selection.
Universitas Sumatera Utara
BAB 3
ANALISIS DAN PERANCANGAN SISTEM
Pada bab ini akan dijelaskan proses analisis dan perancangan sistem yang digunakan dalam penelitian ini, dimulai dari pengumpulan data serta proses cluster-isasi pada
masing-masing dataset, sehingga alur sistem yang dirancang akan dapat dipahami proses pembutannya.
3.1. Pengumpulan Data Pelatihan