High Dimensional Classification KESIMPULAN DAN SARAN

= cost sample ke-i pada similarity function ke-i lambda = learning rate m = banyaknya sample

2.3. High Dimensional Classification

Dalam aplikasi yang melibatkan klasifikasi dengan high dimensional dataset, salah satu permasalahan umum dalam tingkat praktiknya adalah kondisi yang disebut curse of dimensionality Bellman, 1957 . Bagaimanapun, masalah utama ini melibatkan kondisi overfitting dan cara menyediakan jumlah training sample yang meningkat secara eksponensial. Masalah ini mudah dipahami jika kita membagi sebuah n- dimensional feature space kedalam sebuah n-dimensional hypercubes dengan resolusi yang konstan dalam tiap dimensi Bishop, 2006 . Ketika kita melakukan ini, jumlah hypercubes akan meningkat secara eksponensial seiring jumlah dimensi. Oleh karena itu terlihat jelas bahwa persebaran data menjadi sebuah masalah dan teknik non- parametrik seperti metoda histogram menjadi tidak mungkin. Dalam banyak aplikasi, jumlah dimensi menjadi masalah yang tak terpisahkan dan terasa tidak realistis untuk menydiakan jumlah training sample yang dibutuhkan untuk mengimbangi persebaran data. 2.3.1. Curse of Dimensionality Tools yang digunakan dalam analisis data berdasarkan pada prinsip pembelajaran dari pada pengetahuan, atau informasi dari training sample yang tersedia. Jelas sekali bahwa model yang dibangun hanya valid pada range atau volume sebanyak training sample yang tersedia. Bagaimanapun model yang dibangun, generalisasi pada data yang sangat berbeda dari semua titik pembelajaran adalah mustahil. Dengan kata lain, generalisasi yang relevan dimungkinkan dalam interpolation. Salah satu kompinen kunci dalam pengembangan algoritma pembelajaran yang berhasil adalah tersedianya training sample yang cukup untuk mengisi semua space Universitas Sumatera Utara dibagian mana model tersebut adalah valid. Dapat dilihat dengan mudah bahwa jika setiap constraint yang ada tidak mengalami perubahan maka jumlah training sample akan meningkat secara eksponensial seiring dimensinya. Kenaikan jumlah training sample secara eksponensial ini adalah apa yang disebut curse of dimensionality Bellman, 1957 dan juga dikemukakan lagi oleh Christopher M. Bishop Bishop, 2006 . Secara umum, curse of dimensionality adalah kondisi dari semua fenomena yang muncul dalam high dimensional dataset, dan yang paling sering menjadi penghalang dalam behavior dan performa sebuah learning algorithm. 2.3.2. Feature Selection Salah satu cara dalam mengatasi curse of dimensionality yang seringkali mengakibatkan kondisi overfitting dikarenakan tingginya jumlah parameter r adalah mereduksi jumlah dimensi pada tahap preprocessing. Dalam permasalahan high dimensional dataset seringkali didapat input variable didapati redundant, jika kita dapat menghapus semua variable yang redundant, sebuah classifier dapat saja melalui proses pembelajaran dalam low dimensional dataset. Feature selection membutuhkan pengenalan pada ukuran persebaran yang menjelaskan perbedaan nilai antara variable input yang digunakan. Ukuran persebaran data yang ideal adalah Bayes error rate dalam permasalahan klasifikasi. Sayangnya, jumlah training sample yang dibutuhkan akan selalu berubah setiap proses feature selection. Jika ukruan persebaran yang idela telah didapat, proses ini masih saja memerlukan jumlah input variable yang optimal, ini dapat dicapai dengan mencari segala kemungkinan input variable yang telah ditetapkan, sebuah metoda brute force dapat digunakan dan salah satu yang paling sederhana adalah sequential forward dan backward selection. Universitas Sumatera Utara BAB 3 ANALISIS DAN PERANCANGAN SISTEM Pada bab ini akan dijelaskan proses analisis dan perancangan sistem yang digunakan dalam penelitian ini, dimulai dari pengumpulan data serta proses cluster-isasi pada masing-masing dataset, sehingga alur sistem yang dirancang akan dapat dipahami proses pembutannya.

3.1. Pengumpulan Data Pelatihan