K-Fold Cross Validation Pembobotan Term

2.4.2. Algoritma K-NN untuk Menganalisis Dokumen Web Berikut ini adalah langkah-langkah menghitung K-Nearest Neighbors pada dokumen : 1. Tentukan paremeter k sebagai jumlah tetangga terdekat, dalam sistem ini digunakan k=1, sehingga jika ada tetangga terdekat, itu yang akan digunakan sebagai nilai prediksi. 2. Hitung jarak antara data yang masuk dan semua sampel latih yang sudah ada. Pada penelitian ini jenis jarak terdekat yang digunakan yaitu cosine similarity pada persamaan 19. 3. Mengurutkan objek-objek tersebut ke dalam kelompok yang mempunyai jarak terkecil. 4. Mengumpulkan kategori Y klasifikasi nearest neighbor. 5. Dengan menggunakan kategori mayoritas, maka dapat diprediksikan nilai query instance yang telah dihitung, kemudian tentukan jarak tetangga terdekat yang akan digunakan sebagai nilai prediksi dari data berikutnya. Zee-Jing Hsien-Wu, 2004 2.4.3. Kelebihan K-Nearest Neighbor K-NN Kelebihan dari metode K-Nearest Neighbor ini adalah sebagai berikut Gorunescu, 2011: 1. Lebih efektif di data training yang besar 2. Dapat menghasilkan data yang lebih akurat 3. Metode yang baik dalam hal ruang pencarian, misalnya, kelas tidak harus linear dipisahkan. 4. Sangat cocok terhadap training data yang noise. 2.4.4. Kelemahan K-Nearest Neighbor K-NN Kekurangan dari metode K-Nearest Neighbor ini adalah perlu ditentukan nilai k yang paling optimal yang menyatakan jumlah tetangga terdekat. Gorunescu, 2011

2.5. K-Fold Cross Validation

Pada ukuran kinerja dari model pada test set sering kali berguna karena ukuran tersebut memberikan estimasi yang tidak bias dari error generalisasinya. Akurasi dari tingkat error yang dihitung dari test set dapat juga digunakan untuk membandingkan kinerja relatif dari classifier - classifier pada domain yang sama. Berikut adalah metode yang digunakan untuk mengevaluasi kinerja classifier . Ian et al , 2011 Universitas Sumatera Utara Dalam pendekatan cross-validation , setiap record digunakan beberapa kali dalam jumlah yang sama untuk training dan tepat sekali untuk testing. Untuk mengilustrasikan metode ini, anggaplah mempartisi data ke dalam dua subset yang berukuran sama. Pertama, dipilih satu dari kedua subset tersebut untuk training dan satu lagi untuk testing. Kemudian dilakukan pertukaran fungsi dari subset sedemikian sehingga subset yang sebelumnya sebagai training set menjadi test set demikian sebaliknya. Pendekatan ini dinamakan two-fold cross validation. Total error diperoleh dengan menjumlahkan error untuk kedua proses tersebut. Dalam contoh ini, setiap record digunakan tepat satu kali untuk training dan satu kali untuk testing. Metode k-fold cross validation mengeneralisasi pendekatan ini dengan mensegmentasi data ke dalam k partisi berukuran sama. Selama proses, salah satu dari partisi dipilih untuk testing, sedangkan sisanya digunakan untuk training . Prosedur ini diulangi k kali sedemikian sehingga setiap partisi digunakan untuk testing tepat satu kali. Total error ditentukan dengan menjumlahkan error untuk semua k proses tersebut. Kasus khusus untuk metode k-fold cross validation menetapkan k = N, ukuran dari data set . Auria Moro, 2008 Dalam k-fold cross validation , yang disebut juga dengan rotation estimation, dataset yang utuh di pecah secara random menjadi „k‟ subset dengan size yang hampir sama dan saling eksklusif satu sama lain. Model dalam classification‟ di-latih dan di-test sebanyak „k‟ kali. Setiap kali pelatihan semua dilatih pada semua fold kecuali hanya satu fold saja yang disisakan untuk pengujian. Penilaian cross-validation terhadap akurasi model secara keseluruhan dihitung dengan mengambil rata- rata dari semua hasil akurasi individu „k‟, seperti yang ditunjukkan dengan persaman berikut: CVA = I 20 Dimana CVA adalah akurasi cross-validation, k adalah jumlah fold yang digunakan, dan A adalah ukuran akurasi misalnya, hit-rate, sensitivitas, specifity dari masing-masing fold. Metode ini merupakan evaluasi standard yaitu stratified 10-fold cross-validation karena menunjukkan bahwa 10-fold cross-validation adalah pilihan terbaik untuk mendapatkan hasil validasi yang akurat, 10-fold cross-validation akan mengulang pengujian sebanyak 10 kali dan hasil pengukuran adalah nilai rata-rata dari 10 kali pengujian. Keuntungan metode ini, menghindari overlapping pada data testing. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set . Kekurangan dari pendekatan ini adalah banyaknya komputasi untuk mengulangi prosedur sebanyak N kali. Gorunescu, 2011 Universitas Sumatera Utara

2.6. Riset Terkait