2.4.2. Algoritma K-NN untuk Menganalisis Dokumen Web
Berikut ini adalah langkah-langkah menghitung
K-Nearest Neighbors
pada dokumen : 1.
Tentukan paremeter k sebagai jumlah tetangga terdekat, dalam sistem ini digunakan k=1, sehingga jika ada tetangga terdekat, itu yang akan digunakan sebagai nilai prediksi.
2. Hitung jarak antara data yang masuk dan semua sampel latih yang sudah ada. Pada
penelitian ini jenis jarak terdekat yang digunakan yaitu
cosine similarity
pada persamaan 19.
3. Mengurutkan objek-objek tersebut ke dalam kelompok yang mempunyai jarak terkecil.
4. Mengumpulkan kategori Y klasifikasi nearest neighbor.
5. Dengan menggunakan kategori mayoritas, maka dapat diprediksikan nilai
query instance
yang telah dihitung, kemudian tentukan jarak tetangga terdekat yang akan digunakan sebagai nilai prediksi dari data berikutnya. Zee-Jing Hsien-Wu, 2004
2.4.3. Kelebihan K-Nearest Neighbor K-NN
Kelebihan dari metode
K-Nearest Neighbor
ini adalah sebagai berikut Gorunescu, 2011: 1.
Lebih efektif di data training yang besar 2.
Dapat menghasilkan data yang lebih akurat 3.
Metode yang baik dalam hal ruang pencarian, misalnya, kelas tidak harus linear dipisahkan.
4. Sangat cocok terhadap training data yang
noise.
2.4.4. Kelemahan K-Nearest Neighbor K-NN
Kekurangan dari metode
K-Nearest Neighbor
ini adalah perlu ditentukan nilai k yang paling optimal yang menyatakan jumlah tetangga terdekat. Gorunescu, 2011
2.5. K-Fold Cross Validation
Pada ukuran kinerja dari model pada
test set
sering kali berguna karena ukuran tersebut memberikan estimasi yang tidak bias dari
error
generalisasinya. Akurasi dari tingkat
error
yang dihitung dari
test set
dapat juga digunakan untuk membandingkan kinerja relatif dari
classifier
-
classifier
pada domain yang sama. Berikut adalah metode yang digunakan untuk mengevaluasi kinerja
classifier
. Ian
et al
, 2011
Universitas Sumatera Utara
Dalam pendekatan
cross-validation
, setiap
record
digunakan beberapa kali dalam jumlah yang sama untuk
training
dan tepat sekali untuk testing. Untuk mengilustrasikan metode ini, anggaplah mempartisi data ke dalam dua
subset
yang berukuran sama. Pertama, dipilih satu dari kedua
subset
tersebut untuk
training
dan satu lagi untuk testing. Kemudian dilakukan pertukaran fungsi dari
subset
sedemikian sehingga
subset
yang sebelumnya sebagai
training set
menjadi
test set
demikian sebaliknya. Pendekatan ini dinamakan two-fold cross validation. Total
error
diperoleh dengan menjumlahkan
error
untuk kedua proses tersebut. Dalam contoh ini, setiap
record
digunakan tepat satu kali untuk
training
dan satu kali untuk testing. Metode
k-fold cross validation
mengeneralisasi pendekatan ini dengan mensegmentasi data ke dalam k partisi berukuran sama. Selama proses, salah satu dari partisi
dipilih untuk testing, sedangkan sisanya digunakan untuk
training
. Prosedur ini diulangi k kali sedemikian sehingga setiap partisi digunakan untuk testing tepat satu kali. Total
error
ditentukan dengan menjumlahkan
error
untuk semua k proses tersebut. Kasus khusus untuk metode
k-fold cross validation
menetapkan k = N, ukuran dari
data set
. Auria Moro, 2008
Dalam
k-fold cross validation
, yang disebut juga dengan rotation estimation, dataset yang utuh di pecah secara random menjadi „k‟ subset dengan size yang hampir sama dan
saling eksklusif satu sama lain. Model dalam classification‟ di-latih dan di-test sebanyak „k‟
kali. Setiap kali pelatihan semua dilatih pada semua fold kecuali hanya satu fold saja yang disisakan untuk pengujian. Penilaian cross-validation terhadap akurasi model secara
keseluruhan dihitung dengan mengambil rata- rata dari semua hasil akurasi individu „k‟,
seperti yang ditunjukkan dengan persaman berikut: CVA =
I
20 Dimana CVA adalah akurasi cross-validation, k adalah jumlah fold yang digunakan, dan A
adalah ukuran akurasi misalnya, hit-rate, sensitivitas, specifity dari masing-masing fold. Metode ini merupakan evaluasi standard yaitu stratified 10-fold cross-validation
karena menunjukkan bahwa 10-fold cross-validation adalah pilihan terbaik untuk mendapatkan hasil validasi yang akurat, 10-fold cross-validation akan mengulang pengujian
sebanyak 10 kali dan hasil pengukuran adalah nilai rata-rata dari 10 kali pengujian. Keuntungan metode ini, menghindari
overlapping
pada data testing.
Test set
bersifat mutually exclusive dan secara efektif mencakup keseluruhan
data set
. Kekurangan dari pendekatan ini adalah banyaknya komputasi untuk mengulangi prosedur sebanyak N kali. Gorunescu, 2011
Universitas Sumatera Utara
2.6. Riset Terkait