K-Nearest Neighbor Pengujian 3 Fold Cross Validation

2.7. K-Nearest Neighbor

Teknik ini termasuk dalam kelompok klasifikasi nonparametic. Di sini kita tidak memperhatikan distribusi dari data yang ingin kita kelompokan. Teknik ini sangat sederhana dan mudah diimplementasikan. Mirip dengan teknik klastering, kita mengelompokan suatu data baru berdasarkan jarak data baru itu ke beberapa data tetangga terdekat ditentukan oleh user yang dinyatakan dengan k Santosa, 2007. Prinsip sederhana yang diadopsi oleh algori tma NN adalah “Jika suatu hewan berjalan seperti bebek, bersuara kwek-kwek seperti bebek, dan penampilannya seperti bebek, maka hewan itu mungkin bebek” Prasetyo, 2014. Gambar 2.6 K-NN dengan Nilai K Tetangga; a1-NN; b3-NN; c5-NN; d7- NN Gambar 2.6 menunjukan jumlah tetangga yang paling dekat yang dapat dimuat dalam rentang nilai k yang telah ditentukan. Gambar a menunjukan 1 tetangga terdekat, gambar b 3 tetangga terdekat, gambar c 5 tetangga terdekat, dan PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI gambar d 7 tetangga terdekat. Untuk menetukan jarak tetangga terdekat dalam terdapat berbagai macam cara salah satunya adalah dengan pendekatan euclidean distance . Pendekatan euclidean distance dapat dinyatakan dengan persamaan berikut: � , = || − || = √∑ − � = Keterangan: n = jumlah dimensi x i dan y i = data Setelah mendapatkan jarak untuk setiap data yang ada, kemudian dilakukan sorting. Metode sorting yangdigunakan adalah quicksort. Sorting yang digunakan pada metode ini adalah fungsi sorting dari matlab yaitu sortrows. Penentuan nilai K dalam klasifikasi Nearest Neighbor merupakan bagian yang sangat penting dalam menentukan keakuratan hasil. Nilai K yang terlalu kecil maka berakibat hasil prediksi yang didapat bisa sensitif terhadap keberadaan noise. Di sisi lain, jika K terlalu besar maka tetangga terdekat yang terpilih mungkin sebenarnya tidak relevan karena jarak yang terlalu jauh Prasetyo, 2014

2.8. Pengujian 3 Fold Cross Validation

Pengujian 3 fold cross validation atau secara umum lebih dikenal dengan k-fold cross validation adalah metode yang digunakan untuk mengukur tingkat kevalidan atau akurasi dari suatu dataset. Dalam 3 fold, nilai k yang digunakan adalah 3. Artinya dataset akan dibagi kedalam tiga kelompok data. Ketiga kelompok data ini yang akan digunakan dalam iterasi dalam menghitung akurasi. Dimana setiap iterasi komposisi data adalah satu kelompok data akan menjadi data testing dan sisanya akan menjadi data training. Iterasi yang akan dilakukan sebanyak k kali atau tiga kali. 2.5 Gambar 2.7 Membagi dataset kedalam 3 kempok data Dari Gambar 2.7 dapat dilihat pembagian data set menjadi tiga kelompok data. Jumlah data dibagi rata untuk setiap kelompok datanya. Misal data set sebanyak 30 data, maka tiap kelompok data akan berisikan 10 kelompok data. Dengan ketiga kelompok data ini akan dilakukan iterasi sebanyak 3 kali untuk mendapatkan akurasi. Tabel 2.1 Komposisi data testing dan training saat iterasi Iterasi Data testing Data training Iterasi 1 Kelompok 1 Kelompok 2 + Kelompok 3 Iterasi 2 Kelompok 2 Kelompok 1 + Kelompok 3 Iterasi 3 Kelompok 3 Kelompok 1 + Kelompok 2 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 16

BAB III METODOLOGI PENELITIAN

Pada bab ini akan berisi gambaran umum teknis persoalan penelitian, data yang akan diolah dalam penelitian, alat yang akan dipergunakan dalam proses penelitian, dan keterangan rinci tahap-tahap penelitian.

3.1. Data

Data yang digunakan dalam penelitian ini adalah data citra retina. Proses pengambilan citra menggunakan kamera fundus. Format dari data citra fundus retina adalah JPG. a b Gambar 3.1 Citra Fundus retina; a Healthy; b Glaukoma sumber: https:www5.cs.fau.deresearchdatafundus-images Gambar 3.1 adalah citra dari fundus retina yang belum mengalami tahapan preprocessing, Dimensi data adalah 3504 x 2336. Gambar 3.1 a menunjukan retina yang sehat, sedangkan yang b menunjukan retina yang terserang glaukoma. Jumlah data yang telah terkumpulkan masing-masing 15 data untuk citra fundus retina sehat dan 15 data untuk citra fundus retina glaukoma. Data dikumpulkan dari sumber internet High-Resolution Fundus HRF Image Database. Penamaan citra menggunakan angka 1-30. Citra 1-15 merupakan citra glaukoma, dan citra 16-30 merupakan citra normal. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI