K-Nearest Neighbor KNN TINJAUAN PU STAKA

12

E. K-Nearest Neighbor KNN

K-tetangga terdekat atau K-nearest neighbor KNN merupakan metode klasifikasi yang memasukkan data ke dalam mayoritas kelas dari k tetangga terdekatnya dengan k adalah sebuah parameter Manning, 2008. Seperti halnya decision tree, K-Nearest Neighbor sangat sering digunakan dalam klasifikasi dengan tujuan dari algoritme in adalah untuk mengklasifikasi objek baru berdasarkan atribut dan training samples Larose, 2002. Algoritma KNN sendiri adalah suatu algoritma yang sederhana, namun cukup efektif dalam melakukan kategorisasi teks Ramadan, 2006 . Pengelompokan suatu data baru berdasarkan jarak data baru itu ke bebrapa datatetangga neighbor. Dalam hai ini jumlah datatetangga terdekat ditentukan oleh user yang dinyatakan dengan k. Misalkan ditentukan k=5, maka setiap data testing dihitung jaraknya terhadap data training dan dipilih 5 data training yang jaraknya paling dekat ke data testing. Lalu periksa output atau labelnya masing-masing, kemudian tentukan output mana frekuensinya paling banyak. Lalu masukkan suatu data testing ke kelompok dengan output paling banyak. Misalkan dalam kasus klasifikasi dengan 3 kelas, lima data tadi terbagi atas tiga data dengan output kelas 1, satu data dengan output kelas 2 dan satu data dengan outpit kelas 3, maka data baru tadi dapat dikelompokkan ke dalam kelas 1. Prosedur ini dilakukan untuk semua data testing Santosa, 2007. Untuk mendefinisikan jarak antara dua titik yaitu titik pada data training x dan titik pada data testing y maka digunakan rumus Euclidean : 5 Jarak antara titik pada data training x dan titik pada data testing y disimbolkan dengan d, dimana x=x1,x2,...,xi dan y=y1,y2,...,yi dan I merepresentasikan nilai atribut serta n merupakan dimensi atribut Han dan Kember, 2001. Algoritma ini selain memiliki kelebihan seperti tangguh terhadap training data yang noisy dan efektif apabila training data yang besar, juga mempunyai beberapa kekurangan diantaranya perlu ditentukan nilai k yang paling optimal yang menyatakan jumlah tetangga terdekat dan biaya komputasi cukup tinggi karena perhitungan jarak harus dilakukan pada setiap query instance bersama-sama dengan seluruh istan dari training sample. Gambar 6. Ilustrasi teknik klasifikasi KNN Fukunaga, 1997 Pada Gambar 6, diilustrasikan teknik klasifikasi KNN. Terdapat tida kelas, yaitu w 1 , w 2 , dan w 3 , serta x u yang merupakan vektor yang belum diketahui kelasnya. Kemudian dipilih lima tetangga 13 terdekat k=5. Setelah dipilih lima tetangga terdekat, dihitung kelas terbanyak pada tetangga terdekat tersebut. Pada Gambar 6 dapat dilihat terdapat satu tetangga terdekat x u yang berada pada kelas w 2 dan empat lainnya berada pada kelas w 1 . Berdasarkan jumlah kelas terbanyak pada tetangga terdekat, maka x u berada pada kelas w 1 . Terdapat beberapa jenis algoritma pencarian tetangga terdekat, yaitu : linear scan, pohon kd, pohon balltree, pohon metric, dan locally-sensitive hashing LSH. Nilai k yang terbaik untuk algoritma ini tergantung pada data, secara umum nilai k yang tinggi akan mengurangi efek noise pada klasifikasi, tetapi membuat batasan antara setiap klasifikasi menjadi lebih kabur. Nilai k yang bagus dapat dipilih dengan optimasi parameter, misalnya dengan menggunakan cross-validation. Prabawa 2006 melakukan penelitian tentang Precision Farming yang diterapkan dalam pemupukan N, P, dan K pada budidaya tebu. Model hubungan antara input hasil tebu serta kadar gula dengan dosis pupuk yang diinginkan diformulasikan dengan artificial neural network seperti ditunjukkan pada Gambar 7. input layer hidden layer output layer Gambar 7. Konfigurasi model neural network untuk pemupukan pertama pada budidaya tebu Prabawa, 2006

F. PRINSIP KERJA KAMERA