Pembentukan Prototype Data Dengan Metode K-Means Untuk Klasifikasi dalam Metode K- Nearest Neighbor (K-NN)

  

Pembentukan Prototype Data Dengan Metode

K-Means Untuk Klasifikasi dalam Metode K-

Nearest Neighbor (K-NN) Khairul Umam Syaliman

  Magister Teknik Informatika Fasilkom - TI USU

  Adli Abdillah Nababan

  Magister Teknik Informatika Fasilkom - TI USU

  Nadia Widari Nasution

  Magister Teknik Informatika Fasilkom - TI USU

  Abstrak

Metode K-Nearest Neighbor (K-NN) adalah metode klasifikasi yang sederhana. K-NN menentukan kelas

suatu data berdasarkan mayoritas label dari K tetangga terdekat untuk mengklasifikasikan data tersebut. Permasalahan yang sering terjadi dalam metode ini adalah menentukan nilai K yang paling baik untuk digunakan dalam klasifikasi. Selain nilai K, model jarak yang digunakan untuk menghitung kedekatan data juga menjadi hal yang penting untuk diperhatikan. Karena termasuk dalam lazy learner, dalam mengklasifikasikan data yang baru K-NN akan menghitung kemiripan data baru keseluruh basis pengetahuna yang mengakibatkan proses klasifikasi menjadi lama. Untuk mengatasi permasalah tersebut, dalam penelitian ini penulis menciptakan prototype data dari setiap class data dengan menggunakan algoritma K-Means. Model jarak yang digunakan adalah Euclidean dengan nilai lamda 3. Penelitian ini berfokus pada pembentukan prototype data berdasarkan banyaknya data yang dapat diklasifikasikan. Kata kunci : klasifikasi, K-Means, K-Nearest Neighbor, prototype data, Euclidean

I. BELAKANG LATAR

  Meski K-NN tergolong metode yang sederhana K-Nearest Neighbor adalah metode untuk dan mudah, K-NN tetap termasuk salah satu dalam melakukan klasifikasi objek berdasarkan data top 10 algorithm[3]. Meskipun begitu K-NN juga pembelajaran yang terletak paling dekat dengan memiliki masalah yang menarik untuk objek[1]. K-NN diperkenalkan pertama kali pada didiskusikan, antara lain adalah pemilihan K yang awal tahun 1950-an[2]. paling sesuai untuk mengklassifikasikan suatu data. Hal ini dikarenakan metode ini hanya mengandalkan label mayoritas dari K tetangga terdekat.

  Dalam mencari tetangga terdekat K-NN menggunakan model jarak, ada beberapa model jarak yang sering digunakan, antara lain manhattan, euclidean, dan lain-lain.

  Menentukan parameter k 2. Menghitung jarak antara data yang akan dievaluasi dengan semua pelatihan

  K-Means K-means untuk clustering menggunakan metrik jarak untuk menemukan yang tetangga terdekat dan sebagian besar jarak Euclidean telah digunakan.

  Keterangan: x1 = Sampel data x2 = Data uji atau data testing i = Variabel data d = Jarak p = Dimensi data c.

  2 ) (

  1

  2

  1

    p i i i i x x d

   

  Menentukan jarak terdekat sampai urutan k 5. Memasangkan kelas yang bersesuaian 6. Mencari jumlah kelas dari tetangga yang terdekat dan tetapkan kelas tersebut sebagai kelas data yang akan dievaluasi

  3. Mengurutkan jarak yang terbentuk 4.

  Langkah-langkah untuk menghitung metode K- Nearest Neighbor antara lain: 1.

  Dari beberapa model jarak yang dapat digunakan, model jarak euclidean menjadi model jarak yang paling sering digunakan, karena model jarak euclidean cocok untuk menentukan jarak terdekat (lurus) antara dua data[1]. Dalam penelitian kali ini akan dilakukan perhitungan dengan model jarak Euclidean.

  Algoritma K- Nearest Neighbor menggunakan klasifikasi ketetanggaan (neighbor) sebagai nilai prediksi dari query instance yang baru. Algoritma ini sederhana, bekerja berdasarkan jarak terpendek dari query instance ke training sample untuk menentukan ketetanggaannya [4].

  K-NN termasuk algoritma supervised learning dimana hasil dari query instance yang baru diklasifikan berdasarkan mayoritas dari kategori pada K-NN. Kelas yang paling banyak muncul itu yang akan menjadi kelas hasil klasifikasi. Tujuan dari algoritma ini adalah mengklasifikasikan objek baru berdasarkan atribut dan training sample.

  K-Nearest Neighbor K-Nearest Neighbor (K-NN) merupakan sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut.

  b.

  Proses klasifikasi menggunakan metode K- Nearest Neighbor (K-NN) dan K-Means untuk clustering.

  Menurut Sulistyo Basuki, klasifikasi adalah proses pengelompokan/ pengumpulan benda atau entitas yang sama, serta memisahkan benda atas entitas yang tidak sama.

  Klasifikasi Secara harfiah, klasifikasi adalah pembagian sesuatu menurut kelas-kelas.

  Mengatasi kekurangan tersebut penelitian kali ini mencoba melakukan modifikasi sebelum melakukan klasifikasi dalam metode K-NN dengan menggunakan metode clustering K-Means yang bertujuan untuk menciptakan prototype data yang diharapkan dapat mewakali data dari setiap class data. Dimana gabungan dari dua algoritma ini selanjutnya disebut dengan K-MeansNN.

  Karena termasuk kedalam Algoritma lazy learner, K-NN dalam pengklasifikasiannya akan menghitung jarak data baru ke seluruh data latih, yang mengakibatkan proses klasifikasi menjadi relative lebih lama.

  Pemilihan nilai K yang besar dapat mengakibatkan distorsi data yang besar pula, hal ini disebabkan karena setiap tetangga memiliki bobot yang sama terhadap data uji, sedangkan nilai K yang terlalu kecil bisa menyebabkan algoritma terlalu sensitive terhadap noise.

  Selain model jarak, pemilihan jumlah K juga menjadi permasalahan dalam algoritma ini. Maka dari itu, untuk mempermudah dan memfokuskan tujuan penelitian ini jumlah K yang akan digunakan untuk melakukan pengujian dimulai dari K=1 sampai K=10.

II. TINJAUAN PUSTAKA a.

  Fungsi objektif K-Means dapat direpresentasikan sebagai berikut:

  k n ( ) √∑

  2 j

  Jxc i j

   j 1 i

  Pengukuran jarak pada ruang jarak Manhattan menggunakan formula : Algoritma K-Means 1.

  1  

  Tetapkan jumlah awal centroid secara acak ( ) ∑ atau berurutan

2. Hitung jarak antara setiap titik data dan cluster

  Pengukuran jarak pada ruang jarak Chebyshev pusat menggunakan formula : 3. Ulangi:

  Tetapkan titik data jarak minimum ke cluster ( )

  √∑ pusat yang jaraknya minimum untuk titik itu. Pengukuran jarak pada ruang jarak Minkowsky 4. Hitung ulang cluster center dengan menggunakan formula : menggunakan:

  m 1 i

  mewakili jumlah data

  cx ( i ); m i i j

  1  

  ( ) √∑

  m i

  poin dalam (i) cluster 5. Menghitung ulang jarak antara setiap titik data

  D adalah jarak antara data x dan y, N adalah dan pusat cluster yang baru didapat jumlah fitur (dimensi) data. adalah parameter sampai:

  Tidak ada titik data yang ditugaskan jarak Minkowsky, secara umum Minkowsky kembali. adalah generalisasi dari Euclidean dan Manhattan. merupakan parameter penentu, jika nilai λ = 1 maka ruang jarak Minkowsky sama dengan d.

  Model Jarak Manhattan, dan jika λ = 2 ruang jaraknya sama

  Model Jarak digunakan untuk menghitung dengan Euclidean[6 ] dan jika λ= ∞ sama dengan jumlah kemiripan atau kedekatan suatu data. ruang jarak Chebyshev[7]. Umam dan Labellapansa melakukan analisis terhadap model jarak Minkowski untuk menentukan jurusan yang tepat pada sekolah

  III.HASIL DAN PEMBAHASAN

  tinggi dengan nilai lamda 1, 2 dan 3. Jumlah data a.

  Data Yang Digunakan yand digunakan adalah 500 data dengan nilai Dalam penelitian ini menggunakan dua data set lamda yang paling akurat adalah lamda 1[8]. yang diunduh dari UCI Repository Data Set. Data

  Ause Labellapansa dkk melakukan penelitian yang pertama adalah berupa data iris dan data untuk menentukan penyakit Schizophrenia dengan yang kedua berupa data wine. menggunakan model jarak minkowski dengan nilai

  Setiap data dibagi menjadi dua, yaitu data latih lamda 1, 2, dan 3. Hasil yang didapati dari sebesar 80% dan data uji sebesar 20%. Data penelitian ini adalah saat lamda bernilai 3 hasil tersebut akan digunakan untuk menguji gabungan prediksi lebih akurat dari lamda yang bernilai 1 metode K-means dan K-NN. dan 2 [9].

  Jumlah masing-masing data subset dapat Ada banyak model pengukuran jarak, dan yang dilihat pada table dibawah ini : paling sering digunkan antara lain model jarak Euclidea, Manhattan, Chebyshev, dan

  Tabel 1. Jumlah Setiap Data Subset Minkowsky[1].

  Data Pengukuran jarak pada ruang jarak Euclidean

  Latih Uji Total Subset menggunakan formula :

  Iris 120 30 150 Wine 142 36 178

  Tabel 2. Detail Sebaran Data Latih Iris Setiap Class centroid akhir yang didapati dari algoritma K- Iris- Iris-

  Virginica Total Setosa Versicolor Means sebagai prototype data dengan algoritma K- NN konvensional.

  40

  40 40 120 Tahapan proses K-MeansNN dapat dilakukan

  Tabel 3. Detail Sebaran Data Latih Wine Setiap Class

  dengan mengikuti langkah-langkah sebagai berikut. Class 1 Class 2 Class 3 Total

   Pembentukan prototype data :

  42

  58 42 142 Langkah 1 : Tentukan banyak cluster (K) Langkah 2 : Untuk setiap kelompok data (Ci)

  Adapun sebaran data untuk setiap data latih tentukan titik pusat cluster pada setiap data set dapat dilihat pada gambar sebanyak K dibawah ini :

  Langkah 3 : Hitung jarak antara setiap data ke pusat cluster dengan menggunakan model jarak euclidean

  Langkah 4 : Kelompokkan data ke cluster terdekat Langkah 5 : Hitung pusat cluster baru Langkah 6 : Lakukan Langkah 3 sampai

  Langkah 6 hingga konvergen  Klasifikasi data uji : Langkah 7 : Hitung jarak antara data baru ke setiap pusat cluster pada setiap kelompok data (Ci) menggunakan model jarak Euclidean Langkah 8 : Urutkan data dari pusat cluster berdasarkan jarak terdekat

  Gambar 1. Sebaran Data Iris

  Langkah 9 : Jadikan kelompok mayoritas menjadi kelompok untuk data baru Langkah 10 : Lakukan langkah 7 sampai 9 untuk seluruh data uji

  Secara sederhana, apabila dibandingkan antara algoritma K-MeansNN dan K-NN konvensional terletak pada pembelajaran dan klasifikasinya. Pada K-NN konvensional, algoritma tersebut tidak melakukan pembelajaran sama sekali.

  Sedangkan K-MeansNN akan melakukan pembelajaran sehingga membentuk prototype data, dimana prototype data tersebut didapati dari pusat cluster pada setiap kelompok data.

  Perbedaan dalam melakukan klasifikasinya, K- MeansNN hanya akan menghitung jarak sebanyak Ci x K untuk setiap data yang akan diklasifikasi.

  Gambar 2. Sebaran Data Wine

  Sedangkan K-NN akan menghitung keseluruh data latih untuk setiap data baru.

  b.

  Proses K-MeansNN Dalam penelitian ini, penulis menggunakan nilai K=1 sampai K=10 dengan model jarak

  Untuk melihat apakah pembentukan prototype euclidean. Dengan mengikuti langkah-langkah ini berhasil atau tidak, maka akan dilihat pada bagian III (B), maka perbandingan akurasi berdasarkan perbandingan hasil klasifikasi yang dilakukan algoritma K-NN berdasarkan nilai pada kedua algoritma dapat dilihat pada tabel dibawah ini :

  Tabel 4. Perbandingan Akurasi Pada data Uji Iris

  Grafik perbandingan akurasi pada data uji iris dapat dilihat pada gambar berikut:

  K- MeansNN

  Rata- rata 75.28% 72.78%

  Total 752.78 727.78 K- MeansNN

  MeansNN 6 75.00% 69.44% K- MeansNN 7 77.78% 69.44% K- MeansNN 8 72.22% 69.44% K- MeansNN 9 77.78% 69.44% K- MeansNN 10 80.56% 72.22% K- MeansNN

  MeansNN 4 69.44% 72.22% K-NN 5 80.56% 72.22% K-

  Terbaik 1 75.00% 80.56% K-NN 2 66.67% 80.56% K-NN 3 77.78% 72.22% K-

  K-MeansNN K-NN Algoritma

  Jumlah K

  Tabel 5. Perbandingan Akurasi Pada data Uji Wine

  Perbandingan akurasi untuk data uji wine dapat dilihat pada tabel dibawah ini :

  Gambar 3. Akurasi K-MeansNN dan K-NN

  K- MeansNN

  Jumlah K

  Rata- rata 94.33% 93.33%

  Total 943.33% 933.33% K- MeansNN

  MeansNN, K-NN

  MeansNN, K-NN 10 93.33% 93.33% K-

  MeansNN, K-NN 9 93.33% 93.33% K-

  MeansNN, K-NN 8 93.33% 93.33% K-

  MeansNN, K-NN 7 93.33% 93.33% K-

  MeansNN, K-NN 6 93.33% 93.33% K-

  MeansNN 4 96.67% 93.33% K- MeansNN 5 93.33% 93.33% K-

  MeansNN, K-NN 3 96.67% 93.33% K-

  Terbaik 1 96.67% 93.33% K- MeansNN 2 93.33% 93.33% K-

  K-MeansNN K-NN Algoritma

  Grafik perbandingan akurasi pada data uji wine dapat dilihat pada gambar berikut :

  • – 1173 [5] Zhang, H and Guan, X. 2017. Iris Recognition Based on Grouping KNN and Rectangle Conversion. International Journal of IEEE Xplorer.

  Gambar 4. Akurasi K-MeansNN dan K-NN IV. KESIMPULAN

  Berdasarkan hasil penelitian dapat dilihat dari tabel dan gambar grafik akurasi yang telah dipaparkan maka dapat disimpulkan bahwa algoritma K-Means dapat digunakan sebagai suatu cara untuk menciptakan prototype data yang pada akhirnya prototype data tersebut dapat digunakan untuk melakukan klasifikasi dalam algoritma K- NN.

  Pengujian dengan menggunakan data subset iris, diperoleh bahwa K-MeansNN berhasil mendapati nilai akurasi lebih tinggi saat nilai K=1 dengan nilai akurasi 96.67%, K=3 dengan nilai akurasi 96.67%, dan K=4 dengan nilai akurasi 96.67%, selebihnya nilai akurasi yang didapati oleh kedua algoritma adalah sama, sebesar 93.33%. Sedangkan pengujian dengan menggunakan data subser wine, diperoleh bahwa K-NN memiliki nilai akurasi yang tinggi saat nilai K=1 dengan nilai akurasi 80.56%, K=2 dengan nilai akurasi 80.56% dan K=4 dengan nilai akurasi 72.22%, selebihnya K-MeansNN mendapati nilai akurasi yang lebih tinggi.

  [1] Prasetyo, Eko. 2012. DATA MINING- Konsep dan Apliksai Menggunakan MATLAB. Andi Offset: Yogyakarta. [2] Han, Jiawei ; Kamber, Micheline. 2007. Data Mining: Concepts and Techniques. Elsevier.

  [3] Xindong, Wu., Vipin Kumar. 2009. The Top Ten Algorithms in Data Mining . Taylor & Francis Group.

  United States of America.

  [4] Rizal Yepriyanto, dkk. Sistem Diagnosa Kesuburan Sperma Dengan Metode K-Nearest Neighbor (K-NN).

  Jurnal Ilmiah SINUS ISSN : 1693

  [6] Mergio, J.M., dan Casanovas, M., 2008, The Induced Minkowski Ordered Weighted Averaging Distance Operator, ESTYLF08, Cuencas Mineras (Mieres- Langreo), Congreso Espanol sobre Tecnologiasy Logica Fuzzy, pp 35-41. [7] Rao, M.K., Swamy, K.V., seetha, K.A., dan Mohan, B.C., 2012, Face Recognition Using Different Local

  Feature with Different Distance Techniques, International Journal of Computer Science, Engineering and Information Technology (IJCSEIT), Vol.2, No.1, pp 67-74, DOI: 10.5121/ijcseit.2012.2107

  [8] Bin Lukman, Khairul Umam Syaliman, and Ause Labellapansa. "Analisa Nilai Lamda Model Jarak Minkowsky Untuk Penentuan Jurusan SMA (Studi Kasus di SMA Negeri 2 Tualang)." Jurnal Teknik Informatika dan Sistem Informasi 1.2 (2015). [9] Ause Labellapansa etc., 2016, Lambda Value Analysis on Weighted Minkowski Distance Model in CBR of

  Schizophrenia Type Diagnosis, Fourth International Conference on Information and Communication Technologies (ICoICT)