Kata kunci: Cosine Similarity,

Intisari

  Jumlah berita online semakin hari semakin meningkat. Hal ini akan menyulitkan editor berita

dalam mengkategorikan dokumen berita secara manual. Oleh karena itu, dibutuhkan proses

pengkategorian berita secara otomatis menggunakan klasifikasi. Klasifikasi adalah salah satu bagian

dari data mining yang digunakan untuk menentukan kelas dari suatu objek yang belum diketahui

kelasnya. Salah satu metode klasifikasi adalah K-Nearest Neighbor (K-NN), yaitu metode untuk

menghitung jarak terdekat dari dua buah objek kemudian mengelompokan objek yang berdekatan ke

dalam satu kelas. Pada penelitian ini, dilakukan perbandingan metode untuk menghitung jarak

  2

dokumen terdekat yaitu Cosine Similarity dan pada klasifikasi menggunakan metode K-

istance NN.

  Dari dari penelitian yang telah dilakukan, metode Cosine Similarity memberikan hasil yang

  2 lebih baik daripada metode ℓ istance. Nilai precision terbesar untuk metode Cosine Similarity

  2 adalah 0.97 dan nilai recall sebesar 0.97. Sementara itu, untuk metode ℓ istance, nilai precision yang didapatkan yaitu 0.81 dan nilai recall sebesar 0.41.

  Kata kunci: Cosine Similarity, distance, K-Nearest Neighbor, dan Klasifikasi Dokumen.

Abstract

  The number of online news is increasing day by day. It is not easy for the news editor to

categorize the news article manually. Therefore, an automatic news category classifier is needed.

Classification is a part of data mining that is used to determine the class of unclassified object. One

of the classification methods is K-Nearest Neighbor (K-NN), which is a method to calculate the

distance between two objects and put the objects whose closest distance into one class. In this

  2 research, two distance calculation methods, Cosine Similarity and ℓ distance are compared in classification using K-NN.

  2 My experimental results show that Cosine similarity outperforms the ℓ distance. With the

  2 precision and recall for Cosine Similarity are 0.97 and 0.97 respectively. For the ℓ distance, it reaches 0.81 and 0.41 respectively.

  Key words: Cosine Similarity, distance, K-Nearest Neighbor, and document classification.

  

Klasifikasi Berita Menggunakan Metode K-

Nearest Neighbor (K-NN)

(News Classification using K-Nearest Neighbor (K-NN))

  Pada penelitian ini, input nilai k memiliki pengaruh penting dalam proses klasifikasi. Jika nilai k yang dipilih sangat kecil, maka kategori dokumen uji hanya bergantung pada beberapa dokumen latih sehingga belum mewakili karakteristik data secara general. Akibatnya pemilihan dokumen yang menjadi data latih akan sangat mempengaruhi hasil klasifikasi. Hasil penelitian ini memperoleh nilai akurasi tertinggi yaitu 95% dengan kesalahan klasifikasi 5% pada 3 fold dengan k=4.

  mendapatkan hasil terbaik dalam melakukan perhitungan jarak dokumen.

  2 distance untuk

  ℓ

  Baiq Pratiwi Komalasari [1]

  Key words: Document classification, k-NN, VSM, Cosine

  istance. With the precision and recall for

  My experimental results show that Cosine similarity outperforms the

  istance are compared in classification using K-NN.

  Abstract The number of online news is increasing day by day. It is not easy for the news editor to categorize the news article manually. Therefore, an automatic news category classifier is needed. Classification is a part of data mining that is used to determine the class of unclassified object. One of the classification methods is K-Nearest Neighbor (K-NN), which is a method to calculate the distance between two objects and put the objects whose closest distance into one class. In this research, two distance calculation methods, Cosine Similarity and

   [email protected]

  Email

  Program Studi Teknik Informatika, Fakultas Teknik, Universitas Mataram Jl. Majapahit 62, Mataram, Lombok NTB, INDONESIA

  , Ario Yudo Husodo [1] [1]

  

, Budi Irmawati

[1]

  II. TINJAUAN PUSTAKA Palinoan [1] melakukan penelitian tentang sistem klasifikasi dokumen bahasa Jawa dengan metode k-NN.

Cosine Similarity are 0.97 and 0.97 respectively. For the istance, it reaches 0.81 and 0.41 respectively

Similarity, istance

  Purwanti [2] melakukan penelitian tentang klasifikasi jurnal bahasa Inggris menggunakan metode k-NN. Ia menggunakan data latih sebanyak 160 dokumen dan data uji sebanyak 20 dokumen untuk 4 kategori yang dipilih. Pada penelitian ini, dilakukan tiga kali percobaan dengan nilai k= {37, 41, 43}. Tingkat keberhasilan yang cukup baik didapat dalam klasifikasi dokumen pada nilai k=43 dengan memperoleh nilai F-Measure sebesar 0.539, nilai

  precision sebesar 0.519, dan nilai recall sebesar 0.501.

  Chandra dkk. [3] melakukan penelitian tentang klasifikasi berita lokal Radar Malang menggunakan metode Naïve Bayes dengan fitur N-Gram. Mereka mendapatkan akurasi 78.66%, 68.20%, 59.24%, 65.93%, dan 74.39% dari lima uji coba yang dilakukan dengan data uji dan data latih yang dipilih secara acak. Dalam penelitian ini, diperoleh nilai akurasi tertinggi 78.66% dengan data uji sebanyak 764 artikel berita, sedangkan didapat nilai akurasi terendah sebesar 59.24% dengan menggunakan data uji sebanyak 314 artikel berita. Klasifikasi Naïve Bayes merupakan metode supervised

  learning yang sangat bergantung pada data latih. Untuk

  meningkatkan tingkat akurasi klasifikasi diperlukan data

  I. PENDAHULUAN Secara umum, berita dapat dikelompokkan menjadi beberapa kategori seperti berita nasional, internasional, ekonomi, teknologi, kesehatan, dan lain-lain. Sejauh ini pengelompokan berita masih menggunakan tenaga manusia atau manual. Sebelum artikel berita di-publish, editor harus mengetahui isi berita secara keseluruhan untuk selanjutnya dikelompokkan. Jika jumlah artikel berita yang akan di-publish semakin banyak, hal ini akan menghabiskan banyak waktu, terlebih jika dokumen tersebut memiliki kategori yang beragam. Permasalahan lain yaitu ketika dokumen yang dikelompokkan memiliki kemiripan isi, misalnya: untuk kategori teknologi bisa juga memiliki hubungan dengan kategori ilmu pengetahuan dan juga kategori kesehatan. Hal ini dibutuhkan ketelitian dan waktu yang tidak sebentar bagi editor untuk dapat mengelompokkannya.

  Oleh karena itu, dibutuhkan suatu proses untuk mengklasifikasikan berita secara otomatis sesuai dengan kategori berita yang ada. Salah satu cara yang digunakan yaitu dengan metode K-Nearest Neighbor (K-NN) sebagai metode klasifikasinya. Metode K-NN merupakan metode dalam klasifikasi berita yang menggunakan perhitungan jarak terdekat antara dokumen latih dan dokumen uji. metode Cosine Similarity dengan metode dianggap tidak perlu pada tahap proses preprocessing ‘a’…’z’, kemudian yang terakhir adalah memecah kata- untuk meningkatkan hasil klasifikasi dokumen. kata dari string penyusunnya.

  3. Stopwods removal

  Hamzah [4] melakukan penelitian tentang klasifikasi Menghilangkan kata-kata umum yang tidak teks berita dan tulisan ilmiah dengan Naïve Bayes mempengaruhi hasil klasifikasi.

  Classifier

  (NCB). Ia menggunakan 1000 dokumen berita

  Stemming 4.

  dengan berbagai kategori sebagai dokumen uji dan Proses mengubah kata bentukan menjadi kata dasarnya dokumen latih. Untuk dokumen akademik, digunakan 450 dengan menghilangkan akhiran (suffixes) dari kata dokumen. Ia memperoleh nilai akurasi 91% untuk aturannya. klasifikasi artikel berita dan 82% untuk klasifikasi tulisan

  5. TF-IDF ilmiah.

  Proses ini memberikan bobot kata pada tiap dokumen latih berdasarkan dokumen uji sebagai masukan.

  III. METODE PENELITIAN

  A. Gambaran Umum Sistem

  2 distance

  6. Cosine Similarity dan Start

  Cosine similarity dan distance merupakan proses

  ℓ Documents menghitung kedekatan antara dokumen uji dan dokumen latih berdasarkan perhitungan bobot kata pada TF-IDF. 7. k-NN Tokenisasi Pre-Processing Process Proses klasifikasi penentuan kategori dokumen berdasarkan kelas terdekat pada dokumen latih Stopwords Removal Text Transformation berdasarkan nikai k yang sudah ditentukan. Process

  B. Teknik Pengujian Stemming Algorithm Process Teknik pengujian yang digunakan untuk mengukur kualitas retrieval, yaitu dengan menggunakan perhitungan

  recall, precision TF-IDF Process Berikut persamaan untuk menghitung nilai recall dan Feature Selection Process , dan waktu pengujian sistem. Cosine Similarity L2 Distance precision , menggunakan Persamaan 1 dan persamaan 2. Process | |

  =

  | |

   Classification using KNN Documents Pattern Discovery Proccess |Ra |= Jumlah dokumen relevan yang ditemukembalikan. dimana: |R| = Jumlah dokumen relevan. | |

   Documents = Classifications Data | | dimana: Finish |Ra| = Jumlah dokumen relevan yang ditemukembalikan.

  |A| = Jumlah hasil temu kembali.

  IV. HASIL DAN PEMBAHASAN Gambar 1. Gambaran umum sistem. Dalam penelitian ini data yang digunakan sebanyak 1000 dokumen yaitu 200 dokumen mewakili masing-

  Gambar 1 merupakan gambaran umum sistem pada masing kategori. Pengujian yang dilakukan pada penelitian saat klasifikasi menggunakan metode k-NN. Berikut ini menggunakan cross validation dengan nilai k fold=5.

  Pengujian dilakukan sebanyak lima kali, yaitu: dengan tapahan pengerjaannya: masukan nilai k pada k-NN =1, 3, 5, 7, 9, 11, 13, 15, dan

  1. Proses input data

  17. Berikut hasil pengujian yang telah dilakukan: Data latih dan data uji yang dimasukkan untuk

  1. Percobaan 1 klasifikasi adalah berita bahasa Inggris dengan format txt.

  Pengujian percobaan 1 dilakukan dengan nilai k=1

  2. Tokenisasi pada masukan nilai k-NN, sehingga didapatkan hasil Pada tahap ini terdapat proses pengubahan huruf pada pengujian yang ditunjukkan pada Tabel 1. teks dokumen menjadi huruh kecil (case folding), kemudian terdapat penghilangan karakter selain huruf

  Tabel 1. Pengujian menggunakan nilai k=1

  3. Percobaan 3 Pengujian percobaan 3 dilakukan dengan nilai k=5 pada masukan nilai k-NN, sehingga didapatkan hasil pengujian yang ditunjukkan pada Tabel 5.

  Tabel 5. Pengujian menggunakan nilai k=5.

  Berikut hasil waktu komputasi menggunakan metode

  2 Cosine Similarity dan distance yang ditunjukkan pada

  ℓ Tabel 2. Tabel 2.Waktu perhitungan menggunakan nilai k=1.

  Berikut hasil waktu komputasi menggunakan metode

  2 Cosine Similarity dan distance yang ditunjukkan pada

  ℓ Tabel 6. Tabel 6. Waktu perhitungan menggunakan nilai k=5.

  2. Percobaan 2 Pengujian percobaan 2 dilakukan dengan nilai k=3 pada masukan nilai k-NN, sehingga didapatkan hasil pengujian yang ditunjukkan pada Tabel 3.

  Tabel 3. Pengujian menggunakan nilai k=3.

  4. Percobaan 4 Pengujian percobaan 4 dilakukan dengan nilai k=7 pada masukan nilai k-NN, sehingga didapatkan hasil pengujian yang ditunjukkan pada Tabel 7.

  Tabel 7. Pengujian menggunakan nilai k=7.

  Berikut hasil waktu komputasi menggunakan metode

  2 Cosine Similarity dan distance yang ditunjukkan pada

  ℓ Tabel 4. Tabel 4. Waktu perhitungan menggunakan nilai

  Berikut hasil waktu komputasi menggunakan metode k =3.

  2 Cosine Similarity distance

  dan yang ditunjukkan pada ℓ Tabel 8. Tabel 8. Waktu pengujian menggunakan nilai k=7. Berikut hasil waktu komputasi menggunakan metode

  2 Cosine Similarity dan distance yang ditunjukkan pada

  ℓ Tabel 12. Tabel 12. Waktu perhitungan menggunakan nilai

  k =11.

  5. Percobaan 5 Pengujian percobaan 5 dilakukan dengan nilai k=9 pada masukan nilai k-NN, sehingga didapatkan hasil pengujian yang ditunjukkan pada Tabel 9.

  7. Percobaan 7 Tabel 9. Perhitungan menggunakan nilai k=9.

  Pengujian percobaan 5 dilakukan dengan nilai k=13 pada masukan nilai k-NN, sehingga didapatkan hasil pengujian yang ditunjukkan pada Tabel 13.

  Tabel 13. Perhitungan menggunakan nilai k=13.

  Berikut hasil waktu komputasi menggunakan metode

  ℓ Tabel 10. Tabel 10. Waktu perhitungan menggunakan nilai k=9.

  Berikut hasil waktu komputasi menggunakan metode

  2 Cosine Similarity dan distance yang ditunjukkan pada

  ℓ Tabel 13. Tabel 13. Waktu perhitungan menggunakan nilai k =13.

  6. Percobaan 6 Pengujian percobaan 5 dilakukan dengan nilai k=11 pada masukan nilai k-NN, sehingga didapatkan hasil pengujian yang ditunjukkan pada Tabel 11.

  Tabel 11. Perhitungan menggunakan nilai k=11.

  8. Percobaan 8 Pengujian percobaan 5 dilakukan dengan nilai k=15 pada masukan nilai k-NN, sehingga didapatkan hasil pengujian yang ditunjukkan pada Tabel 14. Tabel 14. Perhitungan menggunakan nilai k=15.

  Berikut hasil waktu komputasi menggunakan metode

  2

  2

  Berikut hasil akhir waktu perhitungan menggunakan metode Cosine Similarity dan ℓ

  Gambar 3. Nilai recall pengujian menggunakan cross validation .

  istance akan dijelaskan pada Gambar 3.

  2

  Nilai recall dari tiap-tiap percobaan menggunakan metode Cosine Similarity dan ℓ

  validation .

  Gambar 2. Nilai precision pengujian menggunakan cross

  istance akan dijelaskan pada Gambar 2.

  Nilai precision dari tiap-tiap percobaan menggunakan metode Cosine Similarity dan ℓ

  Cosine Similarity

  Tabel 16. Waktu perhitungan menggunakan nilai k =17.

  2 distance yang ditunjukkan pada Tabel 16.

  ℓ

  Cosine Similarity dan

  Berikut hasil waktu komputasi menggunakan metode

  Tabel 15. Perhitungan menggunakan nilai k=17.

  9. Percobaan 9 Pengujian percobaan 5 dilakukan dengan nilai k=17 pada masukan nilai k-NN, sehingga didapatkan hasil pengujian yang ditunjukkan pada Tabel 15.

  yang ditunjukkan pada Tabel 15. Tabel 15. Waktu perhitungan menggunakan nilai k =15.

  2 distance

  dan ℓ

  istance yang ditunjukkan pada Tabel 16. Tabel 16. Waktu perhitungan metode Cosine

  Similarity dan

  Similarity

  terbesar yaitu 0.97 atau 97% dan nilai recall sebesar 0.97 atau 97% yang didapatkan pada pengujian menggunakan nilai k=17. Sedangkan untuk pengujian menggunakan metode

  ℓ

  2

  istance mendapatkan nilai precision terbesar yaitu 0.81 atau 81% pada nilai k=3 dan nilai recall terbesar pada nilai k=1 yaitu 0.41 atau 41%.

  V. KESIMPULAN DAN SARAN

  A. Kesimpulan Melalui penelitian yang dilakukan, dapat disimpulkan bahwa:

  1. Metode Cosine Similarity lebih baik digunakan dalam proses perhitungan jarak dokumen dibandingkan dengan metode

  ℓ

  2 distance.

  2. Hasil pengujian tertinggi menggunakan metode Cosine

  memperoleh nilai precision = 0.96 atau 96% dan recall = 0.96 atau 96%, sedangakan untuk metode ℓ

  istance untuk klasifikasi teks dokumen. Hal ini dilihat dari pengujian dengan metode

  2 distance memperoleh nilai precision = 0.04 atau 4% dan nilai recall = 0.2 atau 20%.

  3. Waktu komputasi menggunakan metode ℓ

  2 distance

  lebih singkat dibandingkan dengan metode Cosine Similarity.

  B. Saran

  1. Metode untuk menghitung jarak dokumen juga dapat menggunakan metode perhitungan yang lainnya, seperti: metode Jaccard, Tanimoto Coefficient, ataupun metode Manhattan untuk membandingkan hasil dari pengujian menggunakan metode Cosine

  Similarity

  dan metode ℓ

  2 istance.

  2. Penggunaan proses klasifikasi dengan metode k-NN dapat menggunakan metode klasifikasi yang lainnya, seperti: Naïve Bayes Classifier (NBC), Support Vector

  Machine (SVM), atau Neural Network (NN).

  Cosine Similarity yang memperoleh nilai precision

  2

  ℓ

  istance, akan menghasilkan jarak yang berbeda pada saat panjang vektor tersebut diputar secara perlahan hingga 360˚. Inilah yang menyebabkan hasil klasifikasi menggunakan metode

  2 istance menggunakan cross validation.

  A. Pembahasan Hasil dari pengujian yang dilakukan, diketahui bahwa metode Cosine Similariy mendapatkan nilai precision dan

  recall

  yang lebih tinggi daripada metode ℓ

  2

  istance. Hal ini dikarenakan prinsip perhitungan menggunakan kedua metode tersebut. Misalnya, terdapat vektor A, Vektor B, dan Vektor C dengan nilai tertentu yang akan digambarkan pada koordinat kartesius pada Gambar 4.

  Gambar 4. Koordinat Kartesius Vektor A, Vektor B, dan Vektor C. Dari koordinat kartesian diatas, berdasarkan dot

  product pada metode Cosine Similarity, sudut antara A ke

  B dan B ke C sama besar, maka bisa dikatakan bahwa vektor A dan vektor C memiliki tingkat kemiripan yang sama dengan vektor B, jika diputar secara perlahan sampai 360˚ sudutnya tidak akan berubah. Berbeda halnya ketika menggunakan panjang vektor pada metode

  ℓ

  2

  Cosine Similarity lebih baik atau bagus dibandingkan

  ℓ

  metode ℓ

  2 istance pada klasifikasi teks.

  Waktu komputasi menggunakan metode Cosine

  Similarity menunjukkan waktu proses yang lebih lama

  dibandingkan metode ℓ

  2

  istance. Hal tersebut dikarenakan metode Cosine Similarity memiliki tahapan perhitungan yang lebih lama dari metode

  ℓ

  2

  istance, yaitu sebelum melakukan perhitungan klasifikasi terlebih dahulu dilakukan perhitungan untuk mencari jarak query, jarak dokumen dan juga perhitungan inner product.

  Dari Hasil pengujian yang dilakukan, dapat disimpulkan bahwa perhitungan jarak menggunakan metode Cosine Similarity lebih cocok atau baik digunakan daripada metode

  3. Untuk meningkatkan hasil klasifikasi, dapat dilakukan penambahan jumlah dokumen training pada tiap ketegori, karena penambahan jumlah dokumen akan sangat berpengaruh pada masukan jumlah nilai k pada hasil akhir klasifikasi.

  DAFTAR PUSTAKA [1] Palinoan, V. W., 2014, Sistem Klasifikasi Dokumen Bahasa

  Jawa Menggunakan Metode K-Nearest Neighbor, Universitas Sanata Dharma, Yogyakarta. [2] Purwanti, E., 2015, Klasifikasi Dokumen Temu Kembali

  Informasi dengan K-Nearest Neighbor , Record and Library Journal, Vol. 01, No. 2, p.137.

  [3] Chandra, D. N., Indrawan, G. & Sukajaya, I. N., 2016,

  Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naive Bayes dengan Fitur N-Gram , Jurnal Ilmiah

  Teknologi dan Informasi ASIA, Vol. 10, No. 1, p. 19. [4] Hamzah, A., 2010, Klasifikasi Teks dengan Naive Bayes

  Classifier (NBC) untuk Pengelompokan Teks Berita dan Abstract Akademis, Prosiding Seminar Nasional Aplikasi

  Sains dan Teknologi (SNAST) periode III, Yogyakarta, 03 Nopember 2012.