PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

  • * ! ! "# $ "% $&'% $ (")$!

  1,2,3

  Gedung N$203, Program Studi Sistem Komputer, Fakultas Teknik Elektro $ Universitas Telkom,

  Jl. Telekomunikasi No. 1, Bandung 40257

  1

  2

  3

  sianipar.rendy@yahoo.co.id, rumani@telkomuniversity.ac.id, smn@ittelkom.ac.id

  • +()% ,

  Penyebaran berita saat ini semakin tersebar luas semenjak perkembangan dunia internet yang semakin pesat. Perkembangan dunia internet membuat berita yang tersebar semakin beragam dan berjumlah sangat besar. Pembaca berita akan kesulitan untuk memperoleh berita yang diinginkan jika berita tersebut tidak terkelompok dengan baik. Dan jika harus dikelompokkan secara manual membutuhkan waktu yang sangat lama. Oleh sebab itu, menjadi solusi untuk mengatasi masalah tersebut. akan mengelompokkan dokumen berita berdasarkan tingkat kemiripan dari dokumen tersebut.

  Metode merupakan metode pengelompokan . Metode mengelompokkan dokumen didasarkan pada jarak terdekat antar dokumen. Komputasi merupakan komputasi yang mahal dan kompleks.

  Sedangkan metode merupakan metode pengelompokan . Metode mengelompokkan dokumen didasarkan pada jarak terdekat dengan $ nya. merupakan metode pengelompokan yang sederhana dan dapat digunakan dengan mudah. Tetapi pada jenis data tertentu, tidak dapat memberikan segementasi data dengan baik, sehingga kelompok yang terbentuk tidak murni data yang sama.

  Metode pengujian yang digunakan untuk mengukur kualitas adalah dan . Berdasarkan hasil pengujian yang dilakukan, dapat disimpulkan, bahwa metode memiliki performansi yang lebih baik dibandingkan dengan metode . Nilai selalu lebih unggul dibandingkan dengan . Pertambahan jumlah dokumen membuat nilai semakin kecil sedangkan terkadang menghasilkan nilai yang negatif. Untuk nilai selalu bernilai 1 sedangkan tidak pernah bernilai 1. Hasil pertambahan jumlah dan jumlah dokumen memberikan pengaruh terhadap nilai dan . Hal ini berarti selalu menghasilkan dokumen yang sama, sedangkan masih bercampur dengan dokumen yang lain.

   ) ," &$ : , '"-"

  Sistem pengelompokan dokumen berita merupakan sistem yang menggabungkan dokumen berita berdasarkan tingkat kemiripan dari dokumen berita tersebut. Sistem pengelompokan ini memberikan kemudahan dalam pencarian dokumen berita yang diinginkan. Pencarian dokumen berita yang diinginkan akan semakin cepat dilakukan. dengan kemiripan dokumen tersebut. Dokumen yang akan dikelompokkan dalam sistem pengelompokan ini adalah berita berita yang disimpan di dalam . Berita merupakan informasi yang memiliki pembahasan yang bermacam macam. Karena itulah, dibutuhkan suatu sistem pengelompokan supaya berita berita tersebut tersusun berdasarkan topik $ topik yang sama.

  Sistem pengelompokan ini akan dikelompokkan menggunakan metode dan . Metode merupakan teknik pengelompokan yang bekerja berdasarkan prinsip algoritma . Sedangkan merupakan teknik pengelompokan yang bekerja berdasarkan . Prinsip kerja dari pengelompokan dilakukan secara bertahap. Dan disetiap iterasi dari pengelompokan hanya ada satu pemilihan penggabungan suatu dokumen terhadap dokumen lainnya. Sedangkan prinsip kerja dari pengelompokan adalah mengelompokkan dokumen secara acak karena dipengaruhi

  . Dan disetiap iterasi dari pengelompokkan memungkinkan untuk terjadinya lebih dari satu pemilihan dokumen yang akan digabungkan. Sistem pengelompokan dokumen ini dilakukan dengan membandingkan performansi dari dua metode tersebut. Parameter yang digunakan untuk membandingkan performansi metode tersebut adalah dan diperoleh dengan menghitung jarak rata $ rata antar dokumen dalam satu . Setelah itu dilakukan penghitungan jarak antara suatu dokumen dengan dokumen lain yang berada dalam lain, dan yang diambil adalah jarak yang terdekat. Sedangkan pengujian , dilakukan secara . Pengujian yang dimaksud adalah, dengan memeriksa setiap dokumen dalam suatu apakah merupakan dokumen yang mirip atau berada dalam satu kategori yang sama.

   .$ "() , ! "

  adalah proses (proses pembelajaran sendiri) yang mengelompokkan kumpulan dokumen berdasarkan hubungan kemiripannya dan memisahkannya ke dalam beberapa kelompok. [6] merupakan pemrosesan awal dokumen agar diperoleh suatu nilai yang dapat dipelajari oleh sistem .[8]

  ! " #

  merupakan suatu tahap yang mengubah huruf besar menjadi huruf kecil.[6]

  $ %! # adalah proses pemotongan seluruh urutan karakter menjadi satu potongan

  kata.[6]

  & ' # ( )! $ "

  merupakan proses penghapusan semua kata yang tidak memiliki makna.[6]

  (( * yang digunakan dalam sistem pengelompokkan ini adalah algoritma Nazief – Adriani [4]

  ( + ,

  $ merupakan proses pemberian bobot suatu dalam suatu

  • - ( " . /

  % & (TF) adalah pembobotan yang menghitung frekuensi kemunculan

  sebuah pada suatu dokumen

   % ( , ) = ( , ) [6] (1) ' ' ( " . - /

  ( % &

  (DF) adalah pembobotan yang menghitung frekuensi kemunculan sebuah pada kumpulan dokumen

  )(% (

  ) = [6] (2)

  ( )

  • * #+!+!) / /

  Pembobotan TF • IDF adalah suatu pengukuran statistik untuk mengukur seberapa penting sebuah dalam kumpulan dokumen

   % * )(% (

  , ' ) = % ( , ' ) • )(% ( ) [6] (3)

  !%# -$( ($

  Normalisasi merupakan proses penyetaraan jumlah kata yang berbeda$beda pada setiap dokumen.

  ( ) $ ($

  ) = [6] (4)

  ( ) ( ) … ( )

  • * 1 ! #

  ! ! (

  adalah proses penghitungan jarak antara suatu dokumen dengan dokumen lainnya.

  (

  yang digunakan adalah + dengan rumus sebagai berikut :

  2

  

2

  2

  d(i,j) = √|x – x | + |x – x | + … + |x – x | [2] (5)

  i1 j1 i2 j2 in jn , '- = jarak antara data ke i dan data ke j ! . = nilai atribut ke satu dari data ke i ! '. = nilai atribut ke satu dari data ke j

  = jumlah atribut yang digunakan

  $!

  merupakan contoh dari algoritma " Langkah$langkah dari metode adalah sebagai berikut : [6] 1. Menentukan k sebagai jumlah yang ingin dibentuk. ada c = n.

  3. Menghitung jarak / / antar

  4. Cari dua yang mempunyai jarak antar yang minimal dan gabungkan (c = c$ 1). Setelah semua jarak diketahui, selanjutnya dikelompokkan dokumen$dokumen yang memiliki jarak terdekat.

  5. Jika c > 3, kembali ke langkah 3

  

#+ % 2, ' - 2, ' # )! $! 345

4 !

  merupakan metode yang termasuk ke dalam golongan algoritma . Langkah$langkah dari metode adalah sebagi berikut : [7] 1. Tentukan nilai k sebagai jumlah yang ingin dibentuk.

  2. Bangkitkan k (titik pusat ) awal secara acak.

  3. Hitung jarak setiap data ke masing$masing menggunakan rumus korelasi antar

  (

  dua objek ( + ) 4. Kelompokkan setiap data berdasarkan jarak terdekat antara data dengan nya.

  5. Tentukan posisi baru ( k C ) dengan cara menghitung nilai rata$rata dari data yang ada pada yang sama.

  Dimana adalah jumlah dokumen dalam k dan adalah dokumen dalam , $ k.

  6. Kembali ke langkah 3 jika posisi baru dengan lama, tidak sama.

   #+ % 2, ' - 2, ' # )! ( [7] 6 7 -" ($ 2 ,

  33

  digunakan untuk melihat kualitas dan kekuatan , seberapa baik suatu objek ditempatkan dalam suatu . Metode ini merupakan gabungan dari berikut: 1.

  Hitung rata$rata jarak dari suatu dokumen misalkan i dengan semua dokumen lain yang berada dalam satu ( ) = ∑ ∈ ( ') [1] (7)

  j

  

A, j≠i

| |

  dengan j adalah dokumen lain dalam satu A dan d(i,j) adalah jarak antara dokumen i dengan j.

  2. Hitung rata$rata jarak dari dokumen i tersebut dengan semua dokumen di lain, dan diambil nilai terkecilnya.

  , - =

  ∑ ∈ ( ') [1] (8)

  | |

  dengan ( ) adalah jarak rata$rata dokumen i dengan semua objek pada lain C dimana A ≠ C.

  /( ) = C ≠ A d(i,C) [3] (9)

  3. Nilai nya adalah : ( ) ( )

  ( ) = [3] (10)

  ( ( ), ( )) 6 / 3 5

  (kemurnian) suatu direpresentasikan sebagai anggota yang paling banyak sesuai (cocok) di suatu kelas. dapat dihitung dengan rumus berikut : (') = - ! , (11) '

  Total nilai dapat dihitung dengan rumusi berikut : = ∑ (') (12)

  !" $ 2% # ( 8 ( $() # *

  

#+ % * $ 2% # !

   ($- 2".$

  Pengujian ini bertujuan untuk melihat pengaruh jumlah dokumen, jumlah , dan metode dalam mengelompokkan dokumen. Skenario$skenario pengujiannya adalah menguji performansi yang dibangun dengan 4 kategori (25%, 50%, 75% dan 100% ) dengan jumlah adalah 3, 4, 5, 6, 7, 8, 9, dan 10.

   #+ % $- $ , 33 " )", !,"#

#+ % $- $ / " )", !,"#

   #+ % 4 $- $ , 33 " )", !,"#

   #+ % 6 $- $ / " )", !,"# #+ % 9 $- $ , 33 " )", 6 !,"#

   #+ % : $- $ / " )", 6 !,"#

   #+ % $- $ , 33 " )", !,"#

#+ % $- $ / " )", !,"#

  • -$($( %+ $ 2 %;!%# ($ $ 2- $ , 2 8-"() %$ 2 (

  Setelah dilakukan pengujian secara keseluruhan, diperoleh hasil bahwa algoritma memiliki performansi yang lebih baik jika dibandingkan dengan algoritma . Hal ini dapat dilihat dari perbandingan nilai dan dari kedua metode tersebut. Nilai dari dan metode selalu lebih tinggi jika dibandingkan dengan metode . Kurang optimalnya metode ini disebabkan karena proses inisialisasi yang dilakukan secara acak pada saat pembangkitan awal. Pembangkitan awal tersebut ditujukan untuk memasukkan dokumen $ dokumen ke setiap sesuai dengan jumlah yang telah ditentukan sebelumnya. Karenanya, sangat sulit untuk memperoleh hasil awal yang unik. Walaupun untuk pengujian dilakukan pengulangan sebanyak 30 kali, hasil pengujiaan$pengujian tersebut belum tentu merepresentasikan suatu yang baik. Akibatnya yang diperolehpun bukanlah yang didominasi dengan dokumen$ dokumen yang lebih banyak kemiripannya. Sehingga iterasi$iterasi setelah pembangkitan awal tersebut akan menghasilkan yang kurang tepat. Dengan demikian yang akan terbentuk pada akhirnya bukanlah yang memiliki nilai yang mendekati 1.

  Setelah melakukan variasi penambahan jumlah ternyata variasi tersebut memberikan pengaruh terhadap nilai dan . Untuk nilai sebaliknya jika jumlah semakin kecil, maka nilai dari akan semakin kecil. Untuk nilai , variasi penambahan jumlah hanya berpengaruh terhadap metode . Jika jumlah semakin besar, maka nilai dari mrtode akan semakin kecil sedangkan sebaliknya, jika jumlah semakin kecil, maka nilai dari akan semakin besar. Nilai untuk metode secara umum selalu bernilai 1. Artinya hampir disetiap selalu dihasilkan anggota kelompok yang selalu mirip dengan anggota yang lainnya.

  Sedangkan dengan melakukan variasi penambahan jumlah dokumen, perubahan yang tampak hanya terjadi untuk nilai . Penambahan jumlah dokumen tidak memberikan perubahan nilai yang sangat berbeda terhadap nilai . Untuk nilai jika jumlah dokumen semakin besar, maka nilai dari semakin kecil, dan jika jumlah dokumennya semakin kecil maka nilai dari nya menjadi semakin besar. Jika dilihat dari nilai nya, metode membutuhkan jumlah yang lebih banyak untuk menyamai nilai metode . Sebagai contoh, pada pengujian 25 dokumen dengan 3 , metode memiliki nilai sebesar 0.047325055. Untuk mencapai nilai yang hampir sama dengan nilai tersebut diatas, diperlukan jumlah metode sebanyak 10 . Dengan kondisi ini

  (10 ), hasil pengujian nilai metode adalah 0.0456749737981.

  ($#<"- ($#<"-

  1. Metode memilliki performansi yang lebih baik dibandingkan dengan metode ; berdasarkan data yang ada, hubungan antara nilai performansi dengan jumlah dokumen dapat dinyatakan dengan persamaan berikut : = 00 > 6?1 @ 1 > 4 dimana y menyatakan nilai performansi dalam %, dan x menyatakan jumlah dokumen.

  2. Jumlah memberikan pengaruh terhadap nilai dan . Jika jumlah bertambah, maka nilai akan bertambah, sedangkan nilai akan mengecil. Jika jumlah berkurang, maka nilai akan semakin mengecil, sedangkan semakin membesar.

  3. Jumlah dokumen memberikan pengaruh terhadap nilai . Jika jumlah dokumen berkurang, maka nilai menjadi semakin membesar.

  Sedangkan untuk jumlah dokumen memberikan pengaruh yang acak terhadap , bervariasi antara 0.21 $ 0.24.

   %

  1. Untuk metode dapat dikembangkan lebih lanjut suatu metode untuk inisialisasi awal.

  2. Sistem pengelompokan ini dapat dikembangkan menjadi sistem pemeriksaan kemungkinan adanya plagiarisme di dalam penulisan karya tulis ilmiah, seperti jurnal ilmiah, tesis, desertasi, dan sebagainya.

  3. Penelitian selanjutnya dapat dikembangkan untuk membandingkan metode$metode dan yang lainnya seperti " , dan lain$lain.

  [1] Al$Zoubi, Moh’d Belal, Mohammad al Rawi, 2008, + , Journal of Computer Science. [2] Feldman, Ronen., James Sanger, 2006. ! / , New York: Cambridge University Press. [3] Han, Jiawei., Micheline Kamber, Jian Pei, 2012, ( & USA : Morgan Kaufmann. [4] Keke, Dyan., Rian Chikita, Agus Dwi Kuncoro, 2012, 0 # , Universitas Gajah Mada.

  $ %

  [5] Li, Yanjun., Congnan Luo, Soon M. Chung, May 2008, !

  / 1 (

  IEEE. Volume : 20, No.5

  )

  [6] Manning, Christopher D., Prabhakar Raghavan, Hinrich Schutze, 2009,

  )

2 " , Cambridge: Cambridge University Presss.

  [7] Srivastava, Ashok., Mehran Sahami, 2009, ! USA : Taylor and Francis Group, LLC. [8] Wu, Junjie, 2012, " London : Springer