Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer

  

Vol. 2, No. 10, Oktober 2018, hlm. 3939-3947 http://j-ptiik.ub.ac.id

Implementasi Metode Improved K-Means Untuk Mengelompokkan

Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer

1 2 3 Muhammad Abdurasyid , Indriati , Rizal Setya Perdana

  Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya 1 2 3 Email: muhammadabdurasyid@gmail.com, indriati.tif@ub.ac.id, rizalespe@ub.ac.id

  

Abstrak

  Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer (J-PTIIK) merupakan jurnal keilmuan di bidang komputer yang memuat tulisan ilmiah hasil penelitian mahasiswa/i FILKOM Universitas Brawijaya yang diterbitkan secara berkala. J-PTIIK merupakan dokumen jurnal yang memiliki topik jurnal berada dalam bidang teknologi informasi dan ilmu komputer. Pada saat ini J-PTIIK dikelompokkan berdasarkan arsip volume dan nomor terbit jurnal. Untuk memudahkan identifikasi topik jurnal yang terdapat pada J-PTIIK, maka dokumen J-PTIIK dapat dikelompokkan berdasarkan kemiripan topik yang terdapat dalam J-PTIIK. Pengelompokan dokumen J-PTIIK dibuat dengan menggunakan metode improved k-means. Metode improved k-means merupakan teknik klasterisasi

  

unsupervised dengan penentuan centroid awal klaster diperoleh dengan cara menggabungkan metode

  optimasi jarak dan densitas. Praproses dokumen dan pembentukan vector space model untuk melakukan pembobotan kata dilakukan terlebih dahulu sebelum mengelompokkan dokumen J-PTIIK. Berdasarkan hasil pengujian, pengelompokan dokumen J-PTIIK memperoleh hasil silhouette coefficient optimal sebesar 0,026574 pada k

  = 19 dan α = 0,50. Hasil pengujian purity optimal diperoleh sebesar 0,738197 pada k = 23 dan α = 0,50. Hasil penelitian menunjukkan penggunaan metode improved k-means memiliki

  

silhouette coefficient yang lebih baik dibandingkan metode k-means, dengan nilai rata-rata silhouette

coefficient pada metode improved k-means sebesar 0,016457654 dan metode k-means sebesar

  0,011820563.

  Kata Kunci: Praproses Teks, Vector Space Model, Pembobotan Kata, Klasterisasi, Improved K-Means

Abstract

  

Journal of Information Technology and Computer Science Development (J-PTIIK) is a scientific journal

in the field of computer that contains scientific writings of research results FILKOM Brawijaya

University students that published periodically. J-PTIIK is a journal document that has journal topics

that are in the field of information technology and computer science. At this time J-PTIIK is clustered

by volume archive and published journal number. To facilitate the identification of journal topics

contained in J-PTIIK, J-PTIIK documents can be clustered based on similarity of topics contained in J-

PTIIK. J-PTIIK documents clustering is made using improved k-means method. The improved k-means

method is the unsupervised clustering techniques with the initial centroid determination obtained by

combining the optimization method of distance and density. Document pre-processing and formation of

vector space model to perform term weighting is done first before clustering the J-PTIIK documents.

Based on the evaluation results, J-PTIIK documents clustering obtained an optimal silhouette coefficient

by 0.026574 at k = 19 and α = 0.50. Optimal purity test results obtained by 0.738197 at k = 23 and α =

  

0.50. The research result shows that the use of improved k-means method has better silhouette

coefficient than k-means method, with average value of silhouette coefficient at improved k-means

method by 0.016457654 and k-means method by 0.011820563.

  Keywords: Text Pre-Processing, Vector Space Model, Term Weighting, Clustering, Improved K-Means

  Jurnal ilmiah merupakan majalah publikasi 1.

   PENDAHULUAN yang diterbitkan secara berkala mengandung

  data dan informasi yang mengajukan iptek dan

  Fakultas Ilmu Komputer Universitas Brawijaya

3939 ditulis sesuai dengan kaidah-kaidah penulisan ilmiah. Di Fakultas Ilmu Komputer (FILKOM) Universitas Brawijaya terdapat publikasi jurnal ilmiah yang dikenal dengan nama Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer atau biasa disingkat J-PTIIK. J-PTIIK merupakan jurnal keilmuan di bidang komputer yang memuat tulisan ilmiah hasil penelitian mahasiswa/i FILKOM Universitas Brawijaya, dimana hasil penelitian berasal dari keminatan program studi FILKOM Universitas Brawijaya.

  J-PTIIK dapat diakses secara online dengan menggunakan web browser. J-PTIIK pada saat ini dikelompokkan berdasarkan arsip volume dan nomor terbit jurnal. J-PTIIK yang merupakan sebuah dokumen jurnal memiliki topik jurnal yang berada dalam bidang teknologi informasi dan ilmu komputer. Untuk memudahkan identifikasi topik jurnal yang terdapat pada J- PTIIK, maka dokumen J-PTIIK dapat dikelompokkan berdasarkan kemiripan topik yang terdapat dalam J-PTIIK. Pengelompokan dokumen J-PTIIK dapat dilakukan dengan menggunakan teknik klasterisasi agar dokumen J-PTIIK dikelompokkan berdasarkan kemiripan objek topik antar dokumen J-PTIIK di dalam suatu klaster.

  Klasterisasi merupakan salah satu teknik yang efisien digunakan pada data mining dalam melakukan pengelompokan objek ke dalam kelas yang sama berdasarkan tingkat kemiripan antar objek dalam kelas. Teknik klasterisasi terdiri dari dua model, antara lain model hierarki dan model partisi. Salah satu algoritme klasterisasi yang banyak digunakan pada model partisi adalah metode k-means (Reddy & Jana, 2012). Metode k-means merupakan algoritme yang cukup sederhana dan termasuk ke dalam teknik klasterisasi unsupervised (Karimov & Ozbayoglu, 2015).

  Metode k-means membandingkan nilai jarak terhadap centroid pada masing-masing klaster yaitu nilai rata-rata centroid klaster (Chayangkoon & Srivihok, 2016). Metode k-

  means memiliki beberapa batasan masalah

  dalam prosesnya. Salah satu batasan masalah yang terdapat dalam metode k-means adalah pemilihan centroid awal yang dilakukan secara acak. Pemilihan centroid awal secara acak dapat menghasilkan kualitas klaster yang tidak baik (Rahman, Islam, & Bossomaier, 2015). Pemilihan centroid awal secara acak juga menyebabkan hasil klaster yang selalu berbeda pada tiap proses pengelompokan (Karimov & Ozbayoglu, 2015).

  Oleh karena batasan masalah tersebut, metode improved k-means digunakan sebagai solusi untuk memilih centroid awal yang akan digunakan dalam proses k-means. Dalam prosesnya metode improved k-means terlebih dahulu mencari centroid awal klaster, hal ini berbeda dengan metode k-means yang menentukan centroid awal secara acak. Hasil evaluasi metode improved k-means pada saat digunakan untuk mengelompokkan hasil pencarian dokumen web memiliki kualitas klaster yang lebih tinggi berdasarkan pengukuran jarak intra klaster dan inter klaster bila dibandingkan dengan k-means (Poomagal & Hamsapriya, 2011). Hasil evaluasi metode

  improved k-means juga memiliki akurasi yang

  lebih baik bila dibandingkan dengan menggunakan metode k-means (Sutariya & Amin, 2013). Hasil evaluasi metode improved k-

  means yang digunakan untuk mengelompokkan

  dokumen teks berbahasa Cina dasar juga memiliki nilai presisi dan recall yang lebih tinggi bila dibandingkan dengan metode k- means (Xiong, et al., 2016).

  Berdasarkan permasalahan yang ada, maka penulis mengajukan penelitian yang memiliki luaran berupa sebuah sistem pengelompokan dokumen J-PTIIK dengan menggunakan metode

  improved k-means .

  2. STUDI PUSTAKA

  2.1. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer

  Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer (J-PTIIK) merupakan jurnal keilmuan di bidang komputer yang memuat tulisan ilmiah hasil dari penelitian mahasiswa/i Fakultas Ilmu Komputer (FILKOM) Universitas Brawijaya. J-PTIIK memiliki luaran dalam mengembangkan penelitian dan memberikan kontribusi yang berarti dalam meningkatkan sumber daya penelitian di bidang teknologi informasi dan ilmu komputer. J-PTIIK diterbitkan oleh Fakultas Ilmu Komputer (FILKOM) Universitas Brawijaya, dimana jurnal ini merupakan hasil penelitian yang berasal dari program studi FILKOM Universitas Brawijaya seperti magister ilmu komputer, teknik informatika, sistem komputer, sistem informasi, teknologi informasi dan pendidikan teknologi informasi.

  Jurnal pengembangan teknologi informasi dan ilmu komputer dapat dilihat dan diakses secara online melalui web J-PTIIK yang beralamatkan di

  j-ptiik.ub.ac.id

  2.3. Praproses Teks

  J-PTIIK memiliki topik jurnal yang berada dalam bidang teknologi informasi dan ilmu komputer. Beberapa topik J-PTIIK yang sudah terbit antara lain adalah seperti sistem pakar,

  fuzzy , algoritme genetika, pengembangan

  perangkat lunak, pengembangan jaringan dan topik-topik teknologi informasi dan ilmu komputer lainnya. Sehingga J-PTIIK dapat dilakukan pengelompokan berdasarkan kemiripan topik yang terdapat dalam J-PTIIK.

  . J-PTIIK dikelompokkan berdasarkan arsip volume dan nomor terbit, dimana volume menandakan tahun terbit jurnal sementara nomor terbit menandakan bulan terbit jurnal. J-PTIIK diterbitkan sebulan sekali oleh FILKOM Universitas Brawijaya. J- PTIIK pertama kali terbit di bulan Januari 2017 dengan kode arsip Vol 1 No 1 (2017).

  Sebelum teks diterjemahkan ke dalam vektor, praproses teks dilakukan untuk membersihkan dan menyusun data. Praproses teks mengubah data teks mentah menjadi sebuah kata linguistik yang terdefinisikan dengan baik. Tahapan dari praproses teks meliputi menghapus tanda baca dan angka, mengubah huruf kapital menjadi huruf kecil (case folding), melakukan tokenisasi, mengubah kata berimbuhan menjadi bentuk kata dasar (stemming) dan menghapus stop word.

  corpus dan lexicon dari keseluruhan dokumen yang ada (Çakir & Güldamlasroglu, 2016).

  pertama yang dilakukan dalam proses text mining (Vijayarani, Ilamathi, & Nithya, 2011). Praproses teks ditujukan untuk membentuk

  mining . Praproses teks merupakan langkah

  Praproses teks memiliki peranan yang sangat penting dalam teknik dan aplikasi text

2.2. Text Mining

  secara terurut yang harus dilakukan agar perolehan informasi didapat secara efisien (Kumar & Bhatia, 2013). Proses dari text mining terdiri dari praproses teks, transformasi teks, pemilihan fitur, data mining dan evaluasi.

  ,

   (2) dimana t menandakan posisi kata dan N

  N df idf / log

  suatu kata muncul dalam koleksi keseluruhan dokumen. Sehingga kata sering muncul dalam dokumen dianggap tidak merepresentasikan dokumen, sebaliknya kata yang jarang muncul dianggap paling relevan terhadap dokumen. Nilai idf dapat diperoleh dengan cara sebagai berikut: t t

  idf . Nilai idf menghitung seberapa tidak sering

  Tahap selanjutnya adalah menghitung nilai

  > 0 0 selainnya (1) dimana t menandakan posisi kata dan d menandakan dokumen ke berapa.

  ,

  jika

  ,

  = { 1 +

  Tahap pertama dalam melakukan pembobotan kata adalah dengan menghitung frekuensi kemunculan suatu kata atau yang dikenal dengan sebutan tf. Semakin sering suatu kata muncul dalam dokumen maka kata ini dapat dikatakan cukup penting dalam dokumen ini. Terdapat modifikasi dari tf yang menggunakan logaritma dari frekuensi kemunculan kata untuk menghitung nilai bobot tf sebagai berikut:

  Text mining memiliki aktivitas proses

  bobot dari masing-masing komponen vektor (masing-masing kata yang ada) dari tiap masing- masing dokumen (Soucy & Mineau, 2005).

  vector space model . Metode tf.idf menghitung

  pembobotan yang banyak digunakan dalam

  tf.idf. Metode tf.idf merupakan salah satu metode

  Pembobotan kata di dalam vektor dokumen dapat ditentukan dengan menggunakan metode

  Text mining adalah suatu proses dalam

  menemukan dan mengekstrak informasi dari sekumpulan sumber teks yang banyak dan tidak terstruktur (KM & Reddy, 2016). Sumber teks dapat berupa e-mail, chat, SMS, artikel koran, jurnal, ulasan produk dan catatan organisasi. Teks yang tidak terstruktur ini tidak mudah diproses oleh komputer sehingga dibutuhkan beberapa teknik untuk mengekstrak beberapa informasi (Dang & Ahmad, 2014). Text mining biasa dilalukan untuk tujuan khusus dan informasi hasil text mining disimpan ke dalam sebuah database (Kumar & Bhatia, 2013).

  Penelitian dalam text mining merupakan pengembangan dalam beberapa teknik matematika, statistik, linguistik dan pengenalan pola yang mampu menganalisis informasi tidak terstruktur secara otomatis sehingga menghasilkan ekstraksi data yang berkualitas dan relevan. Dokumen teks terdiri dari karakter yang secara bersama membentuk suatu kata yang selanjutnya dapat membentuk frasa. Text

  mining harus mampu mengenali, mengekstrak

  dan menggunakan informasi ini, baik pencarian dalam bentuk kata maupun pengenalan semantik sehingga menghasilkan pencarian dalam level tertinggi (Kumar & Bhatia, 2013).

  2.4. Pembobotan Kata merupakan jumlah dokumen. dataset D.

  Karena nilai tf telah dilakukan modifikasi 5.

  Dengan menggunakan rata-rata densitas, menjadi wf maka penyebutan tf.idf dapat diubah tentukan objek data yang terisolasi dan menjadi wf.idf (Manning, Raghavan, & Schutze, hapus data ini dari D sehingga menghasilkan 2009). Sehingga wf.idf dapat diperoleh dengan koleksi A yang memiliki nilai parameter mengalikan nilai wf dan idf. Nilai wf.idf dapat densitas tertinggi. dinormalisasi dengan cara sebagai berikut: x (7)

  Dens ( x )   MeanDens (D ) i wf . idf t , d

  (3) dimana

  α berada pada rentang 0 - 1 dalam wf . idft , d n 2 menentukan data terisolasi. wf . idf t , d

   6. t 1 Pilih objek data yang memiliki nilai parameter densitas tertinggi dari A sebagai

  dimana t menandakan posisi kata dan d nilai centroid awal klaster pertama, menandakan dokumen ke berapa. masukkan ke dalam koleksi B, dan hapus dari A

2.5. Improved K-Means 7.

  Dari koleksi A, pilih objek data yang Dalam beberapa pendekatan untuk memiliki jarak terjauh dari objek data yang mengoptimasi k-means, pemilihan centroid awal berada dalam B sebagai nilai centroid awal dilakukan dengan mengambil nilai jarak terjauh klaster berikutnya, masukkan ke dalam B, atau yang memiliki nilai densitas terbesar antar dan hapus dari A objek data. Akan tetapi jika di dalam dataset 8.

  Ulangi langkah 7 hingga jumlah objek data terdapat data yang kotor atau terisolasi maka

  k berada dalam koleksi B

  terdapat kemungkinan data ini digunakan 9.

  Berdasarkan k centroid awal klaster, lakukan sebagai centroid awal. Oleh karena itu dalam

  k-means untuk melakukan pengelompokan

  melakukan pemilihan centroid awal dapat terhadap objek data dilakukan dengan menggabungkan metode optimasi jarak dan densitas untuk memperoleh

  3. METODOLOGI centroid awal terbaik (Xiong, et al., 2016).

  Langkah-langkah dari algoritme improved

  Start k-means yang merupakan kombinasi antara

  metode optimasi jarak dan densitas dijelaskan sebagai berikut: 1 2 n Data dokumen teks

  Input : dataset dokumen D = {d ,d ,...,d } dan k Output : k klaster

  1. Hitung jarak antara setiap pasangan dua

  Text pre-processing

  objek data yang berada dalam dataset D menggunakan Euclidean Distance. 2 2 2

  ( , )  (  )  (  )  ...  (  ) (4) d x x x x x x x x i j i 1 j 1 i 2 j 2 im jm

  Vector space model ( , ,..., )

  dimana x  ( x , x ,..., x ) dan xx x x

  1 2 j j 1 j 2 im i i i im merupakan dua m dimensi objek data.

  Improved k-means 2.

  Hitung rata-rata jarak.

  1

  x d ( x , x ) (5)

  MeanDistn i j C 2 Hasil pengelompokan

  dimana C merupakan kombinasi pasangan jarak.

  3. Hitung nilai parameter densitas seluruh

  End objek data yang berada dalam dataset D. n

  (6)

  Dens ( x ) u ( MeanDist d ( x , x )) i   i j Gambar 1. Diagram Alir Metode Pengelompokan

   j 1 Dokumen J-PTIIK

  dimana u(z) merupakan sebuah fungsi bernilai 1 jika z lebih besar dari 0 dan bernilai 0 jika sebaliknya.

4. Hitung rata-rata nilai parameter densitas

  Secara umum sistem dalam penelitian menghasilkan luaran berupa pengelompokan dokumen J-PTIIK. Sistem membutuhkan objek data berupa judul dan abstrak dokumen J-PTIIK yang diperoleh secara manual melalui web J- PTIIK pada j-ptiik.ub.ac.id. Jumlah objek data dokumen J-PTIIK yang diperoleh dari arsip J- PTIIK Vol 1 No 1 (2017) hingga Vol 1 No 12 (2017) sebanyak 233 dokumen.

  Berdasarkan Gambar 2 dan Gambar 3, nilai

  6 8 10 12 14 16 18 20 22 24 Jumlah Klaster

  4

  2

  0.03

  0.01 0.015 0.02 0.025

  Gambar 2. Hasil Pengujian Pengaruh Jumlah Klaster Terhadap Silhouette Coefficient 0.005

  silhouette coefficient optimal diperoleh pada saat k = 19 dengan nilai sebesar 0.026574.

  terkecil rata-rata jarak suatu dokumen J-PTIIK dengan semua dokumen J-PTIIK lain yang berada pada klaster berbeda cukup besar. Sementara silhouette coefficient yang rendah menunjukkan bahwa nilai terkecil rata-rata jarak suatu dokumen J-PTIIK dengan semua dokumen J-PTIIK lain yang berada pada klaster berbeda lebih besar. Hasil pengujian menunjukkan nilai

  coefficient yang tinggi menunjukkan bahwa nilai

  yang cukup signifikan. Nilai silhouette

  silhouette coefficient mengalami penurunan

  jika jumlah klaster terus bertambah. Akan tetapi pada beberapa jumlah klaster tertentu, nilai

  silhouette coefficient mengalami peningkatan

  Pada pengujian silhouette coefficient juga terdapat pengujian dengan jumlah klaster mencapai jumlah dokumen J-PTIIK dengan densitas tertinggi. Jumlah klaster yang dapat digunakan pada α = 0.50 adalah sebanyak 224. Pengujian dilakukan pada jumlah klaster 2, 3, 5, 8, 13, 21, 34, 55, 89, 144 dan 224. Hasil pengujian silhouette coefficient dengan jumlah klaster sebanyak jumlah dokumen J-PTIIK dengan densitas tertinggi dapat dilihat pada Gambar 3.

  Pada penelitian terdapat tiga proses yang dilakukan untuk mengelompokkan dokumen J- PTIIK. Proses pertama yang dilakukan adalah melakukan praproses dokumen J-PTIIK. Praproses dokumen J-PTIIK dilakukan untuk mengubah teks yang terdapat pada dokumen J- PTIIK menjadi bentuk kumpulan kata. Praproses dokumen J-PTIIK terdiri dari beberapa sub proses antara lain menghapus tag judul dan abstrak, menghapus tanda baca dan angka, melakukan case folding dan tokenisasi, menghapus stopword dan melakukan stemming Nazief & Adriani dengan library jsastrawi.

4. PENGUJIAN DAN ANALISIS

  skenario antara lain pengaruh jumlah klaster, pengaruh jumlah data dan perbandingan metode

  Proses kedua yang dilakukan adalah membentuk vector space model untuk memodelkan kata hasil dari praproses dokumen J-PTIIK ke dalam bentuk vektor guna dilakukan pembobotan kata. Proses ini terdiri dari beberapa sub proses antara lain menghitung frekuensi kata pada dokumen J-PTIIK (tf), menghitung bobot tf (wf), menghitung idf, menghitung pembobotan kata wf.idf dan melakukan normalisasi nilai

  wf.idf.

  Proses ketiga yang dilakukan adalah mengelompokkan dokumen J-PTIIK dengan menggunakan metode improved k-means. Pengelompokan dokumen J-PTIIK dilakukan menggunakan hasil normalisasi nilai wf.idf. Diagram alir sistem pengelompokan dokumen J- PTIIK dapat dilihat pada Gambar 1.

  Pengujian dalam penelitian dilakukan dengan menggunakan silhouette coefficient dan

  purity. Pengujian dilakukan dalam beberapa

  improved k-means dan k-means.

  jumlah klaster terhadap silhouette coefficient dapat dilihat pada Gambar 2.

  Pengujian ini dilakukan untuk mengetahui apakah jumlah klaster dalam melakukan pengelompokan dokumen J-PTIIK berpengaruh terhadap menghasilkan nilai silhouette

  coefficient dan purity yang bertambah tinggi atau

  rendah. Jumlah data yang digunakan dalam melakukan pengujian ini adalah sebanyak 233 dokumen.

  Pada silhouette coefficient, pengujian dilakukan untuk mengetahui kualitas hasil dari pengelompokan dokumen J-PTIIK. Pengujian dilakukan pada nilai k = 2 hingga nilai k = 25 dengan

  α = 0.50 untuk memperoleh silhouette

  coefficient optimal. Hasil pengujian pengaruh

4.1. Pengaruh Jumlah Klaster

  1

  dilakukan pada jumlah klaster 2, 3, 5, 8, 13, 21, 34, 55, 89, 144 dan 224. Hasil pengujian purity

  0.8

  dengan jumlah klaster sebanyak jumlah

  0.6

  dokumen J-PTIIK dengan densitas tertinggi dapat dilihat pada Gambar 5.

  0.4 Berdasarkan Gambar 4 dan Gambar 5, nilai

  0.2 purity terus mengalami peningkatan seiring

  dengan bertambahnya jumlah klaster. Hal ini

  25

  50 75 100 125 150 175 200 225

  menunjukkan bahwa pada saat jumlah klaster

  Jumlah Klaster semakin besar, jumlah label terbanyak pada tiap

Gambar 3. Hasil Pengujian Silhouette Coefficient klaster tentu juga akan semakin besar sehingga

dengan Jumlah Klaster Sebanyak Jumlah Dokumen

  menghasilkan purity yang terus meningkat.

  J-PTIIK dengan Densitas Tertinggi

  Hasil pengujian menunjukkan nilai purity optimal diperoleh pada saat k = 23 dengan nilai

  1 sebesar 0.738197.

  0.8

  0.6

  4.2. Pengaruh Jumlah Data

0.4 Pengujian ini dilakukan untuk mengetahui

  apakah jumlah data dalam melakukan

  0.2

  pengelompokan dokumen J-PTIIK berpengaruh terhadap menghasilkan nilai silhouette

  2

  4

  6 8 10 12 14 16 18 20 22 24

  dan purity yang bertambah tinggi atau

  coefficient Jumlah Klaster

  rendah. Jumlah data yang digunakan dalam

  Gambar 4. Hasil Pengujian Pengaruh Jumlah Klaster

  melakukan pengujian ini adalah sebanyak 50,

  Terhadap Purity

  100, 150, 200 dan 233 dokumen. Jumlah klaster yang digunakan adalah 19 dan 23 dengan α =

  1

  0.50, sebab pada nilai ini diperoleh silhouette

  0.8 coefficient dan purity optimal. Hasil pengujian

  pengaruh jumlah data terhadap silhouette

  0.6 coefficient dapat dilihat pada Gambar 6 dan

  0.4 purity dapat dilihat pada Gambar 7.

  0.2 Berdasarkan Gambar 6, pada saat data

  berjumlah 50 dokumen J-PTIIK memiliki nilai

  silhouette coefficient tertinggi. Hal ini

  25

  50 75 100 125 150 175 200 225

  disebabkan karena jumlah data yang sedikit

  Jumlah Klaster

  dikelompokkan dengan jumlah klaster

  Gambar 5. Hasil Pengujian Purity dengan Jumlah

  mendekati setengah dari jumlah data yakni 19

  Klaster Sebanyak Jumlah Dokumen J-PTIIK dengan

  dan 23. Sehingga nilai silhouette coefficient yang

  Densitas Tertinggi

  dihasilkan cukup tinggi. Sementara pada saat Pada purity, pengujian membutuhkan label data berjumlah 100 hingga 233 memiliki nilai dokumen J-PTIIK yang dilakukan secara manual silhouette coefficient yang hampir sama pada oleh penulis. Pemberian label dilakukan rentang nilai 0.01 hingga 0.03. berdasarkan keminatan yang menghasilkan label Berdasarkan Gambar 7, penggunaan jumlah antara lain RPL, KC, JKI, MG, RB, SC, JKT dan data yang semakin besar menyebabkan nilai SI. Pengujian dilakukan pada nilai k = 2 hingga purity yang dihasilkan semakin kecil. Hal ini nilai k = 25 dengan menunjukkan pada saat jumlah data semakin

  α = 0.50 untuk memperoleh

  

purity optimal. Hasil pengujian pengaruh jumlah besar, jumlah label terbanyak pada tiap klaster

  klaster terhadap purity dapat dilihat pada tentu juga akan semakin kecil sehingga Gambar 4. menghasilkan purity yang terus menurun. Hal ini

  Pada pengujian purity juga terdapat dapat dilihat pada nilai k = 19 dengan jumlah pengujian dengan jumlah klaster mencapai data 50 memiliki nilai purity sebesar 0.82, jumlah dokumen J-PTIIK dengan densitas sementara pada jumlah data 233 memiliki nilai tertinggi. Jumlah klaster yang dapat digunakan purity sebesar 0.682403. pada

  α = 0.50 adalah sebanyak 224. Pengujian

  0.25 1 k = 19

  0.8

  0.2 k = 23

  0.6

  0.15 K-Means

  0.4

  0.1 Improved

  0.2

  0.05 K-Means

  2

  4

  6 8 10 12 14 16 18 20 22 24 50 100 150 200 233 Jumlah Klaster Jumlah Data

  

Gambar 6. Hasil Pengujian Pengaruh Jumlah Data Gambar 9. Perbandingan Pengujian Purity Metode

Terhadap Silhouette Coefficient Improved K-Means dan K-Means

1 k = 19

  Dalam melakukan perbandingan ini, metode k-means dilakukan sebanyak 7 kali

  k = 23

  0.8

  percobaan dalam melakukan pengelompokan

  0.6

  dokumen pada nilai k = 2 hingga k = 25. Untuk menentukan nilai silhouette coefficient dan

  0.4 purity maka ditentukan dengan memperoleh

  0.2

  nilai rata-rata silhouette coefficient dan purity dari 7 percobaan metode k-means yang

  50 100 150 200 233

  dilakukan. Nilai rata-rata silhouette coefficient

  Jumlah Data dan purity kemudian dibandingkan dengan nilai

Gambar 7. Hasil Pengujian Pengaruh Jumlah Data dan purity pada metode

silhouette coefficient

  Terhadap Purity improved k-means untuk nilai k = 2 hingga k =

  25 dan α = 0.50. Hasil perbandingan metode

4.3. Perbandingan Metode Improved K-Means

  dan k-means dapat dilihat

  improved k-means dan K-Means pada Gambar 8 dan Gambar 9.

  Berdasarkan Gambar 8, penggunaan Perbandingan pengujian dalam penelitian metode improved k-means dalam melakukan dilakukan untuk mengetahui apakah metode pengelompokan dokumen J-PTIIK memiliki

  improved k-means memiliki nilai silhouette

  kualitas hasil klaster yang lebih baik bila

  coefficient dan purity yang lebih baik bila

  dibandingkan dengan penggunaan metode k- dibandingkan dengan metode k-means. Sebab

  means. Metode improved k-means memiliki

  pemilihan centroid awal klaster dalam metode k- nilai rata-rata silhouette coefficient pada k = 2

  means dilakukan secara acak, sehingga dapat

  hingga k = 25 sebesar 0,016457654. Sedangkan menghasilkan nilai silhouette coefficient dan metode k-means hanya memiliki nilai rata-rata

  purity yang selalu berbeda ketika dilakukan silhouette coefficient sebesar 0,011820563.

  pengelompokan. Hal yang berbeda jika dengan Hal ini disebabkan oleh pemilihan centroid menggunakan metode improved k-means awal klaster dalam metode improved k-means dimana pemilihan centroid awal yang dihasilkan dilakukan secara terstruktur melalui algoritme selalu tetap. pemilihan centroid. Sehingga setiap kali

  0.03 K-Means

  pengelompokan dokumen J-PTIIK dilakukan

  0.025

  dengan menggunakan metode improved k-means

  Improved

  selalu menghasilkan klaster yang sama. Hal

  0.02 K-Means

  berbeda terjadi ketika pengelompokan dokumen

  0.015

  J-PTIIK menggunakan metode k-means, maka

  0.01

  pengelompokan menghasilkan klaster yang

  0.005

  berbeda setiap kali pengelompokan dokumen J- PTIIK dilakukan. Hasil klaster yang berbeda ini

  2

  4

  6 8 10 12 14 16 18 20 22 24

  tentu berpengaruh terhadap nilai rata-rata

  Jumlah Klaster silhouette coefficient ketujuh percobaan pada

  Gambar 8. Perbandingan Pengujian Silhouette

  metode k-means. Nilai yang dihasilkan memiliki

  Coefficient Metode Improved K-Means dan K-

  nilai silhouette coefficient yang cenderung lebih

  Means

  kecil bila dibandingkan penggunaan metode

  improved k-means.

  Pada Gambar 9, penggunaan metode

  improved k-means dalam melakukan

  pengelompokan dokumen memiliki nilai purity yang lebih baik pada saat nilai k = 17 hingga k = 25 bila dibandingkan dengan penggunaan metode k-means. Tetapi secara keseluruhan, metode improved k-means memiliki nilai rata- rata purity yang lebih buruk bila dibandingkan metode k-means. Metode improved k-means hanya memiliki nilai rata-rata purity pada k = 2 hingga k = 25 sebesar 0,619992847. Sedangkan metode k-means memiliki nilai rata-rata purity sebesar 0,623978132. Melalui grafik perbandingan ini juga dapat disimpulkan bahwa baik metode improved k-means ataupun k-means memiliki nilai purity yang terus bertambah baik pada saat nilai k atau jumlah klaster terus bertambah.

  pada saat k = 19 dan α = 0.50. Nilai purity optimal diperoleh pada saat k = 23 dan α = 0.50 dengan nilai sebesar 0.738197. Hasil pengujian menunjukkan jumlah klaster mempengaruhi nilai silhouette coefficient dan purity. Semakin banyak jumlah klaster yang digunakan, maka nilai silhouette coefficient dan purity akan meningkat. Tetapi pada penggunaan jumlah klaster tertentu dalam mengelompokkan dokumen J-PTIIK mempengaruhi penurunan nilai silhouette coefficient.

  silhouette coefficient optimal sebesar 0.026574

  Berdasarkan pengujian yang dilakukan, metode improved k-means memiliki nilai

  dokumen J-PTIIK dengan menggunakan metode improved k-means.

  space model ), dan melakukan pengelompokan

  Metode improved k-means dalam penelitian ini dapat digunakan untuk mengelompokkan dokumen J-PTIIK. Adapun tahap dalam melakukan pengelompokan dokumen J-PTIIK dimulai dari melakukan praproses teks dokumen J-PTIIK, melakukan pembobotan kata (vector

   KESIMPULAN

5. HASIL PEMBERIAN LABEL

  6 Sistem Rekomendasi

  sebesar 0,011820563. Sementara metode

  Penggunaan jumlah data yang berbeda juga mempengaruhi nilai silhouette coefficient dan

  purity . Nilai yang dihasilkan cenderung

  mengalami penurunan seiring bertambahnya jumlah data. Penggunaan metode improved k-

  means juga memiliki nilai silhouette coefficient

  yang lebih baik bila dibandingkan dengan penggunaan metode k-means, dengan nilai rata- rata silhouette coefficient pada improved k-

  means sebesar 0,016457654 dan k-means

  improved k-means memiliki nilai purity lebih

  Pada proses terakhir pengelompokan dokumen J-PTIIK dilakukan pemberian label secara manual terhadap hasil pengelompokan dokumen J-PTIIK, dimana pemberian label dilakukan berdasarkan topik jurnal yang ada pada tiap klaster. Pemberian label berdasarkan topik jurnal pada tiap klaster diperoleh dengan cara melihat topik jurnal yang terdapat pada dokumen yang menjadi centroid akhir dari proses pengelompokan dokumen J-PTIIK. Hasil pemberian label berdasarkan topik jurnal secara manual dilakukan pada saat jumlah klaster bernilai 19, sebab nilai ini merupakan salah satu jumlah klaster yang optimal. Hasil pemberian label secara manual dapat dilihat pada Tabel 1.

  buruk bila dibandingkan dengan penggunaan metode k-means, dengan nilai rata-rata purity pada improved k-means sebesar 0,619992847 dan k-means sebesar 0,623978132.

  Pada penelitian berikutnya, metode pemilihan centroid awal klaster dapat menggunakan metode improved k-means yang lain atau metode pemilihan centroid yang lain. Pada proses akhir pengelompokan dokumen J- PTIIK juga dapat ditambahkan proses pemberian label klaster secara otomatis.

  7. DAFTAR PUSTAKA

  Çakir, M.U. & Güldamlasroglu, S., 2016. Text

  Mining Analysis in Turkish Language Using Big Data Tools.

  IEEE 40th Annual Computer Software and Applications Conference, pp. 614-618.

  KLASTER

  Tabel 1. Hasil Pemberian Label Klaster Klaster Label Berdasarkan Topik Jurnal

  7 Genetika

  14 Optimasi Rute

  8 Particle Swarm Optimization

  9 Profile Matching

  10 Optimasi Genetika

  11 Citra Digital

  12 Sistem Online

  13 Analisis Structural Equation Modeling

  15 Internet of Things

  1 Klasifikasi KNN

  16 Perancangan Alat

  17 Text Mining

  5 Sistem Pendukung Keputusan

  19 Analisis Wireless Sensor Network 6.

  4 Genetika

  3 Pengelompokan Fuzzy

  2 Mixed Reality

  18 Evaluasi QEF

  Rahman, M.A., Islam, M.Z., & Bossomaier, T., 2015. ModEx and Seed-Detective: Two

  • – An Overview. International

  Improved K-means text clustering algorithm By Optimizing initial cluster centers. 7th International Conference on Cloud Computing and Big Data, pp.

  Journal of Computer Science & Communication Networks, Vol. 5, No. 1, pp. 7-16. Xiong, C., Hua, Z., Lv, Ke. & Li, X., 2016. An

  Preprocessing Techniques for Text Mining

  International Journal of Engineering Research & Technology, Vol. 2, Issue 1. Vijayarani, S., Ilamathi, J., & Nithya, 2011.

  Sutariya, A. & Amin, K., 2013. An Improvement in K-means Clustering Algorithm.

  TFIDF Weighting for Text Categorization in the Vector Space Model.

  395-400. Soucy, P. & Mineau, G.W., 2005. Beyond

  K-means clustering using Voronoi diagram. Procedia Technology 4, pp.

  University – Computer and Information Science, pp. 113-128. Reddy, D. & Jana, P.K., 2012. Initialization for

  novel techniques for high quality clustering by using good initial seeds in K-Means. Journal of King Saud

  Optimized K-Means Clustering with Intelligent Initial Centroid Selection for Web Search Using URL and Tag Contents. Sogndal: ACM.

  Chayangkoon, N. & Srivihok, A., 2016. Two

  2009. Scoring, term weighting and the vector space model . Poomagal, S. & Hamsapriya, T., 2011.

  Journal of Global Research in Computer Science, Vol. 4, No. 3, pp. 36-39. Manning, C.D., Raghavan, P., & Schutze, H.,

  on Applied and Theoretical Computing and Communication Technology, pp. 38-42. Kumar, L. & Bhatia, P.K., 2013. Text Mining: Concepts, Process and Applications.

  Improvised Feature Based Model Approach. 2nd International Conference

  Computer Science 61, Publication 5, pp. 38-45. KM, S. & Reddy, T.H., 2016. Text Mining: An

  Quality Improvement of k-means using a Hybrid Evoluationary Model. Procedia

  Karimov, J. & Ozbayoglu, M., 2015. Clustering

  International Journal of Engineering & Technology Innovations, Vol. 1, Issue 4, pp. 22-25.

  ICN CC’16, pp. 213-217. Kyoto: ACM. Dang, S. & Ahmad, P.H., 2014. Text Mining: Techniques and its Application.

  Step Clustering Model for K-Means Algorithm.

  265-268.