Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer

Vol. 2, No. 10, Oktober 2018, hlm. 3939-3947 http://j-ptiik.ub.ac.id

Implementasi Metode Improved K-Means Untuk Mengelompokkan

Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer

₁ ₂ ₃ Muhammad Abdurasyid , Indriati , Rizal Setya Perdana

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya ₁ ₂ ₃ Email: [email protected], [email protected], [email protected]

Abstrak

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer (J-PTIIK) merupakan jurnal keilmuan di bidang komputer yang memuat tulisan ilmiah hasil penelitian mahasiswa/i FILKOM Universitas Brawijaya yang diterbitkan secara berkala. J-PTIIK merupakan dokumen jurnal yang memiliki topik jurnal berada dalam bidang teknologi informasi dan ilmu komputer. Pada saat ini J-PTIIK dikelompokkan berdasarkan arsip volume dan nomor terbit jurnal. Untuk memudahkan identifikasi topik jurnal yang terdapat pada J-PTIIK, maka dokumen J-PTIIK dapat dikelompokkan berdasarkan kemiripan topik yang terdapat dalam J-PTIIK. Pengelompokan dokumen J-PTIIK dibuat dengan menggunakan metode improved k-means. Metode improved k-means merupakan teknik klasterisasi

unsupervised dengan penentuan centroid awal klaster diperoleh dengan cara menggabungkan metode

optimasi jarak dan densitas. Praproses dokumen dan pembentukan vector space model untuk melakukan pembobotan kata dilakukan terlebih dahulu sebelum mengelompokkan dokumen J-PTIIK. Berdasarkan hasil pengujian, pengelompokan dokumen J-PTIIK memperoleh hasil silhouette coefficient optimal sebesar 0,026574 pada k

= 19 dan α = 0,50. Hasil pengujian purity optimal diperoleh sebesar 0,738197 pada k = 23 dan α = 0,50. Hasil penelitian menunjukkan penggunaan metode improved k-means memiliki

silhouette coefficient yang lebih baik dibandingkan metode k-means, dengan nilai rata-rata silhouette

coefficient pada metode improved k-means sebesar 0,016457654 dan metode k-means sebesar

0,011820563.

Kata Kunci: Praproses Teks, Vector Space Model, Pembobotan Kata, Klasterisasi, Improved K-Means

Abstract

Journal of Information Technology and Computer Science Development (J-PTIIK) is a scientific journal

in the field of computer that contains scientific writings of research results FILKOM Brawijaya

University students that published periodically. J-PTIIK is a journal document that has journal topics

that are in the field of information technology and computer science. At this time J-PTIIK is clustered

by volume archive and published journal number. To facilitate the identification of journal topics

contained in J-PTIIK, J-PTIIK documents can be clustered based on similarity of topics contained in J-

PTIIK. J-PTIIK documents clustering is made using improved k-means method. The improved k-means

method is the unsupervised clustering techniques with the initial centroid determination obtained by

combining the optimization method of distance and density. Document pre-processing and formation of

vector space model to perform term weighting is done first before clustering the J-PTIIK documents.

Based on the evaluation results, J-PTIIK documents clustering obtained an optimal silhouette coefficient

by 0.026574 at k = 19 and α = 0.50. Optimal purity test results obtained by 0.738197 at k = 23 and α =

0.50. The research result shows that the use of improved k-means method has better silhouette

coefficient than k-means method, with average value of silhouette coefficient at improved k-means

method by 0.016457654 and k-means method by 0.011820563.

Keywords: Text Pre-Processing, Vector Space Model, Term Weighting, Clustering, Improved K-Means

Jurnal ilmiah merupakan majalah publikasi 1.

PENDAHULUAN yang diterbitkan secara berkala mengandung

data dan informasi yang mengajukan iptek dan

Fakultas Ilmu Komputer Universitas Brawijaya

3939 ditulis sesuai dengan kaidah-kaidah penulisan ilmiah. Di Fakultas Ilmu Komputer (FILKOM) Universitas Brawijaya terdapat publikasi jurnal ilmiah yang dikenal dengan nama Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer atau biasa disingkat J-PTIIK. J-PTIIK merupakan jurnal keilmuan di bidang komputer yang memuat tulisan ilmiah hasil penelitian mahasiswa/i FILKOM Universitas Brawijaya, dimana hasil penelitian berasal dari keminatan program studi FILKOM Universitas Brawijaya.

J-PTIIK dapat diakses secara online dengan menggunakan web browser. J-PTIIK pada saat ini dikelompokkan berdasarkan arsip volume dan nomor terbit jurnal. J-PTIIK yang merupakan sebuah dokumen jurnal memiliki topik jurnal yang berada dalam bidang teknologi informasi dan ilmu komputer. Untuk memudahkan identifikasi topik jurnal yang terdapat pada J- PTIIK, maka dokumen J-PTIIK dapat dikelompokkan berdasarkan kemiripan topik yang terdapat dalam J-PTIIK. Pengelompokan dokumen J-PTIIK dapat dilakukan dengan menggunakan teknik klasterisasi agar dokumen J-PTIIK dikelompokkan berdasarkan kemiripan objek topik antar dokumen J-PTIIK di dalam suatu klaster.

Klasterisasi merupakan salah satu teknik yang efisien digunakan pada data mining dalam melakukan pengelompokan objek ke dalam kelas yang sama berdasarkan tingkat kemiripan antar objek dalam kelas. Teknik klasterisasi terdiri dari dua model, antara lain model hierarki dan model partisi. Salah satu algoritme klasterisasi yang banyak digunakan pada model partisi adalah metode k-means (Reddy & Jana, 2012). Metode k-means merupakan algoritme yang cukup sederhana dan termasuk ke dalam teknik klasterisasi unsupervised (Karimov & Ozbayoglu, 2015).

Metode k-means membandingkan nilai jarak terhadap centroid pada masing-masing klaster yaitu nilai rata-rata centroid klaster (Chayangkoon & Srivihok, 2016). Metode k-

means memiliki beberapa batasan masalah

dalam prosesnya. Salah satu batasan masalah yang terdapat dalam metode k-means adalah pemilihan centroid awal yang dilakukan secara acak. Pemilihan centroid awal secara acak dapat menghasilkan kualitas klaster yang tidak baik (Rahman, Islam, & Bossomaier, 2015). Pemilihan centroid awal secara acak juga menyebabkan hasil klaster yang selalu berbeda pada tiap proses pengelompokan (Karimov & Ozbayoglu, 2015).

Oleh karena batasan masalah tersebut, metode improved k-means digunakan sebagai solusi untuk memilih centroid awal yang akan digunakan dalam proses k-means. Dalam prosesnya metode improved k-means terlebih dahulu mencari centroid awal klaster, hal ini berbeda dengan metode k-means yang menentukan centroid awal secara acak. Hasil evaluasi metode improved k-means pada saat digunakan untuk mengelompokkan hasil pencarian dokumen web memiliki kualitas klaster yang lebih tinggi berdasarkan pengukuran jarak intra klaster dan inter klaster bila dibandingkan dengan k-means (Poomagal & Hamsapriya, 2011). Hasil evaluasi metode

improved k-means juga memiliki akurasi yang

lebih baik bila dibandingkan dengan menggunakan metode k-means (Sutariya & Amin, 2013). Hasil evaluasi metode improved k-

means yang digunakan untuk mengelompokkan

dokumen teks berbahasa Cina dasar juga memiliki nilai presisi dan recall yang lebih tinggi bila dibandingkan dengan metode k- means (Xiong, et al., 2016).

Berdasarkan permasalahan yang ada, maka penulis mengajukan penelitian yang memiliki luaran berupa sebuah sistem pengelompokan dokumen J-PTIIK dengan menggunakan metode

improved k-means .

2. STUDI PUSTAKA

2.1. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer (J-PTIIK) merupakan jurnal keilmuan di bidang komputer yang memuat tulisan ilmiah hasil dari penelitian mahasiswa/i Fakultas Ilmu Komputer (FILKOM) Universitas Brawijaya. J-PTIIK memiliki luaran dalam mengembangkan penelitian dan memberikan kontribusi yang berarti dalam meningkatkan sumber daya penelitian di bidang teknologi informasi dan ilmu komputer. J-PTIIK diterbitkan oleh Fakultas Ilmu Komputer (FILKOM) Universitas Brawijaya, dimana jurnal ini merupakan hasil penelitian yang berasal dari program studi FILKOM Universitas Brawijaya seperti magister ilmu komputer, teknik informatika, sistem komputer, sistem informasi, teknologi informasi dan pendidikan teknologi informasi.

Jurnal pengembangan teknologi informasi dan ilmu komputer dapat dilihat dan diakses secara online melalui web J-PTIIK yang beralamatkan di

j-ptiik.ub.ac.id

2.3. Praproses Teks

J-PTIIK memiliki topik jurnal yang berada dalam bidang teknologi informasi dan ilmu komputer. Beberapa topik J-PTIIK yang sudah terbit antara lain adalah seperti sistem pakar,

fuzzy , algoritme genetika, pengembangan

perangkat lunak, pengembangan jaringan dan topik-topik teknologi informasi dan ilmu komputer lainnya. Sehingga J-PTIIK dapat dilakukan pengelompokan berdasarkan kemiripan topik yang terdapat dalam J-PTIIK.

. J-PTIIK dikelompokkan berdasarkan arsip volume dan nomor terbit, dimana volume menandakan tahun terbit jurnal sementara nomor terbit menandakan bulan terbit jurnal. J-PTIIK diterbitkan sebulan sekali oleh FILKOM Universitas Brawijaya. J- PTIIK pertama kali terbit di bulan Januari 2017 dengan kode arsip Vol 1 No 1 (2017).

Sebelum teks diterjemahkan ke dalam vektor, praproses teks dilakukan untuk membersihkan dan menyusun data. Praproses teks mengubah data teks mentah menjadi sebuah kata linguistik yang terdefinisikan dengan baik. Tahapan dari praproses teks meliputi menghapus tanda baca dan angka, mengubah huruf kapital menjadi huruf kecil (case folding), melakukan tokenisasi, mengubah kata berimbuhan menjadi bentuk kata dasar (stemming) dan menghapus stop word.

corpus dan lexicon dari keseluruhan dokumen yang ada (Çakir & Güldamlasroglu, 2016).

pertama yang dilakukan dalam proses text mining (Vijayarani, Ilamathi, & Nithya, 2011). Praproses teks ditujukan untuk membentuk

mining . Praproses teks merupakan langkah

Praproses teks memiliki peranan yang sangat penting dalam teknik dan aplikasi text

2.2. Text Mining

secara terurut yang harus dilakukan agar perolehan informasi didapat secara efisien (Kumar & Bhatia, 2013). Proses dari text mining terdiri dari praproses teks, transformasi teks, pemilihan fitur, data mining dan evaluasi.

 (2) dimana t menandakan posisi kata dan N

N df idf / log

suatu kata muncul dalam koleksi keseluruhan dokumen. Sehingga kata sering muncul dalam dokumen dianggap tidak merepresentasikan dokumen, sebaliknya kata yang jarang muncul dianggap paling relevan terhadap dokumen. Nilai idf dapat diperoleh dengan cara sebagai berikut: _{t t}

idf . Nilai idf menghitung seberapa tidak sering

Tahap selanjutnya adalah menghitung nilai

> 0 0 selainnya (1) dimana t menandakan posisi kata dan d menandakan dokumen ke berapa.

jika

= { 1 +

Tahap pertama dalam melakukan pembobotan kata adalah dengan menghitung frekuensi kemunculan suatu kata atau yang dikenal dengan sebutan tf. Semakin sering suatu kata muncul dalam dokumen maka kata ini dapat dikatakan cukup penting dalam dokumen ini. Terdapat modifikasi dari tf yang menggunakan logaritma dari frekuensi kemunculan kata untuk menghitung nilai bobot tf sebagai berikut:

Text mining memiliki aktivitas proses

bobot dari masing-masing komponen vektor (masing-masing kata yang ada) dari tiap masing- masing dokumen (Soucy & Mineau, 2005).

vector space model . Metode tf.idf menghitung

pembobotan yang banyak digunakan dalam

tf.idf. Metode tf.idf merupakan salah satu metode

Pembobotan kata di dalam vektor dokumen dapat ditentukan dengan menggunakan metode

Text mining adalah suatu proses dalam

menemukan dan mengekstrak informasi dari sekumpulan sumber teks yang banyak dan tidak terstruktur (KM & Reddy, 2016). Sumber teks dapat berupa e-mail, chat, SMS, artikel koran, jurnal, ulasan produk dan catatan organisasi. Teks yang tidak terstruktur ini tidak mudah diproses oleh komputer sehingga dibutuhkan beberapa teknik untuk mengekstrak beberapa informasi (Dang & Ahmad, 2014). Text mining biasa dilalukan untuk tujuan khusus dan informasi hasil text mining disimpan ke dalam sebuah database (Kumar & Bhatia, 2013).

Penelitian dalam text mining merupakan pengembangan dalam beberapa teknik matematika, statistik, linguistik dan pengenalan pola yang mampu menganalisis informasi tidak terstruktur secara otomatis sehingga menghasilkan ekstraksi data yang berkualitas dan relevan. Dokumen teks terdiri dari karakter yang secara bersama membentuk suatu kata yang selanjutnya dapat membentuk frasa. Text

mining harus mampu mengenali, mengekstrak

dan menggunakan informasi ini, baik pencarian dalam bentuk kata maupun pengenalan semantik sehingga menghasilkan pencarian dalam level tertinggi (Kumar & Bhatia, 2013).

2.4. Pembobotan Kata merupakan jumlah dokumen. dataset D.

Karena nilai tf telah dilakukan modifikasi 5.

Dengan menggunakan rata-rata densitas, menjadi wf maka penyebutan tf.idf dapat diubah tentukan objek data yang terisolasi dan menjadi wf.idf (Manning, Raghavan, & Schutze, hapus data ini dari D sehingga menghasilkan 2009). Sehingga wf.idf dapat diperoleh dengan koleksi A yang memiliki nilai parameter mengalikan nilai wf dan idf. Nilai wf.idf dapat densitas tertinggi. dinormalisasi dengan cara sebagai berikut: x (7)

Dens ( x )   MeanDens (D ) _i wf . idf _{t , d}

(3) dimana

α berada pada rentang 0 - 1 dalam wf . idf  _{t , d} _n ₂ menentukan data terisolasi. wf . idf _{t , d}

 6. _{t } ₁ Pilih objek data yang memiliki nilai parameter densitas tertinggi dari A sebagai

dimana t menandakan posisi kata dan d nilai centroid awal klaster pertama, menandakan dokumen ke berapa. masukkan ke dalam koleksi B, dan hapus dari A

2.5. Improved K-Means 7.

Dari koleksi A, pilih objek data yang Dalam beberapa pendekatan untuk memiliki jarak terjauh dari objek data yang mengoptimasi k-means, pemilihan centroid awal berada dalam B sebagai nilai centroid awal dilakukan dengan mengambil nilai jarak terjauh klaster berikutnya, masukkan ke dalam B, atau yang memiliki nilai densitas terbesar antar dan hapus dari A objek data. Akan tetapi jika di dalam dataset 8.

Ulangi langkah 7 hingga jumlah objek data terdapat data yang kotor atau terisolasi maka

k berada dalam koleksi B

terdapat kemungkinan data ini digunakan 9.

Berdasarkan k centroid awal klaster, lakukan sebagai centroid awal. Oleh karena itu dalam

k-means untuk melakukan pengelompokan

melakukan pemilihan centroid awal dapat terhadap objek data dilakukan dengan menggabungkan metode optimasi jarak dan densitas untuk memperoleh

3. METODOLOGI centroid awal terbaik (Xiong, et al., 2016).

Langkah-langkah dari algoritme improved

Start k-means yang merupakan kombinasi antara

metode optimasi jarak dan densitas dijelaskan sebagai berikut: ₁ _{2 n} Data dokumen teks

Input : dataset dokumen D = {d ,d ,...,d } dan k Output : k klaster

1. Hitung jarak antara setiap pasangan dua

Text pre-processing

objek data yang berada dalam dataset D menggunakan Euclidean Distance. ₂ ₂ ₂

( , )  (  )  (  )  ...  (  ) (4) d x x x x x x x x _{i j i} _{1 j} _{1 i} _{2 j} _{2 im jm}

Vector space model ( , ,..., )

dimana x  ( x , x ,..., x ) dan x  x x x

1 2 j j 1 j 2 im i i i im merupakan dua m dimensi objek data.

Improved k-means 2.

Hitung rata-rata jarak.

x d ( x , x ) (5)

MeanDist  _{n } _{i j} C ₂ Hasil pengelompokan

dimana C merupakan kombinasi pasangan jarak.

3. Hitung nilai parameter densitas seluruh

End objek data yang berada dalam dataset D. _n

(6)

Dens ( x ) u ( MeanDist d ( x , x )) _{i   i j} Gambar 1. Diagram Alir Metode Pengelompokan

 _{j } ₁ Dokumen J-PTIIK

dimana u(z) merupakan sebuah fungsi bernilai 1 jika z lebih besar dari 0 dan bernilai 0 jika sebaliknya.

4. Hitung rata-rata nilai parameter densitas

Secara umum sistem dalam penelitian menghasilkan luaran berupa pengelompokan dokumen J-PTIIK. Sistem membutuhkan objek data berupa judul dan abstrak dokumen J-PTIIK yang diperoleh secara manual melalui web J- PTIIK pada j-ptiik.ub.ac.id. Jumlah objek data dokumen J-PTIIK yang diperoleh dari arsip J- PTIIK Vol 1 No 1 (2017) hingga Vol 1 No 12 (2017) sebanyak 233 dokumen.

Berdasarkan Gambar 2 dan Gambar 3, nilai

6 8 10 12 14 16 18 20 22 24 Jumlah Klaster

0.03

0.01 0.015 0.02 0.025

Gambar 2. Hasil Pengujian Pengaruh Jumlah Klaster Terhadap Silhouette Coefficient 0.005

silhouette coefficient optimal diperoleh pada saat k = 19 dengan nilai sebesar 0.026574.

terkecil rata-rata jarak suatu dokumen J-PTIIK dengan semua dokumen J-PTIIK lain yang berada pada klaster berbeda cukup besar. Sementara silhouette coefficient yang rendah menunjukkan bahwa nilai terkecil rata-rata jarak suatu dokumen J-PTIIK dengan semua dokumen J-PTIIK lain yang berada pada klaster berbeda lebih besar. Hasil pengujian menunjukkan nilai

coefficient yang tinggi menunjukkan bahwa nilai

yang cukup signifikan. Nilai silhouette

silhouette coefficient mengalami penurunan

jika jumlah klaster terus bertambah. Akan tetapi pada beberapa jumlah klaster tertentu, nilai

silhouette coefficient mengalami peningkatan

Pada pengujian silhouette coefficient juga terdapat pengujian dengan jumlah klaster mencapai jumlah dokumen J-PTIIK dengan densitas tertinggi. Jumlah klaster yang dapat digunakan pada α = 0.50 adalah sebanyak 224. Pengujian dilakukan pada jumlah klaster 2, 3, 5, 8, 13, 21, 34, 55, 89, 144 dan 224. Hasil pengujian silhouette coefficient dengan jumlah klaster sebanyak jumlah dokumen J-PTIIK dengan densitas tertinggi dapat dilihat pada Gambar 3.

Pada penelitian terdapat tiga proses yang dilakukan untuk mengelompokkan dokumen J- PTIIK. Proses pertama yang dilakukan adalah melakukan praproses dokumen J-PTIIK. Praproses dokumen J-PTIIK dilakukan untuk mengubah teks yang terdapat pada dokumen J- PTIIK menjadi bentuk kumpulan kata. Praproses dokumen J-PTIIK terdiri dari beberapa sub proses antara lain menghapus tag judul dan abstrak, menghapus tanda baca dan angka, melakukan case folding dan tokenisasi, menghapus stopword dan melakukan stemming Nazief & Adriani dengan library jsastrawi.

4. PENGUJIAN DAN ANALISIS

skenario antara lain pengaruh jumlah klaster, pengaruh jumlah data dan perbandingan metode

Proses kedua yang dilakukan adalah membentuk vector space model untuk memodelkan kata hasil dari praproses dokumen J-PTIIK ke dalam bentuk vektor guna dilakukan pembobotan kata. Proses ini terdiri dari beberapa sub proses antara lain menghitung frekuensi kata pada dokumen J-PTIIK (tf), menghitung bobot tf (wf), menghitung idf, menghitung pembobotan kata wf.idf dan melakukan normalisasi nilai

wf.idf.

Proses ketiga yang dilakukan adalah mengelompokkan dokumen J-PTIIK dengan menggunakan metode improved k-means. Pengelompokan dokumen J-PTIIK dilakukan menggunakan hasil normalisasi nilai wf.idf. Diagram alir sistem pengelompokan dokumen J- PTIIK dapat dilihat pada Gambar 1.

Pengujian dalam penelitian dilakukan dengan menggunakan silhouette coefficient dan

purity. Pengujian dilakukan dalam beberapa

improved k-means dan k-means.

jumlah klaster terhadap silhouette coefficient dapat dilihat pada Gambar 2.

Pengujian ini dilakukan untuk mengetahui apakah jumlah klaster dalam melakukan pengelompokan dokumen J-PTIIK berpengaruh terhadap menghasilkan nilai silhouette

coefficient dan purity yang bertambah tinggi atau

rendah. Jumlah data yang digunakan dalam melakukan pengujian ini adalah sebanyak 233 dokumen.

Pada silhouette coefficient, pengujian dilakukan untuk mengetahui kualitas hasil dari pengelompokan dokumen J-PTIIK. Pengujian dilakukan pada nilai k = 2 hingga nilai k = 25 dengan

α = 0.50 untuk memperoleh silhouette

coefficient optimal. Hasil pengujian pengaruh

4.1. Pengaruh Jumlah Klaster

dilakukan pada jumlah klaster 2, 3, 5, 8, 13, 21, 34, 55, 89, 144 dan 224. Hasil pengujian purity

0.8

dengan jumlah klaster sebanyak jumlah

0.6

dokumen J-PTIIK dengan densitas tertinggi dapat dilihat pada Gambar 5.

0.4 Berdasarkan Gambar 4 dan Gambar 5, nilai

0.2 purity terus mengalami peningkatan seiring

dengan bertambahnya jumlah klaster. Hal ini

50 75 100 125 150 175 200 225

menunjukkan bahwa pada saat jumlah klaster

Jumlah Klaster semakin besar, jumlah label terbanyak pada tiap

Gambar 3. Hasil Pengujian Silhouette Coefficient klaster tentu juga akan semakin besar sehingga

dengan Jumlah Klaster Sebanyak Jumlah Dokumen

menghasilkan purity yang terus meningkat.

J-PTIIK dengan Densitas Tertinggi

Hasil pengujian menunjukkan nilai purity optimal diperoleh pada saat k = 23 dengan nilai

1 sebesar 0.738197.

0.8

0.6

4.2. Pengaruh Jumlah Data

0.4 Pengujian ini dilakukan untuk mengetahui

apakah jumlah data dalam melakukan

0.2

pengelompokan dokumen J-PTIIK berpengaruh terhadap menghasilkan nilai silhouette

6 8 10 12 14 16 18 20 22 24

dan purity yang bertambah tinggi atau

coefficient Jumlah Klaster

rendah. Jumlah data yang digunakan dalam

Gambar 4. Hasil Pengujian Pengaruh Jumlah Klaster

melakukan pengujian ini adalah sebanyak 50,

Terhadap Purity

100, 150, 200 dan 233 dokumen. Jumlah klaster yang digunakan adalah 19 dan 23 dengan α =

0.50, sebab pada nilai ini diperoleh silhouette

0.8 coefficient dan purity optimal. Hasil pengujian

pengaruh jumlah data terhadap silhouette

0.6 coefficient dapat dilihat pada Gambar 6 dan

0.4 purity dapat dilihat pada Gambar 7.

0.2 Berdasarkan Gambar 6, pada saat data

berjumlah 50 dokumen J-PTIIK memiliki nilai

silhouette coefficient tertinggi. Hal ini

50 75 100 125 150 175 200 225

disebabkan karena jumlah data yang sedikit

Jumlah Klaster

dikelompokkan dengan jumlah klaster

Gambar 5. Hasil Pengujian Purity dengan Jumlah

mendekati setengah dari jumlah data yakni 19

Klaster Sebanyak Jumlah Dokumen J-PTIIK dengan

dan 23. Sehingga nilai silhouette coefficient yang

Densitas Tertinggi

dihasilkan cukup tinggi. Sementara pada saat Pada purity, pengujian membutuhkan label data berjumlah 100 hingga 233 memiliki nilai dokumen J-PTIIK yang dilakukan secara manual silhouette coefficient yang hampir sama pada oleh penulis. Pemberian label dilakukan rentang nilai 0.01 hingga 0.03. berdasarkan keminatan yang menghasilkan label Berdasarkan Gambar 7, penggunaan jumlah antara lain RPL, KC, JKI, MG, RB, SC, JKT dan data yang semakin besar menyebabkan nilai SI. Pengujian dilakukan pada nilai k = 2 hingga purity yang dihasilkan semakin kecil. Hal ini nilai k = 25 dengan menunjukkan pada saat jumlah data semakin

α = 0.50 untuk memperoleh

purity optimal. Hasil pengujian pengaruh jumlah besar, jumlah label terbanyak pada tiap klaster

klaster terhadap purity dapat dilihat pada tentu juga akan semakin kecil sehingga Gambar 4. menghasilkan purity yang terus menurun. Hal ini

Pada pengujian purity juga terdapat dapat dilihat pada nilai k = 19 dengan jumlah pengujian dengan jumlah klaster mencapai data 50 memiliki nilai purity sebesar 0.82, jumlah dokumen J-PTIIK dengan densitas sementara pada jumlah data 233 memiliki nilai tertinggi. Jumlah klaster yang dapat digunakan purity sebesar 0.682403. pada

α = 0.50 adalah sebanyak 224. Pengujian

0.25 1 k = 19

0.8

0.2 k = 23

0.6

0.15 K-Means

0.4

0.1 Improved

0.2

0.05 K-Means

6 8 10 12 14 16 18 20 22 24 50 100 150 200 233 Jumlah Klaster Jumlah Data

Gambar 6. Hasil Pengujian Pengaruh Jumlah Data Gambar 9. Perbandingan Pengujian Purity Metode

Terhadap Silhouette Coefficient Improved K-Means dan K-Means

1 k = 19

Dalam melakukan perbandingan ini, metode k-means dilakukan sebanyak 7 kali

k = 23

0.8

percobaan dalam melakukan pengelompokan

0.6

dokumen pada nilai k = 2 hingga k = 25. Untuk menentukan nilai silhouette coefficient dan

0.4 purity maka ditentukan dengan memperoleh

0.2

nilai rata-rata silhouette coefficient dan purity dari 7 percobaan metode k-means yang

50 100 150 200 233

dilakukan. Nilai rata-rata silhouette coefficient

Jumlah Data dan purity kemudian dibandingkan dengan nilai

Gambar 7. Hasil Pengujian Pengaruh Jumlah Data dan purity pada metode

silhouette coefficient

Terhadap Purity improved k-means untuk nilai k = 2 hingga k =

25 dan α = 0.50. Hasil perbandingan metode

4.3. Perbandingan Metode Improved K-Means

dan k-means dapat dilihat

improved k-means dan K-Means pada Gambar 8 dan Gambar 9.

Berdasarkan Gambar 8, penggunaan Perbandingan pengujian dalam penelitian metode improved k-means dalam melakukan dilakukan untuk mengetahui apakah metode pengelompokan dokumen J-PTIIK memiliki

improved k-means memiliki nilai silhouette

kualitas hasil klaster yang lebih baik bila

coefficient dan purity yang lebih baik bila

dibandingkan dengan penggunaan metode k- dibandingkan dengan metode k-means. Sebab

means. Metode improved k-means memiliki

pemilihan centroid awal klaster dalam metode k- nilai rata-rata silhouette coefficient pada k = 2

means dilakukan secara acak, sehingga dapat

hingga k = 25 sebesar 0,016457654. Sedangkan menghasilkan nilai silhouette coefficient dan metode k-means hanya memiliki nilai rata-rata

purity yang selalu berbeda ketika dilakukan silhouette coefficient sebesar 0,011820563.

pengelompokan. Hal yang berbeda jika dengan Hal ini disebabkan oleh pemilihan centroid menggunakan metode improved k-means awal klaster dalam metode improved k-means dimana pemilihan centroid awal yang dihasilkan dilakukan secara terstruktur melalui algoritme selalu tetap. pemilihan centroid. Sehingga setiap kali

0.03 K-Means

pengelompokan dokumen J-PTIIK dilakukan

0.025

dengan menggunakan metode improved k-means

Improved

selalu menghasilkan klaster yang sama. Hal

0.02 K-Means

berbeda terjadi ketika pengelompokan dokumen

0.015

J-PTIIK menggunakan metode k-means, maka

0.01

pengelompokan menghasilkan klaster yang

0.005

berbeda setiap kali pengelompokan dokumen J- PTIIK dilakukan. Hasil klaster yang berbeda ini

6 8 10 12 14 16 18 20 22 24

tentu berpengaruh terhadap nilai rata-rata

Jumlah Klaster silhouette coefficient ketujuh percobaan pada

Gambar 8. Perbandingan Pengujian Silhouette

metode k-means. Nilai yang dihasilkan memiliki

Coefficient Metode Improved K-Means dan K-

nilai silhouette coefficient yang cenderung lebih

Means

kecil bila dibandingkan penggunaan metode

improved k-means.

Pada Gambar 9, penggunaan metode

improved k-means dalam melakukan

pengelompokan dokumen memiliki nilai purity yang lebih baik pada saat nilai k = 17 hingga k = 25 bila dibandingkan dengan penggunaan metode k-means. Tetapi secara keseluruhan, metode improved k-means memiliki nilai rata- rata purity yang lebih buruk bila dibandingkan metode k-means. Metode improved k-means hanya memiliki nilai rata-rata purity pada k = 2 hingga k = 25 sebesar 0,619992847. Sedangkan metode k-means memiliki nilai rata-rata purity sebesar 0,623978132. Melalui grafik perbandingan ini juga dapat disimpulkan bahwa baik metode improved k-means ataupun k-means memiliki nilai purity yang terus bertambah baik pada saat nilai k atau jumlah klaster terus bertambah.

pada saat k = 19 dan α = 0.50. Nilai purity optimal diperoleh pada saat k = 23 dan α = 0.50 dengan nilai sebesar 0.738197. Hasil pengujian menunjukkan jumlah klaster mempengaruhi nilai silhouette coefficient dan purity. Semakin banyak jumlah klaster yang digunakan, maka nilai silhouette coefficient dan purity akan meningkat. Tetapi pada penggunaan jumlah klaster tertentu dalam mengelompokkan dokumen J-PTIIK mempengaruhi penurunan nilai silhouette coefficient.

silhouette coefficient optimal sebesar 0.026574

Berdasarkan pengujian yang dilakukan, metode improved k-means memiliki nilai

dokumen J-PTIIK dengan menggunakan metode improved k-means.

space model ), dan melakukan pengelompokan

Metode improved k-means dalam penelitian ini dapat digunakan untuk mengelompokkan dokumen J-PTIIK. Adapun tahap dalam melakukan pengelompokan dokumen J-PTIIK dimulai dari melakukan praproses teks dokumen J-PTIIK, melakukan pembobotan kata (vector

KESIMPULAN

5. HASIL PEMBERIAN LABEL

6 Sistem Rekomendasi

sebesar 0,011820563. Sementara metode

Penggunaan jumlah data yang berbeda juga mempengaruhi nilai silhouette coefficient dan

purity . Nilai yang dihasilkan cenderung

mengalami penurunan seiring bertambahnya jumlah data. Penggunaan metode improved k-

means juga memiliki nilai silhouette coefficient

yang lebih baik bila dibandingkan dengan penggunaan metode k-means, dengan nilai rata- rata silhouette coefficient pada improved k-

means sebesar 0,016457654 dan k-means

improved k-means memiliki nilai purity lebih

Pada proses terakhir pengelompokan dokumen J-PTIIK dilakukan pemberian label secara manual terhadap hasil pengelompokan dokumen J-PTIIK, dimana pemberian label dilakukan berdasarkan topik jurnal yang ada pada tiap klaster. Pemberian label berdasarkan topik jurnal pada tiap klaster diperoleh dengan cara melihat topik jurnal yang terdapat pada dokumen yang menjadi centroid akhir dari proses pengelompokan dokumen J-PTIIK. Hasil pemberian label berdasarkan topik jurnal secara manual dilakukan pada saat jumlah klaster bernilai 19, sebab nilai ini merupakan salah satu jumlah klaster yang optimal. Hasil pemberian label secara manual dapat dilihat pada Tabel 1.

buruk bila dibandingkan dengan penggunaan metode k-means, dengan nilai rata-rata purity pada improved k-means sebesar 0,619992847 dan k-means sebesar 0,623978132.

Pada penelitian berikutnya, metode pemilihan centroid awal klaster dapat menggunakan metode improved k-means yang lain atau metode pemilihan centroid yang lain. Pada proses akhir pengelompokan dokumen J- PTIIK juga dapat ditambahkan proses pemberian label klaster secara otomatis.

7. DAFTAR PUSTAKA

Çakir, M.U. & Güldamlasroglu, S., 2016. Text

Mining Analysis in Turkish Language Using Big Data Tools.

IEEE 40th Annual Computer Software and Applications Conference, pp. 614-618.

KLASTER

Tabel 1. Hasil Pemberian Label Klaster Klaster Label Berdasarkan Topik Jurnal

7 Genetika

14 Optimasi Rute

8 Particle Swarm Optimization

9 Profile Matching

10 Optimasi Genetika

11 Citra Digital

12 Sistem Online

13 Analisis Structural Equation Modeling

15 Internet of Things

1 Klasifikasi KNN

16 Perancangan Alat

17 Text Mining

5 Sistem Pendukung Keputusan

19 Analisis Wireless Sensor Network 6.

4 Genetika

3 Pengelompokan Fuzzy

2 Mixed Reality

18 Evaluasi QEF

Rahman, M.A., Islam, M.Z., & Bossomaier, T., 2015. ModEx and Seed-Detective: Two

– An Overview. International

Improved K-means text clustering algorithm By Optimizing initial cluster centers. 7th International Conference on Cloud Computing and Big Data, pp.

Journal of Computer Science & Communication Networks, Vol. 5, No. 1, pp. 7-16. Xiong, C., Hua, Z., Lv, Ke. & Li, X., 2016. An

Preprocessing Techniques for Text Mining

International Journal of Engineering Research & Technology, Vol. 2, Issue 1. Vijayarani, S., Ilamathi, J., & Nithya, 2011.

Sutariya, A. & Amin, K., 2013. An Improvement in K-means Clustering Algorithm.

TFIDF Weighting for Text Categorization in the Vector Space Model.

395-400. Soucy, P. & Mineau, G.W., 2005. Beyond

K-means clustering using Voronoi diagram. Procedia Technology 4, pp.

University – Computer and Information Science, pp. 113-128. Reddy, D. & Jana, P.K., 2012. Initialization for

novel techniques for high quality clustering by using good initial seeds in K-Means. Journal of King Saud

Optimized K-Means Clustering with Intelligent Initial Centroid Selection for Web Search Using URL and Tag Contents. Sogndal: ACM.

Chayangkoon, N. & Srivihok, A., 2016. Two

2009. Scoring, term weighting and the vector space model . Poomagal, S. & Hamsapriya, T., 2011.

Journal of Global Research in Computer Science, Vol. 4, No. 3, pp. 36-39. Manning, C.D., Raghavan, P., & Schutze, H.,

on Applied and Theoretical Computing and Communication Technology, pp. 38-42. Kumar, L. & Bhatia, P.K., 2013. Text Mining: Concepts, Process and Applications.

Improvised Feature Based Model Approach. 2nd International Conference

Computer Science 61, Publication 5, pp. 38-45. KM, S. & Reddy, T.H., 2016. Text Mining: An

Quality Improvement of k-means using a Hybrid Evoluationary Model. Procedia

Karimov, J. & Ozbayoglu, M., 2015. Clustering

International Journal of Engineering & Technology Innovations, Vol. 1, Issue 4, pp. 22-25.

ICN CC’16, pp. 213-217. Kyoto: ACM. Dang, S. & Ahmad, P.H., 2014. Text Mining: Techniques and its Application.

Step Clustering Model for K-Means Algorithm.

265-268.

Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer

2.2. Text Mining

2.5. Improved K-Means 7.

4. Hitung rata-rata nilai parameter densitas

4. PENGUJIAN DAN ANALISIS

4.1. Pengaruh Jumlah Klaster

0.4 Pengujian ini dilakukan untuk mengetahui

4.3. Perbandingan Metode Improved K-Means

5. HASIL PEMBERIAN LABEL

Dokumen yang terkait

Evaluasi Biaya Pengembangan Perangkat Lunak Dengan Menggunakan Metode Extended Use Case Point Dan Use Case Size Point

Pengembangan Sistem Informasi Pengelolaan Penjualan Keripik Buah Pada CV KAJEYE FOOD Dengan Metode Peramalan Permintaan Menggunakan Model Waterfall

Analisis Mekanisme Keamanan Antara TLSSSL Dan Crypto Pada Komunikasi IoT Middleware Dengan Subscriber Berbasis Protokol HTTP

Pengembangan Interface Bluetooth Low Energy (BLE) Pada IoT Middleware Untuk Mendukung Network Interoperability

Implementasi Fitur Sleeping Client Pada Protokol Message Queue Telemetry Transport – Sensor Network (MQTT-SN) Berbasis Arduino NRF24L01

Pengembangan Sistem Prediksi Hama Wereng Berdasarkan Data Cuaca Sensor Dan Cuaca Online Menggunakan Metode Naive Bayes

Perancangan Dan Implementasi Headlamp Pada Sepeda Motor Sebagai Pengatur Jarak Aman Pancaran Cahaya Dengan Menggunakan Sistem Led Matrix

Pengembangan Game Augmented Reality Pengenalan Baju Adat Nusantara Menggunakan Kinect Sebagai Kendali Permainan (Kasus Studi : Anak Usia 9-12 Tahun)

Implementasi Link Fast-Failover Pada Multipath Routing Jaringan Software-Defined Network

Klasifikasi Spam Pada Twitter Menggunakan Metode Improved K-Nearest Neighbor

Dukungan

Links

Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer

2.2. Text Mining

2.5. Improved K-Means 7.

4. Hitung rata-rata nilai parameter densitas

4. PENGUJIAN DAN ANALISIS

4.1. Pengaruh Jumlah Klaster

0.4 Pengujian ini dilakukan untuk mengetahui

4.3. Perbandingan Metode Improved K-Means

5. HASIL PEMBERIAN LABEL

Dokumen yang terkait

Evaluasi Biaya Pengembangan Perangkat Lunak Dengan Menggunakan Metode Extended Use Case Point Dan Use Case Size Point

Pengembangan Sistem Informasi Pengelolaan Penjualan Keripik Buah Pada CV KAJEYE FOOD Dengan Metode Peramalan Permintaan Menggunakan Model Waterfall

Analisis Mekanisme Keamanan Antara TLSSSL Dan Crypto Pada Komunikasi IoT Middleware Dengan Subscriber Berbasis Protokol HTTP

Pengembangan Interface Bluetooth Low Energy (BLE) Pada IoT Middleware Untuk Mendukung Network Interoperability

Implementasi Fitur Sleeping Client Pada Protokol Message Queue Telemetry Transport – Sensor Network (MQTT-SN) Berbasis Arduino NRF24L01

Pengembangan Sistem Prediksi Hama Wereng Berdasarkan Data Cuaca Sensor Dan Cuaca Online Menggunakan Metode Naive Bayes

Perancangan Dan Implementasi Headlamp Pada Sepeda Motor Sebagai Pengatur Jarak Aman Pancaran Cahaya Dengan Menggunakan Sistem Led Matrix

Pengembangan Game Augmented Reality Pengenalan Baju Adat Nusantara Menggunakan Kinect Sebagai Kendali Permainan (Kasus Studi : Anak Usia 9-12 Tahun)

Implementasi Link Fast-Failover Pada Multipath Routing Jaringan Software-Defined Network

Klasifikasi Spam Pada Twitter Menggunakan Metode Improved K-Nearest Neighbor

Dokumen yang Anda mencari sudah siap untuk unduhkan