Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer
Vol. 2, No. 10, Oktober 2018, hlm. 3939-3947 http://j-ptiik.ub.ac.id
Implementasi Metode Improved K-Means Untuk Mengelompokkan
Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer
1 2 3 Muhammad Abdurasyid , Indriati , Rizal Setya PerdanaProgram Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya 1 2 3 Email: muhammadabdurasyid@gmail.com, indriati.tif@ub.ac.id, rizalespe@ub.ac.id
Abstrak
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer (J-PTIIK) merupakan jurnal keilmuan di bidang komputer yang memuat tulisan ilmiah hasil penelitian mahasiswa/i FILKOM Universitas Brawijaya yang diterbitkan secara berkala. J-PTIIK merupakan dokumen jurnal yang memiliki topik jurnal berada dalam bidang teknologi informasi dan ilmu komputer. Pada saat ini J-PTIIK dikelompokkan berdasarkan arsip volume dan nomor terbit jurnal. Untuk memudahkan identifikasi topik jurnal yang terdapat pada J-PTIIK, maka dokumen J-PTIIK dapat dikelompokkan berdasarkan kemiripan topik yang terdapat dalam J-PTIIK. Pengelompokan dokumen J-PTIIK dibuat dengan menggunakan metode improved k-means. Metode improved k-means merupakan teknik klasterisasi
unsupervised dengan penentuan centroid awal klaster diperoleh dengan cara menggabungkan metode
optimasi jarak dan densitas. Praproses dokumen dan pembentukan vector space model untuk melakukan pembobotan kata dilakukan terlebih dahulu sebelum mengelompokkan dokumen J-PTIIK. Berdasarkan hasil pengujian, pengelompokan dokumen J-PTIIK memperoleh hasil silhouette coefficient optimal sebesar 0,026574 pada k
= 19 dan α = 0,50. Hasil pengujian purity optimal diperoleh sebesar 0,738197 pada k = 23 dan α = 0,50. Hasil penelitian menunjukkan penggunaan metode improved k-means memiliki
silhouette coefficient yang lebih baik dibandingkan metode k-means, dengan nilai rata-rata silhouette
coefficient pada metode improved k-means sebesar 0,016457654 dan metode k-means sebesar
0,011820563.
Kata Kunci: Praproses Teks, Vector Space Model, Pembobotan Kata, Klasterisasi, Improved K-Means
Abstract
Journal of Information Technology and Computer Science Development (J-PTIIK) is a scientific journal
in the field of computer that contains scientific writings of research results FILKOM Brawijaya
University students that published periodically. J-PTIIK is a journal document that has journal topics
that are in the field of information technology and computer science. At this time J-PTIIK is clustered
by volume archive and published journal number. To facilitate the identification of journal topics
contained in J-PTIIK, J-PTIIK documents can be clustered based on similarity of topics contained in J-
PTIIK. J-PTIIK documents clustering is made using improved k-means method. The improved k-means
method is the unsupervised clustering techniques with the initial centroid determination obtained by
combining the optimization method of distance and density. Document pre-processing and formation of
vector space model to perform term weighting is done first before clustering the J-PTIIK documents.
Based on the evaluation results, J-PTIIK documents clustering obtained an optimal silhouette coefficient
by 0.026574 at k = 19 and α = 0.50. Optimal purity test results obtained by 0.738197 at k = 23 and α =
0.50. The research result shows that the use of improved k-means method has better silhouette
coefficient than k-means method, with average value of silhouette coefficient at improved k-means
method by 0.016457654 and k-means method by 0.011820563.Keywords: Text Pre-Processing, Vector Space Model, Term Weighting, Clustering, Improved K-Means
Jurnal ilmiah merupakan majalah publikasi 1.
PENDAHULUAN yang diterbitkan secara berkala mengandung
data dan informasi yang mengajukan iptek dan
Fakultas Ilmu Komputer Universitas Brawijaya
3939 ditulis sesuai dengan kaidah-kaidah penulisan ilmiah. Di Fakultas Ilmu Komputer (FILKOM) Universitas Brawijaya terdapat publikasi jurnal ilmiah yang dikenal dengan nama Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer atau biasa disingkat J-PTIIK. J-PTIIK merupakan jurnal keilmuan di bidang komputer yang memuat tulisan ilmiah hasil penelitian mahasiswa/i FILKOM Universitas Brawijaya, dimana hasil penelitian berasal dari keminatan program studi FILKOM Universitas Brawijaya.
J-PTIIK dapat diakses secara online dengan menggunakan web browser. J-PTIIK pada saat ini dikelompokkan berdasarkan arsip volume dan nomor terbit jurnal. J-PTIIK yang merupakan sebuah dokumen jurnal memiliki topik jurnal yang berada dalam bidang teknologi informasi dan ilmu komputer. Untuk memudahkan identifikasi topik jurnal yang terdapat pada J- PTIIK, maka dokumen J-PTIIK dapat dikelompokkan berdasarkan kemiripan topik yang terdapat dalam J-PTIIK. Pengelompokan dokumen J-PTIIK dapat dilakukan dengan menggunakan teknik klasterisasi agar dokumen J-PTIIK dikelompokkan berdasarkan kemiripan objek topik antar dokumen J-PTIIK di dalam suatu klaster.
Klasterisasi merupakan salah satu teknik yang efisien digunakan pada data mining dalam melakukan pengelompokan objek ke dalam kelas yang sama berdasarkan tingkat kemiripan antar objek dalam kelas. Teknik klasterisasi terdiri dari dua model, antara lain model hierarki dan model partisi. Salah satu algoritme klasterisasi yang banyak digunakan pada model partisi adalah metode k-means (Reddy & Jana, 2012). Metode k-means merupakan algoritme yang cukup sederhana dan termasuk ke dalam teknik klasterisasi unsupervised (Karimov & Ozbayoglu, 2015).
Metode k-means membandingkan nilai jarak terhadap centroid pada masing-masing klaster yaitu nilai rata-rata centroid klaster (Chayangkoon & Srivihok, 2016). Metode k-
means memiliki beberapa batasan masalah
dalam prosesnya. Salah satu batasan masalah yang terdapat dalam metode k-means adalah pemilihan centroid awal yang dilakukan secara acak. Pemilihan centroid awal secara acak dapat menghasilkan kualitas klaster yang tidak baik (Rahman, Islam, & Bossomaier, 2015). Pemilihan centroid awal secara acak juga menyebabkan hasil klaster yang selalu berbeda pada tiap proses pengelompokan (Karimov & Ozbayoglu, 2015).
Oleh karena batasan masalah tersebut, metode improved k-means digunakan sebagai solusi untuk memilih centroid awal yang akan digunakan dalam proses k-means. Dalam prosesnya metode improved k-means terlebih dahulu mencari centroid awal klaster, hal ini berbeda dengan metode k-means yang menentukan centroid awal secara acak. Hasil evaluasi metode improved k-means pada saat digunakan untuk mengelompokkan hasil pencarian dokumen web memiliki kualitas klaster yang lebih tinggi berdasarkan pengukuran jarak intra klaster dan inter klaster bila dibandingkan dengan k-means (Poomagal & Hamsapriya, 2011). Hasil evaluasi metode
improved k-means juga memiliki akurasi yang
lebih baik bila dibandingkan dengan menggunakan metode k-means (Sutariya & Amin, 2013). Hasil evaluasi metode improved k-
means yang digunakan untuk mengelompokkan
dokumen teks berbahasa Cina dasar juga memiliki nilai presisi dan recall yang lebih tinggi bila dibandingkan dengan metode k- means (Xiong, et al., 2016).
Berdasarkan permasalahan yang ada, maka penulis mengajukan penelitian yang memiliki luaran berupa sebuah sistem pengelompokan dokumen J-PTIIK dengan menggunakan metode
improved k-means .
2. STUDI PUSTAKA
2.1. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer (J-PTIIK) merupakan jurnal keilmuan di bidang komputer yang memuat tulisan ilmiah hasil dari penelitian mahasiswa/i Fakultas Ilmu Komputer (FILKOM) Universitas Brawijaya. J-PTIIK memiliki luaran dalam mengembangkan penelitian dan memberikan kontribusi yang berarti dalam meningkatkan sumber daya penelitian di bidang teknologi informasi dan ilmu komputer. J-PTIIK diterbitkan oleh Fakultas Ilmu Komputer (FILKOM) Universitas Brawijaya, dimana jurnal ini merupakan hasil penelitian yang berasal dari program studi FILKOM Universitas Brawijaya seperti magister ilmu komputer, teknik informatika, sistem komputer, sistem informasi, teknologi informasi dan pendidikan teknologi informasi.
Jurnal pengembangan teknologi informasi dan ilmu komputer dapat dilihat dan diakses secara online melalui web J-PTIIK yang beralamatkan di
j-ptiik.ub.ac.id
2.3. Praproses Teks
J-PTIIK memiliki topik jurnal yang berada dalam bidang teknologi informasi dan ilmu komputer. Beberapa topik J-PTIIK yang sudah terbit antara lain adalah seperti sistem pakar,
fuzzy , algoritme genetika, pengembangan
perangkat lunak, pengembangan jaringan dan topik-topik teknologi informasi dan ilmu komputer lainnya. Sehingga J-PTIIK dapat dilakukan pengelompokan berdasarkan kemiripan topik yang terdapat dalam J-PTIIK.
. J-PTIIK dikelompokkan berdasarkan arsip volume dan nomor terbit, dimana volume menandakan tahun terbit jurnal sementara nomor terbit menandakan bulan terbit jurnal. J-PTIIK diterbitkan sebulan sekali oleh FILKOM Universitas Brawijaya. J- PTIIK pertama kali terbit di bulan Januari 2017 dengan kode arsip Vol 1 No 1 (2017).
Sebelum teks diterjemahkan ke dalam vektor, praproses teks dilakukan untuk membersihkan dan menyusun data. Praproses teks mengubah data teks mentah menjadi sebuah kata linguistik yang terdefinisikan dengan baik. Tahapan dari praproses teks meliputi menghapus tanda baca dan angka, mengubah huruf kapital menjadi huruf kecil (case folding), melakukan tokenisasi, mengubah kata berimbuhan menjadi bentuk kata dasar (stemming) dan menghapus stop word.
corpus dan lexicon dari keseluruhan dokumen yang ada (Çakir & Güldamlasroglu, 2016).
pertama yang dilakukan dalam proses text mining (Vijayarani, Ilamathi, & Nithya, 2011). Praproses teks ditujukan untuk membentuk
mining . Praproses teks merupakan langkah
Praproses teks memiliki peranan yang sangat penting dalam teknik dan aplikasi text
2.2. Text Mining
secara terurut yang harus dilakukan agar perolehan informasi didapat secara efisien (Kumar & Bhatia, 2013). Proses dari text mining terdiri dari praproses teks, transformasi teks, pemilihan fitur, data mining dan evaluasi.
,
(2) dimana t menandakan posisi kata dan N
N df idf / log
suatu kata muncul dalam koleksi keseluruhan dokumen. Sehingga kata sering muncul dalam dokumen dianggap tidak merepresentasikan dokumen, sebaliknya kata yang jarang muncul dianggap paling relevan terhadap dokumen. Nilai idf dapat diperoleh dengan cara sebagai berikut: t t
idf . Nilai idf menghitung seberapa tidak sering
Tahap selanjutnya adalah menghitung nilai
> 0 0 selainnya (1) dimana t menandakan posisi kata dan d menandakan dokumen ke berapa.
,
jika
,
= { 1 +
Tahap pertama dalam melakukan pembobotan kata adalah dengan menghitung frekuensi kemunculan suatu kata atau yang dikenal dengan sebutan tf. Semakin sering suatu kata muncul dalam dokumen maka kata ini dapat dikatakan cukup penting dalam dokumen ini. Terdapat modifikasi dari tf yang menggunakan logaritma dari frekuensi kemunculan kata untuk menghitung nilai bobot tf sebagai berikut:
Text mining memiliki aktivitas proses
bobot dari masing-masing komponen vektor (masing-masing kata yang ada) dari tiap masing- masing dokumen (Soucy & Mineau, 2005).
vector space model . Metode tf.idf menghitung
pembobotan yang banyak digunakan dalam
tf.idf. Metode tf.idf merupakan salah satu metode
Pembobotan kata di dalam vektor dokumen dapat ditentukan dengan menggunakan metode
Text mining adalah suatu proses dalam
menemukan dan mengekstrak informasi dari sekumpulan sumber teks yang banyak dan tidak terstruktur (KM & Reddy, 2016). Sumber teks dapat berupa e-mail, chat, SMS, artikel koran, jurnal, ulasan produk dan catatan organisasi. Teks yang tidak terstruktur ini tidak mudah diproses oleh komputer sehingga dibutuhkan beberapa teknik untuk mengekstrak beberapa informasi (Dang & Ahmad, 2014). Text mining biasa dilalukan untuk tujuan khusus dan informasi hasil text mining disimpan ke dalam sebuah database (Kumar & Bhatia, 2013).
Penelitian dalam text mining merupakan pengembangan dalam beberapa teknik matematika, statistik, linguistik dan pengenalan pola yang mampu menganalisis informasi tidak terstruktur secara otomatis sehingga menghasilkan ekstraksi data yang berkualitas dan relevan. Dokumen teks terdiri dari karakter yang secara bersama membentuk suatu kata yang selanjutnya dapat membentuk frasa. Text
mining harus mampu mengenali, mengekstrak
dan menggunakan informasi ini, baik pencarian dalam bentuk kata maupun pengenalan semantik sehingga menghasilkan pencarian dalam level tertinggi (Kumar & Bhatia, 2013).
2.4. Pembobotan Kata merupakan jumlah dokumen. dataset D.
Karena nilai tf telah dilakukan modifikasi 5.
Dengan menggunakan rata-rata densitas, menjadi wf maka penyebutan tf.idf dapat diubah tentukan objek data yang terisolasi dan menjadi wf.idf (Manning, Raghavan, & Schutze, hapus data ini dari D sehingga menghasilkan 2009). Sehingga wf.idf dapat diperoleh dengan koleksi A yang memiliki nilai parameter mengalikan nilai wf dan idf. Nilai wf.idf dapat densitas tertinggi. dinormalisasi dengan cara sebagai berikut: x (7)
Dens ( x ) MeanDens (D ) i wf . idf t , d
(3) dimana
α berada pada rentang 0 - 1 dalam wf . idf t , d n 2 menentukan data terisolasi. wf . idf t , d
6. t 1 Pilih objek data yang memiliki nilai parameter densitas tertinggi dari A sebagai
dimana t menandakan posisi kata dan d nilai centroid awal klaster pertama, menandakan dokumen ke berapa. masukkan ke dalam koleksi B, dan hapus dari A
2.5. Improved K-Means 7.
Dari koleksi A, pilih objek data yang Dalam beberapa pendekatan untuk memiliki jarak terjauh dari objek data yang mengoptimasi k-means, pemilihan centroid awal berada dalam B sebagai nilai centroid awal dilakukan dengan mengambil nilai jarak terjauh klaster berikutnya, masukkan ke dalam B, atau yang memiliki nilai densitas terbesar antar dan hapus dari A objek data. Akan tetapi jika di dalam dataset 8.
Ulangi langkah 7 hingga jumlah objek data terdapat data yang kotor atau terisolasi maka
k berada dalam koleksi B
terdapat kemungkinan data ini digunakan 9.
Berdasarkan k centroid awal klaster, lakukan sebagai centroid awal. Oleh karena itu dalam
k-means untuk melakukan pengelompokan
melakukan pemilihan centroid awal dapat terhadap objek data dilakukan dengan menggabungkan metode optimasi jarak dan densitas untuk memperoleh
3. METODOLOGI centroid awal terbaik (Xiong, et al., 2016).
Langkah-langkah dari algoritme improved
Start k-means yang merupakan kombinasi antara
metode optimasi jarak dan densitas dijelaskan sebagai berikut: 1 2 n Data dokumen teks
Input : dataset dokumen D = {d ,d ,...,d } dan k Output : k klaster
1. Hitung jarak antara setiap pasangan dua
Text pre-processing
objek data yang berada dalam dataset D menggunakan Euclidean Distance. 2 2 2
( , ) ( ) ( ) ... ( ) (4) d x x x x x x x x i j i 1 j 1 i 2 j 2 im jm
Vector space model ( , ,..., )
dimana x ( x , x ,..., x ) dan x x x x
1 2 j j 1 j 2 im i i i im merupakan dua m dimensi objek data.
Improved k-means 2.
Hitung rata-rata jarak.
1
x d ( x , x ) (5)
MeanDist n i j C 2 Hasil pengelompokan
dimana C merupakan kombinasi pasangan jarak.
3. Hitung nilai parameter densitas seluruh
End objek data yang berada dalam dataset D. n
(6)
Dens ( x ) u ( MeanDist d ( x , x )) i i j Gambar 1. Diagram Alir Metode Pengelompokan
j 1 Dokumen J-PTIIK
dimana u(z) merupakan sebuah fungsi bernilai 1 jika z lebih besar dari 0 dan bernilai 0 jika sebaliknya.
4. Hitung rata-rata nilai parameter densitas
Secara umum sistem dalam penelitian menghasilkan luaran berupa pengelompokan dokumen J-PTIIK. Sistem membutuhkan objek data berupa judul dan abstrak dokumen J-PTIIK yang diperoleh secara manual melalui web J- PTIIK pada j-ptiik.ub.ac.id. Jumlah objek data dokumen J-PTIIK yang diperoleh dari arsip J- PTIIK Vol 1 No 1 (2017) hingga Vol 1 No 12 (2017) sebanyak 233 dokumen.
Berdasarkan Gambar 2 dan Gambar 3, nilai
6 8 10 12 14 16 18 20 22 24 Jumlah Klaster
4
2
0.03
0.01 0.015 0.02 0.025
Gambar 2. Hasil Pengujian Pengaruh Jumlah Klaster Terhadap Silhouette Coefficient 0.005
silhouette coefficient optimal diperoleh pada saat k = 19 dengan nilai sebesar 0.026574.
terkecil rata-rata jarak suatu dokumen J-PTIIK dengan semua dokumen J-PTIIK lain yang berada pada klaster berbeda cukup besar. Sementara silhouette coefficient yang rendah menunjukkan bahwa nilai terkecil rata-rata jarak suatu dokumen J-PTIIK dengan semua dokumen J-PTIIK lain yang berada pada klaster berbeda lebih besar. Hasil pengujian menunjukkan nilai
coefficient yang tinggi menunjukkan bahwa nilai
yang cukup signifikan. Nilai silhouette
silhouette coefficient mengalami penurunan
jika jumlah klaster terus bertambah. Akan tetapi pada beberapa jumlah klaster tertentu, nilai
silhouette coefficient mengalami peningkatan
Pada pengujian silhouette coefficient juga terdapat pengujian dengan jumlah klaster mencapai jumlah dokumen J-PTIIK dengan densitas tertinggi. Jumlah klaster yang dapat digunakan pada α = 0.50 adalah sebanyak 224. Pengujian dilakukan pada jumlah klaster 2, 3, 5, 8, 13, 21, 34, 55, 89, 144 dan 224. Hasil pengujian silhouette coefficient dengan jumlah klaster sebanyak jumlah dokumen J-PTIIK dengan densitas tertinggi dapat dilihat pada Gambar 3.
Pada penelitian terdapat tiga proses yang dilakukan untuk mengelompokkan dokumen J- PTIIK. Proses pertama yang dilakukan adalah melakukan praproses dokumen J-PTIIK. Praproses dokumen J-PTIIK dilakukan untuk mengubah teks yang terdapat pada dokumen J- PTIIK menjadi bentuk kumpulan kata. Praproses dokumen J-PTIIK terdiri dari beberapa sub proses antara lain menghapus tag judul dan abstrak, menghapus tanda baca dan angka, melakukan case folding dan tokenisasi, menghapus stopword dan melakukan stemming Nazief & Adriani dengan library jsastrawi.
4. PENGUJIAN DAN ANALISIS
skenario antara lain pengaruh jumlah klaster, pengaruh jumlah data dan perbandingan metode
Proses kedua yang dilakukan adalah membentuk vector space model untuk memodelkan kata hasil dari praproses dokumen J-PTIIK ke dalam bentuk vektor guna dilakukan pembobotan kata. Proses ini terdiri dari beberapa sub proses antara lain menghitung frekuensi kata pada dokumen J-PTIIK (tf), menghitung bobot tf (wf), menghitung idf, menghitung pembobotan kata wf.idf dan melakukan normalisasi nilai
wf.idf.
Proses ketiga yang dilakukan adalah mengelompokkan dokumen J-PTIIK dengan menggunakan metode improved k-means. Pengelompokan dokumen J-PTIIK dilakukan menggunakan hasil normalisasi nilai wf.idf. Diagram alir sistem pengelompokan dokumen J- PTIIK dapat dilihat pada Gambar 1.
Pengujian dalam penelitian dilakukan dengan menggunakan silhouette coefficient dan
purity. Pengujian dilakukan dalam beberapa
improved k-means dan k-means.
jumlah klaster terhadap silhouette coefficient dapat dilihat pada Gambar 2.
Pengujian ini dilakukan untuk mengetahui apakah jumlah klaster dalam melakukan pengelompokan dokumen J-PTIIK berpengaruh terhadap menghasilkan nilai silhouette
coefficient dan purity yang bertambah tinggi atau
rendah. Jumlah data yang digunakan dalam melakukan pengujian ini adalah sebanyak 233 dokumen.
Pada silhouette coefficient, pengujian dilakukan untuk mengetahui kualitas hasil dari pengelompokan dokumen J-PTIIK. Pengujian dilakukan pada nilai k = 2 hingga nilai k = 25 dengan
α = 0.50 untuk memperoleh silhouette
coefficient optimal. Hasil pengujian pengaruh
4.1. Pengaruh Jumlah Klaster
1
dilakukan pada jumlah klaster 2, 3, 5, 8, 13, 21, 34, 55, 89, 144 dan 224. Hasil pengujian purity
0.8
dengan jumlah klaster sebanyak jumlah
0.6
dokumen J-PTIIK dengan densitas tertinggi dapat dilihat pada Gambar 5.
0.4 Berdasarkan Gambar 4 dan Gambar 5, nilai
0.2 purity terus mengalami peningkatan seiring
dengan bertambahnya jumlah klaster. Hal ini
25
50 75 100 125 150 175 200 225
menunjukkan bahwa pada saat jumlah klaster
Jumlah Klaster semakin besar, jumlah label terbanyak pada tiap
Gambar 3. Hasil Pengujian Silhouette Coefficient klaster tentu juga akan semakin besar sehingga
dengan Jumlah Klaster Sebanyak Jumlah Dokumenmenghasilkan purity yang terus meningkat.
J-PTIIK dengan Densitas Tertinggi
Hasil pengujian menunjukkan nilai purity optimal diperoleh pada saat k = 23 dengan nilai
1 sebesar 0.738197.
0.8
0.6
4.2. Pengaruh Jumlah Data
0.4 Pengujian ini dilakukan untuk mengetahui
apakah jumlah data dalam melakukan
0.2
pengelompokan dokumen J-PTIIK berpengaruh terhadap menghasilkan nilai silhouette
2
4
6 8 10 12 14 16 18 20 22 24
dan purity yang bertambah tinggi atau
coefficient Jumlah Klaster
rendah. Jumlah data yang digunakan dalam
Gambar 4. Hasil Pengujian Pengaruh Jumlah Klaster
melakukan pengujian ini adalah sebanyak 50,
Terhadap Purity
100, 150, 200 dan 233 dokumen. Jumlah klaster yang digunakan adalah 19 dan 23 dengan α =
1
0.50, sebab pada nilai ini diperoleh silhouette
0.8 coefficient dan purity optimal. Hasil pengujian
pengaruh jumlah data terhadap silhouette
0.6 coefficient dapat dilihat pada Gambar 6 dan
0.4 purity dapat dilihat pada Gambar 7.
0.2 Berdasarkan Gambar 6, pada saat data
berjumlah 50 dokumen J-PTIIK memiliki nilai
silhouette coefficient tertinggi. Hal ini
25
50 75 100 125 150 175 200 225
disebabkan karena jumlah data yang sedikit
Jumlah Klaster
dikelompokkan dengan jumlah klaster
Gambar 5. Hasil Pengujian Purity dengan Jumlah
mendekati setengah dari jumlah data yakni 19
Klaster Sebanyak Jumlah Dokumen J-PTIIK dengan
dan 23. Sehingga nilai silhouette coefficient yang
Densitas Tertinggi
dihasilkan cukup tinggi. Sementara pada saat Pada purity, pengujian membutuhkan label data berjumlah 100 hingga 233 memiliki nilai dokumen J-PTIIK yang dilakukan secara manual silhouette coefficient yang hampir sama pada oleh penulis. Pemberian label dilakukan rentang nilai 0.01 hingga 0.03. berdasarkan keminatan yang menghasilkan label Berdasarkan Gambar 7, penggunaan jumlah antara lain RPL, KC, JKI, MG, RB, SC, JKT dan data yang semakin besar menyebabkan nilai SI. Pengujian dilakukan pada nilai k = 2 hingga purity yang dihasilkan semakin kecil. Hal ini nilai k = 25 dengan menunjukkan pada saat jumlah data semakin
α = 0.50 untuk memperoleh
purity optimal. Hasil pengujian pengaruh jumlah besar, jumlah label terbanyak pada tiap klaster
klaster terhadap purity dapat dilihat pada tentu juga akan semakin kecil sehingga Gambar 4. menghasilkan purity yang terus menurun. Hal ini
Pada pengujian purity juga terdapat dapat dilihat pada nilai k = 19 dengan jumlah pengujian dengan jumlah klaster mencapai data 50 memiliki nilai purity sebesar 0.82, jumlah dokumen J-PTIIK dengan densitas sementara pada jumlah data 233 memiliki nilai tertinggi. Jumlah klaster yang dapat digunakan purity sebesar 0.682403. pada
α = 0.50 adalah sebanyak 224. Pengujian
0.25 1 k = 19
0.8
0.2 k = 23
0.6
0.15 K-Means
0.4
0.1 Improved
0.2
0.05 K-Means
2
4
6 8 10 12 14 16 18 20 22 24 50 100 150 200 233 Jumlah Klaster Jumlah Data
Gambar 6. Hasil Pengujian Pengaruh Jumlah Data Gambar 9. Perbandingan Pengujian Purity Metode
Terhadap Silhouette Coefficient Improved K-Means dan K-Means
1 k = 19Dalam melakukan perbandingan ini, metode k-means dilakukan sebanyak 7 kali
k = 23
0.8
percobaan dalam melakukan pengelompokan
0.6
dokumen pada nilai k = 2 hingga k = 25. Untuk menentukan nilai silhouette coefficient dan
0.4 purity maka ditentukan dengan memperoleh
0.2
nilai rata-rata silhouette coefficient dan purity dari 7 percobaan metode k-means yang
50 100 150 200 233
dilakukan. Nilai rata-rata silhouette coefficient
Jumlah Data dan purity kemudian dibandingkan dengan nilai
Gambar 7. Hasil Pengujian Pengaruh Jumlah Data dan purity pada metode
silhouette coefficientTerhadap Purity improved k-means untuk nilai k = 2 hingga k =
25 dan α = 0.50. Hasil perbandingan metode
4.3. Perbandingan Metode Improved K-Means
dan k-means dapat dilihat
improved k-means dan K-Means pada Gambar 8 dan Gambar 9.
Berdasarkan Gambar 8, penggunaan Perbandingan pengujian dalam penelitian metode improved k-means dalam melakukan dilakukan untuk mengetahui apakah metode pengelompokan dokumen J-PTIIK memiliki
improved k-means memiliki nilai silhouette
kualitas hasil klaster yang lebih baik bila
coefficient dan purity yang lebih baik bila
dibandingkan dengan penggunaan metode k- dibandingkan dengan metode k-means. Sebab
means. Metode improved k-means memiliki
pemilihan centroid awal klaster dalam metode k- nilai rata-rata silhouette coefficient pada k = 2
means dilakukan secara acak, sehingga dapat
hingga k = 25 sebesar 0,016457654. Sedangkan menghasilkan nilai silhouette coefficient dan metode k-means hanya memiliki nilai rata-rata
purity yang selalu berbeda ketika dilakukan silhouette coefficient sebesar 0,011820563.
pengelompokan. Hal yang berbeda jika dengan Hal ini disebabkan oleh pemilihan centroid menggunakan metode improved k-means awal klaster dalam metode improved k-means dimana pemilihan centroid awal yang dihasilkan dilakukan secara terstruktur melalui algoritme selalu tetap. pemilihan centroid. Sehingga setiap kali
0.03 K-Means
pengelompokan dokumen J-PTIIK dilakukan
0.025
dengan menggunakan metode improved k-means
Improved
selalu menghasilkan klaster yang sama. Hal
0.02 K-Means
berbeda terjadi ketika pengelompokan dokumen
0.015
J-PTIIK menggunakan metode k-means, maka
0.01
pengelompokan menghasilkan klaster yang
0.005
berbeda setiap kali pengelompokan dokumen J- PTIIK dilakukan. Hasil klaster yang berbeda ini
2
4
6 8 10 12 14 16 18 20 22 24
tentu berpengaruh terhadap nilai rata-rata
Jumlah Klaster silhouette coefficient ketujuh percobaan pada
Gambar 8. Perbandingan Pengujian Silhouette
metode k-means. Nilai yang dihasilkan memiliki
Coefficient Metode Improved K-Means dan K-
nilai silhouette coefficient yang cenderung lebih
Means
kecil bila dibandingkan penggunaan metode
improved k-means.
Pada Gambar 9, penggunaan metode
improved k-means dalam melakukan
pengelompokan dokumen memiliki nilai purity yang lebih baik pada saat nilai k = 17 hingga k = 25 bila dibandingkan dengan penggunaan metode k-means. Tetapi secara keseluruhan, metode improved k-means memiliki nilai rata- rata purity yang lebih buruk bila dibandingkan metode k-means. Metode improved k-means hanya memiliki nilai rata-rata purity pada k = 2 hingga k = 25 sebesar 0,619992847. Sedangkan metode k-means memiliki nilai rata-rata purity sebesar 0,623978132. Melalui grafik perbandingan ini juga dapat disimpulkan bahwa baik metode improved k-means ataupun k-means memiliki nilai purity yang terus bertambah baik pada saat nilai k atau jumlah klaster terus bertambah.
pada saat k = 19 dan α = 0.50. Nilai purity optimal diperoleh pada saat k = 23 dan α = 0.50 dengan nilai sebesar 0.738197. Hasil pengujian menunjukkan jumlah klaster mempengaruhi nilai silhouette coefficient dan purity. Semakin banyak jumlah klaster yang digunakan, maka nilai silhouette coefficient dan purity akan meningkat. Tetapi pada penggunaan jumlah klaster tertentu dalam mengelompokkan dokumen J-PTIIK mempengaruhi penurunan nilai silhouette coefficient.
silhouette coefficient optimal sebesar 0.026574
Berdasarkan pengujian yang dilakukan, metode improved k-means memiliki nilai
dokumen J-PTIIK dengan menggunakan metode improved k-means.
space model ), dan melakukan pengelompokan
Metode improved k-means dalam penelitian ini dapat digunakan untuk mengelompokkan dokumen J-PTIIK. Adapun tahap dalam melakukan pengelompokan dokumen J-PTIIK dimulai dari melakukan praproses teks dokumen J-PTIIK, melakukan pembobotan kata (vector
KESIMPULAN
5. HASIL PEMBERIAN LABEL
6 Sistem Rekomendasi
sebesar 0,011820563. Sementara metode
Penggunaan jumlah data yang berbeda juga mempengaruhi nilai silhouette coefficient dan
purity . Nilai yang dihasilkan cenderung
mengalami penurunan seiring bertambahnya jumlah data. Penggunaan metode improved k-
means juga memiliki nilai silhouette coefficient
yang lebih baik bila dibandingkan dengan penggunaan metode k-means, dengan nilai rata- rata silhouette coefficient pada improved k-
means sebesar 0,016457654 dan k-means
improved k-means memiliki nilai purity lebih
Pada proses terakhir pengelompokan dokumen J-PTIIK dilakukan pemberian label secara manual terhadap hasil pengelompokan dokumen J-PTIIK, dimana pemberian label dilakukan berdasarkan topik jurnal yang ada pada tiap klaster. Pemberian label berdasarkan topik jurnal pada tiap klaster diperoleh dengan cara melihat topik jurnal yang terdapat pada dokumen yang menjadi centroid akhir dari proses pengelompokan dokumen J-PTIIK. Hasil pemberian label berdasarkan topik jurnal secara manual dilakukan pada saat jumlah klaster bernilai 19, sebab nilai ini merupakan salah satu jumlah klaster yang optimal. Hasil pemberian label secara manual dapat dilihat pada Tabel 1.
buruk bila dibandingkan dengan penggunaan metode k-means, dengan nilai rata-rata purity pada improved k-means sebesar 0,619992847 dan k-means sebesar 0,623978132.
Pada penelitian berikutnya, metode pemilihan centroid awal klaster dapat menggunakan metode improved k-means yang lain atau metode pemilihan centroid yang lain. Pada proses akhir pengelompokan dokumen J- PTIIK juga dapat ditambahkan proses pemberian label klaster secara otomatis.
7. DAFTAR PUSTAKA
Çakir, M.U. & Güldamlasroglu, S., 2016. Text
Mining Analysis in Turkish Language Using Big Data Tools.
IEEE 40th Annual Computer Software and Applications Conference, pp. 614-618.
KLASTER
Tabel 1. Hasil Pemberian Label Klaster Klaster Label Berdasarkan Topik Jurnal
7 Genetika
14 Optimasi Rute
8 Particle Swarm Optimization
9 Profile Matching
10 Optimasi Genetika
11 Citra Digital
12 Sistem Online
13 Analisis Structural Equation Modeling
15 Internet of Things
1 Klasifikasi KNN
16 Perancangan Alat
17 Text Mining
5 Sistem Pendukung Keputusan
19 Analisis Wireless Sensor Network 6.
4 Genetika
3 Pengelompokan Fuzzy
2 Mixed Reality
18 Evaluasi QEF
Rahman, M.A., Islam, M.Z., & Bossomaier, T., 2015. ModEx and Seed-Detective: Two
- – An Overview. International
Improved K-means text clustering algorithm By Optimizing initial cluster centers. 7th International Conference on Cloud Computing and Big Data, pp.
Journal of Computer Science & Communication Networks, Vol. 5, No. 1, pp. 7-16. Xiong, C., Hua, Z., Lv, Ke. & Li, X., 2016. An
Preprocessing Techniques for Text Mining
International Journal of Engineering Research & Technology, Vol. 2, Issue 1. Vijayarani, S., Ilamathi, J., & Nithya, 2011.
Sutariya, A. & Amin, K., 2013. An Improvement in K-means Clustering Algorithm.
TFIDF Weighting for Text Categorization in the Vector Space Model.
395-400. Soucy, P. & Mineau, G.W., 2005. Beyond
K-means clustering using Voronoi diagram. Procedia Technology 4, pp.
University – Computer and Information Science, pp. 113-128. Reddy, D. & Jana, P.K., 2012. Initialization for
novel techniques for high quality clustering by using good initial seeds in K-Means. Journal of King Saud
Optimized K-Means Clustering with Intelligent Initial Centroid Selection for Web Search Using URL and Tag Contents. Sogndal: ACM.
Chayangkoon, N. & Srivihok, A., 2016. Two
2009. Scoring, term weighting and the vector space model . Poomagal, S. & Hamsapriya, T., 2011.
Journal of Global Research in Computer Science, Vol. 4, No. 3, pp. 36-39. Manning, C.D., Raghavan, P., & Schutze, H.,
on Applied and Theoretical Computing and Communication Technology, pp. 38-42. Kumar, L. & Bhatia, P.K., 2013. Text Mining: Concepts, Process and Applications.
Improvised Feature Based Model Approach. 2nd International Conference
Computer Science 61, Publication 5, pp. 38-45. KM, S. & Reddy, T.H., 2016. Text Mining: An
Quality Improvement of k-means using a Hybrid Evoluationary Model. Procedia
Karimov, J. & Ozbayoglu, M., 2015. Clustering
International Journal of Engineering & Technology Innovations, Vol. 1, Issue 4, pp. 22-25.
ICN CC’16, pp. 213-217. Kyoto: ACM. Dang, S. & Ahmad, P.H., 2014. Text Mining: Techniques and its Application.
Step Clustering Model for K-Means Algorithm.
265-268.