Muhammad Sholeh hudin1 , M Ali Fauzi

  

Vol. 2, No. 11, November 2018, hlm. 5518-5524 http://j-ptiik.ub.ac.id

Implementasi Metode Text Mining dan K-Means Clustering untuk

Pengelompokan Dokumen Skripsi (Studi Kasus: Universitas Brawijaya)

1 2

  3 Muhammad Sholeh hudin , M Ali Fauzi , Sigit Adinugroho

  Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya 1

  

Abstrak

  Penelitian atau tugas akhir

  7 merupakan syarat kelulusan 7 mahasiswa. Setiap tahun 7 penelitian

  menjadi bertambah

  7 dan memungkinkan mahasiswa 7 mengambil topik yang sama 7 atau hampir

  serupa. Melalui penelitian ini dikembangkan sebuah aplikasi untuk mengelompokkan laporan skripsi mahasiswa. Hasil dari pengelompokan laporan skripsi ini akan memperlihatkan bagaimana pola kemiripan dan keterkaitan antar penelitian dari waktu ke waktu. Hasil dari pengelompokan ini juga menunjukkan kapan tema penelitian mahasiswa menjadi bervariasi dan kapan tema penelitian menjadi kurang bervariasi. Laporan penelitian mahasiswa atau biasa disebut dengan laporan skripsi dapat dikelompokkan berdasarkan tema, objek maupun metode dari penelitian tersebut. Proses ekstraksi dokumen skripsi ini dilakukan dengan memanfaatkan teknologi dari text mining. Lalu untuk proses pengelompokan dokumen skripsi ini dilakukan dengan menggunakan metode k-means clustering pada sekumpulan dokumen skripsi dengan mengambil abstrak, kata kunci dan daftar isi sebagai informasi penting yang dapat mewakili isi dari dokumen. Lalu dokumen akan dilakukan preprocessing terlebih dahulu dengan menggunakan metode text mining. Untuk tahap preprocessing dibagi menjadi beberapa bagian, yakni tokenisasi, filtering, stemming dan term weighting. Setelah dokumen melewati tahap

  

preprocessing , maka dokumen dapat dikelompokkan dengan menggunakan metode dari k-means

clustering . Pada penelitian ini uji coba dilakukan dengan memasukkan jumlah cluster yang bervariasi.

  Dari hasil analisis dengan memasukkan nilai cluster yang berbeda telah didapatkan nilai optimal dengan memasukkan jumlah = 4 dengan nilai silhouette yang dihasilkan 0,483695522.

  Kata kunci: k-means clustering, silhouette coefficient, clustering dokumen, text mining

Abstract

Research or final assignment is a requirement of graduation students. Every year the research

becomes increasing and allows the students to take the same or similar topics. Through this research

developed an application to classify student thesis reports. The results of this grouping also indicate

that the themes are varied and when the themes becomes non-varied. Student research reports or

commonly called a thesis report can be grouped by theme, object or method of the research. The

process of extracting this thesis is done by using text mining technology. Then the process of grouping

thesis document can be done by using k-means clustering method on a set of thesis documents by

taking abstract, keywords and table of contents as an important information that represents the

content of the document. Then the document will be done preprocessing first by using text mining

method. To process the preprocessing is divided into several parts, namely tokenisasi, filtering,

stemming and term weighting. After the document passes through the preprocessing process, then the

document can be grouped by using the method of k-means clustering. In this experiment, trials are

conducted by entering the number of clusters that vary. From the results of the analysis by entering

the different cluster values have obtained the optimal value by entering the number of

  = 4 with the resulting silhouette value 0,483695522.

  k-means clustering, silhouette coefficient, clustering document, text mining Keywords:

  berkembang begitu pesat. Perkembangan 1. teknologi ini menyebabkan terjadinya ledakan

   PENDAHULUAN

  jumlah dokumen elektronik yang tersimpan di Perkembangan teknologi saat ini sudah

  Fakultas Ilmu Komputer Universitas Brawijaya

5518 dalam sebuah

  repository

  2.1 Text Preprocessing Text preprocessing merupakan salah satu

  2.1.3 Stemming Stemming adalah proses pengubahan

  Sedangkan word list yaitu menyimpang kata yang dianggap penting.

  stop list dan word list. Stop list yaitu membuang kata yang tidak deskriptif atau tidak penting.

  penting dari hasil token, yaitu kata-kata yang bisa digunakan untuk mewakili isi dari sebuah dokumen. Proses filtering juga biasa disebut sebagai stopword removal. Pada proses ini, terdapat dua teknik yang bisa dilakukan yaitu

  2.1.2 Filtering Filtering adalah tahap pemilihan kata-kata

  Tokenisasi adalah proses pemotongan string input berdasarkan tiap kata penyusunnya. Pada prinsipnya proses ini adalah memisahkan setiap kata yang menyusun suatu dokumen (Asian, 2007). Pada proses ini juga dilakukan penghilangan angka, tanda baca dan karakter lain selain huruf alphabet. Hal ini dikarenakan karakter-karakter tersebut dianggap sebagai pemisah kata (delimiter) dan tidak memiliki pengaruh terhadap pemrosesan teks.

  2.1.1 Tokenisasi

  tekstual yang tidak terstruktur ke dalam data yang terstruktur dan disimpan kedalam basis data (Langgeni, Baizal dan Firdaus, 2010). Tujuan dari preprocessing yakni menghasilkan sebuah set term index yang bisa mewakili dokumen. Komponen dari text preprocessing dibagi menjadi beberapa bagian, yaitu:

  preprocessing dilakukan untuk mengubah data

  komponen dalam text mining . Text

  2. KAJIAN PUSTAKA

  perpustakaan Universitas. Berbagai karya ilmiah dari sivitas akademika mulai dari skripsi, laporan penelitian, laporan kerja praktik dan lain sebagainya telah tersedia dalam versi digital.

  menjadi metode yang diperhitungkan dalam melakukan clustering.

  K-Means

  Berdasarkan permasalahan diatas, solusi yang ditawarkan yaitu dengan mengelompokkan dokumen skripsi menggunakan sistem. Sehingga dapat menjadi acuan bagi tiap dosen pembimbing dalam menerima pengajuan penelitian baru. Hal ini dimaksudkan agar penelitian bisa lebih variatif setiap tahunnya. Dikarenakan penelitian ini menggunakan dokumen teks sebagai data penelitian, maka penelitian ini membutuhkan metode text mining sebagai preprocessing nya. Begitu juga karena K-Means telah dikenal sebagai metode clustering yang sangat effisien, maka

  dalam penggunaannya. K-means seringkali digunakan dalam permasalahan clustering dikarenakan mempunyai kemampuan mengelompokkan data dalam jumlah yang cukup besar dan dengan waktu komputasi yang relatif cepat serta efisien.

  clustering yang cukup sederhana dan umum

  Menurut Alfiana, Santoso dan Ali Ridho B (2012) metode K-means merupakan metode

  telah dilakukan clustering. Selama ini seleksi penelitian yang dilakukan oleh dosen pembimbing skripsi masih terbilang manual. Seleksi yang dilakukan dosen pembimbing berdasarkan pengalaman dari mahasiswa yang pernah dibimbing saja. Sementara untuk peluang kemiripan dengan penelitian antar dosen pembimbing tidak diketahui. Dengan mengacu pada pengelompokan laporan skripsi ini, diharapkan dosen bisa lebih variatif dalam menyetujui proposal penelitian yang akan dilakukan oleh mahasiswa antar pembimbing.

  cluster yang sama jika sebuah koleksi dokumen

  Pada penelitian ini data yang digunakan berupa dokumen teks, maka text mining adalah metode yang bisa digunakan untuk melakukan data preprocessing. Menurut Rijbergen (1979) bahwa penerapan clustering dokumen dapat meningkatkan efektifitas temu kembali informasi. Dengan mengacu pada suatu hipotesis (cluster-hypothesis) bahwa dokumen yang relevan akan cenderung berada pada

  Setiap tahun Universitas Brawijaya telah meluluskan banyak mahasiswa dengan penelitian yang beragam. Dan setiap tahunnya jumlah laporan skripsi selalu bertambah. Semakin bertambahnya penelitian skripsi ini menumbuhkan peluang semakin banyaknya mahasiswa yang mengambil penelitian dengan tema, objek dan metode penelitian yang mirip atau hampir sama.

  bentuk kata menjadi kata dasar atau tahap mencari root kata dari setiap kata hasil filtering. Proses stemming secara luas sudah digunakan di dalam Information retrieval (pencarian informasi) untuk meningkatkan kualitas informasi yang akan didapatkan. Dengan dilakukannya proses stemming ini, setiap kata yang berimbuhan akan berubah menjadi kata dasar. Dengan demikian dapat lebih mengoptimalkan proses text mining.

  Pada penelitian ini akan digunakan algoritme stemming porter. Berikut langkah- langkah algoritme porter seperti pada penelitian yang dilakukan oleh Agusta dan Ledy (2009) adalah sebagai berikut: 1.

  3. Menentukan jarak setiap data terhadap pusat cluster(centroid)

  , ×

  10 / (3)

  2.2 K-means Clustering Clustering merupakan proses

  mengelompokkan atau penggolongan objek berdasarkan informasi yang diperoleh dari data yang menjelaskan hubungan antar objek dengan prinsip untuk memaksimalkan kesamaan antar anggota satu kelas atau cluster dan meminimumkan kesamaan antar cluster menurut Tan, Steinbach dan Kumar (2006). Sementara clustering akan membagi data ke dalam grup-grup yang mempunyai objek yang karakteristiknya sama.

  Menurut Han & Kamber (2006), algoritme

  k-means bekerja dengan cara membagi data ke dalam k buah cluster yang telah ditentukan.

  Perhitungan jarak yang digunakan dalam penelitian ini adalah cosine similarity. Tahap- tahap Algoritme dasar k-means seperti berikut: 1.

  Tentukan jumlah k sebagai cluster yang ingin dibentuk.

  2. Menentukan pusat cluster secara acak sebanyak k.

  4. Mengelompokkan setiap data yang bersangkutan berdasarkan kedekatannya dengan centroid (jarak terkecil).

  Hapus Particle.

  5. Menentukan pusat cluster baru.

  Memperbaharui nilai centrid dari rata-rata

  cluster yang bersangkutan dengan

  menggunakan persamaan (4) ( + 1) =

  1

  ∑ jϵsj

  (4) 6.

  Ulangi langkah 3 hingga 5 sampai anggota yang ada pada tiap cluster tidak berubah.

  7. Jika langkah 6 sudah terpenuhi, maka nilai pusat cluster pada perulangan terakhir akan

  , = , × =

  disebut TF-IDF dari suatu term atau token atau kata merupakan hasil perkalian antara tf weight dengan idf. Rumus pada persamaan (3)

   TF-IDF Weight Term Document atau biasa yang

  = 10 / (2) d.

2. Hapus Possesive Pronoun.

  3. Hapus awalan pertama. Jika tidak ada lanjutkan ke langkah 4a, jika ada maka lanjutkan ke langkah 4b.

  4.

a. Hapus awalan kedua. lanjutkan ke langkah 5a.

  , = {1 + 10 , ,

  a. Hapus akhiran. Kemudian kata akhir diasumsikan sebagai root word b. Hapus awalan kedua. Kemudian kata akhir diasumsikan sebagai root word.

  disebut dengan IDF ini merupakan dokumen yang mengandung term atau token atau kata t. Untuk mendapatkan nilai IDF dapat digunakan persamaan (2)

   Inverse Document Frequency Inverse Document Frequency atau biasa

  (1) c.

  b. Hapus akhiran. jika tidak ditemukan maka kata tersebut diasumsikan sebagai root

  word . Jika ditemukan maka lanjutkan ke langkah 5b.

  5.

  2.1.4 Term Weighting Term weighting adalah suatu pembobotan

  dari setiap term yang telah disimpan. Untuk mendapatkan bobot dari term dapat digunakan persamaan (1)

  kata dalam suatu dokumen yang biasa digunakan dalam algoritme text mining (Asian, 2007).

  Langkah untuk melakukan pembobotan dibagi menjadi beberapa bagian , yaitu

  , > 0 0, ℎ

   Term Frequency Term Frequency (TF) adalah frekuensi dari

  kemunculan sebuah term (kata/frasa) dalam dokumen yang bersangkutan. Semakin besar jumlah kemunculan suatu term dalam dokumen, maka semakin besar pula bobotnya.

  b.

   Term Weighting Term Weighting yaitu menghitung bobot

  a. digunakan sebagai parameter untuk dengan menggunaan persamaan (8) kelompok dokumen skripsi.

  ( )− ( ) (8)

2.3 Cosine Similarity ( ) =

  max( ( ), ( )

  merupakan fungsi yang

  Cosine Similarity

  digunakan untuk menghitung besarnya derajat

3.

DATA DAN METODE

  kemiripan di antara dua vektor (dokumen Berdasarkan Gambar (1) menjelaskan dengan query/dokumen dengan dokumen). tahapan-tahapan yang dilakukan dalam

  Pada penelitian yang dilakukan oleh Amir pengelompokan dokumen skripsi pada Hamzah et al. (2008) menghasilkan output penelitian ini. Dalam tahap preprocessing akan bahwa perhitungan jarak terbaik dapat dilakukan sub proses lagi seperti yang telah dilakukan dengan menggunakan cosine dijelaskan pada bagian sebelumya. Begitupun

  similarity. Untuk menghitung similarity

  dengan tahap term weighting juga ada sub digunakan persamaan (5) proses yang dilakukan dalam sistem seperti yang telah dijelaskan pada bagian bab sebelumnya.

  → → ⋅ ⋅ )

  ∑ ( =1

  ( , ) = = (5) | →| ⋅| →| 2 ⋅ ∑ =1

  √∑ =1

2 Mulai

2.4 Silhouette Coefficient

  Masukan Silhoutte Coefficient merupakan salah satu dokumen

  metode yang digunakan untuk menguji kualitas dan kekuatan dari sebuah cluster. Metode

  silhouette coefficient merupakan gabungan dari Masukan metode cohesion dan metode separation.

  Jumlah K

  Metode cohesion sendiri merupakan suatu metode yang digunakan untuk mengukur

  Preprocessing

  seberapa dekat relasi antar objek dalam satu

  cluster yang sama. Sedangkan metode separation digunakan untuk mengukur seberapa

  jauh sebuah cluster terpisah dengan cluster

  Term Weighting yang lain.

  Silhouette memiliki tiga tahap dalam Klasterisasi

  perhitungannya, Berikut tahap perhitungan

  k-means silhouette coefficient menurut Handoyo et. al

  (2014):

  Hasil a.

  Menghitung rata-rata jarak objek dengan

  Klasterisasi

  semua dokumen yang berada dalam satu cluster dengan menggunakan persamaan (6)

  Selesai

  1 (6)

  ( ) = ∑ ∈ ( , )

  , ≠ [ ]−1 Gambar 1. Diagram Alir Sistem b.

  Pada penelitian ini, program dibuat Kemudian menghitung jarak objek dengan semua dokumen antar cluster dengan menggunakan Bahasa pemrograman PHP. Dan menggunakan persamaan (7) data yang nantinya diproses akan disimpan menggunakan database MySql. Pengguna dapat

  1

  berinteraksi dengan program melalui antarmuka

  (7)

  ( , ) = ∑ ∈ ( , )

  [ ]

  yang telah dibuat. Antarmuka yang dibuat antara lain: c.

  Kemudian menghitung nilai silhouette 1.

  Halaman home sistem Pada halaman awal sistem ini akan langsung menampilkan dokumen yang telah tersimpan di dalam database. Dokumen ini dapat di edit, di update atau di hapus. Kemudian pada halaman ini juga tersedia tombol untuk input dokumen baru. Gambar 2 menampilkan halaman utama sistem.

  2. Halaman input dokumen Untuk memasukkan dokumen baru, pengguna harus masuk pada halaman awal terlebih dahulu. Kemudian pengguna diharuskan menekan tombol tambahkan data yang telah disediakan pada halaman tersebut.

  means clustering . Dan untuk perhitungan similarity nya menggunakan metode cosine similarity .

  Pada penelitian ini telah didapatkan hasil clustering dari 30 dokumen skripsi dari tiga fakultas di Universitas Brawijaya. kemudian hasil clustering yang didapatkan akan di uji menggunakan metode silhouette coefficient.

  4. HASIL DAN PEMBAHASAN

  cluster . Sehingga diketahui hasil cluster telah optimal atau belum.

  mengetahui jarak kesamaan antar dokumen yang berada dalam satu cluster maupun luar

  cluster . Tujuan dari perbandingan ini yaitu

  membandingkan dokumen dengan dokumen lain baik yang di dalam cluster maupun diluar

  coefficient . Silhouette coefficient akan

  Setelah hasil clustering dokumen didapatkan, perhitungan selanjutnya yaitu pengujian menggunakan metode silhouette

  Setelah dokumen memiliki bobot, langkah selanjutnya yaitu mengelompokkan dokumen tersebut berdasarkan bobot nilai yang telah dihitung sebelumnya. Pengelompokan ini dilakukan dengan menggunakan metode k-

  3. Halaman stopword list Halaman ini berisi kumpulan stopword yang digunakan pada program penelitian ini.

  Untuk pertama kali dokumen akan dilakukan text preprocessing seperti yang telah dijelaskan pada bagian Dasar Teori. Kemudian hasil dari preprocessing akan menghasilkan kata atau term yang nantinya akan disimpan dalam database. Kemudian kata atau term ini dihitung bobotnya menggunakan metode dari text minin g yaitu TF-IDF.

  Pada penelitian ini menggunakan metode text mining sebagai text preprocessing nya. Kemudian TF-IDF digunakan sebagai pembobotan kata. Dan untuk pengelompokan dokumen skripsi menggunakan metode k-means clustering .

  3.2. Metode yang digunakan

  Dokumen yang didapat sudah berbentuk word dan setiap dokumen skripsi sudah terbagi menjadi beberapa bagian, misal: bagian abstrak pada file sendiri, bagian daftar isi pada file sendiri dan bagian-bagian lain yang terpisah. Dokumen yang terpisah tersebut memudahkan penelitian ini.

  Pada penelitian ini menggunakan data berupa dokumen skripsi berbentuk digital yang ddidapat dari perpustakaan pusat Universitas Brawijaya. Jumlah dari dokumen skripsi yang digunakan pada penelitian ini berjumlah 30 dokumen. Dokumen tersebut terdiri dari tiga fakultas yang antara lain: sepuluh dokumen skripsi Fakultas Ilmu Komputer, sepuluh dokumen skripsi berikutnya dari Fakultas Ekonomi dan Bisnis dan sepuluh dokumen berikutnya dari Fakultas Kedokteran Gigi.

  Gambar 2. Halaman awal sistem

  Pengujian ini bertujuan untuk menguji hasil dari cluster yang didapatkan apakah sudah mendapatkan nilai yang optimal atau masih belum.

  4. Halaman clustering Pada halaman clustering tersedia beberapa fitur. Fitur utama yaitu pengguna dapat memasukkan jumlah cluster sesuai yang diinginkan. Dibawah kolom input cluster tersedia kolom yang akan menampilkan jumlah dokumen yang tersedia didalam database. Sehingga jumlah cluster bisa diperkirakan. Untuk fitur selanjutnya yaitu perhitungan cluster untuk dokumen yang berada pada database. Setelah cluster dokumen didapatkan, pengguna dapat melanjutkan pada fitur pengujian cluster.

3.1. Data yang digunakan

  • 0,007265344
  • 0,012063262
  • 0,118741627 0,237898925
  • 0,15997194 0,33211377

  • 0,501478113 0,175914821
  • 0,439431821 0,14490715 0,789205375 0,886371513
  • 0,271904049
  • 0,082242617
  • 0,094318095
  • 0,132618233
  • 0,214597801 0,302225093 Tabel 1. Pengujian nilai k (Lanjutan)
  • 0,2 0,2 0,4 0,6

  5 = 6

  juga tidak memiliki structure (Kauffman & Rouseeuw, 2007). Hal ini dikarenakan pada penelitian ini menggunakan dataset dokumen berjumlah 30 dokumen. Ketika nilai berjumlah sedikit, maka dokumen yang memiliki similaritas tinggi maupun tidak akan berada pada satu cluster yang sama. Begitu pula ketika nilai cluster yang dimasukkan semakin banyak, maka dokumen yang memiliki similaritas tinggi dan seharusnya berada pada satu cluster akan terpecah dan berada pada

  structure ketika diuji menggunakan silhouette coefficient . Begitu pula ketika jumlah k diatas 4

  Dengan mengacu pada Tabel 1 diatas dapat disimpulkan variasi hasil dari setiap nilai . Nilai optimal didapatkan ketika berjumlah 4. Nilai yang berada dibawah 4 tidak memiliki

  dari masing-masing cluster dengan menggunakan teori dari Kaufman dan Rouseeuw (2007).

  structure

  Dari percobaan diatas dapat disimpulkan

  • 0,013732242
  • 0,01903316
  • 0,015212198
  • 0,005073366

  = 4

  . Hasil tersebut dapat ditampilkan dengan menggunakan grafik seperti pada Gambar 2.

  Gambar 2. Grafik hasil pengujian nilai k 5.

  N il a i S il ho utt e C oe ff ic ie nt

  No Structure

  4 = 5

  No Structure

  Dari hasil pengujian nilai yang ditampilkan pada Tabel 1. dapat diambil kesimpulan bahwa pada sistem ini nilai yang optimal terletak pada

  0,583790633 0,82017191 0,232423065 0,421578712

  0,360513287 0,483695522 Weak Structure

  3 = 4

  0,328257208 0,123911267 No Structure

  2 = 3

  No Structure

  1 = 2

  Nilai Structure

  Silhouette Coefficient Rata-Rata

  Tabel 1. Pengujian nilai k Nilai

  Pada pengujian ini akan dilakukan dengan memasukkan nilai k yang bervariasi sebanyak 6 kali. Untuk setiap nilai akan dilakukan 5 kali percobaan. Untuk hasil dari percobaan bisa dilihat pada Tabel 1.

  Nilai k k = 2 k = 3 k = 4 k = 5 k = 6 k = 8

  cluster yang berbeda.

KESIMPULAN DAN SARAN

  No Structure

  6 = 8

  Structure

  Dari uji coba yang dilakukan pada bab sebelumnya dapat diambil kesimpulan bahwa

  clustering dokumen menggunakan k-means clustering dapat dilakukan pada dokumen

  skripsi. Sistem dapat mengelompokkan

  Nilai Silhouette Coefficient

  Rata-Rata Nilai

  • 0,168183135
  • 0,132422789
  • 0,1538316
  • 0,341447405
  • 0,14167285 0,143021046
dokumen dengan menggunakan algoritme k- Burlington : Morgan Kaufman Publishers.

  

means clustering dan text mining. Dokumen Handoyo, R., Rumani, R.M. & Michrandi, S.N.

  skripsi akan dikelompokkan dengan mengambil 2014. Perbandingan Metode Clustering bagian-bagian terpenting seperti, abstrak, kata

  Menggunakan Metode Single Linkage dan kunci dan daftar isi sebagai intisari dokumen. K-Means pada Pengelompokan Dokumen .

  Dari hasil analisis dengan memasukkan JSM STMIIK Mikroskil. Vol. 15, No. 2. nilai cluster yang bervariasi telah didapatkan Kaufman, L & Rousseuw, P. J., 1990. Finding nilai optimal dengan memasukkan jumlah Groups in Data . New York: John Wiley

  = dengan nilai silhouette yang dihasilkan & Sons.

  4

  0,483695522. Dari hasil tersebut dapat Langgeni, Baizal & Firdaus., 2010. Clustering disimpulkan bahwa nilai yang sedikit akan Artikel Berita Berbahasa Indonesia menghasilkan cluster yang kurang bagus. Menggunakan Unsupervised Feature Begitu pula ketika memasukkan nilai yang Selection. Yogyakarta : Seminar Nasional terlalu besar juga akan merusak pengelompokan Informatika. dokumen yang seharusnya berada pada satu Rijbergen, C. J., 1979. Information Retrieval.

  

cluster menjadi terpisah antar cluster. UK : Information Retrieval Group,

Dari hasil analisis, dapat disimpulkan University of Glasgow.

  bahwa metode text mining dengan Tan, P.N., Steinbach, M. & Kumar, V., menggunakan kata atau term sebagai fitur akan 2006. Introduction to Data Mining . menghasilkan dimensi vektor yang cukup besar. Boston : Pearson Education Sehingga membuat algoritme cosine similarity menjadi kurang optimal dalam menemukan kesamaan antar dokumen. Sehingga disarankan untuk menambahkan metode yang dapat mereduksi ukuran dimensi yang cukup besar tersebut. Secara umum ada dua tipe metode reduksi yang biasa digunakan antara lain transformasi fitur dan feature selection.

6. DAFTAR PUSTAKA

  Agusta & Ledy., 2009. Perbandingan

  Algoritme Stemming Porter dengan Algoritme Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia . Bali : Konferensi Nasional

  Sistem dan Informatika. Alfina, T., Santosa, B. & Ridho, A.B., 2012.

  Analisa Perbandingan Metode Hierarchical Clustering, K-means dan Gabungan Keduanya dalam Cluster Data.

  Jurnal Teknik ITS. Vol. 1. Asian, J., 2007. Effective Techniques for

  Indonesian Text Retrieval . PhD. Royal

  Melbourne Institute of Technology University. Hamzah, A., Soesianto, F., Susanto, A. & Eko,

  J.E., 2008. Studi Kinerja Fungsi-Fungsi

  Jarak Dalam Clustering Dokumen Teks Berbahasa Indonesia. Seminar Nasional

  Informatika.

  ISSN: 1979-2328. Yogyakarta: UPN “Veteran”.

  Han, J &Kamber, M., 2006. Data Mining Concept and Techniques Second Edition.