Pengelompokan Artikel Berbahasa Indonesia Dengan Menggunakan Reduksi Fitur Information Gain Thresholding Dan K-Means

  

Vol. 2, No. 10, Oktober 2018, hlm. 3822-3828 http://j-ptiik.ub.ac.id

Pengelompokan Artikel Berbahasa Indonesia Dengan Menggunakan

Reduksi Fitur Information Gain Thresholding Dan K-Means

1 2 3 Novia Agusvina , Indriati , Nurudin Santoso

  Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya

  1

  2

  3 Email: noviaagusvina@student.ub.ac.id , indriati.tif@ub.ac.id, nurudin.santoso@ub.ac.id

Abstrak

  Semakin banyaknya artikel yang tersebar di situs internet, menyulitkan pengguna dalam menemukan artikel yang diinginkan. Salah satu penyedia layanan artikel online adalah Kompas.com. Untuk menghadapi persaingan antar industri media massa, langkah yang dilakukan Kompas.com adalah memberikan fitur yang memudahkan pengguna, seperti fitur rekomendasi artikel terkait. Namun, dalam penerapannya Kompas.com masih kurang maksimal sehingga tetap kalah dengan media massa online lainnya. Pada penelitian ini, peneliti mengimplementasikan metode reduksi fitur Information Gain Thresholding dan K-Means untuk membuat kelompok artikel terkait. Tujuan dari penelitian ini adalah untuk memperbaiki sistem artikel terkait dari Kompas.com. Dalam pengimplementasian digunakan bahasa java. Pada tahap awal dilakukan preprocessing untuk mengurangi gangguan dalam data, selanjutnya dilakukan reduksi fitur untuk mengurangi fitur yang digunakan agar proses kebih cepat, kemudian dilakukan pembobotan sebagai dasar untuk menghitung jarak antar dokumen, setelah menemukan nilai jarak awal atau centroid , pengelompokan dapat dilakukan. Hasil menunjukan bahwa pengelompokan artikel dengan metode Information Gain Thresholding dan K-Means mampu menghasilkan kelompok dokumen yang baik dengan nilai silhouette coefiecient sebesar 0.9595 dan purity measure sebesar 0.75 dengan penggunaan 3 cluster dan batas ambang untuk reduksi fitur terbaik adalah 0.04 dengan nilai kemurnian data jauh lebih baik dibandingkan tanpa reduksi fitur.

  Kata kunci : artikel online, reduksi fitur, information gain thresholding, pengelompokan, K-Means

Abstract

The increasing number of articles spread on the internet site, making it difficult for users to find the

desired article. One of the online article service providers is Kompas.com. To face the competition

among mass media industry, Kompas.com step is to provide features that facilitate the user, such as

features related article recommendations. However, in its application Kompas.com is still less than the

maximum so it remains inferior to other online mass media. In this study, researchers implemented a

method of reducing the features of Information Gain Thresholding and K-Means to create a group of

related articles. The purpose of this study is to improve the system related articles from Kompas.com.

In implementing the use of java language. In the early stages of preprocessing to reduce the disturbance

in the data, then the feature reduction is done to reduce the features used for faster process, then

weighted as the basis for calculating the distance between documents, after finding the distance of the

initial distance or centroid, grouping can be done. The results show that the clustering of articles using

Information Gain Threshold and K-Means is good enough, has criteria of silhouette coefficient of 0.9595

and a purity measure of 0.75 with 3 clusters and 0.04 threshold limit, this conclude that it gives better

purity compared to without feature reduction.

  Keywords online articles, feature reduction, information gain thresholding, clustering, K-Means

  : artikel online adalah Kompas.com. Untuk

1. PENDAHULUAN menghadapi persaingan antar industri media

  massa, langkah yang dilakukan Kompas.com Artikel online merupakan salah satu sumber adalah memberikan fitur yang memudahkan informasi yang umum dan dapat dengan mudah pengguna, seperti fitur rekomendasi artikel ditemukan di situs internet (Lonnberg dan terkait.

  Yregard, 2013). Salah satu penyedia layanan

  Fakultas Ilmu Komputer Universitas Brawijaya

3822

  Pre-processing text merupakan tahapan awal dalam text mining dimana tujuannya adalah melakukan pembersihan terhadap kata kata yang tidak penting sehingga kata yang berkualitas dapat diproses menggunakan algoritma tertentu (Sanjaya dan Absar, 2015). Tahapan pre-

  Diharapkan hasil dari pengelompokan dapat digunakan industri media massa sebagai referensi pembangunan sistem artikel terkait.

  2.2.1 Pre-processing

  Text mining memiliki definisi menggali data berupa teks yang sumbernya berupa dokumen untuk mencari kata kata yang dapat mewakili dokumen. Ilmu Text Mining digunakan untuk mengubah kumpulan teks menjadi numerik sehingga dapat dikomputasikan. Teknik ini disebut sebagai teknik pre-processing (Sari dan Puspaningrum, 2013).

  2.2. Text Mining

  Menurut Tan, dkk (2006) kegunaan dari pengelompokan adalah untuk peringkasan, kompresi, dan menemukan objek terdekat. Pengelompokan dibagi menjadi beberapa tipe, seperti :

  Pengelompokan adalah proses mengelompokan objek yang memiliki kesamaan ke dalam suatu kelompok yang memainkan peran yang penting bagi manusia untuk menganalisis dan menggambarkan kumpulan objek tersebut (Tan,dkk, 2006).

  2.1. Pengelompokan (Clustering)

  2. LANDASAN KEPUSTAKAAN

  K-Means untuk pengelompakan yaitu karena metode K-Means terbukti akurat (Zade, dkk, 2017; Subandi, 2014). Seadngkan penambahan metode information gain thresholding adalah agar fitur yang diproses dapat dikurangi dan komputasi menjadi lebih cepat (Dewi, 2013).

  • Lengkap dan Sebagian Pengelompokan memiliki hubungan yang erat dengan masalah pengurangan dimensi. Data berdimensi tinggi sering kali menantang untuk dianalisis, karena semakin meningkatnya keberagamanan data. Metode klastering dapat dilihat sebagai perpaduan antara metode seleksi fitur / dimensionality reduction dengan pengelompokan (Aggarwal dan Reddy, 2014).

  Berdasarkan uraian diatas maka pada penelitian ini akan digunakan metode K-Means untuk pengelompokan artikel dan memanfaatkan teknik reduksi fitur Information Gain Thresholding. Alasan dari penggunaan metode

  Penelitian mengenai penambahan reduksi fitur pada pengelompokan dokumen pernah diteliti oleh Dewi (2013). Dalam penelitian tersebut didapatkan hasil yang berbeda antara pengelompokan dokumen hanya dengan metode K-Means dengan pengelompokan dengan Metode K-Means yang dibantu seleksi fitur DF- Threshold. Dengan adanya reduksi fitur terdapat pengaruh terhadap fitur yang dipilih dan keragaman dokumen. Namun tidak menutup kemungkinan bahwa penggunan metode reduksi fitur yang lain akan menghasilkan akurasi yang berbeda (Dewi, 2013).

  Seleksi fitur sendiri merupakan teknik reduksi dimensi yang digunakan untuk memperkecil matrik data namun masih memperhatikan kepentingan kata.

  Sedangkan dokumen yang besar berarti memiliki fitur kata yang banyak. Oleh karena itu dibutuhkan seleksi fitur untuk mengurangi dimensi fitur untuk meningkatkan kinerja algoritma (Maulida, 2016).

  Pada penelitian ini, peneliti ingin memperbaiki fitur artikel terkait pada Kompas.com dengan metode hard-clustering. Penelitian mengenai pengelompokan artikel sendiri sebenarnya sudah banyak dilakukan. Salah satunya adalah penelitian oleh Zade, dkk, dimana dalam penelitiannya digunakan objek berupa dokumen. Hasil dari penelitian tersebut yaitu ukuran dokumen yang besar memberi keuntungan pada metode K-Means untuk meningkatkan ukuran kesamaan. Metode K- Means adalah metode untuk mengelompokan objek sebanyak k partisi (Zade, dkk, 2017).

  Menurut Ghosh dan Dubay (2013) metode Fuzzy c-means, salah satu metode soft clustering, sebenarnya tidak lebih baik dari metode hard clustering, yaitu k-means. Walaupun sebenaranya metode tersebut mampu menangani data yang tidak lengkap dan informasi campuran, namun hasil pengelompokan dan waktu komputasi tidak lebih baik dari metode hard clustering.

  Fitur artikel terkait merupakan salah satu penerapan dari konsep pengelompokan (Tan, dkk, 2006). Dalam pengelompokan artikel terkait, Kompas.com menggunakan tipe soft clustering dimana setiap objek dapat memiliki kelompok lebih dari satu satu (Zade, dkk, 2017).

  • Hirarki dan Partisi • Eksklusif, overlapping, dan fuzzy
processing meliputi tokenisasi, stopword removal, dan stemming (Zaini, dkk, 2017).

  Tokenisasi adalah proses memotong kalimat menjadi potongan- potongan kata, yang disebut token, dan pada saat yang sama karakter- karakter tertentu, seperti tanda baca dihapus (Manning, 2008).

  , √∑ (

  Information Gain (IG) dari suatu term diukur dengan menghitung jumlah bit informasi yang diambil dari prediksi kategori dengan ada atau tidaknya term dalam suatu dokumen (Maulida, dkk, 2016). Information Gain atau biasa disebut IG adalah salah satu atribut pengukuran seleksi data untuk memilih tes pada atribut. Secara matematis dituliskan pada persamaan 6.

  2.3.1 Information Gain Thresholding

  2.3. Data Mining

  : kedekatan dokumen yang dicari

  5 k : jumlah dokumen d ik : panjang dokumen ke i d jk : panjang dokumen ke query cos

  (5) Dimana diketahui nilai variabel dari persamaan

  Dalam tahap ini kemiripan dokumen skripsi dengan setiap dokumen yang ada dihitung. Hitung kemiripan vektor query Q dengan setiap dokumen yang ada. Kemiripan antar dokumen dapat menggunakan cosine similarity. Rumus di tuliskan pada persamaan 5. cos = ∑ ( )

  2.2.3 Cosine Similarity

  Pembobotan tf-idf digunakan untuk mengukur seberapa penting suatu kata dalam suatu dokumen. Untuk perhitungan tf-idf pada dapat dilihat pada implementasi.

  (4) Dimana : n : banyaknya kata t : iterasi kata ke- Wt,d : nilai bobot akhir kata

  2 =1

  , )

  Kemudian lakukan normalisasi pada bobot yang telah didapatkan dengan menggunakan persamaan 4.

  Sedangkan

  Idft : inverse document frequency atau pembobotan global Wt,d : nilai bobot akhir kata

  Dimana: Tftd : term frekuensi atau banyaknya kata pada dokumen atau pembobotan local

  t,d = tf t,d x idf t (3)

  W

  Dari persamaan 1 dan persamaan 2 baru bisa ditentukan nilai bobotnya (Wt,d) dengan mengalikan kedua persamaan sehingga menjadi persamaan 3

  = 10log n/df t (2) Idft : inverse document- frequency atau pembobotan global n : banyaknya dokumen dft : banyaknya dokumen yang memiliki kata t.

  Mencari nilai inverse document- frequency melalui persamaan 2 idf t

  = 1+ 10Log tf (1) Dimana setiap variable dijelaskan sebagai berikut : tf : term frekuensi atau banyaknya kata pada dokumen Tft,d : term frekuensi atau banyaknya kata t pada dokumen d atau pembobotan local

  Mencari nila term-frequency melalui persamaan 1 Tf t,d

  Term Frequency dan Inverse Document Frequency (TF-IDF) merupakan pembobotan yang sering digunakan dalam penelusuran informasi dan text mining (Turney dkk, 2010).

  mengubah token menjadi kata dasar. Kata dasar biasanya digunakan di beberapa artikel dengan berbahagai imbuhan yang bisa jadi sama atau berbeda (Zaini, dkk, 2017).

  Selanjutnya tahapan terkahir yaitu stemming. Stemming merupakan teknik untuk

  Stopword Removal adalah pembuangan kata yang sering muncul tapi tidak memiliki makna yang penting (Kogilavani dan Balasubramani, 2010).

2.2.3 Pembobotan TF-IDF

  | | | |

  x1 = nilai data record ke-1 Entropy(S) = - (6)

  Σ og x2 = nilai data record ke-2

  Σx = jumlah data record Kemudian dari rumus entropy diatas

  5. Ulangi langkah 2 dan 3 sampai centroid dapat dicari nilai Information Gain dengan tidak berubah persamaan 7.

  3. METODE PENELITIAN

  InfoGain (S,A) = (7) Metodologi penelitian yang dilakukan dalam

  Entropy(S) - Σ| |

  Skripsi dengan judul “Pengelompokan Artikel ∈ ( ) ( )

  Berbahasa Indonesia dengan Reduksi Fitur Information Gain Thresholding dan K- Means”

  Dimana S adalah jumlah seluruh fitur, A dijelaskan melalui beberapa tahapan yang adalah kategori, Sv adalah jumlah sampel untuk diilustrasikan dalam diagram blok metode nilai v, v adalah nilai yang mungkin untuk penelitian sebagai berikut kategori A, Si adalah fitur ke I, dan Value(A) adalah himpunan nilai-nilai yang mungkin untuk kategori A.

  Fitur yang dipilih adalah fitur dengan nilai Information Gain yang tidak sama dengan nol dan lebih besar dari suatu nilai threshold tertentu. Ide dibalik Information Gain untuk memilih fitur adalah menyatakan fitur dengan informasi yang paling signifikan terhadap kategori.

2.3.2 K-Means

  Metode k-means adalah algoritma pembelajaran tanpa data latih. Metode ini paling sederhana dan paling banyak digunakan. Prosedur pengelompokan dari metode ini adalah mendefiniskan kelompok k dan satu k center untuk setiap cluster. (Zade, dkk, 2017)

  Algoritma K-Means merupakan algoritma

  Gambar 1 Diagram Blok Metode Penelitian

  untuk mengelompokan dokumen berdasarkan jarak terdekat. Menurut Adiningsih (2007),

  Berdasarkan bagan di atas, tahapan

  tahap penyelesaian algoritma K-Means adalah

  penelitian skripsi dapat dijelaskan

  sebagai berikut:

  sebagai berikut:

  1. Menentukan K buah titik yang 1.

  Melakukan studi literatur terkait

  merepresentasikan obyek pada setiap cluster

  metode dan teknik yang digunakan (centroid awal). dalam penelitian

  2. Menetapkan setiap objek pada cluster 2.

  Melakukan analisa terhadap kebutuhan

  dengan posisi centroid terdekat. Adapun sistem. cara untuk menentukan jarak yaitu dengan 3. menggunakan persamaan 5. Melakukan perancangan sistem 3. Jika semua objek sudah dikelompokkan 4.

  Melakukan implementasi berdasarkan

  maka dilakukan perhitungan ulang dalam

  dari hasil analisa dan perancangan yang menentukan centroid yang baru. telah dilakukan sebelumnya.

  4. Untuk menentukan centroid baru persamaan

  Melakukan pengujian terhadap sistem,

  yang digunakan dituliskan pada persamaan

  dengan menggunakan parameter

  • –parameter 8.

  tertentu, untuk mengetahui tingkat akurasi sistem.

  • ⋯+

  (8) =

  ∑

  3.1 Teknik Pengumpulan Data

  Keterangan: Metode pengumpulan data yang

  Reduksi Fitur. Setiap pengujian dilakukan

  Gambar 2 Rancangan Antarmuka 2.

  Purity , dan Uji Coba Batas Ambang untuk

  Pada penelitian ini dilakukan percobaan sebanyak 3 kali yaitu silhoutte coeffiecient,

  4. PENGUJIAN DAN ANALISIS

  adalah untuk mengetahui kualitas dari cluster atau kelompok. Sedangkan pengujian purity digunakan untuk mengetahui tingkat kemurnian data dalam suatu cluster. Yang terkahir adalah pengujian dengan membandingkan hasil pengelompokan dengan dan tanpa reduksi fitur, hal ini dilakukan untuk mengetahui apakah metode information gain thresholding dapat membantu dalam pengelompokan.

  silhoutte coefficient

  Tujuan pengujian dengan menggunakan

  Pengujian sistem ini dilakukan agar dapat menunjukkan bahwa aplikasi dapat bekerja sesuai yang diharapkan. Pengujian sistem yang dilakukan yaitu, menggunakan shilloutte index, purity, dan uji coba batas ambang information gain untuk reduksi fitur.

  3.5 Pengujian

  4. Penerapan metode k-means untuk mendapatkan hasil berupa artikel dalam kelompok tertentu.

  Penerapan pre-processing 3. Penerapan algoritma reduksi fitur information gain thresholding untuk mengurangi fitur yang diolah sehingga komputasi lebih ringan

  Pembuatan antarmuka pengguna berupa halaman halaman program. Adapun rancangan antarmuka yang ingin dibuat ditunjukan pada gambar 2

  Implementasi sistem tersebut meliputi: 1.

  3.4 Implementasi

  • RAM 4,00 GB
  • Harddisk 500 GB
  • Monitor 14”

  2. Kebutuhan Perangkat Lunak, meliputi:

  @1,80 GHz

  1. Kebutuhan Perangkat Keras, meliputi:

  Dalam pembuatan aplikasi pengelompokan artikel berbahasa indonesia dengan reduksi fitur information gain thresholding dan k-means memerlukan beberapa kebutuhan baik berupa kebutuhan perangkat lunak maupun perangkat keras. Berikut ini adalah kebutuhan perangkat lunak dan perangkat keras serta data yang dibutuhkandalam penelitian:

  3.3 Kebutuhan Sistem

  Penelitian ini menggunakan teknik information gain thresholding untuk reduksi fitur dan metode k-means untuk pengelompokan dokumen. Metode reduksi fitur dan metode pengelompokan yang digunakan dala penelitian ini sudah dapat menyelesaikan beberapa permasalahan. Teknik information gain thresholding mampu menyelesaikan masalah seperti terlalu banyaknya fitur yang digunakan dalam suatu penelitian dan untuk metode k- means sendiri sudah banyak digunakan untuk menyelesaikan masalah pengelompokan non- hirarki. Teknik dan metode ini akan diimplementasi dalam bahasa Java dalam penelitian ini. Karena dalam penelitian ini program yang dikembangakan merupakan program berbasis desktop.

  3.2 Metode yang Digunakan

  digunakan dalam penelitian ini merupakan metode studi dokumen, dimana pengumpulan data tidak ditujukan langsung kepada subjek penelitian melainkan dengan meneliti berbagai macam data yang berguna untuk bahan analisis. Sedangkan data yang digunakan dalam penelitian ini merupakan data primer. Data primer adalah data yang didapatkan secara langsung dengan cara mengamati objek penelitian. Pengumpulan data primer dilakukan dengan mengamati beberapa situs artikel online, salah satunya adalah Kompas.com. Hal ini dilakukan untuk mendapatkan data berupa artikel berita.

  • Processor Intel® Core i3-3717U CPU
  • Operating System Windows 7 32 bit
  • Netbeans IDE 8.0.2
  • Bahasa Pemrograman Java
percobaan sebanyak 5 kali untuk nilai centroid

  Silhoutte Coefficient

  awal yang berbeda beda. Hasil dari penentuan centroid awal tidak banyak memengaruhi hasil

  2

  dari purity dan nilai batas ambang. Namun,

  1

  penentuan centroid awal ini memengaruhi nilai dari shiloutte index, dimana setiap penentuan centroid awal yang berbeda untuk setiap

  2

  3

  5

  7

  9

  11

  13

  15

  percobaan akan menghasilkan kelompok yang

  Shilloutte Index berbeda pula.

  Hal ini dikarenakan centroid merupakan

  Gambar 3 Grafik Pengujian silhoutte

  acuan titik awal, sehingga jika centroid yang digunakan berbeda maka jarak antar data dengan centroid juga berbeda. Hal inilah yang kemudian

  Purity menyebabkan hasil pengelompokan berbeda.

  0.6 Namun secara keseluruhan, penentuan centroid

  0.4

  awal tidak banyak memengaruhi hasil pengelompokan. Maka dari itu penentuan

  0.2 centroid awal dapat dilakukan secara acak.

  Berbeda dengan penentuan jumlah

  2

  3

  5

  7

  9

  11

  13

  kelompok. Untuk penentuan jumlah kelompok,

  Purity

  metode K-Means sangat terpengaruhi. Semakin sedikit sedikit kelompok yang digunakan,

  Gambar 4 Grafik Pengujian Purity

  menunjukan hasil kemurnian dan shiloutte index yang tidak baik, hal ini juga terjadi ketika Selain penentuan jumlah k, reduksi fitur kelompok yang dibuat juga terlalu banyak. merupakan salah satu hal yang memengaruhi

  Hal ini dikarenakan ketika nilai k yang hasil dari pengelompokan. Reduksi fitur mampu ditentukan terlalu kecil, keberagaman kelompok membantu dalam memperingan proses kecil akibatnya artikel dipaksa masuk ke komputasi, selain itu hasil pengelompokan beberapa kelompok kecil yang sebenarnya dibuktikan mampu menghasilkan memiliki kedekatan masih jauh. pengelompokan yang baik. Sebaliknya ketika kelompok yang dibuat

  Hal ini ditunjukan dengan tanpa adanya terlalu besar, pengelompokan juga tidak efektif reduksi fitur atau nilai batas ambang 0, hasil karna semakin beragamnya centroid yang ada. kemurnian data dala suatu kelompok dalam

  Sehingga artikel dikelompokan berdasarkan tingkat buruk dengan memroses 510 fitur kata. jarak yang terlalu kecil. Sedangkan ketika k yang

  Sedangkan dengan adanya reduksi fitur dengan ditentukan tidak terlalu kecil dan terlalu besar batas ambang 0.04, dengan memroses hanya 2 yaitu pada nilai 3 ditunjukan nilai shiloutte fitur hasil purity menununjukan nilai 0.7 yang coefiecient mencapai 0.9595 dimana dalam hal artinya kemurnian dalam tingkat baik.. Hasil ini ini menunjukan suatu pengelompokan yang baik ditunjukan pada gambar 5. dan nilai purity yaitu 0.75 yang dapat dibilang cukup baik juga. Suatu pengelompokan dikatakan buruk jika shiloutte coefiecient berada

  Purity Measure

  dibawah 0.5. Sedangkan ketika nilai shiloutte

  1

  coefiecient berada diantara nilai 0.7 hingga 0.5 keatas, maka kelompok yang terbentuk dapat

  0.5

  dianggap sebagai jumlah yang tepat. Sedangkan untuk purity yang mendekati nilai -1 maka dapat

  0.02

  0.04

  0.07

  0.09

  0.1

  0.4

  dikatakan bahwa data yang terkelompok tidak masuk ke kelompok yang tepat. Sedangkan jika

  Purity

  mendekati nilai 1 maka data sudah terkelompok

  Gambar 5 Grafik pengujian Reduksi Fitur dan Purity dengan tepat.

  Sehingga dapat diartikan bahwa untuk Hasil ini dapat dilihat melalui gambar 3 dan pengelompokan artikel dengan data sebanyak gambar 4 120 dan memiliki kategori awal 3, lebih baik dibentuk kelompok artikel terkait sebanyak 3 kelompok. Karena pembentukan 3 kelompok memiliki tingkat keakuratan dan kemurnian yang baik.

  5. KESIMPULAN DAN SARAN

  Large scale news article clustering. Chalmers University of Technology: Sweden

  Agrawal. 2017. Text Document Clustering Using K-Means Algorithm With Its Analysis And Implementation.

  Yang, Yaming dan Pedersen, 1997, J.O. A Comparative Study on Feature Selection in Text Categorization, School of Computer Science. Carnegie Mellon University: USA Zade, Jaya, Dr. G. R. Bamnote, Prof. P. K.

  Wilkinson, Leland, Engelman, Laszlo, Corter, James, and Coward, Mark. 1998. Cluster analysis, in. SYSTAT 12 Statistics, Wilkinson, Leland (ed.). SPSS Inc: Chicago.

  Subandi, Nurul Arifin. 2014. Clustering dokumen skripsi berdasarkan Abstrak dengan menggunakan Bisecting k- means. Institut Pertanian Bogor: Bogor

  2013. Pencarian Semantik Dokumen Berita Menggunakan Essential Dimensionof Latent Semantic Indexing dengan Memakai Reduksi Fitur Document Frequency dan Information Gain Thresholding. Seminar Nasional Teknologi Informasi dan Multimedia: Yogyakarta

  Dokumen Abstrak Teks Bahasa Indonesia Menggunakan Metode Information Gain. ResearchGate Sari, Yuita Arum dan Eva Yulia Puspaningrum.

  Maulida, Indah, Addy Suyatno, Heliza Rahmania Hatta. 2016. Seleksi Fitur Pada

  Rekomendasi Menggunakan Decision Tree dan Clustering. ResearchGate Lonnberg Marcus dan Love Yregard. 2013.

  Pada penelitian ini pengelompokan artikel dibangun menggunakan bahasa Java dengan menerapkan dua metode yaitu reduksi fitur Information Gain thresholding dan pengelompokan dengan K-Means. Pada tahap awal dilakukan preprocessing untuk mengurangi gangguan dalam data, selanjutnya dilakukan reduksi fitur untuk mengurangi fitur yang digunakan agar proses kebih cepat, kemudian dilakukan pembobotan sebagai dasar untuk menghitung jarak antar dokumen, setelah menemukan nilai jarak awal atau centroid, pengelompokan dapat dilakukan.

  Junaidillah, Fadlil dan Wayan Firdaus Mahmudy. 2007. Pembuatan Sistem

  Dewi, Rakhmatika. 2013. Pemilihan fitur dokumen Bahasa Indonesia untuk pengelompokan dengan Metode k- means. Institut Pertanian Bogor: Bogor

  I Nyoman Sukajaya. 2016. Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram. JITIKA

  Chandra, Denny Nathaniel, Gede Indrawan, dan

  6. DAFTAR PUSTAKA

  Berdasarkan uji coba yang telah dilakukan dan kesimpulan yang didapatkan, maka saran untuk pengembangan penelitian ini yaitu dalam penelitian selanjutnya, diharapkan industri media massa dapat mecoba menggunakan metode reduksi fitur lainnya yang mampu mengurangi waktu komputasi lebih baik dari metode information gain thresholding dan dalam percobaan penentuan jumlah kelompok yang digunakan, diharapkan industri media massa memerhatikan jumlah data yang digunakan.

  Pada penelitian ini didapatkan hasil pengelompokan artikel dengan metode Information Gain Thresholding dan K-Means mampu menghasilkan kelompok dokumen yang baik dengan nilai silhouette coefiecient sebesar 0.9595 dan purity measure sebesar 0.75 dengan penggunaan 3 cluster dan batas ambang untuk reduksi fitur terbaik adalah 0.04 dengan kemurnian data lebih baik dibandingkan tanpa reduksi fitur.

  IJIR: India Zaini, Akhmad, M. Aziz Muslim, dan Wijono. 2017. Pengelompokan Artikel Berbahasa Indonesia Berdasarkan Struktur Laten Menggunakan Pendekatan Self Organizing Map. JNTETI