1
1. BAB I
PENDAHULUAN
1.1 Latar Belakang
Media cetak adalah sarana menuangkan gagasan dan buah pikiran. Salah satu jenis media cetak adalah majalah. Ada beberapa daerah yang memiliki
majalah dengan bahasa daerahnya, sebagai contoh: Jaka Lodhang, Mekar Sari, Panjebar Semangat Bahasa Jawa dan Cupumanik, Manglé Bahasa Sunda.
Seperti halnya Bahasa Inggris dan Bahasa Indonesia, artikel berbahasa Jawa juga memiliki informasi tersembunyi yang dapat digali dan dimanfaatkan, yang
membedakannya adalah proses stemming dan aturan-aturan setiap bahasa. Artikel memiliki berbagai jenis topik, sebagai contoh: berita ekonomi,
kesehatan, dan sebagainya. Berdasarkan pada jenis-jenis artikel di atas ternyata dapat digali informasi yang dapat dimanfaatkan sebagai knowledge discovery.
Knowledge discovery adalah kegiatan menggali informasi dan pola tersembunyi
pada suatu sumber data. Knowledge discovery dengan data teks dapat dilakukan dengan proses information retrieval Han, 2011. Information retrieval adalah
sekumpulan algoritma dan teknologi untuk melakukan pemrosesan, penyimpanan, dan menemukan kembali informasi tertstruktur pada suatu koleksi data yang
besar Manning, 2008. Terdapat beberapa tahap yang harus dilakukan dalam information
retrieval, secara umum dapat dibagi ke dalam tahap seperti berikut: tokenizing
, stopword, stemming, indexing.
2 Pengelompokan dokumen dapat dikerjakan dengan metode tertentu,
penelitian ini akan menggunakan salah satu metode clustering yaitu K Means. Pemilihan algoritma K Means karena memiliki banyak keunggulan daripada
algoritma lainnya Baswade, 2013, keunggulan K Means diantaranya: 1.
Relatif efisien dengan O knt di mana k-jumlah cluster, n-jumlah objek, t- jumlah iterasi.
2. Mudah untuk diimplementasikan dan dijalankan.
3. Waktu yang dibutuhkan untuk menjalankan pembelajaran ini relatif cepat.
4. Mudah untuk diadaptasi.
Keunggulan yang ditawarkan K Means membuat banyak penelitian yang menggunakan metode tersebut, salah satu diantaranya: Analisa Perbandingan
Metode Hierarchical Clustering, K-means dan Gabungan Keduanya dalam Cluster
Data Studi kasus : Problem Kerja Praktek Jurusan Teknik Industri ITS
Alfina, Santosa, Ridho Barakbah, 2012
, Klasterisasi, Klasifikasi dan Peringkasan Teks Berbahasa Indonesia Raharjo dan Winarko, 2014, serta Deteksi Iris Mata
untuk Menentukan Kelebihan Kolesterol Menggunakan Ekstraksi Ciri Moment Invariant
dengan K-Means Clustering Handini Rani, Supriyati, Khotimah, 2014. Berdasarkan keunggulan keunggulan dan penelitian yang telah dilakukan,
maka peneliti memilih metode K Means untuk digunakan sebagai metode pengelompokan data, pada penerapannya akan digunakan Hierarchical clustering
untuk mengoptimalkan centroid awal sehingga diperoleh akurasi yang lebih tinggi dibandingkan dengan random K Means dan tentunya proses pencarian dan
penggalian informasi dokumen tertentu semakin mudah dan akurat Arai, 2007.
3
1.2 Rumusan Masalah