Latar Belakang BAB I

1

1. BAB I

PENDAHULUAN

1.1 Latar Belakang

Media cetak adalah sarana menuangkan gagasan dan buah pikiran. Salah satu jenis media cetak adalah majalah. Ada beberapa daerah yang memiliki majalah dengan bahasa daerahnya, sebagai contoh: Jaka Lodhang, Mekar Sari, Panjebar Semangat Bahasa Jawa dan Cupumanik, Manglé Bahasa Sunda. Seperti halnya Bahasa Inggris dan Bahasa Indonesia, artikel berbahasa Jawa juga memiliki informasi tersembunyi yang dapat digali dan dimanfaatkan, yang membedakannya adalah proses stemming dan aturan-aturan setiap bahasa. Artikel memiliki berbagai jenis topik, sebagai contoh: berita ekonomi, kesehatan, dan sebagainya. Berdasarkan pada jenis-jenis artikel di atas ternyata dapat digali informasi yang dapat dimanfaatkan sebagai knowledge discovery. Knowledge discovery adalah kegiatan menggali informasi dan pola tersembunyi pada suatu sumber data. Knowledge discovery dengan data teks dapat dilakukan dengan proses information retrieval Han, 2011. Information retrieval adalah sekumpulan algoritma dan teknologi untuk melakukan pemrosesan, penyimpanan, dan menemukan kembali informasi tertstruktur pada suatu koleksi data yang besar Manning, 2008. Terdapat beberapa tahap yang harus dilakukan dalam information retrieval, secara umum dapat dibagi ke dalam tahap seperti berikut: tokenizing , stopword, stemming, indexing. 2 Pengelompokan dokumen dapat dikerjakan dengan metode tertentu, penelitian ini akan menggunakan salah satu metode clustering yaitu K Means. Pemilihan algoritma K Means karena memiliki banyak keunggulan daripada algoritma lainnya Baswade, 2013, keunggulan K Means diantaranya: 1. Relatif efisien dengan O knt di mana k-jumlah cluster, n-jumlah objek, t- jumlah iterasi. 2. Mudah untuk diimplementasikan dan dijalankan. 3. Waktu yang dibutuhkan untuk menjalankan pembelajaran ini relatif cepat. 4. Mudah untuk diadaptasi. Keunggulan yang ditawarkan K Means membuat banyak penelitian yang menggunakan metode tersebut, salah satu diantaranya: Analisa Perbandingan Metode Hierarchical Clustering, K-means dan Gabungan Keduanya dalam Cluster Data Studi kasus : Problem Kerja Praktek Jurusan Teknik Industri ITS Alfina, Santosa, Ridho Barakbah, 2012 , Klasterisasi, Klasifikasi dan Peringkasan Teks Berbahasa Indonesia Raharjo dan Winarko, 2014, serta Deteksi Iris Mata untuk Menentukan Kelebihan Kolesterol Menggunakan Ekstraksi Ciri Moment Invariant dengan K-Means Clustering Handini Rani, Supriyati, Khotimah, 2014. Berdasarkan keunggulan keunggulan dan penelitian yang telah dilakukan, maka peneliti memilih metode K Means untuk digunakan sebagai metode pengelompokan data, pada penerapannya akan digunakan Hierarchical clustering untuk mengoptimalkan centroid awal sehingga diperoleh akurasi yang lebih tinggi dibandingkan dengan random K Means dan tentunya proses pencarian dan penggalian informasi dokumen tertentu semakin mudah dan akurat Arai, 2007. 3

1.2 Rumusan Masalah