Text Preprocessing TINJAUAN PUSTAKA 1 Text Mining

54 subset fitur dari fitur asli. Kelebihan feature selection dibandingkan dengan Feature extraction adalah pada seleksi fitur memberikan pemahaman yang lebih baik mengenai data sedangkan Feature extraction tidak demikian. [6]

2.2.1 Document Frequency

Document Frequency adalah jumlah dokumen yang mengandung suatu term tertentu. Tiap term akan dihitung nilai Document Frequency-nya DF. Lalu term tersebut diseleksi berdasarkan jumlah nilai DF. Jika nilai DF berada di bawah threshold yang telah ditentukan, maka term tersebut akan dibuang. [6] Document Frequency merupakan metode future selection yang paling sederhana dengan waktu komputasi yang rendah [6]

2.2.2 Term Frequency

Term Frequency merupakan salah satu metode untuk menghitung bobot tiap term dalam dokumen. Dalam metode ini, tiap term diasumsikan memiliki nilai kepentingan yang sebanding dengan jumlah kemunculan term tersebut pada dokumen. [1]

2.2.3 Inverse Document Frequency

Jika Term Frequency fokus pada kemunculan term dalam sebuah dokumen, Inverse Document Frequency IDF fokus pada kemunculan term pada keseluruhan koleksi dokumen. Pada IDF, term yang jarang muncul pada keseluruhan koleksi term dinilai lebih berharga. Nilai kepentingan tiap term diasumsikan berbanding terbalik dengan jumlah dokumen yang mengandung term tersebut. [1]

2.3 Clustering

Clustering adalah suatu metode pengelompokan berdasarkan ukuran kedekatan kemiripan. Clustering berbeda dengan group. Jika group diartikan kelompok yang sama kondisinya, sedangkan cluster tidak harus sama akan tetapi pengelompokan berdasarkan pada kedekatan dari suatu karakteristik sampel yang ada [2]

2.3.1 Partitioning Around Medoid

Seperti halnya dengan K-Means, algoritma PAM mengelompokkan data ke dalam sejumlah K cluster. Berbeda dengan K- means, representasi cluster pada PAM adalah salah satu titik yang dipilih menjadi perwakilan cluster yang disebut dengan medoids. Cluster dibangun dengan menghitung kedekatan yang dimiliki antara medoid dengan objek non-medoid. 3. IMPLEMENTASI 3.1 Context Diagram Berdasarkan spesifikasi kebutuhan sistem maka dibuat gambaran umum sistem yang akan dibangun dalam penelitian ini. Gambaran umum, sistem pada penelitian ini ditunjukkan pada context diagram berikut: Gambar 3.1 Context Diagram Context diagram pada gambar 3.1 menjelaskan tentang gambaran sistem pencarian dokumen berita yang akan dibangun. Dari context diagram terlihat bahwa sistem yang akan dibangun. Berikut penjelasan mengenai workflow pada gambar 3.2 : Interaksi pengguna sistem dibedakan menjadi dua diantaranya : - Administrator dapat melakukan penambahan dokumen berita ke dalam database. Namun diperlukan proses login terlebih dahulu. - User hanya dapat melakukan proses pencarian dengan memasukan key word. Gambar 3.2 DFD Level 0 Gambar DFD Level 0 di atas menggambarkan 3 proses utama yang terjadi pada system pencarian dokumen berita ini, yaitu : 1. Proses Login Proses untuk masuk ke sistem agar admin dapat menambahkan koleksi berita pada database berita. 2. Proses Upload File Berita