54
subset fitur dari fitur asli. Kelebihan feature selection dibandingkan dengan Feature
extraction adalah pada seleksi fitur memberikan pemahaman yang lebih baik
mengenai data sedangkan Feature extraction tidak demikian.
[6]
2.2.1 Document Frequency
Document Frequency adalah jumlah dokumen yang mengandung suatu term
tertentu. Tiap term akan dihitung nilai Document Frequency-nya DF. Lalu term
tersebut diseleksi berdasarkan jumlah nilai DF. Jika nilai DF berada di bawah threshold yang
telah ditentukan, maka term tersebut akan dibuang.
[6]
Document Frequency merupakan metode future selection yang paling sederhana
dengan waktu komputasi yang rendah
[6]
2.2.2 Term Frequency
Term Frequency merupakan salah satu metode untuk menghitung bobot tiap term
dalam dokumen. Dalam metode ini, tiap term diasumsikan memiliki nilai kepentingan yang
sebanding dengan jumlah kemunculan term tersebut pada dokumen.
[1]
2.2.3 Inverse Document Frequency
Jika Term Frequency fokus pada kemunculan term dalam sebuah dokumen,
Inverse Document Frequency IDF fokus pada kemunculan term pada keseluruhan
koleksi dokumen. Pada IDF, term yang jarang muncul pada keseluruhan koleksi term dinilai
lebih berharga. Nilai kepentingan tiap term diasumsikan berbanding terbalik dengan
jumlah dokumen yang mengandung term tersebut.
[1]
2.3 Clustering
Clustering adalah suatu metode pengelompokan berdasarkan ukuran kedekatan
kemiripan. Clustering berbeda dengan group. Jika group diartikan kelompok yang sama
kondisinya, sedangkan cluster tidak harus sama akan tetapi pengelompokan berdasarkan
pada kedekatan dari suatu karakteristik sampel yang ada
[2]
2.3.1 Partitioning Around Medoid
Seperti halnya dengan K-Means, algoritma PAM mengelompokkan data ke
dalam sejumlah K cluster. Berbeda dengan K- means, representasi cluster pada PAM adalah
salah satu titik yang dipilih menjadi perwakilan cluster yang disebut dengan
medoids. Cluster dibangun dengan menghitung kedekatan yang dimiliki antara
medoid dengan objek non-medoid. 3. IMPLEMENTASI
3.1 Context Diagram
Berdasarkan spesifikasi kebutuhan sistem maka dibuat gambaran umum sistem
yang akan dibangun dalam penelitian ini. Gambaran umum, sistem pada penelitian ini
ditunjukkan pada context diagram berikut:
Gambar 3.1 Context Diagram Context diagram pada gambar 3.1 menjelaskan
tentang gambaran sistem pencarian dokumen berita yang akan dibangun. Dari context
diagram terlihat bahwa sistem yang akan dibangun. Berikut penjelasan mengenai
workflow pada gambar 3.2 :
Interaksi pengguna sistem dibedakan menjadi dua diantaranya :
- Administrator dapat melakukan penambahan dokumen berita ke dalam
database. Namun diperlukan proses login terlebih dahulu.
- User hanya dapat melakukan proses pencarian dengan memasukan key word.
Gambar 3.2 DFD Level 0 Gambar DFD Level 0 di atas menggambarkan
3 proses utama yang terjadi pada system pencarian dokumen berita ini, yaitu :
1. Proses Login
Proses untuk masuk ke sistem agar admin dapat menambahkan koleksi berita pada
database berita. 2. Proses Upload File Berita