Term Frequency Feature Selection

55 Proses yang hanya dapat dilakukan admin yang sudah melakukan proses login. Pada proses ini admin melakukan upload dokumen berita ke database berita. 3. Proses Pencarian Dokumen Merupakan proses utama dimana proses pencarian dokumen berita terjadi. Untuk proses yang lebih detail dapat dilihat pada gambar 3.3 Pada data flow diagram level 1 , proses pencarian dilakukan dengan memproses query yang dimasukan user. 1. Pada proses preprocessing, akan dilakukan preprocess pada query dan isi dari dokumen berita. Proses ini akan menghasilkan term list. 2. Kemudian pada proses feature selection akan dilakukan penghitungan DocId, Count, Bobot dan PanjangUnit. Dari proses ini dihasilkan vector dokumen yang telah dinormalisasi. 3. Kemudian dilakukan perhitungan kemiripan antar dokumen pada proses 3.3. 4. Setelah itu dokumen berita akan diklaster pada proses 3.5 menghasilkan cluster- cluster dokumen. Setiap cluster memiliki 1 dokumen sebagai perwakilan yang disebut medoid. 5. Medoid masing-masing cluster akan dihitung nilai kemiripannya dengan query pada proses 3.6. medoid yang memiliki nilai kemiripan lebih dari 0 akan ditampilkan sebagai hasil pencarian Gambar 3.3 DFD Level 1

3.2 Flowchart Sistem

Proses pencarian dokumen berita dapat dilihat pada gambar 3.3. Pada tahap awal dilakukan tahap preprocessing terhadap keyword dan dokumen. Proses ini akan menghasilkan Term List. Kemudian term list ini akan dilakukan feature selection, seperti menghitung Tf dan Df dokumen, menghitung Idf, membuat model ruang vector, menghitung bobot kata dan menormalisasi vector dokumen. Setelah dihasilkan vector dokumen ternormalisasi, proses clustering akan dilakukan. Gambar 3.3 Flowchart Sistem Proses clustering dimaksudkan untuk meningkatkan efektifitas retrieval dari mesin pencari. Pada model inverted file search hasil pencarian disajikan berupa daftar panjang dokumen yang “dianggap” relevan oleh sistem. Pada kenyatannya karena pengukuran similaritas hanya dilakukan antara query dengan dokumen dan ranking dalam daftar jawaban search result adalah didasarkan pada tingkat similaritas query-dokumen tanpa melihat similaritas antar dokumen maka kasus yang sering terjadi adalah dokumen yang sebenarnya relevan terhadap query karena kebetulan frekuensi kata querynya kecil akan berada pada ranking bawah. Sebaliknya suatu dokumen yang sebenarnya tidak relvan terhadap query karena kebetulan mengandung