Analisis Sistem 1. Deskripsi Sistem

24 Input query pencarian Operasi tokenizing Operasi stopword Operasi stemming Penghitungan tf, df, w Pembangunan term-query matrix Pembobotan cluster terhadap kueri, dengan membandingkan centroid terhadap kueri, dapat ditemukan bobot yang paling besar cluster yg paling mirip dgn kueri Load document id dari cluster yang paling mirip Hitung ulang bobot document member cluster tadi terhadap kueri Tampilkan hasil pencarian ke user Pencarian Gambar 3.2. Alur proses pencarian dokumen Subsistem ini memiliki dua opsi untuk retrieval, yaitu retrieval berbasis cluster dan retrieval tanpa cluster. Retrieval berbasis cluster selanjutnya disebut dengan Sistem Pemerolehan Informasi berbasis Cluster, sementara retrieval tanpa cluster disebut dengan Sistem Pemerolehan Informasi Konvensional. Perbedaan kedua jenis sistem tersebut ditampilkan dalam gambar berikut ini : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 25 Text database Index Index Text operation Query operation Indexing DB Manager Module Searching Ranking User interface Inverted file Text Text Logical view Ranked docs feedback User need Logical operation query Retrieved docs Gambar 3.3. Sistem Pemerolehan Informasi Konvensional Baeza, 1999 Text database Text operation Query operation Indexing DB Manager Module Searching Ranking User interface Inverted file Text Text Logical view Ranked docs feedback User need Logical operation query Retrieved docs Clustering Cluster Member Documents Cluster Member Documents Cluster Index Centroid Cluster Index Centroid Gambar 3.4. Sistem Pemerolehan Informasi Berbasis Cluster 26

3.1.2. Data yang Digunakan

Data yang digunakan dalam penelitian ini adalah 100 karya ilmiah berbahasa Indonesia yang diambil dari berbagai prosiding dan jurnal.

3.1.3. Analisis Kebutuhan Pengguna

Kebutuhan yang dibutuhkan tiap aktor dalam sistem ini disajikan dalam tabel berikut ini : Pengguna Sistem Kebutuhan User 1. Melakukan clustering dokumen 2. Melakukan pencarian dengan menggunakan query 3. Melihat isi dokumen Tabel 3.1. Kebutuhan fungsional pengguna sistem 3.2. Perancangan Sistem 3.2.1. Data Flow Diagram

3.2.1.1. Diagram Konteks

Diagram konteks atau diagram aliran data pada level 0 untuk sistem yang akan dibangun, ditampilkan pada gambar berikut ini : Dokumen Sistem Pemerolehan Informasi koleksi cluster User query pencarian list dokumen Sistem pemerolehan informasi Gambar 3.5. Diagram konteks dari sistem yang akan dibangun 27

3.2.1.2. Overview DFD

Overview dari diagram aliran data untuk sistem yang akan dibangun, ditampilkan pada gambar berikut ini : D o k u m e n S is te m P e m e ro le h an In fo rm as i k o le k si cl u ste r 1 . P e n g e lo m p o k an d o k u m e n S is te m P e m e ro le h a n Inf o rm as i U se r q u e ry p e n car ian li st d o k u m e n 2 . P e n car ian d o k u m e n T e rm C lu ste r Re co rd C e n tr o id Te rm li st Ko lek si, ind ex clu ste r ce n tr o id In d e x d o k u m e n ce n tr o id Ind ex d ok um en D o k u m e n se su ai in d e x cl u st e r Gambar 3.6. Overview DFD dari sistem yang akan dibangun 28 3.2.1.3. DFD Level 2 3.2.1.3.1. DFD Proses 1 : Pengelompokan Dokumen Diagram aliran data pada level 2 untuk proses pengelompokan dokumen ditampilkan pada gambar berikut : Dokumen Sistem Pemerolehan Informasi koleksi 1.2. pembobotan 1.3. Pengelompokan dokumen 1.1. preprocessing Term Cluster Record Centroid Token list, koleksi Tf,df,w, term-document matrix, koleksi Te rm li st Inde x dok ume n Koleksi, index cluster centroid Gambar 3.7. DFD level 2 dari proses pengelompokan dokumen 29

3.2.1.3.2. DFD Proses 2 : Pencarian Dokumen

Diagram aliran data pada level 2 untuk proses pencarian dokumen ditampilkan pada gambar berikut : User Sistem Pemerolehan Informasi query 1.2. Pembobotan query 1.3. Pemilihan cluster termirip 1.1. Preprocessing query Term Cluster Record Centroid Token list TF-IDF query df Inde x dok ume n Dokum en sesuai index cluster cent roid 1.4. Perankingan dokumen Index cluster, TF- IDF query Dokumen terurut Gambar 3.8. DFD level 2 dari proses pencarian dokumen 30

3.2.2. Diagram Berjenjang

Diagram berjenjang hierarchial chart dari system yang akan dibangun ini ditampilkan pada gambar berikut : Sistem pemerolehan informasi 1. Pengelompokan dokumen 2. Pencarian dokumen 1.1. preprocessing 1.2. pembobotan 1.3. Pengelompokan dokumen 2.1. Preprocessing query 2.2. Pembobotan query 2.3. Pemilihan cluster termirip 2.4. Perankingan dokumen Level 0 Level 1 Level 2 Gambar 3.9. Diagram berjenjang dari sistem yang akan dikembangkan 3.2.3. Deskripsi Proses 3.2.3.1. Deskripsi Proses 1 : Pengelompokan Dokumen

3.2.3.1.1. Deskripsi Proses 1.1 : Preprocessing

Preprocessing dilakukan untuk menghilangkan stopword dan menyederhanakan bentuk-bentuk term dengan cara stemming. Preprocessing ini berguna untuk mengurangi dimensi matriks term-document. Setelah semua term diubah menjadi bentuk kata dasarnya, selanjutnya dilakukan tokenisasi. Dalam sistem ini, token yang diambil adalah semua token yang mengandung alfabet saja. Apabila token terdiri dari karakter alphanumeric atau numerik, maka token akan dibuang. Setiap token akan dicatat kemunculannya di tiap dokumen. Nilai ini menghasilkan term frequency TF. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 31 Selain itu, jumlah dokumen yang mengandung token tersebut akan dicatat juga. Jumlah ini menghasilkan nilai document frequency DF. Hasil dari proses ini adalah TF, DF, dan token-token yang nantinya akan dibobot oleh proses selanjutnya.

3.2.3.1.2. Deskripsi Proses 1.2 : Pembobotan

Input dari proses pembobotan adalah nilai-nilai TF tiap dokumen, DF tiap term, serta token list. Token list selanjutnya disebut term list. Pembobotan dilakukan dengan rumus pada Persamaan 2.1 . Metode yang digunakan untuk pembobotan ini adalah metode TF-IDF. Hasil dari pembobotan ini kemudian dinormalisasi dengan normalisasi kosinus. Hasil dari proses ini adalah tabel berisi bobot kata di tiap dokumen, dengan kolom sebagai term dan baris sebagai dokumen.

3.2.3.1.3. Deskripsi Proses 1.3 : Pengelompokan Dokumen

Setelah bobot kata per dokumen diketahui, maka pengelompokan dokumen dapat dilakukan. Algoritma yang digunakan adalah G-Means. Hasil dari proses ini adalah term list, centroid, serta dokumen yang telah dikelompokkan. Hasil ini kemudian disimpan dalam basis data. 3.2.3.2. Deskripsi Proses 2 : Pencarian Dokumen 3.2.3.2.1. Deskripsi Proses 2.1 : Preprocessing Query Proses ini mirip dengan proses preprocessing dokumen. Perbedaannya adalah preprocessing ini dilakukan hanya untuk mendapat token dalam bentuk sederhana saja dari query dengan cara penghilangan stopword dan stemming. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI