24
Input query pencarian Operasi tokenizing
Operasi stopword
Operasi stemming Penghitungan tf, df, w
Pembangunan term-query matrix Pembobotan cluster terhadap kueri,
dengan membandingkan centroid terhadap kueri, dapat ditemukan bobot
yang paling besar cluster yg paling mirip dgn kueri
Load document id dari cluster yang paling mirip
Hitung ulang bobot document member cluster tadi terhadap kueri
Tampilkan hasil pencarian ke user
Pencarian
Gambar 3.2. Alur proses pencarian dokumen
Subsistem ini memiliki dua opsi untuk retrieval, yaitu retrieval berbasis cluster dan retrieval tanpa cluster. Retrieval berbasis cluster selanjutnya disebut
dengan Sistem Pemerolehan Informasi berbasis Cluster, sementara retrieval tanpa cluster disebut dengan Sistem Pemerolehan Informasi Konvensional.
Perbedaan kedua jenis sistem tersebut ditampilkan dalam gambar berikut ini : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
Text database Index
Index Text operation
Query operation Indexing
DB Manager Module
Searching
Ranking User interface
Inverted file Text
Text
Logical view Ranked docs
feedback User need
Logical operation
query
Retrieved docs
Gambar 3.3. Sistem Pemerolehan Informasi Konvensional Baeza, 1999
Text database Text operation
Query operation Indexing
DB Manager Module
Searching
Ranking User interface
Inverted file Text
Text
Logical view Ranked docs
feedback User need
Logical operation
query
Retrieved docs Clustering
Cluster Member Documents
Cluster Member Documents
Cluster Index Centroid
Cluster Index Centroid
Gambar 3.4. Sistem Pemerolehan Informasi Berbasis Cluster
26
3.1.2. Data yang Digunakan
Data yang digunakan dalam penelitian ini adalah 100 karya ilmiah berbahasa Indonesia yang diambil dari berbagai prosiding dan jurnal.
3.1.3. Analisis Kebutuhan Pengguna
Kebutuhan yang dibutuhkan tiap aktor dalam sistem ini disajikan dalam tabel berikut ini :
Pengguna Sistem Kebutuhan
User 1. Melakukan clustering dokumen
2. Melakukan pencarian dengan menggunakan query
3. Melihat isi dokumen
Tabel 3.1. Kebutuhan fungsional pengguna sistem
3.2. Perancangan Sistem 3.2.1. Data Flow Diagram
3.2.1.1. Diagram Konteks
Diagram konteks atau diagram aliran data pada level 0 untuk sistem yang akan dibangun, ditampilkan pada gambar berikut ini :
Dokumen
Sistem Pemerolehan Informasi
koleksi cluster
User query pencarian
list dokumen Sistem
pemerolehan informasi
Gambar 3.5. Diagram konteks dari sistem yang akan dibangun
27
3.2.1.2. Overview DFD
Overview dari diagram aliran data untuk sistem yang akan dibangun, ditampilkan pada gambar berikut ini :
D o
k u
m e
n
S is
te m
P e
m e
ro le
h an
In fo
rm as
i
k o
le k
si cl
u ste
r 1
. P
e n
g e
lo m
p o
k an
d o
k u
m e
n
S is
te m
P e
m e
ro le
h a
n Inf
o rm
as i
U se
r
q u
e ry
p e
n car
ian li
st d
o k
u m
e n
2 .
P e
n car
ian d
o k
u m
e n
T e
rm C
lu ste
r Re
co rd
C e
n tr
o id
Te rm
li st
Ko lek
si, ind
ex clu
ste r
ce n
tr o
id In
d e
x d
o k
u m
e n
ce n
tr o
id Ind
ex d
ok um
en D
o k
u m
e n
se su
ai in
d e
x cl
u st
e r
Gambar 3.6. Overview DFD dari sistem yang akan dibangun
28
3.2.1.3. DFD Level 2 3.2.1.3.1. DFD Proses 1
: Pengelompokan Dokumen
Diagram aliran data pada level 2 untuk proses pengelompokan dokumen ditampilkan pada gambar berikut :
Dokumen Sistem Pemerolehan
Informasi
koleksi
1.2. pembobotan
1.3. Pengelompokan
dokumen 1.1.
preprocessing
Term
Cluster
Record Centroid
Token list, koleksi
Tf,df,w, term-document
matrix, koleksi
Te rm
li st
Inde x dok
ume n
Koleksi, index
cluster
centroid
Gambar 3.7. DFD level 2 dari proses pengelompokan dokumen
29
3.2.1.3.2. DFD Proses 2 : Pencarian Dokumen
Diagram aliran data pada level 2 untuk proses pencarian dokumen ditampilkan pada gambar berikut :
User Sistem Pemerolehan
Informasi
query
1.2. Pembobotan query
1.3. Pemilihan cluster
termirip 1.1.
Preprocessing query
Term
Cluster Record
Centroid Token list
TF-IDF query
df
Inde x dok
ume n
Dokum en
sesuai index
cluster
cent roid
1.4. Perankingan dokumen
Index cluster, TF-
IDF query Dokumen
terurut
Gambar 3.8. DFD level 2 dari proses pencarian dokumen
30
3.2.2. Diagram Berjenjang
Diagram berjenjang hierarchial chart dari system yang akan dibangun ini ditampilkan pada gambar berikut :
Sistem pemerolehan
informasi
1. Pengelompokan
dokumen 2.
Pencarian dokumen
1.1. preprocessing
1.2. pembobotan
1.3. Pengelompokan
dokumen 2.1.
Preprocessing query
2.2. Pembobotan
query 2.3.
Pemilihan cluster termirip
2.4. Perankingan
dokumen Level 0
Level 1
Level 2
Gambar 3.9. Diagram berjenjang dari sistem yang akan dikembangkan
3.2.3. Deskripsi Proses 3.2.3.1. Deskripsi Proses 1 : Pengelompokan Dokumen
3.2.3.1.1. Deskripsi Proses 1.1 : Preprocessing
Preprocessing dilakukan
untuk menghilangkan
stopword dan
menyederhanakan bentuk-bentuk term dengan cara stemming. Preprocessing ini berguna untuk mengurangi dimensi matriks term-document.
Setelah semua term diubah menjadi bentuk kata dasarnya, selanjutnya dilakukan tokenisasi. Dalam sistem ini, token yang diambil adalah semua token
yang mengandung alfabet saja. Apabila token terdiri dari karakter alphanumeric atau numerik, maka token akan dibuang. Setiap token akan dicatat
kemunculannya di tiap dokumen. Nilai ini menghasilkan term frequency TF. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
Selain itu, jumlah dokumen yang mengandung token tersebut akan dicatat juga. Jumlah ini menghasilkan nilai document frequency DF.
Hasil dari proses ini adalah TF, DF, dan token-token yang nantinya akan dibobot oleh proses selanjutnya.
3.2.3.1.2. Deskripsi Proses 1.2 : Pembobotan
Input dari proses pembobotan adalah nilai-nilai TF tiap dokumen, DF tiap term, serta token list. Token list selanjutnya disebut term list. Pembobotan
dilakukan dengan rumus pada
Persamaan 2.1
. Metode yang digunakan untuk pembobotan ini adalah metode TF-IDF.
Hasil dari pembobotan ini kemudian dinormalisasi dengan normalisasi kosinus. Hasil dari proses ini adalah tabel berisi bobot kata di tiap dokumen,
dengan kolom sebagai term dan baris sebagai dokumen.
3.2.3.1.3. Deskripsi Proses 1.3 : Pengelompokan Dokumen
Setelah bobot kata per dokumen diketahui, maka pengelompokan dokumen dapat dilakukan. Algoritma yang digunakan adalah G-Means. Hasil dari
proses ini adalah term list, centroid, serta dokumen yang telah dikelompokkan. Hasil ini kemudian disimpan dalam basis data.
3.2.3.2. Deskripsi Proses 2 : Pencarian Dokumen 3.2.3.2.1. Deskripsi Proses 2.1
: Preprocessing Query
Proses ini mirip dengan proses preprocessing dokumen. Perbedaannya adalah preprocessing ini dilakukan hanya untuk mendapat token dalam bentuk sederhana
saja dari query dengan cara penghilangan stopword dan stemming. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI