Jurnal Ilmu Komputer - Volume 5 - No 2 – September 2012
ISSN : 1979-5661
-5-
tf = jumlah kemunculan kataterm dalam
dokumen N= jumlah semua dokumen yang ada dalam
database n= jumlah dokumen yang mengandung
kataterm idf
= inverse document frequency
2.5.3 Perhitungan Bobot Edge
Untuk perhitungan bobot edge akan digunakan persamaan berikut Sjobergh, 2005
:
����
,
= � − �
�������
,
� ����ℎ� Nilai overlap
i,j
diperoleh dengan menghitung jumlah kata yang sama antara
kalimat ke-i dan kalimat ke-j dengan mengabaikan stopword yang ada di dalam
kalimat-kalimat tersebut. Kemudian hasil dari persamaan diatas akan digunakan untuk
menentukan nilai relasi dari setiap kalimat berdasarkan hasil pemetaan dari dokumen.
3. DESAIN
AUTOMATED DOCUMENT
INTEGRATION SYSTEM
Tahap awal yang dilakukan dalam pengembangan sistem adalah penentuan input,
proses, dan output dari sistem yang akan dibuat. Input
– input yang masuk dan akan diproses dalam sistem dapat dibagi menjadi 2
bagian yaitu : 1. Penentuan input sistem yang berupa
kumpulan dokumen
yang akan
diintegrasikan. Dokumen
disini berperan sebagai suatu kumpulan
data-data mentah yang akan dijadikan objek pada penelitian ini. Dokumen
berupa artikel-artikel
mengenai teknologi informasi dalam Bahasa
Indonesia dengan format file PDF. 2. Penentuan input yang kedua adalah
input dari user yang berupa nilai toleransi kesamaan antar dokumen
yang akan diintegrasikan similarity tolerance value
ke sistem. Setelah melakukan teknik kajian
pustaka pada tahap sebelumnya, secara garis besar proses-proses yang ada pada sistem
dapat dibagi ke dalam dua subsistem yaitu : 1. Subsistem Pre-Integration
Proses – proses yang ada pada
subsistem ini adalah : a.
Proses upload dokumen ke dalam sistem.
b. Proses konversi dokumen dengan format file PDF menjadi file txt.
c. Proses devide to word atau
parsing yaitu proses yang
memecah kalimat-kalimat dalam file txt menjadi kata-kata.
d. Proses stopword removal atau menghilangkan kata-kata tidak
penting. e.
Proses stemming
dengan algoritma Porter Stemmer for
Bahasa Indonesia. f.
Proses perhitungan
kesamaan dokumen
dengan algoritma
Cosine Similarity .
2. Subsistem Integration Process Proses
– proses yang ada pada subsistem ini adalah :
a. Proses perhitungan bobot kalimat
dengan metode TF-IDF. b. Proses perhitugan bobot relasi
antar kalimat. c.
Proses clustering
dengan algoritma
Complete Linkage
Agglomerative Hierarchical
Clustering Pada
proses integrasi
dengan algoritma
agglomerative hierarchical
clustering , awalnya semua kalimat yang
terdapat dalam tabel kalimat dianggap sebagai atomic cluster
– atomic cluster. Langkah pertama yang dilakukan adalah mencari
cluster-cluster dengan jarak terdekat, atau pasangan kalimat yang memiliki bobot relasi
antar kalimat yang paling kecil. Pencarian dilakukan dengan menggunakan perintah
query select
yang mengurutkan data-data pada tabel
kalimat_relasi secara
ascending berdasarkan
bobot relasinya.
Langkah selanjutnya adalah melakukan update jarak
cluster yang baru terbentuk dengan cluster-
cluster lainnya dengan metode maximum
distance. Setelah
semua kalimat
telah tergabung menjadi sebuah cluster, dilakukan
proses untuk memecah cluster tersebut menjadi paragraf
– paragraf. Caranya adalah, kalimat
– kalimat yang bergabung terlebih dahulu menjadi cluster
– cluster besar dianggap sebagai sebuah paragraf tersendiri.
Jurnal Ilmu Komputer - Volume 5 - No 2 – September 2012
ISSN : 1979-5661
-6-
Asumsinya, bila secara natural kalimat –
kalimat tersebut bergabung, dapat dianggap kalimat
– kalimat tersebut memiliki similarity yang cukup tinggi dan membahas topik
bahasan yang
sama. Sementara
untuk memproses kalimat
– kalimat tersisa yang tidak mau bergabung kedalam cluster
– cluster besar, dipakai aturan sebagai berikut:
Bila hanya
1 kalimat
akan digabungkan pada paragraf terakhir.
Bila lebih dari satu kalimat, kalimat –
kalimat yang tersisa tersebut akan dipaksakan bergabung menjadi satu
paragraf tersendiri. Sementara,
Output-output yang
dihasilkan sistem melalui pemrosesan input dari user adalah :
a. Report tingkat
kesamaan antar
dokumen yang akan diintegrasikan. b. Dokumen hasil proses integrasi yang
dapat disimpan dalam format file .doc. Berikut ini adalah gambar rancangan
alur pada subsistem Integration secara garis besar :
start
Parsing paragraf menjadi kalimat
Parsing kalimat menjadi kata
Hitung bobot kalimat
Hitung bobot kalimat dengan TF-IDF
Urut dokumen berdasarkan
similarity
Hitung bobot relasi antar kalimat
Proses pengelompokkan kalimat dengan clustering
Print hasil Clustering
Save ? Save menjadi file
.doc end
ya tidak
Gambar 1. Perancangan Alur pada Subsistem Integration
4. PENGUJIAN