DESAIN PERANCANGAN DAN IMPLEMENTASI AUTOMATED DOCUMENT INTEGRATION DENGAN MENGGUNAKAN ALGORITMA COMPLETE LINKAGE AGGLOMERATIVE HIERARCHICAL CLUSTERING.

Jurnal Ilmu Komputer - Volume 5 - No 2 – September 2012 ISSN : 1979-5661 -5- tf = jumlah kemunculan kataterm dalam dokumen N= jumlah semua dokumen yang ada dalam database n= jumlah dokumen yang mengandung kataterm idf = inverse document frequency

2.5.3 Perhitungan Bobot Edge

Untuk perhitungan bobot edge akan digunakan persamaan berikut Sjobergh, 2005 : ���� , = � − � ������� , � ����ℎ� Nilai overlap i,j diperoleh dengan menghitung jumlah kata yang sama antara kalimat ke-i dan kalimat ke-j dengan mengabaikan stopword yang ada di dalam kalimat-kalimat tersebut. Kemudian hasil dari persamaan diatas akan digunakan untuk menentukan nilai relasi dari setiap kalimat berdasarkan hasil pemetaan dari dokumen.

3. DESAIN

AUTOMATED DOCUMENT INTEGRATION SYSTEM Tahap awal yang dilakukan dalam pengembangan sistem adalah penentuan input, proses, dan output dari sistem yang akan dibuat. Input – input yang masuk dan akan diproses dalam sistem dapat dibagi menjadi 2 bagian yaitu : 1. Penentuan input sistem yang berupa kumpulan dokumen yang akan diintegrasikan. Dokumen disini berperan sebagai suatu kumpulan data-data mentah yang akan dijadikan objek pada penelitian ini. Dokumen berupa artikel-artikel mengenai teknologi informasi dalam Bahasa Indonesia dengan format file PDF. 2. Penentuan input yang kedua adalah input dari user yang berupa nilai toleransi kesamaan antar dokumen yang akan diintegrasikan similarity tolerance value ke sistem. Setelah melakukan teknik kajian pustaka pada tahap sebelumnya, secara garis besar proses-proses yang ada pada sistem dapat dibagi ke dalam dua subsistem yaitu : 1. Subsistem Pre-Integration Proses – proses yang ada pada subsistem ini adalah : a. Proses upload dokumen ke dalam sistem. b. Proses konversi dokumen dengan format file PDF menjadi file txt. c. Proses devide to word atau parsing yaitu proses yang memecah kalimat-kalimat dalam file txt menjadi kata-kata. d. Proses stopword removal atau menghilangkan kata-kata tidak penting. e. Proses stemming dengan algoritma Porter Stemmer for Bahasa Indonesia. f. Proses perhitungan kesamaan dokumen dengan algoritma Cosine Similarity . 2. Subsistem Integration Process Proses – proses yang ada pada subsistem ini adalah : a. Proses perhitungan bobot kalimat dengan metode TF-IDF. b. Proses perhitugan bobot relasi antar kalimat. c. Proses clustering dengan algoritma Complete Linkage Agglomerative Hierarchical Clustering Pada proses integrasi dengan algoritma agglomerative hierarchical clustering , awalnya semua kalimat yang terdapat dalam tabel kalimat dianggap sebagai atomic cluster – atomic cluster. Langkah pertama yang dilakukan adalah mencari cluster-cluster dengan jarak terdekat, atau pasangan kalimat yang memiliki bobot relasi antar kalimat yang paling kecil. Pencarian dilakukan dengan menggunakan perintah query select yang mengurutkan data-data pada tabel kalimat_relasi secara ascending berdasarkan bobot relasinya. Langkah selanjutnya adalah melakukan update jarak cluster yang baru terbentuk dengan cluster- cluster lainnya dengan metode maximum distance. Setelah semua kalimat telah tergabung menjadi sebuah cluster, dilakukan proses untuk memecah cluster tersebut menjadi paragraf – paragraf. Caranya adalah, kalimat – kalimat yang bergabung terlebih dahulu menjadi cluster – cluster besar dianggap sebagai sebuah paragraf tersendiri. Jurnal Ilmu Komputer - Volume 5 - No 2 – September 2012 ISSN : 1979-5661 -6- Asumsinya, bila secara natural kalimat – kalimat tersebut bergabung, dapat dianggap kalimat – kalimat tersebut memiliki similarity yang cukup tinggi dan membahas topik bahasan yang sama. Sementara untuk memproses kalimat – kalimat tersisa yang tidak mau bergabung kedalam cluster – cluster besar, dipakai aturan sebagai berikut:  Bila hanya 1 kalimat akan digabungkan pada paragraf terakhir.  Bila lebih dari satu kalimat, kalimat – kalimat yang tersisa tersebut akan dipaksakan bergabung menjadi satu paragraf tersendiri. Sementara, Output-output yang dihasilkan sistem melalui pemrosesan input dari user adalah : a. Report tingkat kesamaan antar dokumen yang akan diintegrasikan. b. Dokumen hasil proses integrasi yang dapat disimpan dalam format file .doc. Berikut ini adalah gambar rancangan alur pada subsistem Integration secara garis besar : start Parsing paragraf menjadi kalimat Parsing kalimat menjadi kata Hitung bobot kalimat Hitung bobot kalimat dengan TF-IDF Urut dokumen berdasarkan similarity Hitung bobot relasi antar kalimat Proses pengelompokkan kalimat dengan clustering Print hasil Clustering Save ? Save menjadi file .doc end ya tidak Gambar 1. Perancangan Alur pada Subsistem Integration

4. PENGUJIAN