COMBINING CLUSTER CANDIDATE APLIKASI MANAJEMEN DAN PENGELOLAAN DATA TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA.

2.3 COMBINING CLUSTER CANDIDATE

Pada tahapan kedua, cluster candidate yang telah ada digabung dengan cluster candidate yang memiliki frequent word sequences yang sama. Tujuannya untuk mendapatkan cluster yang mengandung dokumen dengan topik yang lebih umum. Penggabungan cluster candidate pada penelitian ini menggunakan konsep kmismatch. Pada penelitian ini, diperiksa k-mismatch dari frequent word sequences yang ditemukan. Terdapat tiga mismatches yang terjadi diantara dua frequent word sequences FSi dan FSj yaitu insertion, deletion dan substitution. Insertion merupakan proses memasukkan kata sejumlah k kedalam frequent word sequence yang panjang |P| lebih kecil. Deletion merupakan proses menghilangkan kata sejumlah k kedalam frequent word sequences yang panjang |P| lebih besar. Sedangkan substitution merupakan proses penggantian kata sejumlah k ke kedua frequent word sequences. Untuk lebih rinci, berikut ini merupakan contoh ketiga jenis mismatches dengan k= 1: a. Insertion: {|FSi| |FSj| |FSi= “boys play”; FSj= ”boys play basketball”}; dengan memasukkan kata “basketball” pada FSi maka FSi=FSj. b. Deletion: {|FSi| |FSj| |FSj=”boys play”; FSi=”play”}; dengan menghapus kata “boys” dari FSj maka FSj = FSi. c. Substitution: {|FSi| = |FSj| |FSi=”boys play”; FSj=”girls play”}; dengan mensubstitusi kata “boys” FSi dengan kata “girls” maka FSi=FSj. Setelah penggabungan cluster candidate menjadi cluster, akan didapatkan dokumen yang overlap. Overlapping terjadi apabila dokumen berada di beberapa cluster yang berbeda. Untuk mengetahui ada tidak overlapping digunakan rumus yaitu sebagai berikut : OCi,Cj = Idsi ∩ Idsj Rumus ini menguji dua cluster Ci an Cj. Jika OCi, Cj lebih besar dari nilai threshold yang telah ditentukan, kedua cluster tersebut dapat digabung menjadi satu. Nilai threshold antara _ = 0 sampai _ = 1 dengan range [0,1]. Jika nilai threshold _ = 0 kedua cluster harus berpisah tetapi apabila _ = 1, kedua cluster tersebut mungkin memiliki dokumen yang sama tetapi bukan berarti kedua cluster tersebut sama persis karena dokumen mungkin merepresentasikan dua topic yang berbeda. Dokumen yang tidak memiliki frequent word sequences akan digabungkan menjadi satu cluster dengan label “unrelated issue ”. Rumus ini menguji dua cluster Ci an Cj. Jika OCi, Cj lebih besar dari nilai threshold yang telah ditentukan, kedua cluster tersebut dapat digabung menjadi satu. Nilai threshold antara _ = 0 sampai _ = 1 dengan range [0,1]. Jika nilai threshold _ = 0 kedua cluster harus berpisah tetapi apabila _ = 1, kedua cluster tersebut mungkin memiliki dokumen yang sama tetapi bukan berarti kedua cluster tersebut sama persis karena dokumen mungkin merepresentasikan dua topic yang berbeda. Dan untuk dokumen atau file yang tidak memiliki frequent word sequences , maka akan digabungkan menjadi satu cluster dengan label “unrelated issue

2.6 Visual Basic .NET