SIMILARITY KEMIRIPAN SIMILARITY MEASURE UKURAN KEMIRIPAN

query pengguna. Pada tahapan preprocessing, sistem yang berurusan dengan dokumen semi-structured biasanya memberikan tag tertentu pada term-term atau bagian dari dokumen; sedangkan pada dokumen tidak terstruktur proses ini dilewati dan membiarkan term tanpa imbuhan tag. Query yang dimasukkan oleh pengguna dikonversi sesuai aturan tertentu untuk mengekstrak term-term penting yang sejalan dengan term-term yang sebelumnya telah diekstrak dari dokumen dan menghitung relevansi antara query dan dokumen berdasarkan pada term-term tersebut [24]. Sebagai hasilnya, sistem mengembalikan suatu daftar dokumen terurut descending ranking sesuai nilai kemiripannya dengan query pengguna [18]. Menurut Tata [30], setiap dokumen termasuk query direpresentasikan menggunakan model bag-of-words yang mengabaikan urutan dari kata-kata di dalam dokumen, struktur sintaktis dari dokumen dan kalimat. Dokumen ditransformasi ke dalam suatu β€œtasβ€œ berisi kata-kata independen. Term disimpan dalam suatu database pencarian khusus yang ditata sebagai sebuah inverted index. Index ini merupakan konversi dari dokumen asli yang mengandung sekumpulan kata ke dalam daftar kata yang berasosiasi dengan dokumen terkait dimana kata- kata tersebut muncul.

2.2 SIMILARITY KEMIRIPAN

Menurut Guo [13], definisi dari similarity adalah sesuatu yang penting dan merupakan konsep yang digunakan secara luas. Similarity mempunyai beberapa pendekatan, yaitu: a. Perkiraan 1: kesamaan antara A dan B adalah berhubungan dengan kesamaannya secara umum. Semakin banyak kesamaan umum yang dibagikan, semakin banyak pula kesamaan mereka. Universitas Sumatera Utara b. Perkiraan 2: kesamaan antara A dan B adalah berhubungan dengan perbedaan-perbedaan yang dimilikinya. Semakin banyak perbedaan yang dimiliki, semakin kecil tingkat kemiripannya. c. Perkiraan 3: kesamaan maksimum antara A dan B akan tercapai ketika A dan B adalah serupa atau identik, berapa banyak kesamaan umum yang mereka bagikan tidak berpengaruh.

2.3 SIMILARITY MEASURE UKURAN KEMIRIPAN

Menurut Salton [26], model ruang vektor dan pembobotan tf-idf digunakan untuk merepresentasikan nilai numerik dokumen sehingga kemudian dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor di dalam suatu ruang vektor maka semakin mirip dua dokumen yang diwakili oleh vektor tersebut. Kemiripan antar dokumen dihitung menggunakan suatu fungsi ukuran kemiripan similarity measure. Ukuran ini memungkinkan perankingan dokumen sesuai dengan kemiripan relevansinya terhadap query. Setelah dokumen diranking, sejumlah tetap dokumen top-scoring dikembalikan kepada pengguna. Alternatifnya, suatu threshold dapat digunakan untuk memutuskan berapa banyak dokumen akan dikembalikan. Threshold dapat digunakan untuk mengontrol tarik-ulur antara presisi dan recall. Nilai threshold tinggi biasanya akan menghasilkan presisi tinggi dan recall rendah. Ada beberapa metode pengukuran kemiripan yaitu cosine, dice, hsinchun chen, dan jaccard. Metode yang sering digunakan untuk pengukuran kemiripan adalah ukuran kemiripan similarity measure cosine. Salah satu ukuran kemiripan dokumen adalah faktor Hsinchun Chen [32]. Menurut Chen et al [4] ukuran kemiripan dengan Hsinchun Chen adalah setiap istilah dapat diwakili oleh satu simpul node, dimana hubungan antar istilah ini dapat dihitung dengan menggunakan rumusan yang diajukannya seperti pada persamaan 2.1 : Universitas Sumatera Utara ................................... 2.1 Dengan di jk bernilai 1 satu apabila dokumen ke-i memuat istilah j dan istilah k bersama-sama, dan bernilai 0 nol pada kasus lainnya. Nilai di j bernilai 1 apabila dokumen ke-i memuat istilah j, dan 0 apabila dokumen ke-i tidak memuat istilah j. Rumus di atas menyatakan kemiripan antara istilah j dan istilah k yaitu perbandingan antara jumlah dokumen yang memuat istilah j dan istilah k bersama- sama, dengan jumlah dokumen yang memuat istilah j saja. Nilai n adalah jumlah keseluruhan dokumen yang ada dalam koleksi. Nilai kemiripan Tj, Tk mungkin berbeda dengan nilai kemiripan Tk, Tj, karena nilai pembagi dalam rumus di atas untuk kemiripan Tk, Tj adalah jumlah dokumen yang memuat istilah k saja di k . Ini berarti ada perbedaan nilai keterhubungan dari istilah k ke istilah j dengan nilai keterhubungan dari istilah j ke istilah k.

2.4 ALGORITMA GENETIKA