24
Bit ke-18 : 0.167530059814453 o
Bit ke-19 : 0.874832332134247 o
Bit ke-20 : 0.0878018701157
Maka kromosom hasil mutasi adalah sebagai berikut :
0110111101011010110
2.3.6 Evaluasi Generasi Berikutnya.
Pada tahap ini, dilakukan evaluasi pada keseluruhan populasi generasi yang baru, apakah sudah mencapai solusi yang diharapkan atau belum. Jika belum, maka
kembali ke langkah c dan dilakukan berulang-ulang hingga didapatkan solusi yang diharapkan.Teknik evaluasi pada tahap ini tergantung pada kasus yang
dihadapi. Untuk contoh yang diberikan sebelumnya, algoritma ini akan berhenti jika
pada salah satu kromosom pada populasi yang baru dapat menghasilkan nilai 100 pada persamaan tersebut. Sebagai contoh, jika pada generasi yang baru salah satu
kromosom adalah 10001010110001000111 a=8, b=10, c=12, d=4, e=7. Jika dimasukkan pada persaman tersebut : 8 + 10 12
– 4 7 = 100. Maka kromosom ini adalah solusi yang diharapkan, dan algoritma genetika berhenti pada tahap ini.
2.4 Fungsi Cosine Similarity
Cosine similarity adalah ukuran kesamaan antara duadari vektor n dimensi dengan mencari kosinus antar dimensi. Sebagai contoh diberikan dua vektor dari
atribut X dan Y, dengan similaritas θ dilambangkan dengan menggunakan titik
produk dan besarnya sebagai. Pada rumus 2.1 dibawah ini diperlihatkan rumus untuk mengukur nilai similaritas
cosine coefficient antar 2 dokumen. Sedang untuk himpunan dapat digunakan rumus 2.2, dimana Y
X adalah jumlah kata yang muncul di dokumen X dan dokumen Y, |X| adalah jumlah kata yang ada di dokumen X. Basuki, 2003
Rumus 2.1 Rumus untuk menghitung cosine coefficient
Universitas Sumatera Utara
25
∑ √∑
∑
………….. 2.1
Rumus 2.2 Rumus untuk menghitung cosine coefficient dalam format himpunan
| | | |
…………………..2.2
X ∩ Y adalah jumlah terms yang ada di X dan Y |X| adalah umlah term yang ada di X
2.5 POSI Formulation
Jika dalam datu database dijumpai sejumlah j dokumenpaper dimana setiap dokumenpaper memiliki kata kunci k terhadap I dimana I,j adalah integer, maka
perhitungan untuk kemiripan antara sejumlah kata kunci keyword tersebut dapat dihitung dengan POSI Formulation.
Misalkan dokumenpaper
1
disebut sebagai dokumen
1
, paper
2
disebut sebagai dokumen
2
sampai dengan dokumen
j
disebut dengan dokumen
j
. Kromosom kata kunci
1
disebut dengan k
1
, kromosom
2
disebut dengan K
2
dengan kromosom
i
disebut dengan K
i
Untuk menguji persentasi kemiripan antara kata kunci keyword terhadap dokumen dapat dihitung dengan menggunakan perhitungan Percentage of
Similarity POSI formulation. Proses yang dilakukan adalah bahwa proses GA
telah menghasilkan kata kunci solusi. Kemudian kata kunci ini akan dibandingkan dengan data yang ada pada database pada kolom judul tulisan, kata kunci
keseluruhan pada tiap record, abstrak dan pada referensi. Sihombing, 2010
Universitas Sumatera Utara
26
Formula yang digunakan dapat dilihat seperti pada formula 2.3 berikut ini.
n
∑
k
i
d
j 1
Sim k,d
= ------------ ....................................2.3
K
total
Dimana Sim k,d = Nilai Kemiripan.
k
i
d
j
= jumlah masing-mading nilai kata kunci i dan j = 0, 1,2,3,,,n, n adalah integer
K
total
= jumlah total dari semua kata kunci solusi yang terdiri dari judul, abstrak dan kata kunci.
2.6. Teks Mining 2.6.1. Pengertian Teks Mining