15
“nonton”. Skor f2 untuk kalimat 2 adalah 28. Hal ini dikarenakan terdapat dua
buah kata pada kalimat 2 yang memiliki kesamaan dengan kata yang ada pada kalimat 1 dan 3 yaitu
“kami”, “pergi”. Skor f2 untuk kalimat 3 adalah 28. Hal
ini dikarenakan terdapat dua buah kata pada kalimat 3 yang memiliki kesamaan
kata dengan kata yang ada pada kalimat 1 dan 2 yaitu “kami”, “nonton”. Fitur ini
dihitung dengan menggunakan rumus 2.2
2.2
2.4.3 Fitur Kalimat yang Menyerupai Judul Dokumen F3
Kalimat yang menyerupai judul dokumen adalah kumpulan kata yang dapat dicocokkan antara kalimat satu dengan judul dokumen atau dengan kata lain
merupakan kata yang muncul dalam kalimat sama dengan kata yang ada dalam judul dokumenAristoteles dkk, 2012.
Berikut ini contoh perhitungan skor f3, diasumsikan kalimat yang dijadikan contoh di bawah ini adalah kalimat yang telah melewati proses
preprocessing: Judul : Kegiatan kami bersama
Kalimat 1 : Kami pergi nonton.
Kalimat 2 : Kami pergi belanja.
Kalimat 3 : Kegiatan kami adalah olahraga bersama.
Berdasarkan judul dan tiga kalimat diatas, perhitungan skor f5 dapat diilustrasikan dengan gambar 2.3 berikut ini :
Gambar 2.3 Ilustrasi fitur kalimat yang menyerupai judul dokumen
olahraga adalah
kami kegiatan
bersama pergi
nonton kami
kami kegiatan
bersama pergi
belanja
judul
kegiatan bersam
a Kalimat 1
Kalimat 2 Kalimat 3
judul judul
16
Berdasarkan gambar 2.3, skor f3 untuk kalimat 1 adalah 15, hal ini dikarenakan terdapat satu kata pada kalimat 1 yang sama dengan kata yang ada
pada judul dokumen yaitu kata “kami”. Skor f3 untuk kalimat 2 adalah 15, hal ini
dikarenakan terdapat satu kata pada kalimat 2 yang sama dengan kata yang ada pada judul do
kumen yaitu kata “kami”. Skor f3 untuk kalimat 3 adalah 35, hal ini dikarenakan terdapat tiga kata pada kalimat 3 yang sama dnegna kata yang ada
pada judul dokumen yaitu kata
“kami”, “kegiatan”, “bersama”. Fitur ini dapat
dihitung dengan menggunakan rumus 2.3. 2.3
2.4.4 Fitur Cosine Similarity F4
Pada penelitian ini menggunakan semua keyword yang ada dalam dokumen kecuali kata-kata stoplist. Perhitungan cosine similarity melibatkan
pembobotan weights TF-IDF dimana w
i,j
didefinisikan pada 2.4, dan tf
i
adalah banyaknya kemunculan term ke-i pada kalimat. SF
i
sentences frequency merupakan banyak kalimat yang mengandung term ke-i sedangkan ISF
i
= merupakan ukuran diskriminan kemunculan term ke-i dalam dokumen,
N adalah banyaknya kalimat dalam satu dokumen. 2.4
Pengiriman emas rusak karena kebakaran. Pengiriman perak tiba di sebuah truk perak. Pengiriman emas tiba di truk.
Setelah mengalami text preprocessing, kalimat menjadi : S1 : kirim emas rusak bakar
S2 : kirim perak truk perak S3 : kirim emas truk
17
Tabel 2.4 Term frequency dan inverse sentence frequency
Term Tf
SF ISF
W S1
S2 S3
S1 S2
S3 Bakar
1 1
1.584963 1.584963 0 Emas
1 1
2 0.584963 0.584963 0
0.584963 Kirim
1 1
1 3
Perak 2
1 1.584963 0
3.169926 0 Rusak
1 1
1.584963 1.584963 0 Truk
1 1
2 0.584963 0
0.584963 0.584963 Jika bobot kata telah diperoleh, selanjutnya mencari nilai cosine similarity.
Perhitungan cosine similarity antar dokumen dengan cara menghitung cosine sudut vektor W bobot suatu kalimat dengan vektor W bobot kalimat yang lain
Yulita, 2015. Untuk mencari hubungan kemiripan antar kalimat digunakan persamaan 2.5.
2.5
Keterangan : S1 = vector bobot kata yang menjadi kandidat
S2 = vector bobot kata selain kandidat.
Dimana ti merupakan bobot kata dari kata wi. Berikut adalah contoh perhitungan cosine similarity antara kalimat 1 S1 dengan kalimat 2 S2 :
Hasil perhitungan cosine similarity dapat dilihat pada Tabel 2.5.
18
Tabel 2.5 Data Matriks Kemiripan
S1 S2
S3 Total
Skor S1
1 0.178555
0.326131 S2
1 0.12832
0.31223 S3
0.178555 0.12832
1 0.36164
Jumlah 1.178555
1.12832 1.306875
3.613749
2.5 Pembobotan Fitur Ekstraksi Teks