Fitur Kalimat yang Menyerupai Judul Dokumen F3 Fitur Cosine Similarity F4

15 “nonton”. Skor f2 untuk kalimat 2 adalah 28. Hal ini dikarenakan terdapat dua buah kata pada kalimat 2 yang memiliki kesamaan dengan kata yang ada pada kalimat 1 dan 3 yaitu “kami”, “pergi”. Skor f2 untuk kalimat 3 adalah 28. Hal ini dikarenakan terdapat dua buah kata pada kalimat 3 yang memiliki kesamaan kata dengan kata yang ada pada kalimat 1 dan 2 yaitu “kami”, “nonton”. Fitur ini dihitung dengan menggunakan rumus 2.2 2.2

2.4.3 Fitur Kalimat yang Menyerupai Judul Dokumen F3

Kalimat yang menyerupai judul dokumen adalah kumpulan kata yang dapat dicocokkan antara kalimat satu dengan judul dokumen atau dengan kata lain merupakan kata yang muncul dalam kalimat sama dengan kata yang ada dalam judul dokumenAristoteles dkk, 2012. Berikut ini contoh perhitungan skor f3, diasumsikan kalimat yang dijadikan contoh di bawah ini adalah kalimat yang telah melewati proses preprocessing:  Judul : Kegiatan kami bersama  Kalimat 1 : Kami pergi nonton.  Kalimat 2 : Kami pergi belanja.  Kalimat 3 : Kegiatan kami adalah olahraga bersama. Berdasarkan judul dan tiga kalimat diatas, perhitungan skor f5 dapat diilustrasikan dengan gambar 2.3 berikut ini : Gambar 2.3 Ilustrasi fitur kalimat yang menyerupai judul dokumen olahraga adalah kami kegiatan bersama pergi nonton kami kami kegiatan bersama pergi belanja judul kegiatan bersam a Kalimat 1 Kalimat 2 Kalimat 3 judul judul 16 Berdasarkan gambar 2.3, skor f3 untuk kalimat 1 adalah 15, hal ini dikarenakan terdapat satu kata pada kalimat 1 yang sama dengan kata yang ada pada judul dokumen yaitu kata “kami”. Skor f3 untuk kalimat 2 adalah 15, hal ini dikarenakan terdapat satu kata pada kalimat 2 yang sama dengan kata yang ada pada judul do kumen yaitu kata “kami”. Skor f3 untuk kalimat 3 adalah 35, hal ini dikarenakan terdapat tiga kata pada kalimat 3 yang sama dnegna kata yang ada pada judul dokumen yaitu kata “kami”, “kegiatan”, “bersama”. Fitur ini dapat dihitung dengan menggunakan rumus 2.3. 2.3

2.4.4 Fitur Cosine Similarity F4

Pada penelitian ini menggunakan semua keyword yang ada dalam dokumen kecuali kata-kata stoplist. Perhitungan cosine similarity melibatkan pembobotan weights TF-IDF dimana w i,j didefinisikan pada 2.4, dan tf i adalah banyaknya kemunculan term ke-i pada kalimat. SF i sentences frequency merupakan banyak kalimat yang mengandung term ke-i sedangkan ISF i = merupakan ukuran diskriminan kemunculan term ke-i dalam dokumen, N adalah banyaknya kalimat dalam satu dokumen. 2.4 Pengiriman emas rusak karena kebakaran. Pengiriman perak tiba di sebuah truk perak. Pengiriman emas tiba di truk. Setelah mengalami text preprocessing, kalimat menjadi :  S1 : kirim emas rusak bakar  S2 : kirim perak truk perak  S3 : kirim emas truk 17 Tabel 2.4 Term frequency dan inverse sentence frequency Term Tf SF ISF W S1 S2 S3 S1 S2 S3 Bakar 1 1 1.584963 1.584963 0 Emas 1 1 2 0.584963 0.584963 0 0.584963 Kirim 1 1 1 3 Perak 2 1 1.584963 0 3.169926 0 Rusak 1 1 1.584963 1.584963 0 Truk 1 1 2 0.584963 0 0.584963 0.584963 Jika bobot kata telah diperoleh, selanjutnya mencari nilai cosine similarity. Perhitungan cosine similarity antar dokumen dengan cara menghitung cosine sudut vektor W bobot suatu kalimat dengan vektor W bobot kalimat yang lain Yulita, 2015. Untuk mencari hubungan kemiripan antar kalimat digunakan persamaan 2.5. 2.5 Keterangan :  S1 = vector bobot kata yang menjadi kandidat  S2 = vector bobot kata selain kandidat. Dimana ti merupakan bobot kata dari kata wi. Berikut adalah contoh perhitungan cosine similarity antara kalimat 1 S1 dengan kalimat 2 S2 : Hasil perhitungan cosine similarity dapat dilihat pada Tabel 2.5. 18 Tabel 2.5 Data Matriks Kemiripan S1 S2 S3 Total Skor S1 1 0.178555 0.326131 S2 1 0.12832 0.31223 S3 0.178555 0.12832 1 0.36164 Jumlah 1.178555 1.12832 1.306875 3.613749

2.5 Pembobotan Fitur Ekstraksi Teks