Metode TF-IDF Term Frequency - Inverse Document Frequency

S5 22,28800 4,72102 S6 14,69502 3,83341 S7 23,09589 4,80582 S8 29,11244 5,39559 Setelah mendapatkan vektor, kemudian tiap kalimat dikalikan dengan kalimat yang lain untuk selanjutnya digunakan pada similarity. Contoh perkalian kalimat 1 dengan kalimat lain dengan kata “jakarta”, ambil w atau TF- IDF dari kata “jakarta” pada w-S1 dan w-S lainnya, selanjutnya kalikan w-S1 dengan w-S2, w-S1 dengan w-3, dan seterusnya. Hasil perhitungan dapat dilihat pada Tabel 3.12. Tabel 3. 12 Hasil Perkalian Antara S1 dan Kalimat Lain S1 Si Kata w=tf.idf S1 Si S1 S2 S3 S4 S5 S6 S7 S8 S2 S3 S4 S5 S6 S7 S8 jakarta 1,89209 presiden 1,29003 1,29003 1,29003 1,29003 1,66418 1,66418 1,66418 jokowi 1,19312 1,19312 1,19312 1,19312 1,19312 1,42354 1,42354 1,42354 1,42354 kunjung 1,89209 terminal 1,11394 1,11394 1,11394 1,11394 1,11394 1,11394 1,24086 1,24086 1,24086 1,24086 1,24086 ultimate 1,41497 1,41497 1,41497 2,00214 2,00214 bandara 1,59106 1,59106 2,53147 soekarno 1,59106 1,59106 2,53147 hatta 1,59106 1,59106 2,53147 ∑ 2,90504 12,50159 1,42354 2,90504 1,42354 2,66440 4,66654 Setelah memperoleh hasil perkalian kalimat 1 dengan kalimat lainnya, selanjutnya menghitung cosine similarity dengan menggunakan rumus , = ∑ . √∑ 2 √∑ 2 Tabel 3. 13 Perhitungan Cosine Similarity Kalimat 1 S1 ∑ . √∑ √∑ � , S2 2,90504 4,59286 4,20232 0,15055 S3 12,50159 4,59286 5,73874 0,47442 S4 1,42354 4,59286 6,69462 0,04631 S5 2,90504 4,59286 4,72102 0,13401 S6 1,42354 4,59286 3,83341 0,13401 S7 2,66440 4,59286 4,80582 0,12074 S8 4,66654 4,59286 5,39559 0,18835 ∑ 1,19524 Perhitungan perkalian kalimat selanjutnya dapat dilihat pada lampiran Tabel perkalian antar kalimat. Dan perhitungan cosine similarity selanjutnya dapat dilihat pada lampiran Tabel cosine similarity. Hasil perhitungan cosine similarity antarkalimat dapat dilihat pada Tabel 3.14 Tabel 3. 14 Hasil Cosine Similarity Antar Kalimat S1 S2 S3 S4 S5 S6 S7 S8 S1 1 0,15055 0,47442 0,04631 0,13401 0,08087 0,12074 0,18835 S2 0,15055 1 0,12046 0,27403 0,06144 0,27802 S3 0,47442 0,12046 1 0,06589 0,10723 0,06471 0,04499 0,10473 S4 0,04631 0,08998 1 0,04425 0,17957 S5 0,13401 0,14643 0,20066 1 0,16627 0,04871 S6 0,08087 0 0,05547 1 0,07727 0,06882 S7 0,12074 0,31214 0,04499 0,04425 0,16627 0,07727 1 0,10275 S8 0,18835 0,05473 0,10473 0,17957 0,04871 0,06882 0,10275 1 Hasil total cosine similarity kalimat satu terhadap kalimat yang lain dapat dilihat pada Tabel 3.15. Tabel 3. 15 Hasil Total Cosine Similarity Kalimat Satu Terhadap Kalimat yang Lain Kalimat cosine similarity S1 1,19524 S2 0,87428 S3 0,94527 S4 0,39149 S5 0,73024 S6 0,29168 S7 0,61771 S8 0,97097

3.2.3. Metode KNN K-Nearest Neighbors

Setelah menghitung dan mendapatkan nilai cosine similarity antarkalimat, selanjutnya proses KNN, untuk memilah kalimat yang akan diproses pada proses MMR. Gambar 3. 9 Proses KNN Langkah pertama adalah menentukan parameter K jumlah tetangga paling dekat. Pada penelitian text summarization ini nilai K = 3 dapat dilihat pada Lampiran F Menentukan Nilai K Pada KNN. Karena dokumen yang dipakai adalah dokumen kecil artikel berita. Sehingga apabila diambil nilai K-nya terlalu besar maka lingkup tetangganya besar. Selanjutnya menghitung jarak masing-masing objek. Perhitungan jarak menggunakan cosine similarity yang telah dilakukan pada proses sebelumnya. Untuk mengetahui relevan dan tidak relevan sebagai tetangganya, maka tentukan terlebih dahulu nilai relevan dan tidak relevan sebuah kalimat. Dikatakan relevan apabila nilai cosine similarity-nya melebihi nilai rata-rata cosine similarity. Dan dikatakan tidak relevan apabila nilai cosine similarity-nya kurang dari nilai rata- rata cosine similarity. Hasil relevansi dapat dilihat pada Tabel 3.16.