Analisis Pembobotan TF-IDF Implementasi Metode Support Vector machine Dan Metode Maximum Marginal Relevance Untuk Menghasilkan Rangkuman Dari Kumpulan Dokumen Berita Dengan Topik Sejenis

Tabel 3.7 Term dari Kalimat pada Dokumen Pertama Kalimat Term S1 pemerintah malaysia libur sekolah dua hari lindung anak kabut asap asal indonesia senin S2 indeks polusi udara wilayah negeri jiran sentuh level sangat tidak sehat S3 otoritas paksa tutup sekolah hari selasa besok S4 shah alam selangor indeks polusi udara turun cukup tajam S5 angka indeks aman moderat tidak sehat sangat bahaya S6 dapat area malaysia utama wilayah utara level tidak sehat buruk penang level S7 kabut asap paksa berapa bandara malaysia tutup minggu S8 acara lari maraton kuala lumpur batal Proses pertama lakukan perhitungan kata term yang ada pada setiap kalimat, hasilnya dapat dilihat pada lampiran tabel perhitungan Tabel 1 Term Frequency. Kemudian hitung df, karena perhitungan dilakukan pada sebuah dokumen dan yang dihitung term pada kalimat dalam dokumen tersebut, maka df = jumlah term yang ada pada setiap kalimat, hasilnya dapat dilihat pada lampiran tabel perhitungan Tabel 2 Nilai DF. Selanjutnya menghitung idf, maka hasil perhitungan dapat dilihat pada lampiran tabel perhitungan Tabel 3 Nilai IDF. Kemudian hasil tf dan idf kembali dilakukan perhitungan menggunakan persamaan 2.2. Adapun hasil yang didapatkan dari perhitungan pembobotan TF- IDF dapat dilihat pada Tabel 3.8 berikut: Tabel 3.8 Hasil Pembobotan TF-IDF Term Weight Kalimat S1 S1 S1 S1 S1 S1 S1 S1 pemerintah 0.903 malaysia 0.426 0.426 0.426 libur 0.903 sekolah 0.602 0.602 dua 0.903 hari 0.602 0.602 lindung 0.903 Term Weight Kalimat S1 S1 S1 S1 S1 S1 S1 S1 anak 0.903 kabut 0.602 0.602 asap 0.602 0.602 asal 0.903 indonesia 0.903 senin 0.903 indeks 0.426 0.426 0.426 polusi 0.602 0.602 udara 0.602 0.602 wilayah 0.602 0.602 negeri 0.903 jiran 0.903 sentuh 0.903 level 0.426 0.852 sangat 0.602 0.602 tidak 0.426 0.426 0.426 sehat 0.426 0.426 0.426 otoritas 0.903 paksa 0.602 0.602 tutup 0.602 0.602 selasa 0.903 besok 0.903 shah 0.903 alam 0.903 selangor 0.903 turun 0.903 cukup 0.903 tajam 0.903 angka 0.903 aman 0.903 moderat 0.903 bahaya 0.903 dapat 0.903 Term Weight Kalimat S1 S1 S1 S1 S1 S1 S1 S1 area 0.903 utama 0.903 utara 0.903 buruk 0.903 penang 0.903 berapa 0.903 bandara 0.903 minggu 0.903 acara 0.903 lari 0.903 maraton 0.903 kuala 0.903 lumpur 0.903 batal 0.903 Hasil pembobotan tf-idf dilakukan untuk memberi bobot pada setiap kata term. Kemudian hasil dari pembobotan tf-idf tersebut digunakan sebagai langkah dalam melakukan perhitungan cosine similarity untuk bobot query relevance. Query relevance merupakan bobot hasil perbandingan kemiripan similaritas antara vektor query terhadap setiap kalimat.

3.6 Analisis Perhitungan Cosine Similarity

Cosine Similarity digunakan untuk menghitung pendekatan relevansi query terhadap dokumen. Semakin banyak term yang muncul dalam dokumen, maka term tersebut dipandang sebagai vektor query. Cosine similarity digunakan dalam ruang positif, dimana hasilnya dibatasi dengan range nilai 0 sampai 1[11]. Untuk mendapatkan nilai query relevance, pertama dilakukan perkalian antara nilai idf dengan term pada setiap kalimat dari hasil pembobotan tf-idf, kemudian jumlahkan. Hasil pada langkah pertama dapat dilihat pada lampiran tabel perhitungan Tabel 4 Hasil Perhitungan Cosine Similarity Langkah Pertama. Langkah kedua, hitung panjang setiap kalimat. Caranya, kuadratkan bobot setiap term dalam setiap kalimat, kemudian jumlahkan nilai kuadrat dan terakhir akarkan. Hasil pada langkah kedua merupakan � dot product1 dimana = , . . , � dapat dilihat pada lampiran tabel perhitungan Tabel 5 Hasil Perhitungan Cosine Similarity Langkah Kedua. Langkah ketiga, cari ��� dot product2 dimana = , . . , � dengan cara kuadratkan setiap nilai ��� , kemudian jumlahkan nilai kuadrat dan terakhir akarkan. Hasil pada langkah ketiga dapat dilihat pada lampiran tabel perhitungan Tabel 6 Hasil Perhitungan Cosine Similarity Langkah Ketiga. Langkah terakhir, terapkan rumus cosine similarity menggunakan persamaan 2.3. Adapun flowchart dari proses perhitungan cosine similarity untuk query relevance dapat dilihat pada Gambar 3.11 berikut: Mulai Data hasil pembobotan TFIDF Hitung WeightIDF tiap kata Jumlahkan nilai setiap kata dalam setiap kalimat Data nilai WeigthIDF Hitung IDFs i kuadrat dimana i=1,..,n Jumlahkan nilai setiap kata dalam setiap kalimat kemudian akarkan Data nilai dot product2 IDFs i Hitung Ws i kuadrat dimana i=1,..,n Data nilai dot product1 Ws i Jumlahkan nilai setiap kata dalam setiap kalimat kemudian akarkan Nilai weightidf dibagi Ws i IDFs i Selesai Data nilai hasil query relevance Gambar 3.11 Flowchart Perhitungan Query Relevance Sebagai contoh dilakukan perhitungan pada kalimat pertama S1 berikut: CS = � , ��� = . . ∗ . = 0.473749 Setelah perhitungan dilakukan pada seluruh kalimat, maka hasil dari perhitungan query relevance didapatkan hasilnya pada Tabel 3.9 berikut: Tabel 3.9 Bobot Query Relevance Kalimat S1 S2 S3 S4 S5 S6 S7 S8 CS = d1,d2 0.474 0.357 0.327 0.400 0.339 0.400 0.335 0.367 Untuk mendapatkan bobot matriks similarity kalimat digunakan persamaan 2.4 dengan data jumlah term pada setiap kalimat sesuai Tabel 3.7. Adapun flowchart dari proses perhitungan cosine similarity untuk similarity kalimat dapat dilihat pada Gambar 3.12 berikut: Mulai Data hasil proses preprocessing Hitung irisan antar kalimat Si dan Sj dimana i,j=1,..,n Hitung jumlah kata pada setiap kalimat Data nilai irisan kalimat Si dan Sj Hitung jumlah kata pada kalimat Si dimana i=1,..,n lalu pangkatkan setengah Hitung jumlah kata pada kalimat Sj dimana j=1,..,n lalu pangkatkan setengah Data nilai untuk kalimat Si Data nilai untuk kalimat Sj Hasil irisan dibagi hasil nilai Si dikali nilai Sj Data hasil Similarity kalimat Selesai Gambar 3.12 Flowchart Perhitungan Similarity Kalimat