Analisis Pembobotan TF-IDF Implementasi Metode Support Vector machine Dan Metode Maximum Marginal Relevance Untuk Menghasilkan Rangkuman Dari Kumpulan Dokumen Berita Dengan Topik Sejenis
Tabel 3.7 Term dari Kalimat pada Dokumen Pertama
Kalimat Term
S1 pemerintah malaysia libur sekolah dua hari lindung anak kabut asap asal indonesia
senin S2
indeks polusi udara wilayah negeri jiran sentuh level sangat tidak sehat S3
otoritas paksa tutup sekolah hari selasa besok S4
shah alam selangor indeks polusi udara turun cukup tajam S5
angka indeks aman moderat tidak sehat sangat bahaya S6
dapat area malaysia utama wilayah utara level tidak sehat buruk penang level S7
kabut asap paksa berapa bandara malaysia tutup minggu S8
acara lari maraton kuala lumpur batal
Proses pertama lakukan perhitungan kata term yang ada pada setiap kalimat, hasilnya dapat dilihat pada lampiran tabel perhitungan Tabel 1 Term
Frequency. Kemudian hitung df, karena perhitungan dilakukan pada sebuah dokumen dan yang dihitung term pada kalimat dalam dokumen tersebut, maka df =
jumlah term yang ada pada setiap kalimat, hasilnya dapat dilihat pada lampiran tabel perhitungan Tabel 2 Nilai DF. Selanjutnya menghitung idf, maka hasil
perhitungan dapat dilihat pada lampiran tabel perhitungan Tabel 3 Nilai IDF. Kemudian hasil tf dan idf kembali dilakukan perhitungan menggunakan
persamaan 2.2. Adapun hasil yang didapatkan dari perhitungan pembobotan TF- IDF dapat dilihat pada Tabel 3.8 berikut:
Tabel 3.8 Hasil Pembobotan TF-IDF
Term Weight
Kalimat S1
S1 S1
S1 S1
S1 S1
S1 pemerintah
0.903 malaysia
0.426 0.426
0.426 libur
0.903 sekolah
0.602 0.602
dua 0.903
hari 0.602
0.602 lindung
0.903
Term Weight
Kalimat S1
S1 S1
S1 S1
S1 S1
S1 anak
0.903 kabut
0.602 0.602
asap 0.602
0.602 asal
0.903 indonesia
0.903 senin
0.903 indeks
0.426 0.426
0.426 polusi
0.602 0.602
udara 0.602
0.602 wilayah
0.602 0.602
negeri 0.903
jiran 0.903
sentuh 0.903
level 0.426
0.852 sangat
0.602 0.602
tidak 0.426
0.426 0.426
sehat 0.426
0.426 0.426
otoritas 0.903
paksa 0.602
0.602 tutup
0.602 0.602
selasa 0.903
besok 0.903
shah 0.903
alam 0.903
selangor 0.903
turun 0.903
cukup 0.903
tajam 0.903
angka 0.903
aman 0.903
moderat 0.903
bahaya 0.903
dapat 0.903
Term Weight
Kalimat S1
S1 S1
S1 S1
S1 S1
S1 area
0.903 utama
0.903 utara
0.903 buruk
0.903 penang
0.903 berapa
0.903 bandara
0.903 minggu
0.903 acara
0.903 lari
0.903 maraton
0.903 kuala
0.903 lumpur
0.903 batal
0.903
Hasil pembobotan tf-idf dilakukan untuk memberi bobot pada setiap kata term. Kemudian hasil dari pembobotan tf-idf tersebut digunakan sebagai langkah
dalam melakukan perhitungan cosine similarity untuk bobot query relevance. Query relevance merupakan bobot hasil perbandingan kemiripan similaritas
antara vektor query terhadap setiap kalimat.