17
2.3 Metode Peringkasan Teks Otomatis
2.3.1 Term Frequency-Inverse Document Frequency TF-IDF
Banyak sekali metode yang digunakan untuk menghasilkan suatu ringkasan. Metode yang sudah pernah dilakukan adalah dengan menggunakan
metode Maximum Marginal Relevance. Data uji coba diambil dari surat kabar berbahasa Indonesia online berjumlah 30 berita. Hasil pengujian dibandingkan
dengan ringkasan manual yang menghasilkan rata-rata recall 60, precision 77 dan f-measure 66 Mustaqhfitri, Abidin, Kusumawati, 2009.
Peringkasan teks otomatis dengan menggunakan metode TF-IDF pada dokumen berbahasa Indonesia. Data yang diujikan berjumlah 50 dokumen teks
berbahasa Indonesia. Dari hasil pengujian sistem secara manual terdapat 31 hasil peringkasan yang sesuai. Sehingga nilai akurasinya adalah 62 Mulyana,
Ramadona, Herfina, 2012. Berdasarkan Orasan, Pekar, Hasler, 2004 metode TF-RIDF adalah salah
satu varian dari metode TF-IDF dalam peringkasan teks. Residual IDF, disebut sebagai RIDF Manning, Schutze, 1999 adalah fungsi yang menjelaskan ke
dalam estimasi IDF yaitu bagian dari skema TF-IDF, berikut rumus yang digunakan :
RIDF t = IDF - log 1 - p 0; λt
Gambar 2.3
Perhitungan RIDF
18 | D |
Dimana IDF adalah log | Dt |, dan p adalah Poisson distribusi dengan parameter
λt, jumlah rata-rata kata t per dokumen dan 1 - p 0; λt adalah kemungkinan kata t muncul dalam dokumen. Pada percobaan evaluasi, data
yang digunakan dari corpus berjumlah 147 teks Newsware Rose, 2002. Evaluasi dari 15 mahasiswa dengan menerima satu ringkasan dari setiap teks dan diminta
untuk menjawab pertanyaan tentang teks tersebut menghasilkan akurasi sebesar 69.
Dalam penelitian ini, metode yang digunakan untuk peringkasan teks otomatis adalah menggunakan metode TF-IDF
Mulyana, Ramadona, Herfina, 2012
. Metode ini dilakukan dengan cara pemberian bobot hubungan suatu kata t terhadap dokumen D. Untuk dokumen tunggal, setiap kalimat dianggap
sebagai dokumen. Metode ini menggunakan 2 konsep perhitungan bobot yaitu term frequency
TF dan inverse document frequency IDF. Term frequency TF adalah jumlah frekuensi kemunculan kata t pada kalimat D. Inverse document
frequency IDF dihitung menggunakan document frequency df. Document
frequency adalah jumlah kalimat D yang mengandung kata t.
Pada metode ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF dan IDF. Bobot suatu istilah semakin besar jika
istilah tersebut sering muncul dalam suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam banyak dokumen Grossman, 1998. Skema normalisasi
pembobotan TF-IDF dihitung menggunakan rumus 1 sebagai berikut Savoy, 1993 :
19
W
ik
= ntf
ik
nidf
k
1
Gambar 2.4
Perhitungan W
ik
Dimana aturan ntf
ik
dan nidf
k
terdapat pada rumus 2 dan rumus 3 berikut :
tf
ik
ntf
ik
=
2
Max
j
tf
ij
Gambar 2.5
Perhitungsn ntf
ik
n log df
k
nidf
k
=
3
log n
Gambar 2.6 Perhitungsn nidf
k
Keterangan : W
ik
= bobot istilah
k
pada dokumen
i.
tf
ik
= frekuensi dari istilah
k
pada dokumen
i.
n = jumlah dokumen dalam koleksi dokumen.
df
k
= jumlah dokumen yang mengandung istilah
k.
Max
j
tf
ij
= frekuensi istilah terbesar pada satu dokumen.
20
2.3.2 Langkah Pengerjaan