Term Frequency-Inverse Document Frequency TF-IDF

17

2.3 Metode Peringkasan Teks Otomatis

2.3.1 Term Frequency-Inverse Document Frequency TF-IDF

Banyak sekali metode yang digunakan untuk menghasilkan suatu ringkasan. Metode yang sudah pernah dilakukan adalah dengan menggunakan metode Maximum Marginal Relevance. Data uji coba diambil dari surat kabar berbahasa Indonesia online berjumlah 30 berita. Hasil pengujian dibandingkan dengan ringkasan manual yang menghasilkan rata-rata recall 60, precision 77 dan f-measure 66 Mustaqhfitri, Abidin, Kusumawati, 2009. Peringkasan teks otomatis dengan menggunakan metode TF-IDF pada dokumen berbahasa Indonesia. Data yang diujikan berjumlah 50 dokumen teks berbahasa Indonesia. Dari hasil pengujian sistem secara manual terdapat 31 hasil peringkasan yang sesuai. Sehingga nilai akurasinya adalah 62 Mulyana, Ramadona, Herfina, 2012. Berdasarkan Orasan, Pekar, Hasler, 2004 metode TF-RIDF adalah salah satu varian dari metode TF-IDF dalam peringkasan teks. Residual IDF, disebut sebagai RIDF Manning, Schutze, 1999 adalah fungsi yang menjelaskan ke dalam estimasi IDF yaitu bagian dari skema TF-IDF, berikut rumus yang digunakan : RIDF t = IDF - log 1 - p 0; λt Gambar 2.3 Perhitungan RIDF 18 | D | Dimana IDF adalah log | Dt |, dan p adalah Poisson distribusi dengan parameter λt, jumlah rata-rata kata t per dokumen dan 1 - p 0; λt adalah kemungkinan kata t muncul dalam dokumen. Pada percobaan evaluasi, data yang digunakan dari corpus berjumlah 147 teks Newsware Rose, 2002. Evaluasi dari 15 mahasiswa dengan menerima satu ringkasan dari setiap teks dan diminta untuk menjawab pertanyaan tentang teks tersebut menghasilkan akurasi sebesar 69. Dalam penelitian ini, metode yang digunakan untuk peringkasan teks otomatis adalah menggunakan metode TF-IDF Mulyana, Ramadona, Herfina, 2012 . Metode ini dilakukan dengan cara pemberian bobot hubungan suatu kata t terhadap dokumen D. Untuk dokumen tunggal, setiap kalimat dianggap sebagai dokumen. Metode ini menggunakan 2 konsep perhitungan bobot yaitu term frequency TF dan inverse document frequency IDF. Term frequency TF adalah jumlah frekuensi kemunculan kata t pada kalimat D. Inverse document frequency IDF dihitung menggunakan document frequency df. Document frequency adalah jumlah kalimat D yang mengandung kata t. Pada metode ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF dan IDF. Bobot suatu istilah semakin besar jika istilah tersebut sering muncul dalam suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam banyak dokumen Grossman, 1998. Skema normalisasi pembobotan TF-IDF dihitung menggunakan rumus 1 sebagai berikut Savoy, 1993 : 19 W ik = ntf ik nidf k 1 Gambar 2.4 Perhitungan W ik Dimana aturan ntf ik dan nidf k terdapat pada rumus 2 dan rumus 3 berikut : tf ik ntf ik = 2 Max j tf ij Gambar 2.5 Perhitungsn ntf ik n log df k nidf k = 3 log n Gambar 2.6 Perhitungsn nidf k Keterangan : W ik = bobot istilah k pada dokumen i. tf ik = frekuensi dari istilah k pada dokumen i. n = jumlah dokumen dalam koleksi dokumen. df k = jumlah dokumen yang mengandung istilah k. Max j tf ij = frekuensi istilah terbesar pada satu dokumen. 20

2.3.2 Langkah Pengerjaan