Term Frequency Inverse Document Frequency TF-IDF

2.7. Term Frequency Inverse Document Frequency TF-IDF

Metode Term Frequency-Inverse Document Frequency TF-IDF adalah cara pemberian bobot hubungan suatu kata term terhadap dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot, yaitu Term frequency TF merupakan frekuensi kemunculan kata t pada kalimat d. Document frequency DF adalah banyaknya kalimat dimana suatu kata t muncul. Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen Robertson, 2004. Pada Metode ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF dan IDF. Pada penelitian ini, peringkasan teks otomatis yang di kembangkan merupakan sistem peringkasan dengan inputan berupa single dokumen dan secara otomatis menghasilkan ringkasan summary. Proses text preprosessing yang dilakukan pada peringkasan teks otomatis ini hanya proses tokenizing yaitu proses pemotongan string input berdasarkan tiap kata yang menyusunnya. Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan me-scan kalimat dengan pemisah delimiter white space spasi, tab dan newline Tala, 2003. Adapun tahapan-tahapan peringkasan teks otomatis metode TF-IDF adalah sebagai berikut : 1. Menginput dokumen yang akan dibuat ringkasannya 2. Memilah dokumen menjadi beberapa kalimat. Pemilahan kalimat dilakukan dengan memecah string teks dari dokumen yang panjang menjadi kalaimat-kalimat mengunakan fungsi split, dengan tanda titik ”.”, tanda tanya ”?” dan tanda seru ”” sebagai delimiter untuk memotong string dokumen. 3. Memilah kalimat yang terbentuk menjadi beberapa kata dan simpan dalam variable array. Untuk memilah kalimat menjadi kata digunakan proses tokenizing. Universitas Sumatera Utara 4. Pembobotan TF-IDF Pembobotan diperoleh berdasarkan jumlah kemunculan term dalam kalimat TF dan jumlah kemunculan term pada seluruh kalimat dalam dokumen IDF. Bobot suatu istilah semakin besar jika istilah tersebut sering muncul dalam suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam banyak dokumen Grossman, 1998. Nilai IDF sebuah term dihitung menggunakan persamaan 1. 1 dengan: N = jumlah kalimat yang berisi termt dfi = jumlah kemunculan kata term terhadap D 5. Menghitung bobot W masing-masing dokumen dengan persamaan 2 Mustaqhfiri, 2011. 2 dengan : d = kalimat ke-d t = kataterm ke –t TF = term freqency W = bobot kalimat ke-d terhadap katatermke- t IDF = inverse document f reqency 6. Melakukan proses pengurutan sorting nilai kumulatif dari W untuk setiap kalimat. 7. Tiga kalimat dengan nilai W terbesar dijadikan sebagai hasil dari ringkasan atau sebagai output dari peringkasan teks otomatis. Tahapan-tahapan Peringkasan Teks Otomatis dengan metode TF -IDF di atas ditunjukan pada Gambar 2.4. Universitas Sumatera Utara Gambar 2.4 Tahapan-tahapan peringkasan teks otomatis metode TF-IDF 2.8. Flowchart Flowchart adalah penggambaran secara grafik dari langkah-langkah dan urutan-urutan prosedur suatu program Setiawan, 2006. Simbol-simbol dari flowchart memiliki fungsi yang berbeda antara satu simbol dengan simbol lainnya Davis, 1999. Fungsi dari simbol-simbol flowchart adalah sebagai berikut : Universitas Sumatera Utara Tabel 2.1 Fungsi simbol-simbol flowchart. Simbol Fungsi simbol process, yaitu menyatakan suatu tindakan proses yang dilakukan di dalam program. Simbol offline connector yaitu menyatakan penghubung bila flowchart terputus disebabkan oleh pergantian halaman misalnya tidak cukup dalam satu halaman. Simbol online connector, berfungsi untuk menyatakan sambungan dari prose ke proses yang lainnya dalam halaman yang sama. Simbol arusflowline, yaitu menyatakan jalannya arus suatu proses. Simbol decision yaitu menunjukkan suatu kondisi tertentu yang akan menghasilkan dua kemungkinan jawaban yaitu ya tidak. Simbol inputoutput, menyatakan proses input atau output tanpa tergantung jenis peralatannya. Simbol terminal yaitu menyatakan permulaan atau akhir suatu program. Simbol document, mencetak keluaran dalam bentuk dokumen.

2.9. Penelitian Terdahulu