2.7. Term Frequency Inverse Document Frequency TF-IDF
Metode Term Frequency-Inverse Document Frequency TF-IDF adalah cara pemberian bobot hubungan suatu kata term terhadap dokumen. Untuk dokumen
tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot, yaitu Term frequency TF merupakan frekuensi
kemunculan kata t pada kalimat d. Document frequency DF adalah banyaknya kalimat dimana suatu kata t muncul. Frekuensi kemunculan kata di dalam dokumen
yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum
kata tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen Robertson, 2004. Pada Metode
ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF dan IDF.
Pada penelitian ini, peringkasan teks otomatis yang di kembangkan merupakan sistem peringkasan dengan inputan berupa single dokumen dan secara otomatis
menghasilkan ringkasan summary. Proses text preprosessing yang dilakukan pada peringkasan teks otomatis ini hanya proses tokenizing yaitu proses pemotongan string
input berdasarkan tiap kata yang menyusunnya. Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan me-scan kalimat dengan pemisah delimiter white space
spasi, tab dan newline Tala, 2003. Adapun tahapan-tahapan peringkasan teks otomatis metode TF-IDF adalah
sebagai berikut : 1. Menginput dokumen yang akan dibuat ringkasannya
2. Memilah dokumen menjadi beberapa kalimat. Pemilahan kalimat dilakukan dengan memecah string teks dari dokumen yang
panjang menjadi kalaimat-kalimat mengunakan fungsi split, dengan tanda titik ”.”, tanda tanya ”?” dan tanda seru ”” sebagai delimiter untuk memotong
string dokumen. 3. Memilah kalimat yang terbentuk menjadi beberapa kata dan simpan dalam
variable array. Untuk memilah kalimat menjadi kata digunakan proses tokenizing.
Universitas Sumatera Utara
4. Pembobotan TF-IDF Pembobotan diperoleh berdasarkan jumlah kemunculan term dalam kalimat
TF dan jumlah kemunculan term pada seluruh kalimat dalam dokumen IDF. Bobot suatu istilah semakin besar jika istilah tersebut sering muncul
dalam suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam banyak dokumen Grossman, 1998. Nilai IDF sebuah term dihitung
menggunakan persamaan 1.
1 dengan:
N = jumlah kalimat yang berisi termt dfi = jumlah kemunculan kata term terhadap D
5. Menghitung bobot W masing-masing dokumen dengan persamaan 2 Mustaqhfiri, 2011.
2 dengan :
d = kalimat ke-d t = kataterm ke –t
TF = term freqency W = bobot kalimat ke-d terhadap katatermke- t
IDF = inverse document f reqency 6. Melakukan proses pengurutan sorting nilai kumulatif dari W untuk setiap
kalimat. 7. Tiga kalimat dengan nilai W terbesar dijadikan sebagai hasil dari ringkasan
atau sebagai output dari peringkasan teks otomatis. Tahapan-tahapan Peringkasan Teks Otomatis dengan metode TF -IDF di atas
ditunjukan pada Gambar 2.4.
Universitas Sumatera Utara
Gambar 2.4 Tahapan-tahapan peringkasan teks otomatis metode TF-IDF 2.8.
Flowchart
Flowchart adalah penggambaran secara grafik dari langkah-langkah dan urutan-urutan prosedur suatu program Setiawan, 2006. Simbol-simbol dari flowchart memiliki
fungsi yang berbeda antara satu simbol dengan simbol lainnya Davis, 1999. Fungsi dari simbol-simbol flowchart adalah sebagai berikut :
Universitas Sumatera Utara
Tabel 2.1 Fungsi simbol-simbol flowchart.
Simbol Fungsi
simbol process, yaitu menyatakan suatu tindakan proses yang dilakukan
di dalam program.
Simbol offline connector
yaitu menyatakan penghubung bila flowchart
terputus disebabkan oleh pergantian halaman misalnya tidak cukup dalam
satu halaman.
Simbol online connector, berfungsi untuk menyatakan sambungan dari
prose ke proses yang lainnya dalam halaman yang sama.
Simbol arusflowline, yaitu menyatakan jalannya arus suatu proses.
Simbol decision yaitu menunjukkan suatu kondisi tertentu yang akan
menghasilkan dua kemungkinan jawaban yaitu ya tidak.
Simbol inputoutput, menyatakan
proses input atau output tanpa tergantung jenis peralatannya.
Simbol terminal yaitu menyatakan permulaan atau akhir suatu program.
Simbol document, mencetak keluaran dalam bentuk dokumen.
2.9. Penelitian Terdahulu