IMPLEMENTASI DAN PENGUJIAN KESIMPULAN DAN SARAN

9 LANDASAN TEORI Maximum Marginal Relevance Algoritma mazimum marginal relevance MMR merupakan salah satu metode ekstraksi ringkasan extractive summary yang digunakan untuk meringkas dokumen tunggal atau multi dokumen [3]. MMR meringkas dokumen dengan menghitung kesamaan similiarity antara bagian teks. Pada peringkasan dokumen dengan metode MMR dilakuakn proses segmentasi dokumen menjadi kalimat dan dilakukan pengelompokan sesuai dengan gendeer kalimat tersebut. MMR digunakan dengan mengkombinasikan matrik cosine similiaritu untuk merangking kalimat-kalimat sebagai tanggapan pada query yang diberikan oleh user. Text Processing Dalam melakukan pemrosesan teks terdapat beberapa tahap, yakni masing- masing dapat dijelaskan sebagai berikut:

2.2.1. Case Folding

Case folding merupakan proses penyamaan case dalam sebuah dokumen teks [3]. Case folding dilakukan karena total semua dokumen teks konsisten dalam menggunakan huruf kapital. Untuk itu peran case-folding dibutuhkan dalam merubah kseluruhan teks dalam dokumen menjadi bentuk standar yang secara umum diubah kedalam bentuk huruf kecil.

2.2.2. Tokenizing

Tokenizing merupakan proses pemotongan string masukan berdasarkan tiap kata yang menyusunya [3]. Prinsipnya, dilakukan pemisahan setiap kata yang menyusun dokumen teks tersebut. Setiap kata teridentifikasi atau terpisahkan dengan kata yang lain oleh karakter spasi, maka proses tekenizing dilakukan untuk memisahkan kata. Kata Hapus Kata yang masuk dalam kamus Kata filter Kamus Stopwords Gambar 2.1 Activity Diagram Filtering

2.2.3. Filtering dan Eliminasi Stopwords

Eliminasi Stopwords dilakukan dengan mengambil kata-kata penting dari hasil token. Dalam proses ini dapat dilakukan pembuangan kata yang kurang penting stop list atau penyimpanan kata yang dianggap penting word list. Penggunaan eliminasi stopwords berfungsi untuk menghilangkan kata-kata yang dianggap tidak penting, secara umum kandidat stopwords seperti article, preposisi, dan konjungsi. Beberapa kata kerja, kata sifat dan kata keterangan lainnya dapat juga dimasukan kedalam daftar stopwords.

2.2.4. Stemming

Stemming merupakan cara yang digunakan untuk mentransformasikan kata- kata dalam sebuah dookumen teks menjadi kata dasarnya. Pada proses ini dilakukan dengan menghilangkan semua imbuhan afiks baik yang terdiri dari awalan prefiks sisipan infiks maupun akhiran sufiks dan kombinasi dari awalan dan akhiran konfiks. Stemming ini digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar sesuai dengan struktur morfologi bahasa yang baik dan benar. Proses stemming pada teks bahasa indonesia lebih rumit dan kompleks karena terdapat variasi imbuhan yang harus dibuang untuk mendapatkan root word kata

Dokumen yang terkait

Implementasi Metode Support Vector machine Dan Metode Maximum Marginal Relevance Untuk Menghasilkan Rangkuman Dari Kumpulan Dokumen Berita Dengan Topik Sejenis

20 70 139

IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA

3 42 133

Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Marginal Relevance dengan K- Means.

0 3 14

BAB 1 PENDAHULUAN Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Marginal Relevance dengan K- Means.

0 3 6

BAB 2 TINJAUAN PUSTAKA Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Marginal Relevance dengan K- Means.

0 3 4

BAB 3 LANDASAN TEORI Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Marginal Relevance dengan K- Means.

1 6 8

Peringkasan Multidokumen Otomatis dengan Menggunakan Log-Likelihood Ratio (LLR) dan Maximal Marginal Relevance (MMR) untuk Artikel Bahasa Indonesia

0 0 8

Implementasi Fulltext Indexing pada Dokumen Elektronik dengan Algoritma B-Tree

0 0 10

Implementasi Metode Terms Frequency-Inverse Document Frequency (TF-IDF) dan Maximum Marginal Relevance untuk Monitoring Diskusi Online

0 0 9

Peringkasan Multidokumen Otomatis dengan Menggunakan Log-Likelihood Ratio (LLR) dan Maximal Marginal Relevance (MMR) untuk Artikel dengan Topik Penyakit Menular Bahasa Indonesia

0 1 13