Case Folding Tokenizing Implementasi Metode Maximum Marginal Relevance (MMR) Dan Algoritma Steiner Tree Untuk Menentukan Storyline Dokumen Berita

Kata Hapus Kata yang masuk dalam kamus Kata filter Kamus Stopwords Gambar 2.1 Activity Diagram Filtering

2.2.3. Filtering dan Eliminasi Stopwords

Eliminasi Stopwords dilakukan dengan mengambil kata-kata penting dari hasil token. Dalam proses ini dapat dilakukan pembuangan kata yang kurang penting stop list atau penyimpanan kata yang dianggap penting word list. Penggunaan eliminasi stopwords berfungsi untuk menghilangkan kata-kata yang dianggap tidak penting, secara umum kandidat stopwords seperti article, preposisi, dan konjungsi. Beberapa kata kerja, kata sifat dan kata keterangan lainnya dapat juga dimasukan kedalam daftar stopwords.

2.2.4. Stemming

Stemming merupakan cara yang digunakan untuk mentransformasikan kata- kata dalam sebuah dookumen teks menjadi kata dasarnya. Pada proses ini dilakukan dengan menghilangkan semua imbuhan afiks baik yang terdiri dari awalan prefiks sisipan infiks maupun akhiran sufiks dan kombinasi dari awalan dan akhiran konfiks. Stemming ini digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar sesuai dengan struktur morfologi bahasa yang baik dan benar. Proses stemming pada teks bahasa indonesia lebih rumit dan kompleks karena terdapat variasi imbuhan yang harus dibuang untuk mendapatkan root word kata dasar dari sebuah kata. Pada umumnya kata dasar pada bahasa indonesia terdiri dari kombinasi [8] : Prefiks 1 + Prefiks 2 + Kata dasar + Sufiks 3 + Sufiks 2 + Sufiks 1 Ada beberapa algoritma dalam melakukan proses stemming. Algoritma ini tergantung dengan bahasa yang digunakan, khususnya bahasa Indonesia. Dalam bahasa indeonesia pun terdapat beberapa algoritma yang dikembangkan, dalam hal ini adalah algoritma Enhanced Confix Stripping ECS. Algoritma ECS ini memiliki tingkat kelasalahn stemming paling sedikit karena merupakan pengembangan dari algoritma Confix Stemmer [9]. Perbaikan yang dilakukan oleh ECS Stemmer adalah perbaikan beberapa aturan pada tabel acuan pemenggalan imbuhan. Selain itu, algoritma ECS Stemmer juga menambahkan langkah pengembalian akhiran jika terjadi penghilangan akhiran yang seharusnya tidak dilakukan.

Dokumen yang terkait

Implementasi Metode Support Vector machine Dan Metode Maximum Marginal Relevance Untuk Menghasilkan Rangkuman Dari Kumpulan Dokumen Berita Dengan Topik Sejenis

20 70 139

IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA

3 42 133

Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Marginal Relevance dengan K- Means.

0 3 14

BAB 1 PENDAHULUAN Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Marginal Relevance dengan K- Means.

0 3 6

BAB 2 TINJAUAN PUSTAKA Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Marginal Relevance dengan K- Means.

0 3 4

BAB 3 LANDASAN TEORI Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Marginal Relevance dengan K- Means.

1 6 8

Peringkasan Multidokumen Otomatis dengan Menggunakan Log-Likelihood Ratio (LLR) dan Maximal Marginal Relevance (MMR) untuk Artikel Bahasa Indonesia

0 0 8

Implementasi Fulltext Indexing pada Dokumen Elektronik dengan Algoritma B-Tree

0 0 10

Implementasi Metode Terms Frequency-Inverse Document Frequency (TF-IDF) dan Maximum Marginal Relevance untuk Monitoring Diskusi Online

0 0 9

Peringkasan Multidokumen Otomatis dengan Menggunakan Log-Likelihood Ratio (LLR) dan Maximal Marginal Relevance (MMR) untuk Artikel dengan Topik Penyakit Menular Bahasa Indonesia

0 1 13