Artikel Kalimat LANDASAN TEORI

menjadi kalimat, casefolding, filtering, dokumen menjadi kata tokenizing, dan menghapus stopword.

1. Pemisahan Kalimat.

Memecah dokumen menjadi kalimat-kalimat merupakan langkah awal tahapan preprocessing. Pemecahan kalimat yaitu proses memecah string teks dokumen yang panjang menjadi kumpulan kalimat-kalimat. Dalam memecah dokumen menjadi kalimat-kalimat menggunakan fungsi split , dengan tanda titik “.” sebagai pemisah delimiter untuk memotong string dokumen[7].

2. Case Folding

Case folding adalah tahapan proses mengubah semua huruf dalam teks dokumen menjadi huruf kecil, serta menghilangkan karakter selain a-z. [7].

3. Filtering

Data teks dalam dokumen yang sebelumnya sudah diubah ke dalam huruf kecil semua. Selanjutnya dilakukan proses filtering teks. Filtering adalah tahapan pemrosesan teks dimana semua teks selain karakter “a” sampai “z” dan titik “.” akan dihilangkan dan hanya menerima spasi[7].

4. Tokenizing

Tokenizing adalah proses pemotongan string input berdasarkan tiap kata yang menyusunnya. Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan men- scan kalimat dengan pemisah delimiter white space spasi, tab, dan newline[7].

5. Stopword

Penghapusan Stopword merupakan proses penghilangan kata stopword. Stopword adalah kata - kata yang sering kali muncul dalam dokumen namun arti dari kata-kata tersebut tidak deskriptif dan tidak memiliki keterkaitan dengan tema tertentu. Misalnya “di”, ”oleh”, “pada”, ”sebuah”, ”karena” dan lain sebagainya[7].

2.7 Metode TF-IDF Term Frequency – Inversed Document Frequency

Metode Term Frequency - Inverse Document Frequency TF-IDF merupakan suatu cara untuk memperoleh pembobotan berdasarkan jumlah II-8 kemunculan suatu kata term dalam sebuah dokumen term frequency TF dan jumlah kemunculan term dalam koleksi dokumen inverse document frequency IDF. TF merupakan banyak kata yang muncul pada sebuah dokumen, sedangkan DF merupakan banyaknya dokumen yang mengandung sebuah kata. Nilai IDF sebuah kata term dapat dihitung menggunakan persamaan berikut. IDF = log 2.1 N adalah jumlah dokumen yang berisi term t dan df adalah jumlah kemunculan kata term terhadap N. Adapun rumus yang digunakan untuk menghitung bobot W masing-masing dokumen, yaitu dapat dilihat pada rumus berikut. W dt = tf dt IDF t 2.2 dengan: d = kalimat ke –d t = kata term ke –t TF = term frequency frekuensi kata W = bobot kalimat ke –d terhadap kata term ke–t IDF = Inverse Document Frequency Berikut ilustrasi dari TF-IDF: dokumen 1 d1 : Manajemen transaksi logistik. dokumen 2 d2 : Pengetahuan antar individu. dokumen 3 d3 : Dalam manajemen pengetahuan terdapat transfer pengetahuan logistik. Jadi jumlah dokumen d = 3

Artikel Kalimat LANDASAN TEORI

1. Pemisahan Kalimat.

2. Case Folding

3. Filtering

4. Tokenizing

5. Stopword

2.7 Metode TF-IDF Term Frequency – Inversed Document Frequency

Parts

Dokumen yang terkait

Perbandingan Vector Space Model dan Support Vector Machine Untuk Text Summarization Terhadap Artikel Berbahasa Indonesia

Text Summarization Menggunakan Metode KNN dan MMR Pada Artikel Berbahasa Indonesia

Text Summarization Dengan Metode K Means pada Artikel Berita Berbahasa Indonesia

Implementasi Text Summarization Menggunakan Metode Vector Space Model Pada Artikel Berita Berbahasa Indonesia

Clustering konsep dokumen berbahasa Indonesia menggunakan Bisecting K-means

Identifikasi makna kata Sabar dalam artikel berbahasa Indonesia dengan algoritma K-Means Clustering.

Pengelompokan artikel berbahasa Jawa dengan hierarchical k means clustering.

Identifikasi makna kata Sabar dalam artikel berbahasa Indonesia dengan algoritma K Means Clustering

KLASIFIKASI DOKUMEN BERITA BERBAHASA INDONESIA MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER (NBC) DAN K-MEANS CLUSTERING

Pengelompokan Artikel Berbahasa Indonesia Dengan Menggunakan Reduksi Fitur Information Gain Thresholding Dan K-Means

Dukungan

Links

Artikel Kalimat LANDASAN TEORI

1. Pemisahan Kalimat.

2. Case Folding

3. Filtering

4. Tokenizing

5. Stopword

2.7 Metode TF-IDF Term Frequency – Inversed Document Frequency

Parts

Dokumen yang terkait

Perbandingan Vector Space Model dan Support Vector Machine Untuk Text Summarization Terhadap Artikel Berbahasa Indonesia

Text Summarization Menggunakan Metode KNN dan MMR Pada Artikel Berbahasa Indonesia

Text Summarization Dengan Metode K Means pada Artikel Berita Berbahasa Indonesia

Implementasi Text Summarization Menggunakan Metode Vector Space Model Pada Artikel Berita Berbahasa Indonesia

Clustering konsep dokumen berbahasa Indonesia menggunakan Bisecting K-means

Identifikasi makna kata Sabar dalam artikel berbahasa Indonesia dengan algoritma K-Means Clustering.

Pengelompokan artikel berbahasa Jawa dengan hierarchical k means clustering.

Identifikasi makna kata Sabar dalam artikel berbahasa Indonesia dengan algoritma K Means Clustering

KLASIFIKASI DOKUMEN BERITA BERBAHASA INDONESIA MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER (NBC) DAN K-MEANS CLUSTERING

Pengelompokan Artikel Berbahasa Indonesia Dengan Menggunakan Reduksi Fitur Information Gain Thresholding Dan K-Means

Dokumen yang Anda mencari sudah siap untuk unduhkan