Tokenization Penghilangan Stop Word

10  Sebelum data dikembalikan ke user, dokumen yang di- retrieved akan diranking berdasarkan kedekatan dokumen dengan query.

2.1.1.2 Text Operation

Text Operation berperan penting dalam proses information retrieval , karena seluruh proses yang berhubungan dengan penggalian informasi dari sumber dokumen ataupun teks dilakukan pada proses text operation . Text operation memilki beberapa langkah yang dapat dilakukan di dalam sebuah sistem Information Retrieval, berikut adalah langkah- langkah pada text operatrion:  Tokenisasi  Penghilangan Stop-word  Stemming  Indexing

2.1.1.2.1 Tokenization

Tokenisasi merupakan proses pemenggalan kata dalam suatu dokumen menjadi potongan – potongan kata yang berdiri sendiri token. Proses ini juga akan menghilangkan tanda baca atau karakter yang melekat pada kata tersebut dan semua kata menjadi huruf kecil Manning, 2008. Contoh tokenisasi : • Input :Friends, Romans, Countrymen, Lend, Me, Your, Eyes • Output : Friends Romans Countrymen Lend Me Your Eyes 11 Terkadang token dapat dikatakan juga sebagai term atau kata. Pemotongan kumpulan karakter biasanya berdasarkan karakter spasi, namun beberapa permasalahan yang terjadi dalam proses tokenisasi yaitu terdapat beberapa kata yang akan berbeda arti bila dipotong berdasarkan spasi seperti San Fransisco akan memiliki arti yang berbeda bila dipotong menjadi San dan Fransisco. Setiap dokumen dan query direpresentasikan dengan model bag-of-words , yaitu model yang mengabaikan urutan dari kata – kata dan struktur yang ada di dalam dokumen. Dokumen diubah menjadi sebuah wadah yang berisi kata – kata yang independen.

2.1.1.2.2 Penghilangan Stop Word

Stop-word didefinisikan sebagai term yang tidak berhubungan non-relevant dengan subjek utama dari data meskipun kata tersebut sering muncul di dalam dokumen. Penghilangan stop-word tidak bersifat wajib pada beberapa desain dari modern information retrieval, dimana memliki cara sendiri untuk menyelesaikan masalah kata-kata yang sering digunakan dengan menggunakan data statistik. Contoh stop-word dalam Bahasa Inggris adalah : a, an, the, this, that, these, those, her, his, its, my, our, their, your, all, few, many, several, some, every, for, and, nor, bit, or, yet, so, also, after, although, if, unless, because, on, beneath, over, of, during, beside , dan etc. Contoh stop-word dalam bahasa Indonesia : yang, juga, dari, dia, kami, kamu, aku, saya, ini, itu, atau, dan, tersebut, pada, dengan, adalah, yaitu, ke, tak, tidak, di, pada, jika, maka, ada, pun, lain, saja, hanya, namun, seperti, kemudian, dan dll. 12 Stop-word juga bisa dilakukan dengan memotong kata berdasarkan distribusi kata Zipf Distrubution. Zipf Distrubution merupakan pembagiandistribusi frekuensi kata, dapat digambarkan seperti gambar 2.2. Pada tahap ini dilakukan pemotongan kata yang memiliki frekuensi sangat tinggi maupun rendah, dengan demikian dapat dikatakan Zipf Distribution dapat memotong batas kata yang optimum untuk memberikan ciri atau key word dari suatu dokumen. Gambar 2.2 Distribusi Zipf Manning, 2008

Tokenization Penghilangan Stop Word

2.1.1.2 Text Operation

2.1.1.2.1 Tokenization

2.1.1.2.2 Penghilangan Stop Word

2.1.1.2.3 Stemming

Parts

Dokumen yang terkait

Penerapan Analisis Outlier Untuk Pengelompokan Jurnal Ilmiah Menggunakan Metode Hierarchical Clustering Dan K-Means Di Lembaga Ilmu Pengetahuan Indonesia LIPI

Clustering konsep dokumen berbahasa Indonesia menggunakan Bisecting K-means

PENGELOMPOKAN DESCRIPTOR SURF UNTUK PEMBENTUKAN BAG OF VISUAL WORDS PADA CITRA SIDIK JARI DENGAN MENGGUNAKAN K-MEANS DAN HIERARCHICAL AGGLOMERATIVE CLUSTERING.

Identifikasi makna kata Sabar dalam artikel berbahasa Indonesia dengan algoritma K-Means Clustering.

Identifikasi makna kata Sabar dalam artikel berbahasa Indonesia dengan algoritma K Means Clustering

Pengelompokan Beasiswa Mahasiswa Menggunakan Algoritma Hierarchical Clustering

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Pengelompokan Artikel Berbahasa Indonesia Dengan Menggunakan Reduksi Fitur Information Gain Thresholding Dan K-Means

Algoritme Genetika Untuk Optimasi K-Means Clustering Dalam Pengelompokan Data Tsunami

Pengelompokan Daerah Rawan Kriminalitas di Indonesia Menggunakan Analisis K-Means Clustering

Dukungan

Links

Tokenization Penghilangan Stop Word

2.1.1.2 Text Operation

2.1.1.2.1 Tokenization

2.1.1.2.2 Penghilangan Stop Word

2.1.1.2.3 Stemming

Parts

Dokumen yang terkait

Penerapan Analisis Outlier Untuk Pengelompokan Jurnal Ilmiah Menggunakan Metode Hierarchical Clustering Dan K-Means Di Lembaga Ilmu Pengetahuan Indonesia LIPI

Clustering konsep dokumen berbahasa Indonesia menggunakan Bisecting K-means

PENGELOMPOKAN DESCRIPTOR SURF UNTUK PEMBENTUKAN BAG OF VISUAL WORDS PADA CITRA SIDIK JARI DENGAN MENGGUNAKAN K-MEANS DAN HIERARCHICAL AGGLOMERATIVE CLUSTERING.

Identifikasi makna kata Sabar dalam artikel berbahasa Indonesia dengan algoritma K-Means Clustering.

Identifikasi makna kata Sabar dalam artikel berbahasa Indonesia dengan algoritma K Means Clustering

Pengelompokan Beasiswa Mahasiswa Menggunakan Algoritma Hierarchical Clustering

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Pengelompokan Artikel Berbahasa Indonesia Dengan Menggunakan Reduksi Fitur Information Gain Thresholding Dan K-Means

Algoritme Genetika Untuk Optimasi K-Means Clustering Dalam Pengelompokan Data Tsunami

Pengelompokan Daerah Rawan Kriminalitas di Indonesia Menggunakan Analisis K-Means Clustering

Dokumen yang Anda mencari sudah siap untuk unduhkan