Indexing Arsitektur Information Retrieval .1 Proses Retrieval

17 8. dwp1= pengulangan parsial wp1. Cek di dictionary. Jika ada kembalikan kata. 9. wp1s1=hapus suffixwp1. Cek di dictionary. Jika ada kembalikan kata. 10. dwp1s1= pengulangan parsial wp1s1. Cek di dictionary. Jika ada kembalikan kata. 11. wp1s1s2=hapus suffix wp1s1. Cek di dictionary. Jika ada kembalikan kata. 12. wp1p2=hapus prefix wp1. Cek di dictionary. Jika ada kembalikan kata. 13. wp1p2s1=hapus suffix wp1p2. Cek di dictionary. Jika ada kembalikan kata. 14. wp1p2s1s2=hapus suffix wp1p2s1. Cek di dictionary. Jika ada kembalikan kata. 15. wi1=hapus infix word. Cek di dictionary. Jika ada kembalikan kata. 16. wi1s1=hapus suffix wi1. Cek di dictionary. Jika ada kembalikan kata.

2.1.1.3 Indexing

Proses indexing adalah proses yang merepresentasikan document collection ke dalam bentuk tertentu untuk memudahkan dan mempercepat proses pencarian dokumen yang relevan. Pembuatan index dari document collection adalah tugas pokok pada tahapan pre-processing di dalam information retrieval. Efektitifitas dan efisiensi information retrieval dipengaruhi oleh kualitas indeks-nya. Pengindeksan membedakan 18 dokumen satu dengan dokumen yang lain yang berada di dalam satu collection . Indeks dengan ukuran yang kecil dapat memberikan hasil yang kurang baik dan bisa saja beberapa dokumen yang seharusnya relevan terabaikan. Sementara indeks dengan ukuran yang besar memungkinkan ditemukannya dokumen yang tidak relevan dan menurunkan kecepatan pencarian. Pembuatan inverted index harus melibatkan konsep linguistic processing yang bertujuan mengekstrak term-term penting dari dokumen yang direpresentasikan sebagai bag-of-words. Pada tahap indexing, dapat dilakukam pengindeksan terhadap term frekuensi tf, idf, tf-idf, atau fitur bobot tf-idf dapat dihitung sebagai berikut: df log tf log 1 w 10 , , i j i N j i    2.1 df i = frekuensi dokumen dari kata i = jumlah dokumen yang berisi kata i idf i = inverse document frequency dari kata i, = log 10 N df i N: jumlah total dokumen. W=weight bobot kata  Contoh pembobotan kata pada dokumen: Diberikan dokumen berisi kata A,B,C dengan frekuensi : A3, B2, C1 Misal, ada koleksi berisi 10,000 dokumen dan frekuensi kata A, B, C untuk seluruh dokumen: 19 A50, B1300, C250 Maka : A: tf = 3; idf = log1000050 = 2.3; tf-idf = 6.9 B: tf = 2; idf = log100001300 = 0.88;tf-idf = 1.77 C: tf = 1; idf = log10000250 = 1.6; tf-idf = 1.6 2.2 Clustering 2.2. K Means Clustering K Means clustering merupakan metode yang populer digunakan untuk mendapatkan deskripsi dari sekumpulan data dengan cara mengungkapkan kecenderungan setiap individu data untuk berkelompok dengan individu- individu data lainnya. Kecenderungan pengelompokan tersebut didasarkan pada kemiripan karakteristik tiap individu data yang ada. Ide dasar dari metode ini adalah menemukan pusat dari setiap kelompok data yang mungkin ada untuk kemudian mengelompokkan setiap data individu ke dalam salah satu dari kelompok-kelompok tersebut berdasarkan jaraknya Turban dkk, 2005. Semakin dekat jarak data individual, sebut saja X1 dengan salah satu pusat dari kelompok yang ada , sebut saja A, maka semakin jelas bahwa X1 tersebut merupakan anggota dari kelompok yang berpusat di A dan semakin jelas pula bahwa X1 bukan anggota dari kelompok-kelompok yang lainnya ilustrasi dapat dilihat pada gambar 1. Secara kuantitatif hal ini ditunjukkan melalui fakta bahwa d1A yaitu jarak dari X1 ke A mempunyai nilai yang paling kecil jika dibandingankan dengan d1B dan d1C.

Indexing Arsitektur Information Retrieval .1 Proses Retrieval

2.1.1.3 Indexing

Parts

Dokumen yang terkait

Penerapan Analisis Outlier Untuk Pengelompokan Jurnal Ilmiah Menggunakan Metode Hierarchical Clustering Dan K-Means Di Lembaga Ilmu Pengetahuan Indonesia LIPI

Clustering konsep dokumen berbahasa Indonesia menggunakan Bisecting K-means

PENGELOMPOKAN DESCRIPTOR SURF UNTUK PEMBENTUKAN BAG OF VISUAL WORDS PADA CITRA SIDIK JARI DENGAN MENGGUNAKAN K-MEANS DAN HIERARCHICAL AGGLOMERATIVE CLUSTERING.

Identifikasi makna kata Sabar dalam artikel berbahasa Indonesia dengan algoritma K-Means Clustering.

Identifikasi makna kata Sabar dalam artikel berbahasa Indonesia dengan algoritma K Means Clustering

Pengelompokan Beasiswa Mahasiswa Menggunakan Algoritma Hierarchical Clustering

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Pengelompokan Artikel Berbahasa Indonesia Dengan Menggunakan Reduksi Fitur Information Gain Thresholding Dan K-Means

Algoritme Genetika Untuk Optimasi K-Means Clustering Dalam Pengelompokan Data Tsunami

Pengelompokan Daerah Rawan Kriminalitas di Indonesia Menggunakan Analisis K-Means Clustering

Dukungan

Links

Indexing Arsitektur Information Retrieval .1 Proses Retrieval

2.1.1.3 Indexing

Parts

Dokumen yang terkait

Penerapan Analisis Outlier Untuk Pengelompokan Jurnal Ilmiah Menggunakan Metode Hierarchical Clustering Dan K-Means Di Lembaga Ilmu Pengetahuan Indonesia LIPI

Clustering konsep dokumen berbahasa Indonesia menggunakan Bisecting K-means

PENGELOMPOKAN DESCRIPTOR SURF UNTUK PEMBENTUKAN BAG OF VISUAL WORDS PADA CITRA SIDIK JARI DENGAN MENGGUNAKAN K-MEANS DAN HIERARCHICAL AGGLOMERATIVE CLUSTERING.

Identifikasi makna kata Sabar dalam artikel berbahasa Indonesia dengan algoritma K-Means Clustering.

Identifikasi makna kata Sabar dalam artikel berbahasa Indonesia dengan algoritma K Means Clustering

Pengelompokan Beasiswa Mahasiswa Menggunakan Algoritma Hierarchical Clustering

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Pengelompokan Artikel Berbahasa Indonesia Dengan Menggunakan Reduksi Fitur Information Gain Thresholding Dan K-Means

Algoritme Genetika Untuk Optimasi K-Means Clustering Dalam Pengelompokan Data Tsunami

Pengelompokan Daerah Rawan Kriminalitas di Indonesia Menggunakan Analisis K-Means Clustering

Dokumen yang Anda mencari sudah siap untuk unduhkan