Indexing Arsitektur Information Retrieval .1 Proses Retrieval

17 8. dwp1= pengulangan parsial wp1. Cek di dictionary. Jika ada kembalikan kata. 9. wp1s1=hapus suffixwp1. Cek di dictionary. Jika ada kembalikan kata. 10. dwp1s1= pengulangan parsial wp1s1. Cek di dictionary. Jika ada kembalikan kata. 11. wp1s1s2=hapus suffix wp1s1. Cek di dictionary. Jika ada kembalikan kata. 12. wp1p2=hapus prefix wp1. Cek di dictionary. Jika ada kembalikan kata. 13. wp1p2s1=hapus suffix wp1p2. Cek di dictionary. Jika ada kembalikan kata. 14. wp1p2s1s2=hapus suffix wp1p2s1. Cek di dictionary. Jika ada kembalikan kata. 15. wi1=hapus infix word. Cek di dictionary. Jika ada kembalikan kata. 16. wi1s1=hapus suffix wi1. Cek di dictionary. Jika ada kembalikan kata.

2.1.1.3 Indexing

Proses indexing adalah proses yang merepresentasikan document collection ke dalam bentuk tertentu untuk memudahkan dan mempercepat proses pencarian dokumen yang relevan. Pembuatan index dari document collection adalah tugas pokok pada tahapan pre-processing di dalam information retrieval. Efektitifitas dan efisiensi information retrieval dipengaruhi oleh kualitas indeks-nya. Pengindeksan membedakan 18 dokumen satu dengan dokumen yang lain yang berada di dalam satu collection . Indeks dengan ukuran yang kecil dapat memberikan hasil yang kurang baik dan bisa saja beberapa dokumen yang seharusnya relevan terabaikan. Sementara indeks dengan ukuran yang besar memungkinkan ditemukannya dokumen yang tidak relevan dan menurunkan kecepatan pencarian. Pembuatan inverted index harus melibatkan konsep linguistic processing yang bertujuan mengekstrak term-term penting dari dokumen yang direpresentasikan sebagai bag-of-words. Pada tahap indexing, dapat dilakukam pengindeksan terhadap term frekuensi tf, idf, tf-idf, atau fitur bobot tf-idf dapat dihitung sebagai berikut: df log tf log 1 w 10 , , i j i N j i    2.1 df i = frekuensi dokumen dari kata i = jumlah dokumen yang berisi kata i idf i = inverse document frequency dari kata i, = log 10 N df i N: jumlah total dokumen. W=weight bobot kata  Contoh pembobotan kata pada dokumen: Diberikan dokumen berisi kata A,B,C dengan frekuensi : A3, B2, C1 Misal, ada koleksi berisi 10,000 dokumen dan frekuensi kata A, B, C untuk seluruh dokumen: 19 A50, B1300, C250 Maka : A: tf = 3; idf = log1000050 = 2.3; tf-idf = 6.9 B: tf = 2; idf = log100001300 = 0.88;tf-idf = 1.77 C: tf = 1; idf = log10000250 = 1.6; tf-idf = 1.6 2.2 Clustering 2.2. K Means Clustering K Means clustering merupakan metode yang populer digunakan untuk mendapatkan deskripsi dari sekumpulan data dengan cara mengungkapkan kecenderungan setiap individu data untuk berkelompok dengan individu- individu data lainnya. Kecenderungan pengelompokan tersebut didasarkan pada kemiripan karakteristik tiap individu data yang ada. Ide dasar dari metode ini adalah menemukan pusat dari setiap kelompok data yang mungkin ada untuk kemudian mengelompokkan setiap data individu ke dalam salah satu dari kelompok-kelompok tersebut berdasarkan jaraknya Turban dkk, 2005. Semakin dekat jarak data individual, sebut saja X1 dengan salah satu pusat dari kelompok yang ada , sebut saja A, maka semakin jelas bahwa X1 tersebut merupakan anggota dari kelompok yang berpusat di A dan semakin jelas pula bahwa X1 bukan anggota dari kelompok-kelompok yang lainnya ilustrasi dapat dilihat pada gambar 1. Secara kuantitatif hal ini ditunjukkan melalui fakta bahwa d1A yaitu jarak dari X1 ke A mempunyai nilai yang paling kecil jika dibandingankan dengan d1B dan d1C.