17 8.
dwp1= pengulangan parsial wp1. Cek di dictionary. Jika ada kembalikan kata.
9. wp1s1=hapus suffixwp1. Cek di dictionary. Jika ada kembalikan
kata. 10.
dwp1s1= pengulangan parsial wp1s1. Cek di dictionary. Jika ada kembalikan kata.
11. wp1s1s2=hapus suffix wp1s1. Cek di dictionary. Jika ada
kembalikan kata. 12.
wp1p2=hapus prefix wp1. Cek di dictionary. Jika ada kembalikan kata.
13. wp1p2s1=hapus suffix wp1p2. Cek di dictionary. Jika ada
kembalikan kata. 14.
wp1p2s1s2=hapus suffix wp1p2s1. Cek di dictionary. Jika ada kembalikan kata.
15. wi1=hapus infix word. Cek di dictionary. Jika ada kembalikan kata.
16. wi1s1=hapus suffix wi1. Cek di dictionary. Jika ada kembalikan kata.
2.1.1.3 Indexing
Proses indexing adalah proses yang merepresentasikan document collection
ke dalam bentuk tertentu untuk memudahkan dan mempercepat proses pencarian dokumen yang relevan. Pembuatan index dari document
collection adalah tugas pokok pada tahapan pre-processing di dalam
information retrieval. Efektitifitas dan efisiensi information retrieval
dipengaruhi oleh kualitas indeks-nya. Pengindeksan membedakan
18 dokumen satu dengan dokumen yang lain yang berada di dalam satu
collection . Indeks dengan ukuran yang kecil dapat memberikan hasil yang
kurang baik dan bisa saja beberapa dokumen yang seharusnya relevan terabaikan. Sementara indeks dengan ukuran yang besar memungkinkan
ditemukannya dokumen yang tidak relevan dan menurunkan kecepatan pencarian. Pembuatan inverted index harus melibatkan konsep linguistic
processing yang bertujuan mengekstrak term-term penting dari dokumen
yang direpresentasikan sebagai bag-of-words. Pada tahap indexing, dapat dilakukam pengindeksan terhadap term
frekuensi tf, idf, tf-idf, atau fitur bobot tf-idf dapat dihitung sebagai berikut:
df log
tf log
1 w
10 ,
,
i j
i
N
j i
2.1
df
i
= frekuensi dokumen dari kata i = jumlah dokumen yang berisi kata i
idf
i
= inverse document frequency dari kata i, = log
10
N df
i
N: jumlah total dokumen. W=weight bobot kata
Contoh pembobotan kata pada dokumen: Diberikan dokumen berisi kata A,B,C dengan frekuensi :
A3, B2, C1 Misal, ada koleksi berisi 10,000 dokumen dan frekuensi kata A, B, C
untuk seluruh dokumen:
19 A50, B1300, C250
Maka : A: tf = 3; idf = log1000050 = 2.3; tf-idf = 6.9
B: tf = 2; idf = log100001300 = 0.88;tf-idf = 1.77 C: tf = 1; idf = log10000250 = 1.6; tf-idf = 1.6
2.2 Clustering 2.2. K Means Clustering
K Means clustering merupakan metode yang populer digunakan untuk
mendapatkan deskripsi dari sekumpulan data dengan cara mengungkapkan kecenderungan setiap individu data untuk berkelompok dengan individu-
individu data lainnya. Kecenderungan pengelompokan tersebut didasarkan pada kemiripan karakteristik tiap individu data yang ada. Ide dasar dari
metode ini adalah menemukan pusat dari setiap kelompok data yang mungkin ada untuk kemudian mengelompokkan setiap data individu ke dalam salah
satu dari kelompok-kelompok tersebut berdasarkan jaraknya Turban dkk, 2005. Semakin dekat jarak data individual, sebut saja X1 dengan salah satu
pusat dari kelompok yang ada , sebut saja A, maka semakin jelas bahwa X1 tersebut merupakan anggota dari kelompok yang berpusat di A dan semakin
jelas pula bahwa X1 bukan anggota dari kelompok-kelompok yang lainnya ilustrasi dapat dilihat pada gambar 1. Secara kuantitatif hal ini ditunjukkan
melalui fakta bahwa d1A yaitu jarak dari X1 ke A mempunyai nilai yang paling kecil jika dibandingankan dengan d1B dan d1C.