c. Stemming
Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering Cios, 2007. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke
dalam suatu representasi yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit diterapkan pada teks berbahasa Indonesia . Hal ini
dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen. Contoh dari tahap ini dapat dilihat pada Gambar 2.9
Hasil Filtering Gambar 2.9 Proses Stemming Hasil Stemming
Dalam bahasa Indonesia, afiksimbuhan terdiri dari sufiks akhiran, infiks sisipan, dan prefiks awalan. Karena proses penambahan infiks dalam bahasa Indonesia
jarang terjadi maka proses stemming yang akan dibangun hanya mengenai kata yang megalami penambahan prefiks dan sufiks.
d. Analyzing
Tahap analisa merupakan tahap penentuan seberapa jauh keterhubungan antar kata- kata antar dokumen yang ada. Dalam tahap analisa ini adalah proses pembobotan
dokumen terhadap kata kunci yang dimasukkan. Banyak aplikasi menerapkan pembobotan kombinasi berupa perkalian bobot local term frequency dan global
inverse document frequency, ditulis tf.id,f
2.5 Model Ruang Vector
Proses system IR, kemiripan antar dokumen didefinisikan berdasarkan representasi
bag-of-words dan dikonversi ke suatu model ruang vector vector space model,
VSM. Model ini diperkenalkan oleh Salton Salton, 1983 dan telah digunakan secara luas. Pada VSM, setiap dokumen di dalam database dan query pengguna
Dikatakan membela
menguatnya dibandingkan
contoh lain Kata
bela menguat
Contoh lain
Universitas Sumatera Utara
direpresentasikan oleh suatu vector multi dimensi Polettiny, 2004. Dimensi sesuai dengan jumlah term dalam dokumen yang terlibat. Pada model ini:
~ Vocabulary merupakan kumpulan semua term berbeda yang tersisa dari dokumen setelah preprocessing dan mengandung t term index. Term-term ini membentuk
suatu ruang vector. ~ Setiap term i di dalam dokumen atau query j, diberikan suatu bobot weight bernilai
real Wij ~ Dokomen dan query diekpresikan sebagai vector t dimensi dj = w1, w2, ..., wtj dan
terdapat n dokumen di dalam koleksi, yaitu j = 1, 2,…n Contoh dari model ruang vektor tiga dimensi untuk dua dokumen D
1
dan D
2
, satu query pengguna Q
1
, dan tiga term T
1
, T
2
dan T
3
Cios, 2007 diperlihatkan pada
gambar 2.10. Dalam model ruang vektor, koleksi dokumen direpresentasikan oleh matriks term-
document atau matriks term-frequency. Setiap sel dalam matriks bersesuaian dengan bobot yang diberikan dari suatu term dalam dokumen yang ditentukan. Nilai nol
berarti bahwa term tersebut tidak hadir di dalam dokumen Cios, 2007. Gambar 2.11 mempertegas penjelasan ini .
Gambar 2.10 Contoh model ruang vektor dengan dua dokumen D1 dan D2, serta query Q1
Universitas Sumatera Utara
T1 T2 … Tt D1 W11 W21 … wt1
D2 W12 W22 … wt2 … … … … …
Dn W1n W2n … Wtn
Gambar 2.11 Contoh matriks term-document untuk database dengan n dokumen
dan t term
Keberhasilan dari model VSM ini ditentukan oleh skema pembobotan terhadap suatu term baik untuk cakupan lokal maupun global, dan faktor normalisasi Poletinny,
2004 . Pembobotan lokal hanya berpedoman pada frekuensi munculnya term dalam suatu dokumen dan tidak melihat frekuensi kemunculan term tersebut di dalam
dokumen lainnya. Pendekatan dalam pembobotan lokal yang paling banyak diterapkan adalah term-frequency tf meskipun terdapat skema lain seperti pembobotan biner,
augmented normalized tf, logaritmik tf dan logaritmik alternatif. Pembobotan global digunakan untuk memberikan tekanan terhadap term yang
mengakibatkan perbedaan dan berdasarkan pada penyebaran dari term tertentu di seluruh dokumen. Banyak skema didasarkan pada pertimbangan bahwa semakin
jarang suatu term muncul di dalam total koleksi maka term tersebut menjadi semakin berbeda. Pemanfaatan pembobotan ini dapat menghilangkan kebutuhan stop word
removal karena stop word mempunyai bobot global yang sangat kecil. Namun pada prakteknya lebih baik menghilangkan stop word di dalam fase pre-processing
sehingga semakin sedikit term yang harus ditangani. Pendekatan terhadap pembobotan global mencakup inverse document frequency idf, squared idf, probabilistic idf, GF-
idf, entropy.Pendekatan idf merupakan pembobotan yang paling banyak digunakan
Universitas Sumatera Utara
saat ini. Beberapa aplikasi tidak melibatkan bobot global, hanya memperhatikan tf, yaitu ketika tf sangat kecil atau saat diperlukan penekanan terhadap frekuensi term di
dalam suatu dokumen . Faktor normalisasi digunakan untuk menormalkan vektor dokumen sehingga proses
retrieval tidak terpengaruh oleh panjang dari dokumen. Normalisasi ini diperlukan karena dokumen panjang biasanya mengandung perulangan term yang sama sehingga
menaikkan frekuensi term tf. Dokumen panjang juga mengandung banyak term yang berbeda sehingga menaikkan ukuran kemiripan antara query dengan dokumen
tersebut, meningkatkan peluang di-retrievenya dokumen yang lebih panjang. Beberapa pendekatan normalisasi adalah normalisasi cosinus, penjumlahan bobot,
normalisasi ke-4, normalisasi bobot maksimal dan normalisasi pivoted unique. Bobot local suatu term i didalam dokumen j tf
ij
dapat didefinisikan sebagai:
Dimana fij adalah jumlah berapa kali term i muncul di dalam dokumen j. Frekuensi tersebut dinormalisasi dengan frekuensi dari most common term di dalam dokumen
tersebut.
Bobot global dari suatu term i pada pendekatan inverse document frequency idfi dapat didefinisikan sebagai
Dimana df
i
adalah frekuensi dokumen dari term i dan sama dengan jumlah dokumen yang mengandung term i. Log
2
digunakan untuk memperkecil pengaruhnya relative terhadap tf
ij
. Bobot dari term i di dalam sistem IR w
ij
dihitung menggunakan ukuran tf-idf yang didefinisikan sebagai berikut :
Universitas Sumatera Utara
Bobot tertinggi diberikan kepada term yang muncul sering kali dalam dokumen j tetapi jarang dalam dokumen lain. Gambar 2.12 memperlihatkan proses perhitungan
bobot tfidf bagi suatu dokumen yang menyertakan kalimat “data cube contains x data
dimension, y data dimension, and z data dimension” Cios, 2007.
Gambar 2.12 Contoh perhitungan bobot tf-idf
2.6 Ukuran Kemiripan