Analyzing Model Ruang Vector

c. Stemming

Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering Cios, 2007. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit diterapkan pada teks berbahasa Indonesia . Hal ini dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen. Contoh dari tahap ini dapat dilihat pada Gambar 2.9 Hasil Filtering Gambar 2.9 Proses Stemming Hasil Stemming Dalam bahasa Indonesia, afiksimbuhan terdiri dari sufiks akhiran, infiks sisipan, dan prefiks awalan. Karena proses penambahan infiks dalam bahasa Indonesia jarang terjadi maka proses stemming yang akan dibangun hanya mengenai kata yang megalami penambahan prefiks dan sufiks.

d. Analyzing

Tahap analisa merupakan tahap penentuan seberapa jauh keterhubungan antar kata- kata antar dokumen yang ada. Dalam tahap analisa ini adalah proses pembobotan dokumen terhadap kata kunci yang dimasukkan. Banyak aplikasi menerapkan pembobotan kombinasi berupa perkalian bobot local term frequency dan global inverse document frequency, ditulis tf.id,f

2.5 Model Ruang Vector

Proses system IR, kemiripan antar dokumen didefinisikan berdasarkan representasi bag-of-words dan dikonversi ke suatu model ruang vector vector space model, VSM. Model ini diperkenalkan oleh Salton Salton, 1983 dan telah digunakan secara luas. Pada VSM, setiap dokumen di dalam database dan query pengguna Dikatakan membela menguatnya dibandingkan contoh lain Kata bela menguat Contoh lain Universitas Sumatera Utara direpresentasikan oleh suatu vector multi dimensi Polettiny, 2004. Dimensi sesuai dengan jumlah term dalam dokumen yang terlibat. Pada model ini: ~ Vocabulary merupakan kumpulan semua term berbeda yang tersisa dari dokumen setelah preprocessing dan mengandung t term index. Term-term ini membentuk suatu ruang vector. ~ Setiap term i di dalam dokumen atau query j, diberikan suatu bobot weight bernilai real Wij ~ Dokomen dan query diekpresikan sebagai vector t dimensi dj = w1, w2, ..., wtj dan terdapat n dokumen di dalam koleksi, yaitu j = 1, 2,…n Contoh dari model ruang vektor tiga dimensi untuk dua dokumen D 1 dan D 2 , satu query pengguna Q 1 , dan tiga term T 1 , T 2 dan T 3 Cios, 2007 diperlihatkan pada gambar 2.10. Dalam model ruang vektor, koleksi dokumen direpresentasikan oleh matriks term- document atau matriks term-frequency. Setiap sel dalam matriks bersesuaian dengan bobot yang diberikan dari suatu term dalam dokumen yang ditentukan. Nilai nol berarti bahwa term tersebut tidak hadir di dalam dokumen Cios, 2007. Gambar 2.11 mempertegas penjelasan ini . Gambar 2.10 Contoh model ruang vektor dengan dua dokumen D1 dan D2, serta query Q1 Universitas Sumatera Utara T1 T2 … Tt D1 W11 W21 … wt1 D2 W12 W22 … wt2 … … … … … Dn W1n W2n … Wtn Gambar 2.11 Contoh matriks term-document untuk database dengan n dokumen dan t term Keberhasilan dari model VSM ini ditentukan oleh skema pembobotan terhadap suatu term baik untuk cakupan lokal maupun global, dan faktor normalisasi Poletinny, 2004 . Pembobotan lokal hanya berpedoman pada frekuensi munculnya term dalam suatu dokumen dan tidak melihat frekuensi kemunculan term tersebut di dalam dokumen lainnya. Pendekatan dalam pembobotan lokal yang paling banyak diterapkan adalah term-frequency tf meskipun terdapat skema lain seperti pembobotan biner, augmented normalized tf, logaritmik tf dan logaritmik alternatif. Pembobotan global digunakan untuk memberikan tekanan terhadap term yang mengakibatkan perbedaan dan berdasarkan pada penyebaran dari term tertentu di seluruh dokumen. Banyak skema didasarkan pada pertimbangan bahwa semakin jarang suatu term muncul di dalam total koleksi maka term tersebut menjadi semakin berbeda. Pemanfaatan pembobotan ini dapat menghilangkan kebutuhan stop word removal karena stop word mempunyai bobot global yang sangat kecil. Namun pada prakteknya lebih baik menghilangkan stop word di dalam fase pre-processing sehingga semakin sedikit term yang harus ditangani. Pendekatan terhadap pembobotan global mencakup inverse document frequency idf, squared idf, probabilistic idf, GF- idf, entropy.Pendekatan idf merupakan pembobotan yang paling banyak digunakan Universitas Sumatera Utara saat ini. Beberapa aplikasi tidak melibatkan bobot global, hanya memperhatikan tf, yaitu ketika tf sangat kecil atau saat diperlukan penekanan terhadap frekuensi term di dalam suatu dokumen . Faktor normalisasi digunakan untuk menormalkan vektor dokumen sehingga proses retrieval tidak terpengaruh oleh panjang dari dokumen. Normalisasi ini diperlukan karena dokumen panjang biasanya mengandung perulangan term yang sama sehingga menaikkan frekuensi term tf. Dokumen panjang juga mengandung banyak term yang berbeda sehingga menaikkan ukuran kemiripan antara query dengan dokumen tersebut, meningkatkan peluang di-retrievenya dokumen yang lebih panjang. Beberapa pendekatan normalisasi adalah normalisasi cosinus, penjumlahan bobot, normalisasi ke-4, normalisasi bobot maksimal dan normalisasi pivoted unique. Bobot local suatu term i didalam dokumen j tf ij dapat didefinisikan sebagai: Dimana fij adalah jumlah berapa kali term i muncul di dalam dokumen j. Frekuensi tersebut dinormalisasi dengan frekuensi dari most common term di dalam dokumen tersebut. Bobot global dari suatu term i pada pendekatan inverse document frequency idfi dapat didefinisikan sebagai Dimana df i adalah frekuensi dokumen dari term i dan sama dengan jumlah dokumen yang mengandung term i. Log 2 digunakan untuk memperkecil pengaruhnya relative terhadap tf ij . Bobot dari term i di dalam sistem IR w ij dihitung menggunakan ukuran tf-idf yang didefinisikan sebagai berikut : Universitas Sumatera Utara Bobot tertinggi diberikan kepada term yang muncul sering kali dalam dokumen j tetapi jarang dalam dokumen lain. Gambar 2.12 memperlihatkan proses perhitungan bobot tfidf bagi suatu dokumen yang menyertakan kalimat “data cube contains x data dimension, y data dimension, and z data dimension” Cios, 2007. Gambar 2.12 Contoh perhitungan bobot tf-idf

2.6 Ukuran Kemiripan