Penggunaan Metode Vector Space Model dal
Penggunaan Metode Vector Space Model dalam Pencarian
Informasi
Kharisma Rahmawaty (1601286)
Program studi Perpustakaan dan Ilmu Informasi
Fakultas Ilmu Pendidikan
Universitas Pendidikan Indonesia
[email protected]
1. Pendahuluan
Perkembangan informasi pada saat ini sangat berkembang pesat di
masyarakat sehingga masyarakat akan mengalami kesulitan dalam
mendapatkan informasi yang relevan sesuai dengan kebutuhannya. Seseorang
harus memiliki kemampuan dalam menyaring segala informasi yang masuk,
sehingga informasi yang didapatkan tidak keliru dan dapat dipergunakan
untuk aktivitas yang dilakukan (Solehat dkk. 2016:53). Oleh karena itu,
seseorang harus bisa menyaring informasi yang cepat tepat dan relevan.
Perkembanan pencarian pada saat ini menghasilkan banyak dokumen, akan
tetapi dokumen yang diharapkan sesuai dengan kebutuhan masih rendah.
Pencarian informasi saat ini dilakukan dengan menggunakan mesin pencarian
atau biasa kita sebut denan sistem temu balik informasi, pengguna menuliskan
kueri dan mesin pencari pun akan mencari kemudian akan menampilkan hasil
dari pencariannya. Mesin pencari akan menmpilkan hasil pencarian dengan
hasil dokumen yang sangat banyak atau banyak dokumen yang terambil,
sehingga pengguna memerlukan lagi waktu lebih untuk mendapatkan hasil
yang relevan atau sesuai dengan kebutuhan si pengguna.
Menentukan hasil dari apa yang ditampilkan oleh mesin pencari memang
banyak sehingga hasil ini akan menyulitkan pengguna dalam mendapatkan
informasi yang dicari, hal ini terjadi karena dokumen yang terambil oleh
sistem menghasilkan dokumen yang jumlahnya banyak, sehingga hasil ini
memungkinkan menampilkan hasil yang tidak relevan. Salah satu cara untuk
mengklasifiksaikan dokumen-dokumen dari hasil pencarian pengguna
berdasarkan tingkat kemiripan antara dokumen-dokumen yang telah
terkumpul agar dokumen yang dipilih nanti sudah mendekati apa yang dicari
oleh pengguna sesuai dengan kata kunci yang dimasukan sehingga
menghasilkan tingkat relevansi hasil temu balik tersebut kedalam sebuah
sistem temu balik informasi yaitu dengan menggunakan vector space model.
Vector Space Model (VSM) adalah metode untuk mengetahui tingkat
kedekatan atau kesamaan (similarity) term dengan cara pembobotan term.
Dokumen dipandang sebagai sebuah vektor yang memiliki jarak dan arah.
(Sanjaya, 2017:147)
Menentukan term dalam suatu dokumen diperlukan beberpa tahapan yaitu,
filtering¸stemming dan tokenizing. Setiap term tentunya memiliki kepentingan
yang berbeda dari setiap dokumen ke dokumen lainnya oleh karena itu
dibutuhkan pembobotan term. Pembobotan yang biasanya digunakan oleh
vector space model yaitu Term Frequency Invers Document Frequency (TFIDF). Metode TF-IDF ini merupkan suatu cara agar memberikan bobot
hubungn antara suatu kata atau term terhadap dokumen. Dari hasil
pembobotan menggunakan metode TF-IDF ini maka nantinya sebuah
dokumen dan kueri bisa direpresentasikan dalam sebuah ruang vektor yang
kemudian akan dicari tingkat kedektannya dengan menggunakan pengukuran
cosine silimilarity sehingga mendapatkan dokumen yang relevan dengan suatu
kueri yang dimasukan oleh pengguna.
2. Metode
Penelitian ini menggunakan studi literatur. Studi literatur adalah jenis
penelitian dengan menjawab permasalahan yang ada dengan meninjau
literatur-literatur yang sesuai sehingga dapat diberikan solusi atas
permasalahan tersebut. Literatur yang digunakan adalah berupa buku, jurnaal
nasional maupun internasional serta tinjauan media-media masa yang sesuai
(Imam & Alek, 2017:428)
3. Hasil
Vector Space Model
Baeza (1999) mengemukakan bahwa Vector space model adalah metode
untuk melihat tingkat kedekatan atau kesamaan (similarity) term dengan cara
pembobotan term. Dokumen dipandang sebuah vektor yang memiliki
magnitude (jarak) dan direction (arah). Pada vector space model, sebuah
istilah direpresentasikan dengan sebuah dimensi dari ruang vektor. Relevansi
sebuah dokumen ke sebuah kueri didasarkan pada similaritas diantara vektor
dokumen dan vektor kueri.
VSM memberikan sebuah kerangka pencocokan parsial adalah mungkin.
Hal ini dicapai dengan menetapkan bobot non-biner untuk istilah indeks dalam
kueri dan dokumen. Bobot istilah yang akhirnya digunakan untuk menghitung
tingkat kesamaan antara setiap dokumen yang tersimpan dalam sistem dan
permintaan pengguna. Amin (2012), mengemukakan bahwa dokumen yang
terambil disortir dalam urutan yan memiliki kemiripan, model vektor
memperhitungkan pertimbangan dokumen yang relevan dengan permintaan
dari penggunaan. Hasilnya adalah himpunan dokumen yang terambil jauh
lebih akurat dalam arti sesuai dengan informasi yang dibutuhkan oleh
pengguna.
Temu kembali informas adalah aktifitas utama yang dilakukan oleh sebuah
penyedia informasi atau lembagga informasi atau juga pelayanan informasi
termasuk disini didalamnya yaitu perpustakaan dan lain sebagainya yang
menyediakan informasi. Sistem temu balik informasi tidak menubah
pengetahuan pengguna terhadap masalah yang ditanyakannya akan tetapi
sistem tersebut hanya memberitahukan keberadaan atau ketidak beradaab dan
keterangan dokumen yang berhubungan dengan permintaan dari si
penggunanya.
Sistem temu kembali informasi bagi menjadi dua komponen utama yaitu
diantaranya yaitu sistem pengindeksan (indexting) pengindeksan ini
menghasilkan basis dataa siste dan temu kembali merupkan gabungan dari
user interface dan look-up-table. Sistem temu kembali informasi dirancang
untuk menemukan informasi atau dokumen yang diperlukan oleh pengguna.
Sistem temu kembali informasi ini memiliki tujuan menjawab kebutuhan
informasi dari pengguna dengan sumber informasi yang sudah tersedia, seperti
berikut: (Salton, 1989);
a. Mempresentasikan sekumpulan ide dalam sebuah dokumen menggunakan
sekumpulan konsep.
b. Terdapat beberapa pengguna yang memerlukan ide, tapi tidak dapat
mengidentifikasi dan menemukannya dengan baik.
Pada sistem temu balik informasi terdapat beberap metode yang digunkan
untuk merepresentasikan proses pencarian adalah menggunakan model ruang
vektor. Model ruang vektor ini dibuat berdasarkan pemikiran bahwa isi dari
sebuah dokumen ditentukan dengan kata-kata yang kita gunkan dalam mencari
dokumen tersebut. Model ini mentukan kemiripan antara dokumen dengan
kueri yang dimasukan oleh pengguna dengan cara merepresentasikan
dokumen dan kueri masing-masing kedalam bentuk vektor.
Sebelum dilakukan proses temu balik informasi diperlukan terlebih dahulu
pendefinisian database, selanjutnya mengikuti tahapan proses; dokumen-
dokumen yan akan digunaka, operasi yang akan digunakan dalam proses
pencarian, dan model pengelolaan teks (Beza, 1999).
1) Tokenisasi
Tokenizing atau tokenisasi merupakan proses pemisahan suatu rangkaian
karakter berdasarkan karakter spasi, dan mungkin pada waktu yang
bersamaan dilakukan juga proses penhapusan karakter tertentu, seperti
tanda baca. Sebagai contoh, kata-kata “computer”, “computin”, dan
“compute” semua berasal dari term yang sama yaitu “comput”, tanpa
pengetahuan sebelumnya dari morfologi bahasa Inggris. Token seringkali
disebut sebagai istilah (term) atau kata, sebagai contoh sebuah token
merupakan suatu urutan karakter dari dokumen tertentu yang
dikelompokkan sebgai unit semantik yang berguna untuk diproses (Salton,
1989).
2) Filtering
Filtering ini menggunakan metode eliminasi stop words yaitu
menghilankan semua kata depan, kaata sambung, kata ganti, dan lain
sebagainya. Contoh dalam bahasa Indonesia antara lain: yang, ini, itu, dan,
atau, saya, kamu, aku, dengan, ke, tak, tidak, pada, namun, hanya, seperti,
dan lain sebagainya.
3) Stemming
Proses stemming digunakan untuk mengubah kata yang masih melekat
dalam kata tersebut awalan, sisipan, dan akhiran. Proses stemming
dilakukan dengan caramenghilangkan semua imbuhan (affixes) baik yang
terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan
confixes (kombinasi dari awalan dan akhiran) pada kata turunan (Tala,
2003)
Proses pembobotan dokumen menggunakan metode Vector Spece Model
dilakukan dalam proses pencarian dokumen. Proram akan bekerja ketika
pengguna melakukan kueri, kemudian program tersebut akan memproses kueri,
selanjutnya program tersebut akan memproses kueri tersebut dengan perhitunganperhitungan term frequency, inverse document frequency, term frequency inverse
document frequency, jarak antara kueri dengan dokumen, similaritas dengan
cosine similaritas.
4. Kesimpulan
Pencarian informasi saat ini memang sangat cepat dan pencarian
informasi ini bisa dilakukan dengan mencari informasi di mesin pencarian
atau biasa disebut dengan sistem temu kembali informasi, pengguna
memasukan kata kunci kemudia mesin pencari itu akan menampilkan banyak
dokumen dari hasi pencarian kata kunci yang telah dimasukkan. Untuk
mengklasifikasikan dokumen-dokumen yan telah terkumpul agar dokumen
tersebut sudah sesuai dengan kata kunci yan telah kita masukan sehingga
menghasilkan tingkat relevansi hasil temu balik tersebut kedalam sebuah
sistem temu balik informasi yaitu dengan menggunakan vector space model
atau VSM. VSM ini merupakan metode untuk mengetahui tinkat kedekatan
atau kemiripan hasil dengan kata kunci yan telah dimasukkan.
Pada sistem temu kembali informasi terdapat metode yan bisa
digunakan untuk merepresentasikan proses pencarian adalah menggunakan
model ruang vektor. Model ini menentukan kemiripan antara dokumen denan
kueri yang dimasukkan pengguna dengan cara merepresantasikan dokumen
dan kueri masing-masing kedalam bentuk vektor. Menentukan term dalam
suatu dokumen diperlukan beberapa tahapan yaitu, filtering, stemming dan
tokenizing.
Daftar Pustaka
Baeza R.Y., Neto R. (1999). Modern Information Retrival, Addison WesleyPearson
International edition, Boston. USA.
Desviana Siti Solehat, Doddy Rusmono, & Gema Rullyana. (2016).
Perilaku
Pencarian Informasi Mahasiswa Pendidikan Bahasa Asing
di Universitas
Pendidikan Indonesia. Edulib, 6(1), 51-67. doi:
10.17509/edulib.v6i1.5002.g3567.
Fatkhul A. (2012). Sistem temu Kembali Informasi dengan Metode Vector Space
Model. Jurnal Fakultas Teknologi Informasi. Universitas Stikubank.
Semarang.
Ferry S. (2017). Pemanfaatan Sistem Temu Kembali Informasi dalam Pencarian
Dokumen Menggunakan Metode Vector Space Model. Jurnal fakultas
teknik Informatika. Sekolah Tinggi Informatika & Komputer Indonesia (STIKI).
Malang
Tala, F.Z. (2003). A Study of Stemming Effects on Information Retrival in bahasa
Indonesia. Master Thesis, Institut for logic, Language and Computation
Universiteit van Amsterdam The Netherlands.
Salton, G. (1989). Automatic Text Processing, The Transformation, Analysis, and
Retrieval of Information by computer. Addison-Wesly Publishing Company
Inc. USA.
Informasi
Kharisma Rahmawaty (1601286)
Program studi Perpustakaan dan Ilmu Informasi
Fakultas Ilmu Pendidikan
Universitas Pendidikan Indonesia
[email protected]
1. Pendahuluan
Perkembangan informasi pada saat ini sangat berkembang pesat di
masyarakat sehingga masyarakat akan mengalami kesulitan dalam
mendapatkan informasi yang relevan sesuai dengan kebutuhannya. Seseorang
harus memiliki kemampuan dalam menyaring segala informasi yang masuk,
sehingga informasi yang didapatkan tidak keliru dan dapat dipergunakan
untuk aktivitas yang dilakukan (Solehat dkk. 2016:53). Oleh karena itu,
seseorang harus bisa menyaring informasi yang cepat tepat dan relevan.
Perkembanan pencarian pada saat ini menghasilkan banyak dokumen, akan
tetapi dokumen yang diharapkan sesuai dengan kebutuhan masih rendah.
Pencarian informasi saat ini dilakukan dengan menggunakan mesin pencarian
atau biasa kita sebut denan sistem temu balik informasi, pengguna menuliskan
kueri dan mesin pencari pun akan mencari kemudian akan menampilkan hasil
dari pencariannya. Mesin pencari akan menmpilkan hasil pencarian dengan
hasil dokumen yang sangat banyak atau banyak dokumen yang terambil,
sehingga pengguna memerlukan lagi waktu lebih untuk mendapatkan hasil
yang relevan atau sesuai dengan kebutuhan si pengguna.
Menentukan hasil dari apa yang ditampilkan oleh mesin pencari memang
banyak sehingga hasil ini akan menyulitkan pengguna dalam mendapatkan
informasi yang dicari, hal ini terjadi karena dokumen yang terambil oleh
sistem menghasilkan dokumen yang jumlahnya banyak, sehingga hasil ini
memungkinkan menampilkan hasil yang tidak relevan. Salah satu cara untuk
mengklasifiksaikan dokumen-dokumen dari hasil pencarian pengguna
berdasarkan tingkat kemiripan antara dokumen-dokumen yang telah
terkumpul agar dokumen yang dipilih nanti sudah mendekati apa yang dicari
oleh pengguna sesuai dengan kata kunci yang dimasukan sehingga
menghasilkan tingkat relevansi hasil temu balik tersebut kedalam sebuah
sistem temu balik informasi yaitu dengan menggunakan vector space model.
Vector Space Model (VSM) adalah metode untuk mengetahui tingkat
kedekatan atau kesamaan (similarity) term dengan cara pembobotan term.
Dokumen dipandang sebagai sebuah vektor yang memiliki jarak dan arah.
(Sanjaya, 2017:147)
Menentukan term dalam suatu dokumen diperlukan beberpa tahapan yaitu,
filtering¸stemming dan tokenizing. Setiap term tentunya memiliki kepentingan
yang berbeda dari setiap dokumen ke dokumen lainnya oleh karena itu
dibutuhkan pembobotan term. Pembobotan yang biasanya digunakan oleh
vector space model yaitu Term Frequency Invers Document Frequency (TFIDF). Metode TF-IDF ini merupkan suatu cara agar memberikan bobot
hubungn antara suatu kata atau term terhadap dokumen. Dari hasil
pembobotan menggunakan metode TF-IDF ini maka nantinya sebuah
dokumen dan kueri bisa direpresentasikan dalam sebuah ruang vektor yang
kemudian akan dicari tingkat kedektannya dengan menggunakan pengukuran
cosine silimilarity sehingga mendapatkan dokumen yang relevan dengan suatu
kueri yang dimasukan oleh pengguna.
2. Metode
Penelitian ini menggunakan studi literatur. Studi literatur adalah jenis
penelitian dengan menjawab permasalahan yang ada dengan meninjau
literatur-literatur yang sesuai sehingga dapat diberikan solusi atas
permasalahan tersebut. Literatur yang digunakan adalah berupa buku, jurnaal
nasional maupun internasional serta tinjauan media-media masa yang sesuai
(Imam & Alek, 2017:428)
3. Hasil
Vector Space Model
Baeza (1999) mengemukakan bahwa Vector space model adalah metode
untuk melihat tingkat kedekatan atau kesamaan (similarity) term dengan cara
pembobotan term. Dokumen dipandang sebuah vektor yang memiliki
magnitude (jarak) dan direction (arah). Pada vector space model, sebuah
istilah direpresentasikan dengan sebuah dimensi dari ruang vektor. Relevansi
sebuah dokumen ke sebuah kueri didasarkan pada similaritas diantara vektor
dokumen dan vektor kueri.
VSM memberikan sebuah kerangka pencocokan parsial adalah mungkin.
Hal ini dicapai dengan menetapkan bobot non-biner untuk istilah indeks dalam
kueri dan dokumen. Bobot istilah yang akhirnya digunakan untuk menghitung
tingkat kesamaan antara setiap dokumen yang tersimpan dalam sistem dan
permintaan pengguna. Amin (2012), mengemukakan bahwa dokumen yang
terambil disortir dalam urutan yan memiliki kemiripan, model vektor
memperhitungkan pertimbangan dokumen yang relevan dengan permintaan
dari penggunaan. Hasilnya adalah himpunan dokumen yang terambil jauh
lebih akurat dalam arti sesuai dengan informasi yang dibutuhkan oleh
pengguna.
Temu kembali informas adalah aktifitas utama yang dilakukan oleh sebuah
penyedia informasi atau lembagga informasi atau juga pelayanan informasi
termasuk disini didalamnya yaitu perpustakaan dan lain sebagainya yang
menyediakan informasi. Sistem temu balik informasi tidak menubah
pengetahuan pengguna terhadap masalah yang ditanyakannya akan tetapi
sistem tersebut hanya memberitahukan keberadaan atau ketidak beradaab dan
keterangan dokumen yang berhubungan dengan permintaan dari si
penggunanya.
Sistem temu kembali informasi bagi menjadi dua komponen utama yaitu
diantaranya yaitu sistem pengindeksan (indexting) pengindeksan ini
menghasilkan basis dataa siste dan temu kembali merupkan gabungan dari
user interface dan look-up-table. Sistem temu kembali informasi dirancang
untuk menemukan informasi atau dokumen yang diperlukan oleh pengguna.
Sistem temu kembali informasi ini memiliki tujuan menjawab kebutuhan
informasi dari pengguna dengan sumber informasi yang sudah tersedia, seperti
berikut: (Salton, 1989);
a. Mempresentasikan sekumpulan ide dalam sebuah dokumen menggunakan
sekumpulan konsep.
b. Terdapat beberapa pengguna yang memerlukan ide, tapi tidak dapat
mengidentifikasi dan menemukannya dengan baik.
Pada sistem temu balik informasi terdapat beberap metode yang digunkan
untuk merepresentasikan proses pencarian adalah menggunakan model ruang
vektor. Model ruang vektor ini dibuat berdasarkan pemikiran bahwa isi dari
sebuah dokumen ditentukan dengan kata-kata yang kita gunkan dalam mencari
dokumen tersebut. Model ini mentukan kemiripan antara dokumen dengan
kueri yang dimasukan oleh pengguna dengan cara merepresentasikan
dokumen dan kueri masing-masing kedalam bentuk vektor.
Sebelum dilakukan proses temu balik informasi diperlukan terlebih dahulu
pendefinisian database, selanjutnya mengikuti tahapan proses; dokumen-
dokumen yan akan digunaka, operasi yang akan digunakan dalam proses
pencarian, dan model pengelolaan teks (Beza, 1999).
1) Tokenisasi
Tokenizing atau tokenisasi merupakan proses pemisahan suatu rangkaian
karakter berdasarkan karakter spasi, dan mungkin pada waktu yang
bersamaan dilakukan juga proses penhapusan karakter tertentu, seperti
tanda baca. Sebagai contoh, kata-kata “computer”, “computin”, dan
“compute” semua berasal dari term yang sama yaitu “comput”, tanpa
pengetahuan sebelumnya dari morfologi bahasa Inggris. Token seringkali
disebut sebagai istilah (term) atau kata, sebagai contoh sebuah token
merupakan suatu urutan karakter dari dokumen tertentu yang
dikelompokkan sebgai unit semantik yang berguna untuk diproses (Salton,
1989).
2) Filtering
Filtering ini menggunakan metode eliminasi stop words yaitu
menghilankan semua kata depan, kaata sambung, kata ganti, dan lain
sebagainya. Contoh dalam bahasa Indonesia antara lain: yang, ini, itu, dan,
atau, saya, kamu, aku, dengan, ke, tak, tidak, pada, namun, hanya, seperti,
dan lain sebagainya.
3) Stemming
Proses stemming digunakan untuk mengubah kata yang masih melekat
dalam kata tersebut awalan, sisipan, dan akhiran. Proses stemming
dilakukan dengan caramenghilangkan semua imbuhan (affixes) baik yang
terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan
confixes (kombinasi dari awalan dan akhiran) pada kata turunan (Tala,
2003)
Proses pembobotan dokumen menggunakan metode Vector Spece Model
dilakukan dalam proses pencarian dokumen. Proram akan bekerja ketika
pengguna melakukan kueri, kemudian program tersebut akan memproses kueri,
selanjutnya program tersebut akan memproses kueri tersebut dengan perhitunganperhitungan term frequency, inverse document frequency, term frequency inverse
document frequency, jarak antara kueri dengan dokumen, similaritas dengan
cosine similaritas.
4. Kesimpulan
Pencarian informasi saat ini memang sangat cepat dan pencarian
informasi ini bisa dilakukan dengan mencari informasi di mesin pencarian
atau biasa disebut dengan sistem temu kembali informasi, pengguna
memasukan kata kunci kemudia mesin pencari itu akan menampilkan banyak
dokumen dari hasi pencarian kata kunci yang telah dimasukkan. Untuk
mengklasifikasikan dokumen-dokumen yan telah terkumpul agar dokumen
tersebut sudah sesuai dengan kata kunci yan telah kita masukan sehingga
menghasilkan tingkat relevansi hasil temu balik tersebut kedalam sebuah
sistem temu balik informasi yaitu dengan menggunakan vector space model
atau VSM. VSM ini merupakan metode untuk mengetahui tinkat kedekatan
atau kemiripan hasil dengan kata kunci yan telah dimasukkan.
Pada sistem temu kembali informasi terdapat metode yan bisa
digunakan untuk merepresentasikan proses pencarian adalah menggunakan
model ruang vektor. Model ini menentukan kemiripan antara dokumen denan
kueri yang dimasukkan pengguna dengan cara merepresantasikan dokumen
dan kueri masing-masing kedalam bentuk vektor. Menentukan term dalam
suatu dokumen diperlukan beberapa tahapan yaitu, filtering, stemming dan
tokenizing.
Daftar Pustaka
Baeza R.Y., Neto R. (1999). Modern Information Retrival, Addison WesleyPearson
International edition, Boston. USA.
Desviana Siti Solehat, Doddy Rusmono, & Gema Rullyana. (2016).
Perilaku
Pencarian Informasi Mahasiswa Pendidikan Bahasa Asing
di Universitas
Pendidikan Indonesia. Edulib, 6(1), 51-67. doi:
10.17509/edulib.v6i1.5002.g3567.
Fatkhul A. (2012). Sistem temu Kembali Informasi dengan Metode Vector Space
Model. Jurnal Fakultas Teknologi Informasi. Universitas Stikubank.
Semarang.
Ferry S. (2017). Pemanfaatan Sistem Temu Kembali Informasi dalam Pencarian
Dokumen Menggunakan Metode Vector Space Model. Jurnal fakultas
teknik Informatika. Sekolah Tinggi Informatika & Komputer Indonesia (STIKI).
Malang
Tala, F.Z. (2003). A Study of Stemming Effects on Information Retrival in bahasa
Indonesia. Master Thesis, Institut for logic, Language and Computation
Universiteit van Amsterdam The Netherlands.
Salton, G. (1989). Automatic Text Processing, The Transformation, Analysis, and
Retrieval of Information by computer. Addison-Wesly Publishing Company
Inc. USA.