5
BAB II LANDASAN TEORI
2.1 Pemerolehan Informasi
2.1.1 Konsep Pemerolehan Informasi
Pemerolehan informasi adalah proses menemukan dokumen berisikan teks yang tidak terstruktur untuk memenuhi kebutuhan informasi dari koleksi
yang besar Manning, 2009.
2.1.2 Logical View Dokumen
Dokumen dalam koleksi sering dipresentasikan melalui term indeks atau keyword
. Keyword tersebut dapat diekstraksi langsung dari teks dokumen atau ditentukan secara manual dibuat oleh spesialis seperti banyak dilakukan pada
bidang information science. Term indeks ini menyediakan suatu logical view dari dokumen. Komputer modern memungkinkan representasi suatu dokumen dengan
menggunakan seluruh teks yang terdapat dalam dokumen tersebut. Dalam hal ini, sistem pemerolehan informasi disebut mengadopsi full text logical view dari
dokumen. Jika koleksi dokumen sangat besar, maka komputer modern akan mengurangi jumlah term indeks melalui proses penghapusan stopwords,
stemming , dan indentifikasi noun groups menghilangkan adjectives, adverbs, dan
verbs . Proses tersebut disebut text operation operasi teks yang akan mengurangi
kompleksitas dari representasi dokumen dan mengubah logical view dari full text menjadi term indeks. Gambar 2.1 mengilustrasikan beberapa intermediate logical
view yang akan digunakan oleh suatu sistem pemerolehan informasi Baeza-
Yates, 1999.
Gambar 2.1. Operasi teks logical view dari sebuah dokumen: dari full text
menjadi sebuah set indeks term. Baeza-Yates, 1999 Penghapusan stopword adalah proses penghilangan kata-kata yang tidak
digunakan kata buang. Contoh stopwords pada Bahasa Indonesia adalah tetapi, dan, atau, itu, yang Hasibuan, 2001.
2.1.2.1 Stemming
Stemming adalah merupakan proses mengubah kata-kata yang terdapat
dalam suatu dokumen dalam bentuk kata dasar rootword Agusta, 2009. Algoritma stemming pada teks berbahasa Indonesia menggunakan
Algoritma Nazief Adriani. Tahap-tahap pada Algoritma Nazief Adriani adalah sebagai berikut Agusta, 2009:
1. Cari kata yang akan di-stem dalam kamus. Jika ditemukan maka diasumsikan bahwa kata tesebut adalah root word. Maka algoritma berhenti.
2. Inflection Suffixes “-lah”, “-kah”, “-ku”, “-mu”, atau “-nya” dibuang. Jika
berupa particles “-lah”, “-kah”, “-tah” atau “-pun” maka langkah ini
diulangi lagi untuk menghapus Possesive Pronouns “-ku”, “-mu”, atau “-
nya”, jika ada.
3. Hapus Derivation Suffixes “-i”, “-an” atau “-kan”. Jika kata ditemukan di
kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a a.
Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus
maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b.
Akhiran yang dihapus “-i”, “-an” atau “-kan” dikembalikan, lanjut ke langkah 4.
4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.
a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan Tabel 2.1. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b.
b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word
belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama
algoritma berhenti. 5. Melakukan Recoding.
6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.
Tipe awalan ditentukan melalui langkah-langkah berikut: 1.
Jika awalannya adalah: “di-”, “ke-”, atau “se-” maka tipe awalannya secara berturut-
turut adalah “di-”, “ke-”, atau “se-”. 2.
Jika awalannya adalah “te-”, “me-”, “be-”, atau “pe-” maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya.
3. Jika dua karakter pertama bukan “di-”, “ke-”, “se-”, “te-”, “be-”, “me”, atau
“pe-” maka berhenti. 4.
Jika tipe awalan adalah “none” maka berhenti. Jika tipe awalan adalah bukan “none” maka awalan dapat dilihat pada Tabel 2.2. Hapus awalan jika
ditemukan.
Tabel 2.1. Kombinasi Awalan Akhiran Yang Tidak Diijinkan
Awalan Akhiran yang tidak diijinkan
be- -i
di- -an
ke- -i, -kan
me- -an
se- -i, -kan
Tabel 2.2. Cara
menentukan tipe awalan untuk Kata yang diawali dengan “te-” Following Characters
Tipe Awalan
Set 1 Set 2
Set 3 Set 4
“-r” “-r”
- -
none “-r”
vowel -
- ter-luluh
“-r” not vowel or “-r” “-er”
vowel ter
“-r” not vowel or “-r” “-er”
not vowel ter-
“-r” not vowel or “-r” not “-er”
- ter
not vowel or “-r” “-er”
vowel -
none not vowel or “-r”
“-er” not vowel
te
Tabel 2.3. Jenis Awalan Berdasarkan Tipe Awalannya
Tipe Awalan Awalan yang harus dihapus di-
di- ke-
ke- se-
se- te-
te- ter-
ter- ter-luluh
ter
Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan-aturan dibawah ini:
1. Aturan untuk reduplikasi. - Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang
sama maka root word adalah bentuk tunggalnya, contoh : “buku-buku” root
word -
nya adalah “buku”. -
Kata lain, misalnya “bolak-balik”, “berbalas-balasan, dan ”seolah-olah”. Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah.
Jika keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal, contoh: kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki
root word yang sama yaitu “balas”, maka root word “berbalas-balasan”
adalah “balas”. Sebaliknya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word yang berbeda, maka root word-
nya adalah “bolak-balik” 2. Tambahan bentuk awalan dan akhiran serta aturannya.
- Untuk tipe awalan “mem-“, kata yang diawali dengan awalan “memp-”
memiliki tipe awalan “mem-”. -
Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-” memiliki tipe awalan “meng-
2.1.3 Proses Pemerolehan Informasi
Proses pemerolehan informasi terdapat beberapa tahap. Pertama-tama, sebelum proses pemerolehan informasi dimulai, diperlukan pendefinisian
database teks. Hal ini dilakukan dengan melakukan identifikasi terhadap
dokumen-dokumen yang akan digunakan, operasi yang akan dilakukan terhadap teks, dan model teks struktur teks dan elemen mana saja dari teks yang dapat
dilakukan proses pemerolehan informasi. Operasi teks text operations mentransformasikan dokumen asal menjadi logical view dokumen tersebut.
Setelah logical view dokumen diperoleh, dibuatlah term indeks pada database untuk mempercepat proses pencarian terhadap jumlah data yang besar. Struktur
indeks yang paling banyak digunakan adalah inverted file seperti pada Gambar 2.2. Database dokumen telah diindeks, maka proses pemerolehan informasi dapat
dimulai. Pengguna menentukan kebutuhannya yang kemudian ditransformasikan oleh operasi teks yang sama digunakan pada koleksi dokumen. Query kemudian
ditransformasi untuk mendapatkan dokumen pemerolehan informasi. Struktur indeks dibuat sebelumnya agar dapat mempercepat pemrosesan query Baeza-
Yates, 1999. Sebelum dikirimkan ke pengguna, dokumen pemerolehan informasi
diperingkat dahulu berdasarkan kemungkinan relevansi. Pengguna kemudian
memeriksa kumpulan dokumen peringkat untuk mendapatkan informasi yang berguna baginya Baeza-Yates, 1999.
Gambar 2.2. Proses pemerolehan informasi Baeza-Yates, 1999
2.1.4 Inverted Index
Inverted index adalah mekanisme word-oriented untuk mengindeks
koleksi teks yang dapat mempercepat pencarian Baeza-Yates, 1999. Inverted index
terdiri dari dua bagian, yaitu dictionary dan posting list. Dictionary berisikan daftar term dan posting list berisikan id dokumen yang berhubungan
dengan term Manning, 2009. Sebagian besar sistem pemerolehan informasi dan web pencarian menerapkan inverted index yang terbukti efisien dalam menjawab
query Baeza-Yates, 1999.
Representasi struktur data inverted index pada Gambar 2.3 menunjukkan dictionary
berisi kumpulan term yang telah diurutkan sesuai abjad dan masing- masing term mempunyai postings list yang berisi kumpulan id dokumen terurut
Manning, 2009.
Gambar 2.3 . Representasi Inverted Index Manning, 2009
Inverted index pada Gambar 2.3, dapat dilakukan operasi boolean dasar
untuk query Brutus AND Calpuria dengan langkah-langkah sebagai berikut Manning, 2009:
1. Temukan Brutus di dictionary. 2. Retrieve posting dari Brutus.
3. Temukan Calpuria di dictionary. 4. Retrieve posting dari Calpuria.
5. Mengambil dokumen-dokumen yang terdapat pada kedua posting list dengan melakukan pemotongan pada daftar posting list, seperti pada Gambar 2.4.
Gambar 2.4 . Pemotongan posting list untuk query Brutus AND Calpuria
Manning, 2009 2.1.5
Metode Pembobotan TF-IDF
Teknik pembobotan Savoy 1993 adalah sebagai berikut Hasibuan, 2001: W
ik
= ntf
ik
nidf
k
,
dimana ntf
ik
= dan nidf
k
=
ij j
ik
tf Max
tf
n df
n
k
log log
Dimana : W
ik
adalah bobot istilah k pada dokumen i. tf
ik
merupakan frekuensi dari istilah k dalam dokumen i. n adalah jumlah dokumen dalam kumpulan dokumen.
df
k
adalah jumlah dokumen yang mengandung istilah k. Max
j
tf
ij
adalah frekuensi istilah terbesar pada satu dokumen. Wd= bobot sebuah dokumen
Pada teknik pembobotan ini, bobot istilah dinormalisasi. Dalam menentukan bobot suatu istilah tidak hanya berdasarkan frekuensi term, tetapi
juga berdasarkan frekuensi terbesar pada dokumen bersangkutan. Hal ini untuk menentukan posisi relatif bobot dari term dibanding dengan term-term lain di
dokumen yang sama. Selain itu teknik ini juga memperhitungkan jumlah dokumen yang mengandung term bersangkutan dan jumlah dokumen. Hal ini
untuk menentukan posisi relatif bobot term bersangkutan pada suatu dokumen dibandingkan dengan dokumen-dokumen lain yang memiliki term yang sama.
Sehingga jika sebuah term memiliki frekuensi yang sama pada dua dokumen belum tentu memiliki bobot yang sama Hasibuan, 2001.
2.1.6 Recall dan Precision