dokumen mana yang paling dekat atau mirip dengan pencarian yang dilakukan oleh user. Hal ini melandasi berkembangnya metode baru untuk
information retrieval, dimana information retrieval membuat suatu sistem peringkat untuk hasil yang akan ditampilkan kepada user dan lebih
memperluas hasil pencarian dibandingkan hasil pencarian dengan metode boolean dasar. Proses pembuatan indeks dalam information retreival ini
menggunakan metode inverted file. Adapun konsep dari inverted file adalah sebagai berikut, asumsikan pada setiap dokumen diberi daftar keyword atau
atribut dengan bobot relevansi opsional yang terkait dengan setiap kata kunci. Kemudian diurutkan keyword tersebut, dengan setiap keyword memiliki link
ke dokumen yang berisi keyword tersebut. Ini adalah jenis teknik indexing yang ditemukan di sebagian besar sistem perpustakaan komersial.
Penggunaan inverted file ini meningkatkan efesiensi beberapa kali lipat. Sistem temu-kembali informasi pada dasarnya dibagi dalam dua
komponen utama yaitu sistem pengindeksan indexing yang menghasilkan basis data sistem dan temukembali yang merupakan gabungan dari user
interface dan look-up-table. Pada bagian selanjutnya akan dijelaskan berbagai macam sistem pengindeksan dan teknik-teknik temu-kembali informasi yang
telah dikembangkan.
2.5 Objek Teks
Objek teks yang dimaksud di sini adalah sekumpulan korpus yang merupakan perihal dan pertimbangan dari undang-undang yang berlaku pada
Kementrian Lingkungan Hidup Republik Indonesia.
2.6 Proses Indexing
Indexing merupakan sebuah proses untuk melakukan pengindeksan terhadap kumpulan dokumen yang akan disediakan sebagai informasi kepada
pemakai. Proses pengindeksan bisa secara manual ataupun otomatis. Dewasa ini, sistem pengindeksan secara manual mulai digantikan oleh sistem
pengindeksan otomatis. Adapun tahap dari pengindeksan adalah sebagai berikut :
1. Parsing dokumen yaitu proses pengambilan kata-kata dari
sekumpulan dokumen. 2.
Stoplist yaitu proses pembuangan kata buang seperti : tetapi,yaitu,sedangkan dan sebagainya.
3. Stemming yaitu proses penghilangan pemotongan dari suatu kata
menjadi bentuk dasar. Kata “diadaptasikan” atau “beradaptasi” menjadi kata “adaptasi” sebagai istilah.
4. Term weighting dan inverted file yaitu proses pemberian bobot
pada istilah. Didalam pemberian bobot sebuah istilah, terdapat berbagai macam teknik
antara lain:
1. Teknik pembobotan berdasarkan frekuensi kemunculan istilah pada suatu dokumenfitriyanti, 1997. Teknik pembobotan ini cukup
sederhana dimana bobot suatu istilah pada sebuah dokumen berdasarkan jumlah kemunculan pada dokumen tersebut.
2. Teknik pembobotan berdasarkan rumus savoy1993,yaitu:
Dimana : •
W
ik
adalah bobot istilah k pada dokumen i •
tf
ik
merupakan frekuensi istilah k dalam dokumen i •
n adalah jumlah dokumen dalam kumpulan dokumen •
df
k
jumla dokumen yang mengandung istilah k •
max
j
tf
ij
adalah frekuensi istilah terbesar pada suatu dokumen. Pada teknik pembobotan ini,bobot istilah telah dinormalisasi. Dalam
menentukan bobot suatu istilah tidak hanya berdasarkan frekuensi kemunculan suatu istilah di satu dokumen, tetapi juga memperhatikan
frekuensi terbesar pada suatu istilah yang dimiliki oleh dokumen bersangkutan. Hal ini untuk menentukan posisi relatif bobot dari istilah
dibanding istilah-istilah lain di dokumen yang sama.
2.7 Pencarian Searching
Pencarian Searching merupakan tindakan untuk mendapatkan suatu dalam kumpulan data. Dalam kehidupan sehari-hari,seringkali kita berurusan
dalam masalah pencarian. Misalnya untuk menemukan nomor telepon seseorang pada buku telpon atau meencari suatu istilah dalam kamus. Pada
aplikasi komputer pencarian kerap dilakukan ; misalnya untuk mendapatkan data dari seorang mahasiswa, mendapatkan nomor telepon dalam suatu
alamat atau perusahaanAbdul Kadir, 2005 : 384
2.8 Model Pencarian Extended Bolean
Model Extended boolean merupakan pengembangan dari model boolean. Model Extended Boolean ini pertama kali dikenalkan oleh Salton, Fox dan
Wu. Strategi dari model Extended boolean ini adalah menggabungkan boolean query dengan model ruang vektor sehingga bisa memudahkan
pengguna untuk memperluas query. Adapun dasar-dasar operator model Boolean yaitu AND,OR, dan NOT.
Perbedaan model Boolean dengan Model Extended Boolean adalah model Boolean tidak menggunakan bobot query dan mungkin hasilnya terlalu besar
ataupun terlalu kecil. Sedangkan model Extended Boolean menggunakan bobot query seperti halnya model ruang vektor.
Dalam mengambil dokumen yang relevan dengan query yang diberikan, kita perlu menghitung kesamaan query pada inputan yang kita masukan
dengan dokumen dalam koleksi. Extended boolean memiliki 3 model dalam