7
BAB 2 LANDASAN TEORI
1.1. Pemerolehan Informasi
Pemerolehan informasi Manning, Raghavan, Schutze, 2008 adalah menemukan bahan umumnya dokumen dari sebuah sifat yang tidak terstruktur
umumnya teks untuk memenuhi kebutuhan informasi dari dalam koleksi yang besar biasanya disimpan dalam komputer.
Menurut Davies Goker, 2009, terdapat tiga proses utama yang harus didukung oleh sebuah sistem pemerolehan informasi, yaitu indexing, query
formulation, dan matching.
Pada Gambar 2.1, kotak persegi mewakili data dan kotak yang melingkar mewakili proses.
Information need Documents
Query Indexed documents
Retrieved documents
Query formulation Indexing
Matching
Feedback
Gambar 2.1 Proses pemerolehan informasi menurut Davies Goker, 2009.
1. Indexing
Proses indexing menghasilkan representasi dari dokumen. Proses ini tidak melibatkan user secara langsung. Proses indexing dapat memasukkan keseluruhan
isi dokumen ke dalam sistem. Namun yang lebih sering dilakukan adalah menyimpan sebuah dokumen hanya per bagian, misalnya, hanya judul dan
ringkasan, ditambah dengan lokasi sebenarnya dari dokumen yang disimpan. Tahap – tahap dalam proses indexing akan dibahas pada sub bab 2.2.
2. Query formulation
Query formulation adalah proses merepresentasikan informasi yang dibutuhkan oleh user. Hasil dari proses representasi tersebut adalah query. Dalam arti yang
lebih luas, query formulation dapat berarti sebuah hubungan timbal balik antara komputer dan user, yang tidak hanya menghasilkan query yang sesuai, namun
memungkinkan untuk memperoleh hasil yang dapat memandu user untuk lebih memahami informasi yang mereka butuhkan. Hal ini dinyatakan pada proses
feedback pada Gambar 2.1.
3. Matching
Matching adalah proses membandingkan query dengan indexed document yang diperoleh melalui dua proses di atas. Proses ini bertujuan untuk menemukan
dokumen yang cocok dengan keinginan user. Proses matching biasanya menghasilkan daftar peringkat ranking dokumen. Daftar dokumen tersebut
nantinya akan digunakan oleh user untuk mencari informasi yang mereka inginkan. Peringkat pencarian juga diharapkan akan meletakkan dokumen yang
relevan di posisi puncak pada daftar peringkat, sehingga meminimalkan waktu yang dibutuhkan user dalam mencari dokumen yang tepat.
Untuk penelitian ini, maka proses matching yang diharapkan adalah membandingkan antara surat yang akan dikategorikan dengan model hasil
training menggunakan Multinomial Naive Bayes untuk mendapatkan kategori yang sesuai untuk surat yang akan dikategorikan tersebut.
1.2. Indexing