Pemerolehan Informasi LANDASAN TEORI

7

BAB 2 LANDASAN TEORI

1.1. Pemerolehan Informasi

Pemerolehan informasi Manning, Raghavan, Schutze, 2008 adalah menemukan bahan umumnya dokumen dari sebuah sifat yang tidak terstruktur umumnya teks untuk memenuhi kebutuhan informasi dari dalam koleksi yang besar biasanya disimpan dalam komputer. Menurut Davies Goker, 2009, terdapat tiga proses utama yang harus didukung oleh sebuah sistem pemerolehan informasi, yaitu indexing, query formulation, dan matching. Pada Gambar 2.1, kotak persegi mewakili data dan kotak yang melingkar mewakili proses. Information need Documents Query Indexed documents Retrieved documents Query formulation Indexing Matching Feedback Gambar 2.1 Proses pemerolehan informasi menurut Davies Goker, 2009. 1. Indexing Proses indexing menghasilkan representasi dari dokumen. Proses ini tidak melibatkan user secara langsung. Proses indexing dapat memasukkan keseluruhan isi dokumen ke dalam sistem. Namun yang lebih sering dilakukan adalah menyimpan sebuah dokumen hanya per bagian, misalnya, hanya judul dan ringkasan, ditambah dengan lokasi sebenarnya dari dokumen yang disimpan. Tahap – tahap dalam proses indexing akan dibahas pada sub bab 2.2. 2. Query formulation Query formulation adalah proses merepresentasikan informasi yang dibutuhkan oleh user. Hasil dari proses representasi tersebut adalah query. Dalam arti yang lebih luas, query formulation dapat berarti sebuah hubungan timbal balik antara komputer dan user, yang tidak hanya menghasilkan query yang sesuai, namun memungkinkan untuk memperoleh hasil yang dapat memandu user untuk lebih memahami informasi yang mereka butuhkan. Hal ini dinyatakan pada proses feedback pada Gambar 2.1. 3. Matching Matching adalah proses membandingkan query dengan indexed document yang diperoleh melalui dua proses di atas. Proses ini bertujuan untuk menemukan dokumen yang cocok dengan keinginan user. Proses matching biasanya menghasilkan daftar peringkat ranking dokumen. Daftar dokumen tersebut nantinya akan digunakan oleh user untuk mencari informasi yang mereka inginkan. Peringkat pencarian juga diharapkan akan meletakkan dokumen yang relevan di posisi puncak pada daftar peringkat, sehingga meminimalkan waktu yang dibutuhkan user dalam mencari dokumen yang tepat. Untuk penelitian ini, maka proses matching yang diharapkan adalah membandingkan antara surat yang akan dikategorikan dengan model hasil training menggunakan Multinomial Naive Bayes untuk mendapatkan kategori yang sesuai untuk surat yang akan dikategorikan tersebut.

1.2. Indexing