Pemerolehan Informasi Identifikasi makna kata sabar dalam karya sastra Menggunakan K-Nearest Neighbor (KNN).

Penjelasan: Pembicara pada contoh 1 tidak sabar atau tabah menghadapi keadaan yang sulit. Ia tidak mau membuang tenaga, waktu, dan pikirannya karena uang yang diterimanya sangat sedikitnya. Sebaliknya, Si Pelukis dengan gigih atau tekun terus membujuk ibu pembicara sehingga wanita itu mau menerima uang yang ingin diberikannya. Latar belakangnya munculnya kesabaran atau ketidak-sabaran pada contoh 1 dan contoh 2 berbeda. Pembicara pada contoh 1 tidak sabar atas perilaku pemilik pekerjaan atau orang yang memberinya pekerjaan. Ia merasa diperlakukan tidak sebanding antara tenaga, waktu, dan pikiran yang dikeluarkannya dengan uang yang diterimanya. Pemilik uang, modal, atau pekerjaan dapat memperlakukan orang yang dipekerjakannya dengan tidak sepantasnya. Pada data contoh 2 faktor kedudukan dan usia Emak menuntut pelukis itu untuk bertindak gigih untuk meyakinkan wanita itu agar mau menerima uang.

2.2. Pemerolehan Informasi

Pemerolehan Informasi berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri. Beberapa pengertian Pemerolehan Informasi dari berbagai sumber, antara lain : Pemerolehan Informasi adalah menemukan materi biasanya berupa dokumen yang bersifat tidak terstruktur biasanya dalam bentuk teks yang memenuhi kebutuhan informasi dari dalam koleksi atau kumpulan besar biasanya disimpan di komputer Manning, 2008. Pemerolehan informasi merupakan “bidang berkaitan dengan struktur, analisis, organisasi, penyimpanan, pencarian, dan pengambilan informasi Salton, 1968. “ Croft, 2010. Information Retrieval adal ah “bidang di persimpangan ilmu informasi dan ilmu komputer. Berkutat dengan pengindeksan dan pengambilan informasi dari sumber informasi heterogen memiliki pengaruh yang berbeda dan sebagian besar- tekstual Mooers, 1951. “ Hersh, 2003. Data yang dapat dijadikan sumber pencarian dapat berupa pesan teks, seperti e-mail, dan dokumen berita, bahkan dokumen yang beredar di internet. Dengan jumlah dokumen koleksi yang besar sebagai sumber pencarian, maka dibutuhkan suatu sistem yang dapat membantu user menemukan dokumen yang relevan dalam waktu yang singkat dan tepat.

2.2.1. Proses Preprocessing Dokumen

Setelah mendapatkan dokumen langkah selanjutnya adalah untuk memutuskan apakah harus dilakukan sebuah langkah untuk menyederhanakan pencarian atau lebih sering disebut dengan proses preprocessing . Proses ini berfungsi untuk mendapatkan kata kunci yang nantinya dapat digunakan sebagai pembanding antar dokumen. Dalam proses ini ada beberapa tahap yaitu tokenisasi, stopword, stemming dan text frequency .

2.2.1.1. Tokenisasi

Tokenisasi adalah proses memotong kalimat menjadi potongan- potongan kata yang disebut token dan pada saat yang sama karakter- karakter tertentu seperti tanda baca dihapus Manning, 2008. Dalam tokenisasi ini pula kata dalam dokumen akan diubah menjadi huruf kecil. Contoh: Aneh. Tadi ia tidak sabar menunggu telepon berbunyi, tapi kini malah ragu mengangkat. Perasaan cemas menyisip. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Maka akan menjadi seperti dibawah ini:

2.2.1.2. Stopword

Stopword adalah kata yang sangat umum yang akan muncul menjadi nilai yang kecil dalam membantu dokumen pilih yang cocok dengan kebutuhan pengguna dikecualikan dari kosa kata seluruhnya Manning, 2008. Pada stopword ini akan dibuat sebuah dokumen yang berisi kumpulan kata yang sering muncul namun dianggap tidak memiliki makna dalam kaitannya dengan kemiripan antar dokumen. Kata itu seperti kata yang, dan, aku dan lain sebagainya. Contoh: Maka akan menjadi seperti dibawah ini:

2.2.1.3. Stemming

Stemming adalah proses untuk mengambalikan sebuah bentuk kata menjadi bentuk kata dasar dengan cara menghilangkan semua imbuhan baik dari awalan, sisipan, akhiran dan kombinasi dari awalan dan akhiran. aneh tadi ia tidak sabar menunggu telepon tapi kini malah ragu mengangka t perasaan cemas menyisip aneh tadi ia tidak sabar menunggu telepon tapi kin i malah ragu mengangkat perasaan cemas menyisip sabar menunggu telepon ragu mengangkat perasaan cemas menyisip Contoh: Maka akan menjadi seperti dibawah ini:

2.2.1.3.1. Stemming Sastrawi

Disebutkan dalam situs www.github.comsastrawi Sastrawi stemmer merupakan sebuah library stemmer sederhana yang didesain untuk dapat digunakan secara mudah. Sastrawi stemmer menerapkan algoritma yang berbasis Nazief dan Adriani, kemudian ditingkatkan dengan Algoritma CS Confix Stripping, kemudian ditingkatkan lagi dengan algortima ECS Enhanced Confix Stripping, lalu ditingkatkan lagi dengan Modified ECS. Dengan menggunakan algoritma-algoritma tersebut, banyak persoalan stemming berhasil diatasi: 1. mencegah overstemming dengan kamus kata dasar. 2. mencegah understemming dengan aturan-aturan tambahan. 3. Beberapa contoh kata hasil stem: Buku-buku ~ buku Menahan ~ tahan Berbalas – balasan ~ balas sabar menunggu telepon ragu mengangkat perasaan cemas menyisip sabar tunggu telepo n ragu angka t rasa cemas sisi p PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.2.1.3.2. Stemming Nazief dan Adriani

Pada stemming dengan menggunakan algoritma Nazief Adriani, terdapat beberapa tahapan diantaranya adalah: 1. Mencari kata yang akan di stem dengan menggunakan kamus kata dasar. Jika ditemukan maka algoritma akan berhenti dan kata tersebut diasumsikan sebagai root word. 2. Inflection Suffixes “-lah”, “-kah”, “-ku”, “-mu”, atau “-nya” dibuang. Jika berupa particles “-lah”, “-kah”, “-tah” atau “-pun” maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns “-ku”, “-mu”, atau “-nya”, jika ada. 3. Hapus Derivation Suffixes “-i”, “-an” atau “-kan”. Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a. 3a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. 3b. Akhiran yang dihapus “-i”, “-an” atau “-kan” dikembalikan, lanjut ke langkah 4. 4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. 4a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b. 4b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti. 5. Melakukan Recoding. 6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.

2.2.1.4. Text Frequency dan Pembobotan

Semakin banyak kata yang mirip atau sama antara dua dokumen maka semakin dekat kedua dokumen tersebut dan akan memiliki bobot atau nilai yang lebih tinggi Manning,2008. Pemberian bobot atau nilai akan menggunakan teknik TFIDFterm frequency inverse document frequency . TF adalah jumlah kemunculan suatu kata dalam sebuah dokumen, sedangkan IDF adalah inverse dari banyanknya dokumen dimana suatu term tersebut muncul. Rumus Pembobotan Saton1983: Wt,d = tft,d idft = tft,d logNnt 2.1 Keterangan: a. Wt,d = bobot dari termkata t dalam dokumen d. b. Tft,d = frekuensi kemunculan termkata t dalam dokumen d. c. Idft = Inverse document frequency dari kata t. d. N = jumlah seluruh dokumen. e. Nt = jumlah dari dokumen training yang mengandung kata t.

2.3. Klasifikasi Teks