Penjelasan: Pembicara pada contoh 1 tidak sabar atau tabah menghadapi
keadaan yang sulit. Ia tidak mau membuang tenaga, waktu, dan pikirannya
karena uang yang diterimanya sangat sedikitnya. Sebaliknya, Si Pelukis dengan gigih atau tekun terus membujuk ibu
pembicara sehingga wanita itu mau menerima uang yang ingin diberikannya.
Latar belakangnya munculnya kesabaran atau ketidak-sabaran pada contoh 1 dan contoh 2 berbeda. Pembicara pada contoh 1 tidak
sabar atas perilaku pemilik pekerjaan atau orang yang memberinya pekerjaan. Ia merasa diperlakukan tidak sebanding antara tenaga,
waktu, dan pikiran yang dikeluarkannya dengan uang yang diterimanya.
Pemilik uang,
modal, atau
pekerjaan dapat
memperlakukan orang
yang dipekerjakannya
dengan tidak
sepantasnya. Pada data contoh 2 faktor kedudukan dan usia Emak menuntut pelukis itu untuk bertindak gigih untuk meyakinkan wanita
itu agar mau menerima uang.
2.2. Pemerolehan Informasi
Pemerolehan Informasi berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan
konteks dari dokumen-dokumen itu sendiri. Beberapa pengertian Pemerolehan Informasi dari berbagai sumber, antara lain :
Pemerolehan Informasi adalah menemukan materi biasanya berupa dokumen yang bersifat tidak terstruktur biasanya dalam
bentuk teks yang memenuhi kebutuhan informasi dari dalam koleksi atau kumpulan besar biasanya disimpan di komputer Manning,
2008. Pemerolehan informasi merupakan “bidang berkaitan dengan
struktur, analisis,
organisasi, penyimpanan,
pencarian, dan
pengambilan informasi Salton, 1968. “ Croft, 2010.
Information Retrieval adal ah “bidang di persimpangan ilmu
informasi dan ilmu komputer. Berkutat dengan pengindeksan dan pengambilan informasi dari sumber informasi heterogen memiliki
pengaruh yang berbeda dan sebagian besar- tekstual Mooers, 1951. “
Hersh, 2003. Data yang dapat dijadikan sumber pencarian dapat berupa pesan
teks, seperti e-mail, dan dokumen berita, bahkan dokumen yang beredar di internet. Dengan jumlah dokumen koleksi yang besar sebagai sumber
pencarian, maka dibutuhkan suatu sistem yang dapat membantu user menemukan dokumen yang relevan dalam waktu yang singkat dan
tepat.
2.2.1. Proses Preprocessing Dokumen
Setelah mendapatkan dokumen langkah selanjutnya adalah untuk memutuskan apakah harus dilakukan sebuah langkah untuk
menyederhanakan pencarian atau lebih sering disebut dengan proses preprocessing
. Proses ini berfungsi untuk mendapatkan kata kunci yang nantinya dapat digunakan sebagai pembanding antar dokumen. Dalam
proses ini ada beberapa tahap yaitu tokenisasi, stopword, stemming dan text frequency
.
2.2.1.1. Tokenisasi
Tokenisasi adalah proses memotong kalimat menjadi potongan- potongan kata yang disebut token dan pada saat yang sama karakter-
karakter tertentu seperti tanda baca dihapus Manning, 2008. Dalam tokenisasi ini pula kata dalam dokumen akan diubah menjadi huruf
kecil.
Contoh: Aneh. Tadi ia tidak sabar menunggu telepon berbunyi, tapi kini
malah ragu mengangkat. Perasaan cemas menyisip. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Maka akan menjadi seperti dibawah ini:
2.2.1.2. Stopword
Stopword adalah kata yang sangat umum yang akan muncul menjadi nilai yang kecil dalam membantu dokumen pilih yang cocok
dengan kebutuhan pengguna dikecualikan dari kosa kata seluruhnya Manning, 2008. Pada stopword ini akan dibuat sebuah dokumen yang
berisi kumpulan kata yang sering muncul namun dianggap tidak memiliki makna dalam kaitannya dengan kemiripan antar dokumen.
Kata itu seperti kata yang, dan, aku dan lain sebagainya.
Contoh:
Maka akan menjadi seperti dibawah ini:
2.2.1.3. Stemming
Stemming adalah proses untuk mengambalikan sebuah bentuk kata menjadi bentuk kata dasar dengan cara menghilangkan semua
imbuhan baik dari awalan, sisipan, akhiran dan kombinasi dari awalan dan akhiran.
aneh tadi
ia tidak
sabar menunggu
telepon tapi
kini malah
ragu mengangka
t perasaan
cemas menyisip
aneh tadi
ia tidak
sabar menunggu
telepon tapi
kin i
malah ragu
mengangkat perasaan
cemas menyisip
sabar menunggu
telepon ragu
mengangkat perasaan
cemas menyisip
Contoh:
Maka akan menjadi seperti dibawah ini:
2.2.1.3.1. Stemming Sastrawi
Disebutkan dalam situs www.github.comsastrawi Sastrawi stemmer merupakan sebuah library stemmer sederhana yang didesain
untuk dapat digunakan secara mudah. Sastrawi stemmer menerapkan algoritma yang berbasis Nazief
dan Adriani, kemudian ditingkatkan dengan Algoritma CS Confix Stripping, kemudian ditingkatkan lagi dengan algortima ECS
Enhanced Confix Stripping, lalu ditingkatkan lagi dengan Modified ECS.
Dengan menggunakan algoritma-algoritma tersebut, banyak persoalan stemming berhasil diatasi:
1. mencegah overstemming dengan kamus kata dasar.
2. mencegah understemming dengan aturan-aturan tambahan.
3. Beberapa contoh kata hasil stem: Buku-buku ~ buku
Menahan ~ tahan Berbalas
– balasan ~ balas sabar
menunggu telepon
ragu mengangkat
perasaan cemas
menyisip
sabar tunggu
telepo n
ragu angka
t rasa
cemas sisi
p PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2.2.1.3.2. Stemming Nazief dan Adriani
Pada stemming dengan menggunakan algoritma Nazief Adriani, terdapat beberapa tahapan diantaranya adalah:
1. Mencari kata yang akan di stem dengan menggunakan kamus kata
dasar. Jika ditemukan maka algoritma akan berhenti dan kata tersebut diasumsikan sebagai root word.
2. Inflection Suffixes “-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”
dibuang. Jika berupa particles “-lah”, “-kah”, “-tah” atau “-pun”
maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns
“-ku”, “-mu”, atau “-nya”, jika ada. 3.
Hapus Derivation Suffixes “-i”, “-an” atau “-kan”. Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke
langkah 3a. 3a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut
adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak
ditemukan maka lakukan langkah 3b. 3b. Akhiran yang dihapus “-i”, “-an” atau “-kan” dikembalikan,
lanjut ke langkah 4. 4.
Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.
4a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke
langkah 4b. 4b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika
root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama
dengan awalan pertama algoritma berhenti. 5.
Melakukan Recoding. 6.
Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.
2.2.1.4. Text Frequency dan Pembobotan
Semakin banyak kata yang mirip atau sama antara dua dokumen maka semakin dekat kedua dokumen tersebut dan akan memiliki bobot
atau nilai yang lebih tinggi Manning,2008. Pemberian bobot atau nilai akan menggunakan teknik TFIDFterm frequency inverse document
frequency . TF adalah jumlah kemunculan suatu kata dalam sebuah
dokumen, sedangkan IDF adalah inverse dari banyanknya dokumen dimana suatu term tersebut muncul.
Rumus Pembobotan Saton1983:
Wt,d = tft,d idft = tft,d logNnt 2.1
Keterangan: a.
Wt,d = bobot dari termkata t dalam dokumen d. b.
Tft,d = frekuensi kemunculan termkata t dalam dokumen d. c.
Idft = Inverse document frequency dari kata t. d.
N = jumlah seluruh dokumen. e.
Nt = jumlah dari dokumen training yang mengandung kata t.
2.3. Klasifikasi Teks