2.4
Text Mining
Text Mining
diartikan sebagai penambangan data berupa teks yang bersumber dari dokumen untuk mencari kata-kata yang merupakan perwakilan isi atau pembentuk
dokumen teks sehingga penganalisisan dapat dilakukan. Berikut ini merupakan tahapan umum pada proses
Text Mining
, yaitu Nugroho, 2011:
1.
Text P reprocessing
, yaitu pemrosesan awal yang ditujukan untuk membentuk teks menjadi data siap olah pada proses selanjutnya.
a.
Case F olding
, yaitu pengubahan seluruh karakter yang merupakan huruf kapital menjadi huruf kecil.
b.
F iltering
, yaitu pengambilan kata-kata yang penting sesuai dengan kondisi yang diinginkan.
c.
Tokenizing
, yaitu tahap pemecahan kalimat yang di-
input
berdasarkan kata yang menyusunnya, biasanya dipisah oleh karakter
whitespace
. 2.
Text Transformation
, yaitu pembentukan teks yang mengacu pada proses untuk mendapatkan representasi dokumen yang sesuai.
a.
Stemming
, yaitu pencarian kata dasar dari setiap kata hasil
tokenizing
. b.
Synonym Recognition
, yaitu pengubahan kata yang memiliki makna yang sama dengan penulisan berbeda.
3.
F eature Selection
, yaitu pengurangan dimensi teks sehingga nantinya akan dihasilkan kata-kata yang merupakan dasar dari isi teks.
4.
P attern Discovery
, yaitu penemuan pola atau pengetahuan dari keseluruhan teks.
2.5 Algoritma Manber
Algoritma
Manber
merupakan salah satu dari tiga algoritma yang menggunakan
fingerprint
dalam proses penyelesaian permasalahannya, selain algoritma
Winnowing
dan
Rabin-Karp
. Penggunaan
fingerprint
ini ditujukan agar dapat mengidentifikasi penjiplakan termasuk bagian-bagian kecil yang mirip dalam dokumen pada dokumen
dengan jumlah kata yang cukup banyak Purwitasari, et al. 2009.
Universitas Sumatera Utara
Setiap algoritma memiliki penyelesaian permasalahan yang berbeda, namun algoritma
Manber
dan
Winnowing
memiliki langkah penyelesaian yang hampir sama. Adapun perbedaan algoritma
Manber
dari algoritma
Winnowing
adalah sebagai berikut Kurniawati Wicaksana, 2008:
1. Jumlah langkah yang lebih sedikit sehingga waktu pemrosesan dokumen
menjadi lebih cepat. 2.
Tidak memberikan informasi dimana posisi
fingerprint
berada. 3.
Pemilihan
fingerprint
yang berbeda. Pada Algoritma
Manber
,
f ingerprint
dipilih dari setiap nilai
hash
yang memenuhi persyaratan H mod P = 0, di mana H adalah nilai
hash
dan P adalah nilai pembagi yang digunakan, sementara pada Algoritma
Winnowing
dipilih nilai
hash
minimum dalam setiap
window
.
Adapun secara singkat, konsep dasar algoritma
Manber
dimulai dari tahap awal baik penghapusan
noise
dan
whitespace
hingga hasil akhirnya berupa persentase adalah :
1. Penghapusan
noise
dan
whitespace
. 2.
Pembentukan rangkaian gram dengan panjang N karakter. 3.
Penghitungan nilai
hash
dari setiap gram menggunakan fungsi
hash
. 4.
Pemilihan beberapa nilai
hash
menjadi
fingerprint
dokumen. 5.
Menentukan persentase kemiripan antar dokumen menggunakan persamaan
Jaccard Coefficient
.
2.5.1 P enghapusan Noise Whitespace
Banyak algoritma atau metode yang dapat digunakan untuk mendeteksi kemiripan dokumen teks. Ada beberapa persyaratan yang harus dipenuhi oleh algoritma
pendeteksi kemiripan dokumen teks Pratama, 2012, yaitu:
1. Whitespace Insensitivity
, artinya dalam melakukan pendeteksian terhadap
dokumen teks, algoritma tidak boleh dipengaruhi oleh spasi, jenis huruf kapital atau normal, tanda baca dan sebagainya. Oleh sebab itu, dilakukan
penghapusan terhadap karakter yang tidak relevan tersebut sehingga nantinya hanya akan tersisa satu rangkaian yang terdiri atas huruf dan angka.
Universitas Sumatera Utara
2. Noise Surpression
, artinya dalam melakukan pendeteksian, algoritma harus
dapat menghindari adanya kata yang tidak penting, misal: “di”, “ke”, dan
sebagainya. Panjang kata yang ditengarai harus cukup untuk membuktikan bahwa kata-kata tersebut telah dijiplak dan bukan merupakan kata yang umum
digunakan.
3. P osition Independence
, artinya pendeteksian tidak boleh bergantung pada posisi kata sehingga apabila posisi kata berbeda maka pendeteksian tetap dapat
dilakukan.
2.5.2 Metode N-Gram
Algoritma yang menggunakan
fingerprint
seperti algoritma
Manber
memiliki satu metode utama yaitu metode N-Gram. Metode N-Gram merupakan metode yang
berfungsi untuk memecah kata ataupun kalimat menjadi sebuah rangkaian dengan panjang N karakter. Sebagai contoh :
“KEMEJA” Dengan menggunakan nilai N = 2, maka akan dihasilkan :
“KE”, “EM”, “ME”, “EJ”, “JA”
Metode N-Gram memunyai peran yang cukup penting karena merupakan langkah awal dalam proses pembentukan
fingerprint
. Dengan kata lain, metode N- Gram memiliki pengaruh terbesar pertama pada hasil akhir yang dikeluarkan.
Pengaruh dari nilai N pada metode N-Gram yaitu semakin kecil nilai N yang digunakan akan semakin besar pula persentase yang dihasilkan nantinya. Namun,
tidak selalu dengan menggunakan nilai N = 1, hasil yang didapatkan lebih baik. Alasannya adalah jika kalimat terdiri dari huruf yang sama dengan kalimat
bandingnya, maka akan menghasilkan persentase kemiripan sebesar 100. Sebagai contoh :
“RAMAH” : “R”,”A”,”M”,”H” “MARAH” : “M”,”A”,”R”,”H”
Didapatkan 4 huruf yang sama, sehingga menghasilkan persentase sebesar 100. Oleh karena itu, penggunaan N-Gram harus disesuaikan dengan kondisi dari teks yang
akan diuji.
Universitas Sumatera Utara
2.5.3 Hash
Hash
merupakan teknik untuk mengubah sebuah
string
menjadi nilai unik dengan panjang tertentu yang nantinya akan berfungsi sebagai penanda
string
tersebut Pratama, et al. 2012
Hash
terdiri dari dua elemen, yaitu fungsi
hash
dan nilai
hash
. Hubungan kedua elemen tersebut adalah rangkaian gram yang dihasilkan dari proses N-Gram
kemudian diolah menggunakan fungsi
hash
sehingga terbentuklah rangkaian nilai
hash
yang nantinya akan dipilih menjadi
fingerprint
dokumen Purwitasari, et al. 2009.
Fungsi
hash
yang digunakan pada algoritma
Manber
adalah fungsi
hash
yang mengubah setiap karakter pada rangkaian
string
ke dalam bentuk kode ASCII dan memrosesnya ke dalam persamaan 2.1 berikut :
k k
k k
c c
c b
c b
c b
c H
k
...
1 2
2 1
1 ...
1 1
2.1
Keterangan: H : nilai
hash
c : nilai ASCII karakter b : basis bilangan prima
k : banyak karakter
2.5.4 F ingerprint Dokumen
F ingerprint
dokumen adalah ciri khas yang terdapat pada sebuah dokumen teks. Ciri
ini dapat dikatakan pula sebagai rangkaian pembentuk atau dasar dari dokumen tersebut.
F ingerprint
berasal dari rangkaian nilai
hash
yang sudah memenuhi persyaratan.
F ingerprint
merupakan tujuan pertama dari algoritma yang menggunakan
fingerprint
sebagai langkah penyelesaiannya. Masing-masing algoritma memiliki cara yang berbeda dalam memilih
fingerprint
. Pada algoritma
Manber
, pemilihan
fingerprint
dilakukan dengan cara mengecek apakah nilai
hash
memenuhi persamaan 2.2 berikut:
Universitas Sumatera Utara
H Mod P = 0 2.2
Keterangan: H
: Nilai
Hash
, Mod : Modulo pembagian sisa,
P : Nilai Pembagi,
: Hasil pembagian sisa harus bernilai 0.
Ada tiga faktor yang mempengaruhi pemilihan
fingerprint
, yaitu : 1.
Nilai N pada metode N-Gram, perubahan panjang karakter yang terbentuk akan mengubah
fingerprint
yang dipilih. 2.
Basis pada fungsi
hash
, tentunya perubahan basis akan mengubah nilai
hash
yang dihasilkan serta
fingerprint
yang dipilih. 3.
Nilai pembagi pada persamaan 2.2. Perubahan pada nilai pembagi akan mengubah nilai
hash
yang akan dipilih menjadi
fingerprint
. Penggunaan nilai pembagi ini harus disesuaikan dengan kondisi dokumen teks.
2.5.5 P ersamaan Jaccard Coefficient
Persamaan
Jaccard Coefficient
merupakan persamaan yang digunakan untuk mengukur nilai similaritas atau kemiripan. Banyak hal yang dapat diukur nilai
similaritasnya, seperti similaritas dokumen teks. Oleh karena itu, persamaan ini diimplementasikan ke dalam algoritma
Manber
sebagai pengukur persentase similaritas dokumen teks. Persamaan
Jaccard Coefficient
dapat ditulis sesuai dengan persamaan 2.3 berikut:
Similaritas d
i
,d
j
= 100
| |
| |
x d
w d
w d
w d
w
j i
j i
2.3 Keterangan:
1.
| |
j i
d w
d w
: Irisan
fingerprint
teks uji dengan teks banding, 2.
| |
j i
d w
d w
: Gabungan
fingerprint
teks uji dan teks banding, dan 3.
Similaritas d
i
,d
j
: Hasil bagi irisan dengan gabungan
fingerprint
yang dikalikan 100.
Universitas Sumatera Utara
2.6
Stemming
Stemming
adalah teknik pencarian kata dasar dari setiap kata hasil
tokenizing
. Di dalam bahasa Indonesia,
stemming
digunakan untuk menghilangkan bubuhan yang melekat pada kata dasar baik imbuhan awalan, akhiran, sisipan, partikel, dan kata
ganti orang. Sebagai contoh : “mempermainkannya” = “mem” + ”per” + “main” + “kan” + “nya”
Kata “mempermainkannya” merupakan hasil gabungan dari : 1.
Satu kata dasar
root word
: “main” 2.
Dua imbuhan awal prefiks : “mem” dan “per”
3. Satu imbuhan akhir sufiks
: “kan” 4.
Satu kata ganti orang
possessive pronoun
: “nya”
Stemming
lebih susah diimplementasikan ke dalam teks berbahasa Indonesia karena bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen Triawati,
2009. Banyak penelitian mengenai teknik
stemming
, salah satunya adalah
Stemming P orter
yang akan digunakan pada penelitian ini. Secara singkat langkah penyelesaian pada
Stemming P orter
adalah sebagai berikut: 1.
Menghapus partikel, 2.
Menghapus kata ganti
possessive pronoun
, 3.
Menghapus awalan pertama. Jika tidak ditemukan, maka lanjut ke langkah 4a, dan jika ada, maka lanjut ke langkah 4b,
4. a. Menghapus awalan kedua, dan dilanjutkan pada langkah 5a,
b. Menghapus akhiran, jika tidak ditemukan, maka kata diasumsikan sebagai kata dasar. Jika ditemukan lanjut ke langkah 5b,
5. a. Menghapus akhiran dan kata akhir diasumsikan sebagai kata dasar.
b. Menghapus awalan kedua dan kata akhir diasumsikan sebagai kata dasar.
Pendeteksian kemiripan dokumen sangat bergantung pada proses
stemming
, artinya jika proses
stemming
tidak berjalan dengan baik, maka hasil yang didapatkan juga tidak akan sesuai. Oleh karena itu,
stemming
menjadi salah satu kunci untuk mendapatkan hasil deteksi kemiripan dokumen teks yang akurat.
Universitas Sumatera Utara
2.7
Synonym Recognition
Synonym Recognition
atau pengenalan kata bersinonim adalah teknik yang digunakan untuk mengenali kata dengan penulisan berbeda namun memiliki makna yang sama.
Teknik penjiplakan dokumen teks tidak lepas dari penggunaan kata bersinonim sehingga dokumen teks hasil penjiplakan berbeda secara penulisan dari dokumen teks
aslinya meskipun makna yang dihasilkan tetaplah sama. Jenis penjiplakan tersebut dapat digolongkan ke dalam
Disguised P lagiarism
dan
Technical Disguise
. Jenis penjiplakan ini sangat sulit dideteksi oleh sistem yang tidak mengimplementasikan
teknik
Synonym Recognition
. Di dalam bahasa Indonesia, hampir setiap kata memiliki sinonim, tentu hal ini
semakin menyulitkan pendeteksian. Apabila sistem penyimpan kata hanya memiliki sedikit kata bersinonim, maka semakin kecil pula keakuratan pendeteksian. Hal ini
juga dipersulit dengan adanya penulisan kata bersinonim yang sama meskipun maknanya berbeda, serta sinonim kata yang menggunakan imbuhan.
Synonym Recognition
merupakan kunci kedua terpenting setelah
stemming
. Hal ini diakibatkan karena banyaknya kata sinonim yang berasal dari kata dasar,
meskipun beberapa sinonim kata memang memiliki imbuhan. Apabila proses
stemming
tidak berjalan dengan baik, maka pengenalan kata bersinonim juga menjadi tidak sesuai, dan berdampak pada berkurangnya keakuratan pendeteksian.
2.8 Penelitian Terdahulu