2.4 Text Mining
Text Mining diartikan sebagai penambangan data berupa teks yang bersumber dari dokumen untuk mencari kata-kata yang merupakan perwakilan isi atau pembentuk
dokumen teks sehingga penganalisisan dapat dilakukan. Berikut ini merupakan tahapan umum pada proses Text Mining, yaitu
Nugroho, 2011: 1.
Text Preprocessing, yaitu pemrosesan awal yang ditujukan untuk membentuk teks menjadi data siap olah pada proses selanjutnya.
a. Case Folding, yaitu pengubahan seluruh karakter yang merupakan huruf
kapital menjadi huruf kecil. b.
Filtering, yaitu pengambilan kata-kata yang penting sesuai dengan kondisi yang diinginkan.
c. Tokenizing, yaitu tahap pemecahan kalimat yang di-input berdasarkan kata
yang menyusunnya, biasanya dipisah oleh karakter whitespace. 2.
Text Transformation, yaitu pembentukan teks yang mengacu pada proses untuk mendapatkan representasi dokumen yang sesuai.
a. Stemming, yaitu pencarian kata dasar dari setiap kata hasil tokenizing.
b. Synonym Recognition, yaitu pengubahan kata yang memiliki makna yang
sama dengan penulisan berbeda. 3.
Feature Selection, yaitu pengurangan dimensi teks sehingga nantinya akan dihasilkan kata-kata yang merupakan dasar dari isi teks.
4. Pattern Discovery, yaitu penemuan pola atau pengetahuan dari keseluruhan
teks.
2.5 Algoritma Manber
Algoritma Manber merupakan salah satu dari tiga algoritma yang menggunakan fingerprint dalam proses penyelesaian permasalahannya, selain algoritma Winnowing
dan Rabin-Karp. Penggunaan fingerprint ini ditujukan agar dapat mengidentifikasi penjiplakan termasuk bagian-bagian kecil yang mirip dalam dokumen pada dokumen
dengan jumlah kata yang cukup banyak Purwitasari, et al. 2009.
Universitas Sumatera Utara
Setiap algoritma memiliki penyelesaian permasalahan yang berbeda, namun algoritma Manber dan Winnowing memiliki langkah penyelesaian yang hampir sama.
Adapun perbedaan algoritma Manber dari algoritma Winnowing adalah sebagai berikut Kurniawati Wicaksana, 2008:
1. Jumlah langkah yang lebih sedikit sehingga waktu pemrosesan dokumen
menjadi lebih cepat. 2.
Tidak memberikan informasi dimana posisi fingerprint berada. 3.
Pemilihan fingerprint yang berbeda. Pada Algoritma Manber, f ingerprint
dipilih dari setiap nilai hash yang memenuhi persyaratan H mod P = 0, di mana H adalah nilai hash dan P adalah nilai pembagi yang digunakan,
sementara pada Algoritma Winnowing dipilih nilai hash minimum dalam setiap window.
Adapun secara singkat, konsep dasar algoritma Manber dimulai dari tahap awal baik penghapusan noise dan whitespace hingga hasil akhirnya berupa persentase
adalah : 1.
Penghapusan noise dan whitespace. 2.
Pembentukan rangkaian gram dengan panjang N karakter. 3.
Penghitungan nilai hash dari setiap gram menggunakan fungsi hash. 4.
Pemilihan beberapa nilai hash menjadi fingerprint dokumen. 5.
Menentukan persentase kemiripan antar dokumen menggunakan persamaan Jaccard Coefficient.
2.5.1 Penghapusan Noise Whitespace
Banyak algoritma atau metode yang dapat digunakan untuk mendeteksi kemiripan dokumen teks. Ada beberapa persyaratan yang harus dipenuhi oleh algoritma
pendeteksi kemiripan dokumen teks Pratama, 2012, yaitu: 1.
Whitespace Insensitivity, artinya dalam melakukan pendeteksian terhadap dokumen teks, algoritma tidak boleh dipengaruhi oleh spasi, jenis huruf
kapital atau normal, tanda baca dan sebagainya. Oleh sebab itu, dilakukan penghapusan terhadap karakter yang tidak relevan tersebut sehingga nantinya
hanya akan tersisa satu rangkaian yang terdiri atas huruf dan angka.
Universitas Sumatera Utara
2. Noise Surpression, artinya dalam melakukan pendeteksian, algoritma harus
dapat menghindari adanya kata yang tidak penting, misal: “di”, “ke”, dan
sebagainya. Panjang kata yang ditengarai harus cukup untuk membuktikan bahwa kata-kata tersebut telah dijiplak dan bukan merupakan kata yang umum
digunakan. 3.
Position Independence, artinya pendeteksian tidak boleh bergantung pada posisi kata sehingga apabila posisi kata berbeda maka pendeteksian tetap dapat
dilakukan.
2.5.2 Metode N-Gram
Algoritma yang menggunakan fingerprint seperti algoritma Manber memiliki satu metode utama yaitu metode N-Gram. Metode N-Gram merupakan metode yang
berfungsi untuk memecah kata ataupun kalimat menjadi sebuah rangkaian dengan panjang N karakter. Sebagai contoh :
“KEMEJA” Dengan menggunakan nilai N = 2, maka akan dihasilkan :
“KE”, “EM”, “ME”, “EJ”, “JA”
Metode N-Gram memunyai peran yang cukup penting karena merupakan langkah awal dalam proses pembentukan fingerprint. Dengan kata lain, metode N-
Gram memiliki pengaruh terbesar pertama pada hasil akhir yang dikeluarkan. Pengaruh dari nilai N pada metode N-Gram yaitu semakin kecil nilai N yang
digunakan akan semakin besar pula persentase yang dihasilkan nantinya. Namun, tidak selalu dengan menggunakan nilai N = 1, hasil yang didapatkan lebih baik.
Alasannya adalah jika kalimat terdiri dari huruf yang sama dengan kalimat bandingnya, maka akan menghasilkan persentase kemiripan sebesar 100. Sebagai
contoh : “RAMAH” : “R”,”A”,”M”,”H”
“MARAH” : “M”,”A”,”R”,”H”
Didapatkan 4 huruf yang sama, sehingga menghasilkan persentase sebesar 100. Oleh karena itu, penggunaan N-Gram harus disesuaikan dengan kondisi dari teks yang
akan diuji.
Universitas Sumatera Utara
2.5.3 Hash
Hash merupakan teknik untuk mengubah sebuah string menjadi nilai unik dengan panjang tertentu yang nantinya akan berfungsi sebagai penanda string tersebut
Pratama, et al. 2012 Hash terdiri dari dua elemen, yaitu fungsi hash dan nilai hash. Hubungan
kedua elemen tersebut adalah rangkaian gram yang dihasilkan dari proses N-Gram kemudian diolah menggunakan fungsi hash sehingga terbentuklah rangkaian nilai
hash yang nantinya akan dipilih menjadi fingerprint dokumen Purwitasari, et al. 2009.
Fungsi hash yang digunakan pada algoritma Manber adalah fungsi hash yang mengubah setiap karakter pada rangkaian string ke dalam bentuk kode ASCII dan
memrosesnya ke dalam persamaan 2.1 berikut :
k k
k k
c c
c b
c b
c b
c H
k
...
1 2
2 1
1 ...
1 1
2.1
Keterangan: H : nilai hash
c : nilai ASCII karakter b : basis bilangan prima
k : banyak karakter
2.5.4 Fingerprint Dokumen
Fingerprint dokumen adalah ciri khas yang terdapat pada sebuah dokumen teks. Ciri ini dapat dikatakan pula sebagai rangkaian pembentuk atau dasar dari dokumen
tersebut. Fingerprint berasal dari rangkaian nilai hash yang sudah memenuhi persyaratan.
Fingerprint merupakan tujuan pertama dari algoritma yang menggunakan fingerprint sebagai langkah penyelesaiannya. Masing-masing algoritma memiliki cara
yang berbeda dalam memilih fingerprint. Pada algoritma Manber, pemilihan fingerprint dilakukan dengan cara mengecek apakah nilai hash memenuhi persamaan
2.2 berikut:
Universitas Sumatera Utara
H Mod P = 0 2.2
Keterangan: H
: Nilai Hash, Mod : Modulo pembagian sisa,
P : Nilai Pembagi,
: Hasil pembagian sisa harus bernilai 0.
Ada tiga faktor yang mempengaruhi pemilihan fingerprint, yaitu : 1.
Nilai N pada metode N-Gram, perubahan panjang karakter yang terbentuk akan mengubah fingerprint yang dipilih.
2. Basis pada fungsi hash, tentunya perubahan basis akan mengubah nilai hash
yang dihasilkan serta fingerprint yang dipilih. 3.
Nilai pembagi pada persamaan 2.2. Perubahan pada nilai pembagi akan mengubah nilai hash yang akan dipilih menjadi fingerprint. Penggunaan nilai
pembagi ini harus disesuaikan dengan kondisi dokumen teks.
2.5.5 Persamaan Jaccard Coefficient
Persamaan Jaccard Coefficient merupakan persamaan yang digunakan untuk mengukur nilai similaritas atau kemiripan. Banyak hal yang dapat diukur nilai
similaritasnya, seperti similaritas dokumen teks. Oleh karena itu, persamaan ini diimplementasikan ke dalam algoritma Manber sebagai pengukur persentase
similaritas dokumen teks. Persamaan Jaccard Coefficient dapat ditulis sesuai dengan persamaan 2.3 berikut:
Similaritas d
i
,d
j
= 100
| |
| |
x d
w d
w d
w d
w
j i
j i
2.3 Keterangan:
1.
| |
j i
d w
d w
: Irisan fingerprint teks uji dengan teks banding, 2.
| |
j i
d w
d w
: Gabungan fingerprint teks uji dan teks banding, dan 3.
Similaritas d
i
,d
j
: Hasil bagi irisan dengan gabungan fingerprint yang dikalikan 100.
Universitas Sumatera Utara
2.6 Stemming