PERBANDINGAN HASIL DETEKSI KEMIRIPAN TOPIK SKRIPSI DENGANMENGGUNAKAN METODE N-GRAM DAN EKSPANSI Perbandingan Hasil Deteksi Kemiripan Topik Skripsi Dengan Menggunakan Metode N-Gram Dan Ekspansi Kueri.
PERBANDINGAN HASIL DETEKSI KEMIRIPAN TOPIK SKRIPSI DENGAN
MENGGUNAKAN METODE N-GRAM DAN EKSPANSI
KUERI
Disusun oleh :
Dwi iswanto
L200100014
Pembimbing :
Husni Thamrin
PROGRAM STUDI INFORMATIKA
FAKULTAS KOMUNIKASI DAN INFORMATIKA
UNIVERSITAS MUHAMMADIYAH SURAKARTA
2014
PERBANDINGAN HASIL DETEKSI KEMIRIPAN TOPIK SKRIPSI DENGAN
MENGGUNAKAN METODE N-GRAM DAN EKSPANSI
KUERI
Dwi iswanto, Husni Thamrin
Informatika, Fakultas Komunikasi dan Informatika
Universitas Muhammadiyah Surakarta
E-mail : dwiiswanto1@gmail.com
ABSTRAKSI
Perbandingan deteksi kemiripan topik skripsi antara metode N-gram dan ekspansi
kueri pada penelitian ini diartikan sebagai aplikasi pendeteksi skripsi berbasis web dengan
menerapkan metode pencarian seperti metode N-gram dan ekspansi kueri lalu melakukan
perbandingan di antara ke dua metode tersebut.
Meskipun Topik skripsi mahasiswa S1 tidak harus orsinil, namun naskah skripsi
dari tiap mahasiswa harus berbeda dan tidak mengandung duplikasi atau unsur plagiasi . Oleh
karena
itu
diperlukan
pengecekan/pemeriksaan
terhadap
dokumen
skripsi
apakah
mengandung kesamaan isi. Bagi petugas pekerjaan memeriksa kesamaan / kemiripan topik
skripsi merupakan pekerjaan berat dan memakan waktu., oleh karena itu dilakukan upaya
penyusunan program yang dapat melakukan sebuah proses deteksi kemiripan antar topiktopik skripsi tersebut.
Tujuan dari penelitian ini, membangun sistem deteksi kemiripan topik skripsi
dengan menerapkan metode pencarian yang mampu mendeteksi kemiripan dokumen skripsi,
seperti N-gram dan ekspansi kueri.
Beberapa software yang digunakan, yaitu sistem operasi Windows 8, XAMPP versi
1.8.2 yang mendukung web server Aphace, database MySQL dan Bahasa pemrograman PHP,
Sublime text 3 sebagai code editor, browser Google Chrome 34.0 yang telah mendukung
HTML 5.
Hasil ahir dari penelitian telah terbukti bahwa metode N-gram dan ekspansi kueri
mampu memberikan hasil deteksi kemiripan dan memberikan hasil berbeda di masing-masing
metode yang di terapkan. Pemberian bobot di masing-masing metode akan sangat
berpengaruh pada hasil pencarian. Penentuan batas skor minimal menentukan
ukuran
kemiripan dari setiap metode, ekspansi kueri memiliki hasil lebih baik di banding N-gram
dalam deteksi kemiripan.
Kata kunci : Metode N-gram, metode ekspansi kueri, deteksi kemiripan, topik skripsi,
hasil temu
TINJAUAN PUSTAKA
PENDAHULUAN
Skripsi adalah karangan ilmiah
Dalam penelitian ini ada beberapa
yang wajib ditulis oleh mahasiswa sebagai
pengertian - pengertian yang perlu dikaji.
bagian dari persyaratan akhir pendidikan
Beberapa kajian tersebut adalah sebagai
akademisnya
berikut:
(KBBI,
2001).
Pada
kenyataan saat ini jumlah topik skripsi
Sugianto (2013) menyatakan dalam
yang dibuat semakin banyak. Topik skripsi
penelitianya bahwa Proses dimulai dengan
satu dengan yang lainnya, bisa jadi akan
memecah
serupa baik dari segi topik dan maksud
mengelompokkannya
yang akan di sampaikan.
language model. Kemudian, dilakukan
kata
per
kata
sesuai
dan
dengan
Meskipun Topik skripsi mahasiswa
proses scoring untuk menentukan kata
S1 tidak harus orsinil, namun naskah
mana yang sesuai untuk menjadi pilihan
skripsi dari tiap mahasiswa harus berbeda
prediksi kata. Hasil pengujian metode N-
dan tidak mengandung duplikasi atau
gram sebagai metode dasar dalam proses
unsur plagiasi . Oleh karena itu diperlukan
prediksi sangatlah membantu pemilahan
pengecekan
kata, sehingga proses prediksi menjadi
/
pemeriksaan
dokumen skripsi
terhadap
apakah mengandung
lebih
efektif,
mampu
menghasilkan
kesamaan isi. Bagi petugas pekerjaan
prediksi efektif di atas 20% dari total
memeriksa kesamaan / kemiripan topik
prediksi yang terjadi. Selain dari pada
skripsi merupakan pekerjaan berat dan
metode N-gram sendiri, pengaturan bobot
memakan
itu
untuk masing-masing score kata juga
Dilakukan upaya penyusunan program
sangat mempengaruhi proses prediksi kata.
yang dapat melakukan sebuah proses
Nanang (2014) dalam penelitianya
deteksi kemiripan antar topik-topik skripsi
berpendapat ekspansi kueri merupakan
tersebut.
upaya penambahan kata atau kosa kata
waktu.
Oleh
karena
Setelah mempelajari hal tersebut,
dengan makna yang sama dari kata kunci
peneliti akan merancang dan membangun
yang di gunakan. Hal ini penting di
aplikasi untuk mendeteksi kemiripan topik
lakukan
skripsi
meningkatkan jumlah dan relevansi hasil
dengan
ekspansi kueri.
metode
N-gram
dan
Hal ini diharapkan
kesulitan dalam mengetahui kesamaan
topik skripsi akan dapat di atasi
dengan
tujuan
untuk
temu kembali dokumen ilmiah.
Menurut Rusidi (2008) bahwa salah
satu cara temu kembali informasi adalah
mengimplementasikan dan mengevaluasi
kinerja dari Automatic Query Expansion
(AQE)
dengan
metode
conditional
METODE
Penulis menggunakan metode Observasi
probability dalam sistem temu kembali
dan Eksperimen
informasi probabilistic model. Pemilihan
Adapun tahapan penelitian dapat dilihat
dan pembobotan istilah kueri ekspansi
pada Gambar 1
dalam penelitian ini.
menggunakan nilai conditional probability.
Pengujian
dilakukan
dengan
Mulai
memperhatikan term dan jumlah term yang
ditambahkan sebagai
membandingkan
kueri, kemudian
hasil
nilai
Pengumpulan Data
rata-rata
precision yang dihasilkan pada setiap
tingkat recall dengan hasil metode lain
Merancang Design &
Membangun Web
yang telah diteliti sebelumnya. Selain itu,
dilakukan perbandingan hasil pada setiap
Membuat N-gram
&Ekspansi Queri
pengujian berdasarkan nilai threshold yang
digunakan. Jumlah term ekspansi yang
diujikan di antaranya addterm 2, addterm
Menggunggah data
Skripsi
4, addterm 5, addterm 6, addterm 8, dan
addterm
10.
Jumlah
dokumen
yang
digunakan dalam pengujian sistem ini
sebanyak 700 dokumen dengan 30 kueri
beserta gugus jawabannya.
Pengujian
N-gram
&Ekspansi
Queri
Laporan
Selesai
Gambar 1 Diagram alir penelitian
Perbaikan
a.
salah satu metode yang digunakan
Mulai
Penelitian
perbandingan
hasil
untuk mencari kemiripan topik. Proses
deteksi kemiripan dokumen skripsi
kerja
antara metode N-gram dan ekspansi
beberapa potongan N karakter dari
kueri dalam pengerjaanya di lakukan
sebuah
string.
beberapa tahap. tahap pertama, yaitu
kueri
merupakan
pengumpulan
skripsi
mencocokan kata satu dengan kata atau
informatika UMS, dari sumber skripsi
kosakata lainnya yang memiliki arti
terdahulu
atau makna serupa. Diharapkan dari
dokumen
yang
nantinya
akan
di
gunakan dalam basis data program.
N-gram
adanya
adalah
memotong
Sedangkan
ekspansi
cara
pertimbangan
untuk
persamaan
makna, maka relevansi hasil pencarian
b. Pengumpulan Data
akan lebih tinggi (Elian, 2010).
Tahap kedua yaitu di lanjutkan
dengan langkah untuk Mendesign dan
membangun web pencarian deteksi
kemiripan skripsi. Pertama Tampilan di
d. Opload
dokumen
skripsi
dan
Pengujian
design dengan menggunakan Photoshop
Tahap
keempat
mulai
lalu di ubah Ke HTML dan CSS untuk
menyiapkan data dokumen skripsi
mendapatkan hasil tampilan yang lebih
berupa Judul, abstrak dan diskripsi
rapi dan lebih baik penulis mengcoding
yang akan digunakan untuk simulasi
tampilan
pencarian kemiripan dokumen, setelah
web
dengan
bantuan
framework CSS boostrap.
itu data dokumen skripsi ini akan di
c. Membuat N-gram & Ekspansi Queri
unggah pada admin web. Dokumen
Tahap ketiga yaitu membuat
skripsi akan diuji dengan memasukan
web sistem dengan metode N-gram dan
kata kunci pada form pencarian judul
menggabungkan dengan Ekspansi kueri
dan
, sebagai metode yang akan di gunakan
pendeteksian di ujikan, lalu hasil
dalam
pencarian
kueri mendeteksi kemiripan
diskripsi.
kedua
pendeteksian
metode
yang
dokumen di database. Pemeriksaan
ditampilkan sudah menemukan hasil
dokumen skripsi
kemiripan yang lebih tinggi, dengan
metode
pencarian
dilakukan dengan
yang
mampu
demikian perancangan web pendeteksi
mendeteksi kemiripan topik, seperti N-
kemiripan dan perbandingan antar
gram dan ekspansi kueri. Menurut
kedua metode tersebut sudah selesai.
Sugiono (2013), metode N-gram adalah
1. Diagram Alir (Flowchart) N-gram
Dengan dibuatnya sistem pendeteksi
skripsi dengan metode N-gram ini
diharapkan akan mampu mendapatkan
Keterangan Flowchart N-gram:
a. Memasukan Diskrpsi
Memasukan kata kunci berupa
diskripsi
pada
kolom
pencarian
deteksi hasil temu yang lebih baik dan
dengan tujuan untuk mencari dan
relevan pada pencarianya:
menemukan skripsi yang sama sesuai
diskripsi yang di input.
Mulai
b. Membuat N-gram Deskripsi
Setelah kata kunci diskripsi
Masukan Diskripsi
dimasukkan,
menjadi
diskripsi
di
partisi
kata
yang
telah
per
dipisahkan menggunakan spasi. Hasil
Membuat
N-Gram Deskripsi
per
kata
tersebut
kemudian
dikombinasikan menjadi rankaian kata
Mengambil data deskripsi +
abstaraksi dari database
Membuat N-gram data
Dari database
yang terdiri dari 3 kata. Skema
rangkaian kata dapat di umpamakan
sebagai berikut :
Kata 1 – kata 2 – kata 3
Kata 2 – kata 3 – kata 4
Menghitung Jumlah Ngram yang cocok antara
input dan database
Kata 3 – kata 4 – kata 5
Dan seterusnya.
c. Mengambil data deskripsi + abstraksi
Memberi bobot kata dari
database
dari database
Setelah melakukan proses Ngram, hasil N-gram tersebut kemudian
Menampilkan Hasil
Temuan berdasarkan
bobot Tertinggi
di kueri ke dalam database untuk
menemukan data yang cocok.
d. Membuat N-gram data dari database
Selesai
Data hasil kueri pada langkah C
kemudian di partisi seperti pada
Gambar 2 Flowchart N-gram
langkah
b
untuk
mengasilkan
rangkaian kata berupa N-gram.
e. Menghitung jumlah N-gram yang cocok
antara input dan database
2. Diagram Alir (Flowchart)
Ekspansi
Kueri
Hasil N-gram input kemudian di
cocokkan dengan N-gram keluaran dari
database.
Jika
N-gram
tersebut
ditemukan sama, maka diberikan bobot
nilai pada skripsi. Pada pemberian nilai
pembobotan di hitung berdasarkan Ngram Hasil masukkan dan N-gram
keluaran kata yang sama, yang di mana
pada judul jika di ditemukan N-gram
kata yang sama akan di beri nilai 3
(tiga) , pada diskripsi bernilai 1 (satu)
dihitung
dan
kemudian disimpan pada temporary
Tabel.
Proses
ini
berulang-ulang
banyaknya
akan
dilakukan
sejumlah
dengan
hasil
N-gram
yang
dicocokkan
g. Menampilkan hasil
Langkah
terakhir
adalah
melakukan join Tabel antara temporary
Tabel bobot dengan Tabel skripsi sesuai
dengan id_skripsi yang berhasil di index
sesuai pada temporary Tabel bobot.
Hasil join Tabel inilah yang kemudian
ditampilkan ke browser. Skripsi yang di
tampilkan
berdasarkan
nilai
bobot
paling tinggi akan di tampilkan paling
atas
secara
pencarian.
berurutan
pada
dokumen
skripsi
kemiripan
dirancang
dan
dibangun dengan tujuan membantu
mahasiswa UMS teknik informatika
untuk memudahkan mencari refrensi
topik skripsi dan mengcek apakah
skripsi yang ingin di buat memiliki
kesamaan
dengan
skripsi
yang
terdahulu. Selain itu, metode ekspansi
kueri yang diterapkan pada sistem
dapat
f. Memberi bobot kata dari database
tersebut
pendeteksi
pendeteksi kemiripan ini diharapkan
dan pada abstraksi bernilai 1 (satu).
Bobot
Sistem
hasil
membantu
menemukan
pengguna
skripsi
yang
untuk
relevan
sesuai dengan kata kunci yang telah di
inputkan. Alur ekspansi kueri
Keterangan :
Mulai
a) Memasukkan kata kunci.
Kata kunci diperlukan untuk
Masukkan Judul
menemukan
diperlukan
Mempartisi
Judul
Menghilangkan
Stop Word
data
dari
skripsi
sistem
yang
deteksi
kemiripan untuk mencari makna lain
yang serupa untuk dijadikan sebagai
alternatif kata kunci.
b) Mempartisi kata kunci.
Split diartikan dengan mengurai
Menyimpan Kata Kunci
Tanpa
kalimat dari kata kunci menjadi
beberapa kata yang berdiri sendiri.
Menambahkan
c) Membuang stop word.
Hasil
uraian
kata
tersebut
kemudian dicocokkan dengan basis
Menyimpan Kata Kunci dan
Sinonimnya
data stop word. Database stop word
ini menyimpan data kata-kata umum
Mencari Dokumen Skripsil yang
sesuai dengan kata kunci
yang sering muncul pada sebuah
kalimat yang dianggap tidak memiliki
makna, seperti yang, di, me, dan
Memberi bobot
Hasil Temu Informasi
lainnya.
d) Menyimpan kata kunci tanpa stop
word.
Menampilkan Hasil
Temuan Diurutkan dari
Bobot Terbanyak
Jika kata kunci ditemukan ada
yang sama dengan stop word, maka
kata
tersebut
diabaikan.
Namun
apabila kata tersebut tidak sama
Selesai
Gambar 3 Flowchart Ekspansi Kueri
dengan stop word, maka kata tersebut
akan disimpan kedalam variabel baru.
e) Menambahkan
sinonim
dari
kata
kunci.
Variabel baru yang terbentuk
selanjutnya akan digunakan untuk
mencari sinonim/persamaan kata dan
menambahkan
sinonim
ke
dalam
penghitungan judul, diskripsi
daftar kata kunci baru.
f) Menyimpan kata kunci dan sinonim ke
abstraksi
kemudian
dan
dijumlahkan.
maka akan ditemukan nilai bobot pada
dalam variable.
Jika
pada setiap kata yang sama. Hasil
tidak
ditemukan
skripsi
tersebut.
Demikin
juga
sinonim dari kata kunci, maka kata
dilakukan pada data skripsi lainnya
kunci tersebut akan disimpan kedalam
yang berhasil dikueri dengan kata
variabel. Namun apabila ditemukan
kunci yang sama.
ada sinonim dari kata kunci, maka
kata kunci dan sinonimnya akan
i) Menampilkan
hasil
kueri
urut
berdasarkan bobot terbanyak.
disimpan kedalam variabel, sehingga
Hasil pemberian bobot tersebut
didalam variabel ini akan ditemukan
kemudian join dengan Tabel skripsi
kata kunci beserta sinonimnya.
yang selanjutnya ditampilkan urut
berdasarkan bobot terbanyak kepada
g) Mencari Dokumen Skripsi.
Langkah
selanjutnya
yaitu
pengguna
melakukan kueri ke dalam basis data
skripsi menggunakan beberapa kata
HASIL PENGUJIAN
kunci yang didalamnya mengandung
a. Pengujian jumlah hasil temu
kata
kunci
sebenarnya
dan
juga
sinonim dari kata kunci.
Pada langkah ini akan dilakukan
penghitungan kata yang sama pada
judul skripsi dan abstraksi skripsi
dengan kata kunci yang dimasukkan
kemudian
akan
mengujikan
kemiripan topik skripsi penulis juga
h) Memberi bobot pada hasil kueri.
yang
Selain
dilakukan
perhitungan dengan asumsi sebagai
berikut :
Apabila di dalam judul skripsi terdapat
1 kata yang sama dengan kata kunci,
maka akan diberikan bobot 2 pada
setiap kata yang sama, namun jika
ditemukan kata kunci pada abstraksi
skripsi, maka akan diberikan bobot 1
mengujikan jumlah hasil temu antara
metode N-gram dan ekspansi kueri
guna untuk melihat seberapa banyak
data yang di temukan di masingmasing metode tersebut.
Tabel 1.1 Pengujian jumlah hasil temu N-gram
No
N-gram
Jumlah Hasil
Temu
Chart Jumlah hasil temu
250
1
Data Uji skripsi 1
39
2
Data Uji skripsi 2
137
3
Data Uji skripsi 3
139
4
Data Uji skripsi 3
150
5
Data Uji skripsi 4
144
6
Data Uji skripsi 5
125
7
Data Uji skripsi 6
142
8
Data Uji skripsi 7
158
9
Data Uji skripsi 9
152
Gambar 4 Grafik Pengujian Jumlah hasil
10
Data Uji skripsi 10
167
temu N-gram dan ekspansi kueri
200
150
100
50
0
Tabel 1.2 Pengujian jumlah hasil temu ekspansi kueri
No
Ekspansi Kueri
Uji
Uji
Uji
Uji
Uji
Uji
Uji
Uji
Uji
Uji
skripsi 1 skripsi 2 skripsi 3 skripsi 4 skripsi 5 skripsi 6 skripsi 7 skripsi 8 skripsi 9 skripsi
10
N-gram
Eskpansi kueri
Dari data tabel 1.1 dan tabel 1.2 yang
Jumlah Hasil Temu
di hasilkan antara metode N-gram dan
1
Data Uji skripsi 1
202
ekspansi kueri terlihat masing-masing
2
Data Uji skripsi 2
217
metode memiliki hasil yang berbeda.
3
Data Uji skripsi 3
217
Metode
4
Data Uji skripsi 3
217
5
Data Uji skripsi 4
217
6
Data Uji skripsi 5
217
7
Data Uji skripsi 6
217
8
Data Uji skripsi 7
217
9
Data Uji skripsi 9
217
10
Data Uji skripsi 10
209
N-gram
rata-rata
mampu
menampilkan data hasil temu rata-rata
sebanyak 100
dan ekspansi kueri dapat
menampilkan data hasil temu rata-rata
sebanyak 200 dari total data pada basis
data sebanyak 227 skripsi.
b. Pengujian kemiripan skripsi
Chart N-gram
Berdasarkan hasil data Uji metode
N-gram diperoleh sebanyak 33 data
hasil.
Berikut
adalah
data
Tabel
5
4
4
perbandingan tersebut dapat dilihat pada
3
tabel 2.1 dan tabel 2.2
2
3
Data
3
Mirip
1
Data Uji skripsi 1
0
3
2
Data Uji skripsi 2
0
4
3
Data Uji skripsi 3
0
3
4
Data Uji skripsi 3
0
2
5
Data Uji skripsi 4
0
2
2
2 2
2 2
1
0
Tidak
mirip
4
3
2
Tabel 2.1 Data hasil uji kemiripan N-gram
No
4
0
0
0
0
0
0
0
0
skripsi 1 skripsi 2 skripsi 3 skripsi 4 skripsi 5 skripsi 6 skripsi 7 skripsi 8 skripsi 9 skripsi
10
Mirip
Tidak Mirip
Gambar 5.1 Grafik Pengujian kemiripan N-gram
Ekspansi Kueri
7
6
6
5
6
Data Uji skripsi 5
0
4
5
5
4
4
7
Data Uji skripsi 6
0
4
8
Data Uji skripsi 7
2
2
3
3
3
3
3
3
2
2
2 2
2
1
1
9
Data Uji skripsi 9
2
2
10
Data Uji skripsi 10
0
3
0
0
0
0
0
skripsi 1 skripsi 2 skripsi 3 skripsi 4 skripsi 5 skripsi 6 skripsi 7 skripsi 8 skripsi 9 skripsi
10
Mirip
Tabel 2.2 Data hasil uji kemiripan ekspansi kueri
No
Data
Mirip
Tidak mirip
0
0
Tidak Mirip
Gambar 5.2 grafik Pengujian kemiripan Ekspansi
kueri
Dari hasil pengujian di atas terlihat
1
Data Uji skripsi 1
0
5
2
Data Uji skripsi 2
0
6
3
Data Uji skripsi 3
0
3
4
Data Uji skripsi 3
0
5
5
Data Uji skripsi 4
0
3
6
Data Uji skripsi 5
1
4
7
Data Uji skripsi 6
0
3
sebanyak 8 data yang diduga mirip dari 44
8
Data Uji skripsi 7
2
3
data koleksi.
9
Data Uji skripsi 9
3
2
10
Data Uji skripsi 10
2
2
perbedaan hasil yang di hasilkan N-gram
dan
ekspansi
kueri
dalam
pengujian
kemiripan. Terlihat pada hasil pengujian
data di atas, N-gram menangkap 4 data
yang diduga mirip dari 33 data koleksi
sedangkan
ekspansi
kueri
menangkap
c. Menentukan Batas skor minimal
Menentukan Batas skor bertujuan
untuk mencari berapa bobot tertinggi data
yang dinyatakan tidak mirip dari hasil
didapatkan lebih dari 9 (Sembilan) dan
pengujian yang telah dilakukan
kurang dari angka score tersebut
Tabel 3.1 Data batas skor minimal tidak mirip N-gram
No
Bobot tertinggi data
Data Uji
akan
dinyatakan tidak mirip.
Untuk Ekspansi kueri terlihat pada
tidak mirip
Tabel 3.2 bisa disimpulkan juga bahwa
1
Data uji 1
5
hasil pencarian akan dinyatakan mirip jika
2
Data uji 2
7
dokumen memiliki bobot skor lebih dari 61
3
Data uji 3
8
(enam satu) dan kurang dari itu akan
4
Data uji 4
11
5
Data uji 5
6
6
Data uji 6
5
7
Data uji 7
14
8
Data uji 8
14
Kesimpulan dari penelitian yang
9
Data uji 9
11
telah dilaksanakan penulis sebagai berikut:
10
Data uji 10
10
1. Dari penelitian yang dilakukan telah
Nilai Rata-Rata
9
Tabel 3.2 Data batas skor minimal tidak mirip
Ekspansi kueri
dinyatakan tidak mirip.
KESIMPULAN
terbukti bahwa metode N-gram dan
ekspansi kueri mampu mendeteksi
kemiripan skripsi.
No
Data Uji
Bobot tertinggi data tidak
mirip
1
Data uji 1
98
memberikan hasil berbeda di masing-
2
Data uji 2
44
masing metode yang di terapkan.
3
Data uji 3
50
4
Data uji 4
40
5
Data uji 5
57
6
Data uji 6
49
7
Data uji 7
78
8
Data uji 8
33
menentukan
9
Data uji 9
64
masing-masing metode.
10
Data uji 10
97
61
Nilai Rata-Rata
2. Metode N-gram dan ekspansi kueri
3. Pemberian bobot pada masing-masing
metode akan sangat berpengaruh pada
hasil pencarian.
4. Penentuan
batas
skor
minimal
ukuran kemiripan dari
5. Ekspansi kueri memiliki hasil lebih
baik di banding N-gram dalam deteksi
kemiripan.
Dari hasil pengujian dan diperoleh
data seperti pada Tabel 3.1 bisa di
simpulkan bahwa hasil pencarian dokumen
dari N-gram akan dinyatakan mirip, jika
nilai
bobot
skor
hasil
pencarian
DAFTAR PUSTAKA
Departemen Pendidikan dan kubudayaan/Pusat Bahasa. 2001. Kamus Besar
Bahasa indonesia (Edisi ke-3). Jakarta: Balai Pustaka.
Peranginangin, 2006, Aplikasi Web dengan PHP dan MySQL. Edisi ke-1.
Yogyakarta.
Elian, RR 2010, ‘Aplikasi Sistem Temu Kembali Informasi Menggunakan Model
Ruang Vektor Berbasis Web’, Tugas Akhir, UNIKOM, Bandung.
Sugianto 2013, ‘Pembuatan aplikasi predictive text menggunakan metode Ngram-based’, Tugas Akhir, Universitas Kristen Petra, Surabaya.
Nugroho, Bunafit., 2005, Pengembangan Pemrogram WAP dan PHP, Gaya Media,
Yogyakarta.
Rusidi 2008, ‘Ekspansi Kueri Dalam Sistem Temu Kembali Informas bebahasa
Indonesia Menggunakan Peluang Bersyarat’, Tugas Akhir, IPB, Bogor.
Nanang 2014 ‘perancangan portal dokumen ilmiah dengan fasilitas pencarian
yang menerapkan ekspansi kueri’, Tugas Akhir, UMS, Surakarta
MENGGUNAKAN METODE N-GRAM DAN EKSPANSI
KUERI
Disusun oleh :
Dwi iswanto
L200100014
Pembimbing :
Husni Thamrin
PROGRAM STUDI INFORMATIKA
FAKULTAS KOMUNIKASI DAN INFORMATIKA
UNIVERSITAS MUHAMMADIYAH SURAKARTA
2014
PERBANDINGAN HASIL DETEKSI KEMIRIPAN TOPIK SKRIPSI DENGAN
MENGGUNAKAN METODE N-GRAM DAN EKSPANSI
KUERI
Dwi iswanto, Husni Thamrin
Informatika, Fakultas Komunikasi dan Informatika
Universitas Muhammadiyah Surakarta
E-mail : dwiiswanto1@gmail.com
ABSTRAKSI
Perbandingan deteksi kemiripan topik skripsi antara metode N-gram dan ekspansi
kueri pada penelitian ini diartikan sebagai aplikasi pendeteksi skripsi berbasis web dengan
menerapkan metode pencarian seperti metode N-gram dan ekspansi kueri lalu melakukan
perbandingan di antara ke dua metode tersebut.
Meskipun Topik skripsi mahasiswa S1 tidak harus orsinil, namun naskah skripsi
dari tiap mahasiswa harus berbeda dan tidak mengandung duplikasi atau unsur plagiasi . Oleh
karena
itu
diperlukan
pengecekan/pemeriksaan
terhadap
dokumen
skripsi
apakah
mengandung kesamaan isi. Bagi petugas pekerjaan memeriksa kesamaan / kemiripan topik
skripsi merupakan pekerjaan berat dan memakan waktu., oleh karena itu dilakukan upaya
penyusunan program yang dapat melakukan sebuah proses deteksi kemiripan antar topiktopik skripsi tersebut.
Tujuan dari penelitian ini, membangun sistem deteksi kemiripan topik skripsi
dengan menerapkan metode pencarian yang mampu mendeteksi kemiripan dokumen skripsi,
seperti N-gram dan ekspansi kueri.
Beberapa software yang digunakan, yaitu sistem operasi Windows 8, XAMPP versi
1.8.2 yang mendukung web server Aphace, database MySQL dan Bahasa pemrograman PHP,
Sublime text 3 sebagai code editor, browser Google Chrome 34.0 yang telah mendukung
HTML 5.
Hasil ahir dari penelitian telah terbukti bahwa metode N-gram dan ekspansi kueri
mampu memberikan hasil deteksi kemiripan dan memberikan hasil berbeda di masing-masing
metode yang di terapkan. Pemberian bobot di masing-masing metode akan sangat
berpengaruh pada hasil pencarian. Penentuan batas skor minimal menentukan
ukuran
kemiripan dari setiap metode, ekspansi kueri memiliki hasil lebih baik di banding N-gram
dalam deteksi kemiripan.
Kata kunci : Metode N-gram, metode ekspansi kueri, deteksi kemiripan, topik skripsi,
hasil temu
TINJAUAN PUSTAKA
PENDAHULUAN
Skripsi adalah karangan ilmiah
Dalam penelitian ini ada beberapa
yang wajib ditulis oleh mahasiswa sebagai
pengertian - pengertian yang perlu dikaji.
bagian dari persyaratan akhir pendidikan
Beberapa kajian tersebut adalah sebagai
akademisnya
berikut:
(KBBI,
2001).
Pada
kenyataan saat ini jumlah topik skripsi
Sugianto (2013) menyatakan dalam
yang dibuat semakin banyak. Topik skripsi
penelitianya bahwa Proses dimulai dengan
satu dengan yang lainnya, bisa jadi akan
memecah
serupa baik dari segi topik dan maksud
mengelompokkannya
yang akan di sampaikan.
language model. Kemudian, dilakukan
kata
per
kata
sesuai
dan
dengan
Meskipun Topik skripsi mahasiswa
proses scoring untuk menentukan kata
S1 tidak harus orsinil, namun naskah
mana yang sesuai untuk menjadi pilihan
skripsi dari tiap mahasiswa harus berbeda
prediksi kata. Hasil pengujian metode N-
dan tidak mengandung duplikasi atau
gram sebagai metode dasar dalam proses
unsur plagiasi . Oleh karena itu diperlukan
prediksi sangatlah membantu pemilahan
pengecekan
kata, sehingga proses prediksi menjadi
/
pemeriksaan
dokumen skripsi
terhadap
apakah mengandung
lebih
efektif,
mampu
menghasilkan
kesamaan isi. Bagi petugas pekerjaan
prediksi efektif di atas 20% dari total
memeriksa kesamaan / kemiripan topik
prediksi yang terjadi. Selain dari pada
skripsi merupakan pekerjaan berat dan
metode N-gram sendiri, pengaturan bobot
memakan
itu
untuk masing-masing score kata juga
Dilakukan upaya penyusunan program
sangat mempengaruhi proses prediksi kata.
yang dapat melakukan sebuah proses
Nanang (2014) dalam penelitianya
deteksi kemiripan antar topik-topik skripsi
berpendapat ekspansi kueri merupakan
tersebut.
upaya penambahan kata atau kosa kata
waktu.
Oleh
karena
Setelah mempelajari hal tersebut,
dengan makna yang sama dari kata kunci
peneliti akan merancang dan membangun
yang di gunakan. Hal ini penting di
aplikasi untuk mendeteksi kemiripan topik
lakukan
skripsi
meningkatkan jumlah dan relevansi hasil
dengan
ekspansi kueri.
metode
N-gram
dan
Hal ini diharapkan
kesulitan dalam mengetahui kesamaan
topik skripsi akan dapat di atasi
dengan
tujuan
untuk
temu kembali dokumen ilmiah.
Menurut Rusidi (2008) bahwa salah
satu cara temu kembali informasi adalah
mengimplementasikan dan mengevaluasi
kinerja dari Automatic Query Expansion
(AQE)
dengan
metode
conditional
METODE
Penulis menggunakan metode Observasi
probability dalam sistem temu kembali
dan Eksperimen
informasi probabilistic model. Pemilihan
Adapun tahapan penelitian dapat dilihat
dan pembobotan istilah kueri ekspansi
pada Gambar 1
dalam penelitian ini.
menggunakan nilai conditional probability.
Pengujian
dilakukan
dengan
Mulai
memperhatikan term dan jumlah term yang
ditambahkan sebagai
membandingkan
kueri, kemudian
hasil
nilai
Pengumpulan Data
rata-rata
precision yang dihasilkan pada setiap
tingkat recall dengan hasil metode lain
Merancang Design &
Membangun Web
yang telah diteliti sebelumnya. Selain itu,
dilakukan perbandingan hasil pada setiap
Membuat N-gram
&Ekspansi Queri
pengujian berdasarkan nilai threshold yang
digunakan. Jumlah term ekspansi yang
diujikan di antaranya addterm 2, addterm
Menggunggah data
Skripsi
4, addterm 5, addterm 6, addterm 8, dan
addterm
10.
Jumlah
dokumen
yang
digunakan dalam pengujian sistem ini
sebanyak 700 dokumen dengan 30 kueri
beserta gugus jawabannya.
Pengujian
N-gram
&Ekspansi
Queri
Laporan
Selesai
Gambar 1 Diagram alir penelitian
Perbaikan
a.
salah satu metode yang digunakan
Mulai
Penelitian
perbandingan
hasil
untuk mencari kemiripan topik. Proses
deteksi kemiripan dokumen skripsi
kerja
antara metode N-gram dan ekspansi
beberapa potongan N karakter dari
kueri dalam pengerjaanya di lakukan
sebuah
string.
beberapa tahap. tahap pertama, yaitu
kueri
merupakan
pengumpulan
skripsi
mencocokan kata satu dengan kata atau
informatika UMS, dari sumber skripsi
kosakata lainnya yang memiliki arti
terdahulu
atau makna serupa. Diharapkan dari
dokumen
yang
nantinya
akan
di
gunakan dalam basis data program.
N-gram
adanya
adalah
memotong
Sedangkan
ekspansi
cara
pertimbangan
untuk
persamaan
makna, maka relevansi hasil pencarian
b. Pengumpulan Data
akan lebih tinggi (Elian, 2010).
Tahap kedua yaitu di lanjutkan
dengan langkah untuk Mendesign dan
membangun web pencarian deteksi
kemiripan skripsi. Pertama Tampilan di
d. Opload
dokumen
skripsi
dan
Pengujian
design dengan menggunakan Photoshop
Tahap
keempat
mulai
lalu di ubah Ke HTML dan CSS untuk
menyiapkan data dokumen skripsi
mendapatkan hasil tampilan yang lebih
berupa Judul, abstrak dan diskripsi
rapi dan lebih baik penulis mengcoding
yang akan digunakan untuk simulasi
tampilan
pencarian kemiripan dokumen, setelah
web
dengan
bantuan
framework CSS boostrap.
itu data dokumen skripsi ini akan di
c. Membuat N-gram & Ekspansi Queri
unggah pada admin web. Dokumen
Tahap ketiga yaitu membuat
skripsi akan diuji dengan memasukan
web sistem dengan metode N-gram dan
kata kunci pada form pencarian judul
menggabungkan dengan Ekspansi kueri
dan
, sebagai metode yang akan di gunakan
pendeteksian di ujikan, lalu hasil
dalam
pencarian
kueri mendeteksi kemiripan
diskripsi.
kedua
pendeteksian
metode
yang
dokumen di database. Pemeriksaan
ditampilkan sudah menemukan hasil
dokumen skripsi
kemiripan yang lebih tinggi, dengan
metode
pencarian
dilakukan dengan
yang
mampu
demikian perancangan web pendeteksi
mendeteksi kemiripan topik, seperti N-
kemiripan dan perbandingan antar
gram dan ekspansi kueri. Menurut
kedua metode tersebut sudah selesai.
Sugiono (2013), metode N-gram adalah
1. Diagram Alir (Flowchart) N-gram
Dengan dibuatnya sistem pendeteksi
skripsi dengan metode N-gram ini
diharapkan akan mampu mendapatkan
Keterangan Flowchart N-gram:
a. Memasukan Diskrpsi
Memasukan kata kunci berupa
diskripsi
pada
kolom
pencarian
deteksi hasil temu yang lebih baik dan
dengan tujuan untuk mencari dan
relevan pada pencarianya:
menemukan skripsi yang sama sesuai
diskripsi yang di input.
Mulai
b. Membuat N-gram Deskripsi
Setelah kata kunci diskripsi
Masukan Diskripsi
dimasukkan,
menjadi
diskripsi
di
partisi
kata
yang
telah
per
dipisahkan menggunakan spasi. Hasil
Membuat
N-Gram Deskripsi
per
kata
tersebut
kemudian
dikombinasikan menjadi rankaian kata
Mengambil data deskripsi +
abstaraksi dari database
Membuat N-gram data
Dari database
yang terdiri dari 3 kata. Skema
rangkaian kata dapat di umpamakan
sebagai berikut :
Kata 1 – kata 2 – kata 3
Kata 2 – kata 3 – kata 4
Menghitung Jumlah Ngram yang cocok antara
input dan database
Kata 3 – kata 4 – kata 5
Dan seterusnya.
c. Mengambil data deskripsi + abstraksi
Memberi bobot kata dari
database
dari database
Setelah melakukan proses Ngram, hasil N-gram tersebut kemudian
Menampilkan Hasil
Temuan berdasarkan
bobot Tertinggi
di kueri ke dalam database untuk
menemukan data yang cocok.
d. Membuat N-gram data dari database
Selesai
Data hasil kueri pada langkah C
kemudian di partisi seperti pada
Gambar 2 Flowchart N-gram
langkah
b
untuk
mengasilkan
rangkaian kata berupa N-gram.
e. Menghitung jumlah N-gram yang cocok
antara input dan database
2. Diagram Alir (Flowchart)
Ekspansi
Kueri
Hasil N-gram input kemudian di
cocokkan dengan N-gram keluaran dari
database.
Jika
N-gram
tersebut
ditemukan sama, maka diberikan bobot
nilai pada skripsi. Pada pemberian nilai
pembobotan di hitung berdasarkan Ngram Hasil masukkan dan N-gram
keluaran kata yang sama, yang di mana
pada judul jika di ditemukan N-gram
kata yang sama akan di beri nilai 3
(tiga) , pada diskripsi bernilai 1 (satu)
dihitung
dan
kemudian disimpan pada temporary
Tabel.
Proses
ini
berulang-ulang
banyaknya
akan
dilakukan
sejumlah
dengan
hasil
N-gram
yang
dicocokkan
g. Menampilkan hasil
Langkah
terakhir
adalah
melakukan join Tabel antara temporary
Tabel bobot dengan Tabel skripsi sesuai
dengan id_skripsi yang berhasil di index
sesuai pada temporary Tabel bobot.
Hasil join Tabel inilah yang kemudian
ditampilkan ke browser. Skripsi yang di
tampilkan
berdasarkan
nilai
bobot
paling tinggi akan di tampilkan paling
atas
secara
pencarian.
berurutan
pada
dokumen
skripsi
kemiripan
dirancang
dan
dibangun dengan tujuan membantu
mahasiswa UMS teknik informatika
untuk memudahkan mencari refrensi
topik skripsi dan mengcek apakah
skripsi yang ingin di buat memiliki
kesamaan
dengan
skripsi
yang
terdahulu. Selain itu, metode ekspansi
kueri yang diterapkan pada sistem
dapat
f. Memberi bobot kata dari database
tersebut
pendeteksi
pendeteksi kemiripan ini diharapkan
dan pada abstraksi bernilai 1 (satu).
Bobot
Sistem
hasil
membantu
menemukan
pengguna
skripsi
yang
untuk
relevan
sesuai dengan kata kunci yang telah di
inputkan. Alur ekspansi kueri
Keterangan :
Mulai
a) Memasukkan kata kunci.
Kata kunci diperlukan untuk
Masukkan Judul
menemukan
diperlukan
Mempartisi
Judul
Menghilangkan
Stop Word
data
dari
skripsi
sistem
yang
deteksi
kemiripan untuk mencari makna lain
yang serupa untuk dijadikan sebagai
alternatif kata kunci.
b) Mempartisi kata kunci.
Split diartikan dengan mengurai
Menyimpan Kata Kunci
Tanpa
kalimat dari kata kunci menjadi
beberapa kata yang berdiri sendiri.
Menambahkan
c) Membuang stop word.
Hasil
uraian
kata
tersebut
kemudian dicocokkan dengan basis
Menyimpan Kata Kunci dan
Sinonimnya
data stop word. Database stop word
ini menyimpan data kata-kata umum
Mencari Dokumen Skripsil yang
sesuai dengan kata kunci
yang sering muncul pada sebuah
kalimat yang dianggap tidak memiliki
makna, seperti yang, di, me, dan
Memberi bobot
Hasil Temu Informasi
lainnya.
d) Menyimpan kata kunci tanpa stop
word.
Menampilkan Hasil
Temuan Diurutkan dari
Bobot Terbanyak
Jika kata kunci ditemukan ada
yang sama dengan stop word, maka
kata
tersebut
diabaikan.
Namun
apabila kata tersebut tidak sama
Selesai
Gambar 3 Flowchart Ekspansi Kueri
dengan stop word, maka kata tersebut
akan disimpan kedalam variabel baru.
e) Menambahkan
sinonim
dari
kata
kunci.
Variabel baru yang terbentuk
selanjutnya akan digunakan untuk
mencari sinonim/persamaan kata dan
menambahkan
sinonim
ke
dalam
penghitungan judul, diskripsi
daftar kata kunci baru.
f) Menyimpan kata kunci dan sinonim ke
abstraksi
kemudian
dan
dijumlahkan.
maka akan ditemukan nilai bobot pada
dalam variable.
Jika
pada setiap kata yang sama. Hasil
tidak
ditemukan
skripsi
tersebut.
Demikin
juga
sinonim dari kata kunci, maka kata
dilakukan pada data skripsi lainnya
kunci tersebut akan disimpan kedalam
yang berhasil dikueri dengan kata
variabel. Namun apabila ditemukan
kunci yang sama.
ada sinonim dari kata kunci, maka
kata kunci dan sinonimnya akan
i) Menampilkan
hasil
kueri
urut
berdasarkan bobot terbanyak.
disimpan kedalam variabel, sehingga
Hasil pemberian bobot tersebut
didalam variabel ini akan ditemukan
kemudian join dengan Tabel skripsi
kata kunci beserta sinonimnya.
yang selanjutnya ditampilkan urut
berdasarkan bobot terbanyak kepada
g) Mencari Dokumen Skripsi.
Langkah
selanjutnya
yaitu
pengguna
melakukan kueri ke dalam basis data
skripsi menggunakan beberapa kata
HASIL PENGUJIAN
kunci yang didalamnya mengandung
a. Pengujian jumlah hasil temu
kata
kunci
sebenarnya
dan
juga
sinonim dari kata kunci.
Pada langkah ini akan dilakukan
penghitungan kata yang sama pada
judul skripsi dan abstraksi skripsi
dengan kata kunci yang dimasukkan
kemudian
akan
mengujikan
kemiripan topik skripsi penulis juga
h) Memberi bobot pada hasil kueri.
yang
Selain
dilakukan
perhitungan dengan asumsi sebagai
berikut :
Apabila di dalam judul skripsi terdapat
1 kata yang sama dengan kata kunci,
maka akan diberikan bobot 2 pada
setiap kata yang sama, namun jika
ditemukan kata kunci pada abstraksi
skripsi, maka akan diberikan bobot 1
mengujikan jumlah hasil temu antara
metode N-gram dan ekspansi kueri
guna untuk melihat seberapa banyak
data yang di temukan di masingmasing metode tersebut.
Tabel 1.1 Pengujian jumlah hasil temu N-gram
No
N-gram
Jumlah Hasil
Temu
Chart Jumlah hasil temu
250
1
Data Uji skripsi 1
39
2
Data Uji skripsi 2
137
3
Data Uji skripsi 3
139
4
Data Uji skripsi 3
150
5
Data Uji skripsi 4
144
6
Data Uji skripsi 5
125
7
Data Uji skripsi 6
142
8
Data Uji skripsi 7
158
9
Data Uji skripsi 9
152
Gambar 4 Grafik Pengujian Jumlah hasil
10
Data Uji skripsi 10
167
temu N-gram dan ekspansi kueri
200
150
100
50
0
Tabel 1.2 Pengujian jumlah hasil temu ekspansi kueri
No
Ekspansi Kueri
Uji
Uji
Uji
Uji
Uji
Uji
Uji
Uji
Uji
Uji
skripsi 1 skripsi 2 skripsi 3 skripsi 4 skripsi 5 skripsi 6 skripsi 7 skripsi 8 skripsi 9 skripsi
10
N-gram
Eskpansi kueri
Dari data tabel 1.1 dan tabel 1.2 yang
Jumlah Hasil Temu
di hasilkan antara metode N-gram dan
1
Data Uji skripsi 1
202
ekspansi kueri terlihat masing-masing
2
Data Uji skripsi 2
217
metode memiliki hasil yang berbeda.
3
Data Uji skripsi 3
217
Metode
4
Data Uji skripsi 3
217
5
Data Uji skripsi 4
217
6
Data Uji skripsi 5
217
7
Data Uji skripsi 6
217
8
Data Uji skripsi 7
217
9
Data Uji skripsi 9
217
10
Data Uji skripsi 10
209
N-gram
rata-rata
mampu
menampilkan data hasil temu rata-rata
sebanyak 100
dan ekspansi kueri dapat
menampilkan data hasil temu rata-rata
sebanyak 200 dari total data pada basis
data sebanyak 227 skripsi.
b. Pengujian kemiripan skripsi
Chart N-gram
Berdasarkan hasil data Uji metode
N-gram diperoleh sebanyak 33 data
hasil.
Berikut
adalah
data
Tabel
5
4
4
perbandingan tersebut dapat dilihat pada
3
tabel 2.1 dan tabel 2.2
2
3
Data
3
Mirip
1
Data Uji skripsi 1
0
3
2
Data Uji skripsi 2
0
4
3
Data Uji skripsi 3
0
3
4
Data Uji skripsi 3
0
2
5
Data Uji skripsi 4
0
2
2
2 2
2 2
1
0
Tidak
mirip
4
3
2
Tabel 2.1 Data hasil uji kemiripan N-gram
No
4
0
0
0
0
0
0
0
0
skripsi 1 skripsi 2 skripsi 3 skripsi 4 skripsi 5 skripsi 6 skripsi 7 skripsi 8 skripsi 9 skripsi
10
Mirip
Tidak Mirip
Gambar 5.1 Grafik Pengujian kemiripan N-gram
Ekspansi Kueri
7
6
6
5
6
Data Uji skripsi 5
0
4
5
5
4
4
7
Data Uji skripsi 6
0
4
8
Data Uji skripsi 7
2
2
3
3
3
3
3
3
2
2
2 2
2
1
1
9
Data Uji skripsi 9
2
2
10
Data Uji skripsi 10
0
3
0
0
0
0
0
skripsi 1 skripsi 2 skripsi 3 skripsi 4 skripsi 5 skripsi 6 skripsi 7 skripsi 8 skripsi 9 skripsi
10
Mirip
Tabel 2.2 Data hasil uji kemiripan ekspansi kueri
No
Data
Mirip
Tidak mirip
0
0
Tidak Mirip
Gambar 5.2 grafik Pengujian kemiripan Ekspansi
kueri
Dari hasil pengujian di atas terlihat
1
Data Uji skripsi 1
0
5
2
Data Uji skripsi 2
0
6
3
Data Uji skripsi 3
0
3
4
Data Uji skripsi 3
0
5
5
Data Uji skripsi 4
0
3
6
Data Uji skripsi 5
1
4
7
Data Uji skripsi 6
0
3
sebanyak 8 data yang diduga mirip dari 44
8
Data Uji skripsi 7
2
3
data koleksi.
9
Data Uji skripsi 9
3
2
10
Data Uji skripsi 10
2
2
perbedaan hasil yang di hasilkan N-gram
dan
ekspansi
kueri
dalam
pengujian
kemiripan. Terlihat pada hasil pengujian
data di atas, N-gram menangkap 4 data
yang diduga mirip dari 33 data koleksi
sedangkan
ekspansi
kueri
menangkap
c. Menentukan Batas skor minimal
Menentukan Batas skor bertujuan
untuk mencari berapa bobot tertinggi data
yang dinyatakan tidak mirip dari hasil
didapatkan lebih dari 9 (Sembilan) dan
pengujian yang telah dilakukan
kurang dari angka score tersebut
Tabel 3.1 Data batas skor minimal tidak mirip N-gram
No
Bobot tertinggi data
Data Uji
akan
dinyatakan tidak mirip.
Untuk Ekspansi kueri terlihat pada
tidak mirip
Tabel 3.2 bisa disimpulkan juga bahwa
1
Data uji 1
5
hasil pencarian akan dinyatakan mirip jika
2
Data uji 2
7
dokumen memiliki bobot skor lebih dari 61
3
Data uji 3
8
(enam satu) dan kurang dari itu akan
4
Data uji 4
11
5
Data uji 5
6
6
Data uji 6
5
7
Data uji 7
14
8
Data uji 8
14
Kesimpulan dari penelitian yang
9
Data uji 9
11
telah dilaksanakan penulis sebagai berikut:
10
Data uji 10
10
1. Dari penelitian yang dilakukan telah
Nilai Rata-Rata
9
Tabel 3.2 Data batas skor minimal tidak mirip
Ekspansi kueri
dinyatakan tidak mirip.
KESIMPULAN
terbukti bahwa metode N-gram dan
ekspansi kueri mampu mendeteksi
kemiripan skripsi.
No
Data Uji
Bobot tertinggi data tidak
mirip
1
Data uji 1
98
memberikan hasil berbeda di masing-
2
Data uji 2
44
masing metode yang di terapkan.
3
Data uji 3
50
4
Data uji 4
40
5
Data uji 5
57
6
Data uji 6
49
7
Data uji 7
78
8
Data uji 8
33
menentukan
9
Data uji 9
64
masing-masing metode.
10
Data uji 10
97
61
Nilai Rata-Rata
2. Metode N-gram dan ekspansi kueri
3. Pemberian bobot pada masing-masing
metode akan sangat berpengaruh pada
hasil pencarian.
4. Penentuan
batas
skor
minimal
ukuran kemiripan dari
5. Ekspansi kueri memiliki hasil lebih
baik di banding N-gram dalam deteksi
kemiripan.
Dari hasil pengujian dan diperoleh
data seperti pada Tabel 3.1 bisa di
simpulkan bahwa hasil pencarian dokumen
dari N-gram akan dinyatakan mirip, jika
nilai
bobot
skor
hasil
pencarian
DAFTAR PUSTAKA
Departemen Pendidikan dan kubudayaan/Pusat Bahasa. 2001. Kamus Besar
Bahasa indonesia (Edisi ke-3). Jakarta: Balai Pustaka.
Peranginangin, 2006, Aplikasi Web dengan PHP dan MySQL. Edisi ke-1.
Yogyakarta.
Elian, RR 2010, ‘Aplikasi Sistem Temu Kembali Informasi Menggunakan Model
Ruang Vektor Berbasis Web’, Tugas Akhir, UNIKOM, Bandung.
Sugianto 2013, ‘Pembuatan aplikasi predictive text menggunakan metode Ngram-based’, Tugas Akhir, Universitas Kristen Petra, Surabaya.
Nugroho, Bunafit., 2005, Pengembangan Pemrogram WAP dan PHP, Gaya Media,
Yogyakarta.
Rusidi 2008, ‘Ekspansi Kueri Dalam Sistem Temu Kembali Informas bebahasa
Indonesia Menggunakan Peluang Bersyarat’, Tugas Akhir, IPB, Bogor.
Nanang 2014 ‘perancangan portal dokumen ilmiah dengan fasilitas pencarian
yang menerapkan ekspansi kueri’, Tugas Akhir, UMS, Surakarta