Sistem Pencarian Turunan Kata pada Al-Quran Menggunakan Light Stemming dan Clustering untuk Pembicara Bahasa Indonesia

SISTEM PENCARIAN TURUNAN KATA PADA AL-QURAN
MENGGUNAKAN LIGHT STEMMING DAN CLUSTERING
UNTUK PEMBICARA BAHASA INDONESIA

GALIH KENANG AVIANTO

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Sistem Pencarian
Turunan Kata pada Al-Quran Menggunakan Light Stemming dan Clustering untuk
Pembicara Bahasa Indonesia adalah benar karya saya dengan arahan dari komisi
pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi
mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan
maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan
dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juli 2013
Galih Kenang Avianto
NIM G64090011

ABSTRAK
GALIH KENANG AVIANTO. Sistem Pencarian Turunan Kata pada Al-Quran
Menggunakan Light Stemming dan Clustering untuk Pembicara Bahasa Indonesia.
Dibimbing oleh AHMAD RIDHA.
Pencarian topik pada Al-Quran dengan identifikasi akar kata sulit dilakukan
bagi orang yang tidak memahami morfologi bahasa Arab. Light stemming
merupakan metode ekstraksi stem yang dapat menggantikan posisi akar kata
dalam pencarian topik. Namun, metode tersebut tidak mampu menghilangkan
sisipan pada kata sehingga metode clustering diharapkan dapat menutupi
kekurangan tersebut. Penelitian ini bertujuan membangun sistem pencarian
turunan kata menggunakan light stemming dan clustering yang penulisan querynya telah disesuaikan untuk pembicara bahasa Indonesia. Terdapat dua jenis query
yang dapat diterima oleh sistem yang masing-masing berjumlah 30 yaitu, aksara
Latin dan aksara Arab. Pengukuran kualitas pencarian menggunakan Average
Precision (AVP), Mean Average Precision (MAP), dan Precision pada N

menunjukkan bahwa light stemming lebih baik dibanding clustering dengan nilai
AVP light stemming ialah 0.30, sedangkan clustering ialah 0.03 untuk jenis query
aksara Latin. Adapun untuk waktu pencarian, light stemming lebih baik dibanding
clustering pada jenis query aksara Arab.
Kata kunci: Al-Quran, clustering, light stemming, turunan kata

ABSTRACT
GALIH KENANG AVIANTO. Words Derivative Searching System in the Holy
Quran Using Light Stemming and Clustering for Indonesian Speaker. Supervised
by AHMAD RIDHA.
Topics searching in the Holy Quran using word derivative is difficult task
without arabic word morphology knowledge. Light stemming is stem extraction
method that can replaces word derivative plays in topics searching. However, this
method fail to removes infix so clustering method can be better hopefully. This
research aims to build word derivative searching system using light stemming and
clustering that appropriate with Indonesian speaker’s query. There are two types
of query that accepted by the system that have 30 queries in each: Latin and
Arabic script. Searching quality evaluation using Average Precision (AVP), Mean
Average Precision (MAP), and Precision at N shows that light stemming is better
than clustering with 0.30 AVP in light stemming and 0.03 AVP in clustering.

Whereas for running time, light stemming is four time faster than clustering at
Arabic script.
Key words: Clustering, Holy Quran, light stemming, word derivative

SISTEM PENCARIAN TURUNAN KATA PADA AL-QURAN
MENGGUNAKAN LIGHT STEMMING DAN CLUSTERING
UNTUK PEMBICARA BAHASA INDONESIA

GALIH KENANG AVIANTO

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Ilmu Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR

2013

Penguji: Sony Hartono Wijaya, M.Kom
Mushthofa, S.Kom, M.Sc

Judul Skripsi : Sistem Pencarian Turunan Kata pada Al-Quran Menggunakan
Light Stemming dan Clustering untuk Pembicara Bahasa Indonesia
Nama
: Galih Kenang Avianto
NIM
: G64090011

Disetujui oleh

Ahmad Ridha, SKom MS
Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom

Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah Subhanahu wata’ala atas
limpahan karunia dan rahmat sehingga karya ilmiah ini bisa diselesaikan. Selawat
dan salam semoga senantiasa tercurah kepada Nabi Muhammad
Shallallahu’alaihiwasallam beserta keluarga, sahabat, dan pengikutnya hingga
hari kiamat kelak. Penulis ingin menyampaikan ucapan terima kasih kepada pihak
yang telah membantu dalam penulisan karya ilmiah ini, yaitu:
1 Ibu, Ayah, dan Adik tercinta yang senantiasa mendoakan dan memberi
motivasi selama penulisan karya ilmiah.
2 Bapak Ahmad Ridha, SKom MS yang telah memberikan bimbingan, ide, dan
saran dalam penulisan karya ilmiah.
3 Bapak Sony Hartono Wijaya, MKom dan Bapak Mushthofa, SKom MSc yang
telah berkenan menjadi penguji.
4 Rekan satu bimbingan Ahmad Thoriq Abdul Aziz yang telah bersama-sama
berjuang menyelesaikan penulisan karya ilmiah.
5 Muhammad Ginanjar Ramadhan, Aditya Erlangga, dan Sapariansyah yang

telah bersedia meminjamkan komputer dan notebook. Semoga dapat menjadi
pemberat timbangan amal kalian.
6 Masyarakat internet yang telah memberikan solusi ringkas dalam penulisan
karya ilmiah ini.
Semoga karya ilmiah ini bermanfaat khususnya bagi umat Islam dan
masyarakat pada umumnya.

Bogor, Juli 2013
Galih Kenang Avianto

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN


vi

PENDAHULUAN

1

Latar Belakang

1

Perumusan Masalah

2

Tujuan Penelitian

2

Manfaat Penelitian


2

METODE

2

Gambaran Umum Sistem

2

Ekstraksi Stem

2

Pengelompokan Dokumen

4

Pemeringkatan Dokumen


4

Relevance Judgment

5

Pengukuran Kinerja

5

Implementasi

5

HASIL DAN PEMBAHASAN

5

Ekstraksi Stem Aksara Latin


5

Pembuatan Indeks

6

Pengelompokan Dokumen

7

Pemrosesan Query dan Pemeringkatan Dokumen

7

Pembentukan Koleksi Pengujian

9

Pengujian Sistem


9

SIMPULAN DAN SARAN

13

Simpulan

13

Saran

13

DAFTAR PUSTAKA

14

RIWAYAT HIDUP

32

LAMPIRAN

15

RIWAYAT HIDUP

32

DAFTAR TABEL
1 Nilai AVP, MAP, dan Precision pada Na untuk setiap metode
2 Perbandingan nilai AVP, MAP, dan Precision pada Na setiap query
3 Perbandingan waktu pencarian setiap jenis query setiap metodea

10
12
13

DAFTAR GAMBAR
1 Diagram alir pada sistem
2 Skema indeks dalam aksara Latin
3 Kurva recall-precision setiap jenis query setiap metode

3
8
11

DAFTAR LAMPIRAN
1
2
3
4
5
6
7
8
9
10
11

Ilustrasi tahapan stemming pada aksara Arab
Ilustrasi tahapan stemming pada aksara Latin
Cuplikan fail matriks kesamaan
Cuplikan fail indeks dokumen dan indeks cluster
Fail indeks aksara Arab
Fail indeks aksara Latin
Daftar koleksi pengujian
Nilai AVP per metode per jenis query
Nilai MAP per metode per jenis query
Nilai Precision pada N per metode per jenis query
Waktu pencarian per metode per jenis query

15
16
17
18
19
20
21
28
29
30
31

PENDAHULUAN
Latar Belakang
Al-Quran merupakan teks berbahasa Arab yang lebih dikenal oleh
masyarakat, khususnya umat Islam, dibandingkan teks berbahasa Arab lainnya.
Al-Quran merupakan rujukan utama umat Islam, namun belum banyak orang yang
secara menyeluruh memahami isi dari kitab suci tersebut. Salah satu penyebabnya
ialah pemahaman bahasa Arab yang kurang memadai.
Pencarian topik merupakan salah satu kegiatan yang menjadikan Al-Quran
sebagai acuan. Hal ini dapat dilakukan dengan terlebih dahulu mencari akar kata
bahasa Arab dari topik yang diinginkan pada konkordansi Al-Quran seperti Fath
Al-Rahman (Al-Baqiy [tahun tidak diketahui]). Setelah akar kata ditemukan,
barulah daftar surat dan ayat dari topik tersebut bisa didapatkan. Untuk
mengetahui akar kata dari sebuah topik, diperlukan pemahaman mengenai
morfologi kata bahasa Arab. Contohnya, kata ‫ خ ق كم‬yang merupakan terjemahan
untuk topik penciptaan, akar katanya adalah ‫خ ق‬. Jika akar kata tersebut
diidentifikasi dengan benar, maka pencarian pada konkordansi dimulai dengan
mencari akar kata yang diawali huruf , bukan huruf .
Stem merupakan turunan dari akar kata yang jika mendapatkan imbuhan
akan menjadi kata. Kata-kata dalam bahasa Arab memiliki makna yang sama
secara semantik jika dihasilkan dari akar kata yang sama (De Roeck dan Al-Fares
2000). Meskipun berbeda, stem bisa disetarakan dengan akar kata karena sifat
turunannya. Light stemming merupakan salah satu metode ekstraksi stem dari kata
beraksara Arab dengan menghilangkan awalan dan akhiran (Chen dan Gey 2002).
Kunci pencarian topik menggunakan konkordansi Fath Al-Rahman ialah
menemukan akar kata atau dapat dikatakan bahwa topik merupakan turunan dari
akar kata tersebut sehingga light stemming bisa digunakan sebagai pendekatan
untuk pencarian topik. Namun, metode ini memiliki kekurangan yaitu tidak
mampu menghilangkan sisipan pada sebuah kata sehingga kata akan dimasukkan
pada kelompok stem yang berbeda dengan kata tanpa sisipan.
Berbekal kekurangan tersebut, De Roeck dan Al-Fares (2000) telah
melakukan clustering pada dokumen berbahasa Arab dengan hasil yang cukup
memuaskan. Metode clustering yang digunakan juga mampu mengatasi sisipan
pada kata. Berdasarkan hal tersebut, diharapkan clustering akan lebih baik
dibandingkan light stemming.
Sistem yang serupa telah dibuat oleh Istiadi (2012) dengan menggunakan
kemiripan fonetis. Namun, sistem yang dibuat bukan ditujukan untuk pencarian
kata, melainkan ayat yang memiliki lafal sesuai dengan query yang dimasukkan
oleh pembicara bahasa Indonesia.
Oleh karena itu, pada penelitian ini dikembangkan sistem pencarian turunan
kata berbahasa Arab menggunakan light stemming dan clustering sekaligus
menguji unjuk kerja kedua metode tersebut. Penelitian ini juga menggunakan
aturan pengodean fonetis dari penelitian Istiadi (2012) karena aturan tersebut
dianggap mampu mengatasi variasi penulisan query dengan aksara Latin oleh
pembicara bahasa Indonesia.

2
Perumusan Masalah
Adapun rumusan masalah dalam penelitian ini ialah menentukan metode
yang lebih baik antara metode light stemming dan clustering dalam melakukan
pencarian turunan kata berbahasa Arab pada Al-Quran.

Tujuan Penelitian
Tujuan penelitian ini, yaitu:
1 Membangun sistem pencarian turunan kata berbahasa Arab pada Al-Quran
menggunakan light stemming dan clustering.
2 Mengembangkan metode light stemming untuk masukan aksara Latin.
3 Mengukur kinerja sistem pencarian turunan kata berbahasa Arab pada AlQuran menggunakan light stemming dan clustering.

Manfaat Penelitian
Penelitian ini diharapkan dapat memudahkan pengguna untuk menemukan
ayat-ayat terkait topik tertentu tanpa perlu mengidentifikasi akar kata dari topik
yang dicari sehingga orang awam yang tidak bisa membaca buku Fath Al-Rahman
bisa terbantu. Penelitian ini menggunakan teks Al-Quran sebagai corpus dan
query yang dimasukkan menggunakan bahasa Arab.

METODE
Gambaran Umum Sistem
Sistem terdiri atas 2 proses utama, yaitu proses offline dan proses online.
Proses offline meliputi stemming, pembuatan indeks, dan clustering dari teks AlQuran. Keseluruhan proses offline hanya dilakukan sekali. Proses online dimulai
dengan melakukan stemming pada query untuk metode light stemming atau
perhitungan nilai kesamaan query-dokumen untuk metode clustering, kemudian
dilakukan pemeringkatan pada hasil pencarian untuk setiap metode yang
digunakan. Alur sistem secara umum dapat dilihat pada Gambar 1.
Data teks Al-Quran sebagai corpus didapatkan dari bahan penelitian Istiadi
(2012) dengan format TXT yang diperoleh dari situs http://tanzil.net/download.
Data tersusun per baris yang menunjukkan ayat Al-Quran serta dilengkapi dengan
harakat, nomor surat, dan tanpa tanda berhenti di tengah ayat.

Ekstraksi Stem
Ekstraksi stem dilakukan pada teks Al-Quran dan query yang dimasukkan
oleh pengguna. Ekstraksi stem dilakukan untuk memperkecil ukuran indeks
dengan menghilangkan imbuhan (awalan dan akhiran). Tahapan esktraksi stem

3
pada teks Al-Quran dilakukan berdasarkan penelitian Chen dan Gey (2002)
dengan menggunakan light stemming. Sebelum dilakukan ekstraksi stem, teks AlQuran dilakukan praproses untuk meminimumkan data yang diolah (Chen dan
Gey 2002). Tahapan praproses meliputi hal sebagai berikut:
 menghilangkan harakat atau tanda baca,
 normalisasi huruf alif madd ( ‫ ) آ‬dan huruf alif hamzah ( ‫أ‬, ‫ ) إ‬menjadi huruf alif
(‫) ا‬,
 menghilangkan tasydid, dan
 mengganti akhiran berupa huruf alif maqsura ( ) dan huruf ha ( ) berturutturut dengan huruf ya ( ‫ ) ي‬dan huruf ta marbuthah ( ).
Setelah melalui tahap praproses, selanjutnya ialah menghilangkan awalan
dan akhiran dengan urutan sebagai berikut:
1 Jika kata terdiri atas minimal 5 karakter, 3 karakter pertama dihilangkan jika 3
karakter tersebut merupakan salah satu dari: ‫ ا‬, ‫ب‬, ‫ف‬, ‫ك‬, ‫ لل‬, ‫م‬, ‫اا‬, ‫س‬,
dan ‫ا‬.
2 Jika kata terdiri atas minimal 4 karakter, 2 karakter pertama dihilangkan jika 2
karakter tersebut merupakan salah satu dari: ‫ا‬, ‫ ا‬, ‫ب‬, ‫لل‬, , , , ‫ا‬, ‫سي‬, ‫ س‬,
‫ ي‬, , ‫ك‬, dan ‫ف‬.
3 Jika kata terdiri atas minimal 4 karakter dan diawali dengan , karakter awal
tersebut dihilangkan.
4 Jika kata terdiri atas minimal 4 karakter dan diawali dengan atau , karakter
atau
tersebut dihilangkan hanya jika setelah penghilangan karakter
tersebut stem yang dihasilkan terdapat dalam koleksi dokumen.
5 Secara rekursif akhiran yang terdiri atas 2 karakter dihilangkan dalam setiap
kemunculan jika kata terdiri atas minimal 4 karakter sebelum akhiran berikut
dihilangkan: ‫ه‬, ‫ي‬, ‫هم‬, ‫ن‬, ‫م‬, ‫ ا‬, ‫ي‬, ‫ني‬, ‫هن‬, ‫كم‬, ‫كن‬, ‫تم‬, ‫تن‬, ‫ين‬, ‫ا‬, ‫ا‬, dan .
6 Secara rekursif akhiran yang terdiri atas 1 karakter dihilangkan ( , , ‫ي‬, dan )
dalam setiap kemunculan jika kata terdiri atas minimal 3 karakter.

Gambar 1 Diagram alir pada sistem

4
Ilustrasi tahapan di atas untuk query aksara Arab ‫ خ ق كم‬dapat dilihat pada
Lampiran 1. Query tersebut terdiri atas akar kata ‫ خ ق‬dengan awalan (dan) serta
akhiran ‫( ن‬Kami) dan ‫( كم‬kamu). Pada ilustrasi ini, tahapan light stemming berhasil
menghasilkan stem yang sama dengan akar kata.
Tahapan ini diimplementasikan menggunakan bahasa pemrograman PHP
serta menggunakan fungsi ekspresi reguler dan pemrosesan string. Dokumen atau
ayat yang melalui tahapan light stemming berjumlah 6236 dokumen.
Pada query yang berupa aksara Latin, stem didapatkan dengan mengadopsi
metode light stemming. Contohnya, pada query “fasiquun”, akan menghasilkan
stem “fsq”. Hasil ekstraksi stem pada teks Al-Quran disimpan dalam fail TXT.
Indeks yang dibuat terdiri atas 2 bentuk, yaitu dalam aksara Arab dan aksara
Latin. Indeks dalam aksara Arab dibuat dengan membuat inverted index dari teks
Al-Quran hasil stemming. Informasi yang disimpan pada posting list berupa
nomor surat, nomor ayat, frekuensi kemunculan stem, dan posisi kemunculan
pertama stem pada dokumen.
Pembuatan indeks dalam aksara Latin serupa dengan indeks dalam aksara
Arab, namun term yang disimpan merupakan hasil pengodean fonetis berdasarkan
penelitian Istiadi (2012) dari term pada inverted index dalam aksara Arab. Untuk
menanggulangi penulisan query yang beragam, indeks trigram dibuat dari bagian
term pada inverted index.

Pengelompokan Dokumen
Kesamaan dokumen (ayat) dihitung berdasarkan algoritme Adamson (De
Roeck dan Al-Fares 2000) yang menghitung jumlah substring yang sama
antarkata. Algoritme ini menggeser “jendela” berukuran n karakter dengan
overlap sebanyak 1 karakter. Pada penelitian ini digunakan jendela berukuran 2
(bigram) dan nilai kesamaan antara 2 dokumen dihitung dengan formula Jaccard.
Unit terkecil dari gram yang digunakan pada penelitian ini adalah huruf. Hasil
perhitungan kesamaan disimpan dalam fail TXT untuk kemudian dilakukan
clustering menggunakan hierarchical agglomerative clustering (HAC). Adapun
alasan digunakannya HAC adalah metode ini tidak perlu mengetahui jumlah
cluster yang ingin dibentuk.

Pemeringkatan Dokumen
Pemeringkatan dokumen hasil pencarian dilakukan dengan cara yang
berbeda untuk setiap metode yang digunakan. Pemeringkatan untuk metode light
stemming dilakukan dengan memperhitungkan hasil pemberian skor
menggunakan vector space model pada dokumen hasil pencarian yang
menggunakan cosine similarity. Adapun pembobotan term (stem) pada dokumen
menggunakan pembobotan TF-IDF (term frequency-inverse document frequency)
menurut Manning et al. (2009). Khusus untuk query dalam aksara Latin,
pemeringkatan juga memperhitungkan jumlah kecocokan trigram. Adapun
pemeringkatan dengan metode clustering dilakukan berdasarkan nilai kesamaan
antara query dengan dokumen hasil temu kembali menggunakan koefisien Jaccard.

5
Relevance Judgment
Pasangan query-dokumen relevan didapatkan dari buku A Concordance of
the Qur’an karya Kassis (1983). Daftar kata pada buku tersebut menggunakan
transliterasi bahasa Inggris sehingga perlu diubah penulisannya yang disesuaikan
dengan transliterasi bahasa Indonesia. Jumlah pasangan query-dokumen relevan
yang diambil sebanyak 30 buah.

Pengukuran Kinerja
Kinerja sistem diukur untuk setiap metode pencarian yang digunakan.
Kinerja yang diukur ialah waktu pencarian dan kualitas hasil pencarian
berdasarkan query yang diujikan. Pengukuran kualitas pencarian dilakukan
dengan menghitung nilai Average Precision (AVP), Mean Average Precision
(MAP), dan Precision pada N dokumen teratas (dengan N adalah nilai minimum
dari jumlah dokumen yang ditemukembalikan oleh kedua metode) (Manning et al.
2009). Alasan digunakannya ketiga ukuran nilai tersebut ialah melihat konsistensi
setiap nilai dari kedua metode. Hasil pengukuran disajikan dalam bentuk kurva
recall-precision untuk membandingkan kedua metode pencarian.

Implementasi
Implementasi sistem untuk pembuatan indeks, pengelompokan dokumen,
dan pencarian dilakukan dengan bahasa pemrograman PHP. Spesifikasi perangkat
keras dan perangkat lunak yang digunakan dalam implementasi ini, yaitu:
 prosesor Intel Core 2 Duo 2.00 GHz,
 memori 4 GB,
 sistem operasi Windows 7 Professional,
 web server Apache versi 1.7.7, dan
 bahasa pemrograman PHP versi 5.3.8.

HASIL DAN PEMBAHASAN
Ekstraksi Stem Aksara Latin
Ekstraksi stem pada query aksara Latin mengadopsi tahapan dari metode
ekstraksi stem menggunakan light stemming. Sebelum dilakukan stemming, teks
akan melalui tahap praproses. Tahapan ini mengubah kata dengan pola W-lah
menjadi W-lat dan pola W-loh menjadi W-lot, dengan W adalah sembarang string
pada kata.
Fungsi penghitung jumlah karakter Arab pada aksara Latin dibuat untuk
mendukung proses stemming. Rincian fungsinya, yaitu:
1 Inisialisasi nilai counter menjadi 0.

6
2 Jika kata diawali oleh karakter a, i, atau u dan diikuti oleh karakter selain a, i,
u, e, o, atau l, nilai counter bertambah 1.
3 Jika kata diawali oleh karakter a, i, atau u dan diikuti oleh karakter l, nilai
counter bertambah 1.
4 Jika kata diakhiri oleh substring ha, ih, na, ma, wa, ya, ni, kan, kin, kun, tam,
tim, tum, tan, tin, tun, in, an, at, atau un, nilai counter bertambah 1.
5 Jika kata mengandung substring bb.., dd.., ff.., hh.., jj.., kk.., mm.., nn.., rr..,
ss.., tt.., ww.., yy.., zz.., kh, gh, sy, th, dh, zh, atau ts, nilai counter bertambah 1,
kemudian substring tersebut dihilangkan.
6 Hilangkan karakter vokal dari karakter yang tersisa.
7 Jumlah karakter merupakan total karakter sisa ditambah dengan nilai counter.
Adapun tahapan stemming pada aksara Latin ialah sebagai berikut:
1 Jika jumlah karakter Arab terdiri atas minimal 5 karakter, substring yang
terletak di awal kata dihilangkan jika substring tersebut merupakan salah satu
dari: wal, bil, fal, kal, walil, mal, sal, lil, dan lal.
2 Jika jumlah karakter Arab terdiri atas minimal 4 karakter, substring yang
terletak di awal kata dihilangkan jika substring tersebut merupakan salah satu
dari: al, wa, bi, lal, lil, wama, wata, watu, wabi, la, saya, wasa, waya, wali, ka,
dan fa.
3 Jika jumlah karakter Arab terdiri atas minimal 4 karakter, substring yang
terletak di awal kata dihilangkan jika substring tersebut merupakan wa.
4 Jika jumlah karakter Arab terdiri atas minimal 4 karakter, substring yang
terletak di awal kata dihilangkan jika substring tersebut merupakan salah satu
dari: bi, la, dan li hanya jika setelah penghilangan tersebut stem yang
dihasilkan terdapat dalam koleksi dokumen.
5 Jika jumlah karakter Arab terdiri atas minimal 4 karakter, secara rekursif
substring yang terletak di akhir kata dihilangkan jika substring tersebut
merupakan salah satu dari: ha, yah, him, hum, na, ma, wa, ya, ni, hun, hunna,
kum, kun, tum, tun, in, an, on, at, dan un.
6 Aturan pengodean fonetis dilakukan.
Ilustrasi tahapan di atas untuk query aksara Latin “wakholaqnakum” bisa
dilihat pada Lampiran 2. Pada ilustrasi ini, query yang diberikan terdiri atas akar
kata “kholaq” dengan awalan “wa” serta akhiran “na” dan “kum”. Tahapan ini
menghasilkan stem yang sesuai dengan hasil pengodean fonetis dari akar kata,
yaitu HLK.

Pembuatan Indeks
Indeks dibuat dalam 2 bentuk, yaitu indeks dalam aksara Arab dan aksara
Latin. Pembuatan indeks secara umum serupa dengan pembuatan indeks trigram
pada penelitian Istiadi (2012), namun token pada term dalam aksara Arab
merupakan hasil tokenisasi teks Al-Quran yang telah dilakukan stemming. Khusus
indeks dalam aksara Latin, dibuat indeks trigram dari term pada inverted index
yang bertujuan mengatasi variasi penulisan query. Sebagai contoh, token “BSM”
pada term akan menghasilkan trigram “_BS”, “BSM”, dan “SM_”. Ilustrasi
indeks dalam aksara Latin bisa dilihat pada Gambar 2.

7
Pengelompokan Dokumen
Dokumen yang dihitung kesamaannya menggunakan algoritme Adamson
(De Roeck dan Al-Fares 2000) terdiri atas 2 jenis, yaitu teks Al-Quran dan teks
dalam aksara Latin hasil pengodean fonetis teks Al-Quran. Pada teks Al-Quran
dilakukan normalisasi (penggantian karakter tertentu dan penghilangan tanda
baca) terlebih dahulu sebelum dihitung kesamaannya. Jumlah dokumen yang
dihitung sebanyak 6236 dokumen. Untuk memperkecil ukuran matriks kesamaan,
pasangan dokumen yang sudah dihitung tidak perlu dihitung ulang sehingga
matriks yang mulanya berukuran
menjadi
. Matriks
kesamaan kemudian ditulis ke dalam fail TXT sehingga terdapat 2 fail matriks
kesamaan, yaitu matriks untuk teks Al-Quran dan teks hasil pengodean fonetis.
Untuk memperkecil ukuran fail, pasangan dokumen dengan nilai kesamaan 0
tidak dituliskan. Cuplikan fail matriks kesamaan dapat dilihat di Lampiran 3.
Tahapan pembuatan cluster dimulai dengan membaca fail matriks kesamaan,
kemudian diterapkan algoritme HAC. Pembuatan cluster akan berlangsung
sampai nilai kesamaan dari cluster terakhir yang terbentuk mencapai nilai tertentu.
Hal ini sama dengan melakukan pemotongan dendrogram pada titik tertentu
setelah semua dokumen masuk ke dalam sebuah cluster. Adapun titik yang dipilih
ialah 0.01 karena jumlah cluster yang dihasilkan lebih sedikit (jumlah komputasi
lebih sedikit) dibandingkan titik lainnya pada rentang 0.00-1.00. Jumlah cluster
yang terbentuk dari teks Al-Quran ialah 1170 cluster, sedangkan dari teks hasil
pengodean fonetis ialah 2068 cluster.
Pemilihan centroid dilakukan setelah pembuatan cluster selesai. Untuk
cluster dengan lebih dari 2 anggota, centroid merupakan dokumen yang memiliki
rataan kesamaan terbesar dengan seluruh dokumen dalam cluster-nya. Untuk
cluster dengan 2 anggota, centroid merupakan dokumen dengan jumlah karakter
terbanyak.
Representasi cluster yang terbentuk dituliskan dalam 2 fail TXT yang
berbeda. Fail pertama berisi indeks seluruh cluster beserta dokumen yang masuk
dalam cluster tersebut, sedangkan fail kedua berisi indeks seluruh dokumen
beserta cluster tempat dokumen tersebut dikelompokkan. Cuplikan kedua fail
tersebut bisa dilihat di Lampiran 4.

Pemrosesan Query dan Pemeringkatan Dokumen
Light Stemming
Query yang masuk akan diolah berdasarkan jenisnya. Light stemming
dilakukan terhadap query aksara Arab, sedangkan query aksara Latin diolah
menggunakan algoritme stemming yang diadopsi dari light stemming. Query yang
telah melalui proses stemming akan dipadankan dengan term dari indeks untuk
mendapatkan dokumen yang dianggap relevan. Pembacaan inverted index untuk
query aksara Arab dilakukan dengan langkah-langkah berikut.
1 Inisialisasi array V untuk term.
2 Inisialisasi array D (untuk dokumen yang ditemukan), array M (untuk posting
list), array Vq (untuk nilai vektor query), dan array Vd (untuk nilai vektor
dokumen yang ditemukan).

8
3 Untuk setiap token t pada query:
a Value dari key t pada V diambil sebagai offset f.
b Posting list mulai byte f sampai akhir baris dibaca.
c Nilai TF-IDF dihitung, lalu disimpan sebagai value dari key t pada Vq.
d Untuk setiap posting p dari posting list:
 Nomor surat dan ayat dari p diambil sebagai key pada Vd.
 Frekuensi dari p diambil dan dikalikan dengan IDF sebagai value dari
key pada Vd.
 p diambil dan dimasukkan dalam M.
4 Untuk setiap elemen dalam M:
a Nomor surat dan ayat diambil sebagai key k dari D.
b Nilai cosine simmilarity dari Vq dan Vd dihitung dan diambil sebagai value
dari key k.
5 D diurutkan secara menurun berdasarkan value.
6 D diberikan sebagai dokumen hasil pencarian.
Adapun untuk query aksara Latin pembacaan indeksnya sebagai berikut.
1 Inisialisasi array B untuk term dari indeks trigram.
2 Inisialisasi array V untuk term dari indeks hasil pengodean fonetis.
3 Inisialisasi array D (untuk dokumen yang ditemukan), array M (untuk posting
list), array T (untuk term yang cocok dari indeks hasil pengodean fonetis),
array Vq (untuk nilai vektor query), dan array Vd (untuk nilai vektor dokumen
yang ditemukan).
4 Untuk setiap token t pada query:
a Setiap trigram m dari t diambil, array offset F diambil sebagai value dari
key m pada B.
b Untuk setiap elemen e dari F:
 Posting list dari indeks trigram dibaca mulai byte e sampai akhir baris.
 Untuk setiap posting p dari posting list:
 Term dari p diambil, trigram-nya diekstraksi, lalu jumlah trigram
yang cocok dengan trigram t dihitung.
 Jika jumlah trigram cocok ≥ 2, maka term dimasukkan ke dalam T.
 Untuk setiap elemen l dari T:
 Value dari key l pada V diambil sebagai offset g.
 Posting list dari indeks kode fonetis dibaca mulai byte g sampai
akhir baris.
 Hasil pembacaan dengan posting list dari elemen T berikutnya
digabung.
 Nilai TF.IDF dari t dihitung dan disimpan sebagai value dari key t
dalam Vq.

Gambar 2 Skema indeks dalam aksara Latin

9
 Untuk setiap posting q dari hasil penggabungan:
 Nomor surat dan ayat dari q diambil sebagai key pada Vd.
 Frekuensi dari q diambil dan dikalikan dengan IDF, lalu
diambil sebagai value dari key pada Vd.
 q diambil dan dimasukkan dalam M.
5 Untuk setiap elemen dalam M:
a Nomor surat dan ayat diambil sebagai key k dari D.
b Nilai cosine simmilarity dari Vq dan Vd dihitung dan diambil sebagai value
dari key k.
6 D diurutkan secara menurun berdasarkan value.
7 D diberikan sebagai dokumen hasil pencarian.
Hasil pembacaan indeks untuk tiap jenis query akan mengembalikan
dokumen yang dianggap relevan secara terurut bedasarkan skor pemeringkatan.
Informasi yang disimpan pada setiap dokumen ialah identifier (berupa bilangan
bulat), posisi kemunculan, dan skor pemeringkatan. Cuplikan indeks dalam aksara
Arab dan Latin bisa dilihat secara berturut-turut pada Lampiran 5 dan Lampiran 6.
Clustering
Semua jenis query (aksara Arab dan Latin) akan dilakukan ekstraksi bigram
untuk kemudian dihitung nilai kesamaannya dengan semua centroid cluster.
Query dalam aksara Arab dilakukan praproses terlebih dahulu seperti tahap
praproses pada light stemming sebelum dilakukan ekstraksi bigram, sedangkan
query dalam aksara Latin dilakukan pengodean fonetis. Cluster dengan nilai
kesamaan centroid terbesar merupakan kumpulan dokumen yang dianggap
relevan. Dokumen dari cluster terpilih kemudian dihitung kesamaannya dengan
query untuk menentukan peringkat dokumen.
Ukuran cluster yang tidak seimbang menyebabkan jumlah dokumen yang
ditemukembalikan terlampau sedikit. Oleh sebab itu, jika anggota dari cluster
terpilih kurang dari 10, cluster berikutnya diambil berdasarkan urutan perhitungan
kesamaan query-centroid sampai jumlah dokumen yang ditemukembalikan
berjumlah minimal 10 dokumen.

Pembentukan Koleksi Pengujian
Koleksi pengujian didapatkan dengan mengambil 30 daftar kata dari buku A
Concordance of the Qur’an. Pengambilan beberapa kata dari buku tersebut perlu
disesuaikan dengan aturan transliterasi bahasa Indonesia. Sebagai contoh, kata
“ADHAB” akan diubah menjadi “ADZAB”. Untuk setiap kata yang diambil,
dibuat penulisan dalam aksara Arab sehingga query pengujian terdiri atas query
dalam aksara Latin dan aksara Arab. Daftar koleksi pengujian bisa dilihat pada
Lampiran 7.

Pengujian Sistem
Nilai AVP, MAP, dan Precision pada N untuk setiap metode dapat dilihat
pada Tabel 1. Berdasarkan tabel tersebut, metode light stemming lebih baik

10
Tabel 1 Nilai AVP, MAP, dan Precision pada Na untuk setiap metode
Metode
light stemming
clustering

AVP
Latin
0.30
0.03

Arab
0.39
0.04

MAP
Latin
Arab
0.36
0.71
0.19
0.23

Precision pada N
Latin
Arab
0.34
0.67
0.06
0.10

a

N merupakan jumlah minimum dokumen yang ditemukembalikan oleh kedua
metode
dibandingkan metode clustering yang ditunjukkan dengan konsistensi nilai dari
semua ukuran penilaian. Hasil temu kembali kedua metode menunjukkan jenis
query aksara Arab lebih baik daripada aksara Latin. Rincian nilai AVP, MAP, dan
Precision pada N untuk semua jenis query dapat dilihat pada Lampiran 8, 9, dan
10.
Hasil perhitungan waktu pencarian dari koleksi pengujian dapat dilihat pada
Lampiran 11. Berdasarkan hasil tersebut, waktu pencarian untuk jenis query
aksara Arab sekitar 3 kali lebih cepat dibandingkan jenis query aksara Latin pada
metode light stemming, sedangkan pada metode clustering, jenis query aksara
Latin lebih cepat daripada jenis query aksara Arab. Pada metode light stemming,
rataan waktu pencarian untuk query aksara Latin ialah 0.20 detik dan untuk query
aksara Arab ialah 0.07 detik. Sementara pada metode clustering, rataan waktu
pencarian untuk query aksara Latin ialah 0.20 detik, dan untuk query aksara Arab
ialah 0.33 detik.
Kurva recall-precision setiap metode disajikan dalam Gambar 3. Pada titik
recall < 0.50, jenis query aksara Arab menunjukkan nilai precision yang lebih
tinggi dibandingkan jenis query aksara Latin untuk metode light stemming,
sedangkan pada titik recall ≥ 0.50 nilai precision kedua jenis query relatif sama.
Untuk metode clustering, nilai precision kedua jenis query relatif sama di semua
titik recall.
Pengaruh Sisipan pada Pengodean Fonetis
Konsekuensi dari kelemahan metode light stemming ialah huruf sisipan
yang ikut terkodekan secara fonetis. Hal ini mengakibatkan pencarian yang
seharusnya mengandung huruf sisipan ‫ا‬, , dan ‫ ي‬menjadi tidak optimal.
Contohnya, query “shiyam” kode fonetis: “SYM” yang seharusnya cocok
dengan stem ‫صي م‬, namun hasilnya tidak sesuai karena stem tersebut dikodekan
menjadi “SYXM” sehingga jumlah trigram cocok < 2 yang merupakan syarat
pengambilan term yang sesuai untuk query aksara Latin. Kondisi tersebut tidak
berlaku jika kode fonetis dari stem dan query mengandung lebih banyak trigram
cocok. Sebagai contoh, query “kawkab” kode fonetis: “KWKB” akan cocok
dengan stem ‫ كواك‬kode fonetis: “KWXKB” karena query trigram yang cocok ≥
2.
Hal serupa juga terjadi pada metode light stemming untuk aksara Latin.
Ekspresi query yang mengandung huruf sisipan ‫ا‬, , dan ‫ ي‬tidak dapat
diidentifikasi, terlebih jika query yang diberikan pendek, seperti “shiyam” ‫)صي م‬
dan “bashir” ‫)بصير‬.

11
Analisis Hasil Clustering
Hasil temu kembali metode clustering sangat dipengaruhi oleh jumlah
karakter (untuk jenis query Latin) atau jumlah term (untuk jenis query aksara
Arab) dari koleksi dokumen. Dokumen berukuran kecil (jumlah karakter atau
jumlah term sedikit) memiliki peluang temu kembali yang relatif tinggi
dibandingkan dokumen berukuran besar untuk query yang sama. Hal ini
disebabkan dokumen berukuran kecil akan memiliki nilai kesamaan dengan query
yang relatif tinggi dibanding dokumen berukuran besar. Contohnya pada query
“ma’wa”, dokumen relevan yang ditemukembalikan ialah dokumen dengan
jumlah karakter 11, sedangkan dokumen relevan lain dengan jumlah karakter 50
tidak berhasil ditemukembalikan.
Nilai precision hasil temu kembali metode clustering menunjukkan hasil
yang tidak optimal. Idealnya, centroid merupakan representasi dari cluster. Hasil
evaluasi menunjukkan bahwa centroid tidak cukup mewakili anggota cluster.
Pada dokumen 1724 (salah satu dokumen relevan untuk query “ma’wa”),
dokumen 252 merupakan centroid dari cluster dokumen tersebut. Namun,
dokumen 252 tidak mengandung kata kunci “ma’wa” yang merupakan pasangan
query relevan untuk dokumen 1724 sehingga mengakibatkan dokumen 1724 tidak
dapat ditemukembalikan oleh query “ma’wa”.
Faktor lain yang menyebabkan hasil pencarian dengan metode clustering
tidak optimal ialah jumlah anggota antar-cluster yang tidak seimbang karena pada
praktiknya, keseimbangan cluster diperlukan agar cluster yang terbentuk lebih

Gambar 3 Kurva recall-precision setiap jenis query setiap metode

12
bermakna (Banerjee dan Ghosh 2006). Fluktuasi jumlah anggota cluster yang
sangat tinggi ditunjukkan dengan perbedaan yang besar antara jumlah anggota
cluster minimum dan maksimum. Jumlah minimum anggota cluster untuk teks
Al-Quran dan teks hasil pengodean fonetis ialah 1, sedangkan jumlah maksimum
untuk teks Al-Quran ialah 5067 dan teks hasil pengodean fonetis ialah 3953. Hal
ini menyebabkan nilai precision akan bernilai ekstrim 0.00 atau 1.00.
Kualitas Pencarian
Berdasarkan semua ukuran nilai yang digunakan (AVP, MAP, dan
Precision pada N), metode light stemming lebih baik dibandingkan metode
clustering. Hal ini disebabkan kemungkinan temu kembali dokumen relevan
dengan metode clustering relatif kecil karena centroid dari cluster yang terpilih
tidak cukup mewakili anggota dari cluster tersebut. Selain itu, jumlah anggota
cluster yang tidak seimbang menyebabkan metode clustering tidak efektif. Namun,
terdapat pengecualian untuk query “kawkab”, “‫”امين‬, “ma’wa”, dan “makara”.
Pada query “kawkab”, hasil temu kembali metode clustering
mengembalikan 2 dokumen relevan pada 4 dokumen teratas, sedangkan metode
light stemming hanya mengembalikan 1 dokumen. Hal ini menyebabkan ketiga
ukuran penilaian metode clustering lebih tinggi daripada light stemming.
Pada query “‫ ”امين‬dan “ma’wa”, hasil temu kembali metode light stemming
tidak mengembalikan dokumen relevan pada 10 dokumen teratas sehingga ketiga
ukuran penilaian bernilai 0. Sebaliknya, pada metode clustering, kedua query
mengembalikan sebanyak 6 dan 3 dokumen relevan secara berturut-turut sehingga
nilai AVP, MAP, dan Precision pada N metode clustering lebih baik daripada
light stemming.
Pada query “makara”, nilai MAP metode clustering lebih baik daripada light
stemming. Hal ini disebabkan hasil temu kembali metode clustering
mengembalikan 1 dokumen relevan yang berada di urutan pertama, sedangkan
pada light stemming, kemunculan dokumen relevan relatif tidak terurut pada
urutan di atas 10. Rincian nilai AVP, MAP, dan Precision pada N dapat dilihat
pada Tabel 2.
Secara umum hasil temu kembali jenis query aksara Arab lebih baik
dibanding jenis query aksara Latin pada metode light stemming. Pada query
aksara Arab, proses pencocokan query lebih bersifat exact matching. Hal ini
berbeda dengan jenis query aksara Latin yang memperhatikan toleransi kesalahan
dan variasi penulisan query. Akibatnya, nilai AVP, MAP, dan Precision pada N
untuk jenis query aksara Arab lebih tinggi dibandingkan jenis query aksara Latin.
Tabel 2 Perbandingan nilai AVP, MAP, dan Precision pada Na setiap query
Light stemming
Clustering
Precision
Precision
AVP
MAP
AVP
MAP
pada N
pada N
kawkab
0.07
0.25
0.25
0.30
0.58
0.50
‫امين‬
0.00
0.05
0.00
0.45
1.00
0.60
ma’wa
0.02
0.04
0.00
0.18
1.00
0.10
makara
0.60
0.90
1.00
0.09
1.00
0.10
a
N merupakan jumlah minimum dokumen yang ditemukembalikan oleh kedua
metode
Query

13
Tabel 3 Perbandingan waktu pencarian setiap jenis query setiap metodea
Waktu pencarian (detik)
Latin
Arab
light stemming
0.20 (c = 144)
0.07 (c = 80)
clustering
0.20 (c = 2077)
0.33 (c = 1179)
a
c merupakan jumlah iterasi perhitungan skor
Metode

Waktu Pencarian
Secara umum waktu pencarian metode light stemming lebih cepat dibanding
metode clustering dan salah satu faktor yang mempengaruhinya ialah jumlah
iterasi perhitungan skor. Pada Tabel 3 terlihat bahwa jumlah iterasi metode
clustering lebih banyak dibanding metode light stemming sehingga waktu
pencarian pun lebih lama. Jenis query aksara Arab pada metode clustering
memerlukan waktu pencarian lebih lama dibanding jenis query aksara Latin
meskipun jumlah iterasi perhitungannya lebih sedikit. Hal ini disebabkan karakter
pada jenis query Arab tidak dapat langsung diproses seperti pada jenis query
aksara Latin dalam mengekstrak bigram sehingga untuk mengakses karakter pada
posisi tertentu, perlu dilakukan pemisahan karakter Arab untuk kemudian diubah
ke dalam struktur data array.

SIMPULAN DAN SARAN
Simpulan
Sistem pencarian turunan kata pada Al-Quran menggunakan metode light
stemming dan clustering telah berhasil dibuat beserta penulisan query yang sesuai
untuk pembicara bahasa Indonesia. Sistem memperlihatkan kinerja yang baik
dengan metode light stemming dibanding metode clustering yang ditunjukkan
oleh nilai AVP, MAP, dan Precision pada N yang tinggi dan waktu pencarian
yang lebih singkat.
Secara umum, query dalam aksara Arab lebih baik direspons oleh sistem
dilihat dari kualitas hasil pencarian dan waktu pencarian dibanding query dalam
aksara Latin. Metode stemming yang dikembangkan untuk query dalam aksara
Latin menunjukkan respon yang baik bila query yang dimasukkan relatif panjang.

Saran
Beberapa saran untuk penelitian selanjutnya ialah sebagai berikut:
1 Penggunaan metode stemming berbasis morfologi untuk mendeteksi sisipan
pada kata dan penggunaan metode clustering dengan menggunakan balancing
constraint untuk menyeimbangkan jumlah anggota cluster.
2 Pembentukan koleksi pengujian didampingi pakar bahasa Arab untuk
mengetahui kedudukan kata dan skenario pencarian menggunakan bahasa
Indonesia.

14

DAFTAR PUSTAKA
Al-Baqiy. [tahun tidak diketahui]. Fathur-Rahman li Thalibi Ayat Al-Quran.
[tempat tidak diketahui]: [penerbit tidak diketahui].
Banerjee A, Ghosh J. 2006. Scalable clustering algorithms with balancing
constraints. Data Mining and Knowledge Discovery. 13(3):365-395.
Chen A, Gey F. 2002. Building an Arabic stemmer for information retrieval. Di
dalam: Voorhees EM, Buckland LP, editor. The Eleventh Text Retrieval
Conference (TREC 2002); 2002 Nop 19-22; Gaithersburg, Amerika Serikat.
Gaithersburg (US): National Institute of Standards and Technology. hlm 631639.
De Roeck AN, Al-Fares W. 2000. A morphologically sensitive clustering
algorithm for identifying Arabic root. Proceedings of the 38th Annual Meeting
on Association for Computational Linguistics; 2000 Okt 1-8; Hong Kong (CN).
Stroudsburg (US): Association for Computational Linguistics. hlm 199-206.
Istiadi MA. 2012. Sistem pencarian ayat Al-Quran berbasis kemiripan fonetis
untuk pembicara bahasa Indonesia [skripsi]. Bogor (ID): Institut Pertanian
Bogor.
Kassis HE. 1983. A Concordance of the Qur’an. Berkeley (US): University of
California Press.
Manning CD, Raghavan P, Schütze H. 2009. An Introduction to Information
Retrieval. Cambridge (UK): Cambridge University Press.

15
Lampiran 1 Ilustrasi tahapan stemming pada aksara Arab

16
Lampiran 2 Ilustrasi tahapan stemming pada aksara Latin

17
Lampiran 3 Cuplikan fail matriks kesamaan
Matriks kesamaan (id dokumen | id dokumen | nilai kesamaan)
0|1|0.235
0|2|0.4
0|3|0.067
0|6|0.029
0|7|0.6
0|9|0.05
0|10|0.077
0|11|0.12
0|12|0.114
0|13|0.167
0|14|0.207
0|15|0.091
0|16|0.081
0|17|0.133
0|18|0.071
0|19|0.079
0|20|0.048
0|21|0.059
0|22|0.045
0|23|0.098
0|24|0.167
0|25|0.063
0|26|0.083
0|27|0.051
0|28|0.102
0|29|0.059
0|30|0.045
0|31|0.097
0|32|0.048
0|33|0.05
0|34|0.043
0|35|0.02
0|36|0.041
0|37|0.095
0|38|0.069
0|39|0.073
0|40|0.042
0|41|0.035
0|42|0.067
0|43|0.051
0|44|0.06
0|45|0.077
0|46|0.022
0|47|0.037
0|48|0.129
0|51|0.061
0|52|0.103
0|53|0.025
0|54|0.08
...

18
Lampiran 4 Cuplikan fail indeks dokumen dan indeks cluster
Indeks dokumen
(id dokumen | id cluster)
0|0
2|1
3|2
4|3
5|4
8|5
14|6
21|7
24|8
30|9
423|9
43|10
1562|10
1785|10
3267|10
4436|10
6215|10
49|11
50|12
64|13
72|14
74|15
75|15
78|16
94|17
100|18
106|19
115|20
269|20
392|20
447|20
785|20
930|20
1528|20
116|21
886|21
914|21
1584|21
121|22
122|23
144|24
153|25
158|26
182|27
185|28
196|29
...

Indeks cluster
(id cluster | anggota cluster | centroid)
0|0|0
1|2|2
2|3|3
3|4|4
4|5|5
5|8|8
6|14|14
7|21|21
8|24|24
9|30,423|30
10|43,3267,1562,6215,1785,4436|1562
11|49|49
12|50|50
13|64|64
14|72|72
15|74,75|74
16|78|78
17|94|94
18|100|100
19|106|106
20|115,392,785,1528,269,447,930|447
21|116,1584,886,914|116
22|121|121
23|122|122
24|144|144
25|153|153
26|158|158
27|182|182
28|185|185
29|196|196
30|198|198
31|205,598|205
32|208,1845,4701,4989,1371,1885|1371
33|211,2752,699,802|211
34|244,3879,1395,2094|1395
35|247|247
36|282|282
37|294|294
38|295|295
39|298,3167|298
40|301|301
41|310|310
42|319|319
43|335|335
44|338|338
45|340|340
...

‫‪19‬‬
‫‪Lampiran 5 Fail indeks aksara Arab‬‬
‫‪Posting list‬‬
‫)‪(surat:ayat:jumlah kemunculan:posisi kemunculan‬‬
‫‪1:1:1:0;2:1:1:0;3:1:1:0;4:1:1:0;5:1:1:...‬‬
‫‪1:1:1:7;2:1:1:7;2:7:1:7;2:8:1:37;2:9:1...‬‬
‫‪1:1:1:15;1:3:1:0;2:1:1:15;2:163:1:51;3...‬‬
‫‪1:1:1:27;1:3:1:12;2:1:1:27;2:37:1:82;2...‬‬
‫‪1:2:1:0;6:1:1:38;6:45:1:46;7:43:1:90;1...‬‬
‫‪1:2:1:10;2:22:1:161;2:98:1:20;2:112:1:...‬‬
‫‪1:2:1:18;2:5:1:27;2:21:1:32;2:26:1:145...‬‬
‫‪1:2:1:24;2:47:1:103;2:122:1:103;2:131:...‬‬
‫;‪1:4:1:0;3:26:1:16;43:77:1:15‬‬
‫‪1:4:1:8;2:62:1:95;2:113:1:227;2:126:1:...‬‬
‫‪1:4:1:15;2:132:1:90;2:193:1:53;2:217:2...‬‬
‫;‪1:5:1:0‬‬
‫‪1:5:1:9;2:133:1:114;3:64:1:91;7:70:1:2...‬‬
‫;‪1:5:1:18‬‬
‫;‪1:5:1:29‬‬
‫‪1:6:1:0;4:51:1:142;6:157:1:66;17:84:1:...‬‬
‫‪1:6:1:9;1:7:1:0;2:142:1:162;2:213:1:41...‬‬
‫‪1:6:1:20;2:142:1:170;2:213:1:422;3:51:...‬‬
‫‪1:7:1:8;2:3:1:0;2:4:1:0;2:6:1:6;2:9:1:...‬‬
‫‪1:7:1:18;2:40:1:52;2:47:1:52;2:122:1:5...‬‬
‫‪1:7:2:29,60;2:5:1:10;2:6:1:33;2:7:3:15...‬‬
‫‪1:7:1:40;2:59:1:37;2:61:1:470;2:173:2:...‬‬
‫;‪1:7:1:47‬‬
‫‪1:7:1:71;2:35:1:98;2:38:1:119;2:41:2:5...‬‬
‫‪1:7:1:77;2:198:1:215;3:90:1:114;6:77:1...‬‬
‫‪2:1:1:38;2:96:1:112;3:1:1:38;7:1:1:38;...‬‬
‫‪2:1:1:45;3:1:1:45;7:1:1:45;10:1:1:45;1...‬‬
‫‪2:1:1:51;3:1:1:51;7:1:1:51;13:1:1:51:2...‬‬
‫‪2:2:1:0;2:52:1:37;2:61:2:386,488;2:64:...‬‬
‫‪2:2:1:7;2:44:1:81;2:53:1:23;2:78:1:39;...‬‬
‫‪2:2:1:22;2:23:1:20;3:9:1:47;3:25:1:42;...‬‬
‫‪2:2:1:29;2:10:1:0;2:11:1:36;2:15:1:42;...‬‬
‫‪2:2:1:35;2:5:1:16;2:16:1:44;2:26:1:257...‬‬
‫‪2:2:1:41;2:66:1:76;2:177:1:505;2:180:1...‬‬
‫‪2:3:1:10;2:4:1:12;2:6:1:88;2:75:1:21;2...‬‬
‫‪2:3:1:22;2:33:1:126;3:44:1:22;3:179:1:...‬‬
‫‪2:3:1:34;2:43:1:0;2:83:1:181;2:110:1:0...‬‬
‫‪2:3:1:47;2:43:1:12;2:45:1:27;2:83:1:19...‬‬
‫‪2:3:1:58;2:26:2:82,155;2:38:1:35;2:89:...‬‬
‫‪2:3:1:67;2:25:2:120,181;2:57:1:109;2:6...‬‬
‫‪2:3:1:81;2:215:1:21;2:219:1:157;2:261:...‬‬
‫‪2:4:1:24;2:10:1:76;2:41:1:10;2:59:1:12...‬‬
‫‪...‬‬

‫‪Term‬‬
‫)‪(offset | stem‬‬
‫بسم|‪0‬‬

‫لة|‪7001‬‬
‫رحمن|‪40900‬‬
‫رحيم|‪41602‬‬
‫حم |‪49821‬‬
‫لل|‪20410‬‬
‫ر |‪27040‬‬
‫ع لم|‪28200‬‬
‫م لك|‪29267‬‬
‫يوم|‪29297‬‬
‫دين|‪04100‬‬
‫اي |‪02600‬‬
‫نعب |‪02670‬‬
‫ي |‪02691‬‬
‫نستع|‪02101‬‬
‫اه |‪02171‬‬
‫ص ا |‪02870‬‬
‫مست يم|‪00402‬‬
‫ين|‪00094‬‬
‫انعم|‪00180‬‬
‫عل|‪00908‬‬
‫غي |‪10082‬‬
‫مغ و |‪17018‬‬
‫وا|‪17088‬‬
‫ض ل|‪18006‬‬
‫الف|‪18000‬‬
‫ام|‪18160‬‬
‫ميم|‪18940‬‬
‫لك|‪19042‬‬
‫كت |‪84447‬‬
‫ريب|‪80629‬‬
‫في|‪80807‬‬
‫ه |‪700029‬‬
‫متق|‪707180‬‬
‫يؤمن|‪704240‬‬
‫غيب|‪702120‬‬
‫قيم|‪700408‬‬
‫صا|‪700000‬‬
‫م |‪700440‬‬
‫ر |‪706607‬‬
‫ين ق|‪701080‬‬
‫بم |‪701114‬‬

‫‪...‬‬

20
Lampiran 6 Fail indeks aksara Latin
Term
(offset | token trigram)

Posting list
(surat:ayat:jumlah kemunculan:posisi kemunculan)

0|BSM
1047|LT
25904|RHMN
27643|RHYM
29837|HMD
30275|LL
31524|RB
38354|XXLM
39361|MXLK
39391|YWM
42705|DYN
43605|XYXK
43614|NXBD
43697|YXK
43707|NSTX
43717|XHD
43815|SRXT
44243|MSTKYM
44592|ZYN
54780|XNXM
54948|XL
70083|GYR
71578|MGDWB
71588|WLX
78406|DXL
78550|XLF
78765|LXM
78925|MYM
79023|ZLK
82221|KTXB
84639|RYB
84841|FY
100439|HD
101784|MTK
102324|YXMN
103730|GYB
104258|KYM
104500|SLX
105224|MX
106601|RZK
107480|YNFK
...

1:1:1:0;2:1:1:0;3:1:1:0;4:1:1:0;5:1...
1:1:1:7;2:1:1:7;2:7:1:7;2:8:1:37;2:...
1:1:1:15;1:3:1:0;2:1:1:15;2:163:1:5...
1:1:1:27;1:3:1:12;2:1:1:27;2:37:1:8...
1:2:1:0;6:1:1:38;6:45:1:46;7:43:1:9...
1:2:1:10;2:22:1:161;2:98:1:20;2:112...
1:2:1:18;2:5:1:27;2:21:1:32;2:26:1:...
1:2:1:24;2:47:1:103;2:122:1:103;2:1...
1:4:1:0;3:26:1:16;43:77:1:15;
1:4:1:8;2:62:1:95;2:113:1:227;2:126...
1:4:1:15;2:132:1:90;2:193:1:53;2:21...
1:5:1:0;
1:5:1:9;2:133:1:114;3:64:1:91;7:70:...
1:5:1:18;
1:5:1:29;
1:6:1:0;4:51:1:142;6:157:1:66;17:84...
1:6:1:9;1:7:1:0;2:142:1:162;2:213:1...
1:6:1:20;2:142:1:170;2:213:1:422;3:...
1:7:1:8;2:3:1:0;2:4:1:0;2:6:1:6;2:9...
1:7:1:18;2:40:1:52;2:47:1:52;2:122:...
1:7:2:29,60;2:5:1:10;2:6:1:33;2:7:3...
1:7:1:40;2:59:1:37;2:61:1:470;2:173...
1:7:1:47;
1:7:1:71;2:35:1:98;2:38:1:119;2:41:...
1:7:1:77;2:198:1:215;3:90:1:114;6:7...
2:1:1:38;2:96:1:112;3:1:1:38;7:1:1:...
2:1:1:45;3:1:1:45;7:1:1:45;10:1:1:4...
2:1:1:51;3:1:1:51;7:1:1:51;13:1:1:5...
2:2:1:0;2:52:1:37;2:61:2:386,488;2:...
2:2:1:7;2:44:1:81;2:53:1:23;2:78:1:...
2:2:1:22;2:23:1:20;3:9:1:47;3:25:1:...
2:2:1:29;2:10:1:0;2:11:1:36;2:15:1:...
2:2:1:35;2:5:1:16;2:16:1:44;2:26:1:...
2:2:1:41;2:66:1:76;2:177:1:505;2:18...
2:3:1:10;2:4:1:12;2:6:1:88;2:75:1:2...
2:3:1:22;2:33:1:126;3:44:1:22;3:179...
2:3:1:34;2:43:1:0;2:83:1:181;2:110:...
2:3:1:47;2:43:1:12;2:45:1:27;2:83:1...
2:3:1:58;2:26:2:82,155;2:38:1:35;2:...
2:3:1:67;2:25:2:120,181;2:57:1:109;...
2:3:1:81;2:215:1:21;2:219:1:157;2:2...
...

21
Lampiran 7 Daftar koleksi pengujian
Kode

Query
Latin

Kode

Q1

KATAMA

R1

Q2

KAWKAB

R2

Q3

FADL

R3

Q4

GHAFUR

R4

Query
Arab

Dokumen relevan
(nomor surat:ayat)

‫ كتم‬2:140, 2:33, 2:42, 2:72,
2:146, 2:159, 2:174,
2:228, 2:283, 3:71,
3:167, 3:187, 4:37,
4:42, 5:61, 5:99, 5:106,
21:110, 24:29, 40:28
‫ ك كب‬6:76, 12:4, 24:35, 37:6,
82:2
‫ فضل‬2:64, 2:105, 2:243,
2:251, 3:73, 3:74,
3:152, 3:174, 4:32,
4:37, 4:54, 4:70, 4:73,
4:83, 4:113, 5:54, 8:29,
10:58, 10:60, 12:38,
24:10, 24:14, 24:20,
24:21, 33:47, 40:61,
48:29, 49:8, 57:21,
57:29, 59:8, 62:4,
62:10, 73:20
‫ غف‬2:225, 2:235, 3:155,
5:101, 2:173, 2:182,
2:192, 2:199, 2:218,
2:226, 3:31, 3:89,
3:129, 4:23, 4:25, 4:96,
4:100, 4:106, 4:110,
4:129, 4:152, 5:3, 5:34,
5:39, 5:74, 5:98, 8:69,
8:70, 9:5, 9:27, 9:91,
9:99, 9:102, 16:18,
16:115, 24:5, 24:22,
24:33, 24:62, 25:70,
33:5, 33:24, 33:50,
33:59, 33:73, 42:5,
48:14, 49:5, 49:14,
57:28, 58:12, 60:7,
60:12, 64:14, 66:1,
73:20, 42:23

Jumlah
Relevan
20

5
34

57

22
Lampiran 7 Daftar koleksi pengujian (lanjutan)

Q5

Query
Latin
AJAL

Q6

AKHIR

R6

Q7

AMIN

R7

Q8

INS

R8

Kode

Kode
R5

Query
Dokumen relevan
Jumlah
Arab
(nomor surat:ayat)
Relevan
‫ اجل‬2:231, 2:232, 2:234,
45
2:235, 2:282, 4:77, 6:2,
6:60, 6:128, 7:34,
7:135, 7:185, 10:11,
10:49, 11:3, 11:104,
13:2, 13:38, 14:10,
14:44, 15:5, 16:61,
17:99, 20:129, 22:5,
22:33, 23:43, 28:28,
28:29, 29:5, 29:53,
30:8, 31:29, 35:13,
35:45, 39:5, 39:42,
40:67, 42:14, 46:3,
63:10, 63:11, 65:2,
65:4, 71:4
‫ اخر‬2:8, 2:62, 2:94, 2:126,
52
2:177, 2:228, 2:232,
2:264, 3:72, 3:114,
4:38, 4:39, 4:59, 4:136,
4:162, 5:69, 5:114,
6:32, 7:169, 9:18, 9:19,
9:29, 9:44, 9:45, 9:99,
10:10, 24:2, 26:84,
28:77, 28:83, 29:36,
29:64, 33:21, 33:29,
37:78, 37:108, 37:119,
37:129, 38:7, 43:56,
53:25, 56:14, 56:40,
56:49, 57:3, 58:22,
60:6, 65:2, 77:17,
79:25, 92:13, 93:4
‫ امين‬7:68, 12:54, 26:107,
14
26:125, 26:143, 26:162,
26:178, 26:193, 27:39,
28:26, 44:18, 44:51,
81:21, 95:3
‫ انس‬6:112, 6:128, 6:130,
17
7:38, 7:179, 17:88,
27:17, 41:25, 41:29,
46:18, 51:56, 55:33,
55:39, 55:56, 55:74,
72:5, 72:6

23
Lampiran 7 Daftar koleksi pengujian (lanjutan)

Q9

Query
Latin
ISRA’IL

Q10

AWWALA

R10

Q11

MA’WA

R11

Q12

ADL

R12

Q13

ADUW

R13

Kode

Kode
R9

Query
Dokumen relevan
Jumlah
Arab
(nomor surat:ayat) Relevan
‫ اسرائيل‬2:40, 2:47, 2:83,
41
2:122, 2:211, 2:246,
3:49, 3:93, 5:12, 5:32,
5:70, 5:72, 5:78,
5:110, 7:105, 7:134,
7:137, 7:138, 10:90,
10:93, 17:2, 17:4,
17:101, 17:104, 19:58,
20:47, 20:80, 20:94,
26:17, 26:22, 26:59,
26:197, 27:76, 32:23,
40:53, 43:59, 44:30,
45:16, 46:10, 61:6,
61:14
15
ّ ‫ ا‬3:7, 4:59, 7:53, 10:39,
12:6, 12:21, 12:36,
12:37, 12:44, 12:45,
12:100, 12:101, 17:35,
18:78, 18:82
‫ مأ‬3:151, 3:162, 3:197,
22
4:97, 4:121, 5:72,
8:16, 9: