SISTEM TEMU BALIK INFORMASI Algoritma Na

SISTEM TEMU BALIK INFORMASI
Algorit a Nazief da Adria i

Disusun Oleh:
Dyan Keke

11/323494/PA/14356

Rian Chikita

11/323813/PA/14362

Agus Dwi Prayogo

11/323856/PA/14367

PRODI S1 ILMU KOMPUTER
JURUSAN ILMU KOMPUTER DAN ELEKTRONIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS GADJAH MADA
YOGYAKARTA

2012

Pendahuluan
Pencarian informasi berupa dokumen teks atau yang dikenal dengan istilah
Information Retrieval (IR) merupakan proses pemisahan dokumen-dokumen yang
dianggap relevan dari sekumpulan dokumen yang tersedia. Bertambahnya jumlah
dokumen teks yang dapat diakses di internet diikuti dengan meningkatnya
kebutuhan pengguna akan perangkat pencarian informasi yang efektif dan efisien.
Efektif berarti user mendapatkan dokumen yang relevan dengan query yang
diinputkan. Efisien berarti waktu pencarian yang sesingkat-singkatnya.
Stemming merupakan suatu proses yang terdapat dalam sistem IR yang
mentransformasikan kata-kata yang terdapat dalam suatu dokumen ke kata-kata
akarnya (root word) dengan menggunakan aturan-aturan tertentu. Sebagai contoh,
kata bersama, kebersamaan, menyamai, aka diste

ke root ord ya yaitu sa a .

Stemming Bahasa Indonesia dengan Algoritma Nazief dan Andriani
Algoritma stemming untuk bahasa yang satu berbeda dengan algoritma
stemming untuk bahasa lainnya. Sebagai contoh bahasa Inggris memiliki morfologi

yang berbeda dengan bahasa Indonesia sehingga algoritma stemming untuk kedua
bahasa tersebut juga berbeda. Proses stemming pada teks berbahasa Indonesia
lebih rumit/kompleks karena terdapat variasi imbuhan yang harus dibuang untuk
mendapatkan root word (kata dasar) dari sebuah kata.
Pada umumnya kata dasar pada bahasa Indonesia terdiri dari kombinasi:
Prefiks 1 + Prefiks 2 + Kata dasar + Sufiks 3 + Sufiks 2 + Sufiks 1

Algoritma Nazief & Adriani yang dibuat oleh Bobby Nazief dan Mirna Adriani
ini memiliki tahap-tahap sebagai berikut:
1. Pertama cari kata yang akan diistem dalam kamus kata dasar. Jika ditemukan
maka diasumsikan kata adalah root word. Maka algoritma berhenti.
2. Inflection Suffixes

-lah , -kah , -ku , - u , atau - ya

berupa particles -lah , -kah , -tah atau -pu
lagi untuk menghapus Possesive Pronouns

di ua g. Jika


aka la gkah i i diula gi

-ku , - u , atau - ya , jika

ada.
3. Hapus Derivation Suffixes

-i , -a

atau -ka

. Jika kata dite uka di

kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a
a) Jika -a

telah dihapus da huruf terakhir dari kata terse ut adalah -k ,

aka -k juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus
maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.

b) Akhira ya g dihapus

-i , -a

atau -ka

dike

alika , la jut ke

langkah 4
4. Hilangkan derivatio

prefixes DP { di- , ke- , se- ,

e- , e- , pe , te- }

dengan iterasi maksimum adalah 3 kali:
a) Langkah 4 berhenti jika:


 Terjadi kombinasi awalan dan akhiran yang terlarang seperti pada
Tabel 1

 Awalan yang dideteksi saat ini sama dengan awalan yang dihilangkan
sebelumnya.

 Tiga awalan telah dihilangkan.

Tabel 1. Kombinasi Awalan Akhiran Yang Tidak Diijinkan
Awalan

Akhiran yang tidak diizinkan

be-

-i

di-

-an


ke-

-i, -kan

me-

-an

se-

-i, -kan

te-

-an

b) Identifikasikan tipe awalan dan hilangkan. Awalan ada tipe:

 “ta dar: di- , ke- , se- yang dapat langsung dihilangkan dari kata.


 Ko pleks:

e- ,

e- , pe , te- adalah tipe-tipe awalan yang dapat

bermorfologi sesuai kata dasar yang mengikutinya. Oleh karena itu,
gunakan aturan pada Tabel 2 untuk mendapatkan pemenggalan yang
tepat.

Tabel 2. Aturan Pemenggalan Awalan Stemmer Nazief dan Adriani

c) Cari kata yang telah dihilangkan awalannya ini di dalam kamus. Apabila
tidak ditemukan, maka langkah 4 diulangi kembali. Apabila ditemukan,
maka keseluruhan proses dihentikan.
5. Apabila setelah langkah 4 kata dasar masih belum ditemukan, maka proses
recoding dilakukan dengan mengacu pada aturan pada Tabel 2. Recoding
dilakukan dengan menambahkan karakter recoding di awal kata yang
dipenggal. Pada Tabel 2, karakter recoding adalah huruf kecil setelah tanda

hu u g - da terkada g erada se elu
kata

ta da kuru g. “e agai o toh,

e a gkap atura 15 , setelah dipe ggal

tidak valid, maka recoding dilakuka da

e jadi

a gkap . Kare a

e ghasilka kata ta gkap .

6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal
diasumsikan sebagai root word. Proses selesai.
Tipe awalan ditentukan melalui langkah-langkah berikut:
1. Jika a ala


ya adalah: di- , ke- , atau se-

aka tipe a ala

ya se ara

berturut-turut adalah di- , ke- , atau se- .
2. Jika a ala

ya adalah te- ,

e- ,

e- , atau pe-

aka di utuhka

sebuah proses tambahan untuk menentukan tipe awalannya.
3. Jika dua karakter perta a uka
pe-


e- ,

e- , atau

aka erhe ti.

4. Jika tipe awala adalah
o e

di- , ke- , se- , te- ,

o e

aka erhe ti. Jika tipe a ala adalah uka

aka awalan dapat dilihat pada Tabel 3. Hapus awalan jika

ditemukan.


Tabel 3. Cara Me e tuka Tipe Awala U tuk awala

te-

Following Characters
Tipe Awalan
Set 1

Set 2

Set 3

Set 4

-r-

-r-

-

-

none

-r-

-

-

-

ter-luluh

-r-

ot o el or -r-

-er-

vowel

ter

-r-

ot o el or -r-

-er-

not vowel

ter-

-r-

ot o el or -r-

ot -er-

-

ter

ot o el or -r-

-er-

vowel

-

none

ot o el or -r-

-er-

not vowel

-

none

Tabel 4. Jenis Awalan Berdasarkan Tipe Awalannya
Tipe Awalan

Awalan yang harus dihapus

di-

di-

ke-

ke-

se-

se-

te-

te-

ter-

ter-

ter-luluh

ter

Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan
aturan-aturan dibawah ini :
1. Aturan untuk reduplikasi.
a) Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata
yang sama maka root word adalah bentuk tunggalnya, contoh :
uku- uku root word- ya adalah

uku .

b) Kata lai ,

isal ya

olah . U tuk

olak- alik ,

e dapatka

er alas-balasa , da

seolah-

root word-nya, kedua kata diartikan

secara terpisah. Jika keduanya memiliki root word yang sama maka
diu ah

e jadi

e tuk tu ggal, o toh: kata

er alas da

alasa

kata

e iliki root word ya g sa a yaitu

er alas- alasa

maka root word
olak- alik ,

er alas- alasa ,

olak

adalah

da

alik

berbeda, maka root word- ya adalah

alas ,

alas . “e alik ya, pada
e iliki root word yang

olak- alik .

2. Tambahan bentuk awalan dan akhiran serta aturannya.
a) U tuk tipe a ala

e - , kata ya g dia ali de ga a ala

e iliki tipe a ala
b) Tipe a ala

e - .

e g- , kata ya g dia ali de ga a ala

e iliki tipe a ala

e pe gk-

e g- .

Berikut contoh-contoh aturan yang terdapat pada awalan sebagai pembentuk kata
dasar ;
1. Awalan SESe + semua konsonan dan vokal tetap tidak berubah
Contoh :








Se + bungkus = sebungkus
Se + nasib = senasib
Se + arah = searah
Se + ekor = seekor

2. Awalan MEMe + okal a,i,u,e,o

e jadi se gau

Contoh :


Me + inap = menginap

e g









Me + asuh = mengasuh
Me + ubah = mengubah
Me + ekor = mengekor
Me + oplos = mengoplos

Me + ko so a

e jadi

e

Contoh :




Me + beri = member
Me + besuk = membesuk

Me + ko so a s

e jadi

e y luluh

Contoh :




Me + sapu = menyapu
Me + satu = menyatu

Me + ko so a t

e jadi

e

luluh

Contoh :




Me + tanama = menanam
Me + tukar = menukar

Me + ko so a

l, , ,r,

e jadi tetap

Contoh :










Me + lempar = melempar
Me + masak = memasak
Me + naik = menaik
Me + rawat = merawat
Me + warna = mewarna

e

3. Awalan KEKe + semua konsonan dan vokal tetap tidak berubah
Contoh :




Ke + bawa = kebawa
Ke + atas = keatas

4. Awalan PEPe + ko so a

h,g,k da

okal

e jadi per

Contoh :






Pe + hitung + an = perhitungan
Pe + gelar + an = pergelaran
Pe + kantor + = perkantoran

Pe + ko so a

t

e jadi pe

luluh

Contoh :




Pe + tukar = penukar
Pe + tikam = penikam

Pe + ko so a

j,d, ,z

e jadi pe

Contoh :








Pe + jahit = penjahit
Pe + didik = pendidik
Pe + cuci = pencuci
Pe + zina = penzina

Pe + konsona
Contoh :

,f,

e jadi pe





Pe + beri = pemberi
Pe + bunuh = pembunuh

Pe + ko so a

p

e jadi pe

luluh

Contoh :




Pe + piker = pemikir
Pe + potong = pemotong

Pe + ko so a

s

e jadi pe y luluh

Contoh :




Pe + siram = penyiram
Pe + sabar = penyabar

Pe + konsonan (l,m,n,r,w,y) tetap tidak berubah
Contoh :








Pe + lamar = pelamar
Pe + makan = pemakan
Pe + nanti = penanti
Pe + wangi = pewangi

Kelebihan dan Kelemahan Algoritma Nazief dan Adriani
 Kelebihan :

1. Memperhatikan kemungkinan adanya partikel-partikel yang mungkin
mengikuti suatu kata berimbuhan.
2. Proses stemming dokumen teks berBahasa Indonesia menggunakan
Algoritma Nazief dan Adriani memiliki prosentase keakuratan (presisi) lebih
besar dibandingkan dengan stemming menggunakan Algoritma Porter.

 Kelemahan :
1. Penyamarataan makna variasi kata
2. Jumlah database kata dan kata dasarnya harus besar. Kesalahan terjadi bila
kata tidak ditemukan di database dan kemudian dianggap kata dasar,
padahal bukan
3. Lamanya waktu yang diperlukan dalam proses pencarian kata di dalam
kamus.

Daftar Pustaka
Mahendra,K.,2008, Penggunaan Algoritma Semut
dan Confix Stripping
Stemmer untuk Klasifikasi Dokumen Berita Berbahasa Indonesia,Tugas Akhir,Institut
Teknologi Sepuluh November, Surabaya.
http://liyantanto.wordpress.com/2011/06/28/stemming-bahasa-indonesia-denganalgoritma-nazief-dan-andriani/

Dokumen yang terkait

SISTEM OTOMATISASI SONAR (LV MAX SONAR EZ1) DAN DIODA LASER PADA KAPAL SELAM

15 214 17

ANALISIS SISTEM TEBANG ANGKUT DAN RENDEMEN PADA PEMANENAN TEBU DI PT PERKEBUNAN NUSANTARA X (Persero) PABRIK GULA DJOMBANG BARU

36 327 27

ANALISIS KOMPARATIF PENDAPATAN DAN EFISIENSI ANTARA BERAS POLES MEDIUM DENGAN BERAS POLES SUPER DI UD. PUTRA TEMU REJEKI (Studi Kasus di Desa Belung Kecamatan Poncokusumo Kabupaten Malang)

23 307 16

ANALISIS SISTEM PENGENDALIAN INTERN DALAM PROSES PEMBERIAN KREDIT USAHA RAKYAT (KUR) (StudiKasusPada PT. Bank Rakyat Indonesia Unit Oro-Oro Dowo Malang)

160 705 25

DAMPAK INVESTASI ASET TEKNOLOGI INFORMASI TERHADAP INOVASI DENGAN LINGKUNGAN INDUSTRI SEBAGAI VARIABEL PEMODERASI (Studi Empiris pada perusahaan Manufaktur yang Terdaftar di Bursa Efek Indonesia (BEI) Tahun 2006-2012)

12 142 22

SIMULASI SISTEM KENDALI KECEPATAN MOBIL SECARA OTOMATIS

1 82 1

Perancangan Dan Implementasi Algoritma Kompresi Lempel-ZIV-Welch Pada Weblog Berbasis PHP Dan Basis Data Mysql

9 99 1

ANALISIS KELAYAKAN FINANSIAL TERNAK ITIK PETELUR DENGAN SISTEM INTENSIF DAN TRADISIONAL DI KABUPATEN PRINGSEWU

10 119 159

STUDI PERBANDINGAN HASIL BELAJAR DAN KETERAMPILAN PROSES SAINS DITINJAU DARI PENGGUNAAN MODEL PEMBELAJARAN BERBASIS TEKNOLOGI INFORMASI DAN KOMUNIKASI

6 77 70

PENGGUNAAN BAHAN AJAR LEAFLET DENGAN MODEL PEMBELAJARAN THINK PAIR SHARE (TPS) TERHADAP AKTIVITAS DAN HASIL BELAJAR SISWA PADA MATERI POKOK SISTEM GERAK MANUSIA (Studi Quasi Eksperimen pada Siswa Kelas XI IPA1 SMA Negeri 1 Bukit Kemuning Semester Ganjil T

47 275 59