Penggunaan Faktor Hsinchun Chen Dalam Algoritma Genetika Untuk Menemukan Dokumen Yang Mirip

(1)

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM

ALGORITMA GENETIKA UNTUK MENEMUKAN

DOKUMEN YANG MIRIP

TESIS

Oleh

VERA WIJAYA

097038003/TINF

PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA

PROGRAM PASCASARJANA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SUMATERA UTARA

MEDAN

2011

(2)

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM

ALGORITMA GENETIKA UNTUK MENEMUKAN

DOKUMEN YANG MIRIP

TESIS

Oleh

VERA WIJAYA

097038003/TINF

PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA

PROGRAM PASCASARJANA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SUMATERA UTARA

MEDAN

2011

(3)

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM

ALGORITMA GENETIKA UNTUK MENEMUKAN

DOKUMEN YANG MIRIP

TESIS

Diajukan sebagai salah satu syarat untuk memperoleh gelar

Magister Ilmu Komputer dalam Program Studi

Magister Teknik Informatika pada Program Pascasarjana

Fakultas MIPA Universitas Sumatera Utara

Oleh

VERA WIJAYA

097038003/TINF

PROGRAM PASCASARJANA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SUMATERA UTARA

MEDAN

2011

(4)

PENGESAHAN TESIS

Judul Tesis :PENGGUNAAN FAKTOR HSINCHUN

CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP

Nama Mahasiswa : Vera Wijaya Nomor Induk Mahasiswa : 09 70 38 003

Program Studi : Magister Teknik Informatika

Fakultas : Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara

Menyetujui Komisi Pembimbing

Dr. Erna Budhiarti Nababan, MIT Dr. Poltak Sihombing, M.Kom

Pembimbing Anggota Pembimbing Utama

Ketua Program Studi, D e k a n,

Prof. Dr. Muhammad Zarlis

NIP.19570701198601 1003 NIP. 19631026199103 1001 Dr.Sutarman, M.Sc

(5)

PERNYATAAN ORISINALITAS

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP

T E S I S

Dengan ini saya nyatakan bahwa saya mengakui semua karya tesis ini adalah hasil kerja saya sendiri kecuali kutipan dan ringkasan telah di jelaskan sumbernya dengan benar.

Medan, 13 Juni 2011

Vera Wijaya

(6)

PERNYATAAN PERSETUJUAN PUBLIKASI

KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

Sebagai sivitas akademika Universitas Sumatera Utara, saya yang telah bertanda tangan di bawah ini :

Nama : Vera Wijaya

NIM : 097038003

Program Studi : Magister Teknik Informatika Jenis Karya Ilmiah : Tesis

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive

Royalty Free Right) atas Tesis saya yang berjudul :

Penggunaan Faktor Hsinchun Chen Dalam Algoritma Genetika Untuk Menemukan Dokumen Yang Mirip

beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk data-base, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan atau sebagai pemilik hak cipta.

Demikian pernyataan ini dibuat dengan sebenarnya.

Medan, 13 Juni 2011

(7)

Telah diuji pada Tanggal : 28 Juli 2011

PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Opim Salim Sitompul Anggota : 1. Prof. Dr. Muhammad Zarlis

2. Syahril Effendi, S.Si, MIT 3. Dr. Poltak Sihombing, M.Kom 4. Dr. Erna Budhiarti Nababan

(8)

RIWAYAT HIDUP

DATA PRIBADI

Nama lengkap berikut gelar : Vera Wijaya, S.Kom

Tempat dan Tanggal Lahir : Pematang Siantar, 2 Agustus 1983

Alamat Rumah : Kompleks Cemara Asri

Jl. Bungur No.120, Medan

Telepon/Faks/HP : 085261726988/

e-mail

Instansi Tempat Bekerja : STMIK Kristenn Neumann Medan Alamat Kantor : Jl. Jamin Ginting Km. 10,5 Medan

Telepon/Faks/HP :

DATA PENDIDIKAN

SD : Perguruan Kristen Methodist, P.Siantar Tamat : 1995 SMP : Perguruan Kristen Methodist, P.Siantar Tamat : 1998 SMA : Perguruan Kristen Methodist, P.Siantar Tamat : 2001 Strata-1 : Program Studi Sistem Informasi,

Universitas Bina Nusantara, Jakarta.

(9)

KATA PENGANTAR

Pertama-tama saya panjatkan puji syukur kehadirat Tuhan Yang Maha Esa atas segala limpahan rakhmadnya dan karunia-Nya sehingga tesis ini dapat diselesaikan.

Dengan selesainya tesis ini, perkenankanlah saya mengucapkan terima kasih yang sebesar-besarnya kepada yang terhormat :

• Rektor Universitas Sumatera Utara, Bapak Prof. Dr. dr. Syahril Pasaribu, DTM&H (CTM), Sp. A(K) atas kesempatan yang diberikan kepada kami untuk mengikuti dan menyelesaikan pendidikan Program Magister.

• Dekan Fakultas MIPA Universitas Sumatera Utara, Bapak Dr. Sutarman, M.Sc atas kesempatan menjadi mahasiswa Program Magister pada Program Pascasarjana FMIPA Universitas Sumatera Utara.

• Ketua Program Studi Magister Teknik Informatika, Bapak Prof. Dr. Muhammad Zarlis, Sekretaris Program Studi Magister Teknik Informatika, Bapak M.Andri Budiman, ST, M.Comp. Sc. MEM beserta seluruh Staf Pengajar Program Studi Magister Teknik Informatika Program Pascasarjana Fakultas MIPA Universitas Sumatera Utara.

Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Bapak Dr. Poltak Sihombing, M.Kom selaku Promotor/Pembimbing Utama yang dengan penuh perhatian dan telah memberikan dorongan, bimbingan dan tuntunan, demikian juga kepada Ibu Dr. Erna Budhiarti Nababan, MIT selaku Co. Promotor/Pembimbing Lapangan yang penuh kesabaran menuntun dan membimbing kami hingga selesainya penelitian ini.

Kepada Ayah Tukijan Sukardy dan Bunda Po Ing serta anakku terkasih Jasslyn. Terima kasih atas segala pergorbanan kalian baik berupa moril maupun materil, budi baik ini tidak dapat dibalas hanya diserahkan kepada Tuhan Yang Maha Esa.

(10)

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP

ABSTRAK

Kecepatan pertumbuhan data dalam database sering menyebabkan data atau dokumen sulit ditemukan kembali. Hal ini berakibat pada dokumen yang ditemukan oleh suatu search engine tidak relevan (mirip) dengan kueri yang diberikan pada sistem. Tujuan penelitian ini mencoba untuk menjawab kebutuhan diatas dengan mengimplementasikan dan mengkaji penggunaan faktor Hsinchun chen dalam algoritma genetika untuk menemukan kembali dokumen yang diharapkan relevan dengan kueri yang diberikan oleh user. Teknik memanfaatkan faktor kemiripan Hsinchun chen untuk penemuan kembali dokumen dari suatu database. Metode penelitian ini secara garis besar terdiri dari 2 tahapan, yaitu tahapan text preprocessing secara offline kemudian tahapan mengukur nilai kemiripan dokumen dengan faktor hsinchun chen dalam algoritma genetika dan

meretrieve dokumen tersebut. Hasil dari penelitian ini akan dibandingkan dengan

sistem temu kembali jaringan syaraf tiruan metode Hopfiled dengan menggunakan dataset yang sama yang terdiri dari 600 dokumen sebagai ujicoba. Hasil pengujian nilai kemiripan dengan Hsinchun chen ini lebih tinggi jika dibandingkan dengan nilai kemiripan jaringan syaraf tiruan Hopfiled.

Kata Kunci : hsinchun chen, algoritma genetika, nilai kemiripan, penemuan kembali

(11)

THE USE OF HSINCHUN CHEN FACTORS IN GENETIC

ALGORITHM TO RETRIEVE SIMILAR DOCUMENT

ABSTRACT

The speed of growth data in the database often cause data or documents hard to find again. This resulted in a document found by a search engine is not relevant (similar) with a given query on the system. The purpose of this study tries to answer the above needs by implementing and reviewing the use Hsinchun chen factor in the genetic algorithm to find the expected return of documents relevant to the query given by the user. Techniques take advantage of the similarity factor Hsinchun chen to the rediscovery of documents from a database. This research method largely consists of two phases, namely preprocessing stage of the text it offline later stages of document similarity measure value by a factor Hsinchun chen in genetic algorithms and retrieve document. The results of this study will be compared with the retrieval system Hopfiled neural network method using the same dataset consisting of 600 documents as testing. Test results by Hsinchun chen similarity value is higher if compared with the value of artificial neural networks Hopfiled similarity.

(12)

DAFTAR ISI

Halaman

KATA PENGANTAR i

ABSTRAK ii

ABSTRACT iii

DAFTAR ISI iv

DAFTAR TABEL vi

DAFTAR GAMBAR viii

DAFTAR LAMPIRAN ix

BAB I PENDAHULUAN 1

1.1 Latar Belakang 1

1.2 Perumusan Masalah 3

1.3 Tujuan Penelitian 3

1.4 Manfaat Penelitian 4

1.5 Batasan Masalah 4

BAB II TINJAUAN PUSTAKA 6

2.1 Information Retrieval 6

2.2 Similarity (Kemiripan) 8

2.3 Similarity Measure (Ukuran Kemiripan) 9

2.4 Algoritma Genetika 10

2.4.1 Struktur Umum Algoritma Genetika 11

2.4.2 Pengkodean Algoritma Genetika 13

2.4.3 Operator Genetika 14

2.5 Teknik Yang Digunakan Sebelumnya 19

2.5.1 Pendekatan Jaringan Syaraf Tiruan untuk Temu Kembali Informasi

(13)

Kembali Informasi

2.5.3 Pendekatan Bibliometrik untuk Temu Kembali Informasi

BAB III METODE PENELITIAN 26

3.1 Data Penelitian 26

3.2 Keyword 27

3.3 Teknik Penelitian 27

3.3.1 Text Preprocessing 28

3.3.2 Ukuran Kemiripan Hsinchun Chen 30

3.3.3 Implementasi Faktor Hsinchun Chen dalam Algoritma Genetika

3.4 Perancangan Sistem 36

3.4.1 Deskripsi Sistem 37

3.4.2 Perancangan Database 37

3.4.3 Perancangan Perangkat Lunak 40

BAB IV HASIL DAN PEMBAHASAN 44

4.1 Penggunaan Hsinchun Chen dalam Algoritma Genetika untuk Menemukan Kembali Dokumen yang Mirip

4.1.1 Hasil Tahapan Text Preprocessing 44

4.1.2 Pencarian Kemiripan Dokumen dengan Algoritma Genetika

4.2 Perbandingan Hasil Pencarian Kembali Dokumen Menggunakan Algoritma Genetika dengan Jaringan Syaraf Tiruan

BAB V KESIMPULAN DAN SARAN 67

5.1 Kesimpulan 67

5.2 Saran 68

DAFTAR PUSTAKA 70

(14)

DAFTAR TABEL

Nomor

Tabel

Judul

Halaman

2.1 Probabilitas Seleksi dan Nilai Fitness 15

2.2 Perbandingan Teknik dalam Sistem Temu Kembali Informasi

3.1 Rancangan Halaman Perangkat Lunak 41

4.1 Hasil Tahapan Text Processing 47

4.2 Pemodelan Kromosom Solusi 47

4.3 Pembangkitan Populasi Awal 48

4.4.a Hasil Text Processing Dokumen Populasi Awal 49

4.4.b Hasil Text Processing Dokumen Populasi Awal 49

4.5 Hasil Perbandingan Keyword Query dengan Keyword Populasi Awal

4.6 Hasil Pengkodean Kromosom Populasi 51

4.7 Hasil Perhitungan Nilai Fitness 52

4.8 Hasil Seleksi Kromosom 52

4.9 Populasi untuk Generasi Selanjutnya 54

4.10.a Hasil Tahapan Text Processing Generasi Selanjutnya 54 4.10.b Hasil Tahapan Text Processing Generasi Selanjutnya 55

4.11 Hasil Perbandingan Keyword Generasi Selanjutnya 55

4.12 Evaluasi Nilai Fitness Generasi Selanjutnya 56

4.13 Hasil Seleksi Generasi Selanjutnya 57

4.14 Hasil Perhitungan Kemiripan Dokumen 58

4.15 Hasil Pencarian Dokumen dengan Algoritma Genetika 58 4.16 Nilai Kemiripan Dokumen dengan Jaringan Syaraf

Tiruan (JST)

(15)

4.17 Nilai Kemiripan Dokumen dengan Algoritma Genetika 60

4.18 Kueri Jaringan Syaraf Tiruan 61

4.19 Kueri Algoritma Genetika 62

4.20 Hasil Kueri Algoritma Genetika 63

4.21 Hasil Perbandingan Nilai Kemiripan Dokumen

Menggunakan Algoritma Genetika dan Jaringan Syaraf Tiruan

(16)

DAFTAR GAMBAR

Nomor

Gambar

Judul

Halaman

2.1 Diagram Alir Algoritma Genetika 12

2.2 Seleksi Roda Roulette 16

2.3.a Kueri dan Istilah Teraktivasi 20

2.3.b Dokumen Memuat Istilah Teraktivasi dan Kumpulan Dokumen

3.1 Bagan Alir Teknik Pencarian Kembali Dokumen 28

3.2 Bagan Alir Tahapan Text Preprocessing 32

3.3 Bagan Alir Pencarian Kembali Dokumen dengan

Algoritma Genetika

3.4 Pseudocode Penerapan Algoritma Genetika dalam Sistem Pencarian Kembali Dokumen

3.5 Rancangan Diagram ERD 40

3.6 Navigation Diagram Perancangan Perangkat Lunak 42

4.1 Perbandingan Jumlah Dokumen Pencarian 65

(17)

DAFTAR LAMPIRAN

Nomor

Lampiran

Judul

Halaman

A Hasil Perhitungan Nilai Fitness Algoritma Genetika L1

B Hasil Pencarian Nilai Kemiripan Dokumen

Menggunakan Algoritma Genetika

C Hasil Pencarian Dokumen Menggunakan Jaringan

Syaraf Tiruan

D Hasil Pencarian Dokumen Menggunakan Algoritma

Genetika

E Perbandingan Nilai Kemiripan Algoritma Genetika dengan Jaringan syaraf Tiruan

L12

F Daftar Keyword Hasil Tahapan Text Processing L13

G Daftar Stemming L14

H Daftar Stop Word L19

I Data Dokumen Penelitian L24

(18)

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP

ABSTRAK

meretrieve dokumen tersebut. Hasil dari penelitian ini akan dibandingkan dengan

Kata Kunci : hsinchun chen, algoritma genetika, nilai kemiripan, penemuan kembali

(19)

THE USE OF HSINCHUN CHEN FACTORS IN GENETIC

ALGORITHM TO RETRIEVE SIMILAR DOCUMENT

ABSTRACT

(20)

BAB I

PENDAHULUAN

Pada bab ini akan dibahas latar belakang penelitian, perumusan masalah, tujuan penelitian, manfaat penelitian dan batasan masalah.

1.1

LATAR BELAKANG

Perkembangan penggunaan informasi yang cukup tinggi khususnya informasi dalam bentuk teks dokumen menyebabkan kesulitan dalam proses menemukan kembali informasi, sehingga diperlukan suatu cara pendeteksian kemiripan dokumen untuk mendapatkan dokumen yang relevan dan sesuai dengan permintaan pengguna. Proses pendeteksian kemiripan dokumen merupakan pencarian kesamaan beberapa dokumen dengan membandingkan isi dokumen sehingga menghasilkan bobot atau nilai kemiripan dari dokumen yang dibandingkan. Salah satu kegunaan perbandingan isi dokumen adalah untuk membantu pengguna dalam pengelompokan dokumen dan juga memungkinkan pengguna mengetahui apakah isi dokumen yang satu merupakan dokumen yang pada dasarnya sama dengan dokumen yang lain. Menurut Rahman [25], pendeteksian kemiripan dokumen ini dapat dilakukan dengan beberapa teknik, misalnya teknik pencarian informasi (information retrieval), teknik penghitungan statistik, atau dengan menggunakan informasi sintaktik dari kalimat per kalimatnya.

Menurut Wibisono dan Khodra [35], clustering dokumen telah lama diterapkan untuk meningkatkan efektifitas temu kembali informasi. Penerapan

clustering ini bersandar pada suatu hipotesis (cluster-hypothesis) bahwa dokumen

yang relevan akan cenderung berada pada cluster yang sama jika pada koleksi dokumen dilakukan clustering. Beberapa penelitian untuk dokumen berbahasa Inggris menerapkan clustering dokumen untuk memperbaiki kinerja dalam proses

(21)

antara lain Osinki [22], Prakasa [23], dan Widyantoro [34] pada hasil pencarian. Selain dari clustering dokumen yang telah dijelaskan sebelumnya, terdapat beberapa metode yang digunakan untuk pencarian kembali dokumen yaitu :

a. Proses parsing dokumen yaitu pengambilan kata-kata dari dokumen. b. Proses stoplist yaitu pembuangan kata yang tidak mewakili isi dokumen

sehingga tidak dapat dijadikan sebagai indeks.

c. Proses steming kata yaitu proses penghilangan imbuhan yang tidak perlu dari suatu kata turunan (berimbuhan).

d. Proses indexing yaitu pemilihan istilah (indeks) dilakukan oleh Tata[30]. e. Proses mencari hubungan antar dua istilah (similarity of terms).

f. Operasi Boolean terhadap istilah-istilah dalam kueri untuk penemuan kembali dokumen yang diinginkan, dilakukan oleh Hasibuan dan Andri [11].

Sihombing[27] telah melakukan penelitian pendeteksian kemiripan dokumen dengan menggunakan Jaringan Saraf Tiruan Hopfiled dengan memanfaatkan

similarity measure Hsinchun Chen untuk mendapatkan nilai kemiripan dokumen

yang dihasilkan dengan query yang diberikan.

Terdapat sejumlah metode untuk menghitung kesamaan antar dokumen, salah satunya dengan menggunakan ukuran kemiripan (similarity measure) Hsinchun Chen diperkenalkan oleh Chen et al [4]. Hsinchun Chen adalah seorang peneliti di bidang IT, pada tahun 1994 Chen dan teman-temannya melakukan penelitian sistem temu kembali dokumen dan menghasikan suatu formulasi pengukuran kemiripan dokumen, rumus ini dikenal dengan ukuran kemiripan

(similarity measure) Hsinchun Chen.

Algoritma genetika adalah suatu algoritma pencarian yang berbasis pada mekanisme seleksi alam dan genetika. Masalah yang dapat diselesaikan dengan algoritma genetika adalah masalah yang mempunyai kemungkinan solusi yang jumlahnya tak berhingga. Pada sistem pencarian kembali dokumen, masalah yang dihadapi adalah tantangan meledaknya jumlah informasi, sehingga memungkinkan pemberian informasi sesuai kebutuhan semakin rumit.

Dengan latar belakang tersebut penelitian ini mencoba menyelidiki alternatif lain pencarian dokumen, yaitu menggunakan algoritma genetika dengan memanfaatkan ukuran kemiripan (similarity measure) Hsinchun Chen untuk mendapatkan nilai ketepatan pendeteksian dokumen. Kemudian hasil nilai ketepatan dengan pemanfaatan ukuran kemiripan (similarity measure) Hsinchun Chen algoritma genetika akan dibandingkan dengan hasil dari Jaringan Syaraf

(22)

Tiruan .

1.2 PERUMUSAN MASALAH

Berdasarkan latar belakang permasalahan yang telah dikemukakan di atas, maka perumusan masalah penelitian ini adalah :

• Bagaimana mendapatkan nilai kemiripan dokumen yang lebih tinggi dengan kueri yang diberikan?

• Bagaimana hasil nilai kemiripan dokumen yang diperoleh dalam penelitian ini jika dibandingkan dengan penelitian Sihombing [27] dengan menggunakan jaringan syaraf tiruan ?

1.3 TUJUAN PENELITIAN

Tujuan yang akan dicapai dari penelitian ini adalah :

Mendapatkan nilai kemiripan dokumen dengan penerapan faktor Hsinchun Chen dalam algoritma genetika.

Objektif dari penelitian ini adalah :

a. Menjelaskan mekanisme sistem pencarian dokumen dengan mengunakan algoritma genetika.

b. Membangun sebuah perancangan sistem temu kembali dokumen dengan

query yang diberikan.

c. Mendapatkan hasil perbandingan nilai kemiripan dokumen menggunakan algoritma genetika dan jaringan syaraf tiruan.

(23)

1.4 MANFAAT PENELITIAN Manfaat dari penelitian ini adalah :

a. Memahami hal-hal yang perlu dilakukan dalam mengaplikasikan algoritma genetika dalam mencari nilai kemiripan dokumen.

b. Memahami teknik yang dapat diterapkan dalam mencari nilai kemiripan dokumen

c. Menjadi rujukan bagi peneliti yang lain sebagai teknik untuk melakukan

browsing guna menemukan dokumen yang relevan.

1.5 BATASAN MASALAH

Untuk mencegah pembahasan yang terlalu luas maka penulis membatasi ruang lingkup masalah pada penelitian ini adalah sebagai berikut :

a. Batasan model yaitu model algoritma genetika dengan faktor kemiripan yang digunakan adalah Hsinchun Chen.

b. Penelitian ini berfokus pada implementasi algoritma genetika dalam pencarian kembali dokumen, dimana bagian dokumen yang digunakan adalah judul dari setiap dokumen.

c. Bagian dari dokumen yang digunakan untuk penerapan algoritma genetika adalah keyword (kata kunci), dimana keyword tersebut diperoleh dari judul setiap dokumen yang telah mengalami tahapan text preprocessing secara sederhana.

d. Membandingkan nilai kemiripan dokumen yang didapatkan dengan algoritma genetika dan algoritma jaringan syaraf tiruan Hopfield.

e. Dataset yang digunakan berjumlah 600 dokumen, dimana dokumen tersebut berbentuk jurnal, makalah atau penelitian dalam Bahasa Indonesia, dimana dataset tersebut merupakan data yang sama digunakan oleh peneliti sebelumnya Sihombing[27], sehingga dapat dilakukan perbandingan nilai kemiripan dokumen terhadap penelitian yang dilakukan sebelumnya dan dataset yang digunakan dalam penelitian ini merupakan dataset standard

(24)

untuk penelitian di Universitas Indonesia (UI).

Selanjutnya pada bab kedua akan dijelaskan tentang tinjauan pustaka yang mengemukakan konsep dasar pendukung sistem pencarian kembali dokumen menggunakan algoritma genetika dengan ukuran kemiripan Hsinchun Chen, menelaah teori sistem temu kembali informasi dan algoritma genetika untuk pemecahan masalah yang berhubungan dengan penelitian ini.

(25)

BAB II

TINJAUAN PUSTAKA

Pada bab ini akan dibahas mengenai information retrieval, similarity (kemiripan),

similarity measure (ukuran kemiripan), algoritma genetika kemudian dilanjutkan

dengan teknik-teknik yang telah digunakan sebelumnya.

2.1 INFORMATION RETRIEVAL

Rahman [25] mendefinisikan Information Retrieval (IR) sebagai tindakan, metode dan prosedur untuk menemukan kembali data yang tersimpan, dan selanjutnya menyediakan informasi mengenai subyek yang dibutuhkan. Tindakan tersebut mencakup text indexing, inquiry analysis, dan relevance analysis. Data mencakup teks, tabel, gambar, ucapan, dan video. Informasi yang ditemukan adalah merupakan pengetahuan terkait yang dibutuhkan untuk mendukung penyelesaian masalah dan akuisisi pengetahuan [7].

Sistem Temu Kembali Informasi merupakan sistem yang berfungsi untuk menemukan informasi yang relevan dengan kebutuhan pemakai. Salah satu hal yang perlu diingat adalah bahwa informasi yang diproses terkandung dalam sebuah dokumen yang bersifat tekstual. Dalam konteks ini, temu kembali informasi berkaitan dengan representasi, penyimpanan, dan akses terhadap dokumen representasi dokumen. Dokumen yang ditemukan tidak dapat dipastikan apakah relevan dengan kebutuhan informasi pengguna yang dinyatakan dalam

(26)

query. Pengguna Sistem Temu Kembali informasi sangat bervariasi dengan

kebutuhan informasi yang berbeda-beda.

Tujuan dari sistem IR (Information Retrieval) adalah memenuhi kebutuhan informasi pengguna dengan me-retrieve semua dokumen yang mungkin relevan, pada waktu yang sama me-retrieve sesedikit mungkin dokumen yang tak-relevan.

Dokumen sebagai objek data dalam Sistem Temu Kembali Informasi merupakan sumber informasi. Dokumen biasanya dinyatakan dalam bentuk indeks atau kata kunci. Kata kunci dapat diekstrak secara langsung dari teks dokumen atau ditentukan secara khusus oleh spesialis subjek dalam proses pengindeksan yang pada dasarnya terdiri dari proses analisis dan representasi dokumen. Pengindeksan dilakukan dengan menggunakan sistem pengindeksan tertentu, yaitu himpunan kosa kata yang dapat dijadikan sebagai bahasa indeks sehingga diperoleh informasi yang terorganisasi. Sementara itu, pencarian diawali dengan adanya kebutuhan informasi pengguna. Dalam hal ini Sistem Temu Kembali Informasi berfungsi untuk menganalisis pertanyaan (query) pengguna yang merupakan representasi dari kebutuhan informasi untuk mendapatkan pernyataan-pernyataan pencarian yang tepat. Selanjutnya pernyataan-pernyataan pencarian tersebut dipertemukan dengan informasi yang telah terorganisasi dengan suatu fungsi penyesuaian (matching function) tertentu sehingga ditemukan dokumen atau sekumpulan dokumen.

Menurut Grossman and Ophir [10], sistem ini menggunakan fungsi heuristik untuk mendapatkan dokumen-dokumen yang relevan dengan query pengguna. Sistem IR yang baik memungkinkan pengguna menentukan secara cepat dan akurat apakah isi dari dokumen yang diterima memenuhi kebutuhannya. Dengan tujuan dokumen lebih baik dan lebih representasi, maka dokumen-dokumen tersebut dikelompokkan secara bersama yang sesuai dengan topiknya atau isi yang mirip dikelompokkan.

Menurut Frakes and Baeza-Yates [7], ada dua pekerjaan yang ditangani oleh sistem ini, yaitu melakukan pre-processing terhadap database dan kemudian menerapkan metode tertentu untuk menghitung kedekatan (relevansi atau

(27)

query pengguna. Pada tahapan preprocessing, sistem yang berurusan dengan

dokumen semi-structured biasanya memberikan tag tertentu pada term-term atau bagian dari dokumen; sedangkan pada dokumen tidak terstruktur proses ini dilewati dan membiarkan term tanpa imbuhan tag.

Query yang dimasukkan oleh pengguna dikonversi sesuai aturan tertentu

untuk mengekstrak term-term penting yang sejalan dengan term-term yang sebelumnya telah diekstrak dari dokumen dan menghitung relevansi antara query dan dokumen berdasarkan pada term-term tersebut [24]. Sebagai hasilnya, sistem mengembalikan suatu daftar dokumen terurut descending (ranking) sesuai nilai kemiripannya dengan query pengguna [18].

Menurut Tata [30], setiap dokumen (termasuk query) direpresentasikan menggunakan model bag-of-words yang mengabaikan urutan dari kata-kata di dalam dokumen, struktur sintaktis dari dokumen dan kalimat. Dokumen ditransformasi ke dalam suatu “tas“ berisi kata-kata independen. Term disimpan dalam suatu database pencarian khusus yang ditata sebagai sebuah inverted index.

Index ini merupakan konversi dari dokumen asli yang mengandung sekumpulan

kata ke dalam daftar kata yang berasosiasi dengan dokumen terkait dimana kata-kata tersebut muncul.

2.2 SIMILARITY (KEMIRIPAN)

Menurut Guo [13], definisi dari similarity adalah sesuatu yang penting dan merupakan konsep yang digunakan secara luas. Similarity mempunyai beberapa pendekatan, yaitu:

a. Perkiraan 1: kesamaan antara A dan B adalah berhubungan dengan kesamaannya secara umum. Semakin banyak kesamaan umum yang dibagikan, semakin banyak pula kesamaan mereka.

(28)

b. Perkiraan 2: kesamaan antara A dan B adalah berhubungan dengan perbedaan-perbedaan yang dimilikinya. Semakin banyak perbedaan yang dimiliki, semakin kecil tingkat kemiripannya.

c. Perkiraan 3: kesamaan maksimum antara A dan B akan tercapai ketika A dan B adalah serupa atau identik, berapa banyak kesamaan umum yang mereka bagikan tidak berpengaruh.

2.3 SIMILARITY MEASURE ( UKURAN KEMIRIPAN)

Menurut Salton [26], model ruang vektor dan pembobotan tf-idf digunakan untuk merepresentasikan nilai numerik dokumen sehingga kemudian dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor di dalam suatu ruang vektor maka semakin mirip dua dokumen yang diwakili oleh vektor tersebut. Kemiripan antar dokumen dihitung menggunakan suatu fungsi ukuran kemiripan (similarity

measure). Ukuran ini memungkinkan perankingan dokumen sesuai dengan

kemiripan (relevansi)nya terhadap query. Setelah dokumen diranking, sejumlah tetap dokumen top-scoring dikembalikan kepada pengguna.

Alternatifnya, suatu threshold dapat digunakan untuk memutuskan berapa banyak dokumen akan dikembalikan. Threshold dapat digunakan untuk mengontrol tarik-ulur antara presisi dan recall. Nilai threshold tinggi biasanya akan menghasilkan presisi tinggi dan recall rendah.

Ada beberapa metode pengukuran kemiripan yaitu cosine, dice, hsinchun

chen, dan jaccard. Metode yang sering digunakan untuk pengukuran kemiripan

adalah ukuran kemiripan (similarity measure) cosine.

Salah satu ukuran kemiripan dokumen adalah faktor Hsinchun Chen [32]. Menurut Chen et al [4] ukuran kemiripan dengan Hsinchun Chen adalah setiap istilah dapat diwakili oleh satu simpul (node), dimana hubungan antar istilah ini dapat dihitung dengan menggunakan rumusan yang diajukannya seperti pada persamaan 2.1 :

(29)

... (2.1) Dengan

di

jk bernilai 1 (satu) apabila dokumen ke-i memuat istilah j dan istilah k bersama-sama, dan bernilai 0 (nol) pada kasus lainnya. Nilai dij bernilai 1 apabila dokumen ke-i memuat istilah j, dan 0 apabila dokumen ke-i tidak memuat istilah j.

Rumus di atas menyatakan kemiripan antara istilah j dan istilah k yaitu perbandingan antara jumlah dokumen yang memuat istilah j dan istilah k bersama-sama, dengan jumlah dokumen yang memuat istilah j saja. Nilai n adalah jumlah keseluruhan dokumen yang ada dalam koleksi.

Nilai kemiripan (Tj, Tk) mungkin berbeda dengan nilai kemiripan (Tk, Tj), karena nilai pembagi dalam rumus di atas untuk kemiripan (Tk, Tj) adalah jumlah dokumen yang memuat istilah k saja (dik). Ini berarti ada perbedaan nilai keterhubungan dari istilah k ke istilah j dengan nilai keterhubungan dari istilah j ke istilah k.

2.4 ALGORITMA GENETIKA

Menurut Kusumadewi [16] menyatakan bahwa algoritma genetika (AG) adalah suatu algoritma pencarian yang berbasis pada mekanisme seleksi alam dan genetika. Algoritma genetika merupakan salah satu algoritma yang sangat tepat digunakan dalam menyelesaikan masalah optimasi kompleks, yang sulit dilakukan oleh metode konvensional.

Menurut Desiani dan Arhami [6], sifat algoritma genetika adalah mencari kemungkinan-kemungkinan dari calon solusi untuk mendapatkan yang optimal bagi penyelesaian masalah. Ruang cakupan dari semua solusi yang layak

(30)

(feasible), yaitu objek-objek diantara solusi yang sesuai, dinamakan ruang pencarian (search space). Tiap titik dalam ruang pencarian merepresentasikan satu solusi yang layak. Tiap solusi yang layak ditandai dengan nilai fitness-nya bagi masalah.

Ciri-ciri permasalahan yang dapat dikerjakan dengan menggunakan algoritma genetika adalah [1]:

• Mempunyai fungsi tujuan optimalisasi non linear dengan banyak kendala yang juga non linear.

• Mempunyai kemungkinan solusi yang jumlahnya tak berhingga.

• Membutuhkan solusi “real-time” dalam arti solusi bisa didapatkan dengan cepat sehingga dapat diimplementasikan untuk permasalahan yang mempunyai perubahan yang cepat seperti optimasi pada pembebanan kanal pada komunikasi seluller.

• Mempunyai multi-objective dan multi-criteria, sehingga diperlukan solusi yang dapat secara bijak diterima oleh semua pihak.

2.4.1 Struktur Umum Algoritma Genetika

Goldberg [9] mengemukakan bahwa algoritma genetika mempunyai karakteristik-karakteristik yang perlu diketahui sehingga dapat terbedakan dari prosedur pencarian atau optimasi yang lain, yaitu :

1. Algoritma genetika bekerja dengan pengkodean dari himpunan solusi permasalahan berdasarkan parameter yang telah ditetapkan dan bukan parameter itu sendiri.

2. Algoritma genetika melakukan pencarian pada sebuah populasi dari sejumlah individu-individu yang merupakan solusi permasalahan bukan hanya dari sebuah individu.

(31)

3. Algoritma genetika merupakan informasi fungsi objektif(fitness), sebagai cara untuk mengevaluasi individu yang mempunyai solusi terbaik bukan turunan dari suatu fungsi.

Algoritma genetika secara umum dapat diilustrasikan dalam diagram alir gambar 2.1 berikut :

Gambar 2.1. Diagram Alir Algoritma Genetika

Kusumadewi dan Purnomo [17] menyatakan variabel dan parameter yang digunakan pada algoritma genetika adalah :

1. Fungsi fitness (fungsi tujuan) yang dimiliki oleh masing-masing individu untuk menentukan tingkat kesesuaian individu tersebut dengan kriteria yang ingin dicapai.

(32)

3. Probabilitas terjadinya persilangan (crossover) pada suatu generasi. 4. Probabilitas terjadinya mutasi pada setiap individu

5. Jumlah generasi yang akan dibentuk menentukan lama penerapan algoritma genetika.

Secara umum, Thiang et al. [31] mengemukakan bahwa struktur dari suatu algoritma genetika dapat didefenisikan dengan langkah-langkah sebagai berikut :

1. Membangkitkan populasi awal

Populasi awal ini dibangkitkan secara random sehingga didapatkan solusi awal. Populasi ini sendiri terdiri atas sejumlah kromosom untuk merepresentasikan solusi yang diinginkan.

2. Membentuk generasi baru

Untuk membentuk generasi baru, digunakan operator reproduksi/seleksi,

crossover dan mutasi. Proses ini dilakukan berulang-ulang sehingga

didapatkan sejumlah kromosom yang cukup untuk membentuk generasi baru di mana generasi baru ini merupakan representasi dari solusi baru. Generasi baru in dikenal dengan istilah anak (offspring).

3. Evaluasi solusi

Pada tiap generasi, kromosom akan melalui proses evaluasi dengan menggunakan alat ukur yang dinamakan fitness. Nilai fitness suatu kromosom menggambarkan kualitas kromosom dalam populasi tersebut. Proses ini mengevaluasi setiap populasi dengan menghitung nilai fitness setiap kromosom dan mengevaluasinya dampai terpenuhi kriteria berhenti. Bila kriteria berhenti belum terpenuhi maka akan dibentuk lagi generasi baru dengan mengulang langkah 2. Beberapa kriteria berhenti yang sering digunakan antara lain: berhenti pada generasi tertentu, berhenti setelah dalam beberapa generasi berturut-turut didapatkan nilai fitness tertinggi

(33)

tidak berubah, berhenti bila dalam n generasi berikut tidak didapatkan nilai fitness yang lebih tinggi.

2.4.2 Pengkodean Algoritma Genetika

Pengkodean adalah suatu teknik untuk menyatakan populasi awal sebagai calon solusi suatu masalah ke dalam suatu kromosom [8] sebagai suatu kunci pokok persoalan ketika menggunakan algoritma genetika.

Berdasarkan jenis simbol yang digunakan sebagai nilai suatu gen, metode pengkodean dapat diklasifikasikan sebagai berikut: pengkodean biner, bilangan riil, bilangan bulat dan struktur data [8].

Pengkodean biner merupakan cara pengkodean yang paling umum digunakan karena adalah yang pertama kali digunakan dalam algoritma genetika oleh Holland. Keuntungan pengkodean ini adalah sederhana untuk diciptakan dan mudah dimanipulasi.

Pengkodean biner memberikan banyak kemungkinan untuk kromosom walaupun dengan jumlah nilai-nilai yang mungkin terjadi pada suatu gen yang sedikit (0 atau 1). Di pihak lain, pengkodean biner ini sering tidak sesuai untuk banyak masalah dan kadang pengkoreksian harus dilakukan setelah operasi

crossover dan mutasi.

Pengkodean bilangan riil adalah suatu pengkodean bilangan dalam bentuk riil. Masalah optimasi fungsi dan optimalisasi kendala lebih tepat diselesaikan dengan pengkodean bilangan riil karena struktur topologi ruang genotif untuk pengkodean bilangan riil identik dengan ruang fenotifnya, sehingga mudah membentuk operator genetika yang efektif dengan cara memakai teknik yang dapat digunakan yang berasal dari metode konvensional [8].

(34)

Pengkodean bilangan bulat merupakan metode yang mengodekan bilangan dalam bentuk bilangan bulat. Pengkodean ini baik digunakan untuk masalah optimasi kombinational [8].

Pengkodean struktur data adalah model pengkodean yang menggunakan struktur data. Pengkodean ini digunakan untuk masalah kehidupan yang lebih kompleks seperti perencanaan jalur robot dan masalah pewarnaan grap [6].

2.4.3 Operator Genetika

Algoritma genetika merupakan proses pencarian yang heuristik dan acak sehingga penekanan pemilihan operator yang digunakan sangat menentukan keberhasilan algoritma genetika dalam menemukan solusi optimum suatu masalah yang diberikan.

Operator genetika digunakan setelah proses evaluasi tahap pertama untuk membentuk suatu populasi baru dari generasi sekarang. Operator-operator tersebut adalah operator seleksi, crossover dan mutasi.

1. Seleksi

Seleksi bertujuan untuk memberikan kesempatan reproduksi yang lebih besar bagi anggota populasi yang paling fit. Langkah pertama dalam seleksi ini adalah pencarian nilai fitness. Masing-masing individu dalam wadah seleksi akan menerima probailitas reproduksi yang bergantung pada nilai objektif dirinya sendiri terhadap nilai objektif dari semua individu dalam wadah seleksi tersebut. Nilai fitness inilah yang nantinya akan digunakan pada tahap-tahap seleksi berikutnya [16].

(35)

a. Rank-based Fitness

Pada rank-based fitness, populasi diurutkan menurut nilai objektifnya. Nilai fitness tiap-tiap individu hanya tergantung pada posisi individu tersebut dalam urutan, dan tidak dipengaruhi oleh nilai objektifnya.

b. Seleksi Roda Roulette (Roulette Wheel Selection)

Pada metode ini, individu-individu dipetakan dalam sebuah segmen garis secara berurutan sedemikian sehingga tiap-tiap segmen individu memiliki ukuran yang sama dengan ukuran fitness-nya. Sebuah bilangan random dibangkitkan dan individu yang memiliki segmen dalam kawasan bilangan

random tersebut akan terseleksi. Proses ini diulang hingga diperoleh

sejumlah individu yang diharapkan. Pada tabel 2.1 dan gambar 2.2 menunjukkan probabilitas seleksi dari 11 individu. Individu pertama memiliki fitness terbesar, dengan demikian dia juga memiliki individu terbesar. Sedangkan individu ke-10 memiliki fitness terkecil kedua.

Tabel 2.1 Probabilitas Seleksi Dan Nilai Fitness

Individu ke- 1 2 3 4 5 6 7 8 9 10 11

Nilai Fitness 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0

Probabilitas Seleksi

0.18 0.16 0.15 0.13 0.11 0.09 0.07 0.06 0.03 0.02 0.0

(36)

Setelah dilakukan seleksi, maka individu-individu yang terpilih adalah:

1 2 3 5 6 9

c. Stochastic universal sampling

Pada metode ini, individu-individu dipetakan dalam suatu segmen garis secara berurutan sedemikian hingga tiap-tiap segmen individu memiliki ukuran yang sama dengan ukuran fitnessnya seperti halnya pada seleksi roda roulette. Kemudian diberikan sejumlah pointer sebanyak individu yang ingin diseleksi pada garis tersebut. Andaikan N adalah jumlah individu yang akan diseleksi, maka jarak antar pointer adalah 1/N, dan posisi pointer pertama diberikan secara acak pada range [1,1/N].

d. Seleksi dengan pemotongan (Truncation selection)

Seleksi ini biasanya digunakan oleh populasi yang jumlahnya sangat besar. Pada metode ini, individu-individu diurutkan berdasarkan nilai fitnessnya. Hanya individu-individu yang terbaik saja yang akan diseleksi sebagai induk. Parameter yang digunakan dalam metode ini adalah suatu nilai ambang trunc yang mengindikasikan ukuran populasi yang akan diseleksi sebagai induk yang berkisar antara 50%-10%. Individu-individu yang ada di bawah nilai ambang ini tidak akan menghsilkan keturunan.

e. Seleksi dengan turnamen (Turnament Selection)

Pada metode seleksi dengan turnamen ini, akan ditetapkan suatu nilai tour untuk individu-individu yang dipilih secara random dari suatu populasi. Individu-individu yang terbaik dalam kelompok ini akan diseleksi sebagai induk. Parameter yang digunakan pada metode ini adalah ukuran tour yang bernilai 2 sampai N (jumlah individu dalam suatu populasi).

2. Crossover

Operator persilangan merupakan operasi yang bekerja untuk menggabungan dua kromosom orang tua (parent) menjadi kromosom baru (offspring). Tidak semua

(37)

kromosom mengalami persilangan. Jumlah kromosom dalam populasi yang mengalami persilangan ditentukan oleh paramater yang disebut dengan crossover

rate (probabilitas persilangan) .

Beberapa jenis crossover tersebut adalah a. Crossover satu titik

Proses crossover dilakukan dengan memisahkan suatu string menjadi dua bagian dan selanjutnya salah satu bagian dipertukarkan dengan salah satu bagian dari string yang lain yang telah dipisahkan dengan cara yang sama. Misalkan ada 2 kromosom dengan panjang 12 :

Induk 1 : 0 1 1 1 0 | 0 1 0 1 1 1 0 Induk 2 : 1 1 0 1 0 | 0 0 0 1 1 0 1 Posisi yang dipilih : 5

Kromosom baru yang terbetuk: Anak 1 : 0 1 1 1 0 | 0 0 0 1 1 0 1 Anak 2 : 1 1 0 1 0 | 0 1 0 1 1 1 0 b. Crossover banyak titik

Proses crossover ini dilakukan dengan memisahkan suatu string menjadi beberapa bagian dan selanjutnya dipertukarkan dengan bagian dari string yang lain yang telah dipisahkan dengan cara yang sama sesuai dengan urutannya.

Misalkan ada 2 kromosom dengan panjang 12 : Induk 1 : 0 1 | 1 1 0 0 | 1 0 1 1 | 1 0

Induk 2 : 1 1 | 0 1 0 0 | 0 0 1 1 | 0 1 Posisi yang dipilih : 5

(38)

Kromosom baru yang terbetuk: Anak 1 : 0 1 | 0 1 0 0 | 1 0 1 1 | 0 1 Anak 2 : 1 1 | 1 1 0 0 | 0 0 1 1 | 1 0

c. Crossover seragam

Kromosom seragam menghasilkan kromosom keturunan dengan menyalin bit-bit secara acak dari kedua orang tuanya.

Misalkan ada 2 kromosom dengan panjang 12 Induk 1 : 0 1 1 1 0 0 1 0 1 1 1 0

Induk 2 : 1 1 0 1 0 0 0 0 1 1 0 1 Kromosom baru yang terbentuk: Anak 1 : 0 1 0 1 0 0 0 0 1 1 1 0 Anak 2 : 1 1 1 1 0 0 1 0 1 1 0 1

3. Mutasi

Mutasi merupakan proses mengubah nilai dari satu atau beberapa gen dalam suatu kromosom. Beberapa cara operasi mutasi diterapkan dalam algoritma genetika menurut jenis pengkodean terhadap phenotype, antara lain:

a. Mutasi dalam pengkodean biner

Mutasi pada pengkodean biner merupakan operasi yang sangat sederhana. Proses yang dilakukan adalah menginversi nilai bit pada posisi tertentu yang dipilih secara acak (atau dengan menggunakan skema tertentu ) pada kromosom, yang disebut inversi bit.

(39)

Kromosom sebelum mutasi : 1 0 0 1 0 1 1 1 Kromosom sesudah mutasi : 1 0 0 1 0 0 1 1 b. Mutasi dalam pengkodean permutasi

Proses mutasi yang dilakukan dalam pengkodean biner dengan mengubah langsung bit-bit pada pada kromosom tidak dapat dilakukan pada pengkodean permutasi karena konsistensi urutan permutasi harus diperhatikan. Salah satu cara yang dapat dilakukan adalah dengan memilih dua posisi (locus) dari kromosom dan kemudian nilainya saling dipertukarkan.

Contoh mutasi dalam pengkodean permutasi

Kromosom sebelum mutasi : 1 2 3 4 6 5 8 7 9 Kromosom sesudah mutasi : 1 2 7 4 6 5 8 3 9 c. Mutasi dalam pengkodean nilai

Proses mutasi dalam pengkodean nilai dapat dilakukan dengan berbagai cara, salah satunya yaitu dengan memilih sembarang posisi gen pada kromosom, nilai yang ada tersebut kemudian ditambahkan atau dikurangkan dengan suatu nilai kecil tertentu yang diambil secara acak. Contoh mutasi dalam pengkodean nilai riil dengan nilai yang ditambahkan atau dikurangkan adalah 0,1

Kromosom sebelum mutasi : 1,43 1,09 4,51 9,11 6,94 Kromosom sesudah mutasi : 1,43 1,19 4,51 9,01 6,94

(40)

2.5 TEKNIK YANG DIGUNAKAN SEBELUMNYA

Terdapat beberapa teknik yang telah dikembangkan oleh para peneliti sebelumnya untuk menyelesaikan permasalahan dalam sistem pencarian kembali dokumen. Beberapa teknik yang telah dipergunakan sebelumnya adalah:

• Pendekatan jaringan syaraf tiruan untuk temu kembali informasi. • Pendekatan operator boolean untuk temu kembali informasi • Pendekatan bibliometrik untuk temu kembali informasi.

2.5.1 Pendekatan Jaringan Syaraf Tiruan Untuk Temu-Kembali Informasi Jaringan syaraf tiruan terinspirasi dari sistem pengorganisasian otak manusia yang terdiri dari beratus milyar sel syaraf dengan tipe yang bervariasi.

Sihombing [27,28] menerapkan jaringan syaraf tiruan untuk temu kembali informasi dengan menggunakan beberapa ukuran kemiripan. Dalam terminologi dan konsep jaringan syaraf tiruan untuk sistem temu kembali informasi, dibangun

node-node (neuron-neuron) yang merepresentasikan objek-objek dan links yang

merepresentasikan hubungan objek-objek tersebut. Pendekatan sifat struktur JST dibangun didasarkan pada pengertian sebagai berikut :

a. Objek: adalah sesuatu yang memiliki identitas atau entity konseptual untuk

sistem temu kembali informasi.

b. Connection: menyatakan hubungan diantara dua objek, dimana

keterhubungan ini dapat memiliki bobot, yang menentukan kekuatan (kemiripan) hubungan diantara objek tersebut .

Pendekatan pada pengertian dasar struktur ini dapat dilihat pada gambar 2.3 (a) dan (b) berikut ini :

(41)

Gambar 2.3 (a) kueri dan istilah aktivasi.

(b) dokumen memuat istilah teraktivasi dan kumpulan dokumen Crestani and Rijsbergen [5]

Pada gambar 2.3 ditunjukkan bahwa dalam jaringan syaraf tiruan suatu kueri ( ) bisa mengaktivasi beberapa istilah lain menjadi istilah teraktivasi ( ), dan kueri yang berbeda dapat mengaktivasi istilah yang sama. Pada beberapa dokumen yang memuat istilah teraktivasi, dapat memiliki persamaan dengan suatu dokumen dari kumpulan dokumen.

Pendekatan jaringan syaraf tiruan dapat memformulasikan suatu istilah (j) yang diwakili oleh suatu simpul (node atau neuron), dan hubungan antar istilah diantara istilah (j) dengan istilah lain (k) dalam kumpulan dokumen yang dihitung dengan menggunakan ukuran kemiripan (similarity measure).

Hasil dari penerapan jaringan syaraf tiruan pada sistem temu kembali informasi adalah jaringan syaraf tiruan mampu mengakomodir istilah lain yang tidak disajikan kueri dan dapat mengatasi kekakuan sistem kueri Boolean. Dokumen yang diperoleh adalah dokumen yang sebagian relevan yang memuat kueri dan yang memuat istilah teraktivasi yang terurut berdasarkan bobotnya. Jumlah istilah teraktivasi berbanding lurus dengan dokumen yang memuat teraktivasi. Peringkat dokumen adalah konsisten, artinya dokumen yang berada

(42)

pada peringkat atas, juga tetap berada pada range tersebut pada pengukuran kemiripan lainnya, walaupun ada perubahan bobot.

2.5.2 Pendekatan Operator Boolean Untuk Kembali Informasi

Mustangimah [21] melakukan penelitian menggunakan operator boolean untuk mengetahui efektivitas pencarian kembali dokumen, dengan cara mengajukan pertanyaan-pertanyaan. Metode yang paling banyak digunakan dalam mengajukan pertanyaan adalah logika aljabar Boole yaitu dengan melakukan operasi dengan operator AND, OR, dan NOT. Kesederhanaan pengolahan data dan kemampuannya dalam membangun konsep dari beberapa istilah merupakan alasan dalam penggunaan logika Boole.

Salton [26] menjelaskan operasi dengan operator AND antara dua himpunan atau lebih menghasilkan hasil logis (logical product), irisan (intersection) atau disjungsi (disjunction) antara himpunan-himpunan sebelumnya. Operasi dengan operator OR antara dua himpunan atau lebih menghasilkan jumlah logis (logical sum), gabungan (union), atau konjungsi (conjunction) antara himpunan-himpunan sebelumnya, sedangkan operasi dengan operator NOT antara dua himpunan menghasilkan perbedaan logis (logical

difference) antara kedua himpunan sebelumnya.

Dalam proses temu-kembali informasi operator Boole digunakan untuk membantu pembentukan konsep pencarian dari beberapa istilah pencarian. Namun menunjukkan bahwa penggunaan operator AND, OR, dan NOT bervariasi antara pemakai yang satu dengan yang lainnya. Ditemukan bahwa operator AND hampir hanya sekali digunakan oleh pemakai, OR sangat banyak digunakan, dan NOT hampir tidak pernah digunakan.

Mustangimah [21] menggunakan operator boolean untuk menggabungkan istilah dan konsep pencarian. Untuk meningkatkan ketaatazasan dalam

(43)

pembentukan konsep pencarian, penggabungan istilah-istilah yang menggambarkan konsep yang sama dilakukan dengan operator OR. Sedang penggabungan istilah-istilah yang menggambarkan konsep yang berbeda dilakukan dengan operator AND dan NOT.

Proses pencarian harus dilakukan dengan strategi tertentu yang disesuaikan dengan fasilitas yang disediakan oleh sistem. Strategi pencarian merupakan himpunan keputusan atau tindakan yang dilakukan dalam proses pencarian, dengan tujuan untuk menemukan sejumlah cantuman yang relevan, menghindari ditemukannya cantuman yang tidak relevan, menghindari ditemukannya jumlah cantuman yang terlalu banyak, dan menghindari ditemukannya jumlah cantuman yang terlalu sedikit atau tidak ditemukan cantuman sama sekali. Dalam pencarian berbasis logika boolean, strategi pencarian dibangun berdasarkan istilah pencarian yang telah dipilih yang dikoordinasikan dengan AND, OR, atau NOT.

Pendekatan ini telah dikembangkan oleh peneliti lainnya seperti Hasibuan dan Andri [11] dengan melakukan penerapan berbagai teknik sistem temu-kembali informasi berbasis hiperteks seperti teknik Boolean biasa, teknik Boolean berperingkat dan teknik Extended Boolean.

2.5.3. Pendekatan Bibiometrik Untuk Temu Kembali Informasi

Bibliometrika merupakan studi mengenai produksi dan penyebaran informasi yang secara operasional dikaji melalui produksi dan penyebaran media yang merekam informasi untuk disimpan dan disebarluaskan. Bibliometrik merupakan bagian dari informatika yang mengkaji aspek kuantitatif informasi terekam (recorded) dengan tujuan untuk mencari bentuk-bentuk keteraturan dalam proses komunikasi formal.

(44)

Metode bibliometrik banyak digunakan untuk mengukur kesamaan atau hubungan antara pasangan dokumen. Menurut Ikpaahindi [14] metode bibliometrik dapat dilakukan dengan cara perhitungan sitiran langsung (direct

citation counting), pasangan bibliografi (bibliograhic coupling), dan analisis

ko-sitiran (co-citation analysis). Metode tersebut didasarkan pada hubungan antara dokumen yang disisir dengan dokumen yang menyitir.

Hubungan antara dokumen yang disisr dengan dokumen yang menyitir dapat ditelusuri melalui motivasi, tujuan, dan fungsi sitiran dalam berbagai jenis ilmu. Liu [20] mengemukakan bahwa fungsi sitiran dalam bidang humaniora dapat diklasifikasikan sebagai dokumentasi sumber primer dan sekunder untuk baik di dalam maupun di luar topik dokumen yang menyitir, untuk menyatakan kesetujuan atau ketidaksetujuan pengarang yang menyitir terhadap dokumen yang disitir, dan untuk menyediakan informasi bibliografi.

Liu [20] mengidentifikasi indikator hubungan antara dokumen yang disitir dengan dokumen yang menyitir yaitu sebagai penjelasan, memberikan informasi umum, hubungan historis, hubungan “saudara kandung”, hubungan oposisional, hubungan koroboratif, memberikan informasi spesifik, dokumentasi, hubungann metodologis, dan hubungan korektif.

Menurut Liu [20] bahwa antara dokumen yang disitir dan dokumen yang menyitir terdapat hubungan subjek pada tingkat tertentu. Berdasarkan hubungan tersebut maka dapat dicari hubungan antara 2 (dua) dokumen yang menyitir dokumen yang sama. Menurut Grosman and Ophir [10] bahwa hubungan dua dokumen berdasarkan bibliografi yang digunakan bersama oleh kedua dokumen dengan menggunakan konsep pasangan bibliografi (bibliographic coupling). Bila 2 dokumen menyitir paling sedikit satu dokumen yang sama, maka kedua dokumen tersebut berpasangan secara bibliografi dengan pengindeksan subjek diperoleh kesimpulan bahwa ada hubungan yang nyata antara pasangan bibliografi dengan pengindeksan subjek secara analitik .

(45)

Banyaknya dokumen yang disitir secara bersama oleh pasangan dokumen disebut sebagai frekuensi pasangan atau kekuatan pasangan (coupling strength). Beberapa penelitian menunjukkan adanya hubungan antara kekuatan pasangan dengan keterhubungan subjek.

Adanya hubungan antara pasangan pasangan bibliografi dengan keterhubungan subjek dimanfaatkan untuk memperbaiki efektivitas temu kembali informasi. Ditemukan bahwa efektivitas temu kembali informasi meningkat dengan menggunakan pencarian berdasarkan kata kunci atau indeks dan pencarian berdasarkan sitasi.

Dari uraian sebelumnya mengenai beberapa pendekatan dalam sistem temu kembali informasi, maka dapat disimpulkan seperti tabel 2.2 di bawah ini: Tabel 2.2 Perbandingan Teknik dalam Sistem Temu Kembali Informasi

Pendekatan Sistem Temu Kembali Informasi

Jaringan Syaraf Tiruan Operator Boolean Bibliometrik •Sistem

memformulasikan suatu istilah (j) yang diwakili oleh suatu simpul, dan hubungan

antar istilah direpresentasikan oleh

neural network links.

• Sistem diformulasikan dengan mengajukan pertanyaan- pertanyaan, baik pertanyaan sederhana maupun pertanyaan kompleks.

• Sistem melakukan

perhitungan sitiran langsung, pasangan bibliografi, dan analisis

ko-sitiran, dan didasarkan pada hubungan antara dokumen yang disitir dengan dokumen yang menyitir.

(46)

•Sistem yang diimplementasikan

mampu mengaktivasi istilah-istilah lainnya yang tidak dijadikan kueri oleh pemakai.

• Hasil dari sistem adalah dokumen yang memuat kueri dan dokumen yang memuat istilah teraktivasi, dan memuat nilai ketepatan lebih baik

dari operator bolean.

• Sistem

menggunakan logika aljabar boolean dengan operator AND,OR dan NOT

yang mampu membantu

pembentukan

konsep pencarian dari beberapa istilah pencarian

• Hasil dari sistem adalah dokumen memuat kueri dengan nilai ketepatan di atas 50

%, baik dengan pertanyaan sederhana maupun kompleks diimplementasikan melalui pasangan bibliografi yang memberikan indikasi hubungan antara dua dokumen, bukan dalam bentuk keterhubungan subjek.

• Hasil dari sistem adalah dokumen yang memiliki hubungan pasangan bibliografi, sehingga memberikan kontribusi yang lemah terhadap pemasangan dokumen karena tidak berdasarkan subjek dokumen.

Menurut Grossman and Ophir [10], sistem temu kembali informasi menggunakan fungsi heuristik untuk mendapatkan dokumen-dokumen yang relevan dengan query pengguna. Kekäläinen [15] melakukan penelitian pencarian kembali dokumen dengan melakukan pendekatan binary.

(47)

Penulis mencoba melakukan penelitian pencarian kembali dokumen dengan salah satu metode optimasi heuristik yaitu algoritma genetika dan memanfaatkan binary untuk pengkodean kromosom, dengan tujuan mampu memberikan hasil yang efektif dalam pencarian kembali dokumen selain pendekatan-pendekatan sistem temu kembali dokumen yang diuraikan sebelumnya.

Pada bab selanjutnya akan dijelaskan tentang metode penelitian dari pencarian kembali dokumen menggunakan algoritma genetika dengan memanfaatkan ukuran kemiripan Hsinchun Chen.

(48)

BAB III

METODE PENELITIAN

Pada bab ketiga ini dibahas metode penelitian yang mencakup data yang digunakan dan teknik penelitian serta perancangan sistem dalam penggunaan faktor hsinchun chen dalam algoritma genetika untuk penentuan nilai kemiripan dokumen.

3.1 DATA PENELITIAN

Data penelitian dalam pencarian nilai kemiripan dokumen berbentuk teks koleksi dokumen dan bersumber dari penelitian Sihombing [27]. Koleksi dokumen yang digunakan adalah kumpulan dokumen abstrak penelitian dan karya ilmiah dalam bidang sains dan teknologi nuklir yang dihasilkan oleh Badan Tenaga Atom Nasional (BATAN), dan data penelitian yang digunakan merupakan data standard penelitian di Universitas Indonesia. Naskah lengkap dokumen tersebut dimuat dalam Majalah BATAN volume XIV tahun 1981 sampai dengan XXVII tahun 1995 dan Prosiding Pertemuan dan Presentasi Ilmiah Bahan Murni dan Instrumentasi Nuklir tahun 1985, 1986, 1988, 1989, dan 1991. Pangkalan data ini terdiri dari 600 dokumen yang terdiri dari Nomor dokumen (DOC), Judul (TIT). (data terlampir pada lampiran I ).

(49)

Penelitian ini berfokus pada judul dari data dokumen, sehingga bagian dari data yang diterapkan pada teknik pencarian kembali dokumen adalah judul dari setiap dokumen.

3.2 KEYWORD (KATA KUNCI)

Menurut Trunojono[33], keyword adalah nama untuk term-term dalam word list yang menginterpretasikan content (isi) dari item-item informasi. Keyword biasanya disimpan dalam indeks pencarian, kata-kata umum dalam dokumen (seperti suatu dan sebuah) dan konjungsi ( seperti dan, atau, dan tetapi) tidak diperlukan sebagai kata kunci karena itu tidak efisien untuk melakukan pencarian dokumen. Bahasa keyword adalah bahasa yang digunakan untuk menggambarkan dokumen dan permintaan. Elemen dari keyword adalah istilah yang mungkin berasal dari teks dokumen dan bersifat independen.

Masalah dalam pencarian keyword ada 2 yaitu :

1. Mungkin tidak meretrieve dokumen relevan yang menyertakan

synonymous terms (mempunyai pengertian yang sama).

– “restaurant” vs. “café”

– “NDHU” vs. “National Dong Hwa University”

2. Mungkin meretrieve dokumen tak-relevan yang menyertakan ambiguous terms.

– “bat” (baseball vs. mamalia)

– “Apple” (perusahaan vs. buah-buahan) – “bit” (unit data vs. perilaku menggigit)

(50)

Penelitian ini berfokus pada keyword dokumen untuk penentuan kemiripan dokumen, tetapi data penelitian keyword belum tersedia sehingga memerlukan metode pencarian keyword. Metode pencarian keyword dokumen yang digunakan adalah text preprocessing.

3.3 TEKNIK PENELITIAN

Teknik penelitian dalam sistem pencarian kembali dokumen adalah pemanfaatan nilai kemiripan Hsinchun Chen dalam algoritma genetika , dengan tujuan untuk menghasilkan dokumen yang relevan dengan dokumen kueri. Berikut adalah diagram alir teknik penelitian pada gambar 3.1 :

(51)

Pada gambar 3.1 menunjukkan bahwa secara garis besar sistem pencarian kembali dokumen terdiri dari 2 tahapan besar yaitu : text preprocessing dan tahap mengukur kemiripan dokumen menggunakan ukuran kemiripan Hsinchun Chen dan algoritma genetika.

3.3.1 Text Preprocessing

Pada tahapan text preprocessing, terdiri dari 6 proses yang dijalankan secara

offline, yaitu :

1. Menghilangkan tanda baca (case folding) dan mengubah judul setiap dokumen menjadi huruf kecil.

Proses pertama dalam tahapan ini adalah menghilangkan tanda baca (case folding), tanda baca yang akan dihilangkan dalam dokumen adalah spasi. Selanjutnya akan melakukan proses lower yaitu mengubah seluruh isi judul dokumen menjadi huruf kecil.

2. Menghilangkan stop word

Stop Word adalah kata yang sering muncul namun kata tersebut tidak

relevan dengan sebuah artikel atau dokumen. Kata-kata tersebut diantaranya kata sambung dan kata tanya. Dengan menghapus stop word, hasil preprocessing dapat lebih baik karena proses perhitungan jumlah kata tidak tecampur dengan jumlah dari stop word yang ada pada suatu dokumen. Penyusunan daftar stop word ini dilakukan secara manual dengan memperhatikan judul yang terdapat pada dokumen. Dalam penelitian ini stop word yang digunakan sebanyak 144 kata. (data terlampir pada lampiran H.)

3. Stemming

Stemming adalah proses mengembalikan kata menjadi kata dasarnya. Hal

(52)

sebuah kata. Karena stemming menghilangkan imbuhan dari sebuah kata dan tiap bahasa memiliki cara tersendiri dalam menambahkan imbuhan didalamnya, sehingga jumlah ragam kata yang ada di dalam dokumen dapat berkurang dan dapat mengoptimalkan text preprocessing. Proses stemming ini bukan merupakan kajian utama dalam penelitian ini dan dilakukan secara manual yaitu dengan mendaftarkan kata-kata berimbuhan dan menggantinya dengan kata dasar dari kata berimbuhan tersebut. Dalam penelitian ini kata berimbuhan yang digunakan sebanyak 353 kata. (data terlampir pada lampiran G)

4. Update Istilah

Terdapat berbagai istilah kimia didalam data dokumen penelitian ini karena data penelitian yang digunakan adalah dokumen dari BATAN dan penulisan istilah kimia dalam dokumen tidak konsisten (ada judul dokumen yang menggunakan simbol kimia dan ada yang menggunakan nama kimia), maka memerlukan proses update istilah untuk mengatasi masalah pada keyword yaitu term-term yang mempunyai pengertian yang sama (synonymous terms).

Proses ini akan mendaftar istilah-istilah kimia ( unsur dan senyawa kimia), sehingga apabila terdapat simbol-simbol kimia didalam dokumen akan diganti menjadi nama kimia dari simbol yang ditemukan.

5. Remove kata yang mengandung 1 huruf dan angka

Proses ini akan menghapus kata-kata yang mengandung 1 huruf, karena kata tersebut kurang efisien dijadikan sebagai keyword sebab mengundung makna yang ambigu. Demikian halnya terhadap angka, angka di dalam dokumen juga akan dihapus sebab mengandung makna yang ambigu apabila dijadikan sebagai keyword.

(53)

6. Tokenisasi

Tokenisasi merupakan proses terakhir pada tahapan text preprocessing dan proses memecah dokumen menjadi kumpulan kecil, dengan mendapatkan

keyword-keyword dari setiap dokumen yang tersedia, keyword-keyword

tersebut akan disimpan pada sebuah pangkalan data daftar keyword. Keyword-keyword dokumen yang tersimpan pada daftar keyword akan menjadi input dalam tahapan pencarian kembali dokumen selanjutnya yaitu algoritma genetika.

Dari proses-proses tahapan text preprocessing yang telah dijelaskan sebelumnya, dapat disimpulkan dengan bagan alir (flowchart) pada gambar 3.2.

(54)

3.3.2 Ukuran Kemiripan Hsinchun Chen

Sihombing et al. (2005), melakukan penelitian menggunakan algoritma genetika dan memanfaatkan ukuran kemiripan (similarity measure) Jaccard, untuk pencarian kembali dokumen, dengan kesimpulan dari penelitian tersebut adalah ukuran kemiripan Jaccard dapat memberikan hasil nilai kemiripan yang cukup tinggi terhadap kueri.

Pada penelitian ini, sistem pencarian kembali dokumen yang dibangun mencoba menerapkan ukuran kemiripan Hsinchun Chen dalam algoritma genetika dengan harapan dapat menghasilkan nilai kemiripan dokumen yang optimal. Cara implementasi dari ukuran kemiripan Hsinchun Chen dalam algoritma genetika adalah rumus relevansi ukuran kemiripan Hsinchun Chen akan menjadi fungsi fitness, dimana proses menghitung fungsi fitness merupakan salah satu tahapan dari algoritma genetika. Keunggulan dari penerapan ini adalah nilai kemiripan suatu dokumen terhadap kueri dapat diketahui pada tahapan perhitungan nilai fitness. Ukuran kemiripan (similarity measure) dengan Hsinchun Chen yang diterapkan dalam fungsi fitness seperti berikut ini :

...merujuk ke rumus (2.1) Dari persamaan(1), menyatakan bahwa dijk bernilai 1 (satu) apabila dokumen ke-i memuat istilah j dan istilah k bersama-sama, dan bernilai 0 (nol) pada kasus lainnya. Nilai dij bernilai 1 apabila dokumen ke-i memuat istilah j, dan 0 apabila dokumen ke-i tidak memuat istilah j.

3.3.3 Mengukur Kemiripan Dokumen Menggunakan Ukuran Kemiripan Hsinchun Chen Dalam Algoritma Genetika

Setelah menjalankan tahapan text preprocessing secara offline, akan diterapkan teknik algoritma genetika yang dijalankan secara online dengan input sistem

(55)

adalah kueri dokumen dari user, dimana kueri dokumen tersebut berupa judul dari dokumen. Pada tahapan ini terdiri dari proses sebagai berikut :

1. Pengkodean kromosom solusi

Pengkodean kromosom yang digunakan dalam penelitian ini adalah pengkodean biner, gen yang digunakan menggunakan bit (0 dan 1). Pada saat menerima input suatu kueri, akan dilakukan pencarian keyword terhadap dokumen kueri. Setiap keyword yang didapatkan akan diidentifikasikan dengan bit untuk inisial populasi.

2. Membangkitkan populasi awal

Pada proses populasi awal akan dipilih 10 dokumen dari database secara acak dengan pertimbangan kinerja lebih efektif dibandingkan pemilihan jumlah dokumen yang lebih kecil dari 10, dengan alasan jumlah pengulangan generasi untuk pembangkitan populasi awal menjadi semakin banyak. Sementara terdapat banyak jumlah dokumen dalam database yang akan menjadi populasi awal untuk generasi selanjutnya.

Kemudian sistem akan mendapatkan keyword-keyword masing-masing dokumen yang dipilh pada populasi awal. Keyword dari dokumen kueri akan dibandingkan dengan keyword pada dokumen populasi awal yang terpilih sebelumnya.

Setiap bit merepresentasikan secara unik untuk proses pencarian dengan algoritma genetika. Ketika suatu keyword pada dokumen populasi awal terdapat pada keyword dokumen query maka bit akan direpresentasikan menjadi 1. Ketika keyword tersebut tidak terdapat maka bit akan direpresentasikan menjadi 0, sehingga output dari proses ini adalah pengkodean kromosom untuk populasi awal.

(56)

3. Menghitung nilai fitness dengan Hsinchun Chen

Proses ini merupakan implementasi ukuran kemiripan Hsinchun Chen sebagai rumus relevansi perhitungan nilai fitness. Penerapan rumus nilai kemiripan dokumen Hsinchun Chen dalam fungsi fitness sebagai berikut:

• dij : gen dari kromosom solusi yang direpresentasikan dengan nilai 1

• ∑ dij : total perjumlahan gen pada kromosom solusi yang bernilai 1.

• dijk : gen dari kromosom populasi yang bernilai 1 pada pengkodean kromosom populasi

• ∑ dijk : total penjumlahan nilai 1 pada gen dari kromosom populasi.

Sebagai contohnya dapat diilustarikan sebagai berikut

Kromosom Solusi : 111111 ∑ dij = 6 Kromosom Populasi : 000101 ∑ dijk = 2

Sehingga dari ilustarsi diatas, nilai fitness hasil penerapan rumus Hsinchun Chen adalah 0,25 (∑ dijk / ∑ dij artinya 2/6)

4. Seleksi

Dalam tahap seleksi ini akan memilih 2 kromosom dari populasi awal untuk setiap generasi dengan nilai fitness paling besar. Nilai kromosom yang lebih kecil akan diabaikan untuk proses pencarian kemiripan dokumen.

5. Crossover

Metode crossover yang digunakan adalah crossover satu titik. Kromosom dengan nilai fitness tertinggi hasil dari tahapan seleksi yang akan mengalami tahapan crossover. Posisi yang dipilih adalah nilai median dari

(57)

total gen pada kromosom dengan pembulatan keatas, seperti pada contoh dibawah ini :

Sebelum Crossover :

1011010100 0010010010 Posisi : 9 /2 = 5

Sesudah Crossover :

1011010010 0010010100

Kemudian akan dilakukan perhitungan nilai fitness, kromosom nilai fitness terbesar yang akan mengalami tahapan mutasi.

6. Mutasi

Metode mutasi yang digunakan adalah mutasi pengkodean biner, dimana kromosom yang akan dimutasi adalah kromosom dengan nilai fitness tertinggi dari tahapan crossover. Posisi yang dipilih untuk mutasi adalah median dari total gen pada kromosom dengan pembulatan keatas, seperti pada contoh yang diuraikan di bawah ini :

Sebelum Mutasi :1011010010 Posisi : 9/2 =5

Sesudah Mutasi : 1011110010

Selanjutnya dilakukan pencarian kromosom di dalam dokumen, apabila kromosom tersebut merepresentasikan dokumen maka kromosom tersebut akan dihitung nilai fitnessnya dilanjutkan dengan proses perbandingan nilai fitness hasil seleksi dan mutasi, sehingga dokumen dengan nilai fitness tertinggi yang akan dimasukkan ke dalam tabel kemiripan.

Jika kromosom mutasi tidak mereprentasekan pada dokumen yang tersedia maka kromosom tersebut akan diabaikan dan dokumen dari hasil seleksi yang akan dimasukkan ke dalam tabel kemiripan.

(58)

Pada tahapan algoritma genetika ini akan melakukan langkah 2 diatas sampai langkah 6, hingga semua dokumen dalam pada pangkalan data sistem habis. Kemudian hasil mutasi dari tiap-tiap generasi akan dimasukkan ke dalam daftar kemiripan, yang pada akhirnya sistem akan memilih 5 dokumen yang memiliki nilai kemiripan tertinggi.

Berikut ini simbol yang terdapat pada gambar 3.3 bagan alir tahapan algoritma genetika :

• q1,q2, q3, .... qn = keyword judul kueri

• J1, J2, J3, ... J10 = 10 judul dokumen populasi untuk setiap generasi

• Jn = w1, w2, w3, ... Wn = Judul dokumen n terdapat keyword – keyword (w)

• Kj = g1,g2,g3, ...gn = Kromosom judul terdiri dari kumpulan gen (g)

(59)

Gambar 3.3 Bagan Alir Percarian Kembali Dokumen Dengan Algoritma Genetika

(60)

Pseudocode penerapan algoritma genetika dalam sistem pencarian kembali

dokumen dapat dibahas pada gambar 3.4:

Gambar 3.4 Pseudocode Penerapan Algoritma Genetika dalam Sistem Pencarian Kembali Dokumen

3.4 PERANCANGAN SISTEM

Perancangan sistem memiliki tujuan untuk menentukan hasil kondisi akhir yang diharapkan dari perangkat lunak yang akan dibangun dan merumuskan cara yang harus dilakukan untuk memperoleh hasil tersebut.

Start

Input : judul kueri dokumen

Process :

get keyword kueri

Make kromosom //setiap keyword adalah gen dalam kromosom dengan nilai 1 Do {

For (i=1;i<=10;i++) // pemilihan populasi 10 dokumen untuk setiap generasi {get keyword dokumen

if ( keyword dokumen == keyword kueri ) set gen of kromosom ==1

else set gen of kromosom ==0

count fitness // similarity measure Hsinchun Chen }

Selection 2 highest fitness value == mirip // seleksi Crossover

(61)

Pada sistem pencarian kembali dokumen penelitian ini, tahapan perancangan sistem mencakup perancangan database, dan perancangan perangkat lunak.

3.4.1 Deskripsi Sistem

Perangkat lunak yang dikembangkan dalam penelitian ini merupakan aplikasi pencarian kembali dokumen menggunakan algoritma genetika dengan

similarity measure ( pengukuran kemiripan) Hsinchun Chen.

Sistem pencarian kembali dokumen secara umum terdiri dari dua tahapan besar, yaitu text preprocessing yang dijalankan secara offline, serta retrieval yang bekerja secara online (real-time). Setelah mengumpulkan dokumen (dalam hal ini jurnal atau penelitian) segera dilakukan text processing terhadap judul dokumen. Tahapan text processing mencakup , case folding, stop word removal, stemming kemudian tokenisasi. Adapun hasil yang diharapkan dari tahapan text processing adalah keyword-keyword atau term-term pada setiap dokumen. Kemudian setiap

keyword tersebut akan disimpan (dalam sistem ini menggunakan suatu tabel pada database MySql) untuk keperluan query pencarian dokumen.

Sistem pencarian kembali dokumen akan menerima query berupa judul salah satu dokumen yang tersedia, kemudian memproses query tersebut dan sistem akan melakukan perhitungan kemiripan antara query dengan daftar dokumen yang tersedia, untuk menghasilkan kumpulan dokumen yang paling relevan dan terurut berdasarkan tingkat kerelevannya dengan query dari pengguna. Aplikasi pencarian kembali dokumen ini diimplementasikan berbasis web.

3.4.2 Perancangan Database

Dalam perancangan database, penelitian ini untuk pangkalan data pencarian kembali dokumen terdiri dari 8 tabel yaitu sebagai berikut:

(62)

1. Tabel Dokumen

Tabel ini memuat tentang nomor dan judul dokumen.

Atribut Tipe Data Keterangan

NoDoc Integer Primary Key

Judul VarChar(150) Judul dokumen

2. Tabel Dokumen_Detil

Tabel ini memuat tentang informasi detil mengenai dokumen yaitu penulis, lembaga penulis, penerbit dokumen serta abstrak.

Atribut Tipe Data Keterangan

ID Integer Auto_increment

NoDoc Integer

Judul VarChar (150) Judul Dokumen

Author VarChar (250) Penulis

Instansi VarChar(250) Asal Lembaga Penulis

Penerbit VarChar(250) Nama Penerbit

Dokumen

Abstrak LongText Isi dokumen

(63)

Tabel ini memuat kata-kata stop word, kata-kata yang tidak memiliki arti dan makna meskipun dihapuskan,

Atribut Tipe Data Keterangan

ID Integer

Stop Char(40) Kata yang akan dibuang karena tidak

mempunyai makna dalam proses query

4. Tabel Stemming

Pada tabel ini, memuat kata imbuhan yang kemudian kata tersebut akan diubah menjadi kata dasar.

Atribut Tipe Data Keterangan

Stem Varchar(50) Kata berimbuhan yang

perlu dicari kata dasar

Dasar Varchar(30) Kata dasar

5. Tabel Daftar_Keyword

Tabel ini memuat hasil dari tahapan text preprocessing, dimana setiap dokumen akan menghasilkan keyword-keyword .

Atribut Data Keterangan

ID Integer

NoDoc Integer

Keyword Varchar(50) Kata keyword yang digunakan dalam pengkodean kromosom

(64)

6. Tabel Istilah

Tabel ini memuat simbol-simbol kimia yang merupakan istilah di dalam kimia.

Atribut Data Keterangan

simbol Varchar(10) Simbol kimia

nama Varchar (40) Nama lengkap dari

simbol kimia

7. Tabel Populasi

Tabel ini memuat kromosom dari proses pembangkitan populasi awal tahapan algoritma genetika.

Atribut Tipe Data

NoPopulasi Integer

NoDoc Integer

Kromosom Varchar (30)

8. Tabel Fitness

Tabel ini berisi mengenai perhitungan nilai fitness, dimana perhitungan nilai tersebut berfokus pada tabel populasi.

Atribut Tipe Data

NoFitness Integer

(65)

NoDoc Integer

Nilai Double

9. Tabel Mirip

Tabel ini merupakan tabel yang memuat hasil seleksi nilai fitness dari masing-masing generasi pada populasi awal, dimana nilai kemiripan berasal dari nilai fitness yang telah diproses pada tahapan sebelumnya.

Atribut Tipe Data

No Integer

NoFitness Integer

NoDoc Integer

Kemiripan Numeric

Uraian ringkasan dari perancangan database penelitian ini, diformulasikan dalam diagram ERD (Entity Relationship Diagram), yang menjelaskan hubungan antar tabel dapat dilihat pada gambar 3.5 dibawah ini :

(66)

Gambar 3.5 Rancangan Diagram ERD

3.4.3 Perancangan Perangkat Lunak

Perancangan perangkat lunak dalam pencarian kembali dokumen menggunakan bahasa pemrograman berbasis web yaitu PHP. Halaman yang digunakan dalam perancangan perangkat lunak, dapat dilihat pada tabel 3.1 sebagai berikut :

(67)

Tabel 3.1 Rancangan Halaman Perangkat Lunak

Nama Halaman Keterangan

Koneksi.php Berisi coding untuk koneksi database retrieval

Textprocessing.php Terdiri dari 2 fungsi yang dijalankan secara offline, yaitu preproses dan keyword.

• Fungsi preproses : melakukan case folding, mengubah ke huruf kecil, melakukan stop word dan stemming.

• Fungsi keyword : mendapatkan keyword dari dokumen-dokumen setelah dilakukan fungsi preproses.

Indeks.php Tampilan halaman utama sehingga user dapat

memilih dokumen query

Tampilhasil.php Tampilan ini menampilkan hasil pencarian kembali dokumen dengan algoritma genetika, memiliki 3 fungsi yaitu :

• Fungsi kromosom : melakukan pemodelan query menjadi solusi populasi.

• Fungsi fitness : melakukan perhitungan nilai fitness dari masing-masing dokumen dengan nilai kemiripan Hsinchun Chen

• Fungsi kemiripan : mengurutkan hasil seleksi dokumen dari setiap generasi.

Detil.php Tampilan ini memberikan informasi detil dari hasil proses algoritma genetika.

(68)

Pada perancangan perangkat lunak terdiri dari 4 halaman, tetapi halaman textpreprocessing.php merupakan halaman fungsi sehingga output (tampilan) dari halaman ini secara online tidak ada, karena hasil dari pemrosesan halaman ini adalah kumpulan daftar keyword-keyword, dan data hasil tersebut akan menjadi record pada tabel daftar_keyword. Halaman textpreprocessing.php ini akan dijalankan secara offline, karena halaman ini merupakan aplikasi dari tahapan text

preprocessing.

Halaman koneksi.php pada perancangan ini juga bersifat sebagai fungsi untuk melakukan koneksi ke dalam database sistem pencarian kembali dokumen , sehingga halaman ini juga tidak memberikan output berupa tampilan hasil.

Sebagai uraian ringkasan perancangan perangkat lunak, hubungan antar tampilan halaman dapat dilihat pada gambar 3.6 berikut ini :

(69)

(70)

(71)

Gambar 3.6 merupakan gambar navigation diagram yang merepresentasikan hubungan antara tampilan antar muka dari perancangan perangkat lunak, dari gambar tersebut dapat diambil kesimpulan halaman rancangan yang memberikan hasil output (tampilan) kepada user secara online adalah indeks.php, tampilhasil.php, dan detil.php.

Setelah melakukan perancangan penelitian yang terdiri dari perancangan database dan perancangan perangkat lunak, di bab selanjutnya akan membahas tentang hasil dan pembahasan dengan menggunakan algoritma genetika.

(1)

540

Analisis Pergeseran Suatu Bahan dengan Metode Holografi Interferometer

541 Karakteristik Spektrofon untuk Fotoakustik

542

Garis-garis Karakteristik pada Penembakan Logam Al dengan Laser Axcimer Kripton-Fluor

543

Pengukuran Gradien Medan Magnet NMR Pulsa dengan Menggunakan Beberapa Cuplikan Cair

544 Penyedia Daya untuk Elektromagnet NMR 545 Optimasi Geometri Fokus Plasma

546 Pengaruh Medan Magnet pada Tabung Lucutan

547

Perhitungan Sistem Sumber Ion dan Sistem Deteksi Ion pada Spektrometer Massa

548 Sistem Elektron Spektrometer Massa

549

Pengaruh Tekanan Gas Isian Terhadap Tegangan Operasi Detektor Geiger Muller

550

Optimasi Konsentrasi Sintilator Cair dari Bahan Toluene dan PPO untuk Radiasi Sinar Gamma

551

Standardisasi I-125 dengan Metode Koinsidensi Gamma-Gamma di Laboratorium Standardisasi PSPKR-BATAN.

552

Menentukan Efisiensi Agronomis Dan Efisiensi Fisiologis N-Azolla dan N-Urea Pada Padi Sawah

553

Optimasi Proses Radiografi Sinar X untuk Memperoleh Film Radiografi Siap Baca.

554

Pengukuran Suhu Elemen Teras I RSG G.A. Siwabessy pada Operasi Transisi.

555

Pengukuran Rapat Fluks Neutron Teras Pertama RSG G.A. Siwabessy

556

Pelindihan Bijih Uranium Secara Bakteriologis: Efisiensi Beberapa Larutan Asam Dan Pengaruh Pemanasan Bijih Pada Perkembangan Mikroorganisme

557

Perhitungan Fluks Neutron pada Reaktor Kartini dengan Dua Dimensi Kelompok

(2)

558 Studi Efisiensi Termal PLTN Jenis PWR, BWR, dan CANDU 559 Studi Perpindahan Panas Konveksi Alam Reaktor Kartini 560 Siklus Rankine pada PLTN

561 Pengukuran Reaktivitas Xenon teras I RSG G.A. Siwabessy

562

Studi Tentang Efisiensi Pengambilan Unsur Seng Oleh Tanaman Padi Dari Larutan Hara Kimura B

563

Pengaruh Perbandingan Larutan Pelindi/Bijih Uranium Dan

Penambahan Oksigen Pada Pertumbuhan Bakteri Thioacillus Dalam Perkolator

564

Penentuan Secara Eksperimental Fungsi Respon Frekuensi (FRF) dari Reaktor Serba Guna G.A. Siwabessy

565

Pengaruh Pemasangan Lazy Susan terhadap Operasi Reaktor Kartini

566 Analisis Optimasi teras Reaktor Kartini dengan Program TRIGAP 567 Ekstraksi Zr dan Hf Menggunakan Tri-n-oktilamin

568

Studi Mineralogi Dan Paragenesis Pemineralan Uranium Di Sektor Rabau Hulu Kalimantan Barat

569 Metode Pengukuran Cacah Latar Rendah dengan Detektor Ge(Li)

570

Penampil Daya Reaktor Kartini dengan Menggunakan PC Apple-IIe.

571 Realisasi Rancangan Pengaruh Rasio-Digital (RDC)

572

Pembuatan Antarmuka Mikrokomputer IBM PC untuk Radioimmuniassay

573

Penggunaan Fly Back TV sebagai Penyedia Daya Tegangan Tinggi untuk Instrumentasi Nuklir

574 Pembuatan PHA untuk Rektilinier Skaner

575

Pengaruh Panjang Kabel antara Detektor dengan Penguat Awal terhadap derau elektronik

576

Pembuatan Interface Osiloskop Penyimpan Digital dengan Komputer IIe (Tahap II)

(3)

577 Sistem Pengukur Gramatur Kertas Menggunakan Sinar Beta 578 Tinjauan tentang Disain Reaktor Maju

579

Penentuan U(VI) dengan Adanya Ce(IV) dan Ferro Sulfanat Secara Polarografi

580

Evaluasi Reaksi Iodinasi Pada Ester Etil Asam Lemak Minyak Candu Dengan Cara A.P.N.

581

Penentuan Kandungan Hafnium di Dalam Zirkonium Oksida Menggunakan Pengemban Sulingan BaF2 dengan Spektrografi Emisi Secara Teknik DC ARC.

582

Efisiensi Masker Hilmor Terhadap (Dalam Menapis) Hasil Luruhan Radon

583

Penentuan Total Sulfur dalam UO2 dengan Distilasi Spektrofotometri.

584

Pemisahan Th, Gd, dan Sm Secara Kromatografi Kolom Penukar Ion dengan Eluen EDTA

585

Pengaruh Ion-ion Pengotor pada Penentuan Unsur Uranium Secara Potensiometri.

586

Penentuan Ce(III) dan Ce(IV) dalam Fasa Organik dengan Menggunakan Pereduksi Selektif dengan Metode Titrasi Potensiometri

587

Penentuan Stoikiometri Metal Organik

Tetrametiltetraselenafulvalen (TMTSFXm) X' = Cl, Br, ClO4, BF4, PF6 Memakai Elektroda Pt-Putar

588 Penentuan Unsur-unsur Tanah Jarang dengan Metode NAA

589

Penentuan Sulfat dalam Air Pendingin Sekunder RSG G.A. Siwabessy dengan Elektroda Selektif Ion Pb

590

Faktor Konversi Dosis Untuk Hasil Luruhan Radon Di Tambang Uranium

591

Immobilisasi Konsentrat Limbah Radioaktif dengan Penambahan Zat Aditif.

592

Hubungan Ukuran Partikel AUK terhadap Sifat-sifat Fisis Serbuk UO2

(4)

593

Penentuan Uranium dengan Metode Spektrofotometri Menggunakan Pereaksi Khelat 2 (-5 Bromo-2 Pyrildilazo) 5-Diethyl Aminophenol (BrPADAP)

594

Metode Voltametri Pelarutan Kembali Adsortif untuk Penentuan Uranium

595

Selenium, Vanadium Dan Molibdenum Sebagai Unsur Pandu Mineralisasi Uranium Di Aek Harirongga Sibolga, Sumatra Utara

596

Ekstraksi Thorium: Pengaruh Kadar Umpan dan Kecepatan Alir terhadap Efisiensi Ekstraksi

597

Karakteristik Pemisahan D2O dari elektrolit KOH pada Proses Evaporasi Catu.

598

Perancangan Alat Pengaduk Pengenap untuk Ekstraksi Hf dari Campuran Zr - Hf Oksiklorid.

599

Penggunaan Kombinasi Mikroba Dalam Proses Pelindian Bijih Uranium

(5)

LAMPIRAN: J. Daftar Update Istilah Kimia

No unsur nama No unsur nama No unsur nama

1 Ac 26 Fm 51 Cr

2 Al 27 Fe 52 Co

3 Am 28 F 53 Cn

4 Sb 29 P 54 K kalium

5 Ag 30 Fr 55 Cm

6 Ar 31 Gd 56 Kr

7 As 32 Ga 57 La

8 At 33 Ge 58 Lr

9 Au 34 Hf 59 Pb

10 Ba 35 Hs 60 Li

11 S 36 He 61 Lu

12 Bk 37 H 62 Mg

13 Be 38 Ho 63 Mn

14 Fe 39 Hg 64 Mt

15 Bi 40 In 65 Md

16 Bh 41 I 66 Mo

17 B 42 Ir 67 Na

18 Br 43 Yb 68 Nd

19 Cu 44 Y 69 Ne

20 Ds 45 Cd 70 Np

21 Db 46 K 71 Ni

22 Dy 47 Ca 72 Nb

(6)

24 Er 49 C 74 No