Analisis Information Retrieval System Dengan Model Ruang Vektor

(1)

SKRIPSI

Diajukan untuk Menempuh Ujian Akhir Sarjana Program Strata Satu Jurusan Teknik Informatika

Fakultas Teknik dan Ilmu Komputer Universitas Komputer Indonesia

AGUS MAULANA YUSUF NOOR

10107580

JURUSAN TEKNIK INFORMATIKA

FAKULTAS TEKNIK DAN ILMU KOMPUTER

UNIVERSITAS KOMPUTER INDONESIA

BANDUNG


(2)

RUANG VEKTOR

Oleh

AGUS MAULANA YUSUF NOOR 10107580

Saat ini kebutuhan di dalam mencari informasi elektronis semakin meningkat. Ribuan exa bytes data digital yang ada dunia maya menjadikan momok yang sangat menyulitkan bagi para pengguna internet untuk menemukan kembali informasi yang dibutuhkan sesuai dengan keinginannya.

Oleh karena itu, berbagai macam penelitian di area ini telah banyak

dilakukan, salah satunya adalah melalui disiplin ilmu IR (Information Retrieval).

IR merupakan bidang yang mengkaji metode-metode di dalam pencarian dokumen berdasarkan representasi kebutuhan informasi berupa kata kunci, yaitu

keyword atau query.

Information Retrieval System atau Sistem Temu Balik Informasi

digunakan untuk menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis.

Dalam tugas akhir ini akan dijelaskan analisis information retrieval system

dan salah satu model temu kembali informasi yaitu model ruang vektor yang

berfungsi untuk mengukur suatu kemiripan keyword dengan dokumen.

Kata kunci: information retrieval system, vector space model, sistem temu kembali informasi, model ruang vektor.


(3)

VECTOR SPACE MODEL

by

AGUS MAULANA YUSUF NOOR 10107580

Current needs in the search for electronic information is increasing. Thousands exa bytes of digital data that is cyberspace makes specter very difficult for Internet users to rediscover the information required in accordance with her wishes.

Therefore, various kinds of research in this area has been widely carried out, one of which is through the discipline of IR (Information Retrieval). IR is a field that examines the methods in the search for documents based on the representation of information needs in the form of keywords, ie keywords or query.

Information Retrieval System or System Information Gathering Feedback is used to recover information that is relevant to the needs of users from a collection of information automatically.

In this final task will be described analysis information retrieval systems and one model of information retrieval is the vector space model which serves to measure the similarity of keywords with the document,


(4)

i

KATA PENGANTAR

Assalamualaikum Wr. Wb.

Dengan memanjatkan puji syukur kehadirat Allah SWT, atas rahmat dan karunianya penulis dapat menyelesaikan skripsi ini, yang merupakan syarat untuk menyelesaikan program studi Strata I Jurusan Teknik Informatika Fakultas Teknik dan Ilmu Komputer pada Universitas Komputer Indonesia dengan judul

ANALISIS INFORMATION RETRIEVAL DENGAN MODEL RUANG VEKTOR ”.

Dalam pelaksanaan dan penyusunan laporan Skripsi ini banyak menemui hambatan dan kesulitan. Namun berkat dorongan, bantuan dan bimbingan baik secara moril ataupun materil dari berbagai pihak hingga dapat mengatasinya. Untuk itu penulis ingin mengucapkan terima kasih kepada :

1. Allah SWT tuhan seluruh alam yang telah mentakdirkan saya dalam

menyusun dan menyelesaikan skripsi pada tahun ini.

2. Kepada kedua orangtua yang telah mendukung dan member motivasi.

3. Ibu Mira Kania S, S.T, M.T, selaku Ketua Program Studi Teknik


(5)

ii

4. Bapak Dr. Ir. Yefri Handoko, MT. selaku dosen pembimbing yang telah

memberikan pengarahan dalam penulisan skripsi ini dan selalu memberi motivasi kepada penulis.

5. Ibu Nelly Indriani W, S.Si., M.T. selaku dosen reviewer yang telah

memberikan masukan yang membangun bagi penulis.

6. Bapak Irfan Maliki ST. selaku dosen wali IF-13 angkatan 2007.

7. Seluruh Dosen dan Staff pengajar jurusan Teknik Informatika Universitas

Komputer Indonesia.

8. Teman-teman kelas IF-17 angkatan 2007 yang telah mendampingi dalam

belajar.

9. Semua pihak yang terlibat yang telah ikut membantu dalam penulisan

laporan ini baik secara langsung maupun tidak langsung.

Bandung, 5 Juli 2011


(6)

1

1.1 Latar Belakang Masalah

Saat ini informasi digital berkembang sangat pesat. Setiap hari jutaan

informasi baru terus bertambah. Berdasarkan survey IDC (Internasional Data

Corporation) tahun 2007 data digital yang telah dibuat, ditangkap, dan direplikasi

oleh seluruh penduduk dunia adalah sebesar 281 miliar giga bytes (281 exa bytes). Data ini terdiri dari dokumen dalam berbagai macam format seperti gambar, email, video, web page, teks, dll. Dengan semakin banyak dan beragamnya informasi yang tersedia, kebutuhan pengguna internet telah bergeser dari arah kuantitatif ke arah kualitatif. Kebutuhan yang semula berupa informasi sebanyak-banyaknya telah bergeser menjadi informasi yang secukupnya asalkan relevan dengan keperluan.

Seiring dengan bertambahnya hal tersebut, kebutuhan di dalam mencari informasi elektronis juga semakin meningkat. Dalam hal ini Robert R.K. mengindikasikan timbulnya dua masalah besar, yaitu teknologi penyimpanan

informasi (Information Storage) dan temu kembali informasi (Information

Retreival). Oleh karena itu, Saat ini telah banyak dari berbagai informasi tersebut

dapat diakses secara elektronik melalui internet dengan menggunakan berbagai mesin


(7)

sangat bergantung pada teknik temu kembali informasi dan teknik pengindeksan yang dipakai.

Dari hasil pengamatan langsung terhadap portal website berita berbahasa Indonesia terutama dalam berita IT, karena sedikit sekali website portal berita IT yang menyediakan mesin pencari bagi website itu sendiri. Kebanyakan dari website-website tersebut menyediakan mesin pencari yang langsung terhubung ke mesin pencari google, sehingga proses pengindeksan kata kunci dengan dokumen tidak akan langsung dihubungkan dengan konten berita yang ada dalam website tersebut. Maka dari hasil pencarian tersebut ada yang relevan dan ada yang kurang relevan dengan kata kunci.

Berbagai macam penelitian di area ini telah banyak dilakukan, salah satunya

adalah melalui disiplin ilmu IR (Information Retrieval). IR merupakan bidang yang

mengkaji metode-metode di dalam pencarian dokumen berdasarkan representasi

kebutuhan informasi berupa kata kunci, yaitu keyword atau query.

Dalam Information Retrieval System, Salton menjelaskan bahwa terdapat 3

model yang digunakan, yaitu Boolean Model, Probabilistic Model, dan Vector Space

Model. Model terakhir inilah yang paling sederhana dan paling produktif. Model

ruang vektor ini merepresentasikan term yang digunakan baik oleh dokumen maupun


(8)

pembobotan kombinasi berupa perkalian bobot lokal term frequency (tf) dan global

inverse document frequency (idf).[5]

Berdasarkan permasalahan diatas akan dilakukan suatu analisis terhadap

Information Retrieval System menggunakan Model Ruang Vektor.

1.2 Perumusan Masalah

Berdasarkan uraian latar belakang masalah yang dikemukakan, maka dapat dirumuskan beberapa masalahnya sebagai berikut :

1. Bagaimana proses sistem temu balik informasi atau Information Retrieval

System.

2. Bagaimana Implementasi Information Retrieval System pada mesin pencari

berita IT.

3. Bagaimana pencarian dokumen yang relevan di Information Retrieval

System dengan menggunakan Model Ruang Vektor.

1.3 Maksud dan Tujuan

Maksud dari ditulisnya skripsi ini adalah untuk melakukan analisis dan

mengimplementasikan Information Retrieval System pada web menggunakan vector

space model (model ruang vektor).

Adapun tujuan yang akan dicapai dari penulisan skripsi ini adalah sebagai berikut :


(9)

1. Menganalisis proses Information Retrieval System dalam melakukan pencarian dokumen berita.

2. Mengimplementasikan Information Retrieval System pada website mesin

pencari berita IT.

3. Menerapkan Model Ruang Vektor atau Vektor Space Model (VSM) pada

Information Retrieval System.

1.4 Batasan Masalah

Adapun batasan masalah dalam pembuatan perangkat lunak ini adalah sebagai berikut :

1. Koleksi dokumen yang digunakan dalam proses analisis dan implementasi

merupakan dokumen berita IT yang telah ditentukan sebelumnya.

2. Dokumen yang digunakan berupa dokumen berita dalam bahasa Indonesia.

3. Perangkat lunak yang dibangun berupa prototype aplikasi Information

Retrieval System.

4. Mengimplementasikan langkah-langkah Information Retrieval System pada

web.

5. Menghitung kemiripan antara query dengan daftar berita yang tersedia.

6. Menganalisis Information Retrieval System, meliputi Stop Word,

Tokenisasi, Stemming, pemberian bobot term index, dan model ruang


(10)

7. Model yang digunakan dalam Information Retrieval System adalah Model Ruang Vektor.

8. Dokumen Berita berupa teks.

1.5 Metodologi Penelitian

Metodologi Penelitian yang digunakan dalam penulisan skripsi ini adalah sebagai berikut :

a. Studi literatur

Tahap ini dilakukan dengan cara mempelajari literatur-literatur baik yang

berupa buku, jurnal, artikel ilmiah, dan website yang berhubungan dengan

Information Retrieval System.

b. Analisis

Pada tahap ini akan dijelaskan proses Information Retrieval System dalam hal

Stop Word, Stemming, pemberian bobot term index, dan model ruang vektor.

c. Perancangan

Pada tahap ini akan dilakukan perancangan terhadap perangkat lunak

Information Retrieval System yang akan dibangun, termasuk menentukan lingkungan

pembuatan, bahasa pemrograman yang digunakan, arsitektur, fungsionalitas, dan antarmuka sistem.


(11)

Pada tahap ini akan dilakukan implementasi Information Retrieval System pada web serta dilakukan pengujian untuk mendapatkan kesimpulan dan saran untuk pengembangan lebih lanjut.

1.6 Sistematika Penulisan

Sistematika penulisan skripsi ini disusun untuk memberikan gambaran umum tentang penelitian yang dijalankan. Sistematika penulisan skripsi ini adalah sebagai berikut :

BAB I PENDAHULUAN

Menguraikan tentang latar belakang permasalahan, merumuskan inti permasalahan yang dihadapi, menentukan maksud dan tujuan penelitian, yang kemudian diikuti dengan pembatasan masalah, metodologi penelitian serta sistematika penulisan.


(12)

Membahas berbagai konsep dasar dan teori-teori yang berkaitan dengan topik penelitian yang dilakukan dan hal-hal yang berguna dalam proses analisis permasalahan serta tinjauan terhadap penelitian.

BAB III. ANALISIS DAN PERANCANGAN SISTEM

Membahas tentang analisis sistem, pengguna, serta perancangan sistem untuk pembangunan aplikasi.

BAB IV. IMPLEMENTASI DAN PENGUJIAN SISTEM

Membahas tentang implementasi dan pengujian sistem yang telah dikerjakan serta menerapkan kegiatan implementasi dan pengujian pada perangkat lunak aplikasi.

BAB V. KESIMPULAN DAN SARAN


(13)

8

2.1 Information Retrieval

2.1.1 Definisi

Information Retrieval System atau Sistem Temu Balik Informasi merupakan

bagian dari computer science tentang pengambilan informasi dari dokumen-dokumen

yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri. Menurut

Gerald J. Kowalski [19] di dalam bukunya “Information Storage and Retrieval

Systems Theory and Implementation”, sistem temu balik informasi adalah suatu

sistem yang mampu melakukan penyimpanan, pencarian, dan pemeliharaan informasi. Informasi dalam konteks ini dapat terdiri dari teks (termasuk data numerik dan tanggal), gambar, audio, video, dan objek multimedia lainnya.

Tujuan dari sistem IR adalah memenuhi kebutuhan informasi pengguna dengan me-retrieve semua dokumen yang mungkin relevan, pada waktu yang sama me-retrieve sesedikit mungkin dokumen yang tidak relevan.Sistem IR yang baik memungkinkan pengguna menentukan secara cepat dan akurat apakah isi dari dokumen yang diterima memenuhi kebutuhannya. Agar representasi dokumen lebih baik, dokumen-dokumen dengan topik atau isi yang mirip dikelompokkan bersama-sama [2].


(14)

Model Information Retrieval adalah model yang digunakan untuk melakukan

pencocokan antara term-term dari query dengan term-term dalam document

collection, Model yang terdapat dalam Information retrieval terbagi dalam 3 model

besar, yaitu [3] :

1. Set-theoritic models, model merepresentasikan dokumen sebagai himpunan

kata atau frase. Contoh model ini ialah standard Boolean model dan extended

Boolean model.

2. Algebratic model, model merepresentasikan dokumen dan query sebagai

vektor atau matriks similarityantara vektor dokumen dan vektor query yang

direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialah vektor

space model (model ruang vektor) danlatent semantic indexing (LSI).

3. Probabilistic model, model memperlakukan proses pengambilan dokumen

sebagai sebuah probabilistic inference. Contoh model ini ialah penerapan

teorema bayes dalam model probabilistik.

2.1.2 Arsitektur Information Retrieval System

Ada dua pekerjaan yang ditangani oleh sistem ini, yaitu melakukan

pre-processing terhadap database dan kemudian menerapkan metode tertentu untuk

menghitung kedekatan (relevansi atau similarity) antara dokumen di dalam


(15)

Pada tahapan preprocessing, sistem yang berurusan dengan dokumen

semi-structured biasanya memberikan tag tertentu pada term-term atau bagian dari

dokumen, sedangkan pada dokumen tidak terstruktur proses ini dilewati dan

membiarkan term tanpa imbuhan tag.

Query yang dimasukkan pengguna dikonversi sesuai aturan tertentu untuk

mengekstrak term-term penting yang sejalan dengan term-term yang sebelumnya

telah diekstrak dari dokumen dan menghitung relevansi antara query dan

dokumen berdasarkan pada term-term tersebut. Sebagai hasilnya, sistem

mengembalikan suatu daftar dokumen terurutsesuai nilai kemiripannya dengan

query pengguna [1].

Setiap dokumen (termasuk query) direpresentasikan menggunakan model

bag-of-words yang mengabaikan urutan dari kata-kata di dalam dokumen,

struktur sintaktis dari dokumen dan kalimat. Dokumen ditransformasi ke dalam

suatu “tas“ berisi kata-kata independen. Term disimpan dalam suatu database

pencarian khusus yang ditata sebagai sebuah inverted index. Index ini merupakan

konversi dari dokumen asli yang mengandung sekumpulan kata ke dalam daftar kata yang berasosiasi dengan dokumen terkait dimana kata-kata tersebut muncul.

Proses dalam Information Retrievaldapat digambarkan sebagai sebuah proses

untuk mendapatkan retrieve document dari collection documents yang ada melalui


(16)

Information Retrieval System

Retrieve Document query

Collecting document

Gambar 2.1Proses dalam Information Retrieval System

Proses yang terjadi di dalam Information Retrieval System terdiri dari 2

bagian utama, yaitu Indexing subsystem dan Searching subsystem (matching system).

2.1.3 Proses Indexing

Indexing subsystem adalah proses subsystem yang merepresentasikan koleksi

dokumen kedalam bentuk tertentu untuk memudahkan dan mempercepat proses pencarian dan penemuan kembali dokumen yang relevan.

Pembangunan index dari koleksi dokumen merupakan tugas pokok pada tahapan preprocessing di dalam IR. Kualitas index mempengaruhi efektifitas dan efisiensi sistem IR [4]. Index dokumen adalah himpunan term yang menunjukkan isi atau topik yang dikandung oleh dokumen. Index akan membedakan suatu dokumen dari dokumen lain yang berada di dalam koleksi. Ukuran index yang kecil dapat


(17)

memberikan hasil buruk dan mungkin beberapa item yang relevan terabaikan. Index yang besar memungkinkan ditemukan banyak dokumen yang relevan tetapi sekaligus dapat menaikkan jumlah dokumen yang tidak relevan dan

menurunkan kecepatan pencarian (searching) [5].

Pembuatan inverted index harus melibatkan konsep linguistic processing yang

bertujuan mengekstrak term-term penting dari dokumen yang direpresentasikan

sebagai bag-of-words. Ekstraksi term biasanya melibatkan dua operasi utama

berikut [1]:

1. Penghapusan stop-words. Stop-word didefinisikan sebagai term yang

tidak berhubungan (irrelevant) dengan subyek utama dari database

meskipun kata tersebut sering kali hadir di dalam dokumen. Berikut ini

adalah Contoh stop wordsdalam bahasa inggris :a, an, the, this, that, these,

those, her, his, its, my, our, their, your, all, few, many, several, some, every, for, and, nor, bit, or, yet, so, also, after, although, if, unless, because,

on, beneath, over, of, during, beside, dan etc. Contoh stop words dalam

bahasa Indonesia : yang, juga, dari, dia, kami, kamu, aku, saya, ini, itu, atau, dan, tersebut, pada, dengan, adalah, yaitu, ke, tak, tidak, di, pada, jika, maka,

ada, pun, lain, saja, hanya, namun, seperti, kemudian, dll. Stop-words

termasuk pula beberapa kata tertentu yang didefinisikan terkait dengan topik


(18)

(paper) penelitian terkait dengan heart diseases, maka kata heart dan

disease sebaiknya dihapus.

2. Stemming. Kata-kata yang muncul di dalam dokumen sering mempunyai

banyak varian morfologik. Karena itu, setiap kata yang bukan stop-words

direduksi ke bentuk stemmed word (term) yang cocok. Kata tersebut distem

untuk mendapatkan bentuk akarnya dengan menghilangkan awalan atau akhiran. Dengan cara ini, diperoleh kelompok kata yang mempunyai makna serupa tetapi berbeda wujud sintaktis satu dengan lainnya. Kelompok tersebut dapat direpresentasikan oleh satu kata tertentu. Sebagai contoh, kata menyebutkan, tersebut, disebut dapat dikatakan serupa atau satu kelompok dan dapat diwakili oleh satu kata umum sebut.

Menurut [6, 7] terdapat 5 langkah pembangunan inverted index, yaitu:

a. Penghapusan format dan markup dari dalam dokumen.

Tahap ini menghapus semua tag markup dan format khusus dari dokumen,

terutama pada dokumen yang mempunyai banyak tag dan format seperti

dokumen (X)HTML.

b. Pemisahan rangkaian kata (tokenization).

Tokenization adalah tugas memisahkan deretan kata di dalam kalimat,

paragraf atau halaman menjadi token atau potongan kata tunggal atau


(19)

seperti tanda baca dan mengubah semua token ke bentuk huruf kecil (lower case).

c. Penyaringan (filtration)

Pada tahapan ini ditentukan term mana yang akan digunakan untuk

merepresentasikan dokumen sehingga dapat mendeskripsikan isi dokumen dan membedakan dokumen tersebut dari dokumen lain di dalam koleksi. Term yang sering dipakai tidak dapat digunakan untuk tujuan ini, setidaknya karena dua hal. Pertama, jumlah dokumen yang relevan

terhadap suatu query kemungkinan besar merupakan bagian kecil dari

koleksi. Term yang efektif dalam pemisahan dokumen yang relevan dari

dokumen tidak relevan kemungkinan besar adalah term yang muncul

pada sedikit dokumen. Kedua, term yang muncul dalam banyak dokumen

tidak mencerminkan definisi dari topik atau sub-topik dokumen. Karena

itu, term yang sering digunakan dianggap sebagai stop-word dan dihapus [6].

d. Konversi term ke bentuk dasar (stemming).

Stemming adalah proses konversi term ke bentuk umumnya, sebagaimana

dijelaskan sebelumnya. Dokumen dapat pula diekspansi dengan mencarikan sinonim bagi term-term tertentu di dalamnya. Sinonim adalah kata-kata yang mempunyai pengertian serupa tetapi berbeda dari sudut

pandang morfologis. Seperti stemming, operasi ini bertujuan menemukan


(20)

thesaurus, tidak berbagi-pakai term stem. Jika pengguna memasukkan

queryheart disease” maka query diekspansi untuk mengakomodasi semua

sinonim dari disease seperti ailment, complication, condition, disorder, fever,

ill, illness, infirmity, malady, sickness, dan lain-lain [1].

e. Pemberian bobot terhadap term (weighting).

Setiap term diberikan bobot sesuai dengan skema pembobotan yang dipilih,

apakah pembobotan lokal, global atau kombinasi keduanya. Banyak aplikasi

menerapkan pembobotan kombinasi berupa perkalian bobot lokal term

frequency dan global inverse document frequency, ditulis tf .idf.

Documents

Markup-free document text

Tokenization

Filtration

Stemming

Term weighting

Index database

text delete tag

tokens

stop word removal

stemmed term

term with weight


(21)

Gambar 2.3 Contoh lima tahap indexing berbasis content secara urut mulai darimarkup removal (a), tokenization (b), stopword filtration (c), stemming (d),

weighting(e) [8]

Interactive query expansion modifies queries using terms from a user. Automatic query expansion expands queries automatically.

a

markup-free document text

interactive query expansion modifies queries using terms from a user automatic query expansion expands queries automatically

b tokenization

interactive query expansion

modifies queries terms

automatic query expansion expands queries automatically

c

stopwords filtration

interact query expan modify query term automat query expan expand query automat

d stemming

automat 28 expan 28 expand 28 interact 17 modify 17 query 17 term 17

e


(22)

2.1.4 Proses Searching

Dibawah ini adalah gamabar ilustrasi proses pencarian dalam Information

Retrieval System.

parse query

stop word filtration

stemming

transformasi query

vektor space model

ranking

index database

query

query tokens

stop word token

stemmed terms

transformed query

retrieved document set ranked document set

Gambar 2.4 Proses Searching

Beberapa proses yang terjadi saat melakukan search sesuai dengan ilustrasi

gambar 2.4 yaitu :

1. Parse query yaitu memecah query menjadi bentuk token


(23)

Token-token query yang telah dihasilkan pada proses parse query

kemudian di filter melalui proses pembuangan token yang termasuk

Stopword.

3. Proses Stemming

Stopword tokens dari proses stopword sebelumnya kemudian di filter

kembali melalui proses Stemming sehingga menghasilkan stemmed term

query.

4. Transformasi Query

Stemmed term query yang dihasilkan kemudian ditransformasikan

apabila memerlukan. Artinya, apabila query yang diinputkan

membutuhkan terjemahan ke dalam bentuk query bahasa lain maka

sebelum mencari dokumen pada koleksi dokumen, query tersebut

diterjemahkan duhulu melalui proses penerjemahan query. Sistem akan

membandingkan query tersebut dengan koleksi dokumen sehingga

mengembalikan dokumen-dokumen yang relevan dalam suatu bahasa

yang berbeda dengan bahasa query.

5. Pemodelan dalam model ruang vektor

Tiap term atau kata yang ditemukan pada dokumen dan query diberi

bobot dan disimpan sebagai salah satu elemen vektor dan dihitung nilai


(24)

6. Perangkingan dokumen atau konten berdasarkan nilai kemiripan antara

query dan dokumen.

2.2 Model Ruang Vektor (Vector Space Model)

2.2.1 Definisi

Vektor Space Model adalah model sistem temu balik informasi yang

mengibaratkan masing-masing query dan dokumen sebagai sebuah vektor n-dimensi

[10]. Tiap dimensi pada vektor tersebut diwakili oleh satu term.Term yang digunakan

biasanya berpatokan kepada term yang ada pada query atau keyword, sehingga term

yang ada pada dokumen tetapi tidak ada pada query biasanya diabaikan.

2.2.2 Model Ruang Vektor Dalam Information Retrieval

Pada Information Retrieval System terdapat beberapa metode yang digunakan

dalam Searching salah satunya adalah dengan merepresentasikan proses Searching

menggunakan Model Ruang Vektor. Model ruang vektor dibuat berdasarkan pemikiran bahwa isi dari dokumen ditentukan oleh kata-kata yang digunakan dalam

dokumen tersebut. Model ini menentukan kemiripan (similarity) antara dokumen

dengan query dengan cara merepresentasikan dokumen dan query masing-masing ke

dalam bentuk vektor. Tiap kata yang ditemukan pada dokumen dan query diberi


(25)

Kemiripan antar dokumen didefinisikan berdasarkan representasi bag-of-words dan dikonversi ke suatu model ruang vektor (vector space model, VSM). Model ini diperkenalkan oleh Salton [12] dan telah digunakan secara luas. Pada VSM, setiap dokumen di dalam database dan query pengguna direpresentasikan oleh suatu vektor multi-dimensi [1, 13]. Dimensi sesuai dengan jumlah term dalam dokumen yang terlibat Pada model ini:

a. Vocabulary merupakan kumpulan semua term berbeda yang tersisa dari

dokumen setelah preprocessing dan mengandung t term index. Term-term

ini membentuk suatu ruang vektor.

b. Setiap term i di dalam dokumen atau query j, diberikan suatu bobot (weight)

bernilai real Wij.

c. Dokumen dan query diekspresikan sebagai vektor t dimensi dj = (W1, W2, ...,

Wtj) dan terdapat n dokumen di dalam koleksi, yaitu j = 1, 2, ..., n.

Contoh dari model ruang vektor tiga dimensi untuk dua dokumen D1 dan D2,


(26)

Gambar 2.5 Contoh Model Ruang Vektor dengan dua dokumun D1 dan D2,

serta query Q1. [1]

Dalam model ruang vektor, koleksi dokumen direpresentasikan oleh

matriks term-document (atau matriks term-frequency). Setiap sel dalam matriks

bersesuaian dengan bobot yang diberikan dari suatu term dalam dokumen yang


(27)

Gambar 2.6 Contoh matriks term-document untuk database dengan n

document dan tterm. [1]

2.2.3 Pembobotan Kata (Term Weighting)

Pembobotan kata sangat berpengaruh dalam menentukan kemiripan antara

dokumen dengan query. Apabila bobot tiap kata dapat ditentukan dengan tepat,

diharapkan hasil perhitungan kemiripan teks akan menghasilkan perangkingan dokumen yang baik.

Keberhasilan dari model VSM ini ditentukan oleh skema pembobotan

terhadap suatu term baik untuk cakupan lokal maupun global, dan faktor normalisasi

[13]. Pembobotan lokal hanya berpedoman pada frekuensi munculnya term dalam

suatu dokumen dan tidak melihat kemunculan term tersebut di dalam dokumen

lainnya.


(28)

a. Term Frequency (tf)

Pendekatan dalam pembobotan lokal yang paling banyak diterapkan adalah

term frequency (tf).Faktor ini menyatakan banyaknya kemunculan suatu kata

dalam suatu dokumen.Semakin sering suatu kata muncul dalam sebuah dokumen, berarti semakin penting kata tersebut.

Ada empat cara yang bias digunakan untuk mendapatkan nilai TF (Ramadhany, 2008; Karhendana, 2008):

1. Raw Tf

Nilai Tf sebuah term dihitung berdasarkan kemunculan term tersebut

dalam dokumen.

2. Logarithmic Tf

Dalam memperoleh nilai Tf, cara ini menggunakan fungsi logaritmik dalam matematika.

= 1 + log⁡( ) (2.1)

3. Binary Tf

Cara ini, akan menghasilkan nilai boolean berdasarkan kemunculan term pada dokumen tersebut. Akan bernilai 0 apabila term tidak ada pada sebuah dokumen, dan bernilai 1 apabila term tersebut ada dalam


(29)

dokumen. Sehingga banyaknya kemunculan term pada sebuah dokumen tidak berpengaruh.

4. Augmented Tf

= 0.5 + 0.5 ×

max⁡( ) (2.2)

 Nilai Tf adalah jumlah kemunculan term pada sebuah dokumen

 Nilai max(Tf) adalah jumlah kemunculan terbanyak term pada

dokumen yang sama.

Perhitungan Tf yang akan digunakan dalam implementasi Information Retrieval

System ini adalah Raw Tf.

b. Inverse Document Frequency (idf)

Pembobotan global digunakan untuk memberikan tekanan terhadap term

yang mengakibatkan perbedaan dan berdasarkan pada penyebaran dari

term tertentu di seluruh dokumen. Banyak skema didasarkan pada

pertimbangan bahwa semakin jarang suatu term muncul di dalam total

koleksi maka term tersebut menjadi semakin berbeda. Pemanfaatan

pembobotan ini dapat menghilangkan kebutuhan stopwordremoval karena

stopword mempunyai bobot global yang sangat kecil. Namun pada prakteknya

lebih baik menghilangkan stopword di dalam fase pre-processing


(30)

pembobotan global mencakup inverse document frequency (idf), squared

idf, probabilistic idf, GF-idf, entropy. Pendekatan idf merupakan

pembobotan yang paling banyak digunakan saat ini. Beberapa aplikasi

tidak melibatkan bobot global, hanya memperhatikan tf, yaitu ketika tf sangat

kecil atau saat diperlukan penekanan terhadap frekuensi term di dalam suatu dokumen. [13].

Bobot global dari suatu term i pada pendekatan inverse document frequency

(idfi) dapat dirumuskan sebagai berikut :

Idf

i

=

��

2

(

)

(2.3)

Dimana N menyatakan jumlah artikel dalam koleksi dokumen, dji adalah

frekuensi dokumen dari term i dan sama dengan jumlah dokumen yang

mengandung term i. Log2 digunakan untuk memperkecil pengaruhnya relatif

terhadap tfij.

Bobot term i di dalam Information Retrieval System (Wij) dihitung

menggunakan tf-idf yang didefinisikan sebagai berikut. [1,15]

Wij = tfij ×idfi

(2.4)

c. Normalisasi panjang dokumen

Dokumen-dokumen yang panjang sering dianggap lebih relevan dibandingkan dokumen yang pendek, padahal belum tentu demikian.Untuk mengurangi pengaruh perbedaan panjang dokumen ini, pada pembobotan kata digunakan


(31)

satu faktor lagi yang disebut sebagai normalisasi panjang

dokumen.Normalisasi yang digunakan adalah normalisasi kosinus.

Berdasarkan [14] rumus normalisasi kosinus yaitu :

�� �� �

,

= cos

=

=1(�� �� )

�� 2×

=1 =1 �� 2

(2.5)

Dengan W adalah bobot dari query dan dokumen.

2.2.4 Ukuran Kemiripan

Model ruang vektor dan pembobotan tf-idf digunakan untuk merepresentasikan nilai numerik dokumen sehingga kemudian dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor di dalam suatu VSM maka semakin mirip dua dokumen yang diwakili oleh vektor tersebut. Kemiripan antar

dokumen dihitung menggunakan suatu fungsi ukuran kemiripan (similarity

measure). Ukuran ini memungkinkan perankingan dokumen sesuai dengan

kemiripan relevansinya terhadap query. Setelah dokumen diranking, sejumlah

tetap dokumen top-scoring dikembalikan kepada pengguna.

Cosine Similarity tidak hanya digunakan untuk menghitung normalisasi

panjang dokumen tapi juga menjadi salah satu ukuran kemiripan yang popular[16]. Ukuran ini menghitung nilai kosinus sudut antara dua vektor. Jika terdapat dua vektor

dokumen dj danquery q, serat t term diekstrak dari koleksi dokumen maka nilai


(32)

� �� �� � , = � .

| � |.| |=

(� � ) �

=1

� 2

× �

=1 �

2 �

=1

(2.6)

Contoh:

Jika dua dokumen D1 = 2T1 + 6T2 + 5T3 dan D2 = 5T1 + 5T2 + 2T3 dan query Q1 = 0T1 + 0T2 + 2T3 sebagaimana diperlihatkan pada gambar 2.5, berikut ini adalah nilai kosinus yang diperoleh:

� �� �� � 1,� 1 = cos�=

(2.0 + 6.0 + 5.2)

4 + 36 + 25 . (0 + 0 + 4)= 10

65.4= 0.62

� �� �� � 2,� 1 = cos� =

(5.0 + 5.0 + 2.2)

25 + 25 + 4 . (0 + 0 + 4)= 4

54.4= 0.27

Contoh di atas memperlihatkan bahwa sesuai dengan perhitungan kosinus,

dokumen D2lebih mirip dengan query daripada dokumen D1. Terlihat sudut antara

D2 dan Q1 lebih kecil daripada sudut antara D1 dan Q1.

Terdapat beberapa variasi dari kemiripan kosinus terkait dengan pembobotan

terhadap term seperti menghilangkan tf, idf, atau keduanya.Lee [15]

menyarankan untuk mengikutsertakan tf dan idf dalam menghitung kemiripan antar

dokumen. Menurutnya, meninggalkan salah satu tf atau idf akan memberikan

ranking yang buruk. Guo [17] mengusulkan agar memberikan bobot khusus untuk

termtertentu pada kondisi tertentu dan mengubah perhitungan bobot menjadi:


(33)

Selain ukuran kemiripan kosinus, beberapa ukuran kemiripan lain yang dapat digunakan dalam ruang vektor adalah Dice, Jaccard dan Overlap [18].

Dice :� �� �� � , = 2 × �=1(� ×� )

� 2 +

=1 �

2 �

=1

(2.8)

Jaccard :� �� �� � , = 2 × (� ×� )

� =1

� 2 +

=1 �

2 �

=1 − �=1(� .� )

(2.9)

Overlap :� �� �� � , = 2 × (� ×� )

� =1

min⁡( �=1 � 2 , �=1 � 2) (2.10)

2.3 Software Pendukung

2.3.1 MySQL

Pada awalnya, MySQL merupakan proyek internal sebuah firma asal Swedia,

TcXDataKonsult.MySQL kemudian dirilis untuk publik pada tahun 1996. Karena

MySQL menjadi sangat populer, pada tahun 2001 firma tersebut mendirikan sebuah

perusahaan baru, MySQLAB, yang khusus menawarkan layanan dan produk berbasis

MySQL (Gilmore, 2006).

Dari awal pembuatannya, para pengembang MySQL menitikberatkan

pengembangan MySQL pada sisi performa dan skalabilitasnya. Hasilnya adalah

sebuah perangkat lunak yang sangat teroptimasi, walaupun dari sisi fitur memiliki

kekurangan dibandingkan solusi basis data kelas enterprise lain. Akan tetapi MySQL

menarik minat banyak pengguna. Saat ini, tercatat lebih dari lima juta basis data


(34)

penting dunia seperti Yahoo!, Google dan NASA menggunakan MySQL untuk mengolah basis data mereka.

Ada beberapa kelebihan yang dimiliki MySQL sehingga dapat menarik

banyak pengguna. Kelebihan tersebut yaitu:

1. Fleksibilitas

Saat ini, MySQL telah dioptimasi untuk duabelas platform seperti HP-UX,

Linux, Mac OS X, Novell Netware, OpenBSD, Solaris, Microsoft Windows

dan lain-lain. MySQL juga menyediakan source code yang dapat diunduh

secara gratis, sehingga pengguna dapat mengkompilasi sendiri sesuai platform

yang digunakan. Selain itu, MySQL juga dapat dikustomisasi sesuai keinginan

penggunanya, misalnya mengganti bahasa yang digunakan pada

antarmukanya.

2. Performa

Sejak rilis pertama, pengembang MySQL fokus kepada performa. Hal ini

masih tetap dipertahankan hingga sekarang dengan terus meningkatkan fiturnya.

3. Lisensi

MySQL menawarkan berbagai pilihan lisensi kepada penggunanya. Lisensi

open source yang ditawarkan yaitu lisensi GNU General Public License dan


(35)

ditawarkan juga lisensi komersil berbayar yang memiliki fasilitas dukungan teknis.

2.3.2 HTML (Hipertext Markup Language)

HTML adalah sebuah bahasa markup yang digunakan untuk membuat sebuah

halaman web dan menampilkan berbagai informasi di dalam sebuah browser

Internet.HTML diciptakan oleh Tim Berners-Lee, seorang peneliti

CERN.Berners-Lee mendasarkan HTML pada Standard Generalized Markup Language. Dokumen

HTML pada dasarnya adalah dokumen teks yang mengandung kode-kode tag yang sesuai dengan spesifikasi HTML. Kode-kode tag itu nantinya diterjemahkan oleh aplikasi browser sehingga dokumen HTML tadi bisa ditampilkan sesuai dengan yang diinginkan pembuatnya. Secara umum, HTML memiliki empat jenis elemen yaitu:

1. Structural, yaitu tanda yang menentukan level atau tingkatan sebuah teks

(misalnya sebagai heading, paragraf, kutipan, dan sebagainya).

2. Presentational, yaitu tanda yang menentukan tampilan sebuah teks (misalnya

cetak tebal, miring, garis bawah, dan lain-lain).

3. Hypertext, yaitu tanda yang menunjukkan link ke bagian lain pada teks

tersebut atau ke dokumen lain.

4. Widget, yaitu tanda yang menghasilkan obyek-obyek tertentu seperti tombol,


(36)

2.3.3 PHP

PHP berawal dari skrip Perl/CGI yang dibuat oleh seorang pengembang

perangkat lunak bernama Rasmus Lerdorf untuk menghitung jumlah pengunjung

homepage-nya. Karena banyaknya pengunjung yang meminta skrip tersebut, Lerdorf

akhirnya membagi-bagikan skrip buatannya yang diberi nama Personal Home Page

(PHP).

Banyaknya permintaan membuat Lerdorf terus mengembangkan skripnya. Beberapa orang akhirnya bergabung membentuk tim untuk mengembangkan PHP. Sejak itu PHP berkembang pesat dengan banyak fungsi baru yang ditambahkan.

Kepanjangan dari PHP kini berubah menjadi PHP: Hypertext Preprocessor.

Ada tiga macam penggunaan PHP:

1. Server-side scripting. Ini merupakan jenis penggunaan yang paling banyak

dilakukan pengguna PHP. Untuk menggunakannya, dibutuhkan tiga hal: PHP

parser, aplikasi web server yang terkoneksi dengan instalasi PHP, dan

aplikasi web browser.

2. Command line scripting. Pada penggunaan PHP jenis ini hanya dibutuhkan

PHP parser.

3. Pembuatan aplikasi berbasis desktop. Pada penggunaan PHP jenis ini,

dibutuhkan ekstensi tambahan PHP-GTK.

PHP memiliki empat kelebihan utama yang menarik minat banyak pengguna. Kelebihan utama PHP tersebut diringkas dalam 4P berikut:


(37)

1. Practicality. PHP dibuat dengan menitikberatkan pada kepraktisan. Hasilnya, PHP adalah bahasa pemrograman minimalis, dilihat dari segi kebutuhan pengguna dan kebutuhan sintaks.

2. Power. PHP memiliki banyak kemampuan, mulai dari kemampuan untuk

terhubung dengan basis data, membuat halaman web dinamis, membuat dan

memanipulasi berkas gambar, Flash dan PDF, berkomunikasi dengan

bermacam protokol seperti IMAP dan POP3, dan masih banyak lagi.

3. Possibility. PHP dapat menyediakan lebih dari satu solusi untuk suatu

masalah

4. Price. PHP selalu dirilis kepada publik tanpa ada batasan untuk penggunaan,

modifikasi, atau redistribusi.

2.3.4 Cascading Style Sheets (CSS)

CSS adalah sebuah bahasa style sheet (lembar gaya) yang digunakan untuk

mengatur tampilan dokumen yang ditulis dalam bahasa markup. CSS Level 1 (CSS1)

diperkenalkan pada tahun 1995 oleh World Wide Web Consortium (W3C) dan

dimaksudkan untuk mengatasi keterbatasan HTML dalam hal keleluasaan pengaturan desain dan tampilan pada sebuah dokumen HTML.Setahun kemudian CSS1 diberi status rekomendasi penuh oleh W3C yang juga mengatur spesifikasi CSS. Saat ini

ada tiga level CSS, yaitu CSS Level 1 (Recommendation), CSS Level 2


(38)

Penggunaan CSS paling banyak untuk memformat halaman web yang ditulis dengan HTML dan XHTML. Walau demikian, CSS dapat dipergunakan untuk bahasa

markup lain seperti SVG dan XUL.

2.3.5 Apache HTTP Server

Apache HTTP Server atau yang biasa disebut Apache, merupakan sebuah

aplikasi web server yang dibuat oleh Robert McCool.Apache kini dikembangkan

dibawah Apache Software Foundation dan tersedia untuk berbagai sistem operasi

seperti Linux, UNIX, MS Windows, Mac OS X dan lain-lain. Sejak tahun 1996

Apache menjadi aplikasi web server paling populer, dan pada tahun 2009 menjadi

aplikasi web server pertama yang digunakan oleh lebih dari 100 juta situs web.

2.3.6 Adobe Dreamweaver CS5

Dreamweaver merupakan sebuah aplikasi untuk merancang pembuatan

website.Dreamweaver dibuat oleh perusahaan Macromedia sehingga dinamakan

Macromedia Dreamweaver.Sejak Macromedia diakuisisi Adobe Inc., namanya

berubah menjadi Adobe Dreamweaver.Versi pertama Dreamweaver dibawah Adobe

adalah CS5, mengikuti versi rilisnya yang dipaketkan dalam Adobe Creative Suite 5.

Dreamweaver memiliki kelebihan dalam hal kemudahan penggunaan. Untuk

pengguna awam, Dreamweaver menyediakan fungsi tampilan Design, sehingga


(39)

You See Is What You Get). Untuk pengguna tingkat lanjut, Dreamweaver

menyediakan tampilan Code sehingga pengguna dapat merancang tampilan yang

lebih lengkap menggunakan kode. Pengguna juga dimudahkan dengan berbagai

fasilitas yang dimiliki Dreamweaver seperti tag auto-completionuntuk penulisan kode

HTML. Format yang didukung Dreamweaver juga cukup lengkap, mulai dari HTML,

JavaScript, CSS, sampai XML.

2.4 Pemrograman Berorientasi Objek

Pemograman berorientasi objek (Obhect oriented programming – OOP)

merupakan paradigma pemograman yang berorientasikan kepada objek. Semua

data dan fungsi di dalam paradigma ini dibungkus dalam

kelas-kelasatauobjek-objek.Bandingkan dengan logikapemrograman

terstruktur.Setiap objek dapat menerimapesan, memproses data, dan mengirim

pesan ke objek lainnya.

Model data berorientasi objek dikatakan dapat memberi fleksibilitas yang

lebih, kemudahan mengubah program, dan digunakan luas dalamteknik piranti

lunak skala besar.Lebih jauh lagi, pendukung OOP mengklaim bahwa OOP lebih mudah dipelajari bagi pemula dibanding dengan pendekatan sebelumnya, dan pendekatan OOP lebih mudah dikembangkan dan dirawat.


(40)

2.4.1 Konsep Pemrograman Berorientasi Objek

Pemrograman berorientasi objek menekankan konsep berikut:

1. kelas, kumpulan atas definisi data dan fungsi-fungsi dalam suatu unit untuk

suatu tujuan tertentu. Sebagai contoh 'class of dog' adalah suatu unit yang

terdiri atas definisi-definisi data dan fungsi-fungsi yang menunjuk pada

berbagai macam perilaku/turunan dari anjing. Sebuah class adalah dasar dari

modularitas dan struktur dalam pemrograman berorientasi oobjek. Sebuah

class secara tipikal sebaiknya dapat dikenali oleh seorang non-programmer

sekalipun terkait dengan domain permasalahan yang ada, dan kode yang

terdapat dalam sebuah class sebaiknya (relatif) bersifat mandiri dan

independen (sebagaimana kode tersebut digunakan jika tidak menggunakan OOP). Dengan modularitas, struktur dari sebuah program akan terkait dengan aspek-aspek dalam masalah yang akan diselesaikan melalui program tersebut. Cara seperti ini akan menyederhanakan pemetaan dari masalah ke sebuah program ataupun sebaliknya.

2. Objek, membungkus data dan fungsi bersama menjadi suatu unit dalam

sebuah program komputer. Objek merupakan dasar dari modularitas dan struktur dalam sebuah program komputer berorientasi objek.

3. Abstraksi , kemampuan sebuah program untuk melewati aspek informasi yang

diproses olehnya, yaitu kemampuan untuk memfokus pada inti. Setiap objek dalam sistem melayani sebagai model dari "pelaku" abstrak yang dapat


(41)

melakukan kerja, laporan dan perubahan keadaannya, dan berkomunikasi dengan objek lainnya dalam sistem, tanpa mengungkapkan bagaimana kelebihan ini diterapkan. Proses, fungsi atau metode dapat juga dibuat abstrak, dan beberapa teknik digunakan untuk mengembangkan sebuah pengabstrakan.

4. Enkapsulasi, memastikan pengguna sebuah objek tidak dapat mengganti

keadaan dalam dari sebuah objek dengan cara yang tidak layak; hanya metode dalam objek tersebut yang diberi ijin untuk mengakses keadaannya. Setiap

objek mengakses interface yang menyebutkan bagaimana objek lainnya dapat

berinteraksi dengannya. Objek lainnya tidak akan mengetahui dan tergantung kepada representasi dalam objek tersebut.

5. Polimorfisme melalui pengiriman pesan. Tidak bergantung kepada

pemanggilan subrutin, bahasa orientasi objek dapat mengirim pesan. Metode tertentu yang berhubungan dengan sebuah pengiriman pesan tergantung kepada objek tertentu di mana pesan tersebut dikirim. Contohnya, bila sebuah burung menerima pesan "gerak cepat", dia akan menggerakan sayapnya dan terbang. Bila seekor singa menerima pesan yang sama, dia akan menggerakkan kakinya dan berlari. Keduanya menjawab sebuah pesan yang sama, namun yang sesuai dengan kemampuan hewan tersebut. Ini disebut

polimorfisme karena sebuah variabel tungal dalam program dapat memegang

berbagai jenis objek yang berbeda selagi program berjalan, dan teks program yang sama dapat memanggil beberapa metode yang berbeda di saat yang


(42)

berbeda dalam pemanggilan yang sama. Hal ini berlawanan denganbahasa

fungsional yang mencapai polimorfisme melalui penggunaan fungsi

kelas-pertama.

6. Inheritas mengatur polimorfisme dan enkapsulasi dengan mengijinkan objek

didefinisikan dan diciptakan dengan jenis khusus dari objek yang sudah ada - objek-objek ini dapat membagi (dan memperluas) perilaku mereka tanpa harus mengimplementasi ulang perilaku tersebut (bahasa berbasis-objek tidak selalu memiliki inheritas.)

7. Dengan menggunakan OOP maka dalam melakukan pemecahan suatu

masalah kita tidak melihat bagaimana cara menyelesaikan suatu masalah tersebut (terstruktur) tetapi objek-objek apa yang dapat melakukan pemecahan masalah tersebut. Sebagai contoh anggap kita memiliki sebuah departemen yang memiliki manager, sekretaris, petugas administrasi data dan lainnya. Misal manager tersebut ingin memperoleh data dari bag administrasi maka manager tersebut tidak harus mengambilnya langsung tetapi dapat menyuruh petugas bag administrasi untuk mengambilnya. Pada kasus tersebut seorang manager tidak harus mengetahui bagaimana cara mengambil data tersebut tetapi manager bisa mendapatkan data tersebut melalui objek petugas administrasi. Jadi untuk menyelesaikan suatu masalah dengan kolaborasi antar objek-objek yang ada karena setiap objek memiliki deskripsi tugasnya sendiri.


(43)

2.4.2 Unified Modelling Language (UML)

Unified Modeling Language (UML) adalah bahasa spesifikasi standar untuk

mendokumentasikan, menspesifikasikan, dan membangun sistem perangkat lunak.

Unified Modeling Language (UML) adalah

himpunan struktur danteknik untuk pemodelan desain program berorientasi objek (OOP) serta aplikasinya.UML adalah metodologi untuk mengembangkan sistem OOP

dan sekelompok perangkat tool untuk mendukung pengembangan sistem

tersebut UML mulai diperkenalkan oleh Object Management Group,

sebuah organisasi yang telah mengembangkan model, teknologi, dan standar OOP sejak tahun 1980-an. Sekarang UML sudah mulai banyak digunakan oleh para

praktisi OOP. UML merupakan dasar bagi perangkat (tool) desain berorientasi objek

dari IBM

UML adalah suatu bahasa yang digunakan untuk menentukan,

memvisualisasikan, membangun, dan mendokumentasikan suatu sistem

informasi. UML dikembangkan sebagai suatu alat untuk analisis dan desain berorientasi objek oleh Grady Booch, Jim Rumbaugh, dan Ivar Jacobson.Namun demikian UML dapat digunakan untuk memahami dan mendokumentasikan setiap sistem informasi.Penggunaan UML dalam industri terus meningkat. Ini merupakan standar terbuka yang menjadikannya sebagai bahasa pemodelan yang umum dalam industri peranti lunak dan pengembangan sistem.


(44)

2.4.2.1 Diagram UML

UML menyediakan 10 macam diagram untuk memodelkan aplikasi berorientasi objek, yaitu:

1. Use Case Diagramuntuk memodelkan proses bisnis.

2. Conceptual Diagramuntuk memodelkan konsep-konsep yang ada di

dalam aplikasi.

3. Sequence Diagramuntuk memodelkan pengiriman pesan (message)

antarobjek.

4. Collaboration Diagramuntuk memodelkan interaksi antarobjek.

5. State Diagramuntuk memodelkan perilakuobjekdi dalam sistem.

6. Activity Diagramuntuk memodelkan perilakuuserdanobjekdi

dalamsistem.

7. Class Diagramuntuk memodelkan struktur kelas.

8. Objek Diagramuntuk memodelkan strukturobjek.

9. Component Diagramuntuk memodelkan komponenobjek.

10.Deployment Diagramuntuk memodelkan distribusi aplikasi.

Berikut akan dijelaskan 4 macam diagram yang paling sering digunakan

dalam pembangunan aplikasi berorientasi objek, yaituuse case diagram,


(45)

2.4.2.2 Use Case Diagram

Use case diagramdigunakan untuk memodelkan bisnis proses berdasarkan

perspektif pengguna sistem.Use case diagram terdiri atas diagram untuk use

case danactor. Actor merepresentasikan orangyang akan mengoperasikan atau

orang yang berinteraksi dengan sistem aplikasi.

Use case merepresentasikan operasi-operasi yang dilakukan olehactor.

Use case digambarkan berbentuk elips dengan nama operasi dituliskan

didalamnya.Actoryang melakukan operasi dihubungkan dengan garis lurus ke

use case.

2.4.2.3 Sequence Diagram

Sequence diagrammenjelaskan secara detil urutan proses yang dilakukan

dalam sistem untuk mencapai tujuan dari use case. Interaksi yang terjadi

antarclass, operasi apa saja yang terlibat, urutan antar operasi, dan informasi

yang diperlukan oleh masing-masing operasi.

2.4.2.4 Collaboration Diagram

Collaboration diagramdipakai untuk memodelkan interaksi antar objek di

dalam sistem. Berbeda dengan sequence diagram yang lebih menonjolkan

kronologis dari operasi-operasi yang dilakukan, collaboration diagram lebih


(46)

2.4.2.5 Class Diagram

Class diagrammerupakan diagram yang selalu ada di permodelan sistem

berorientasi objek.Class diagram menunjukkan hubungan antarclassdalam

sistem yang sedang dibangun dan bagaimana mereka saling berkolaborasi untuk mencapai suatu tujuan.


(47)

42

3.1 Analisis Sistem

Pada bagian ini akan dilakukan analisis terhadap Information Retrieval System

(IRS) dengan menggunakan Model Ruang Vektor. Hasilnya digunakan untuk mengidentifikasi dan mengevaluasi hasil implementasi dan pengujian yang akan dibahas pada bab berikutnya. Dari proses analisis akan dapat dihasilkan berbagai macam saran perbaikan terhadap sistem yang dapat dijadikan dasar dalam

perancangan Information Retrieval System.

3.1.1 Analisis Masalah

Dari hasil survey IDC (Internasional Data Corporation) dapat diketahui

bahwa dokumen yang terdapat dalam dunia maya terus bertambah. Hal ini menimbulkan kesulitan dalam menemubalikkan dokumen-dokumen tersebut. Faktor utama dalam proses pencarian suatu dokumen di dunia maya adalah bagaimana

dokumen tersebut ditemubalikkan sesuai atau relevan dengan keyword atau query

yang di inputkan oleh user yang akan mencari dokumen berita tersebut.

Oleh karena itu, berbagai macam penelitian di area ini telah banyak

dilakukan, salah satunya adalah melalui disiplin ilmu IR (Information Retrieval).IR


(48)

berdasarkan representasi kebutuhan informasi berupa kata kunci,yaitu keyword atau query.

3.1.2 Masukan Perangkat Lunak

Input dari suatu sistem temu balik informasi ini adalah query dari pengguna dan koleksi dokumen. Koleksi dokumen yang digunakan dalam sistem temu balik

informasi ini yaitu content berita IT berbahasa indonesia yang dapat dikumpulkan

secara manual dari situs penyedia berita di internet.

3.1.3 Proses Yang Terjadi Didalam Perangkat Lunak

Perangkat lunak dalam skripsi ini merupakan aplikasi Information Retrieval

System dengan menggunakan Model Ruang Vektor dan metode pembobotan Term

Frequency–Inverse Document Frequency (TF_IDF).

Information Retrieval System ini secara umum terdapat 2 tahapan besar, yaitu

preprocessing/indexing dan retrieval. Pada tahapan preprocessing mencakup

penghapusan tag, tokenization, filtration, stemming, dan weigthing. Kemudian

dilanjutkan dengan menyimpan setiap term yang penting ke dalam suatu index

(dalam sistem ini menggunakan suatu tabel pada database MySQL).

Information Retrieval System ini akan menerima query dari pengguna

kemudian memproses query tersebut dan sistem akan melakukan perhitungan


(49)

kumpulan dokumen yang relevan dan terurut berdasarkan ranking kerelevanannya

dengan query dari pengguna.

Berikut ini adalah gambar dari deskripsi umum sistem :

User

Preprocessing Query

Query Formulation

Term query

yang di index Rangking

Preprocessing Koleksi Dokumen

Berita

Koleksi term hasil index 1. Dok-4

2. Dok-1 3. Dok-5 4. Dok-2

. . .

Mengembalikan dokumen yang relevan dengan hasil perangkingan (Retrieval)

Gambar 3.1 Proses Yang Terjadi Dalam Sistem

Dalam preprocessing dilakukan beberapa tahapan untuk melakukan

pengindeksan dokumen berita diantarany penghapusan tag html, tokenization,

filtration, stemming dan weighting.

Berikut ini adalah penjelasan tahapan-tahapan preprocessing yang akan


(50)

3.1.3.1 Hapus Tag HTML

Tahap ini menghapus semua tag markup dan format khusus dari dokumen,

terutama pada dokumen yang mempunyai banyak tag dan format seperti dokumen

(X)HTML.

Untuk penghapusan tag HTML menggunakan fungsi PHP strip_tags().

Pseudocode : strip_tags(“<b>google</b>”);

Dibawah ini adalah Flowchart alur hapus tag HTML :

Start

Dokumen Berita Dalam

Database

Cek apakah ada tag html dalam dokumen

berita?

Hapus Tag HTML

Update Dokumen Berita Dalam

Database

End

Ya Tidak


(51)

Berikut ini adalah Contoh penghapusan tag HTML pada dokumen berita : Dokumen berita :

Sebelum tag html dihapus :

Setelah tag html dihapus :

Dari contoh diatas bisa diketahui ada 4 kata yang mengandung tag html yang telah dihapus markup tag htmlnya.

Dua layanan populer milik Google, Picasa dan Blogger tidak lama

lagi akan lenyap. Bukan karena Google menghapusnya, tetapi karena raksasa

internet itu ingin 'membuang' kedua nama produk itu untuk diganti namanya.

Dua layanan populer milik <b>Google</b>, <i>Picasa</i> dan

<i>Blogger</i> tidak lama lagi akan lenyap. Bukan karena

<b>Google</i> menghapusnya, tetapi karena raksasa internet itu ingin 'membuang' kedua nama produk itu untuk diganti namanya.

Dua layanan populer milik Google, Picasa dan Blogger tidak lama lagi

akan lenyap. Bukan karena Google menghapusnya, tetapi karena raksasa


(52)

3.1.3.2 Tokenization

Tokenization adalah tugas memisahkan deretan kata di dalam kalimat,

paragraf atau halaman menjadi token atau potongan kata tunggal atau termmed word.

Tahapan ini juga menghilangkan karakter-karakter tertentu seperti tanda baca

dan mengubah semua token ke bentuk huruf kecil (lower case). Dibawah ini adalah

Flowchart alur Tokenization :

Start

Dokumen Berita Dalam

Database

bersihkan tanda baca

ubah ke huruf kecil

pisahkan kalimat atau paragraf ke

bentuk kata

Update Dokumen Berita Dalam

Database

End


(53)

Untuk pemisahan kalimat ke bentuk kata menggunakan fungsi PHP explode().

Pseudocode :

explode(“ “, “Dua layanan populer milik Google”);

Contoh tokenization :

Input :

Dua layanan populer milik Google, Picasa dan Blogger tidak lama lagi akan lenyap. Bukan karena Google menghapusnya, tetapi karena raksasa internet itu ingin 'membuang' kedua nama produk itu untuk diganti namanya.


(54)

3.1.3.3 Filtration

Filtration adalah proses penghapusan kata buang yaitu kata sambung, kata

depan, kata ganti, dll. Contoh stop words dalam bahasa Indonesia : yang, juga, dari,

dia, kami, kamu, aku, saya, ini, itu, atau, dan, tersebut, pada, dengan, adalah, yaitu, ke, tak, tidak, di, pada, jika, maka, ada, pun, lain, saja, hanya, namun, seperti,

kemudian, karena, untuk, dll. Proses filtration menggunakan fungsi PHP

str_replace().

Dibawah ini adalah array stopword yang telah di inputkan beserta contoh

penggunaan fungsi str_replace() :

$astopword = array (" yang ", " juga ", " dari ", " dia ", " kami ", " kamu ", "aku", " ini ", " itu ", " atau ", " dan ", " tersebut ", " pada ", " dengan ", " adalah ", " yaitu ", " ke ", " tak "," tidak "," di ", " pada "," jika "," maka "," ada ", " pun "," lain "," saja ", " hanya "," namun "," seperti "," kemudian "," untuk "," sudah ", " belum ", " memang "," sama ", " apa "," apakah "," oleh ", " sangat "," sehingga "," memang "," dimana "," sedangkan ", " selain "," tapi "," tetapi "," tanpa "," tiada "," dengan "," lain "," akan "," lainnya "," tiada "," para ", " saat "," sebelum "," sesudah "," karena ");


(55)

Data array akan dibaca oleh fungsi foreach :

foreach ($astopword as $i => $value) {

$teks = str_replace($astopword[$i], " ", $teks);

}

$teks adalah dokumen berita yana akan diproses oleh filtration.

Dibawah ini flowchart proses filtration :

Start

Input daftar stopword

removal

foreach

($astopword as $i => $value)

{$teks =

str_replace($ast opword[$i], " ", $teks);}

End


(56)

Contoh Sebelum filtration : :

Setelah Filtration :

3.1.3.4 Stemming

Stemming adalah pengubahan kata ke bentuk kata dasar atau penghapusan

imbuhan.

Stemming disini menggunakan kamus daftar kata berimbuhan yang

mempunyai kata dasarnya dengan cara membandingkan kata-kata yang ada dalam

dokumen berita dengan daftar kamus stem. Proses stemming menggunakan fungsi

PHP str_replace. Berikut ini adalah contoh penggunaanya :

//buka tabel tbstem dan bandingkan dengan berita

$restem = mysql_query("SELECT * FROM stem ORDER BY id"); while($rowstem = mysql_fetch_array($restem)) {

$teks=str_replace($rowstem['term'],$rowstem['stem'], $teks);

}

dua layanan populer milik google picasa dan blogger tidak lama lagi akan

lenyap bukan karena google menghapusnya tetapikarena raksasa internet itu ingin

membuang kedua nama produk itu untuk diganti namanya

dua layanan populer milik google picasa blogger lama lenyap google menghapus raksasa internet ingin membuang kedua nama produk diganti nama


(57)

Dibawah ini flowchart proses stemming :

Start

Dokumen Berita Dalam

Database

Buka kamus Stem

Ubah kata ke bentuk kata dasar yang ada

dalam kamus

End Term kamus = term dokumen ?

Ya

tidak


(58)

Contoh kamus stemming :

Tabel 3.1 Kamus Stem

No Term Stem

1 layanan Layan

2 menghapus Hapus

3 membuang Buang

4 Kedua Dua

5 Diganti Ganti

6 namanya Nama

Contoh Stemming :

Term yang berubah oleh proses stemming :

layanan  layan

menghapus  hapus

membuang  buang

kedua  dua

diganti  ganti

namanya  nama

dua layanan populer milik google picasa blogger lama lenyap google


(59)

Jadi berita yang telah di stemming adalah :

3.1.3.5 Weighting

Pembobotan kata sangat berpengaruh dalam menentukan kemiripan antara

dokumen dengan query. Apabila bobot tiap kata dapat ditentukan dengan tepat,

diharapkan hasil perhitungan kemiripan teks akan menghasilkan perangkingan dokumen yang baik.

Bobot term di dalam Information Retrieval System (W) dihitung

menggunakan tf-idf yang didefinisikan sebagai berikut.

W

=

tf

×

idf

(3.1)

Diketahui :

W = Bobot term

tf = banyaknya kemunculan suatu kata dalam suatu dokumen.

Idf =

��

2

(

)

(3.2)

Diketahui :

N = Jumlah artikel dalam koleksi dokumen

dua layan popular milik google picasa blogger lama lenyap google hapus raksasa internet ingin buang dua nama produk ganti nama


(60)

dji =Banyaknya Dokumen (j) yang mengandu term (i)

Log2 = digunakan untuk memperkecil pengaruhnya relatif terhadap tfij

Contoh kasus Terdapat 3 dokumen berita yaitu :

D1 : dua layan popular milik google picasa blogger lama lenyap

D2 : picasa blogger milik google

D3 : nama google picasa ubah dalam cari google

Diketahui :

D = 3 (Jumlah Dokumen)

Idf =

��

2

(

)

dji =Banyaknya Dokumen (j) yang mengandu term (i)

Tf D1 =Banyaknya muncul kata di dokumen 1

Tf D2 = Banyaknya muncul kata di dokumen 2

Tf D3 = Banyaknya muncul kata di dokumen 3

W D1 = Bobot kata di dokumen 1

W D2 = Bobot kata di dokumen 2


(61)

Tabel 3.2 Pembobotan Kata

Kata Tf D1 Tf D2 Tf D3

� Idf D1 W W D2 W D3

Dua 1 0 0 1 3/1 = 3 0.48 0.48 0 0

Layan 1 0 0 1 3/1 = 3 0.48 0.48 0 0

Popular 1 0 0 1 3/1 = 3 0.48 0.48 0 0

Milik 1 1 0 2 3/2 = 1.5 0.18 0.18 0.18 0

Google 1 1 2 4 ¾ = 0.75 0.12 0.12 0.12 0.24

Picasa 1 1 1 3 3/3 = 1 0 0 0 0

Blogger 1 1 0 2 3 / 2 =1.5 0.18 0.18 0.18 0

Lama 1 0 0 1 3/1 =3 0.48 0.48 0 0

Lenyap 1 0 0 1 3/1 = 3 0.48 0.48 0 0

Nama 0 0 1 1 3/1 = 3 0.48 0 0 0.48

Ubah 0 0 1 1 3/1 = 3 0.48 0 0 0.48

Dalam 0 0 1 1 3/1 = 3 0.48 0 0 0.48

Cari 0 0 1 1 3/1 = 3 0.48 0 0 0.48

3.1.4 Keluaran Perangkat Lunak

Output yang diharapkan dari Information Retrieval System ini adalah

dokumen yang dianggap relevan oleh sistem berupa berita yang telah

terurutberdasarkan relevansi dengan query dari pengguna.

3.1.5 Analisis Model Ruang Vektor

3.1.5.1 Ukuran Kemiripan

Setelah menghitung pembobotan dilakukan suatu perhitungan ukuran kemiripan antar dokumen dengan query. Ukuran ini memungkinkan perankingan

dokumen sesuai dengan kemiripan relevansinya terhadap query. Setelah

dokumen diranking, sejumlah tetap dokumen top-scoring dikembalikan kepada


(62)

Berikut ini adalah contoh perhitungan kemiripan :

Gambar 3.6 Contoh Model Ruang Vektor dengan dua dokumun D1 dan D2,

serta query Q1. [1]

Jika dua dokumen D1 = 2T1 + 6T2 + 5T3 dan D2 = 5T1 + 5T2 + 2T3 dan query Q1 = 0T1 + 0T2 + 2T3 sebagaimana diperlihatkan pada Gambar 3.6, berikut ini adalah nilai kosinus yang diperoleh:

� �� �� � 1,� 1 = cos�=

(2.0 + 6.0 + 5.2)

4 + 36 + 25 . (0 + 0 + 4)= 10


(63)

� �� �� � 2,� 1 = cos� =

(5.0 + 5.0 + 2.2)

25 + 25 + 4 . (0 + 0 + 4)= 4

54.4= 0.27

Contoh di atas memperlihatkan bahwa sesuai dengan perhitungan kosinus,

dokumen D2 lebih mirip dengan query daripada dokumen D1. Terlihat sudut antara D2

dan Q1 lebih kecil daripada sudut antara D1 dan Q1.

3.1.6 Analisis dan Kebutuhan Fungsional Perangkat Lunak

Analisis kebutuhan fungsional menggambarkan proses kegiatan yang akan diterapkan dalam sebuah sistem dan menjelaskan kebutuhan yang diperlukan sistem agar sistem dapat berjalan dengan baik.

Analisis yang dilakukan dimodelkan dengan menggunakan UML (Unified

Modeling Language). Tahap-tahap pemodelan dalam analisis tersebut antara lain

identifikasi aktor, usecase diagram, skenario, activity diagram, sequence diagram,

class diagram.

3.1.6.1 Use Case Diagram

Pemodelan use case adalah pemodelan sistem dari perspektif pandangan

pemakai akhir (end user). Model use case adalah pandangan dari luar sistem,

sementara model rancangan adalah pandangan dari dalam. Model use case

menangkap penggunaan-penggunaan sistem, sedangkan model rancangan


(64)

Dibawah ini adalah Use Case Diagram Information Retrieval :

Gambar 3.7 Use Case Diagram Information Retrieval System

3.1.6.2 Identifikasi Aktor

Terdapat dua aktor yang berhubungan dengan Information Retrieval System.

Aktor dapat diidentifikasikan sebagai berikut :

a. Aktor pertama ialah Administrator, mempunyai hak akses untuk pengelolaan

dokumen berita, melakukan indexing, dan menerapkan model ruang vektor

pada dokumen berita juga mempunyai hak akses ke halaman user untuk

melakukan pencarian.

b. Aktor kedua ialah User, hanya mempunyai hak akses di halaman user untuk


(65)

3.1.6.3 Identifikasi Use Case

Tabel 3.3 Identifikasi Use CaseInformation Retrieval System

No. Use Case Deskripsi

1 Login Proses ini melakukan autentikasi terhadap aktor yang menjalankan sistem untuk memastikan bahwa orang yang bersangkutan memiliki hak akses terhadap sistem.

2 Add Proses bagi admin untuk menambahkan dokumen berita

3 View Proses bagi admin untuk melihat dokumen berita 4 Edit Proses bagi admin untuk mengubah dokumen berita 5 Delete Proses bagi admin untuk menghapus dokumen berita 6 Hapus tag html Proses untuk menghapus tag html

7 Tokenization Proses untuk memecah dokumen berita menjadi potongan-potongan kata

8 Filtration Proses untuk stopword menghilangkan kata-kata yang tidak diperlukan untuk pengindeksan dan menghilangkan tanda baca.

9 Stemming Proses untuk mengubah kata ke bentuk kata dasar atau penghapusan imbuhan.

10 Term weighting Proses untuk pemberian bobot tf.idf terhadap term 11 Hitung panjang vektor Proses untuk menghitung panjang vektor dokumen 12 Retrieval Proses bagi admin untuk menemubalikkan dokumen

berita.


(66)

3.1.6.4 Use Case Login

Proses ini melakukan autentikasi terhadap aktor yang menjalankan sistem untuk memastikan bahwa orang yang bersangkutan memiliki hak akses terhadap sistem.

Use case login diterangkan dan dimodelkan dengan skenario, activity diagram

dan sequence diagram.

Tabel 3.4 Skenario Use Case Login Identifikasi

Nama Login

Tujuan Masuk ke dalam sistem

Deskripsi Proses login merupakan proses autentifikasi untuk menggunakan sistem.

Aktor Administrator

Skenario Utama

Kondisi awal Form login ditampilkan

Aksi actor Reaksi sistem

1) Menampilkan form login 2) Mengisi Form Login 2) Cek field masih kosong

3) Mengautentifikasi data login dengan data username pada basis data 4) Bila cocok sistem menampilkan

halaman menu utama Skenario Alternatif ( Auntentifikasi Gagal)

Aksi Aktor Reaksi Sistem

1) Menampilkan Pesan bahwa data username tidak benar

2) Mengisi kembali Form Login 3) Mengautentifikasi data username dan password pada basis data

4) Bila cocok sistem menampilkan halaman menu utama


(67)

(68)

(69)

3.1.6.5 Use Case Add

Proses ini melakukan penambahan dokumen berita. Use case add diterangkan

dan dimodelkan dengan skenario, activity diagram dan sequence diagram.

Tabel 3.5 Skenario Use CaseAdd Identifikasi

Nama Add

Tujuan Menambah dokumen berita

Deskripsi Proses Add merupakan proses untuk

penambahan dokumen berita ke dalam Information Retrieval System

Aktor Administrator

Skenario Utama

Kondisi awal Klik tombol add

Aksi aktor Reaksi sistem

1. Klik add 2. Menampilkan Form tambah dokumen

berita. 3. Mengisi Form Dokumen berita

4. Klik tombol simpan 5. Memproses penambahan data Skenario Alternatif ( Auntentifikasi Gagal)

Aksi Aktor Reaksi Sistem

1. Klik tombol batal 2. Kosongkan form


(70)

Gambar 3.10 Activity Diagram Add


(71)

3.1.6.6 Use Case View

Proses ini menampilkan dokumen berita. Use case view diterangkan dan

dimodelkan dengan skenario, activity diagram dan sequence diagram.

Tabel 3.6 Skenario Use Case View Identifikasi

Nama View

Tujuan Menampilkan dokumen berita

Deskripsi Proses View untuk menampilkan berita.

Aktor Administrator

Skenario Utama

Kondisi awal Klik tombol view

Aksi actor Reaksi sistem

1. Klik view 2. Tampilkan dokumen berita

Kondisi akhir Admin berhasil view berita


(72)

Gambar 3.13 Sequence Diagram View 3.1.6.7 Use CaseEdit

Proses ini untuk mengubah dokumen berita. Use case edit diterangkan dan

dimodelkan dengan skenario, activity diagram dan sequence diagram.

Tabel 3.7 Skenario Use Case Edit

Identifikasi

Nama Edit

Tujuan Mengubah dokumen berita

Deskripsi Proses untuk mengubah dokumen berita

Aktor Administrator

Skenario Utama

Kondisi awal Klik tombol view

Aksi actor Reaksi sistem

1. Klik Edit 2. Tampilkan form Edit Berita

3. Ubah Dokumen Berita

4. Klik Simpan 5. Simpan Hasil Edit


(73)

Gambar 3.14 Activity Diagram Edit


(74)

3.1.6.8 Use Case Delete

Proses ini untuk mengubah dokumen berita. Use case edit diterangkan dan

dimodelkan dengan skenario, activity diagram dan sequence diagram.

Tabel 3.8 Skenario Usecase Delete

Identifikasi

Nama Delete

Tujuan Menghapus dokumen berita

Deskripsi Proses untuk menghapus dokumen berita

Aktor Administrator

Skenario Utama

Kondisi awal Klik tombol delete

Aksi actor Reaksi sistem

1. Klik delete 2. Hapus Dokumen berita

Kondisi akhir Admin berhasil menghapus dokumen berita


(75)

Gambar 3.17 Sequence Diagram Delete

3.1.6.9 Use Case Hapus Tag HTML

Proses untuk menghitung panjang vektor dokumen berita. Use case hitung

panjang vektor diterangkan dan dimodelkan dengan skenario, activity diagram dan

sequence diagram

Tabel 3.9 Skenario Use Case Hapus Tag HTML

Identifikasi

Nama Hapus Tag HTML

Tujuan Menghapus Tag HTML

Deskripsi Proses untuk menghapus Tag HTML

Aktor Administrator

Skenario Utama

Kondisi awal Klik tombol Markup-free document text

Aksi actor Reaksi sistem

1. Klik Markup-free document text 2. Hapus Tag HTML


(76)

Gambar 3.18 Activity Diagram Hapus Tag HTML


(77)

3.1.6.10Use Case Tokenization

Proses untuk memecah dokumen berita menjadi potongan-potongan kata. Use

case Tokenization diterangkan dan dimodelkan dengan skenario, activity diagram

dan sequence diagram.

Tabel 3.10 Skenario Use Case Tokenization

Identifikasi

Nama Tokenization

Tujuan Memecah dokumen berita menjadi

potongan-potongan kata

Deskripsi Proses untuk memecah dokumen berita

menjadi potongan-potongan kata.

Aktor Administrator

Skenario Utama

Kondisi awal Dokumen berita belum terpecah menjadi potongan-potongan kata

Aksi aktor Reaksi sistem

1. Klik Indexing 2. Dokumen berita dipecah menjadi

potongan-potongan kata

Kondisi akhir Admin berhasil memecah dokumen berita menjadi setiap potongan kata.


(1)

xv

DAFTAR PUSTAKA

[1] Cios, Krzysztof J. Etc.2007.Data Mining A Knowledge Discovery Approach, Springer.(online).(http://www.4shared.com/document/FyVdn5pm/Data_Mini ng_A_Knowledge_Discov.html, diakses 8 maret 2011).

[2] Murad, AzmiMA., Martin, Trevor.2007.Word Similarity for Document Grouping using Soft Computing.IJCSNS International Journal of Computer Science and Network Security, Vol.7 No.8, August 2007, pp. 20- 27.(online).(http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.132.17 50&rep=rep1&type=pdf, diakses 8 maret 2011).

[3] Macdonald, Craig., and Ben He.2008. Researching and Building IR

applications using Terrier. Scotland: University of Glasgow.

[4] Chu W. Liu Z, Mao W.2002.Textual Document Indexing and Retrieval via

Knowledge Sources and Data

Mining.(online).(http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.14 .2314&rep=rep1&type=pdf, diakses 8 maret 2011).

[5] Hyusein, Byurhan, Patel, Ahmad.2003.Web Document Indexing and


(2)

xvi

Berlin.(online).(http://www.springerlink.com/index/3nqtd0xdlgupj5cm.pdf, diakses 9 maret 2011).

[6] Manning, Christopher D, RagnavanPrabhakar, Schutze, Hinrich

.2008.Introduction to Information Retrieval.Cambridge University

Press.(online).(http://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf, diakses 9 maret 2011).

[7] Garcia, E., Dr. 2005.Document Indexing Tutorial for Information Retrieval

Students and Search Engine

Marketers ,(online),(http://www.miislita.com/information-retrieval-tutorial/indexing.html, diakses9maret 2011).

[8] Ruthven I., Lalmas M.2003.A survey on the use of relevance feedback for information access systems, Knowledge Engineering Review,

(online).18(1):2003,

(http://inex.is.informatik.uni-duisburg.de:2004/pdf/ker_ruthven_lalmas.pdf, diakses 10 maret 2011).

[9] Ristov, Strahil.2003.Using Inverted Files to Compress Text.RudjerBoskovic

Institute, Bijenicka 54, Zagreb,

Croatia.(online).(http://www.irb.hr/hr/home/ristov/papers/ristov_CIT02.pdf/, diakses 9 maret 2011).

[10] Moffat A. Bell, Witten IH.1999.Managing Gigabytes, 2nd Edition,


(3)

Kaufmann.(online).(http://ebookee.org/Managing-Gigabytes-xvii

Compressing-and-Indexing-Documents-and-Images_758830.html, diakses 9 maret 2011).

[11] Van Rijsbergen, C.J.1979.Information Retrieval. Department of Computing Science, University of Glasgow.

[12] Salton, Gerard.1983.Introduction to Modern Information Retrieval, McGraw Hill.

[13] Polettini, Nicola.2004.The Vector Space Model in Information Retrieval –

Term Weighting

Problem.(online).(http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.1 04.3479&rep=rep1&type=pdf, diakses 10 maret 2011).

[14] Garcia.E.Dr.Cosine Similarity Term Weight

Tutorial.2006.(online).( http://www.miislita.com/information-retrieval-tutorial/indexing.html,diakses 10 maret 2011).

[15] Lee D.L.1997.Document Ranking and the Vector-Space Model. IEEE

March-April

1997.(online).(http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.17.1 95&rep=rep1&type=pdf, diakses 11 maret 2011).


(4)

xviii

[16] Tata, Sandeep, Patel M, Jignesh.2007.Estimating he Selectivity of tf-idf based Cosine Similarity Predicates, Sigmod Record December 2007 Vol 36 No. 4.

[17] Guo,Qinglin.2008.The Similarity Computing of Documents Based on VSM.SpringerVerlag Berlin.

[18] Dunham, Margareth H.2003.Data Mining Introductory and Advanced Topics.New Jersey: Prentice Hall.

[19] Kowalski, Gerald J., Maybury, Mark T.2002.Information Storage And Retrieval Systems Theory and Implementation.Kluwer Academic Publisher.


(5)

BIODATA PENULIS

Nama : Agus Maulana Yusuf Noor

Tempat/Tgl Lahir : Subang, 03 September 1989

Agama : Islam

Status : Belum Menikah

Jenis Kelamin : Laki - Laki

Alamat : Jl. Cipedes Atas Gg. Bpk. Dio No.45 Kel. Gegerkalong Hilir Kec.

Sukasari Kota Bandung

Kode Pos : 41053

Telp./ HP : +6285759316259

Email : syfakumala@gmail.com

Blog : http://syfakumala.blogspot.com

Tingginya : 173 cm

Berat/Beban : 78 kg

PENDIDIKAN FORMAL

2007-sekarang : S-1 Fakultas Teknik dan Ilmu Komputer

Jurusan Teknik Informatika

Universitas Komputer Indonesia ( UNIKOM ). 2003-2007 : SMAN 1 Singaparna Tasikmalaya


(6)

1995-2001 : MI KHZ Musthafa Tasikmalaya

KEGIATAN YANG DIIKUTI

2009 : Comlabs ITB, PLSA (Pelatihan Linux Server Administrator) – Sertifikat

2011 : PT. Belogix Indonesia, CompTIA Security+ - Sertifikat

2011 : Yayasan Kurnia Mandala Asih, Pelatihan Pengobatan Alternatif Multi

Terapi Bio Energi Pijat Refleksi Ramuan Tradisional – Sertifikat