Prototipe Specific Domain Search Engine Dengan Menggunakan Metode Kluster Berhirarki

PRQTQTIPE SPECIFIC DOMAIN SEARCH ENGINE
DENGAN MENGGUNAKAN
METQDE ICLUSTER BERHIRARICI

ADE LIANA

JURUSAN ILMU KOMPUTER
FAKULTAS MATEMATllecijic ~olllaillSenrch Engi~leDellgall M e ~ ~ g g ~ i ~ l aMetode
k a l l Kluster Berhirarki
: Ade Liana
: GO6497025

en' tlerdi eni S.Kom

Tanggal Lulus :

,j
L

\t;[y,i 200'3


.

RIWAYAT IIIDUI'
Penulis dilaliirkan di Jakarta pada tanggal 25 Agustus 1979 sebagai anak kedua dari empat
bersaudara, anak dari pasangan Tjong Wie Soeng dan Susi Mclawati Wiryana.
Pada tahun 1997 penulis lulus dari SMU Negeri 68 Jakarta dan pada tahun sama lulus seleksi masuk
IPB melalui jalur U~idaiiganSeleksi Masuk IPB (USMI), dengan pilihan Program Studi IImu Komputer.
Pada tahun 1998 penulis niulai rnendalanii bidang ilmu kon~puterdi Jurusan Ilmii Komputer, Fakultas
Matematika dan ll~nuPengetaliuan Alam.
Selama mengikuti perkulialian penulis ~iienjadiasisten mata kuliah Algoritma dan Pemrograrnan pada
tahun ajaran 199912000 serta mata kulial~Organisasi Komputer pada taliun ajaran 1999/2000.

PRAKATA
Puji dan syukur penulis panjatkan kehadirat Tuhan Yang Maha Esa, karena atas segala karunia-Nya
karya ilmiah ini dapat diselesaikan. T e ~ n ayang dipilili dalam penelitian ini adalali search engine dengan
judul Prototipe Domain Specific Searcli Engine Dengnn Merigguriakan Metode Kluster Berliirarki.
Terima kasih penulis sampaikan kepada berbagoi piliak yang telali membantu penyelesaian karya
ilmiah ini, antara lain adalali Bapak Ir. Julio Adisantoso, M.Komp den lbu Ye~iiI-lerdiyeni S. Konip
selaku pembinibing. Di saniping itu terima kasih juga penuli!; sampaikan kepada rekan-rekan di Jurusan
llmu Kon~puter atas bantuanoya, kliususnya kepada Ronaldo atas bantuan dan dukungan morilnya.

Ungkapan terima kasih juga penulis llaturkan kepada kedua orang tua serta seluruli keluarga atas doa,
dukungan dan kasih sayangnya.
Penulis menyadari sepenuhnya baliwa karya ilmiah ini masih menliliki banyak kekurangan. Meskipurl
demikian penulis berharap semoga karya ilmiah ini dapat ~nenienuhifungsi utama sebagai salah satu
syarat memperoleh gelar,Sarjana Komputer pada Program Studi Ilmu Koniputer, Fakultas Mate~natikadan
Ilmu Pengetahuan Alan~,lnstitut Pertanian Bogor. Selairi itu penulis juga berharap agar tulisan ini dapat
bermanfaat di waktu mendatang.

Bogor, November 2001
Ade Lia~ia

DAPTAR IS1
vi
.
.
.
...........................................................................................................

DAFTAR TABEL ..............


DAFTAR GAMBAR .......................................................................................................................... vi

.
.
.
....................................................................................................
vi

DAFTAR LAMPIRAN ............

PENDAHULUAN ....................
.
.
.
...................................................................................................
I
.................................................................................................
Latar Belakang ....................
I
Tujuan ..................... ..................................................................................................................

I

.
.
.
.
.
.

TINJAUAN PUSTAKA ..................................................................................................................... I
.......................................................................................................
Search Engine ....................
.
.
.
I
.................................................................................
Klasifikasi Otomatis ......................... ........
1
.....................................................................................................

Kluster Berhirarki ............
2
Efektivitas dan Efisiensi .................... ........................................................................................
3

.
.
.
.

.
.

METODOLOGI PENELITIAN .............................................................................................................
4
Pengumpulan Dokumen ................... ........................................................................................
4
Ekstraksi lnformasi ..........................................................................................................................
4
........................................................................................

Pembentukan Kluster ...................
4
........................................................................................4
Pembuatan Search Engine .............

...

.
.
.
.
.
.
.
.

HASlL DAN PEMBAHASAN
Karakteristik Dokumen ....................................................................................................................
5
5

Pemilihan dan Perhitungan Istilah ............................................
Karakteristik Kelompok ...................................................................................................................
5
.................................................................................................
Seurch Engine .......................
7
Recall dan Precisian ..............
..................................................................................................
7

.
.
.
.
.
.

KESIMPULAN DAN SARAN ..............................................................................................................
8
Kesimpulan ........................ ................................................................................................

8
Saran .................... ......................................................................................................................
8

.
.

DAFTAR PUSTAKA

.
.

............................................................................................................................

9

.
.
........................................................................................................................
11


LAMPIRAN ............

DAFTAR TABEL

I . Deskripsi dokumen ..............
.
.
.
.
................................................................................................
5

.

2 Daftar kondisi yang diterapkan dalaln perhitungan istilah .............................................................

5

3 . Ringkasan kluster yang terbentuk


6

...........................................

4 . Daftar beberapa kelompok yang terbentuk pada jarak 5
5 . Daftar istilah percobaan

.................................................................6

.....................................................

7

6. Precision dan recall .........................................................................................................................
8

7. Jumlah dokumen yang terarnbil pada level koordir~asih ( B 1,

26


8. Julnlah dokumen yang tera~nbildan relevan pada level koordinasi h (A, n BD,
)............................... 26
9. Jumlah seluruh dokumen yang relevan (A, ) ...............................

26

DAFTAR GAMBAR
7
I . Diagralll alur pencarian dokumeli .................................................................................................

8
................................................................................................
2 . Grafik recall dan precision ...........
.

DAFTAR LAMPIRAN
I . Hasil pengelompokan istilah ...................
.......

.........................................................................
II
...................:......
.
.
.
.

2 . Detail liasil perhitungan data untuk evaluasi ............................................

26

PENDAHULUAN

Perluasan kueri itu sendiri dimaksudkan untuk
nietnperbesar peluang tera~nbilnya dokumen
relevan dengan cam memperbanyak istilali yang
Latar Beluka~ig
Seiring dengan bertambahnya informasi pada dilibatk.an dalam kueri, di luar istilali yang di
World Wide Web, benambah pula kesulitan kita tentukan oleh pengguno (Adisantoso, 2001). Istilah
untuk mencari informasi yang kita i~iginkan. yang tlilibatkan adalah istilali-istilah yang berada
Memang tersedia beberapa general-ptrrpose search dalam satu kelompok dcligan istilali yang
engine, seperti Altavista , HotBot &an sebagainya, dimasukkan oleh pengguna, karena dianggap
yang memiliki cakupan luas, tapi hasil~iyakurang memiliki makna yang salna (Salton, 1989).
memuaskan, dimana nilai precisiunnya kecil.
Ketika kita menginginkan infor~nasipada bidang T u j u a r ~
Tujuan pe~ielitia~i ini adalall menciaah
tertentu, spec.cijic donlain search engine kira~iya
penggonnan nietodc kluster berhirarki dalam
merupakan solusi yang lebih tepat.
Pembuatan search engine dapat dikelo~npokkan siste~lltoiiu kembali u a h ~ kiiie~nbanganspc~ijic
dalam tiga tahap fungsional, yaitu : mengumpulkan donrain search etigir~edan kinerja metode klt~ster
informasi,
mengekstrak
infor~iiasi dan berhirarki dnlam sistco~tenill kcmbali.
merepresentasikannya melalui sebuah web
inreflace (McCallum el a/).
lnformasi biasanya tersedia dala~n bentuk
TINJAUAN I'USTAICA
dokumen. Namun demikian, biasanya yang
disimpan bukanlah teks keseluruhan dari dokulnen
melainkan representasinya, sepeni ringkasan, judul Set~rcl:Et~girle
atau kata kunci (Rijsbergen, 1979).
Search engine adalali sebuah sistem basis data
Banyak
penelitian
dilakukan
untuk yang didesai~iuntuk mengindeks alamat-alan~atdi
mendapatkan prosedur pengolahan doknmen yang internet, seperti : url, rtsenet.Jp, ala~natirlruge dan
efektif dan efisien. Menurut Rijsberge~i(1979), ada sebagainya (Iittp://www.~iarthur~iwebs.co~ii/sct/).
tiga area penelitian dalaln siste~n [e11111 ke~libali,
yaitu : analisis isi dokumen, struktur i~il'or~nasi,
d a ~ i I