Perancangan Prototipe Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering

Saya menyatakan dengan sebenar benarnya bahwa segala pernyataan dalam tesis
saya yang berjudul :

PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI
MENGGUNAKAN ALGORITMA FUZZY CLUSTERING

merupakan gagasan atau hasil penelitian saya sendiri, dengan arahan Komisi
Pembimbing, kecuali yang dengan jelas ditunjukkan rujukannya. Tesis ini belum
pernah diajukan untuk memperoleh gelar atau capaian akademik lainnya pada
program sejenis di perguruan tinggi lain. Semua data dan informasi yang
digunakan telah dinyatakan secara jelas dan dapat diperiksa kebenarannya.

Bogor, Januari 2007
Yang Membuat Pernyataan

.

i

AHMAD IRFANI. Design of Information Retrieval System Prototype Using
Fuzzy Clustering Algorithm. Supervised By MARIMIN and IRMAN HERMADI.


Today, information retrieval plays a large part of our everyday lives –
especially with the advent of the World Wide Web. During the last 10 years, the
amount of information available in electronic form on the Web has grown
exponentially. However, this development has introduced problems of its own;
finding useful information is increasingly becoming a hit or miss experience that
often ends in information overload.
This thesis analyzes the suitability of fuzzy clustering methods for the
discovery of relevant document relationships. The performance evaluation of
three fuzzy clustering algorithms (Fuzzy C Means, Hyperspherical Fuzzy C
Means and Fuzzy Substractive Clustering) on document written in bahasa
Indonesia and English. Comparison of three different document representation
formula (Term Frequency, Term Frequency Inverse Document Frequency and
Salton) using various reduction of matrix dimension are also carried out.
Clustering precision and recall are applied as quantitative evaluation measures of
the clustering results.
The experiments using document sets with various topic have shown that
Hyperspherical Fuzzy C Means algorithm perform better than Fuzzy C Means
and Fuzzy Substractive Clustering algorithm. Also found that Salton formula is
able to give the ‘right’ document representation to the clustering algorithm as Tf

and Tf Idf are failed.

Key Words : information retrieval,

fuzzy clustering, fuzzy c means,

hyperspherical fuzzy c means, fuzzy subtractive clustering

ii

AHMAD IRFANI. Pengembangan Prototipe Sistem Temu Kembali Informasi
Menggunakan Algoritma Fuzzy Clustering. Di Bawah bimbingan MARIMIN dan
IRMAN HERMADI.

Perkembangan

teknologi

informasi,


khususnya

teknologi

Internet

menyebabkan limpahan informasi, hal ini menjadikan mesin pencari sebagai
perangkat yang memainkan peranan sangat penting. Pada saat ini kebanyakan
mesin pencari Internet menggunakan teknik representasi peringkat. Masalah pada
teknik representasi peringkat muncul bila hasil pencarian yang diperoleh terlalu
banyak. Untuk membantu pengguna dalam mengatasi masalah ini, perlu
dipikirkan suatu teknik representasi lain. Salah satu cara adalah dengan
mengelompokkan dokumen hasil query yang memiliki kemiripan, misalkan
dokumen dokumen yang memiliki kesamaan subyek dapat dimasukkan dalam
satu kelompok atau cluster.
Untuk mengelompokkan dokumen, diperlukan algoritma clustering. Saat ini
sudah banyak algoritma clustering, antara lain K Means, Buckshot, Fuzzy C
Means, Hyperspherical Fuzzy c Means (H FCM), ε Insentive Fuzzy C Means (ε
FCM), Competitive Clustering by Learning (CCL), Fuzzy CCL (FCCL) serta
algoritma Fuzzy Subtractive Clustering (FSC).

Penelitian ini bertujuan untuk melakukan evaluasi terhadap (1) kinerja
algoritma fuzzy clustering (Fuzzy C Means, Hyperspherical Fuzzy C Means &
Fuzzy Subtractive Clustering) untuk document clustering (2) formula representasi
dokumen Term Frekuensi (Tf), Term Frekuensi Inverse Document Frequency (Tf
Idf) dan Salton. Ada tiga parameter yang digunakan untuk menilai algoritma,
yakni Akurasi (Precision), Kolektifitas (Recall) dan waktu eksekusi (detik).
Akurasi merupakan rasio antara jumlah dokumen relevan yang terambil dengan
seluruh jumlah dokumen yang terambil. Kolektifitas adalah adalah rasio antara
jumlah dokumen yang terambil pada suatu pencarian dengan jumlah seluruh
dokumen

yang

relevan.

Algoritma

dan

formula


representasi

terbaik

diimplementasikan pada prototipe sistem temu kembali informasi.

iii

Penelitian dibagi menjadi dua tahap, tahap Evaluasi dan tahap
Pengembangan Prototipe. Tahap evaluasi dibagi menjadi 5 langkah, yaitu : (1)
mengumpulkan dokumen dari situs internet (2) menyimpan dokumen ke dalam
basisdata 3) membuat matriks representasi dengan menggunakan tiga formula
(Tf,Tf Idf dan Salton) (4) menjalankan tiga algoritma clustering yang akan
dibandingkan (4) menghitung kinerja setiap algoritma menggunakan matriks
output clustering.
Tahap evaluasi dilakukan dengan Matlab 7.1 dan pengembangan prototipe
dilakukan dengan bahasa PHP 5.0, basisdata MySQL 5.0.18 dan Web Server
Apache 2.2.0. Penelitian ini diharapkan dapat menjadi suatu model implementasi
algoritma fuzzy clustering dalam temu kembali informasi. Hasil evaluasi pada

dokumen berbahasa Indonesia menunjukkan bahwa algoritma H FCM memiliki
akurasi terbaik pada persentasi kata 10 % dengan akurasi 0.93 dan kolektifitas
terbaik 0.92. Pada bahasa Inggris, algoritma H FCM tetap unggul dengan akurasi
0.96 dan kolektifitas 0.95 pada persentasi kata 5 %. Pada kedua bahasa, hanya
formula Salton yang dapat memberikan input yang lebih baik dibandingkan
formula Tf dan Tf Idf pada algoritma clustering. Akan tetapi algoritma H FCM
memiliki waktu eksekusi yang paling lama. Oleh karena itu, untuk memilih
algoritma

terbaik,

kami

menggunakan

Teknik

Perbandingan

Kinerja


(Comparative Performance Index, CPI). Hasilnya, tetap algoritma H FCM yang
terbaik. Oleh karena itu kami menggunakan algoritma H FCM dan formula Salton
dalam prototipe sistem pencari.
Validasi prototipe dilakukan dengan memasukkan beberapa query ke
prototipe. Hasilnya menunjukkan prototipe memiliki rata rata akurasi 0.85 dan
kolektifitas 0.52.

sistem temu kembali informasi, fuzzy clustering, fuzzy c means,
hyperspherical fuzzy c means, fuzzy substractive clustering, term frequency, term
frequency inverse df dan salton.

iv

G651040154

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Sains pada
Derpartemen Ilmu Komputer


v

Judul Tesis

: Perancangan Prototipe Sistem Temu Kembali Informasi
Menggunakan Algoritma Fuzzy Clustering

Nama

: Ahmad Irfani

NRP

: G651040154

Program Studi : Ilmu Komputer

Menyetujui,
Komisi Pembimbing


Prof. Dr. Ir. Marimin, M.Sc
Ketua

Irman Hermadi, S.Kom, MS
Anggota

Mengetahui,

Ketua Program Studi Ilmu Komputer

Dr. Sugi Guritman

Tanggal Ujian : 17 Januari 2007

Dekan Sekolah Pasca Sarjana

Prof. Dr. Ir. Khairil Anwar Notodiputro, MS

Tanggal Lulus :


vi

Alhamdulillahirabbil ‘alamin, Penulis panjatkan puji dan syukur ke
hadirat Allah SWT yang telah memberikan rahmat, hidayah, serta karuniaNya
sehingga Penulis dapat menyelesaikan tesis yang berjudul Perancangan Prototipe
Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering.
Penulis mengucapkan terima kasih kepada Bapak Prof. Dr. Ir. Marimin, M.Sc.
dan Bapak Irman Hermadi selaku pembimbing I dan 2 yang telah memberikan
banyak masukan kepada Penulis dalam penyusunan tesis ini. Ucapan terimakasih
juga Penulis sampaikan kepada Ibu Yeni Herdiayani SKom, MKom sebagai dosen
penguji. Selanjutnya Penulis ingin mengucapkan terima kasih kepada:
1. Papah dan Mamah yang selama ini selalu mendukung dan berdoa demi
kelancaran masa studi Penulis.
2. Anna Yuliarti Khodijat ST. MM yang banyak memberikan fasilitas dan
semangat kepada Penulis pada saat kuliah dan penyusunan tesis ini.
3. Alm. Drs. H. Lukman Dendawijaya, MM beserta keluarga yang banyak
memberikan dukungan dan semangat selama masa kuliah
4. Departemen Ilmu Komputer beserta dosen dan staf yang telah banyak
membantu Penulis dalam penyusunan skripsi ini.

Kepada semua pihak yang telah membantu Penulis dalam penyusunan skripsi
ini yang tidak bisa disebutkan satu per satu, terima kasih.
Semoga penelitian ini dapat memberikan manfaat, Amien.

Bogor, Januari 2007
!" # $%

vii

&

Penulis dilahirkan di Cikarang pada tanggal 6 Agustus 1977 dari ayah H.
A. Baedhowi H.S dan R. Hj. Faiqoh. Penulis merupakan putra ke empat dari
sembilan bersaudara. Pendidikan sekolah dasar ditempuh di SDN 1 Cikarang,
menengah pertama di SMPN 1 Cikarang dan menengah atas di SMAN 1
Cikarang. Pendidikan sarjana ditempuh di Institut Pertanian Bogor, Jurusan Ilmu
Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, lulus pada tahun
2000. Pada tahun 2004, penulis melanjutkan kuliah di Sekolah Pasca Sarjana IPB
dan mengambil Program Studi Ilmu Komputer. Selama mengikuti perkuliahan,
penulis aktif bekerja sebagai Senior System Engineer pada PT Hanoman Cendikia
Interaktif. Pada tahun 2006 penulis bergabung dengan GrahamTechnology,
sebuah perusahaan multinasional berbasis di Inggris, sebagai Business Solution
Consultant.

viii

DAFTAR ISI........................................................................................................ i
DAFTAR TABEL ............................................................................................. xii
DAFTAR GAMBAR ....................................................................................... xiii
1. PENDAHULUAN......................................................................................... 1
A.LATAR BELAKANG .................................................................................... 1
B.TUJUAN DAN MANFAAT ............................................................................. 4
C.RUANG LINGKUP ....................................................................................... 5
2. TINJAUAN PUSTAKA ................................................................................ 6
A.TEMU KEMBALI INFORMASI ....................................................................... 6
B.DOKUMEN BERBAHASA INDONESIA............................................................ 8
C.CLUSTERING .............................................................................................. 10
D.SISTEM FUZZY ........................................................................................... 28
E. FUZZY CLUSTERING .................................................................................... 33
1. Fuzzy C+Means (FCM)...................................................................... 34
2. Hyperspherical Fuzzy C+Means ........................................................ 36
3. Fuzzy Substractive Clustering (FSC)................................................. 39
F. CLUSTERING DALAM SISTEM TEMU KEMBALI INFORMASI ............................ 45
G.PENILAIAN KINERJA .................................................................................. 50
3. METODOLOGI .......................................................................................... 52
A.KERANGKA PEMIKIRAN ............................................................................. 52
B.BAHAN DAN ALAT ..................................................................................... 53
C.TATA LAKSANA ......................................................................................... 53

ix

1. Tahap Persiapan............................................................................... 53
2. Evaluasi Algoritma Fuzzy Clustering ................................................ 55
3. Pengembangan Prototipe Sistem ....................................................... 56
4. PERANCANGAN & IMPLEMENTASI SISTEM....................................... 61
A.DISAIN DATA ............................................................................................ 61
1. File Dokumen.................................................................................... 61
2. Tabel Dokumen dalam Basisdata ...................................................... 61
3. Matriks Representasi Dokumen (MRD) ............................................. 62
4. Matriks Keanggotaan (MK) .............................................................. 63
5. Data Cluster ..................................................................................... 63
B.DISAIN ARSITEKTUR DAN KOMPONEN ........................................................ 63
1. Modul Penyimpanan ......................................................................... 65
2. Modul Matriks .................................................................................. 65
3. Modul Clustering .............................................................................. 66
4. Modul Evaluasi ................................................................................. 67
5. Modul Representasi Hasil ................................................................. 67
C.DISAIN ANTARMUKA ................................................................................. 67
5. EVALUASI SISTEM .................................................................................. 69
A.KARAKTERISTIK DOKUMEN INPUT ............................................................. 69
B.PROSES EVALUASI ..................................................................................... 69
1. Pembentukan Matriks Representasi Dokumen ................................... 70
2. Pembentukan Matriks Keanggotaan.................................................. 71
C.EVALUASI KINERJA ................................................................................... 71
D.PENGEMBANGAN PROTOTIPE ..................................................................... 79

x

E. VALIDASI SISTEM ...................................................................................... 81
F. IMPLIKASI & KEBIJAKAN MANAJEMEN ....................................................... 81
6. KESIMPULAN DAN SARAN.................................................................... 85
A.KESIMPULAN ............................................................................................. 85
B.SARAN ...................................................................................................... 86
DAFTAR PUSTAKA........................................................................................ 88
LAMPIRAN...................................................................................................... 92

xi

Tabel 2.1 Penelitian tentang document clustering ........................................................ 47
Tabel 2.2 Relevansi & kolektifitas dokumen pada sistem temu kembali informasi ...... 51
Tabel 4.1 Struktur Tabel Dokumen pada Basisdata...................................................... 62
Tabel 4.2 Matriks keanggotaan (U) n dokumen terhadap k cluster............................... 66
Tabel 5.1 Kelompok, topik, jumlah dan sumber dokumen ........................................... 69
Tabel 5.2 Dimensi MRD dengan PK 0%, 5%, 10%, 15% dan 20%............................. 70
Tabel 5.3 MRD hasil algoritma H FCM dengan PK 5% (ID = ID dokumen, C =
Cluster) ..................................................................................................... 71
Tabel 5.4 Jumlah iterasi algoritma FCM, H FCM dan FSC ......................................... 75
Tabel 5.5 Waktu eksekusi algoritma FCM, H FCM dan FSC (detik) ........................... 75
Tabel 5.6 Akurasi dan Kolektifitas Algoritma FCM .................................................... 77
Tabel 5.7 Akurasi dan Kolektifitas Algoritma H FCM ................................................ 77
Tabel 5.8 Akurasi dan Kolektifitas Algoritma FSC...................................................... 77
Tabel 5.9 Perbandingan Akurasi dan Kolektifitas algoritma FCM pada dokumen
berbahasa Inggris dan Indonesia................................................................ 77
Tabel 5.10 Perbandingan Akurasi dan Kolektifitas algoritma H FCM pada dokumen
berbahasa Inggris dan Indonesia................................................................ 78
Tabel 5.11 Perbandingan Akurasi dan Kolektifitas algoritma FSC pada dokumen
berbahasa Inggris dan Indonesia................................................................ 78
Tabel 5.12 Matriks awal penilaian alternatif pemilihan algoritma terbaik .................... 78
Tabel 5.13 Matriks hasil transformasi melalui teknik perbandingan indeks................. 78

xii

Gambar 1.1 Contoh halaman hasil pencarian Google (www.google.com).................... 3
Gambar 2.1 Representasi dokumen dan query dalam ruang vektor .............................. 13
Gambar 2.2 Matriks Representasi Dokumen............................................................... 14
Gambar 2.3 Representasi grafis sudut antara ............................................................... 16
Gambar 2.4 Taksonomi Metode Clustering (Jain et. al., 1999). ................................... 22
Gambar 2.5 Penggunaan MST untuk membentuk cluster (Jain et al, 1999)................. 25
Gambar 2.6 Representasi cluster menggunakan titik (Jain et. al., 1999). ...................... 27
Gambar 2.7 (a) Representasi cluster menggunakan Pohon Klasifikasi dan.................. 28
Gambar 2.5 Anak Gugus Fuzzy (Marimin, 2005) ....................................................... 28
Gambar 2.9 Kurva triangular untuk a=3, b=6, dan c=8 .............................................. 30
Gambar 2.10 Kurva trapezoidal untuk a=1, b=5, c=7, dan d=8................................... 30
Gambar 2.11 Kurva Generalizzed bell untuk a=2 , b=4 , dan c=6 ............................... 31
Gambar 2.12 Kurva Gaussian untuk σ=2 dan c=5 ...................................................... 31
Gambar 2.13 Kurva Two+sided Gaussian untuk σ1=2, c1=4 dan σ2=1, ...................... 32
Gambar 2.14 Kurva S untuk a=1 dan b=8.................................................................. 33
Gambar 2.15 Sebaran data pada dimensi tunggal........................................................ 38
Gambar 2.13 Kurva S untuk a=1 dan b=8.................................................................. 38
Gambar 2.17 Fungsi keanggotaan algoritma FCM & H FCM..................................... 39
Gambar 2.18 Fungsi keanggotaan kurva Gauss (Kusumadewi & Purnomo, 2004) ....... 45
Gambar 3.1 Kerangka Pemikiran Penelitian ................................................................ 52
Gambar 3.2 Cara Kerja Prototipe Sistem Temu Kembali Informasi............................. 53
Gambar 3.3 Tata Laksana Persiapan dan Evaluasi ....................................................... 54
Gambar 3.4 Tata Laksana Evaluasi.............................................................................. 55
Gambar 3.5 Tata Laksana Pengembangan Prototipe Sistem Temu............................... 57
Gambar 4.1 Arsitektur Sistem pada Tahap Evaluasi .................................................... 64
Gambar 4.2 Arsitektur Sistem pada tahap Pengembangan Prototipe ............................ 64
Gambar 4.3. Disain antarmuka sistem ........................................................................ 68
Gambar 5.1 Akurasi dan Kolektifitas Algoritma FCM................................................. 72
Gambar 5.2 Akurasi dan Kolektifitas Algoritma H FCM............................................. 73
Gambar 5.3 Akurasi dan Kolektifitas Algoritma FSC .................................................. 73

xiii

Gambar 5.4 Perbandingan Akurasi algoritma FCM, H FCM dan FSC ......................... 74
Gambar 5.5 Perbandingan Kolektifitas algoritma FCM, H FCM dan FSC .................. 74
Gambar 5.6 Perbandingan jumlah iterasi algoritma FCM, HFCM dan FSC ................. 76
Gambar 5.7 Perbandingan waktu eksekusi algoritma FCM, HFCM dan FSC............... 76
Gambar 5.8 Form input kata kunci dan jumlah cluster................................................. 80
Gambar 5.9 Tampilan halaman web yang menampilkan hasil pencarian...................... 80
Gambar 5.10 Tampilan halaman web yang menampilkan isi dokumen. ....................... 81

xiv

Lampiran 1 Cara Perolehan serta Pengolahan Data dan Pengembangan Perangkat
Lunak........................................................................................................ 93
Lampiran 2 Daftar kata MRD dengan PK = 5 % (Total 624) ..................................... 94
Lampiran 3 Daftar kata MRD dengan PK = 10 % (Total 191) ................................... 95
Lampiran 4 Daftar kata MRD dengan PK = 15 % (Total 83) ..................................... 95
Lampiran 5 Daftar kata MRD dengan PK = 20 % (Total 34) ..................................... 95
Lampiran 6 Daftar kata MRD bahasa Inggris dengan PK = 0.05 % (Total 1713) ....... 96
Lampiran 7 Daftar kata MRD bahasa Inggris dengan PK = 10 % (Total 743) ............ 98
Lampiran 8 Daftar kata MRD bahasa Inggris dengan PK = 15 % (Total 353) ............ 99
Lampiran 9 Daftar kata MRD (bahasa Inggris) dengan PK = 20 % dan Total 196
kata ........................................................................................................... 100
Lampiran 10 Akurasi dan Kolektifitas Query pada Prototipe Sistem............................ 101
Lampiran 11 Akurasi dan cluster hasil algoritma H FCM dengan PK 5%.................... 102
Lampiran 12 Akurasi dan Kolektifitas cluster hasil algoritma H FCM dengan PK
10% .......................................................................................................... 103
Lampiran 13 Akurasi dan Kolektifitas cluster hasil algoritma H FCM dengan PK
15% .......................................................................................................... 104
Lampiran 14 Akurasi dan Kolektifitas cluster hasil algoritma H FCM dengan PK
20% .......................................................................................................... 105
Lampiran 15 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 5% .... 106
Lampiran 16 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 10%... 107
Lampiran 17 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 15%... 108
Lampiran 18 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 20%... 109
Lampiran 19 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 5%...... 110
Lampiran 20 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 10%.... 111
Lampiran 21 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 15%.... 112
Lampiran 22 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 20%.... 113

xv

'(

(

$ )* +

,

Perkembangan teknologi informasi, khususnya teknologi Internet
sebagai wadah untuk dapat dengan mudah menyebarkan informasi secara
mudah dan gratis, mengakibatkan informasi berlimpah. Melimpahnya
informasi di satu sisi semakin memudahkan kita untuk mengakses informasi.
Namun di sisi lain, banyaknya informasi dapat menimbulkan permasalahan
pada pencarian atau penelusuran dan pengorganisasian informasi. Jumlah dan
laju pertambahan informasi yang dihasilkan saat ini telah melebihi
kemampuan

manusia

untuk

melakukan

organisasi,

menelusuri

dan

memodifikasi informasi tanpa bantuan sistem yang otomatis (Taylor, 1999).
Untuk memudahkan penelusuran informasi diperlukan mesin pencari.
Mesin pencari menerima input query atau kata kunci dari pengguna dan
menampilkan daftar informasi atau dokumen yang diperoleh (pada mesin
pencari Internet, hasil pencarian terdiri dari link menunjuk alamat Internet
yang menyimpan dokumen).
Pada saat ini sudah banyak mesin pencari informasi pada Internet yang
dapat digunakan secara cuma cuma, antara lain : google (www.google.com),
yahoo

(www.yahoo.com)

dan

altavista

(www.altavista.com).

Ketika

menggunakan mesin pencari, pengguna sering tidak memperoleh hasil yang
optimal (sesuai dengan keinginan), karena pengguna menghadapi beberapa
kendala dalam memasukkan kata kunci, antara lain (Muresan, 2002):
1. Kesalahan dalam pengetikan atau dalam ejaan kata

1

2. Terbatasnya perbendaharaan kata yang dimiliki pengguna (terutama untuk
istilah pada domain pengetahuan yang memiliki terminologi terminologi
tertentu)
3. Kurang memahami cara penggunaan sintaks bahasa query, seperti
Operator Boolean
4. Kebanyakan pencarian hanya menggunakan kata kunci yang sedikit
sehingga mengurangi daya jelajah pada ruang informasi
5. Kata kunci yang digunakan sedikit dan terlalu luas atau memiliki makna
ganda (ambigue) sehingga hasil pencarian yang didapat banyak namun
kurang atau tidak relevan sama sekali
Kesalahan memasukkan kata kunci dapat menyebabkan hasil tidak ada
atau terlalu banyak. Mesin pencari kebanyakan menggunakan teknik
representasi peringkat dengan menampilkan seluruh link menuju halaman
hasil yang dibagi perhalaman. Masalah pada teknik representasi peringkat
muncul bila hasil pencarian yang diperoleh terlalu banyak. Misalkan kita cari
kata java untuk pulau jawa dengan menggunakan google (www.google.co.id),
akan diperoleh hasil sebanyak 235 juta link ke alamat yang mengandung kata
java dan baru pada halaman ke 3 (link yang ke 31) kita bisa menemukan link
yang mempunyai keterangan tentang pulau java (Gambar 1.1).
Untuk membantu pengguna dalam mengatasi masalah ini, perlu dipikirkan
suatu teknik representasi lain. Salah satu cara adalah dengan mengelompokkan
dokumen hasil query yang memiliki kemiripan, misalkan dokumen dokumen
yang memiliki kesamaan subyek dapat dimasukkan dalam satu kelompok atau
cluster (Borodavkina, 2000).

2

"- $ '(' Contoh halaman hasil pencarian Google (www.google.com)

Pengelompokan dokumen telah banyak diaplikasikan pada sistem temu
kembali informasi untuk meningkatkan efektifitas pencarian, antara lain
(Horng et. al., 2005), (Haruechaiyasak & Chen, 2002) dan (Mendes & Sacks,
2003). Pada aplikasi komersial, dokumen clustering antara lain telah
digunakan oleh mesin pencari Vivisimo (www.vivisimo.com). Ketika
digunakan, Vivisimo menghasilkan judul dan abstrak dokumen yang
ditemukan. Kemudian menggunakan judul dan abstrak tersebut sebagai bahan
pengelompokan (bukan keseluruhan dokumen). Vivisimo menggunakan
algoritma Hierarchical Fuzzy Clustering.
Algoritma Hierarchical Fuzzy Clustering merupakan salah satu
algoritma algoritma clustering. Algoritma clustering lainnya antara lain K
Means, Buckshot, Fuzzy C Means, Hyperspherical Fuzzy c Means, ε
Insentive Fuzzy C Means (ε FCM),

Competitive Clustering by Learning

3

(CCL), Fuzzy CCL (FCCL) serta algoritma Fuzzy Subtractive Clustering
(FSC).
Algoritma tersebut masing masing memiliki karakter yang berbeda,
sehingga perlu dilakukan pemilihan algoritma clustering yang paling tepat
untuk document clustering. Perbandingan kinerja algoritma untuk document
clustering sudah pernah dilakukan, antara lain oleh Mendes & Sacks (2003)
yang menggunakan algoritma H FCM untuk document clustering dan
membandingkannya dengan algoritma K Means. Hasilnya algoritma H FCM
memiliki kinerja lebih baik dibandingkan algoritma K Means (bukan fuzzy).
Penelitian ini bertujuan untuk mengembangkan penelitian Mendes &
Sacks (2003) dengan membandingkan kinerja algoritma H FCM dengan dua
algoritma fuzzy clustering lainnya,. Algoritma FCM dipilih karena FCM
merupakan algoritma fuzzy clustering yang paling populer, sedangkan
algoritma FSC dipilih karena belum pernah diteliti penggunaanya untuk
document clustering. Penelitian ini juga akan membuat prototipe sistem temu
kembali informasi yang menggunakan satu algoritma clustering terbaik di
antara algoritma tersebut.

(

.

#

%

Penelitian ini bertujuan untuk (1) melakukan evaluasi kecocokan
penggunaan algoritma fuzzy clustering FCM, H FCM dan FSC pada dokumen
dari situs Internet (2) melakukan evaluasi kecocokan formula representasi
dokumen Tf, Tf Idf dan Salton pada dokumen dari situs Internet (3)

4

mengembangkan prototipe sistem temu kembali informasi (dokumen) yang
dibangun dengan menggunakan satu algoritma yang terbaik hasil evaluasi.
Penelitian ini diharapkan dapat bermanfaat sebagai salah satu model
implementasi sistem algoritma fuzzy clustering dalam temu kembali informasi
berbahasa Indonesia.

(

,

,+ /

Penelitian ini memiliki ruang lingkup sebagai berikut :
1

Algoritma clustering yang diuji adalah : Fuzzy C+Means Clustering
(FCM), Hyperspherical Fuzzy C+Means Clustering (H FCM) dan
algoritma Fuzzy Subtractive Clustering (FSC) .

2

Bahan atau data yang digunakan adalah artikel dokumen yang diperoleh
dari situs Internet.

3

Implementasi algoritma pada proses evaluasi dilakukan dengan Matlab 7.1

4

Prototipe sistem dikembangkan dengan menggunakan algoritma clustering
terpilih

5

Prototipe sistem dibangun menggunakan bahasa PHP 5.0, basisdata
MySQL versi 5.0.18 dan web server Apache versi 2.2.0.

5

(

(

)"

)"- *

%0$" 1

Temu kembali informasi merupakan disiplin ilmu yang mempelajari
teori, model dan teknik yang terkait dengan representasi, penyimpanan,
organisasi dan pengambilan informasi sehingga dapat bermanfaat bagi
manusia (Taylor, 1999).
Sejak tahun 1940 an, masalah pada penyimpanan dan temu kembali
informasi mendapat banyak perhatian. Permasalahannya sederhana, limpahan
informasi menyebabkan kecepatan dan akurasi akses menjadi lebih sulit. Hal
ini menyebabkan relevansi informasi menjadi kurang terungkap dan akibatnya
banyak duplikasi pekerjaan. Dengan adanya komputer, muncullah pemikiran
pemikiran untuk membuat sistem pengambilan informasi yang cerdas dan
cepat dengan memanfaatkan kemampuan komputer (Rijsbergen, 1979).
Proses penyimpanan dan pengambilan informasi pada prinsipnya
sederhana. Misalkan ada koleksi dokumen dan pengguna koleksi yang
memformulasikan pertanyaan (permintaan atau query) dengan jawaban berupa
satu set dokumen yang memenuhi kebutuhan informasi. Pencari informasi
dapat memperoleh jawaban dengan membaca seluruh koleksi dokumen satu
per satu, menyimpan informasi yang relevan dan mengabaikan yang lainnya.
Secara naluri, hal tersebut merupakan proses pengambilan informasi yang
sempurna, akan tetapi tidak praktis. Pencari informasi tentu tidak punya cukup
waktu atau tidak ingin menghabiskan waktu dengan membaca seluruh koleksi
dokumen dan secara fisik hal tersebut tidak mungkin dilakukan.

6

Ketika komputer berkecepatan tinggi tersedia untuk pekerjaan non
numerik, banyak yang meramalkan bahwa komputer akan mampu menyamai
kemampuan manusia dalam membaca seluruh koleksi dokumen dan
mengekstrak dokumen yang relevan. Seiring dengan waktu, lambat laun
terlihat bahwa proses pembacaan dan ekstraksi dokumen tidak hanya
melibatkan proses penyimpanan dan pencarian, tetapi juga proses karakterisasi
isi dokumen yang jauh lebih rumit.
Proses karakterisasi dokumen secara otomatis oleh perangkat lunak yang
coba didekati dengan meniru cara manusia membaca masih sulit sulit
dilakukan. Membaca melibatkan proses ekstraksi informasi (secara sintaks
dan semantik) dari teks dan menggunakannya untuk menentukan apakah
dokumen relevan atau tidak dengan permintaan. Kesulitan bukan hanya pada
ekstraksi dokumen, tetapi juga pada proses penentuan relevansi dokumen.
Tujuan

dari

strategi

temu kembali

informasi

otomatis

adalah

menemukan semua dokumen yang relevan dan pada saat yang bersamaan
mengurangi jumlah dokumen terambil yang tidak relevan semaksimal
mungkin.
Bagi manusia, membuat keterkaitan dokumen dengan query dapat
dengan mudah dilakukan. Tetapi kalau mau dilakukan oleh komputer, kita
harus membangun model matematika yang dapat menghitung relevansi
dokumen dan banyak riset pada temu kembali informasi berkonsentrasi pada
aspek ini.
Sistem temu kembali informasi memiliki dua fungsi utama : menilai
tingkat

relevansi

dokumen dokumen

dengan

query

pengguna

dan

7

menampilkan dokumen yang dinilai “memuaskan”. Untuk mendapatkan hasil
yang baik, query harus tepat menangkap keinginan pengguna (Horng et. al.,
2005). Untuk mencapai hal tersebut, beberapa alternatif pendekatan dalam
melakukan organisasi dokumen telah dikembangkan beberapa tahun
belakangan ini. Kebanyakan pendekatan dilakukan berdasarkan visualisasi dan
presentasi dari keterkaitan antar dokumen, istilah (term) dan query pengguna.
Salah satu pendekatan adalah document clustering (Leuski, 2001).

(

0+ ")

)$- ! 1

#0 )1

Bahasa Indonesia secara historis merupakan varian bahasa melayu yang
kini juga digunakan di wilayah yang luas meliputi Indonesia, Singapura,
Brunei Darussalam, Malaysia, bagian selatan Thailand, bagian selatan
Filipina, dan beberapa tempat di Afrika Selatan. Bahasa melayu diangkat
menjadi bahasa persatuan di Indonesia pada 28 Oktober 1928 dalam peristiwa
yang disebut Sumpah Pemuda. Sejak saat itu, bahasa melayu yang digunakan
di wilayah Indonesia sekarang mulai dinamai Bahasa Indonesia. Namun,
secara resmi penyebutan bahasa Indonesia sebagai bahasa resmi di Indonesia
baru muncul pada 18 Agustus 1945 ketika konstitusi Indonesia diresmikan.
Saat ini bahasa Indonesia mengalami perkembangan yang sangat luas.
secara sosial, jumlah penutur bahasa Indonesia saat ini telah mencapai + 210
juta jiwa. Secara fungsional bahasa Indonesia telah digunakan di lingkungan
baik secara lisan maupun tulisan di masyarakat luas, secara formal dan
informal di institusi pemerintahan dan swasta. Dokumen berbahasa Indonesia
digunakan secara luas dibidang pemerintahan, perekonomian, hukum,
pendidikan, iptek, seni budaya dan lain lain (Arifin & Tasai, 2004). Oleh

8

karena itu, dokumen berbahasa Indonesia sangat banyak jumlahnya. Untuk
menemukan dokumen dalam bahasa Indonesia, mesin pencari memegang
peranan sangat penting.
Penelitian dalam sistem temu kembali informasi banyak dilakukan pada
dokumen bahasa Inggris. Walaupun sama sama menggunakan huruf latin,
bahasa Indonesia memiliki tata bahasa yang berbeda dengan bahasa Inggris.
Sehingga perlu dilakukan penelitian yang lebih mengkhususkan pada bahasa
Indoenesia. Penelitian sistem temu kembali informasi dalam bahasa Indonesia
sudah banyak dilakukan, antara lain :
$%

2

3

Jika pada riset IR banyak yang fokus pada algoritma untuk
mengklasifikasikan dokumen, Arifin melakukan penelitian pada upaya
penghematan memori dan waktu dalam proses pembobotan dokumen. Dalam
hal ini, Arifin menerapkan algoritma Digital Tree Hibrida pada algoritma
pembobotan Tf Idf yang ternyata berhasil mengurangi waktu pembobotan.

$%

4 ) 0 02

3

Arifin & Setiono membahas penggunaan algoritma Single Pass Clustering
dalam bahasa Indonesia. Berdasarkan hasil perocobaan, algoritma Single Pass
ternyata cukup handal untuk mengelompokkan berita kejadian (event) dalam
bahasa Indonesia. Penelitian sudah menggunakan algoritma Porter untuk
steming, hanya tidak dilakukan perbandingan dengan algoritma lainnya.
* 2

53

Merupakan sebuah tesis membahas efektifitas penggunaan algoritma
stemming Porter dalam bahasa Indonesia beserta efeknya, terutama dalam

9

temu kembali informasi. Hasil penelitian menemukan adanya beberapa
masalah dalam penerapan algoritma Porter dalam bahasa Indonesia yang
ditimbulkan karena ambiguitas beberapa kata dalam bahasa Indonesia. Selain
itu, ditemukan bukti bahwa stemming tidak meningkatkan kinerja (precision
& recall) temu kembali informasi. Tala juga membuat daftar kata buangan
(stop list) yang disusun berdasarkan hasil analisa frekuensi kemunculan kata
dalam bahasa Indonesia.

!" 2

63

Penelitian yang dilakukan Fahmi bertujuan untuk mengetahui apakah
Machine Learning cocok digunakan pada dokumen berbahasa Indonesia.
Fahmi membandingkan 3 algoritma Pembelajaran Mesin (Machine Learning)
untuk mengklasifikasikan dokumen. Adapun algoritma yang dibandingkan
adalah ID3, Instance Based Learning dan Naïve Bayes. Hasil penelitian
menunjukkan algoritma Instance Based memiliki kinerja yang paling baik.

Clustering adalah proses pengelompokan data ke dalam cluster
berdasarkan parameter tertentu sehingga obyek obyek dalam sebuah cluster
memiliki tingkat kemiripan yang tinggi satu sama lain dan sangat tidak mirip
dengan obyek lain pada cluster yang berbeda (Kantardzic, 2001).
Berbeda dengan klasifikasi, clustering tidak memerlukan kelas yang
telah didefinisikan sebelumnya atau kelas hasil training, dengan demikian
clustering dinyatakan sebagai bentuk pembelajaran berdasarkan observasi dan
bukan berdasarkan contoh (Jiawei & Kamber, 2001).

10

! /
Clustering secara umum memiliki tahapan sebagai berikut (Jain et. al,
1999) :
1. Representasi Pola
2. Pengukuran Kedekatan Pola (Pattern Proximity)
3. Clustering
4. Abstraksi Data (jika dibutuhkan)
5. Penilaian Output (jika dibutuhkan).
Adapun penjelasan dari tahapan tahapan di atas adalah sebagai berikut :
'(

)/$)1)

1

0*

Ada beberapa model yang dapat digunakan untuk merepresentasikan
dokumen dan secara umum dibagi menjadi dua kelompok, yaitu model
klasik dan model alternatif. Model klasik terdiri dari model Boolean,
model Ruang Vektor dan model Probabilistik. Model alternatif yang
merupakan pengembangan dari model klasik, terdiri atas : Model
Himpunan Fuzzy, Extended Boolean, Model Ruang Vektor General dan
Jaringan Bayes (Baeza Yates & Ribeiro Neto, 1999). Pada penelitian ini,
digunakan dua model representasi, yaitu model Boolean untuk
menemukan dokumen dan model Ruang Vektor untuk representasi
dokumen.
(

0#)* 00*)
Model boolean merepresentasikan dokumen sebagai suatu
himpunan

kata kunci

(set

of

keywords).

Sedangkan

query

direpresentasikan sebagai ekspresi boolean. Query dalam ekspresi

11

boolean merupakan kumpulan kata kunci yang saling dihubungkan
melalui operator boolean seperti AND, OR dan NOT serta
menggunakan tanda kurung untuk menentukan scope operator. Hasil
pencarian dokumen dari model boolean adalah himpunan dokumen
yang relevan.
Kekurangan dari model boolean ini antara lain :
1. Hasil pencarian dokumen berupa himpunan, sehingga tidak dapat
dikenali dokumen dokumen yang paling relevan atau agak relevan
(partial match).
2. Query dalam ekspresi boolean dapat menyulitkan pengguna yang
tidak mengerti tentang ekpresi boolean.
Walaupun demikian, karena sifatnya yang sederhana, hingga
saat ini model Boolean masih dipergunakan oleh sistem temu
kembali informasi modern, antara lain oleh www.google.com
(Dominich, 2003). Kekurangan dari model boolean diperbaiki oleh
model ruang vektor yang mampu menghasilkan dokumen dokumen
terurut berdasarkan kesesuaian dengan query. Selain itu, pada model
ruang vektor query dapat berupa sekumpulan kata kata dari penguna
dalam ekspresi bebas.

-(

0#)*

, 7)+ 0$

Pada Model Ruang Vektor, teks direpresentasikan oleh vektor
dari term (kata atau frase). Misalkan terdapat sejumlah n kata yang
berbeda sebagai kamus kata (vocabulary) atau indeks kata (terms
index). Kata kata ini akan membentuk ruang vektor yang memiliki

12

dimensi sebesar n. Setiap kata i dalam dokumen atau query diberikan
bobot sebesar wi. Baik dokumen maupun query direpresentasikan
sebagai vektor berdimensi n.
Sebagai contoh terdapat 3 buah kata (T1, T2 dan T3), 2 buah
dokumen (D1 dan D2) serta sebuah query Q. Masing masing bernilai
:
D1 = 2T1+3T2+5T3
D2 = 3T1+7T2+0T3
Q = 0T1+0T2+2T3
Maka representasi grafis dari ketiga vektor ini adalah :

"- $ (' Representasi dokumen dan query dalam ruang vektor

Koleksi dokumen direpresentasi pula dalam ruang vektor sebagai
matriks kata dokumen (terms+documents matrix). Nilai dari elemen
matriks wij adalah bobot kata idalam dokumen j

13

Misalkan terdapat sekumpulan kata T sejumlah n, yaitu T =
(T1, T2, … , Tn) dan sekumpulan dokumen D sejumlah m, yaitu D =
(D1, D2, … , Dm) serta wi j adalah bobot kata i pada dokumen j
(Gambar 2).

"- $ (

Matriks Representasi Dokumen

Untuk memberikan bobot numerik terhadap dokumen yang
diquery, model mengukur vektor query dan vektor dokumen. Ada
beberapa teknik untuk menghitung bobot. Yang paling banyak
digunakan adalah Term Frekuensi (TF), Term Frekuensi Inverse
Document Frequency (TFIDF) dan Salton. Pada Tf, bobot kata
dinyatakan sebagai nilai log dari frekuensi kata pada dokumen.
Tfd = log (1 + td),

(1)

Tfd = Nilai kata t pada dokumen d
td = frekuensi kata t pada dokumen d.
Tf Idf merupakan pengembangan dari formula Tf, dengan
memasukkan unsur frekuensi dokumen. Frekuensi dokumen adalah
jumlah dokumen yang memiliki term t minimal 1. Formula Tf Idf
adalah :

14

TfIdf = Tf log

N
dft

(2)

N = Jumlah seluruh dokumen
dft = Jumlah dokumen yang memiliki kata t
Dibandingkan Tf dan TfIdf, formula Salton merupakan
formula yang memiliki unsur paling lengkap. Selain nilai frekuensi
dan dokumen frekuensi kata, Salton juga memasukkan jumlah kata
pada dokumen dan nilai frekuensi maksimum kata pada dokumen.
Secara lengkap, formula Salton dinyatakan sebagai :



f ti
N


+
0
.
5
0
.
5
log


Max f ki 
d ft
k =1, 2 ,..., L


(3)
w _ term _ doc(t , d i ) =



f

ji
 log N 
Max  0.5 + 0.5

k =1, 2 ,..., L 
Max f ki 
d fj 

k =1, 2 ,..., L


fit = frekuensi kemunculan istilah t pada dokumen di
dft = jumlah dokumen yang mengandung istilah t
L = jumlah istilah yang terdapat pada dokumen di
N = jumlah dokumen

Semakin besar nilai w_term_doc(t,di), semakin penting istilah t
pada dokumen di. Nilai w_term_doc(t,di) dinormalkan sehingga
bernilai antara 0 dan 1. Setelah bobot istilah pada setiap dokumen
dihitung, dokumen di dapat direpresentasikan sebagai vektor
dokumen :

d i = wi1 , wi 2 ,..., wis

dimana wij = w_term_doc(tj, di)

merupakan bobot istilah tj pada dokumen di

( 0 ≤ wij ≤ 1 ) dan s

adalah jumlah istilah dari semua dokumen. Sehingga akhirnya kita

15

memiliki matriks U berukuran n x s dimana n adalah jumlah
dokumen.
Penentuan relevansi dokumen dengan query dipandang sebagai
pengukuran kesamaan (similarity measure) antara vektor dokumen
dengan vektor query. Semakin “sama” suatu vektor dokumen dengan
vektor query maka dokumen dapat dipandang semakin relevan
dengan query. Salah satu pengukuran kesesuaian yang baik adalah
dengan memperhatikan perbedaan arah (direction difference) dari
kedua vektor tersebut. Perbedaan arah kedua vektor dalam geometri
dapat dianggap sebagai sudut yang terbentuk oleh kedua vektor.
Gambar 3 mengilustrasikan kesamaan antara dokumen D1dan
D2 dengan query Q. Sudut θ1 menggambarkan kesamaan dokumen
D1 dengan query sedangkan sudut θ2 mengambarkan kesamaan
dokumen D2 dengan query.

"- $ (5 Representasi grafis sudut antara
vektor dokumen dan query

16

Jika Q adalah vektor query dan D adalah vektor dokumen, yang
merupakan dua buah vektor dalam ruang berdimensi n, dan θ adalah
sudut yang dibentuk oleh kedua vektor tersebut. Maka
Q • D = |Q| |D| cos θ2
Q • D adalah hasil perkalian dalam (inner product) kedua vektor,

| D |=

n

∑ Di 2 dan | Q |=
i =1

n

∑ Qi

2

merupakan panjang vektor atau

i =1

jarak Euclidean suatu vektor dengan titik nol. Perhitungan kesamaan
kedua vektor adalah sebagai berikut :
Sim(Q,D) = cos(Q,D) =
Metode

pengukuran

n
Q•D
1
=
∑ Qi • Di
| Q || D | | Q || D | i =1

kesesuaian

ini

memiliki

beberapa

keuntungan, yaitu adanya normalisasi terhadap panjang dokumen.
Hal ini memperkecil pengaruh panjang dokumen. Jarak Euclidean
(panjang) kedua vektor digunakan sebagai faktor normalisasi. Hal ini
diperlukan karena dokumen yang panjang cenderung mendapatkan
nilai yang besar dibandingkan dengan dokumen yang lebih pendek.
Proses pemeringkatan dokumen dapat dianggap sebagai proses
pengukuran vektor dokumen terhadap vektor query, ukuran
kedekatan ditentukan oleh kosinus sudut yang dibentuk. Semakin
besar nilai kosinus, maka dokumen dianggap semakin sesuai query.
Nilai kosinus sama dengan 1 mengindikasikan dokumen sesuai
dengan dengan query.

17

Model Ruang Vektor memiliki keunggulan antara lain : (1)
skema pembobotan term dapat meningkatkan kinerja pengambilan
(2) strategi partial matching memungkinkan penemuan dokumen
yang mendekati query (3) formula kosinus dapat memberikan
peringkat dokumen yang terambil berdasarkan kemiripan dengan
query.
Adapun kekurangan dari model ini adalah belum menangani
term yang memiliki relasi dan proses perhitungan terhadap seluruh
koleksi dokumen dapat memperlambat proses pencarian.

(

0#)* $0- - * 1 +
Model probabilistik mencoba menangkap masalah IR melalui
prinsip peluang. Jika ada query q dan sebuah dokumen dj pada
koleksi, model probabilistik mencoba menduga peluang pengguna
menemukan dokumen dj yang dicari. Model berasumsi bahwa
peluang relevansi hanya ditentukan oleh query dan representasi
dokumen. Selanjutnya, model berasumsi bahwa ada subset himpunan
dokumen yang pengguna lebih pilih sebagai jawaban query q.
Jawaban ideal ini diberi label R dan bernilai maksimum diantara
keseluruhan peluang relevansi dokumen. Dokumen pada R diduga
relevan dan yang selainnya disebut tidak relevan.
Nilai kemiripan sebauh dokumen dj terhadap query q
dinyatakan dalam :
_


P(k i | R )
1 − P(k i | R) 

+ log
Sim(dj,q) ≈ ∑ wi ,q xwi , j x log
_

 1 − P(k i | R)
i =1
P (k i | R) 

t

18

P( ki | R) merupakan peluang term ki ada pada dokumen yang
dipilih secara acak dari himpunan R. Karena pada awalnya kita tidak
mengetahui himpunan R, maka dibutuhkan sebuah metode untuk
_

menentukan nilai awal P (ki | R ) dan P ( ki | R ) . Pada saat permulaan
_

sekali, diasumsikan nilai P (ki | R ) = 0.5 dan P( k i | R ) =

ni
dengan
N

ni = jumlah dokumen yang mengandung term ki dan N adalah total
seluruh dokumen.
Selanjutnya nilai peringkat dapat diperbaiki menjadi :
P(k i | R) =

_
Vi
n − Vi
dan P ( k i | R ) = i
V
N −V
_

Formula terakhir untuk P ( ki | R ) dan P ( ki | R ) untuk nilai Vi
dan V yang sangat kecil (misalkan V = 1 dan Vi = 0) adalah :

ni
n
ni − Vi + i
_
N dan P(k | R) =
N
P(k i | R) =
i
V +1
N −V +1
Vi +

Model probabilistik memiliki keunggulan : dokumen dapat
diberikan peringkat secara menurun berdasarkan peluang sebuah
dokumen relevan terhadap query. Adapun kekurangannya adalah (1)
perlu menduga pembagian awal dokumen terhadap himpunan yang
relevan dan non relevan. (2) tidak memperhitungkan frekuensi term
pada dokumen (3) asumis bahwa term saling independen satu sama
lain

19

#(

0#)* * )$

%

Ketiga model tersebut di atas merupakan model klasik yang
sudah cukup lama dikembangkan.

Selain model tersebut, juga

terdapat model alternatif yang merupakan pengembangan dari model
klasik, antara lain : Model Himpunan Fuzzy, Extended Boolean,
Model Ruang Vektor General dan Jaringan Bayes (Baeza Yates &
Ribeiro Neto, 1999).

(

) , + $

)#)+

0* 2

3

Kedekatan pola diukur berdasarkan fungsi jarak antara dua ciri. Jarak
digunakan untuk mengukur ke(tidak)miripan antara dua obyek data.
Kemiripan merupakan salah satu landasan dari definisi cluster. Ada
banyak cara untuk menghitung jarak, namun pada tesis ini hanya akan
dibahas tiga jarak yang paling banyak digunakan. Dan diantara ketiga
jarak tersebut, yang paling populer adalah jarak Euclid.
a. Jarak Minkowski
Didefinisikan sebagai :

(

d (i, j ) = q xi1 − x j1 + xi 2 − x j 2 + ... + xip − x jp
q

q

q

)

(4)

dengan d(i,j) = jarak Minkowski antara data ke i dan data ke j, x =
obyek data, p = banyaknya atribut data, dan q adalah bilangan bulat
positif,
b. Jarak Manhattan
Jarak Manhattan merupakan kasus khusus (q=1)dari Jarak Minkowski.

20

d (i, j ) = xi1 − x j1 + xi 2 − x j 2 + ... + xip − x jp ,

(5)

c. Jarak Euclid
Sama seperti Jarak Manhattan, jarak Euclid merupakan kasus khusus
dari jarak Minkowsi dengan q=2
d (i, j ) =

(x

2

i1

2

− x j1 + xi 2 − x j 2 + ... + xip − x jp

2

).

(6)

Dilihat dari struktur data yang dihasilkan, metode clustering dapat
dikelompokkan menjadi berjenjang (hierarcy) dan partisi (partition).
Algoritma clustering berjenjang dibagi dua, agglomerative (bottom+up)
dan

divisive

(top+down).

Algoritma

aglomerative

(Agglomerative

Hierarchical Clustering (AHC) merupakan salah satu algoritma berjenjang
yang banyak dipakai untuk document clustering (Mendes & Sacks, 2003).
Pembagian metode clustering selengkapnya dapat dilihat pada
Gambar 2.1. Pada level yang paling atas, ada pendekatan hirarki dan
partisi (metode hirarki menghasilkan partisi yang bertingkat, sedangkan
metode partisi hanya menghasilkan satu tingkat).

21

Clustering

Partisi

Hirarki

Single
Link

Complete
Link

Error
Kuadrat

Teori
Graf

Mode
Seeking

K means

"- $ (6 Taksonomi Metode Clustering (Jain et. al., 1999).
5('

*,0$ "

$ $+

Kebanyakan algoritma clustering hirarki merupakan variasi dari
algoritma Single+Link dan Complete+Link. Kedua algoritma ini
memiliki perbedaan pada cara menentukan jarak antara dua cluster.
Pada metode single+link, jarak antara dua cluster adalah jarak
minimum antara sepasang pola (satu pola dari satu cluster dan lainnya
dari cluster kedua). Pada algoritma complete+link, jarak antara dua
cluster adalah jarak maksimum antara sepasang pola pada dua cluster.
Algoritma Clustering Agglomerative Hirarki :
1. Jadikan setiap dokumen sebagai cluster, sehingga jika ada n data,
akan dihasilkan cluster sebanyak n.
2. Gabungkan dua cluster yang memiliki derajat kemiripan paling
besar (jarak terkecil) menjadi satu cluster
3. Jika derajat kemiripan antara dua cluster kurang dari ambang batas
α, dengan nilai α ∈ [0,1] maka berhenti , bila tidak maka kembali
ke langkah 2

22

5(

*,0$ "

$ 1

Algoritma clustering partisi menghasilkan partisi satu level dan
bukan struktur cluster berjenjang seperti Dendogram yang dihasilkan
oleh algoritma hirarki. Metode partisi memiliki keunggulan pada
aplikasi yang melibatkan data yang sangat besar yang apabila
menggunakan Dendogram sangat memakan waktu komputasi.
Masalah yang muncul pada saat menggunakan algoritma clustering
adalah menentukan jumlah cluster yang diinginkan. Metode partisi
biasanya menghasilkan cluster dengan mengoptimalkan fungsi kriteria
yang didefinisikan secara lokal (pada sub pola) atau secara global
(pada seluruh pola).

(

$$0$

#$
Fungsi kriteria yang paling sering digunakan pada metode

clustering partisi adalah fungsi error kuadrat (e2). Tujuan dari
algoritma ini adalah meminimalkan fungsi error kuadrat :
K

e2 = ∑
j =1

nj



2

xij − c j ,

(7)

i =1

dengan xij adalah pola i pada cluster j dan cj

adalah pusat

(centroid) cluster j.
K Means adalah algoritma yang menerapkan fungsi error
kuadra