Silicon08 Paper Gunawan Final

FUZZY PARTITIONING DAN FUZZY HIERARCHICAL
UNTUK CLUSTERING DOKUMEN
Gunawan
Sekolah Tinggi Teknik Surabaya
gunawan@stts.edu
Abstract
Document clustering is a task to find topic
relations among documents and to group the
documents with similar topic into the same cluster.
The constraint that the topic in a document is not
related to one domain can be handled by fuzzy-based
clustering well.
This research conducts a study to two fuzzy
clustering algorithms for document clustering,
Hyper-Spherical Fuzzy C-Means (H-FCM) and
Hierarchical-Spherical Fuzzy C-Means (H2-FCM).
Both algorithms show different result. H-FCM
produces flat/partitioning clusters and H2-FCM
produces hierarchical clusters. H-FCM algorithm
itself is a modification of Fuzzy C-Means Clustering
Algorithm (FCM). H2-FCM is a hierarchical form of

H-FCM algorithm thatt uses H-FCM algorithm.
Both algorithms are tested in Reuters-21578 for
English dataset and New Testament Four Gospels
(Matthew, Mark, Luke and John) in the Indonesian
language. The accuracy of the test in Reuters-21578
dataset calculated based on F-Measure. However
the test in four gospels is subjectively measured by
examining if the similar pericopes from different
gospels are grouped into same cluster. Note some
parallel pericopes in four gospels refer to the same
event in Jesus life.

1. PENDAHULUAN
Data mining adalah suatu proses ekstraksi
pengetahuan dari data. Terdapat sejumlah task dalam
data mining, salah satunya adalah: cluster analysis
(analisa cluster).
Analisa
cluster
yang

dilakukan
untuk
mengelompokkan sejumlah obyek ke beberapa
cluster dilakukan dengan mengobservasi sejumlah
properti atau karakteristik obyek [2], yang
selanjutnya disebut fitur. Sebuah cluster adalah
sekumpulan obyek data yang “mirip” satu sama
lainnya dan “berbeda” dengan kumpulan obyek data
lain yang terdapat pada cluster yang berbeda
berdasarkan fitur-fitur yang dimilikinya.
Internet tidak dapat dipungkiri telah membawa
penggunanya berhadapan langsung dengan milyaran
dokumen teks yang tersedia, sehingga perangkat
seperti search engine dan web directory menjadi
kebutuhan yang tak dapat ditawar lagi. Namun
demikian karena dokumen teks adalah unstructured
data, pencarian dan pengelompokkannya akan

menjadi kesulitan tersendiri. Pengelompokkan
sejumlah gigabyte dokumen secara manual dengan

tenaga manusia menjadi mustahil. Inilah setidaknya
yang menjadi salah satu perbedaan mendasar antara
Yahoo dan Google dalam awal operasi mereka.
Prinsip mekanisme clustering pada dokumen teks
sebenarnya tidaklah berbeda dengan structured data
seperti clustering pada record-record table database,
saat fitur dapat diekstrak dengan baik pada tahapan
preprocessingnya. Untuk sebuah dokumen, topik
atau kategori dokumen sering dipertimbangkan dari
cluster tempat dokumen itu dikelompokkan.
Sebagian metode clustering dokumen merupakan
modifikasi
dari
metode-metode
clustering
sebelumnya. Modifikasi yang berupa peningkatan
performansi algoritma dilakukan karena clustering
dokumen hamper selalu membutuhkan penanganan
khusus dalam hal perolehan fiturnya, dimensi yang
besar (jumlah fitur), dan ukuran dataset yang besar.

Tulisan ini akan membahas dua metode clustering
dokumen teks yaitu Hyper-Spherical Fuzzy C-Means
(H-FCM) dan Hierarchical Hyper-Spherical Fuzzy
C-Means (H2-FCM) yang merupakan modifikasi
dari algoritma clustering Fuzzy C-Means (FCM).

II. PARTITIONING DAN HIERARCHICAL PADA FUZZY CLUSTERING
Berdasarkan mekanisme pengelompokkan data ke
dalam cluster, secara sederhana metode clustering
dapat dikategorikan ke dalam hard clustering dan
fuzzy clustering. Sedangkan berdasarkan hasil cluster
yang
diperoleh,
metode
clustering
dapat
dikategorikan menjadi hierarchical clustering dan
non-hierarchical clustering atau flat / partitioning
clustering).
Pada algoritma hard clustering, seperti K-Means,

setiap obyek inputnya hanya dapat masuk ke dalam
satu cluster. Implikasi pada clustering dokumen
adalah bahwa kategori ini akan mengabaikan
kemungkinan suatu dokumen dapat memiliki lebih
dari satu topic, yang selanjutnya kebutuhan ini
dijawab melalui fuzzy clustering [1]. Satu contoh
algoritma fuzzy clustering yang cukup terkenal
adalah algoritma Fuzzy C-Means (FCM).
Hasil akhir dari algoritma partitioning clustering
adalah berupa flat cluster, sedangkan algoritma
hierarchical clustering akan menghasilkan struktur
cluster yang disusun dalam bentuk hirarki.
Algoritma K-Means dan FCM merupakan algoritma
partitioning clustering, sedangkan Agglomerative

Hierarchical Clustering (AHC) yang terkenal
termasuk dalam kategori hierarchical clustering.
Dua algoritma clustering pada tulisan ini adalah
H-FCM, algoritma fuzzy partitioning clustering yang
menerapkan karakteristik fuzzy pada algoritma

partitioning clustering, dan H2-FCM, algoritma
fuzzy hierarchical clustering yang menerapkan fuzzy
pada algoritma hierarchical clustering.

III. HYPER-SPHERICAL FUZZY CMEANS
Algoritma FCM (Fuzzy C-Means) merupakan
algoritma fuzzy clustering yang cukup terkenal dan
telah banyak digunakan dalam proses clustering
data. Dalam mengukur dissimilarity jarak antara dua
obyek, FCM menggunakan Euclidean distance.
FCM banyak diterapkan pada data input dimensi
kecil, 0-dimensi atau 1-dimensi.
Algoritma H-FCM
[Input:koleksi dokumen, c, m
Output:flat cluster, yang ditentukan
dari matriks keanggotaan U].
1. [Inisialisasi]
J  0
uiα  random namun tetap dalam batas
lanjut  true

2. [Proses clustering dilakukan hingga
selisih fungsi objektif ≤ threshold
atau iterasi telah mencapai jumlah
maximum yang ditentukan]
WHILE (lanjut)
vα  hitung centroid
cluster
Jtemp  J
D  matriks dissimilarity
J  hitung fungsi objektif
IF (|J-Jtemp| ≤ threshold)
lanjut  false
ELSE
uiα  matriks keanggotaan baru

Pada clustering dokumen, sebuah dokumen
sebagai obyek input direpresentasikan sebagai
vektor-vektor data yang berdimensi tinggi k. Untuk
dapat menangani data input yang berdimensi tinggi
ini, algoritma FCM ini perlu dimodifikasi. Hasil

modifikasi ini yang selanjutnya disebut H-FCM
(Hyper-Spherical Fuzzy C-Means) karena pada
algoritma baru tersebut dokumen sebagai sumber
data dan pusat cluster (centroid) direpresentasikan
sebagai vektor-vektor data yang terletak pada k
dimensi pada unit radius hypersphere.
Pada prinsipnya, proses clustering dan langkahlangkah yang dilakukan dalam algoritma H-FCM
adalah sama dengan proses clustering dan langkahlangkah yang dilakukan dengan menggunakan
algoritma FCM. Sedangkan perbedaan yang paling
menonjol dari kedua algoritma tersebut adalah

perbedaan fungsi dissimilarity yang dipakai dalam
proses perhitungan ketidakmiripan obyek, yang
disebabkan oleh perbedaan data set yang dipakai.
Pada H-FCM, ukuran similarity yang digunakan
adalah cosine similarity, S(xA,xB), yang merupakan
inner product dari vector k-dimensi (xA dan xB) yang
telah dinormalisasi terhadap panjang unitnya.
k


S ( x A , x B )   x Aj  x Bj
j 1

dengan batasan untuk cosine similarity:
k

S (v , v ) 

 min( v , v )
j

j 1

j

k

 v
j 1


j

0  S ( x A , x B )  1, A, B
S ( x A , x A )  1, A
Dengan
demikian,
perhitungan
dissimilarity yang digunakan dan
batasannya adalah:

fungsi
batasan-

k

D( x A , x B )  1  S ( x A , x B )  1   x Aj  x Bj
j 1

0  D( x A , x B )  1, A, B
D( x A , x A )  0, A

Hasil modifikasi fungsi obyektifnya mirip dengan
fungsi obyektif pada FCM. Perbedaannya terletak
pada perhitungan dissimilarity obyek data, dengan
modifikasi fungsi obyektif sebagai berikut:
N c
k
N c

m
m
J m U ,V    ui Di   ui 1   xij  vj 
i 1  1
j 1
i 1  1



Batasan nilai derajat keanggotaan uαi sama
dengan batasan pada algoritma H-FCM. Perhitungan
nilai derajat keanggotaan yang baru adalah:
 c
 D
u  i     i
D
  1  i






1
( m 1)






1

1


k
( m 1)

  1  x  v 
ij
j

 c  
j 1

  

k


  1  1  x  v 

ij
j



 
j 1




1

Selain itu terdapat batasan baru yang harus
dipenuhi oleh vector centroid cluster, yaitu:
k

k

j 1

j 1

S (v , v )   vj  vj   vj  1, 
2

Dengan demikian hasil modifikasi perhitungan
nilai centroid cluster menjadi sebagai berikut:
N

v   ui
i 1

m

2
k  N
 
m
xi     ui xij  
 
 j 1  i 1

1 / 2

Sama seperti algoritma FCM, algoritma H-FCM
dilakukan secara iteratif sampai nilai minimum
selisih fungsi obyektif telah tercapai atau hingga
jumlah maksimum iterasi terpenuhi.

IV. HIERARCHICAL HYPER-SPHERICAL FUZZY C-MEANS
Algoritma H2-FCM adalah bentuk hirarki dari
algoritma H-FCM. Algoritma ini menggunakan
algoritma H-FCM dan menghasilkan cluster hirarki
dari cluster partitioning yang dihasilkan algoritma
H-FCM, Hirarki dibentuk dari cluster-cluster HFCM berdasar hubungan parent-child antar centroid
cluster vectors. Algoritma ini dikembangkan karena
dipandang bentuk cluster hirarki lebih mudah
dijelajahi dalam eksplorasi dokumen, dibandingkan
bila dilakukan pada bentuk cluster partitioning.
Algoritma H2-FCM
[Input:koleksi dokumen, c, m, tND, tPCS
Output: hirarki cluster, dengan memakai
parent-child dari centroid H-FCM].
1. [Pembentukkan flat cluster H-FCM]
1.1. Proses clustering dengan
algoritma H-FCM
1.2. K  jumlah cluster dengan
dokumen < tND, dengan threshold
keanggotaan α-cut.
1.3. Ulangi langkah 1.1 untuk c=c-K
1.4. uiα  matriks keanggotaan hasil
clustering dengan H-FCM
1.5. vαj  centroid cluster hasil
clustering dengan H-FCM
2. [Perhitungan asymmetric similarity]
2.1. Simα  nilai asymmetric
similarity dari cluster α dan β
dengan memakai persamaan (5-1)
3. [Inisialisasi VH dan VF]
3.1. VF  Ø
3.2. VH  centroid cluster hasil
clustering H-FCM
4. [Pembentukkan Hirarki Cluster]
WHILE VF ≠ Ø
4.1. Pemilihan vektor kandidat

v   VF , yang memenuhi
v VF : S (v , v )  max S (v , v ), v , v VF

4.2. Ulangi kembali step 4.1 dan set
S(vα,v )=0,bila terdapat lebih
dari sebuah kandidat.
4.3. Terdapat beberapa kondisi dalam
insert vektor kandidat vα ke
dalam hirarki, yaitu:
4.3.1. VH=Øvα menjadi cluster
root pada hirarki
4.3.2.

VP  VH ,
S (v , v )  t PCS , v  vP

 vα

menjadi cluster child
dari v
4.3.3. VP = Ø  vα menjadi root
cluster pada hirarki
4.4.
Hapus α dari VF dan tambahkan
pada VH.
5. [Hasil Proses Clustering]
RETURN Hirarki cluster, Matriks keanggotaan U, dan centroid cluster V.

Algoritma H2-FCM menggunakan konsep
asymmetry untuk mendefinisikan hubungan parentchild antar vektor-vektor cluster H-FCM dalam
pembentukan cluster hirarki. Dalam konteks
hubungan parent-child yang mencakup konsep
inheritance (pewarisan), maka child (anak) akan
mewarisi semua atribut parent dengan tambahan
beberapa atribut baru. Pada clustering dokumen,
sebuah vektor child harus mengandung semua termterm dari vector parentnya dan beberapa term
tambahan. Cluster α akan lebih sesuai menjadi
cluster child dari cluster
dibanding menjadi
parentnya, jika S (v , v  )  S (v  , v ) , dimana:
Algoritma H2-FCM terdiri dari tiga tahap utama.
Ketiga tahap tersebut adalah sebagai berikut:
1. Penerapan algoritma H-FCM untuk memperoleh
sejumlah besar cluster dokumen.
2. Mengambil setiap pasangan cluster dari tahap 1
dan menghitung tingkat asymmetry similarity
yang dimiliki oleh pasangan cluster tersebut.
3. Membentuk atau menghubungkan centroidcentroid cluster secara hirarki dengan
menggunakan pendekatan top-to-bottom (topdown) untuk memperoleh suatu hirarki cluster.

V. EKSPERIMEN
Untuk melakukan uji coba diperlukan dataset
input dan serangkaian preprocessing pada dataset
yang digunakan. Kemudian pada bagian akhir akan
ditunjukkan perbandingan hasil dari kedua algoritma
pada dataset yang berbeda.

A. DATASET
Terdapat sepasang dataset yang digunakan dalam
eksperimen ini, yaitu: dataset Reuters-21578 yang
berbahasa Inggris dan dataset Alkitab yang
menggunakan bahasa Indonesia. Untuk dataset
Reuter-21578, dokumen yang digunakan adalah
dokumen-dokumen yang memiliki topik tunggal
acq, earn, dan trade. Sedangkan untuk dataset
Alkitab, dokumen yang digunakan adalah semua
perikop yang terdapat dalam empat Injil Perjanjian
Baru, yaitu: Matius, Markus, Lukas dan Yohanes.

B. PREPROCESSING
Sebelum melakukan proses clustering, datasetdataset yang digunakan perlu melalui beberapa tahap
preprocessing. Tahapan pre-processing yang umum
dilakukan adalah: penghilangan tag-tag HTML,
penghapusan
non-alphanumeric,
casefolding
(pengabaian upper dan lower case), stemming,
eliminasi stopword dan commonword, termasuk
pembentukkan vector model dengan tf. Selain itu,
terdapat beberapa tambahan proses yang perlu
dilakukan: filtering untuk menghilangkan kata-kata
yang dianggap sebagai noise dan normalisasi.

P 

n

R 

N

n
N

dimana n Γ merupakan jumlah dokumen dari
kelas Γ yang di-assign ke cluster γ, N merupakan
jumlah total dokumen pada cluster
dan NΓ
merupakan jumlah total dokumen yang terdapat pada
class Γ. Range nilai dari kedua ukuran tersebut
berkisar antara 0 sampai 1 ([0,1]). Hasil ukuran
validitas semakin baik, bila kedua ukuran tersebut
menunjukkan nilai yang setinggi-tingginya. Nilai 1
dari kedua ukuran tersebut menunjukkan bahwa
hasil clustering mutlak benar sesuai dengan yang
diharapkan
Kedua
pengukur
performa
ini
dapat
dikombinasikan menjadi sebuah pengukur tunggal,
F-measure, seperti yang didefinisikan pada
persamaan (2-18). Ukuran F-measure ini merupakan
suatu ukuran eksternal yang paling sering digunakan
untuk mengevaluasi akurasi solusi clustering yang
dihasilkan dan merupakan metode valuasi standar
baik untuk struktur flat maupun struktur hierarchical
clustering, terutama untuk clustering dokumen.

F







( 2  1)  P  R

 2  P  R

dimana ξ merupakan sebuah parameter yang
mengatur bobot relatif dari precision dan recall
(ξ=1, digunakan untuk konstribuasi yang sama). Fξ Г
merepresentasikan kualitas cluster γ dalam
mendeskripsikan class Г. Dalam menghitung Fξ Г
pada suatu struktur hirarki, semua dokumen yang
terdapat dalam subtree
akan dianggap sebagai
dokumen-dokumen yang terdapat dalam cluster .
Dan untuk memperoleh ukuran performa
keseluruhan, F-measure (Fξ) total dihitung dari
jumlah maksimum nilai F-measure dari semua kelas
yang ada.

N
F     max  C {F   }
K N


dimana K mendenotasikan kumpulan kelas atau
topik asli, C mendenotasikan semua cluster pada
semua level, dan N mendenotasikan jumlah total

Nilai F-Measure untuk kombinasi a-cut

F-Measure

Eksperimen dilakukan pada sepasang dataset.
Dua ukuran populer yang sering digunakan untuk
mengevaluasi performa sistem IR (Information
Retrieval) adalah precision (P) dan recall (R). Pada
clustering dokumen, setiap output cluster akan
dianggap sebagai hasil dari sebuah query, sedangkan
setiap class yang adalah topik sebenarnya yang telah
didefinisikan sebelumnya. Sehingga precision akan
merepresentasikan fraksi elemen dokumen class
yang termasuk ke dalam suatu cluster. Sedangkan
recall merepresentasikan fraksi elemen dokumen
cluster yang termasuk ke dalam cluster

dokumen yang terdapat dalam dataset. Dengan
mengambil nilai maksimum dari Fξ Г, dapat
dianggap sebagai memilih cluster terbaik yang dapat
mendeskripsikan class tertentu, dan Fξ merupakan
jumlah berbobot F-measure dari cluster-cluster
terbaik tersebut. Range nilai Fξ adalah [0,1].
Semakin besar nilai Fξ menunjukkan semakin tinggi
akurasi hasil clustering yang diperoleh.
Uji coba dilakukan dengan melakukan proses
clustering dokumen pada dataset Reuters dengan
algoritma H-FCM pada c=cREF=3, m=1.1, threshold
iterasi=0.01, dan kombinasi threshold keanggotaan
α-cut dari 0.1 sampai 0.9. Nilai F-Measure untuk
setiap threshold keanggotaan tersebut dapat dilihat
pada gambar 1. Pada gambar tersebut, terlihat bahwa
nilai F-Measure pada α-cut = 0.1 mencapai sekitar
0.7. Dan semakin tinggi sedikit demi sedikit untuk
α-cut antara 0.1 sampai 0.4, dengan puncak tertinggi
pada α-cut antara 0.3 dan 0.4.

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
a-cut

m=1.1

Gambar 1
F-Measure Hasil Kombinasi α-cut
Namun selanjutnya, nilai F-Measure mengalami
penurunan yang cukup besar untuk α-cut antara 0.5
sampai 0.9. Hal ini semakin mempertegas pengaruh
threshold keanggotaan dalam akurasi hasil
clustering.
Perbandingan Nilai F-Measure untuk
setiap α-cut dan m

F-Measure

C. HASIL EKSPERIMEN

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

m=1.1
m=1.2
m=1.3
m=1.4
m=1.5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

a-cut

Gambar 2
F-Measure Hasil Kombinasi m dan α-cut

Pada gambar 2 dilakukan proses uji coba hasil
clustering untuk nilai m berkisar antara 1.1 sampai
1.5 dengan kenaikan 0.1 dan nilai α-cut yang
berkisar antara 0.1 sampai 0.9. Seperti yang tampak
pada gambar 2 tersebut, dengan semakin
meningkatnya nilai m, maka cluster menjadi
semakin fuzzy dan kabur, dimana nilai derajat
keanggotaan terhadap masing-masing cluster
semakin merata. Akibatnya dengan kecilnya nilai αcut, overlap akan semakin banyak terjadi dan dengan
semakin meningkatnya α-cut, maka dokumendokumen yang menjadi anggota cluster menjadi
semakin sedikit.

F-Measure

Nilai F-Measure untuk c=5-25
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0

5

10

15

Jumlah Cluster (c)

20

25

30

F-Measure

Gambar 3
F-Measure untuk Jumlah Cluster c=5-30
Dari hasil uji coba pada gambar 3, dapat
diketahui bahwa untuk hirarki cluster dengan CR
cluster root (jumlah cluster root yang sama), maka
semakin meningkatnya jumlah cluster tidak
mempengaruhi nilai F-Measure. Nilai F-Measure
hanya dipengaruhi oleh pengelompokkan dokumen
sejenis ke dalam cluster yang sama. Dan semakin
besar jumlah cluster akan mengakibatkan struktur
hirarki dalam cluster root semakin besar. Yang
berarti juga semakin detail pengelompokan yang
dilakukan, dimana dokumen-dokumen dibagi
menjadi sejumlah besar cluster berukuran kecil.
Sedangkan untuk dataset Alkitab, hasil clustering
tidak dapat diukur dengan menggunakan F-Measure
secara langsung, maka tingkat akurasi hasil
clustering dilakukan dengan melihat hasil
perbandingan secara subjektif. Perikop-perikop
dalam dataset Alkitab ini dapat dibagi menjadi dua
jenis, yaitu:
1. Perikop Berpararel, yaitu: perikop yang
memiliki sekelompok perikop lain yang
membahas topik yang serupa.
2. Perikop Tak Berpararel, yaitu: perikop tunggal
yang membahas suatu topik yang tidak dibahas
oleh perikop-perikop lainnya.
Daftar pararel perikop dan perikop-perikop yang
tak berpararel diambil dari sumber Alkitab Program
2.40 versi Indonesia dan buku “Sinopsis Ketiga
Injil” karya A.A.Sitompul. Dimana terdapat 107

kelompok pararel perikop dan 158 perikop tak
berpararel. Eksperimen dilakukan dengan jumlah
cluster adalah 265 cluster, dimana setiap cluster
diharapkan dapat mewakili tepat satu perikop tak
berpararel dan tepat satu kelompok pararel perikop
lengkap yang membahas topik yang sama.
Tabel 1
Perbandingan H-FCM dengan Centroid Awal = c
Data Pertama dan H-FCM dengan Centroid
Awal dari Matriks Keanggotaan Random
H-FCM
H-FCM
(c data
(random)
Kategori Cluster
pertama)
Cluster dengan tepat
18
53
satu grup pararel
perikop lengkap
Cluster dengan tepat
83
98
satu perikop tak
berpararel
Cluster dengan satu
115
67
grup pararel perikop tak
lengkap
Cluster dengan satu
grup pararel perikop
20
7
lengkap, tetapi ada
perikop-perikop lain
yang bukan anggotanya
Cluster dengan lebih
1
1
dari satu grup pararel
perikop lengkap
Cluster lain
28
39
TOTAL
265
265
Tampak pada tabel 1 bahwa hasil clustering
untuk H-FCM dengan inisialisasi centroid awal yang
menggunakan c data pertama lebih buruk
dibandingkan dengan hasil clustering untuk H-FCM
dengan inisialisasi matriks keanggotaan random.
Analisa ini diperoleh dari karena pada hasil
clustering yang kedua jumlah cluster kategori
pertama dan kedua (yang palig baik) jauh lebih
banyak dibandingkan dengan jumlah cluster yang
diperoleh pada hasil clustering pertama. Walaupun
jumlah cluster kategori keenam (yang paling buruk)
juga lebih banyak dibanding hasil clustering
pertama. Namun bila dibandingkan secara subjektif
dari hasil yang tampak pada tabel 1, tentu saja hasil
clustering untuk H-FCM dengan inisialisasi matriks
keanggotaan random yang lebih baik.
Tabel 2
Perbandingan H-FCM dan H2-FCM dengan
Centroid Awal = c Data Pertama
H-FCM
H2-FCM
(c data
(c data
Kategori Cluster
pertama) pertama)
Cluster dengan tepat
18
48

satu grup pararel
perikop lengkap
Cluster dengan tepat
satu perikop tak
berpararel
Cluster dengan satu grup
pararel perikop tak
lengkap
Cluster dengan satu atau
lebih grup pararel
perikop lengkap, tetapi
ada perikop-perikop lain
yang bukan anggotanya
Cluster dengan lebih
dari satu grup pararel
perikop lengkap
Cluster lain
TOTAL

83

81

115

80

20

30

1

1

28
265

25
265

Untuk algoritma H2-FCM, uji coba akan
dilakukan pada ujicoba H-FCM pertama (dengan
centroid awal adalah c data pertama). Uji coba ini
bertujuan untuk mencoba kembali mengelompokkan
perikop-perikop pararel yang terpisah dalam cluster
berbeda. Perbandingan hasil clustering antara HFCM dan H2-FCM tersebut dapat dilihat pada tabel
2. Dari hasil perbandingan yang tampak pada tabel
2, tampak bahwa algoritma H2-FCM mampu
mengelompokkan perikop-perikop tersebut dan
menghubungkan cluster-cluster perikop yang
memiliki topik yang berkaitan (berpararel), dan
menghasilkan cluster yang lebih baik.
Analisa ini diperoleh dengan memperhatikan
jumlah cluster yang dihasilkan kedua proses
clustering untuk masing-masing kategori. Jumlah
cluster kategori pertama pada H2-FCM jauh lebih
banyak dibandingkan jumlah cluster yang dihasilkan
oleh H-FCM. Jumlah cluster H2-FCM untuk setiap
kategori sebagian besar mengalami perubahan
dibanding jumlah cluster H-FCM. Hal ini
disebabkan karena cluster tersebut telah menjadi
cluster parent dari cluster-cluster lainnya, sehingga
jumlah perikop yang dimilikinya adanya jumlah
perikop unik dari seluruh perikop yang dimilikinya
dan seluruh cluster anaknya. Dimana dari seluruh
perikop yang ada tersebut akan memungkinkan
cluster parent tersebut berubah kedudukannya dari
kategori yang satu ke kategori lainnya.
Pemberian label pada cluster hasil clustering
dapat dilakukan dengan menggunakan vector kata
dari centroid tiap cluster tersebut.

VI. KESIMPULAN
Berdasarkan hasil eksperimen dan analisa yang
telah dilakukan, dapat diambil beberapa kesimpulan
mengenai algoritma H-FCM dan H2-FCM, yaitu
sebagai berikut:

(1) Penggunaan fuzzy memiliki peranan penting
dalam mempertimbangkan suatu obyek tergolong ke
dalam cluster. Terutama dalam proses clustering
dokumen, dimana dokumen terhubung ke dalam
cluster-cluster yang bersangkutan.
(2) Algoritma H-FCM menghasilkan clustercluster yang cukup akurat, terbukti dari hasil uji
coba yang dilakukan. Disamping itu pula, algoritma
H-FCM mampu bersifat fleksibel. User dapat
menentukan threshold minimum derajat keanggotaan
obyek yang ingin dilihat, dan mampu menentukan
seberapa fuzzy atau hard hasil clustering yang ingin
dicapai.
(3) Hasil clustering dengan H2-FCM dalam
bentuk hirarki lebih mudah di-browse dibanding
dengan hasil H-FCM yang berbentuk partitioning.
(4) Hasil clustering H2-FCM dapat bersifat
fleksibel. Dimana user dapat menentukan tingkat
kemiripan cluster parent dan cluster child (akan
mempengaruhi overlap cluster). User juga dapat
menentukkan pula tingkat penyebaran struktur
hirarki yang dinginkan.
(5) Pemberian label untuk cluster dilakukan
secara otomatis dengan menggunakan vector data
yang dimiliki masing-masing centroid cluster.
(6) Nilai F-Measure tidak bergantung pada
banyaknya cluster yang dihasilkan, tetapi pada
penyebaran dokumen dalam cluster-cluster. Semakin
banyak dokumen-dokumen dengan class yang sama
terdapat dalam cluster yang sama, dan semakin
sedikit dokumen dengan class yang berbeda dalam
cluster yang sama akan meningkatkan nilai FMeasure.
(7) F-measure yang tinggi tidak berarti struktur
tree yang dihasilkan lebih baik. Tidak ada hubungan
antara F-measure dengan struktur tree. F-measure
hanya bertujuan untuk mengukur akurasi clustering,
bukan mengukur bentuk struktur tree.

VII. DAFTAR PUSTAKA
[1] Albayrak, Songul, Fatih Amasyah, Fuzzy CMeans Clustering on Medical Diagnostic
Systems, Istambul-Turkey: Yildiz Technical
University.
[2] Fung, Benjamin Chin Ming, Hierarchical
Document Clustering Using Frequentc Itemsets,
Simon Fraser University, 2002.
[3] Kaya, Metin., A New Image Clustering and
Compression Method Based On Fuzzy Hopfield
Neural Network, IJCI Proceedings of
International Conference on Signal Processing,
ISSN 1304-2386, Volume:1, Number:2, 2003.
[4] Rondrigues, M. E. S. Mendes dan L. Sacks,
Evaluating Fuzzy Clustering for Relevancebased Information Access, Torrington Place,
London, WC1E 7JE, United Kingdom:
Department of Electronic and Electrical
Engineering, University College London.

[5] _______, A Scalable Hierarchical Fuzzy
Clustering Algorithm for Text Mining,
Torrington Place, London, WC1E 7JE, United
Kingdom: Department of Electronic and
Electrical Engineering, University College
London.
[6] Tala, Fadillah Z., A Study of Stemming Effects
on Information Retrieval in Bahasa Indonesia,
Netherland: Universiteit van Amsterdam, 2003.