Program Pengabdian Masyarakat | 93
PerIset
W. C. Wibowo1, A. Maududie2
1. Faculty of Computer Science, University of Indonesia, Jakarta, Indonesia 2. Information System Study Program, Jember University, Jember, Indonesia
Email : wibowocs.ui.ac.id; maududieunej.ac.id
Bisecting Divisive Clustering Algorithm Based
On Forest Graph
Program Pengabdian Masyarakat 94 |
Meski metode Forgy memiliki hasil sama dengan BMFG
untuk distribusi data yang baik, metode ini memberikan
hasil yang tidak konsisten untuk
noisy dataset.
riset | 95
T
ujuan utama tugas pembagian adalah membagi sekelompok objek ke dalam beberapa grup
berdasarkan kedekatan mereka. Kedekatan ini bisa ditampilkan ke dalam dua bilangan. Semisal
persamaan dan pertidaksamaan. Pada dasarnya kedua bilangan ini memiliki makna yang sama.
Sebagai contoh, menemukan kedekatan dari dua objek secara kuantitatif. Jika menggunakan bilangan pertidaksamaan, maka
semua objek dalam kelompok yang sama harus memiliki indeks pertidaksamaan juga disebut jarak sekecil mungkin tapi
setinggi mungkin jika dibandingkan dengan objek lain di kelompok berbeda.
Di sisi lain, jika menggunakan persamaan, maka semua objek dalam kelompok yang sama harus memiliki indeks
pertidaksamaan setinggi mungkin. Tapi harus sekecil mungkin dengan objek lain di kelompok yang berbeda.
Membagi Algoritma Kluster Pecahan
Berdasarkan Forest Graph
riset 96 |
Di dunia nyata, ada kalanya kelompok yang dihasilkan memiliki tingkat kekeliruan yang lebih besar dari yang
diharapkan. Ini biasanya ditampilkan sebagai SSE sum of squared error
. Untuk mengurangi SSE, kelompok dengan SSE yang lebih besar dibagi menjadi dua kelompok atau lebih, yang disebut
bisecting divisive clustering .
Ada beberapa metode yang telah diperkenalkan para peneliti untuk membagi kluster agar menjadi sesetara mungkin. Salah
satu metode yang dikenal berdasarkan pada algoritma K-Means, yang sering disebut bisecting K-Means.
Sama seperti K-Means, bisecting K-Means diawali dengan menentukan sentroid pertama di mana nilai K adalah dua dan
kemudian dilakukan proses pengelompokan biasa dengan menggunakan algoritma K-Means. Meskipun metode in sangat
sederhana dan mudah untuk diimplementasikan, seperti algoritma K-Means, metode ini juga sangat sensitif pada sentroid
pertama. Penelitian ini memperkenalkan metode baru untuk membagi
sebuah kelompok menjadi dua sub kelompok, yang berdasarkan pada forest graph minimum, sehingga disebut bisecting minimum
forest graph BMFG. Penelitian dilaksanakan oleh Achmad
Maududie dari program studi sistem Informasi Universitas Jember dan Wahyu Catur WIbisono dari jurusan ilmu komputer
universitas indonesia. Sama halnya dengan bisecting K-Means, metode baru ini
juga menggunakan algoritma K-Means untuk melakukan sub- pengelompokan. Meski begitu, sentroid awal bukanlah sentroid
acak melainkan tergantung pada komponen forest graph.
riset | 97
Metode BMFG menggunakan sentroid dan elemen kluster yang akan dipisah untuk menyusun forest graph minimum
berdasarkan pada metode pertautan tunggal single linkage. Metode ini diawali dengan memilih beberapa elemen kluster
yang memiliki jarak lebih luas ke sentroid dibandingkan ke jarak rata-rata μ sebagai seperangkat nodes untuk menyusun forest
graph minimum.
Secara umum, algoritma dari metode ini bisa digambarkan sebagai berikut.
• Mengukur jarak rata-rata ke sentroid • Memilih semua elemen yang memiliki jarak lebih besar
dibanding rata-rata dan centroid sebagai seperangkat of nodes • Menyusun forest graph minimun berdasarkan jarak minimum
dari nodes yang dihasilkan • Menghasilkan seperangkat sentroid pertama untuk masing-
masing komponen forest graph berdasarkan pada mean of each tree
. • Do ketika jumlah centroid awal lebih dari dua
• Menghasilkan sentroid awal baru dengan menyatukan dua sentroid awal terdekat yang ada
• Go ke langkah lima • Menjalankan pengelompokkan melalui algoritma K-Means
berdasarkan sentroid awal yang ada Dalam penelitian ini, evaluasi menggunakan dua set data
sentetis yang didasarkan pada dua data dimensional. Data pertama terdiri dari 25 point data yang didistribusikan dengan
riset 98 |
benar pada setiap kelas. yakni kelas satu dan kelas dua. Kelas satu memiliki 12 point data yang dipresentasikan sebagai berlian
sebagai anggotanya. Sementara kelas dua memiliki 13 poin data yang dipresentasikan sebagai titik bulat. Data set kedua terdiri
dari 30 poin data. yaitu 15 poin data di kelas satu dan 15 poin data di kelas dua, yang secara belum terdistribusikan dengan
baik noisy. Setiap set data dianggap sebagai kluster yang harus dipisah
dan hasil proses pembagian menggunakan metode yang disarankan, dibandingkan dengan pembagian K-Means
menggunakan metode Forgy. Atau bisa disebut Forgy. Setiap metode dijalankan sepuluh kali untuk setiap set data dan
dievaluasi dengan dua validasi. Seperti indeks Information Gain IG dan Compactness-separation Criterion CSC.
Berdasarkan pada penelitian yang dilakukan, metode BMFG yang diusulkan memberikan hasil lebih baik dibandingkan yang
dihasilkan Forgy. Meski metode Forgy memiliki hasil sama dengan BMFG untuk distribusi data yang baik, metode ini
memberikan hasil yang tidak konsisten untuk noisy dataset. Sementara itu, untuk distribusi data dan noisy data, BMFG
memberikan hasil yang lebih konsisten, yang mana hal ini ditunjukan oleh IG indeks thatequalstoone. Indeks CSC rata-rata
dari BMFG juga menunjukkan hasil yang lebih baik. Ini ditunjukkan oleh nilai indeks CSC yang lebih kecil pada BMFG,
yakni 0,558. Sementara Forgy sebesar 0,569.
l
Program Pengabdian Masyarakat | 99
PerIset
E. Gatari