20 Gambar 2.3 Ilustrasi Penentuan Keanggotaan Kelompok Berdasarkan Jarak
Turban dkk, 2005 Cara untuk menemukan pusat yang paling sesuai sebagai upaya
merepresentasikan posisi dari sebuah kelompok data terhadap kelompok data yang lainnya dilakukan sebuah proses perulangan. Proses perulangan ini dimulai
dengan menentukan secara sembarang posisi dari pusat-pusat kelompok yang telah ditetapkan. Selanjutnya ditentukan keanggotaan setiap individu data
berdasarkan jarak terpendek terhadap pusat-pusat tersebut. Pada iterasi kedua dan seterusnya dilakukan pembaharuan posisi pusat untuk semua kelompok. Langkah
selanjutnya dilakukan pembaharuan keanggotaan untuk setiap kelompok.
2.2.1 Langkah K Means Clustering
Metode pengelompokkan K Means pada dasarnya melakukan dua proses yakni proses pendeteksian lokasi pusat cluster dan proses pencarian anggota dari tiap-
21 tiap cluster dan proses pencarian anggota dari tiap-tiap cluster. Proses Algoritma
K Means sebagai berikut :
1. Tentukan K sebagai jumlah cluster yang ingin dibentuk.
2. Bangkitkan K centroid titik pusat cluster awal secara random.
3. Hitung jarak setiap data ke masing-masing centroid.
4. Setiap data memilih centroid yang terdekat.
5. Tentukan posisi centroid baru dengan cara menghitung nilai rata-rata
dari data-data yang terletak pada centroid yang sama. 6.
Kembali ke langkah 3 jika posisi centroid baru kurang dari centroids lama.
Berdasarkan cara kerjanya Algoritma K Means memiliki karakteristik sebagai berikut :
1. K Means sangat cepat dalam proses clustering.
2. K Means sangat sensitif dalam proses pembangkitan centroid awal secara
random .
3. Memungkinkan suatu cluster tidak mempunyai anggota.
4. Hasil clustering dengan K Means bersifat tidak unik.
Proses pengelompokkan data ke dalam suatu cluster dapat dilakukan dengan cara menghitung jarak terdekat dari suatu data ke sebuah titik centroid. Rumus untuk
menghitung jarak tersebut menggunakan euclidean matrix:
2.3 dimana:
22 g = 2, untuk menghitung jarak euclidean
x
i
, x
j
adalah dua buah data yang akan dihitung jaraknya p = dimensi dari sebuah data
Pembaharuan suatu titik centroid dapat dilakukan dengan rumus berikut:
2.4 dimana:
µ
k
= titik centroid dari cluster ke-K N
k
= banyaknya data pada cluster ke-K x
q
= data ke-q pada cluster ke-K
2.2.2 Hierarchical Clustering
Metode agglomerative hierarchical clustering adalah metode yang menggunakan strategi disain bottom-up yang dimulai dengan meletakkan setiap
obyek sebagai sebuah cluster tersendiri atomic cluster dan selanjutnya menggabungkan atomic cluster
– atomic cluster tersebut menjadi cluster yang lebih besar dan lebih besar lagi sampai akhirnya semua obyek menyatu dalam
sebuah cluster atau proses berhenti jika telah mencapai batasan kondisi tertentu Arai ,2007.
Sebelum dibentuknya sebuah cluster perlu melalui langkah menghitung jarak antara obyek data untuk mengetahui kemiripan data. Salah satu cara yang
23 banyak digunakan adalah dengan perhitungan euclidean distance. Euclidean
distance sendiri adalah:
√ | |
| |
| |
| |
2.5 dapat disederhanakan dengan:
√∑ 2.6
Keterangan: adalah jumlah atribut atau dimensi
dan
adalah data Hierarchical clustering
memiliki beberapa cara untuk perhitungan jarak antar cluster, di antaranya adalah single linkage, average linkage, dan complete
linkage . Berikut ini adalah pendevinisian perhitungan jarak dengan cara single
linkage :
Perhitungan dengan teknik single linkage adalah untuk mencari jarak minimum antar cluster. Dengan single linkage jarak antara dua cluster didevinisikan sebagai
berikut: 2.7
Keterangan: adalah jarak antara data
dan y dari masing-masing cluster A dan B. Berdasarkan perhitungan rumus di atas akan didapatkan jarak antar cluster. Jarak
minimum antar data yang ditemukan pertama akan menjadi cluster yang pertama. Perhitungan selanjutnya juga akan dilakukan untuk pembentukan cluster
selanjutnya. Berdasarkan hasil perhitungan akan diperoleh dendrogram.
24
J a
r a
k 1
2
0,5 1,5
a b
c e
d f
D a t a
Gambar 2.4 Dendrogram Penggunaan metode hierarchical clustering untuk mengelompokkan n
obyek data adalah sebagai berikut : 1. Hitung Matrik Jarak antar data.
2. Ulangi langkah 3 dan 4 higga hanya satu kelompok yang tersisa. 3. Gabungkan dua kelompok terdekat berdasarkan parameter kedekatan yang
ditentukan. 4. Perbarui Matrik Jarak antar data untuk merepresentasikan kedekatan di
antara kelompok baru dan kelompok yang masih tersisa. 5. Selesai.
Sebagai contoh, terdapat beberapa data yang dapat dilihat pada tabel 2.4 di bawah ini. Data akan dibentuk dengan menggunakan hierarchical clustering
dengan perhitungan kemiripan obyek data menggunakan euclidean distance dan perhiutngan jarak cluster dengan single linkage.
25
Tabel 2.4 Contoh Data Perhitungan hierarchical clustering Data X Y
A
1 1
B
4 1
C 1
2
D 3
4
E 5
4
Dihitung dengan euclidean distance setiap obyek data tersebut dihitung jaraknya sebagai berikut:
√ | | | |
√ | | | |
√ | | | |
√ | | | |
√ | | | |
√ | | | |
√ | | | |
√ | | | |
√ | | | |
√ | | | |
Berdasarkan perhitungan tersebut dapat dibentuk matriks jarak seperti seperti pada tabel 2.5.
26 Tabel 2.5 Matriks jarak
A B
C D
E a
3 1
3.61 5
b
3 3.16
3.16 3.16
c 1
3.16 2.83
4.47
d 3.61
3.16 2.83
2
e 5
3.16 4.47
2
Single linkage Selanjutnya dari tabel 2.5 dapat dilihat jarak obyek data yang paling dekat,
yaitu a dan c, berjarak 1. Kedua obyek data ini menjadi satu cluster pertama. Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari
sisa yang ada b, d, e dan berada paling dekat dengan cluster ac. Untuk pencarian jarak ini pertama digunakan single linkage.
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster ac, sehingga matriks jarak menjadi seperti berikut ini:
27 Tabel 2.6
Matriks Jarak Pertama single linkage
Ac B
d E
Ac
3 2.83
4.47
B
3.16 3.16
D 2
E
Berdasar pada matriks jarak kedua Tabel 2.6, dipilih kembali jarak terdekat antar cluster. Ditemukan cluster de yang paling dekat, yaitu bernilai 2.
Kemudian dihitung jarak dengan cluster yang tersisa, ac, dan b.
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster de, sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.7 Matriks Jarak Kedua single linkage
Ac b
De Ac
3 2.83
B 3.16
De
28 Berdasar pada matriks jarak ketiga Tabel 2.7, dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster acde yang paling dekat, yaitu bernilai 2.83. Kemudian dihitung jarak dengan cluster yang tersisa, yaitu b.
Langkah selanjutnya yaitu menghapus dan menambahkan baris dan kolom
untuk cluster acde baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster ac dan de, sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.8 Matriks Jarak Ketiga single linkage
acde B
Acde 3
B
Proses iterasi perhitungan jarak untuk pembentukan cluster sudah slesai karena cluster sudah tersisa satu. Jadi cluster acde dan b digabung menjadi
satu, yaitu cluster acdeb dengan jarak terdekat adalah 3. Berikut ini adalah hasil dendrogram hasil hierarchical clustering dengan single linkage:
29
Gambar 2.5 Dendrogram single linkage untuk 5 obyek data 2.3 Hierarchical K Means
Menurut eksperimen yang telah dilakukan, metode K Means sudah digunakan untuk metode pengelompokan data set. Hal itu dapat dibuktikan
dengan prosentase eror yang minimal, namun seiring berjalannya waktu, eksperimen tentang clustering lebih berkembang dengan adanya metode
Hierarichal K Means yang dapat menentukan centroid awal yang akan
digunakan untuk clustering pada metode K Means. Ternyata metode Hierarichal K Means
dapat mengatasi pemilihan centroid secara random yang memikiki tingkat eror lebih besar dan dalam penggunannya dianggap kurang
praktis karena harus melakukan beberapa eksperimen dalam menentukan centroid awal yang tepat. Harapannya dengan diterapkan Hierarichal K Means
dapat meningkatkan akurasi dan menurunkan prosentasi erornya, disebutkan dalam penelitian, ternyata eror pada metode K Means dengan centroid
random sebesar 32.5236, sedangkan dengan metode Hierarichal K Means erornya dapat diminimalisir menjadi 29.7753 Arai ,2007.
30 Berikut adalah langkah dalam menentukan centoid awal dengan menggunakan
hierarchical K Means :
1. Set X ={x
i
| i =1, ..., r} i setiap data A, dimana A {a
i
| i= 1, ..., n} dengan n-dimensi vektor.
2. Set K sebagai jumlah _ cluster yang telah ditetapkan.
3. Tentukan p sebagai banyaknya perhitungan
4. Set i = 1 sebagai counter awal
5. Terapkan algoritma K Means.
6. Catat hasil centroid hasil Clustering sebagai Ci = {i
j
| j = 1, ..., K} 7.
Tambahkan i = i + 1 8.
Ulangi dari langkah 5 saat i p. 9.
Asumsikan C = {Ci | i = 1, ..., p} sebagai satu set data baru, dengan K sebagai nomor _ cluster yang telah ditetapkan
10. Terapkan algoritma hirarki single linkage
11. Catat hasil centroid Clustering sebagai D = {di | i = 1, ..., K}
Langkah berikutnya adalah menerapkan D = {di | i = 1, ..., K} sebagai pusat klaster awal untuk K Means. Penggunaan algoritma hirarki untuk
menemukan centroid awal dipilih single linkage, karena single linkage penerapannya mudah selain itu ternyata tidak ada perbedaan signifikan
dibandingkan dengan average maupun complete linkage Arai, 2007.
2.3. Evaluasi
Berkaitan dengan evaluasi yang digunakan pada penelitian ini, digunakan dua jenis evaluasi. Evaluasi yang digunakan adalah evaluasi internal dan
31 eksternal. Evaluasi yang pertama adalah evaluasi internal sistem, dimana
berfungsi untuk mengukur kinerja K Means clustering ini menggunakan Sum Square Erorr
SSE. Evaluasi bertujuan untuk menilai kualitas cluster yang dibuat. Kinerja sistem yang dievaluasi dengan menghitung nilai akurasi, dari
perhitungan akurasi akan diketahui sejauh mana metode K Means dapat mengelompokkan dokumen apa topik artikel Berbahasa Jawa. Semakin kecil nilai
SSE semakin baik hasil cluster yang dibuat. ∑
∑ ||
|| 2.8
Keterangan:
adalah jarak data di indeks
adalah rata-rata semua jarak data
di cluster Evaluasi yang diterapkan berikutnya adalah evaluasi yang berkaitan
dengan eksternal sistem, yaitu mengukur akurasi dari pengelompokkan dokumen hasil dari internal evaluasi. Langkah yang dilakukan adalah membandingkan
setiap anggota cluster dengan manual pengelompokkan yang sudah dibuat, dalam hal ini sudah ditentukan pembagian cluster dokumen berdasarkan topik ekonomi,
kesehatan, dan pendidikan, dimana masing-masing kelompok beranggotakan 25 dokumen. Metode pengukuran akurasi eksternal yang digunakan adalah
confussion matrix. Tabel matriks konfusi merupakan tabel yang digunakan untuk
menghitung tingkat akurasi setiap cluster, dimana setiap anggota cluster dibandingkan dengan anggota cluster yang ideal Prasetyo E, 2012.
Perhitungannya adalah jumlah data benar yang dibagi dengan jumlah data.
32
3. BAB III
METODOLOGI PENELITIAN
Berdasar pada landasan teori yang telah disampaikan pada bab kedua di atas, pada bab ini akan membahas metodologi yang akan digunakan pada skripsi
ini. Bab ini berisi diagram blok, data, tatap muka pengguna dan evaluasi.
3.1 Data
Data yang digunakan adalah artikel yang bersumber dari majalah berbahasa Jawa Mekarsari, Praba, dan Djaka Lodhang yang terlebih dahulu
diubah menjadi dokumen berekstensi .txt . Data yang digunakan berjumlah 75 dokumen, dengan jumlah kata unik yang digunakan 2.358 kata.
3.1.1 Jenis Data
Jenis data yang diambil adalah artikel dari majalah Djaka Lodhang, Praba, dan Mekarsari diubah ke bentuk dokumen berkestensi .txt
. Data yang dipilih,
berasal dari tiga kelompok, yaitu pendidikan, kesehatan, dan ekonomi.
3.2 Teknik Analisis Data
Secara umum, sistem yang akan dibangun dalam penelitian ini adalah sebuah sistem dengan fungsi utama untuk melakukan pengelompokan dokumen
berbahasa Jawa. Dokumen yang akan dikelompokkan adalah artikel yang diambil dari majalah berbahasa Jawa yaitu Djaka Lodhang, Praba, dan Mekarsari. Proses
pengelompokan yang digunakan pada sistem ini adalah metode Hierarchical K Means
. Praktiknya, dokumen-dokumen yang akan dikelompokkan dijadikan sebagai arsip digital dengan ekstensi .txt. File teks inilah yang nantinya akan