Langkah K Means Clustering Hierarchical Clustering

20 Gambar 2.3 Ilustrasi Penentuan Keanggotaan Kelompok Berdasarkan Jarak Turban dkk, 2005 Cara untuk menemukan pusat yang paling sesuai sebagai upaya merepresentasikan posisi dari sebuah kelompok data terhadap kelompok data yang lainnya dilakukan sebuah proses perulangan. Proses perulangan ini dimulai dengan menentukan secara sembarang posisi dari pusat-pusat kelompok yang telah ditetapkan. Selanjutnya ditentukan keanggotaan setiap individu data berdasarkan jarak terpendek terhadap pusat-pusat tersebut. Pada iterasi kedua dan seterusnya dilakukan pembaharuan posisi pusat untuk semua kelompok. Langkah selanjutnya dilakukan pembaharuan keanggotaan untuk setiap kelompok.

2.2.1 Langkah K Means Clustering

Metode pengelompokkan K Means pada dasarnya melakukan dua proses yakni proses pendeteksian lokasi pusat cluster dan proses pencarian anggota dari tiap- 21 tiap cluster dan proses pencarian anggota dari tiap-tiap cluster. Proses Algoritma K Means sebagai berikut : 1. Tentukan K sebagai jumlah cluster yang ingin dibentuk. 2. Bangkitkan K centroid titik pusat cluster awal secara random. 3. Hitung jarak setiap data ke masing-masing centroid. 4. Setiap data memilih centroid yang terdekat. 5. Tentukan posisi centroid baru dengan cara menghitung nilai rata-rata dari data-data yang terletak pada centroid yang sama. 6. Kembali ke langkah 3 jika posisi centroid baru kurang dari centroids lama. Berdasarkan cara kerjanya Algoritma K Means memiliki karakteristik sebagai berikut : 1. K Means sangat cepat dalam proses clustering. 2. K Means sangat sensitif dalam proses pembangkitan centroid awal secara random . 3. Memungkinkan suatu cluster tidak mempunyai anggota. 4. Hasil clustering dengan K Means bersifat tidak unik. Proses pengelompokkan data ke dalam suatu cluster dapat dilakukan dengan cara menghitung jarak terdekat dari suatu data ke sebuah titik centroid. Rumus untuk menghitung jarak tersebut menggunakan euclidean matrix: 2.3 dimana: 22 g = 2, untuk menghitung jarak euclidean x i , x j adalah dua buah data yang akan dihitung jaraknya p = dimensi dari sebuah data Pembaharuan suatu titik centroid dapat dilakukan dengan rumus berikut: 2.4 dimana: µ k = titik centroid dari cluster ke-K N k = banyaknya data pada cluster ke-K x q = data ke-q pada cluster ke-K

2.2.2 Hierarchical Clustering

Metode agglomerative hierarchical clustering adalah metode yang menggunakan strategi disain bottom-up yang dimulai dengan meletakkan setiap obyek sebagai sebuah cluster tersendiri atomic cluster dan selanjutnya menggabungkan atomic cluster – atomic cluster tersebut menjadi cluster yang lebih besar dan lebih besar lagi sampai akhirnya semua obyek menyatu dalam sebuah cluster atau proses berhenti jika telah mencapai batasan kondisi tertentu Arai ,2007. Sebelum dibentuknya sebuah cluster perlu melalui langkah menghitung jarak antara obyek data untuk mengetahui kemiripan data. Salah satu cara yang 23 banyak digunakan adalah dengan perhitungan euclidean distance. Euclidean distance sendiri adalah: √ | | | | | | | | 2.5 dapat disederhanakan dengan: √∑ 2.6 Keterangan:  adalah jumlah atribut atau dimensi  dan adalah data Hierarchical clustering memiliki beberapa cara untuk perhitungan jarak antar cluster, di antaranya adalah single linkage, average linkage, dan complete linkage . Berikut ini adalah pendevinisian perhitungan jarak dengan cara single linkage : Perhitungan dengan teknik single linkage adalah untuk mencari jarak minimum antar cluster. Dengan single linkage jarak antara dua cluster didevinisikan sebagai berikut: 2.7 Keterangan: adalah jarak antara data dan y dari masing-masing cluster A dan B. Berdasarkan perhitungan rumus di atas akan didapatkan jarak antar cluster. Jarak minimum antar data yang ditemukan pertama akan menjadi cluster yang pertama. Perhitungan selanjutnya juga akan dilakukan untuk pembentukan cluster selanjutnya. Berdasarkan hasil perhitungan akan diperoleh dendrogram. 24 J a r a k 1 2 0,5 1,5 a b c e d f D a t a Gambar 2.4 Dendrogram Penggunaan metode hierarchical clustering untuk mengelompokkan n obyek data adalah sebagai berikut : 1. Hitung Matrik Jarak antar data. 2. Ulangi langkah 3 dan 4 higga hanya satu kelompok yang tersisa. 3. Gabungkan dua kelompok terdekat berdasarkan parameter kedekatan yang ditentukan. 4. Perbarui Matrik Jarak antar data untuk merepresentasikan kedekatan di antara kelompok baru dan kelompok yang masih tersisa. 5. Selesai. Sebagai contoh, terdapat beberapa data yang dapat dilihat pada tabel 2.4 di bawah ini. Data akan dibentuk dengan menggunakan hierarchical clustering dengan perhitungan kemiripan obyek data menggunakan euclidean distance dan perhiutngan jarak cluster dengan single linkage. 25 Tabel 2.4 Contoh Data Perhitungan hierarchical clustering Data X Y A 1 1 B 4 1 C 1 2 D 3 4 E 5 4 Dihitung dengan euclidean distance setiap obyek data tersebut dihitung jaraknya sebagai berikut: √ | | | | √ | | | | √ | | | | √ | | | | √ | | | | √ | | | | √ | | | | √ | | | | √ | | | | √ | | | | Berdasarkan perhitungan tersebut dapat dibentuk matriks jarak seperti seperti pada tabel 2.5. 26 Tabel 2.5 Matriks jarak A B C D E a 3 1 3.61 5 b 3 3.16 3.16 3.16 c 1 3.16 2.83 4.47 d 3.61 3.16 2.83 2 e 5 3.16 4.47 2  Single linkage Selanjutnya dari tabel 2.5 dapat dilihat jarak obyek data yang paling dekat, yaitu a dan c, berjarak 1. Kedua obyek data ini menjadi satu cluster pertama. Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari sisa yang ada b, d, e dan berada paling dekat dengan cluster ac. Untuk pencarian jarak ini pertama digunakan single linkage.    Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster ac, sehingga matriks jarak menjadi seperti berikut ini: 27 Tabel 2.6 Matriks Jarak Pertama single linkage Ac B d E Ac 3 2.83 4.47 B 3.16 3.16 D 2 E Berdasar pada matriks jarak kedua Tabel 2.6, dipilih kembali jarak terdekat antar cluster. Ditemukan cluster de yang paling dekat, yaitu bernilai 2. Kemudian dihitung jarak dengan cluster yang tersisa, ac, dan b.   Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster de, sehingga matriks jarak menjadi seperti berikut ini: Tabel 2.7 Matriks Jarak Kedua single linkage Ac b De Ac 3 2.83 B 3.16 De 28 Berdasar pada matriks jarak ketiga Tabel 2.7, dipilih kembali jarak terdekat antar cluster. Ditemukan cluster acde yang paling dekat, yaitu bernilai 2.83. Kemudian dihitung jarak dengan cluster yang tersisa, yaitu b.  Langkah selanjutnya yaitu menghapus dan menambahkan baris dan kolom untuk cluster acde baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster ac dan de, sehingga matriks jarak menjadi seperti berikut ini: Tabel 2.8 Matriks Jarak Ketiga single linkage acde B Acde 3 B Proses iterasi perhitungan jarak untuk pembentukan cluster sudah slesai karena cluster sudah tersisa satu. Jadi cluster acde dan b digabung menjadi satu, yaitu cluster acdeb dengan jarak terdekat adalah 3. Berikut ini adalah hasil dendrogram hasil hierarchical clustering dengan single linkage: 29 Gambar 2.5 Dendrogram single linkage untuk 5 obyek data 2.3 Hierarchical K Means Menurut eksperimen yang telah dilakukan, metode K Means sudah digunakan untuk metode pengelompokan data set. Hal itu dapat dibuktikan dengan prosentase eror yang minimal, namun seiring berjalannya waktu, eksperimen tentang clustering lebih berkembang dengan adanya metode Hierarichal K Means yang dapat menentukan centroid awal yang akan digunakan untuk clustering pada metode K Means. Ternyata metode Hierarichal K Means dapat mengatasi pemilihan centroid secara random yang memikiki tingkat eror lebih besar dan dalam penggunannya dianggap kurang praktis karena harus melakukan beberapa eksperimen dalam menentukan centroid awal yang tepat. Harapannya dengan diterapkan Hierarichal K Means dapat meningkatkan akurasi dan menurunkan prosentasi erornya, disebutkan dalam penelitian, ternyata eror pada metode K Means dengan centroid random sebesar 32.5236, sedangkan dengan metode Hierarichal K Means erornya dapat diminimalisir menjadi 29.7753 Arai ,2007. 30 Berikut adalah langkah dalam menentukan centoid awal dengan menggunakan hierarchical K Means : 1. Set X ={x i | i =1, ..., r} i setiap data A, dimana A {a i | i= 1, ..., n} dengan n-dimensi vektor. 2. Set K sebagai jumlah _ cluster yang telah ditetapkan. 3. Tentukan p sebagai banyaknya perhitungan 4. Set i = 1 sebagai counter awal 5. Terapkan algoritma K Means. 6. Catat hasil centroid hasil Clustering sebagai Ci = {i j | j = 1, ..., K} 7. Tambahkan i = i + 1 8. Ulangi dari langkah 5 saat i p. 9. Asumsikan C = {Ci | i = 1, ..., p} sebagai satu set data baru, dengan K sebagai nomor _ cluster yang telah ditetapkan 10. Terapkan algoritma hirarki single linkage 11. Catat hasil centroid Clustering sebagai D = {di | i = 1, ..., K} Langkah berikutnya adalah menerapkan D = {di | i = 1, ..., K} sebagai pusat klaster awal untuk K Means. Penggunaan algoritma hirarki untuk menemukan centroid awal dipilih single linkage, karena single linkage penerapannya mudah selain itu ternyata tidak ada perbedaan signifikan dibandingkan dengan average maupun complete linkage Arai, 2007. 2.3. Evaluasi Berkaitan dengan evaluasi yang digunakan pada penelitian ini, digunakan dua jenis evaluasi. Evaluasi yang digunakan adalah evaluasi internal dan 31 eksternal. Evaluasi yang pertama adalah evaluasi internal sistem, dimana berfungsi untuk mengukur kinerja K Means clustering ini menggunakan Sum Square Erorr SSE. Evaluasi bertujuan untuk menilai kualitas cluster yang dibuat. Kinerja sistem yang dievaluasi dengan menghitung nilai akurasi, dari perhitungan akurasi akan diketahui sejauh mana metode K Means dapat mengelompokkan dokumen apa topik artikel Berbahasa Jawa. Semakin kecil nilai SSE semakin baik hasil cluster yang dibuat. ∑ ∑ || || 2.8 Keterangan:  adalah jarak data di indeks  adalah rata-rata semua jarak data di cluster Evaluasi yang diterapkan berikutnya adalah evaluasi yang berkaitan dengan eksternal sistem, yaitu mengukur akurasi dari pengelompokkan dokumen hasil dari internal evaluasi. Langkah yang dilakukan adalah membandingkan setiap anggota cluster dengan manual pengelompokkan yang sudah dibuat, dalam hal ini sudah ditentukan pembagian cluster dokumen berdasarkan topik ekonomi, kesehatan, dan pendidikan, dimana masing-masing kelompok beranggotakan 25 dokumen. Metode pengukuran akurasi eksternal yang digunakan adalah confussion matrix. Tabel matriks konfusi merupakan tabel yang digunakan untuk menghitung tingkat akurasi setiap cluster, dimana setiap anggota cluster dibandingkan dengan anggota cluster yang ideal Prasetyo E, 2012. Perhitungannya adalah jumlah data benar yang dibagi dengan jumlah data. 32

3. BAB III

METODOLOGI PENELITIAN Berdasar pada landasan teori yang telah disampaikan pada bab kedua di atas, pada bab ini akan membahas metodologi yang akan digunakan pada skripsi ini. Bab ini berisi diagram blok, data, tatap muka pengguna dan evaluasi.

3.1 Data

Data yang digunakan adalah artikel yang bersumber dari majalah berbahasa Jawa Mekarsari, Praba, dan Djaka Lodhang yang terlebih dahulu diubah menjadi dokumen berekstensi .txt . Data yang digunakan berjumlah 75 dokumen, dengan jumlah kata unik yang digunakan 2.358 kata.

3.1.1 Jenis Data

Jenis data yang diambil adalah artikel dari majalah Djaka Lodhang, Praba, dan Mekarsari diubah ke bentuk dokumen berkestensi .txt . Data yang dipilih, berasal dari tiga kelompok, yaitu pendidikan, kesehatan, dan ekonomi.

3.2 Teknik Analisis Data

Secara umum, sistem yang akan dibangun dalam penelitian ini adalah sebuah sistem dengan fungsi utama untuk melakukan pengelompokan dokumen berbahasa Jawa. Dokumen yang akan dikelompokkan adalah artikel yang diambil dari majalah berbahasa Jawa yaitu Djaka Lodhang, Praba, dan Mekarsari. Proses pengelompokan yang digunakan pada sistem ini adalah metode Hierarchical K Means . Praktiknya, dokumen-dokumen yang akan dikelompokkan dijadikan sebagai arsip digital dengan ekstensi .txt. File teks inilah yang nantinya akan