Two Step Clustering TINJAUAN PUSTAKA

Untuk menghitung centroid titik pusat gerombol V, untuk setiap gerombol digunakan rumus sebagai berikut: ∑ ∑ = = = N k m ik N k kj m ik ij x v 1 1 μ μ dengan: m : pembobot eksponen : fungsi keanggotaan objek ke-k ke gerombol ke-i x kj : objek ke-k gerombol ke-j Sedangkan untuk menghitung fungsi keanggotaan objek ke-k ke gerombol ke-i digunakan rumus sebagai berikut: | | ∑ = c j 1 dengan: : fungsi keanggotaan objek ke-k ke gerombol ke-i x k : objek ke-k v i : nilai centroid cluster ke-i v j : rata-rata centroid cluster ke-j m : pembobot eksponen

2.7 Two Step Clustering

Metode two step cluster adalah metode yang didesain untuk menangani jumlah objek yang besar, terutama pada masalah objek yang mempunyai peubah kontinu dan kategorik. Prosedur penggerombolan dengan metode two step cluster mempunyai dua tahapan yaitu tahap preclustering penggerombolan awal objek ke dalam subcluster-subcluster kecil dan tahap penggerombolan akhir. Langkah 1: Penggerombolan Awal Preclustering Menurut Anonimous 2001 tahap penggerombolan awal dilakukan dengan pendekatan sekuensial, yaitu objek diamati satu persatu berdasarkan ukuran jarak yang kemudian ditentukan apakah objek tersebut masuk dalam gerombol yang telah terbentuk atau harus membentuk gerombol baru. Pada langkah ini diimplementasikan dengan pembentukan cluster features CF Tree. Cluster f c D D V C r k k b c a a m p a m a t m future itu se cluster. Definisi Diberikan N Vektor clu CF= N,M,V rata-rata dar kontinu pad kategorik. CF Tr branching fa CF Tre cabang beri atau daun e subcluster-s awal secara menggunaka pada daerah anak geromb maka amata akan menjad tempat untu menjadi dua ndiri adalah N titik objek ustering fea V,K dimana ri peubah ko da N objek ree adalah k actor B dan ee terdiri da sikan indivi entri yang t subcluster . acak yang a an ukuran j penerimaan bol. Jika be an tersebut a di cikal baka uk menamba a. Proses in kesimpulan k d dimensi ature dari N adalah b ontinu dari N k, dan K a keseimbanga n threshold Gambar ari beberapa idu objek e terdapat pad Prosedur CF akan diukur arak yang t n threshold esarnya jarak akan masuk al daun entr h daun entri ni akan ber n dari inform i pada suatu cluster d banyaknya o N objek, V a adalah bany an tinggi po T. 1 Contoh C tingkatan c entries dari da cabang m F Tree dilak jaraknya sa telah ditentu distance , m k terletak di ke dalam g i yang baru. i yang baru, rlanjut samp masi yang di u cluster didefinisikan objek pada c adalah varia yaknya taraf ohon dengan CF Tree abang node i gerombol merepresenta kukan denga atu persatu d ukan. Jika b maka amatan i luar wilaya gerombol yan . Jika suatu , maka caba pai semua a kumpulkan dimana i = n sebagai cluster , M m ansi dari seti f pada setia n dua param es dan masi awal. Tingk asikan anak an memilih s dengan amat besarnya jar n akan menja ah daerah p ng telah dib cabang tidak ang daun ak amatan tero pada suatu = 1,2,…,N. quadriple : menyatakan iap peubah ap peubah meter yaitu ing-masing katan daun k gerombol atu amatan tan lainnya ak terletak adi anggota enerimaan, bentuk atau k memiliki an dipecah olah secara lengkap. Jika CF Tree berkembang melewati batas ukuran maksimum yang telah ditetapkan, maka CF Tree akan dibangun ulang dengan cara meningkatkan kriteria batas penerimaan. Pemilihan kriteria batas penerimaan yang bagus dapat mengurangi banyaknya CF Tree yang dibangun ulang. Langkah 2: Penggerombolan akhir Pada langkah ini, hasil dari CF Tree digerombolkan dengan analisis gerombol hierarki dengan metode agglomerative, yaitu dimulai dengan n gerombol yang masing-masing beranggotakan satu objek, kemudian dua gerombol yang paling dekat digabung dan ditentukan kembali kedekatan antar gerombol yang baru. Untuk menghitung banyaknya gerombol dapat dilakukan dengan dua tahapan, yang pertama menghitung schwarz’s bayesian criterion BIC atau akaike’s information criterion AIC untuk tiap gerombol. Rumus BIC dan AIC untuk gerombol J adalah sebagai berikut: log dimana log log Solusi gerombol yang terbaik jika memiliki BIC terkecil, tetapi pada beberapa kasus terdapat nilai BIC semakin meningkat jika jumlah gerombol semakin meningkat. Jika terdapat kasus demikian maka diperlukan identifikasi solusi gerombol terbaik oleh rasio perubahan BIC dan rasio peubahan jarak. Tahap kedua digunakan kriteria perubahan rasio jarak untuk k buah gerombol, Rk, yang didefinisikan sebagai: R k = l v-1 l v 2.14 d k = l v-1 -l v 2.15 dimana: l v = m v log n – BIC v 2 atau l v = 2m v log n – AIC v 2 v = k,k-1 dengan: R k : rasio perubahan jarak d k-1 : jarak jika k gerombol digabungkan dengan k-1 gerombol 2.8 Variansi Gerombol Pada dasarnya variansi pada penggerombolan dapat dibedakan menjadi dua yaitu: variansi didalam gerombol variance within cluster dan variansi antar gerombol variance between cluster. Beberapa definisi variasi, yaitu: 1. Variansi Total Jumlah total kuadrat selisih objek dengan rata-rata total seluruh objek, yaitu: dimana dengan: x ij : objek ke-i pada gerombol ke j k : banyaknya gerombol : rata-rata total seluruh objek N : banyaknya objek 2 Variansi antar Kelompok Jumlah total kuadrat selisih rata-rata tiap objek terhadap rata-rata total, yaitu: dengan: x ij : objek ke-i pada gerombol ke j n j : banyaknya objek pada gerombol j : rata-rata total seluruh objek 3. Variansi dalam Kelompok Jumlah total kuadrat selisih objek dengan rata-rata objek yang terkait, yaitu: . dengan: x ij : objek ke-i pada gerombol ke j n j : banyaknya objek pada gerombol j . rata-rata objek pada gerombol j Khusus untuk fuzzy, apabila terdapat objek x i dengan i = 1,2, … , n, dengan derajat keanggotaan pada kelompok fuzzy B adalah , dan terdapat j kelompok fuzzy dengan j= 1,2 , …, k, maka dapat didefinisikan: dimana Total variansi T, variansi antar fuzzy kelompok B, dan variansi dalam suatu fuzzy kelompok W dapat di definisikan sebagai berikut: Seperti yang telah disebutkan di atas, hasil penggerombolan yang baik adalah jika anggota setiap gerombol memiliki tingkat kemiripan yang tinggi satu sama lain yang diukur dengan rata-rata jumlah kuadrat dalam gerombol means squares of within cluster dan memiliki tingkat kemiripan yang rendah dengan anggota dari gerombol lain yang diukur dengan rata-rata jumlah kuadrat antar gerombol means squares of between cluster. Rata-rata jumlah kuadrat dalam gerombol means squares of within cluster didefinisikan sebagai berikut : . . dengan: x ij : objek ke-i pada gerombol ke j . rata-rata dari objek pada gerombol j k : jumlah gerombol n : jumlah objek Rata-rata jumlah kuadrat antar gerombol means squares of between cluster didefinisikan sebagai berikut: . dengan: x ij : objek ke-i pada gerombol ke j n j : banyaknya objek pada gerombol j . : rata-rata objek pada gerombol j : rata-rata total seluruh objek Gerombol yang ideal mempunyai rata-rata jumlah kuadrat dalam gerombol minimum yang merepresentasikan internal homogenity dan rata-rata jumlah kuadrat antar gerombol maksimum yang menyatakan external homogenity.

BAB III METODE PENELITIAN