7
Titik pusat awal k buah gerombol dipilih secara acak pada pertama kali, selanjutnya dilakukan proses iterasi yang mana pada setiap iterasi dibentuk
penggerombolan berdasarkan jarak Euclidian terdekat ke pusat gerombol. Jadi pada setiap iterasi pusat gerombol akan berubah. Proses iterasi akan berhenti bila rata-rata
gerombol lebih kecil dari batas perubahan yang ditentukan, atau banyaknya iterasi telah melampaui batasan maksimum Adenberg 1973. Secara umum, metode k-
rataan menghasilkan tepat k gerombol yang memiliki perbedaan keragaman terbesar
1
. Garson 2006 mengemukakan bahwa metode k-rataan cocok untuk digunakan pada
data berukuran besar misal lebih dari 200 individu.
TwoStep Cluster
Algoritma TwoStep Cluster dikembangkan oleh Chiu, Fang, Chen, Wang, dan Jeris 2001 untuk analisis pada gugus data yang besar. Prosedurnya terdiri dari dua
langkah Chiu et al. 2001, SPSS 2004, yaitu :
1. Penggerombolan Awal Pre-Clustering
Tujuan penggerombolan awal pre-clustering adalah untuk memasukkan data matriks baru dengan objek yang lebih sedikit pada langkah selanjutnya. Langkah
penggerombolan awal menggunakan pendekatan penggerombolan secara sekuensial Theodoridis Koutroumbas 1999. Pendekatan ini menelusuri scan vektor data
individu record satu per satu dan memutuskan apakah vektor data yang bersangkutan akan digabung dengan gerombol yang telah terbentuk sebelumnya atau
memulai gerombol yang baru berdasarkan kriteria jarak yang telah ditetapkan.
___________________________________________
1
http:www.statsoft.comtextbookstcluan.htmlgeneral
8
Prosedur tersebut diimplementasikan dengan membentuk Cluster Feature tree Zhang et al. 1996, pada penulisan ini diterjemahkan sebagai “pohon ciri gerombol”.
Pohon ciri gerombol terdiri dari beberapa tingkatan cabang nodes dan masing- masing cabang berisikan individu data entries. Individu yang terdapat pada cabang
yang berisikan individu rujukan disebut Leaf Entry, merepresentasikan anak- gerombol sub-cluster dari gerombol rujukan awal. Cabang-cabang yang bukan
menjadi rujukan non-leaf nodes beserta individu di dalamnya akan mengarahkan vektor individu baru ke dalam cabang yang tepat secara cepat. Sebagai contoh, SPSS
memberikan nilai default untuk banyaknya tingkat cabang maksimum maximum levels of nodes=3 dan banyaknya entries per nodes maksimum 8 sehingga
banyaknya leaf entries maksimum sebanyak 8
3
= 512 anak-gerombol SPSS Technical Guide 2001.
Suatu pohon ciri gerombol CF tree dengan informasi banyaknya individu pada pohon gerombol yang bersangkutan, nilai tengah dan ragam setiap peubah
kontinu, serta frekuensi masing-masing kategori untuk peubah kategorik mencirikan setiap anak-gerombol entries. Setiap vektor individu record yang berurutan,
secara rekursif diarahkan untuk menemukan anak cabang terdekat, untuk menjadi daun pada pohon yang bersangkutan. Bila vektor individu yang bersangkutan terletak
pada wilayah jarak penerimaan threshold distance dari dahan terdekat leaf entry, dahan tersebut akan memasukkan individu yang bersangkutan menjadi anggota anak
gerombol, kemudian merubah informasi pohon ciri gerombol dari dahan. Bila vektor individu terletak di luar wilayah jarak penerimaan, individu tersebut akan menjadi
cikal bakal dahan yang baru pada cabang yang bersesuaian. Bila suatu cabang tidak lagi memiliki ruang untuk menambah daun baru entries, maka cabang tersebut akan
dipecah menjadi dua. Jika dimisalkan pada sebuah pohon, dari satu dahan kemudian membelah menjadi dua dahan. Individu- individu yang terdapat pada cabang
sebelumnya akan dipecah menjadi 2 kelompok dengan menggunakan 2 titik rujukan yang paling berjauhan, kemudian individu lainnya akan disebarkan berdasarkan
kriteria kedekatan. Proses ini akan berlanjut sampai seluruh individu terolah secara lengkap.
9
Jika CF tree berkembang melewati batas ukuran maksimum yang telah ditetapkan, maka CF tree yang telah ada akan dibangun ulang dengan cara
meningkatkan kriteria ukuran penerimaan. CF tree yang melewati batas biasanya dikarenakan pada saat proses algoritma CF tree ini dijalankan, terbentuk daun entri
yang beranggotakan pencilan outlier. Pencilan pada analisis TwoStep Cluster adalah data yang tidak dapat dimasukkan pada gerombol manapun. Pada saat CF tree
akan dibangun ulang, maka akan diperiksa daun entri yang berpote nsi sebagai pencilan. Daun entri yang terdeteksi beranggotakan pencilan merupakan daun entri
yang jumlah anggotanya kurang dari fraksi ukuran gerombol yang memiliki jumlah paling besar yang telah ditetapkan. Pada saat pembangunan ulang, daun entri yang
berpotensi sebagai pencilan disimpan. Setelah CF tree dibangun ulang, maka satu per satu data dalam daun entri yang berpotensi sebagai pencilan dimasukkan ke dalam
CF tree yang baru tanpa mengubah ukuran CF tree tersebut. Jika masih ada data yang tidak masuk ke dalam daun entri manapun, maka data tersebut dikatakan sebagai
pencilan. Data-data yang dideteksi sebagai pencilan dimasukkan ke dalam satu gerombol.
Pada diagram algoritma CF tree yang disajikan pada Gambar 1, maksimum depth dan maksimum nodes yang digunakan yaitu masing- masing 3, sehingga daun
entri anak gerombol yang terbentuk adalah sebanyak 3
3
atau 27 anak gerombol, sedangkan pada penelitian ini sesuai dengan default dari program SPSS maksimum
depth sama dengan 3 dan maksimum nodes 8. Menurut Bacher, Wenzig, dan Vogler 2004, hasil penggerombolan awal
bergantung pada urutan dari objekindividu yang disusun pada matriks data. Oleh karena itu, SPSS 2001:2 merekomendasikan untuk menggunakan urutan data secara
acak.
10
?
Rebuild Re bu ild
N o d e
Le a f
Thr e shold dist a nce
Pr e - Clu st e r in g
Re b u ild Re b u ild
Re b u ild
Pr e- Clu st e r in g
Gambar 1. Diagram pembentukan CF tree pada TwoStep Cluster
11
2. Penggerombolan Individu Objek Step 2 Cluster