Penggerombolan Awal Pre-Clustering Pengkajian Keakuratan Twosteo cluster dalam Menentukan Banyaknya Gerombol Populasi

7 Titik pusat awal k buah gerombol dipilih secara acak pada pertama kali, selanjutnya dilakukan proses iterasi yang mana pada setiap iterasi dibentuk penggerombolan berdasarkan jarak Euclidian terdekat ke pusat gerombol. Jadi pada setiap iterasi pusat gerombol akan berubah. Proses iterasi akan berhenti bila rata-rata gerombol lebih kecil dari batas perubahan yang ditentukan, atau banyaknya iterasi telah melampaui batasan maksimum Adenberg 1973. Secara umum, metode k- rataan menghasilkan tepat k gerombol yang memiliki perbedaan keragaman terbesar 1 . Garson 2006 mengemukakan bahwa metode k-rataan cocok untuk digunakan pada data berukuran besar misal lebih dari 200 individu. TwoStep Cluster Algoritma TwoStep Cluster dikembangkan oleh Chiu, Fang, Chen, Wang, dan Jeris 2001 untuk analisis pada gugus data yang besar. Prosedurnya terdiri dari dua langkah Chiu et al. 2001, SPSS 2004, yaitu :

1. Penggerombolan Awal Pre-Clustering

Tujuan penggerombolan awal pre-clustering adalah untuk memasukkan data matriks baru dengan objek yang lebih sedikit pada langkah selanjutnya. Langkah penggerombolan awal menggunakan pendekatan penggerombolan secara sekuensial Theodoridis Koutroumbas 1999. Pendekatan ini menelusuri scan vektor data individu record satu per satu dan memutuskan apakah vektor data yang bersangkutan akan digabung dengan gerombol yang telah terbentuk sebelumnya atau memulai gerombol yang baru berdasarkan kriteria jarak yang telah ditetapkan. ___________________________________________ 1 http:www.statsoft.comtextbookstcluan.htmlgeneral 8 Prosedur tersebut diimplementasikan dengan membentuk Cluster Feature tree Zhang et al. 1996, pada penulisan ini diterjemahkan sebagai “pohon ciri gerombol”. Pohon ciri gerombol terdiri dari beberapa tingkatan cabang nodes dan masing- masing cabang berisikan individu data entries. Individu yang terdapat pada cabang yang berisikan individu rujukan disebut Leaf Entry, merepresentasikan anak- gerombol sub-cluster dari gerombol rujukan awal. Cabang-cabang yang bukan menjadi rujukan non-leaf nodes beserta individu di dalamnya akan mengarahkan vektor individu baru ke dalam cabang yang tepat secara cepat. Sebagai contoh, SPSS memberikan nilai default untuk banyaknya tingkat cabang maksimum maximum levels of nodes=3 dan banyaknya entries per nodes maksimum 8 sehingga banyaknya leaf entries maksimum sebanyak 8 3 = 512 anak-gerombol SPSS Technical Guide 2001. Suatu pohon ciri gerombol CF tree dengan informasi banyaknya individu pada pohon gerombol yang bersangkutan, nilai tengah dan ragam setiap peubah kontinu, serta frekuensi masing-masing kategori untuk peubah kategorik mencirikan setiap anak-gerombol entries. Setiap vektor individu record yang berurutan, secara rekursif diarahkan untuk menemukan anak cabang terdekat, untuk menjadi daun pada pohon yang bersangkutan. Bila vektor individu yang bersangkutan terletak pada wilayah jarak penerimaan threshold distance dari dahan terdekat leaf entry, dahan tersebut akan memasukkan individu yang bersangkutan menjadi anggota anak gerombol, kemudian merubah informasi pohon ciri gerombol dari dahan. Bila vektor individu terletak di luar wilayah jarak penerimaan, individu tersebut akan menjadi cikal bakal dahan yang baru pada cabang yang bersesuaian. Bila suatu cabang tidak lagi memiliki ruang untuk menambah daun baru entries, maka cabang tersebut akan dipecah menjadi dua. Jika dimisalkan pada sebuah pohon, dari satu dahan kemudian membelah menjadi dua dahan. Individu- individu yang terdapat pada cabang sebelumnya akan dipecah menjadi 2 kelompok dengan menggunakan 2 titik rujukan yang paling berjauhan, kemudian individu lainnya akan disebarkan berdasarkan kriteria kedekatan. Proses ini akan berlanjut sampai seluruh individu terolah secara lengkap. 9 Jika CF tree berkembang melewati batas ukuran maksimum yang telah ditetapkan, maka CF tree yang telah ada akan dibangun ulang dengan cara meningkatkan kriteria ukuran penerimaan. CF tree yang melewati batas biasanya dikarenakan pada saat proses algoritma CF tree ini dijalankan, terbentuk daun entri yang beranggotakan pencilan outlier. Pencilan pada analisis TwoStep Cluster adalah data yang tidak dapat dimasukkan pada gerombol manapun. Pada saat CF tree akan dibangun ulang, maka akan diperiksa daun entri yang berpote nsi sebagai pencilan. Daun entri yang terdeteksi beranggotakan pencilan merupakan daun entri yang jumlah anggotanya kurang dari fraksi ukuran gerombol yang memiliki jumlah paling besar yang telah ditetapkan. Pada saat pembangunan ulang, daun entri yang berpotensi sebagai pencilan disimpan. Setelah CF tree dibangun ulang, maka satu per satu data dalam daun entri yang berpotensi sebagai pencilan dimasukkan ke dalam CF tree yang baru tanpa mengubah ukuran CF tree tersebut. Jika masih ada data yang tidak masuk ke dalam daun entri manapun, maka data tersebut dikatakan sebagai pencilan. Data-data yang dideteksi sebagai pencilan dimasukkan ke dalam satu gerombol. Pada diagram algoritma CF tree yang disajikan pada Gambar 1, maksimum depth dan maksimum nodes yang digunakan yaitu masing- masing 3, sehingga daun entri anak gerombol yang terbentuk adalah sebanyak 3 3 atau 27 anak gerombol, sedangkan pada penelitian ini sesuai dengan default dari program SPSS maksimum depth sama dengan 3 dan maksimum nodes 8. Menurut Bacher, Wenzig, dan Vogler 2004, hasil penggerombolan awal bergantung pada urutan dari objekindividu yang disusun pada matriks data. Oleh karena itu, SPSS 2001:2 merekomendasikan untuk menggunakan urutan data secara acak. 10 ? Rebuild Re bu ild N o d e Le a f Thr e shold dist a nce Pr e - Clu st e r in g Re b u ild Re b u ild Re b u ild Pr e- Clu st e r in g Gambar 1. Diagram pembentukan CF tree pada TwoStep Cluster 11

2. Penggerombolan Individu Objek Step 2 Cluster