Pengkajian Keakuratan Twosteo cluster dalam Menentukan Banyaknya Gerombol Populasi
MENENTUKAN BANYAKNYA GEROMBOL POPULASI
KUDSIATI
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR
BOGOR 2006
(2)
Dengan ini saya menyatakan bahwa tesis Pengkajian Keakuratan TwoStep Cluster
dalam Menentukan Banyaknya Gerombol Populasi adalah karya saya sendiri dan belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam daftar pustaka dibagian akhir tesis ini.
Bogor, September 2006
Kudsiati
(3)
KUDSIATI. Pengkajian Keakuratan TwoStep Cluster dalam Menentukan Banyaknya Gerombol Populasi. Dibimbing oleh BAMBANG JUANDA dan ITASIA DINA SULVIANTI.
Algoritma analisis gerombol seperti metode penggerombolan hirarki dan k-rataan tidak dapat menangani peubah (atribut) campuran kategorik dan numerik, serta penentuan banyaknya gerombol. Metode TwoStep Cluster (Chiu et al. 2001) dapat menangani peubah campuran kategorik dan numerik dan penentuan banyaknya gerombol secara objektif (otomatis).
Penelitian ini mengevaluasi keakuratan TwoStep Cluster dalam menghasilkan banyaknya gerombol dan ukuran gerombol yang sama dengan populasi yang sebenarnya. Perbandingan struktur gerombol dalam populasi hipotetik dengan hasil penduga banyaknya gerombol yang dihasilkan dari algoritma TwoStep Cluster dapat diperoleh dengan studi simulasi.
Algoritma TwoStepCluster sangat akurat dalam menduga banyaknya gerombol dan sebaran ukuran gerombol sebenarnya jika semua peubah kontinu. Transformasi peubah kategorik ke dalam bentuk biner dan memperlakukannya sebagai peubah numerik meningkatkan keakuratan TwoStep Cluster dalam menduga banyaknya gerombol, bilamana peubah kriteria penggerombolan merupakan peubah campuran. Selain itu TwoStep Cluster juga sangat akurat dalam menghasilkan gerombol yang sama dengan populasi sebenarnya pada kasus-kasus data yang terpisah secara tegas, atau setidaknya terlihat adanya perbedaan penggerombolan pada data yang dianalisis.
(4)
MENENTUKAN BANYAKNYA GEROMBOL POPULASI
KUDSIATI
Tesis
sebagai salah satu syarat memperoleh gelar Magister Sains pada
Program Studi Statistika
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR
BOGOR 2006
(5)
Nama : Kudsiati NIM : G151020151
Disetujui Komisi Pembimbing
Dr. Ir. Bambang Juanda, M.S. Ir. Itasia Dina Sulvianti, M.Si. Ketua Anggota
Diketahui
Ketua Program Studi Statistika Dekan Sekolah Pascasarjana
Dr. Ir. Aji Hamim Wigena, M.Sc. Prof. Dr. Ir. Khairil A. Notodiputro, M.S.
(6)
Puji dan syukur penulis panjatkan kepada Allah SWT atas rahmat dan karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Judul yang dipilih dalam penelitian ini adalah Pengkajian Keakuratan TwoStep Cluster dalam Menentukan Banyaknya Gerombol Populasi.
Terima kasih penulis sampaikan kepada berbagai pihak yang telah membantu penyelesaian karya ilmiah ini, antara lain :
1. Bapak Dr. Ir. Bambang Juanda, M.S. dan Ibu Ir. Itasia Dina Sulvianti, M.Si. atas segala bimbingan dan arahannya.
2. Suami Satrio Wiseno serta anak tercinta Haikal Fadlurrahman, atas doa dan dukungan yang telah memperlancar selesainya karya ilmiah ini.
3. Seluruh Staf Departemen Statistika IPB, atas kesempatan dan ilmu yang diberikan selama penulis menuntut ilmu di Departemen Statistika IPB.
4. Rekan-rekan di GRP, terima kasih atas bantuan yang telah diberikan kepada penulis.
Akhirnya sebagaimana manusia yang tidak pernah luput dari kesalahan, penulis mohon maaf apabila ada kesalahan dalam penulisan ini dan semoga karya ilmiah ini dapat bermanfaat.
Bogor, September 2006
Kudsiati
(7)
Penulis dilahirkan di Jakarta pada tanggal 26 Agustus 1964, anak kedelapan dari 11 bersaudara, dari ayah H.Usman (Alm) dan ibu Hj. Tarbiah.
Tahun 1987 penulis lulus dari program sarjana IPB Jurusan Statistika. Pada tahun 2002 penulis diterima pada Program Pascasarjana IPB Program Studi Statistika. Pada tahun 1988 s/d 2000 penulis bekerja di Bank Duta dan sejak bulan Januari 2001 sampai saat ini bekerja pada PT. Grup Riset Potensial.
(8)
DAFTAR ISI
Halaman
DAFTAR TABEL... viiii
DAFTAR GAMBAR ...ix
PENDAHULUAN...1
Latar Belakang ...1
Tujuan Penelitian...2
TINJAUAN PUSTAKA...4
Metode Penggerombolan Berhirarki...5
Metode Penggerombolan K-rataan...6
TwoStep Cluster...7
1. Penggerombolan Awal (Pre-Clustering) ...7
2. Penggerombolan Individu Objek ( Step 2 Cluster)...11
3. Konsep Jarak ...11
4. Penentuan Banyaknya Gerombol...12
5. Langkah Penetapan Keanggotaan Gerombol dan Penanganan Pencilan...13
BAHAN DAN METODE ...15
Bahan...15
Model Populasi Hipotetik ...15
Model Komposisi Peubah yang Dianalisis ...16
Data Hipotetik ...17
Metode ...19
Metode Pembangkitan Data ...19
Prosedur Pembangkitan Data ...23
Opsi Penanganan Pencilan dan Tanpa Penanganan Pencilan ...24
Metode Analisis ...25
(9)
Halaman
HASIL DAN PEMBAHASAN ...28
Kasus Data Homogen...28
Kasus Data Berasal dari Populasi yang Terbedakan...30
Kasus Populasi yang Saling Tumpang Tindih ...34
Perbandingan dengan Metode Hirarkidan K-rataan...39
SIMPULAN DAN SARAN ...45
Simpulan...45
Saran...45
DAFTAR PUSTAKA ...47
LAMPIRAN ...50
Lampiran 1. Tahapan analisis TwoStep Cluster dengan SPSS...51
(10)
DAFTAR TABEL
Halaman Tabel 1. Kombinasi parameter model data hipotetik yang akan dibangkitkan--- 18 Tabel 2. Persentase ketepatan banyaknya gerombol hasil olahan algoritma
TwoStep Cluster dengan gerombol populasi sebenarnya pada kasus
data homogen --- --- 29 Tabel 3. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep
Cluster dengan gerombol populasi sebenarnya pada kasus data homogen --- --- -- 30 Tabel 4. Persentase ketepatan banyaknya gerombol hasil olahan algoritma
TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan --- 32 Tabell5. Persentase kesesuaian ukuran gerombol hasil olahan algoritma
TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan --- 33 Tabel 6. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep
Cluster dengan gerombol populasi sebenarnya, pada kasus data
berasal dari populasi yang terbedakan --- 35 Tabel 7. Persentase ketepatan ukuran gerombol hasil olahan algoritma
TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus
data berasal dari populasi yang tumpang tindih --- 36 Tabel 8. Persentase kesesuaian ukuran gerombol hasil olahan algoritma
TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus
data berasal dari populasi yang tumpang tindih --- 37 Tabel 9. Persentase salah klasifikasi gerombol hasil olahan algoritma
TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus
(11)
Halaman Tabel 10. Perbandingan metode penggerombolan hirarki, k-rataan, dan
TwoStep Cluster--- 40
Tabel 11. Perbandingan persentase kesesuaian sebaran ukuran gerombol hasil olahan metode hirarki, k-rataan, dan TwoStep Cluster (hasil 100 kali simulasi)--- 43
Tabel 12. Perbandingan persentase salah klasifikasi individu pada populasi dengan yang dihasilkan oleh metode hirarki, k-rataan, dan TwoStep Cluster (hasil 100 kali simulasi) --- 44
DAFTAR GAMBAR
Halaman Gambar 1. Diagram pembentukan CF tree pada TwoStep Cluster --- 10Gambar 2. Sebaran Populasi Tunggal, N (0,1) --- 19
Gambar 3. Sebaran model 2 populasi dengan pemisahan tidak tegas--- 20
Gambar 4. Sebaran model 2 populasi dengan pemisahan yang tegas--- 20
Gambar 5. Sebaran model 3 populasi dengan pemisahan yang tegas--- 21
Gambar 6. Sebaran model 5 populasi dengan 3 gerombol terpisah secara tegas dan 2 gerombol saling tumpang tindih dengan lainnya --- 22
(12)
PENDAHULUAN
Latar Belakang
Dalam riset pemasaran, segmentasi pelanggan merupakan topik yang paling banyak diterapkan. Pada dasarnya segmentasi pelanggan adalah pengelompokan pelanggan baik atas dasar karakteristik individu (sosio-demografik), gaya hidup (life style), psikografik, atau kebutuhan pelanggan (Kotler 2000 serta Kotabe & Helsen 2001). Segmentasi pelanggan merupakan hal yang sangat penting untuk merancang berbagai strategi pemasaran (Porter 1980 & Aaker 2001), karena pada situasi pasar yang kompetitif, jika mengambil pasar yang umum (mass market) maka akan sulit bersaing atau menjadi tidak fokus, sehingga biaya pemasaran yang dikeluarkan menjadi mahal.
Selama ini khususnya di Indonesia, alat analisis statistika untuk segmentasi pelanggan yang biasa digunakan adalah analisis gerombol (Kasali 1998 ). Permasalahan utama dalam penerapan analisis gerombol pada data-data riset pemasaran adalah peubah kriteria penggerombolan sebagai dasar segmentasi bersifat kategorik maupun campuran kategorik dan numerik (Aaker & Day 1990), sedangkan algoritma -algoritma analisis gerombol konvensional seperti metode penggerombolan berhirarki (aglomeratif) dikembangkan untuk peubah-peubah numerik berskala interval atau ordinal, walaupun telah tersedia pilihan berbagai konsep jarak untuk peubah biner seperti konsep jarak Russel & Rao, Simple Matching, Jaccard, Dice, Sokal & Sneeath dan sebagainya (Dillon and Goldstein, 1984). Sementara itu, metode k-rataan (k-means) mensyaratkan peubah kriteria penggerombolan berskala interval.
Per masalahan kedua dalam penggunaan analisis gerombol untuk segmentasi pelanggan adalah dalam penentuan banyaknya gerombol. Pada analisis gerombol konvensional, seperi metode berhirarki maupun k-rataan, penentuan banyaknya gerombol sangat ditentukan oleh subyektivitas peneliti, tidak ada uji statistik untuk mengetahui ketepatan banyaknya gerombol yang “pantas” (fit) dengan data yang
(13)
dianalisis, sehingga hasil segmentasi sangat tergantung dari pengetahuan, pengalaman, serta subyektivitas peneliti (Garson, 2006).
Untuk mengatasi kedua permasalahan di atas, SPSS telah me ngembangkan algoritma penggerombolan yang memungkinkan untuk mengolah data campuran kategorik dan kontinu (kuantitatif), serta kriteria statistik yang memungkinkan penentuan banyaknya gerombol secara objektif. Algoritma tersebut sudah mulai diimplementasikan pada SPSS versi 11.5 atau yang lebih tinggi dengan nama
TwoStep Cluster (SPSS 2001, 2004). Prosedur ini masih belum banyak digunakan sampai saat ini. Pada algoritma penggerombolan, baik metode berhirarki aglomeratif
maupun metode tak berhirarki (k-rataan) mempunyai beberapa permasalahan yang telah diketahui secara luas (misalnya, Bacher 2000: 223; Everitt et al. 2001: 94-96; Huang 1998: 288), sedangkan TwoStep Cluster dapat menyelesaikan beberapa dari permasalahan yang ditimbulkan pada metode-metode sebelumnya. Lebih tepatnya, atribut tipe campuran dapat ditangani dan banyaknya gerombol dapat ditentukan secara otomatis.
Namun demikian, kemampuan algoritma TwoStep Cluster dalam mengidentifikasi banyaknya gerombol secara akurat dan tingkat salah klasifikasi penggerombolan belum banyak ditelaah oleh para peneliti di Indonesia. Bahkan metode ini belum banyak diterapkan di kalangan peneliti pemasaran di Indonesia.
Tujuan Penelitian
Penelitia n ini bertujuan untuk melakukan evaluasi terhadap keakuratan algoritma TwoStep Cluster dalam mengidentifikasi banyaknya gerombol populasi yang sebenarnya. Secara rinci, penelitian ini bertujuan untuk menjawab hal-hal berikut :
1. Seberapa baik algoritma TwoStep Cluster mampu mengidentifikasi karakteristik gerombol sebenarnya yang terdapat di populasi, pada kasus peubah-peubah yang terlibat semuanya bersifat kontinu.
(14)
2. Seberapa baik algoritma TwoStep Cluster mampu mengidentifikasi karakteristik gerombol sebenarnya yang terdapat di populasi, pada kasus peubah-peubah yang terlibat semuanya bersifat kategorik.
3. Seberapa baik algoritma TwoStep Cluster mampu mengidentifikasi karakteristik gerombol sebenarnya yang terdapat di populasi, pada kasus peubah-peubah yang terlibat merupakan campuran kategorik dan kontinu.
4. Seberapa baik algoritma TwoStep Cluster dibandingkan dengan metode hirarki dan k-rataan dalam mendeteksi gerombol sebenarnya yang terdapat di populasi.
(15)
TINJAUAN PUSTAKA
Analisis gerombol dalam bidang riset pemasaran sering diistilahkan sebagai analisis segmentasi, merupakan alat statistika peubah ganda yang bertujuan untuk mengelompokkan n individu data ke dalam k gerombol, dengan k < n. Individu yang terletak dalam satu gerombol memiliki kemiripan sifat yang lebih besar dibandingkan dengan individu yang terletak dalam gerombol lain (Dillon & Goldstein 1984). Dengan demikian, sasaran analisis gerombol adalah mendapatkan gugus pengelompokkan yang meminimumkan keragaman di dalam gerombol dan sekaligus memaksimumkan keragaman antar gerombol (Garson 2006). Secara umum, metode penggerombolan dapat dibedakan ke dalam 3 kelompok, yaitu (1) metode penggerombolan berhirarki, (2) metode penggerombolan tak-berhirarki, dan (3) penggabungan kedua pendekatan metode penggerombolan, atau dikenal juga sebagai metode hybrid (Putri 2005).
Semakin rumitnya masalah yang dihadapi dalam menggerombolkan gugus data berdimensi besar dan banyaknya individu yang sangat besar, mendorong berkembangnya teknik-teknik penggerombolan baru yang dalam prosesnya dilakukan secara bertahap (pre clustering dan clustering). Metode-metode yang cukup dikenal dikalangan peneliti bidang pemasaran dan data mining diantaranya adalah, TwoStep Cluster (Chiu et al. 2001), Latent Segment Analysis (Vermunt & Magidson 2000; McCutcheon 1999, dan Bernstein et al. 2002), BIRCH (Zhang 1996), CLARANS,
CURE, dan DBscan (Strehl & Gosh 2002), serta Two Stage Clustering
(Lakshminarayan & Yu 2001). Pada penelitian ini, fokus evaluasi diarahkan pada metode TwoStep Cluster. Metode penggerombolan klasik, yaitu hirarki dan k-rataan dijadikan sebagai pembanding untuk mengevaluasi keakuratan metode TwoStep Cluster.
(16)
Metode Penggerombolan Berhirarki
Metode penggerombolan berhirarki digunakan apabila banyaknya gerombo l yang akan dibentuk belum diketahui dengan pasti di awal. Menurut Garson (2006), penggerombolan berhirarki cocok untuk ukuran data yang kecil (biasanya<250). Metode penggerombolan berhirarki dapat dibedakan menjadi dua yaitu metode penggabungan (agglomerative) dan metode pemecahan (divisive). Garson (2006) mengistilahkannya sebagai forward dan backward clustering. Pendekatan metode penggabungan berhiraki (agglomerative hierarchical) paling umum digunakan oleh para peneliti.
Metode berhirarki agglomerative dimulai dengan mengasumsikan bahwa setiap objek merupakan satu gerombol, selanjutnya secara bertahap dilakukan penggabungan pada objek-objek yang paling dekat. Proses ini berlanjut sampai semua sub grup bergabung menjadi satu gerombol. Sebaliknya, meto de divisive
diawali dengan asumsi semua objek berada dalam satu gerombol, kemudian objek-objek yang paling jauh dipisah dan membentuk satu gerombol lain. Proses tersebut berlanjut sampai semua objek masing- masing membentuk satu gerombol. Hasil pembentukan gerombol berhirarki beserta jarak penggabungannya dapat digambarkan dalam suatu dendogram.
Secara umum pembentukan dendogram dengan algoritma agglomerative adalah sebagai berikut (Johnson 1967) :
1. Mulai dengan N gerombol yang masing- masing hanya beranggotakan satu individu.
2. Gabungkan dua individu atau sub-gerombol yang memiliki jarak terdekat pada matrik jarak.
3. Hitung kembali jarak antar gerombol yang baru.
4. Ulangi langkah (2) dan (3) sampai (N-1) kali, sampai akhirnya semua objek bergabung menjadi satu gerombol.
(17)
Dalam metode penggerombolan berhirarki setiap langkah penggabungan gerombol diikuti dengan perbaikan matrik s jarak. Adenberg (1973), Dillon dan Goldstein (1984), serta Morrison (1990) memaparkan beberapa pilihan metode perbaik an jarak yang dapat digunakan pada langkah (3) di atas, yaitu :
a. Pautan tunggal (single linkage) b. Pautan lengkap (complete linkage)
c. Pautan rataan dalam kelompok (average linkage within the new group) d. Pautan rataan antar kelompok (average linkage between merged group) e. Centroid
f. Median g. Ward
Wijayanti (2002), dengan menggunakan metode simulasi, menunjukkan bahwa metode perbaikan jarak pautan rataan dalam kelompok memberikan nilai salah klasifikasi yang paling rendah diantara metode perbaikan jarak lainnya.
Metode penggerombolan berhirarki memungkinkan untuk digunakan pada gugus peubah kriteria penggerombolan yang semuanya berskala rasio, interval, ordinal, atau biner (Garson 2006). Untuk masing- masing jenis skala terdapat pilihan konsep jarak yang sesuai. Berbagai konsep jarak untuk data biner dibahas pada Digby dan Kempton (1987).
Metode Penggerombolan K-rataan
Metode k-rataan termasuk kedalam kelompok penggerombolan tak berhirarki. Menurut Garson (2006), penggerombolan dengan menggunakan metode k-rataan menggunakan konsep jarak Euclidian, sehingga peubah kriteria penggerombolan haruslah semuanya berskala rasio, interval, atau biner (true dichotomies). Untuk menggunakan metode penggerombolan k-rataan, pengguna (peneliti) harus menentukan terlebih dahulu banyaknya gerombol yang akan dibentuk secara apriori (Morrison 1990; dan Garson 2006). Pemilihan banyaknya gerombol (k) dapat ditentukan secara subjektif berdasarkan landasan teori dari masalah yang dianalisis atau melalui penelusuran data awal.
(18)
Titik pusat awal k buah gerombol dipilih secara acak pada pertama kali, selanjutnya dilakukan proses iterasi yang mana pada setiap iterasi dibentuk penggerombolan berdasarkan jarak Euclidian terdekat ke pusat gerombol. Jadi pada setiap iterasi pusat gerombol akan berubah. Proses iterasi akan berhenti bila rata-rata gerombol lebih kecil dari batas perubahan yang ditentukan, atau banyaknya iterasi telah melampaui batasan maksimum (Adenberg 1973). Secara umum, metode k-rataan menghasilkan tepat k gerombol yang memiliki perbedaan keragaman terbesar1). Garson (2006) mengemukakan bahwa metode k-rataan cocok untuk digunakan pada data berukuran besar (misal lebih dari 200 individu).
TwoStep Cluster
Algoritma TwoStep Cluster dikembangkan oleh Chiu, Fang, Chen, Wang, dan Jeris (2001) untuk analisis pada gugus data yang besar. Prosedurnya terdiri dari dua langkah (Chiu et al. 2001, SPSS 2004), yaitu :
1. Penggerombolan Awal (Pre-Clustering)
Tujuan penggerombolan awal (pre-clustering) adalah untuk memasukkan data matriks baru dengan objek yang lebih sedikit pada langkah selanjutnya. Langkah penggerombolan awal menggunakan pendekatan penggerombolan secara sekuensial (Theodoridis & Koutroumbas 1999). Pendekatan ini menelusuri (scan) vektor data individu (record) satu per satu dan memutuskan apakah vektor data yang bersangkutan akan digabung dengan gerombol yang telah terbentuk sebelumnya atau memulai gerombol yang baru berdasarkan kriteria jarak yang telah ditetapkan.
___________________________________________
1)
(19)
Prosedur tersebut diimplementasikan dengan membentuk Cluster Feature tree
(Zhang et al. 1996), pada penulisan ini diterjemahkan sebagai “pohon ciri gerombol”. Pohon ciri gerombol terdiri dari beberapa tingkatan cabang (nodes) dan masing-masing cabang berisikan individu data (entries). Individu yang terdapat pada cabang yang berisikan individu rujukan disebut Leaf Entry, merepresentasikan anak-gerombol (sub-cluster) dari gerombol rujukan awal. Cabang-cabang yang bukan menjadi rujukan (non-leaf nodes) beserta individu di dalamnya akan mengarahkan vektor individu baru ke dalam cabang yang tepat secara cepat. Sebagai contoh, SPSS memberikan nilai default untuk banyaknya tingkat cabang maksimum (maximum levels of nodes)=3 dan banyaknya entries per nodes maksimum 8 sehingga banyaknya leaf entries maksimum sebanyak 83 = 512 anak-gerombol (SPSS Technical Guide 2001).
Suatu pohon ciri gerombol (CF tree) dengan informasi banyaknya individu pada pohon gerombol yang bersangkutan, nilai tengah dan ragam setiap peubah kontinu, serta frekuensi masing-masing kategori untuk peubah kategorik mencirikan setiap anak-gerombol (entries). Setiap vektor individu (record) yang berurutan, secara rekursif diarahkan untuk menemukan anak cabang terdekat, untuk menjadi daun pada pohon yang bersangkutan. Bila vektor individu yang bersangkutan terletak pada wilayah jarak penerimaan (threshold distance) dari dahan terdekat (leaf entry), dahan tersebut akan memasukkan individu yang bersangkutan menjadi anggota anak gerombol, kemudian merubah informasi pohon ciri gerombol dari dahan. Bila vektor individu terletak di luar wilayah jarak penerimaan, individu tersebut akan menjadi cikal bakal dahan yang baru pada cabang yang bersesuaian. Bila suatu cabang tidak lagi memiliki ruang untuk menambah daun baru (entries), maka cabang tersebut akan dipecah menjadi dua. Jika dimisalkan pada sebuah pohon, dari satu dahan kemudian membelah menjadi dua dahan. Individu- individu yang terdapat pada cabang sebelumnya akan dipecah menjadi 2 kelompok dengan menggunakan 2 titik rujukan yang paling berjauhan, kemudian individu lainnya akan disebarkan berdasarkan kriteria kedekatan. Proses ini akan berlanjut sampai seluruh individu terolah secara lengkap.
(20)
Jika CF tree berkembang melewati batas ukuran maksimum yang telah ditetapkan, maka CF tree yang telah ada akan dibangun ulang dengan cara meningkatkan kriteria ukuran penerimaan. CF tree yang melewati batas biasanya dikarenakan pada saat proses algoritma CF tree ini dijalankan, terbentuk daun entri yang beranggotakan pencilan (outlier). Pencilan pada analisis TwoStep Cluster
adalah data yang tidak dapat dimasukkan pada gerombol manapun. Pada saat CF tree
akan dibangun ulang, maka akan diperiksa daun entri yang berpote nsi sebagai pencilan. Daun entri yang terdeteksi beranggotakan pencilanmerupakan daun entri yang jumlah anggotanya kurang dari fraksi ukuran gerombol yang memiliki jumlah paling besar yang telah ditetapkan. Pada saat pembangunan ulang, daun entri yang berpotensi sebagai pencilan disimpan. Setelah CF tree dibangun ulang, maka satu per satu data dalam daun entri yang berpotensi sebagai pencilan dimasukkan ke dalam
CF tree yang baru tanpa mengubah ukuran CF tree tersebut. Jika masih ada data yang tidak masuk ke dalam daun entri manapun, maka data tersebut dikatakan sebagai pencilan. Data-data yang dideteksi sebagai pencilan dimasukkan ke dalam satu gerombol.
Pada diagram algoritma CF tree yang disajikan pada Gambar 1, maksimum
depth dan maksimum nodes yang digunakan yaitu masing- masing 3, sehingga daun entri (anak gerombol) yang terbentuk adalah sebanyak 33 atau 27 anak gerombol, sedangkan pada penelitian ini sesuai dengan default dari program SPSS maksimum
depth sama dengan 3 dan maksimum nodes 8.
Menurut Bacher, Wenzig, dan Vogler (2004), hasil penggerombolan awal bergantung pada urutan dari objek/individu yang disusun pada matriks data. Oleh karena itu, SPSS (2001:2) merekomendasikan untuk menggunakan urutan data secara acak.
(21)
?
Rebuild
Re bu ild N o d e
Le a f
Thr e shold dist a nce
Pr e - Clu st e r in g
Re b u ild
Re b u ild
Re b u ild
Pr e- Clu st e r in g
(22)
2. Penggerombolan Individu Objek ( Step 2 Cluster)
Pada tahap ini diterapkan model berbasiskan teknik hirarki. Sebagaimana halnya dengan teknik hirarki aglomeratif, hasil penggerombolan awal digabungkan dengan menggunakan cara bertatar (stepwise) sampai semua objek berada dalam satu gerombol. Berbeda dengan teknik -teknik hirarki aglomeratif, algoritma TwoStep Cluster didasarkan pada suatu model statistik. Model dilandasi pada asumsi bahwa peubah-peubah kontinu xj (j = 1,2,…,p) pada gerombol ke-i menyebar normal bebas
stokastik dengan nilai tengah µij dan ragam 2
ij
σ , serta peubah-peubah kategorik aj
pada gerombol ke-i mengikuti sebaran multinomial dengan peluang πijl, yang mana (jl) adalah indeks dari kategori ke l (l = 1,2,…,ml) dari peubah aj(j = 1,2,…,q).
3. Konsep Jarak
Terdapat dua konsep pengukuran jarak yang tersedia pada SPSS TwoStep Cluster yaitu jarak Euclidean dan jarak log-likelihood. Bacher, Weinzig, dan Vogler (2004) menyatakan bahwa ukuran jarak log-likelihood dapat diterapkan untuk atribut (peubah-peubah) campuran antara kategorik dan numerik.
Jarak log-likelihood antara dua kelompok i dan s didefinisikan sebagai berikut:
d(i,s)=ξi +ξs −ξi,s (1)
(
)
( )
− + − =∑
∑
∑
= = = p j m l ijl ijl q j j ij i i j n1 1 1
2 2 ˆ log ˆ ˆ ˆ log 2 1 π π σ σ
ξ (2)
(
)
( )
− + − =∑
∑
∑
= = = p j m l sjl sjl q j j sj s s j n1 1 1
2 2 ˆ log ˆ ˆ ˆ log 2
1 σ σ π π
ξ (3)
(
)
( )
− + − =∑
∑
∑
= = = p j m l jl s i jl s i q j j j s i s i s i j n 1 1 , , 1 2 2 , ,, log ˆ ˆ ˆ log ˆ
2 1 π π σ σ
(23)
Untuk penyingkatanξi,s dituliskan sebagai εv , yang dapat ditafsirkan sebagai
suatu jenis galat penyimpangan (dispersi) di dalam gerombol v (v = i,s,(i,s)). εv
terdiri dari dua komponen keragaman. Bagian pertama adalah )
ˆ ˆ log( 2
1 2 2
1 vj j
p j v
n σ +σ
−
∑
= yang mengukur total simpangan (keragaman) dari peubah kontinu xj di dalam gerombol v dan bagian kedua 1 1 ˆvjllog( ˆvjl)mj l q
j v
n ∑ = ∑= π π
−
(entropy) mengukur dispersi pada peubah kategorik. Seperti halnya dengan teknik hirarki aglomeratif, gerombol- gerombol dengan jarak terkecil d(i,s) digabungkan pada tiap langkah. Fungsi log-likelihood untuk langkah dengan k gerombol dituliskan sebagai:
∑
= = k v v k l 1ξ (5) Fungsi lk bukan merupakan fungsi log-likelihood yang selengkapnya
sebagaimana dituliskan pada persamaan sebelumnya. Fungsi ini dapat ditafsirkan sebagai dispersi di dalam gerombol (keragaman dalam gerombol). Bila hanya diperhatikan pada bagian peubah kategorik, lk adalah entropy dalam gerombol ke k.
4. Penentuan Banyaknya Gerombol
Pada SPSS TwoStep Cluster, banyaknya gerombol dapat diperoleh secara otomatis. Dua tahap pendugaan diterapkan untuk menentukan banyaknya gerombol secara objektif. Tahap pertama menghitung besaran Kriteria Informasi Akaike (AIC) dan Kriteria Informasi Bayes (BIC). Kriteria Informasi Akaike untuk k buah gerombol dirumuskan sebagai :
AICk = −2lk +2rk (6)
yang mana rk adalah banyaknya parameter bebas.
Kriteria Informasi Bayes untuk k buah gerombol, dengan rumusan sebagai : BICk =−2lk+rklogn (7)
(24)
Menurut Chiu et al. (2001: 266) BICk atau AICk menghasilkan penduga awal
yang baik bagi banyaknya gerombol maksimum. Banyaknya gerombol maksimum ditentukan sama dengan banyaknya gerombol yang memiliki rasio BICk/BIC1 yang
pertama kali lebih kecil dari c1 (SPSS menetapkan c1 = 0,04 yang didasarkan atas
studi simulasi) (SPSS Technical Support 2001).
Tahap kedua digunakan kriteria perubahan rasio jarak untuk k buah gerombol,
R(k) , yang didefinisikan sebagai :
k k d d k
R( )= −1/ (8)
yang mana dk-1 adalah jarak jika k buah gerombol digabungkan menjadi k-1 gerombol.
Jarak dk dapat diperoleh dari hasil perhitungan sebagai berikut :
k k k l l
d = −1− (9)
(
vlog v)
/2v r n BIC
l = − atau lv =
(
2rv −AICv)
/2 untuk v=k, k-1 (10) Menurut Bacher, Wenzig, dan Vogler (2004), menggunakan BIC atau AIC menghasilkan jawaban ya ng berbeda. Sebagai catatan, SPSS menyediakan 2 pilihan kriteria, yaitu menggunakan BIC atau AIC. Banyaknya gerombol diperoleh berdasarkan ketentuan ditemukannya perbedaan yang nyata pada rasio perubahan gerombol. Rasio perubahan gerombol dihitung sebagai berikutR
( ) ( )
k1 /Rk2 (11)untuk dua nilai terbesar dari R(k) (k=1,2,…,kmax; kmax didapatkan dari langkah
pertama).
Jika rasio perubahan lebih besar daripada nilai batas c2 (SPSS menetapkan nilai
c2 = 1,15 berdasarkan studi simulasi), banyaknya gerombol ditetapkan sama dengan
k1, selainnya banyak gerombol sama dengan maksimum {k1,k2}.
5. Langkah Penetapan Keanggotaan Gerombol dan Penanganan Pencilan
Tiap objek ditetapkan sebagai anggota dari gerombol terdekat secara deterministik berdasarkan ukuran jarak yang biasanya digunakan untuk mendapatkan gerombol. Bacher (2000) mengungkapkan bahwa penetapan keanggotaan gerombol
(25)
secara deterministik memungkinkan terjadinya penduga yang bias bagi profil gerombol, bila terjadi tumpang tindih (overlap) antar dua gerombol yang saling berdekatan. Kelompok data yang dapat mengakibatkan terjadinya bias dalam penetapan keanggotaan gerombol disebut sebagai pencilan (outlier) atau gangguan (noise). Untuk menanggulangi hal ini, Bacher, Wenzig, dan Vogler (2004) menyarankan agar pengguna SPSS menentukan nilai fraction of noise (opsi penanganan pencilan), misalnya 5 (=5%). Bila diyakini pada data tidak terdapat gangguan (penc ilan), maka pilihan penanganan pencilan dapat diabaikan.
Suatu dahan (pada tahapan penggerombolan awal) dianggap sebagai gerombol yang berpotensi sebagai pencilan bilamana banyaknya individu pada sub gerombol yang bersangkutan lebih sedikit dari persentase (proporsi) fraksi ukuran gerombol maksimum yang ditetapkan.
Pencilan atau gangguan (noise) diasumsikan menyebar mengikuti sebaran seragam. Untuk mendeteksi bahwa suatu individu dapat dinyatakan sebagai pencilan atau bukan, dilakukan perhitungan jarak log-likelihood dari titik yang bersangkutan ke sub gerombol terdekat yang bukan pencilan (closest non-noise cluster), dan jarak
log-likelihood bilamana titik tersebut dimasukkan sebagai pencilan. Langkah berikutnya, memilih jarak log-likelihood terbesar dari kedua perhitungan tersebut. Langkah ini setara dengan memasukkan individu yang diduga sebagai pencilan ke sub gerombol terdekat yang bukan pencilan bilamana jarak log-likelihood lebih kecil dari titik kritis
C=log(V) (12) dimana :
m k L
R
V =∏ ∏ (13)
k
R = range dari peubah kontinu ke-k m
L = Banyaknya kategori untuk peubah kategori ke-m
Sub-sub gerombol yang telah diidentifikasi sebagai pencilan, pada tahap pra-penggerombolan (pre-clustering) tidak dilibatkan pada proses penentuan banyaknya gerombol maupun penetapan keanggotaan gerombol.
(26)
BAHAN DAN METODE
Bahan
Model Populasi Hipotetik
Pada penelitian ini akan digunakan pendekatan simulasi untuk mengevaluasi efektivitas algoritma TwoStep Cluster, sebagai mana dinyatakan pada tujuan penelitian. Data bangkitan yang akan digunakan didasarkan pada 5 model data hipotetik, yang dipandang dapat mewakili situasi yang mungkin muncul atau dapat dijadikan rujukan untuk generalisasi berbagai situasi di populasi.
Kelima model tersebut adalah :
P1 : Populasi yang homogen (1 gerombol), yaitu dapat ditafsirkan bahwa tidak terdapat struktur kelas (gerombol) pada populasi yang dianalisis. Dalam kasus pemasaran, beberapa produk -produk masal (misal minuman ringan/soft drink) tidak tersegmen, karena preferensi atas produk tersebut tidak terkait dengan kelas sosial ekonomi, gaya hidup, atau demografi.
P2 : Populasi yang dibentuk dari 2 gerombol yang memiliki sifat hampir mirip (overlap) atau tidak terpisah secara tegas. Contoh pada kasus pemasaran adalah segmentasi preferensi antara kelompok laki- laki dan perempuan pada kelompok umur muda (15-24 tahun) untuk berbagai jenis produk non kosmetik atau model pakaian.
P3 : Populasi yang dibentuk dari 2 gerombol yang terpisah secara tegas (mutually exclusive). Pada penerapan bidang pemasaran, sangat umum dijumpai pemisahan kelas atas (upper class atau high end) dan kelas bawah (lower class
atau low end) yang memiliki ciri dan/atau preferensi yang sangat berbeda, sejalan dengan sumber daya (kelas sosial dan ekonomi) dan gaya hidup yang dimiliki.
(27)
P4 : Populasi yang dibentuk dari 3 gerombol yang terpisah secara tegas. Sama pada kasus di atas (P3), namun populasi yang dianalisis tersegmen menjadi kelompok kelas atas (upper), menengah (middle), dan kelas bawah (lower).
P5 : Populasi yang dibentuk dari 5 gerombol yang terdiri dari 3 gerombol yang terbedakan secara tegas, dan 2 gerombol lainnya tumpang tindih satu dengan lainnya serta dengan gerombol lain. Pada bidang pemasaran, segmentasi berdasarkan psikografik atau gaya hidup cukup umum dijump ai pemisahan yang tidak nyata pada beberapa kelompok dan pada kelompok lainnya terdapat perbedaan yang nyata.
Model Komposisi Peubah yang Dianalisis
Selain model- model populasi hipotetik di atas, pada penelitian ini akan dievaluasi pengaruh jenis peubah yang terlibat dalam proses penggerombolan. Untuk membatasi lingkup penelitian, ditetapkan banyaknya peubah yang terlibat adalah 14. Dalam prakteknya, berdasarkan pengalaman penulis di bidang riset pemasaran, atribut preferensi produk yang diukur untuk tujuan segmentasi umumnya tidak lebih dari 10. Pada segmentasi konsumen berdasarkan psikografik, sangat umum digunakan 14 dimensi nilai (value), sedangkan pada segmentasi berdasarkan sosio -demografik peubah-peubah yang umum digunakan adalah (1) kelompok umur, (2) pendidikan tertinggi, (3) kelas rata-rata pengeluaran rumah tangga per bulan, (4) kelas rata-rata pendapatan rumah tangga per bulan, (5) status perkawinan, (6) status pekerjaan, (7) gender, (8) ukuran keluarga, dan (9) kepemilikan barang-barang tahan lama di rumah tangga. Kelompok peubah yang akan dievaluasi adalah :
V1 : Kumpulan peubah yang semuanya merupakan peubah kuantitatif (numerik, dengan skala kontinu atau interval). Kasus ini sangat jarang dijumpai pada bidang pemasaran, namun sangat umum ditemukan di bidang pertanian secara luas, bidang ekonomi dan keuangan, atau bidang kesehatan.
(28)
V2: Kumpulan peubah yang semuanya merupakan peubah kategorik (nominal atau ordinal yang diperlakukan sebagai nominal). Kasus ini paling banyak dijumpai pada bidang pemasaran, ilmu- ilmu sosial, manajemen, dan politik.
V3 : Kumpulan peubah yang terdiri dari sebagian kecil (4) peubah kuantitatif, dan sisanya (10) merupakan peubah kategorik. Pada bidang pemasaran dan ilmu-ilmu sosial kasus seperti ini mulai mendapat perhatian.
V4 : Kumpulan peubah yang terdiri dari sebagian besar (10) merupakan peubah kuantitatif, dan sisanya (4) merupakan peubah kategorik. Pada bidang pertanian dan ekonomi keterlibatan peubah-peubah yang tidak dapat dikuantifikasi, saat ini mulai mendapat perhatian.
Data Hipotetik
Faktor lain yang dipandang berpengaruh terhadap data bangkitan yang akan digunakan adalah ukuran contoh secara total (banyaknya data). Pada penelitian ini akan dievaluasi kemungkinan ukuran data relatif kecil (500), sedang (2.000), besar (5.000) dan sangat besar (10.000). Dengan demikian, model data bangkitan yang akan digunakan dalam penelitian ini merupakan fungsi dari :
• 5 Model hipotetik segmentasi di populasi.
• 4 Komposisi jenis peubah yang terlibat dalam analisis.
• 4 Ukuran data.
Dengan menggunakan rancangan faktorial lengkap, untuk mengkombinasikan berbagai kemungkinan dari masing- masing parameter yang dievaluasi maka dibangkitkan 80(5x4x4) data hipotetik untuk dianalisis. Masing- masing kombinasi akan diulang sebanyak 100 kali, sehingga diperlukan 8.000 gugus data hipotetik yang dibangkitkan melalui simulasi pada percobaan ini untuk dianalisis. Berdasarkan hasil pembangkitan rancangan faktorial lengkap, diperoleh 80 kombinasi model untuk data hipotetik yang akan digunakan dalam penelitian ini, yang secara lengkap disajikan pada Tabel 1.
(29)
Tabel 1. Kombinasi parameter model data hipotetik yang akan d ibangkitkan. No Model Segmentasi Komposisi jenis peubah Ukuran data
(N) No
Model Segmentasi Komposisi jenis peubah Ukuran data (N)
1 P1 V1 500 41 P1 V1 5000
2 P1 V2 500 42 P1 V2 5000
3 P1 V3 500 43 P1 V3 5000
4 P1 V4 500 44 P1 V4 5000
5 P2 V1 500 45 P2 V1 5000
6 P2 V2 500 46 P2 V2 5000
7 P2 V3 500 47 P2 V3 5000
8 P2 V4 500 48 P2 V4 5000
9 P3 V1 500 49 P3 V1 5000
10 P3 V2 500 50 P3 V2 5000
11 P3 V3 500 51 P3 V3 5000
12 P3 V4 500 52 P3 V4 5000
13 P4 V1 500 53 P4 V1 5000
14 P4 V2 500 54 P4 V2 5000
15 P4 V3 500 55 P4 V3 5000
16 P4 V4 500 56 P4 V4 5000
17 P5 V1 500 57 P5 V1 5000
18 P5 V2 500 58 P5 V2 5000
19 P5 V3 500 59 P5 V3 5000
20 P5 V4 500 60 P5 V4 5000
21 P1 V1 2000 61 P1 V1 10000
22 P1 V2 2000 62 P1 V2 10000
23 P1 V3 2000 63 P1 V3 10000
24 P1 V4 2000 64 P1 V4 10000
25 P2 V1 2000 65 P2 V1 10000
26 P2 V2 2000 66 P2 V2 10000
27 P2 V3 2000 67 P2 V3 10000
28 P2 V4 2000 68 P2 V4 10000
29 P3 V1 2000 69 P3 V1 10000
30 P3 V2 2000 70 P3 V2 10000
31 P3 V3 2000 71 P3 V3 10000
32 P3 V4 2000 72 P3 V4 10000
33 P4 V1 2000 73 P4 V1 10000
34 P4 V2 2000 74 P4 V2 10000
35 P4 V3 2000 75 P4 V3 10000
36 P4 V4 2000 76 P4 V4 10000
37 P5 V1 2000 77 P5 V1 10000
38 P5 V2 2000 78 P5 V2 10000
39 P5 V3 2000 79 P5 V3 10000
(30)
Metode
Metode Pembangkitan Data
Data hipotetik dibangkitkan dari sebaran normal dengan nilai tengah µ dan ragam=1. Lebih lanjut diasumsikan bahwa antar peubah-peubah yang terlibat dalam analisis saling bebas stokastik, dengan sebaran yang sama. Dengan demikian, peubah-peubah yang terlibat dalam analisis menyebar normal, bebas stokastik, identik (normally independently identically distributed), N(µ,1). Nilai tengah untuk masing-masing model segmentasi yang dievaluasi dinyatakan sebagai berikut :
P1 : Tidak terdapat struktur kelas (gerombol), yaitu populasi dengan 1 gerombol.
µ (xi) = 0,00 ; i = 1,2,3,..., N (ukuran data).
Gambar 2. Sebaran populasi tunggal, N (0,1)
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45
(31)
P 2: Populasi yang dibentuk dari 2 gerombol dengan jarak antar gerombol relatif kecil (pemisahan tidak tegas)
Gerombol 1 : µ (x1i) = -0,50 ; i = 1,2,3,..., n1 (catatan : n1=N/2)
Gerombol 2 : µ (x2i) = +0,50 ; i = 1,2,3,..., n2 (catatan : n2=N/2)
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45
-4.00 -3.60 -3.20 -2.80 -2.40 -2.00 -1.60 -1.20 -0.80 -0.40 0.00 0.40 0.80 1.20 1.60 2.00 2.40 2.80 3.20 3.60 4.00
N(-0.5,1) N(0.5,1)
Gambar 3. Sebaran model 2 populasi dengan pemisahan tidak tegas
P3 : Populasi yang dibetuk dari 2 gerombol dengan jarak antar gerombol relatif besar (pemisahan antar gerombol tegas)
Gerombol 1 : µ (x1i) = -3 ,00 ; i = 1,2,3,..., n1 (catatan : n1=N/2)
Gerombol 2 :µ (x2i) =+3,00 ; i = 1,2,3,..., n2 (catatan : n2=N/2)
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45
-6.00-5.60 -5.20 -4.80 -4.40 -4.00 -3.60 -3.20-2.80 -2.40 -2.00 -1.60 -1.20 -0.80 -0.40 0.00 0.400.801.20 1.60 2.002.402.803.203.60 4.00 4.404.805.205.60 6.00
N(-3,1) N(3,1)
(32)
P4 : Populasi yang dibentuk dari 3 gerombol dengan jarak antar gerombol cukup besar (pemisahan secara tegas)
Gerombol 1 : µ (x1i) = -4,00 ; i = 1,2,3,..., n1 (catatan : n1=N/4)
Gerombol 2 : µ (x2i) = 0,00 ; i = 1,2,3,..., n2 (catatan : n2=N/2)
Gerombol 3 : µ (x3i) = +4,00 ; i = 1,2,3,..., n3 (catatan : n3=N/4)
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45
-7.60 -7.00 -6.40 -5.80 -5.20 -4.60 -4.00 -3.40 -2.80 -2.20 -1.60 -1.00 -0.40 0.20 0.80 1.40 2.00 2.60 3.20 3.80 4.40 5.00 5.60 6.20 6.80 7.40
N(-4,1) N(0,1) N(4,1)
Gambar 5. Sebaran model 3 populasi dengan pemisahan yang tegas
Penyebaran banyaknya data pada masing-masing (ukuran gerombol) ditetapkan tidak seimbang, tetapi proporsional dan menyebar secara simetrik. Pada kasus ini, ukuran contoh masing- masing gerombol adalah 25%, 50%, dan 25% dari jumlah keseluruhan data yang dicobakan.
P5 : Populasi yang dibentuk dari 3 gerombol dengan jarak antar gerombol cukup besar dan 2 gerombol lainnya terletak diantara 3 gerombol lain serta tumpang tindih terhadap gerombol lain.
Gerombol 1 : µ (x1i) = -4,00 ; i = 1,2,3,..., n1 (catatan : n1=15% dari N)
Gerombol 2 : µ (x2i) = -1,00 ; i = 1,2,3,..., n2 (catatan : n2= 10% dari N)
Gerombol 3 : µ (x3i) = 0,00 ; i = 1,2,3,..., n3 (catatan : n3= 50% dari N)
Gerombol 4 : µ (x4i) = +1,00 ; i = 1,2,3,..., n4 (catatan : n4= 10% dari N)
(33)
-0.05 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45
-10.00 -9.4 0
-8.80 -8.20 -7.60 -7.00-6.40 -5.80 -5.20 -4.60-4.00 -3.40 -2.80 -2.20-1.60-1.00 -0.40 0.20 0.80 1.40 2.00 2.60 3.20 3.80 4.40 5.00 5.60 6.20 6.80 7.40 8.00 8.60 9.20 9.80
N(-4,1) N(0,1) N(4,1) N(-1.0,1) N(1.0,1)
Gambar 6. Sebaran model 5 populasi dengan 3 gerombol terpisah secara tegas dan 2 gerombol saling tumpang tindih dengan lainnya.
Seperti pada kasus sebelumnya, ukuran contoh pada masing-masing gerombol ditetapkan menyebar secara simetrik, sehingga pada kasus ini ukuran contoh masing-masing gerombol adalah 10%, 15%, 50%, 15% dan 10% dari jumlah keseluruhan data yang dicobakan.
Data hipotetik peubah kategorik akan dibentuk dari pembangkitan dengan menggunakan aturan pada peubah kuantitatif. Transformasi peubah kuantitatif menjadi kategorik dilakukan dengan mengikuti aturan sebagai berikut :
• Peubah Biner dengan π1 = 0,5
yi = 1 jika xi < µ(xi)
yi = 0 jika xi > µ(xi) dengan xi adalah data bangkitan pada peubah kuantitatif
(34)
Prosedur Pembangkitan Data
Pembangkitan data untuk masing- masing kasus yang dievaluasi, dilakukan dengan menggunakan bantuan paket program statistika MINITAB versi 13. Pada masing-masing kasus, pemba ngkitan 14 peubah kriteria penggerombolan dilakukan secara serentak (bersamaan), karena nilai tengah dan ragam untuk masing- masing peubah sama dan saling bebas stokastik satu dengan lainnya. Proses pembangkitan data dengan menggunakan perintah pada MINITAB, misal untuk kasus populasi P4, V1, dengan ukuran data 500, adalah sebagai berikut :
1. Memasukkan parameter populasi hipotetik MTB> LET K1=125
MTB> LET K2=250 MTB> LET K3=-4.0 MTB> LET K4=0.0 MTB> LET K5=4.0
2. Makro membangkitkan data masing- masing gerombol hipotetik MTB>SET C1
K1 (1) END.
MTB>RANDOM K1 C2-C15; NORMAL K3 1.0. MTB> SET C16
K2 (2) END.
MTB> RANDOM K2 C17-C30; NORMAL K4 1.0. MTB>SET C31
K1 (3) END.
(35)
MTB>RANDOM K1 C32-C45; NORMAL K5 1.0.
3. Makro menggabungkan data dari setiap gerombol bangkitan MTB> STACK C1 C16 C31 C1
MTB> STACK C2 C17 C32 C2 MTB> STACK C3 C18 C33 C3 MTB> STACK C4 C19 C34 C4 MTB> STACK C5 C20 C35 C5 MTB> STACK C6 C21 C36 C6 MTB> STACK C7 C22 C37 C7 MTB> STACK C8 C23 C38 C8 MTB> STACK C9 C24 C39 C9 MTB> STACK C10 C25 C40 C10 MTB> STACK C11 C26 C41 C11 MTB> STACK C12 C27 C42 C12 MTB> STACK C13 C28 C43 C13 MTB> STACK C14 C29 C44 C14 MTB> STACK C15 C30 C45 C15
Konversi data kontinu menjadi data biner dilakukan dengan menggunakan paket program SPSS V. 11.5. Hal ini dilakukan karena pengolahan data hasil pembangkitan, konversi, dan analisis TwoStep Cluster dapat dilakukan pada paket program yang sama.
Opsi Penanganan Pencilan dan Tanpa Penanganan Pencilan
Sebagaimana disarankan oleh Bacher, Wenzig, dan Vogler (2004), untuk menghindarkan adanya bias akibat pencilan, penggunaan opsi penanganan pencilan (fraction of noise) sebesar 5% dibandingkan dengan pengolahan data tanpa penanganan opsi pencilan. Kotak pilihan penggunaan opsi penanganan pencilan atau
(36)
tanpa penanganan pencilan ditampilkan pada lampiran 1.gambar 6. Pada penelitian ini, akan dibandingkan hasil penggerombolan TwoStep Cluster antara penggunaan opsi penanganan pencilan dengan tanpa penanganan pencilan.
Metode Analisis
Fokus penelitian ini adalah mengevaluasi keakuratan algoritma TwoStep Cluster dalam mendeteksi banyaknya gerombol dan ukuran masing-masing gerombol pada gugus data dari populasi yang dianalisis. Analisis yang akan dilakukan adalah :
1. Mengukur tingkat keakuratan algoritma TwoStep Cluster dalam mendeteksi banyaknya gerombol sebenarnya. Pada penelitian ini, tingkat keakuratan didefinisikan sebagai persentase jumlah percobaan (run) yang menghasilkan banyaknya gerombol yang sama dengan populasi data hipotetik (dipandang sebagai banyaknya gerombol sebenarnya).
A = Σ Xi / N (14)
dengan Xi bernilai 1 bila banyaknya gerombol yang dihasilkan dari algoritma
TwoStep Cluster sama dengan banyaknya gerombol sebenarnya di dalam populasi (pada penelitian ini diketahui) dan 0 selainnya. N adalah banyaknya ulangan percobaan, pada penelitian ini sama dengan 100.
2. Analisis berikutnya adalah menelusuri kesesuaian sebaran ukuran
gerombol yang dihasilkan dari algoritma TwoStep Cluster dengan sebaran
ukuran gerombol sebenarnya pada populasi. Kesesuaian sebaran ukuran gerombol diuji dengan menggunakan uji khi-kuadrat sebagai berikut :
Ho : Sebaran ukuran gerombol hasil TwoStep Cluster = sebaran gerombol populasi.
H1 : Sebaran ukuran gerombol hasil TwoStep Cluster ? sebaran gerombol populasi
(37)
Pada taraf nyata (a) sebesar 30%, dapat didefinisikan tingkat kesesuaian sebaran ukuran gerombol hasil algoritma TwoStep Cluster dengan ukuran gerombol sebenarnya, yaitu :
K = Σ Yi / N (15)
dengan Yi bernilai 1 bila hasil uji khi-kuadrat (pada taraf nyata tertentu) menghasilkan kesimpulan “Terima Ho”; dan 0 bila “Tolak Ho”. N adalah banyaknya ulangan percobaan, pada penelitian ini sama dengan 100.
3. Tingkat salah klasifikasi dari anggota gerombol. Salah klasifikasi dari hasil penggerombolan, pada penelitian ini didefinisikan sebagai total persentase semua individu (objek) yang berasal dari suatu gerombol namun teridentifikasi sebagai anggota gerombol lain pada proses penggerombolan, dalam hal ini adalah hasil penggerombolan SPSS TwoStep Cluster.
Keanggotaan pada populasi yang sebenarnya Hasil
Penggerombolan
Populasi 1 Populasi 2
Gerombol 1 n1 n2
Gerombol 2 n3 n4
Salah klasifikasi pada 2 populasi (geromb ol) adalah (n2+n3)/(n1+n2+n3+n4)
Prosedur dan Pelaksanaan Percobaan
1. Membangkitkan gugus data hipotetik untuk setiap kombinasi struktur populasi, komposisi jenis peubah, dan ukuran data yang tercantum pada Tabel 1. Masing- masing kombinasi perlakuan diulang sebanyak 100 kali. Dengan demikian akan dibangkitkan sebanyak 8.000 gugus data untuk dianalisis.
Data hipotetik diperoleh dengan menggunakan prosedur yang telah dipaparkan pada bagian metode pembangkitan data, sedangkan pembangkitan data sebaran Ν(µ,1) dilakukan dengan menggunakan alat bantu perangkat
(38)
lunak (software) statistika yang tersedia, dalam hal ini peneliti menggunakan Minitab versi 13.2.
Pada setiap gugus data bangkitan yang akan digunakan sebagai bahan simulasi, akan ditambahkan peubah (kolom atau field) yang menunjukkan indeks asal populasi.
2. Setiap gugus data yang terbentuk akan digerombolkan dengan menggunakan prosedur SPSS TwoStep Cluster. Pada SPSS versi 11.5 tersedia pada modul
Analyze -> Clasify. Pilihan menu dasar (basic option) yang digunakan adalah :
Distance Measure : Log-likelihood
Number of clusters : Determined Automatically, Maximum : 15 Clustering Criterion : BIC
Sesuai dengan saran dari Bacher, Wenzig, dan Vogler (2004), pada menu Options, akan dilakukan pilihan pada kotak “Outlier Treatment” dengan memberi check box pada kotak “Use noise handling” dan mengisi pada kotak “Percentage” bilangan 5 (artinya 5%) dan dicobakan pula tanpa pencilan.
Pada menu “Output” akan dipilih Statistik -statistik :
a. Deskripsi setiap gerombol (Descriptives by cluster) untuk data kuantitatif. b. Sebaran frekuensi setiap gerombol (Cluster frequencies) untuk data
kategorik.
c. Informasi BIC , dan
d. Simpan data keanggotaan gerombol (Create cluster membership variable). 3. Hasil penggerombolan TwoStep Clust er, khususnya banyaknya gerombol yang
terbentuk dan profil masing-masing gerombol, termasuk ukuran gerombol, akan dicatat kemudian dimasukkan sebagai data yang akan dianalisis pada pengolahan selanjutnya.
4. Setelah semua (8.000) gugus data hipotetik terolah dan statistik-statistik yang dihasilkan dicatat sesuai untuk masing-masing kombinasi perlakuan, tahap selanjutnya dilakukan analisis sebagaimana pada persamaan (13), dan menguji kesesuaian sebaran ukuran gerombol serta salah klasifikasi penggerombolan.
(39)
HASIL DAN PEMBAHASAN
Kasus Data Homogen
Data homogen adalah gugus data yang mana setiap individu berasal dari satu sebaran populasi tertentu. Dengan demikian pada populasi sebenarnya tidak terjadi penggerombolan, yaitu hanya terdapat 1 gerombol. Kasus ini jarang dijumpai pada situasi nyata, kecuali pada beberapa masalah segmentasi pelanggan dari produk masal. Berdasarkan percobaan simulasi, hasil analisis keakuratan penggerombolan algoritma
TwoStep Cluster pada kasus ini berbeda dengan kasus-kasus populasi lain yang dicobakan. Oleh karena itu kasus ini dibahas secara terpisah. Disamping itu, metode penggerombolan konvensiona l, baik metode hirarki maupun k-rataan tidak memungkinkan untuk menghasilkan 1 gerombol.
Pada Tabel 2 ditampilkan persentase kesesuaian banyaknya gerombol yang dihasilkan dari algoritma TwoStep Cluster dengan banyaknya gerombol sebenarnya pada populasi. Pada tabel tersebut terlihat bahwa persentase ketepatan TwoStep Cluster dalam mengidentifikasi banyaknya gerombol pada kasus data homogen umumnya sangat rendah, kecuali bila ukuran datanya kecil (dalam penelitian ini yaitu 500). Algoritma TwoStep Cluster cukup akurat bilamana ukuran data relatif kecil dan peubah kriteria penggerombolan bersifat (1) semuanya kuantitatif (V1), (2) semuanya bersifat kategorik (V2) dan mentransfernya menjadi peubah biner yang diperlakukan sebagai data numerik , atau (3) sebagian kecil peubah kriteria bersifat kuantitatif (V3) dan sebagian kecil peubah kategorik (V4), yang ditransformasi ke peubah biner dan diperlakukan sebagai numerik.
Tidak akuratnya algoritma TwoStep Cluster dalam menduga banyaknya gerombol di populasi, pada kasus data homogen, dapat dipahami, karena pada metode-metode penggerombolan, baik metode konvensional maupun TwoStep Cluster, terdapat kecenderungan untuk memecah gugus data yang dianalisis menjadi gerombol- gerombol (Technical Manual SPSS, 2001).
(40)
Tabel 2 juga menyajikan hasil percobaan simulasi pada kasus data homogen dengan opsi tanpa penanganan pencilan dan dengan penanganan pencilan sebesar 5%. Secara keseluruhan, ketepatan algoritma TwoStep Cluster dalam menduga banyaknya gerombol (pada gugus data homogen) tanpa penanganan terhadap pencilan maupun dengan penanganan terhadap pencilan sebesar 5% memberikan hasil yang tidak berbeda nyata.
Tabel 2. Persentase ketepatan banyaknya gerombol hasil olahan algoritma
TwoStep Cluster dengan gerombol populasi sebenarnya pada kasus data homogen
Jenis Peubah kriteria penggerombolan Semua kategorik (V2) Sebagian kecil
kontinu (V3) Sebagian besar kontinu (V4) Penanga-nan Pencilan
Ukuran Data Semua kontinu (V1) Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numeric Biner sbg kategorik Biner sbg numerik
500 100% 0 97% 0 96% 0 40%
2.000 0 0 0 0 0 0 0
5.000 0 0 0 0 0 0 0
Opsi tanpa penangan
-an pencil-an 10.000 0 0 0 0 0 0 0
500 100% 0 97% 0 97% 0 69%
2.000 0 0 0 0 0 0 0
5.000 0 0 0 0 0 0 0
Opsi
penangan
-an pencil-an
5%
10.000 0 0 0 0 0 0 0
Pada kasus ini banyaknya gerombol sebenarnya hanya 1, maka untuk setiap hasil banyaknya penggerombolan algoritma TwoStep Cluster yang tepat sama dengan populasi, ukuran gerombolnya juga akan tepat sama, sedangkan bila dugaan banyaknya gerombol berbeda dengan populasi maka ukuran gerombolnya juga berbeda.
Pengertian yang sama dengan di atas juga berlaku untuk salah klasifikasi pengge rombolan dari setiap individu. Bila dugaan banyaknya gerombol tepat sama dengan populasi hipotetik (1 gerombol), maka seluruh individu dikelompokkan
(41)
secara benar. Sebaliknya bila banyaknya gerombol dugaan lebih dari 1, maka terdapat individu yang salah klas ifikasi. Tabel 3 menampilkan rata-rata persentase salah klasifikasi penggerombolan pada kasus di populasi hanya terdapat 1 gerombol.
Pada Tabel 3 terlihat bahwa bila ketepatan pendugaan banyaknya gerombol tinggi, maka salah klasifikasinya rendah, yaitu untuk kasus-kasus ukuran data 500 dengan semua peubah berjenis kontinu (V1), semua peubah bersifat kategorik (V2) yang ditransformasi ke bentuk biner dan diperlakukan sebagai peubah numerik, dan peubah campuran (V3 dan V4) yang mana peubah kategorik ditransformasi ke biner dan diperlakukan sebagai numerik.
Tabel 3. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep
Cluster dengan gerombol populasi sebenarnya pada kasus data homogen
Jenis Peubah kriteria penggerombolan
Semua kategorik (V2)
Sebagian kecil kontinu (V3) Sebagian besar kontinu (V4) Penanga-nan Pencilan Ukuran Data Semua kontinu (V1) Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik
500 0,0% 74,8% 1,4% 75,3% 1,6% 66,7% 27,3%
2000 68,6% 58,4% 58,8% 62,2% 32,5% 78,4% 64,3%
5000 59,7% 55,6% 51,9% 57,0% 54,8% 79,0% 73,9%
Opsi tanpa penangan
-an
pencilan
10000 50,0% 53,9% 52,3% 50,1% 49,8% 50,0% 50,0%
500 0,0% 77,2% 1,4% 75,1% 1,6% 66,5% 28,0%
2.000 67,9% 59,1% 58,1% 60,8% 59,5% 78,2% 66,7%
5.000 66,7% 55,3% 51,7% 59,8% 71,2% 76,2% 78,2%
Opsi
penangan
-an encil-an
5%
10.000 61,3% 54,1% 53,8% 73,5% 61,0% 29,3% 29,0%
Kasus Data Berasal dari Populasi yang Terbedakan
Pada kasus populasi masing- masing mempunyai 2 dan 3 gerombol yang terpisah secara tegas (P3 dan P4), TwoStep Cluster lebih akurat dalam menduga banyaknya gerombol, yaitu menghasilkan banyaknya gerombol yang sama dengan populasi yang sebenarnya. Secara keseluruhan, percobaan simulasi mengindikasikan
(42)
semakin besar ukuran data, ketepatan rata-rata banyaknya gerombol cenderung menurun.
Pada kasus data berasal dari populasi yang saling terpisah secara tegas, algoritma TwoStep Cluster sangat akurat, dalam menduga banyaknya gerombol sebenarnya pada populasi, untuk berbagai jenis kumpulan peubah kriteria penggerombolan, baik semua peubahnya berjenis kontinu (V1), semua nya peubah kategorik (V2), ataupun peubah campuran (V3 dan V4). Bilamana kumpulan peubah kriteria penggerombolan semuanya kategorik, transformasi ke peubah biner yang diperlakukan sebagai peubah numerik akan menurunkan tingkat keakuratan pendugaan banyaknya gerombol, sedangkan bilamana kumpulan peubah kriteria berupa campuran peubah kontinu dan kategorik, transformasi peubah kategorik menjadi peubah biner dan diperlakukan sebagai peubah numerik akan meningkatkan ketepatan pendugaan banyaknya gerombol.
Penanganan pencilan (outlier treatment) dengan pilihan sebesar 5% berpengaruh pada keakuratan pendugaan banyaknya gerombol yang terbentuk. Pada semua peubah kriteria penggerombolan berjenis kontinu (V1) keakuratan penduga banyaknya gerombol dari algoritma TwoStep Cluster menurun untuk ukuran data besar (10.000) baik untuk populasi dengan banyaknya gerombol 2 maupun 3. Sementara itu, bila semua peubah kriteria penggerombolan bersifat kategorik, baik tetap dipandang sebagai kategorik atau ditransformasi menjadi peubah biner yang diperlakukan sebagai numerik, memberikan hasil yang lebih buruk dibandingkan tanpa penanganan pencilan; kecuali untuk ukuran data kecil (500) dengan memperlakukan biner sebagai numerik.
Bilamana peubah kriteria berjenis campuran antara kontinu dan kategorik, pada kasus 2 populasi yang terpisah tegas (P3) algoritma TwoStep Cluster dengan penanganan pencilan 5% terlihat masih cukup akurat, walaupun menurun dibandingkan dengan tanpa penanganan pencilan, sedangkan pada kasus 3 populasi yang terpisah tegas (P4), penanganan pencilan sebesar 5% memberikan hasil yang buruk untuk jenis peubah kriteria penggerombolan yang melibatkan lebih banyak peubah kategorik. Apabila peubah kriteria penggerombolan berjenis campuran
(43)
dengan sebagian besar kontinu; penanganan pencilan 5% masih cukup akurat untuk ukuran data kecil dan sedang (500 dan 2.000), tetapi untuk ukuran data besar (5.000 dan 10.000) keakuratan pendugaan menurun secara drastis dibandingkan tanpa penanganan pencilan.
Tabel 4. Persentase ketepatan banyaknya gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan.
Jenis Peubah kriteria penggerombolan Semua kategorik (V2) Sebagian kecil kontinu (V3) Sebagian besar kontinu (V4) Penanga-nan Pencilan Model Populasi asal Ukuran Data Semua kontinu (V1) Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik
500 100% 100% 100% 100% 100% 100% 100%
2.000 100% 100% 53% 99% 100% 99% 100%
5.000 100% 100% 55% 100% 100% 100% 100%
2 gerombol terpisah Tegas (P3)
10.000 100% 100% 51% 100% 100% 100% 100%
500 100% 100% 100% 100% 100% 100% 100%
2.000 100% 100% 93% 100% 100% 100% 100%
5.000 100% 100% 65% 100% 100% 89% 100%
Op
si tanpa penanganan
pencilan
3 gerombol terpisah tegas (P4)
10.000 100% 100% 68% 100% 100% 100% 100%
500 100% 0% 100% 100% 100% 100% 100%
2.000 99% 43% 1% 93% 100% 98% 100%
5.000 100% 0% 40% 100% 100% 100% 100%
2 gerombol terpisah tegas (P3)
10.000 92% 0% 32% 100% 100% 100% 100%
500 100% 0% 36% 19% 19% 100% 100%
2.000 100% 0% 0% 0% 0% 100% 100%
5.000 100% 1% 0% 12% 0% 52% 65%
Opsi penanganan pencilan
5%
3 gerombol terpisah tegas (P4)
10.000 73% 2% 12% 9% 4% 3% 10%
Dengan menggunakan uji suai khi-kuadrat, diperoleh kesimpulan bahwa tanpa penanganan pencilan bila banyaknya gerombol yang dihasilkan dari algoritma
TwoStep Cluster sama dengan populasi sebenarnya, maka sebaran ukuran gerombol yang dihasilkan dari TwoStep Cluster sama dengan sebaran ukuran gerombol di
(44)
populasi (terima Ho); kecuali pada perlakuan semua peubah kategorik ditransformasi ke biner dan dipandang sebagai peubah numerik untuk kasus 3 populasi. Sebaliknya, dengan menerapkan opsi penanganan pencilan sebesar 5%, sebaran ukuran gerombol yang terbentuk dari algoritma TwoStep Cluster hanya akurat pada kasus 2 populasi yang terpisah secara tegas, sedangkan pada kasus 3 populasi, hanya akurat bilamana peubah kriteria penggerombolan semuanya kontinu atau ukuran datanya relatif kecil (500).
Tabell5. Persentase kesesuaian ukuran gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan.
Jenis Peubah kriteria penggerombolan Semua kategorik (V2) Sebagian kecil kontinu (V3) Sebagian besar kontinu (V4) Penanga-nan pencilan Model Populasi asal Ukuran Data Semua kontinu (V1) Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik
500 100% 100% 100% 100% 100% 100% 100%
2.000 100% 100% 100% 100% 100% 100% 100%
5.000 100% 100% 100% 100% 100% 100% 100%
2 gerombol terpisah
Tegas (P3)
10.000 100% 100% 100% 100% 100% 100% 100%
500 100% 100% 100% 100% 100% 100% 100%
2.000 100% 100% 100% 100% 100% 100% 100%
5.000 100% 100% 95% 100% 100% 100% 100%
Op
si tanpa penanganan
pencilan
3 gerombol terpisah
tegas (P4)
10.000 100% 100% 100% 100% 100% 100% 100%
500 100% 0% 100% 100% 100% 100% 100%
2.000 97% 100% 100% 100% 100% 99% 100%
5.000 100% 0% 100% 100% 100% 100% 100%
2 gerombol terpisah
tegas (P3)
10.000 96% 0% 100% 100% 100% 92% 100%
500 100% - 0% 100% 100% 100% 100%
2.000 100% - 0% 0% 0% 100% 100%
5.000 100% 0% 0% 50% 0% 35% 0%
Opsi penanganan pencilan
5%
3 gerombol terpisah
tegas (P4)
(45)
Tabulasi silang antara individu- individu anggota gerombol asal dengan gerombol yang diperoleh dari TwoStep Cluster menunjukkan bahwa algoritma ini akurat dalam menghasilkan gerombol yang sama dengan populasi asal. Secara keseluruhan, terutama pada opsi tanpa penanganan pencilan, salah klasifikasi dari individu- individu gerombol sangat kecil (di bawah 5%); kecuali pada kasus semua peubah kriteria penggerombolan berjenis kategorik yang ditransformasi ke biner dan diperlakukan sebagai numerik. Sebagaimana tampak pada Tabel 6; salah klasifikasi penggerombolan dari TwoStep Cluster sangat kecil bila seluruh peubah kriteria penggerombolan berjenis kontinu, baik dengan penanganan pencilan 5% atau tanpa penanganan pencilan.
Bilamana semua peubah kriteria penggerombolan merupakan peubah kategorik, pilihan penanganan pencilan 5% atau transformasi peubah kategorik menjadi bentuk biner yang diperlakukan sebagai peubah numerik akan memperbesar salah klasifikasi penggerombolan. Bila peubah kriteria penggerombolan merupakan campuran kontinu dan kategorik penanganan pencilan 5% memperbesar salah klasifikasi. Sementara itu, bila tanpa perlakuan penanganan pencilan, salah klasifikasi penggerombolan sangat kecil baik perlakuan peubah biner sebagai kategorik atau sebagai numerik.
Kasus Populasi yang Saling Tumpang Tindih
Pada kasus data berasal dari populasi yang saling tumpang tindih (overlaping population), algoritma TwoStep Cluster masih cukup akurat untuk populasi data 2 gerombol, sedangkan pada kasus 5 gerombol yang saling tumpang tindih terjadi bias. Khusus untuk peubah kriteria berjenis campuran, transformasi peubah kategorik menjadi biner dan memperlakukannya sebagai peubah numerik akan meningkatkan keakuratan pendugaan banyaknya gerombol. Pada kasus ini, juga dapat disimpulkan bahwa penanganan pe ncilan secara umum akan mengurangi keakuratan hasil penggerombolan dari algoritma TwoStep Cluster.
(46)
Tabel 6. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan.
Jenis Peubah kriteria penggerombolan
Semua kategorik (V2) Sebagian kecil kontinu (V3) Sebagian besar kontinu (V4) Penanga-nan pencilan Model Populasi asal Ukuran Data Semua kontinu (V1) Biner sbg kategorik Biner sbg nume rik Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik
500 0% 0% 0% 0% 0% 0% 0%
2.000 0% 0% 20,0% 0% 0% 0,1% 0%
5.000 0% 0% 23,0% 0% 0% 0% 0%
2 gerombol terpisah
Tegas (P3)
10.000 0% 0% 21,0% 0% 0% 0% 0%
500 0,0% 0,1% 2,1% 0,1% 0,1% 0,0% 0,0%
2.000 0,6% 0,1% 2,5% 0,1% 0,1% 0,0% 0,0%
5.000 0,5% 0,1% 17,9% 0,1% 0,1% 2,8% 0,0%
Op
si tanpa penanganan
pencilan
3 gerombol terpisah
tegas (P4)
10.000 0,0% 0,1% 16,4% 0,1% 0,1% 0,0% 0,0%
500 0,0% 50,0% 0,0% 0,0% 0,0% 0,0% 0,0%
2.000 0,7% 50,0% 27,5% 0,8% 0,5% 0,0% 0,0%
5.000 0,0% 50,0% 27,0% 0,5% 0,0% 0,0% 0,0%
2 gerombol terpisah
tegas (P3)
10.000 0,9% 50,0% 34,4% 0,0% 0,0% 5,5% 0,0%
500 0,0% 51,7% 30,7% 30,7% 45,0% 0,0% 0,0%
2.000 0,0% 52,5% 50,0% 52,0% 50,0% 0,0% 0,0%
5.000 0,0% 54,7% 50,0% 0,0% 50,0% 13,3% 0,0%
Opsi penanga nan pencilan 5% 3 gerombol terpisah tegas (P4)
10.000 6,8% 55,6% 43,6% 47,4% 50,0% 24,0% 0,0%
Dari Tabel 7 dapat dilihat bahwa apabila hanya terdapat 2 gerombol yang saling tumpang tindih, keakuratan algoritma TwoStep Cluster dalam menduga banyaknya gerombol cukup baik untuk peubah kriteria penggerombolan semua kontinu (V1), semua kategorik (V2) dan peubah campuran yang mempunyai sebagian kecil kontinu (V3). Hal ini berlaku untuk semua ukuran data yang dicobakan, walaupun kecenderungan tingkat keakuratan menurun dengan semakin meningkatnya ukuran data. Untuk populasi dengan peubah campuran yang sebagian besar kontinu, pendugaan gerombol akan menjadi akurat apabila peubah biner diperlakukan sebagai
(47)
numerik, namun dengan data yang sangat besar (10.000) juga tidak dapat menduga banyaknya gerombol dengan baik. Untuk populasi dengan 5 gerombol yang saling tumpang tindih, TwoStep Cluster tidak dapat mengidentifikasi secara akurat.
Tabel 7. Persentase ketepatan ukuran gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih
Jenis Peubah kriteria penggerombolan Semua kategorik (V2) Sebagian kecil kontinu (V3) Sebagian besar kontinu (V4) Penanga-nan pencilan Model Populasi asal Ukuran Data Semua kontinu (V1) Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik
500 100% 99% 100% 98% 100% 48% 100%
2.000 100% 100% 100% 98% 100% 26% 100%
5.000 100% 95% 97% 93% 99% 14% 100%
2 gerombol tumpang tindih
(P2)
10.000 100% 84% 80% 80% 92% 16% 18%
500 0 0 0 0 0 0 0
2.000 0 0 0 0 0 0 0
5.000 0 0 0 0 0 0 0
Op
si tanpa penanganan
pencilan
5 gerombol tumpang tindih
(P5)
10.000 0 0 0 0 0 0 0
500 100% 99% 99% 98% 100% 47% 100%
2.000 100% 99% 99% 99% 100% 26% 100%
5.000 99% 56% 66% 79% 96% 24% 99%
2 gerombol tumpang tindih
(P2)
10.000 67% 43% 54% 71% 76% 28% 64%
500 0 0 0 0 0 0 0
2.000 0 0 0 0 0 0 0
5.000 0 0 0 0 0 0 0
Opsi penanganan pencilan
5%
5 gerombol tumpang tindih
(P5)
10.000 0 0 0 0 0 0 0
Bila ditelusuri lebih lanjut, dapat diketahui bahwa algoritma TwoStep Cluster
menghasilkan pendugaan banyaknya gerombol sebanyak 3, untuk kasus 5 gerombol yang saling tumpang tindih. Hasil ini dapat dipahami, karena seperti terlihat pada Gambar 6 (bagian metode) terdapat 3 gerombol yang secara nyata dapat terbedakan, sedangkan 2 gerombol lainnya tersamar pada gerombol yang lain. Pada kasus
(48)
gerombol yang tidak terpisah secara tegas, ukuran masing- masing gerombol yang dihasilkan dari algoritma TwoStep Cluster sebagian besar tidak sesuai dengan ukuran gerombol sebenarnya dari populasi bangkitan (Tabel 8 ).
Tabel 8. Persentase kesesuaian ukuran gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih.
Jenis Peubah kriteria penggerombolan Semua kategorik (V2) Sebagian kecil kontinu (V3) Sebagian besar kontinu (V4) Penanga-nan pencilan Model Populasi asal Ukuran Data Semua kontinu (V1) Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik
500 91% 58% 52% 57% 71% 67% 81%
2.000 87% 31% 28% 56% 61% 50% 71%
5.000 28% 8% 6% 18% 16% 79% 20%
2 gerombol tumpang tindih
(P2)
10.000 28% 5% 5% 19% 8% 63% 11%
500 - - - -
2.000 - - - -
5.000 - - - -
Op
si tanpa penanganan
pencilan
5 gerombol tumpang tindih
(P5)
10.000 - - - -
500 88% 0 50% 52% 72% 26% 53%
2.000 87% 0 28% 44% 53% 65% 79%
5.000 37% 0 205 24% 14% 63% 16%
2 gerombol tumpang tindih
(P2)
10.000 15% 0 9% 11% 14% 61% 3%
500 - - - -
2.000 - - - -
5.000 - - - -
Opsi penanganan pencilan
5%
5 gerombol tumpang tindih
(P5)
10.000 - - - -
Secara keseluruhan, salah klasifikasi penggerombolan dari algoritma Twostep Cluster pada kasus 5 gerombol yang saling tumpang tindih di populasi sangat besar (20% ke atas). Hasil ini cukup dapat dimengerti, karena secara visual (pada Gambar 6) 2 gerombol tumpang tindih dengan gerombol lainnya sehingga cenderung akan menghasilkan salah klasifikasi dalam penggerombolan. Bilamana di populasi asal
(49)
terdapat 2 gerombol, algoritma TwoStep Cluster masih akurat dalam menggerombolkan individu untuk kasus semua peubah kriteria berjenis kontinu, sedangkan bilamana peubah kriteria penggerombolan merupakan peubah kategorik atau campuran kontinu dan kategorik, salah klasifikasi penggerombolan relatif kecil bila ukuran data di bawah 5.000 (Tabel 9).
Tabel 9. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih
Jenis Peubah kriteria penggerombolan Semua kategorik (V2) Sebagian kecil kontinu (V3) Sebagian besar kontinu (V4) Penanga-nan pencilan Model Populasi asal Ukuran Data Semua kontinu (V1) Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik
500 3,7% 8,1% 7,8% 7,7% 6,4% 44,9% 4,8%
2.000 3,2% 7,6% 7,3% 8,6% 5,8% 54,7% 4,0%
5.000 3,4% 11,2% 11,4% 14,2% 10,4% 58,8% 4,9%
2 gerombol tumpang tindih
(P2)
10.000 3,3% 17,9% 19,2% 23,8% 21,3% 60,4% 6,9%
500 20,0% 22,4% 22,1% 20,0% 20,0% 20,0% 20,0%
2.000 20,0% 21,3% 22,2% 20,0% 20,0% 20,0% 20,0%
5.000 20,0% 24,5% 28,6% 20,0% 20,0% 20,0% 20,0%
Op
si tanpa penanganan
pencilan
5 gerombol tumpang tindih
(P5)
10.000 20,0% 20,4% 30,8% 20,3% 20,0% 20,0% 20,0%
500 3,7% 8,1% 7,8% 30,7% 6,4% 44,9% 4,7%
2.000 3,2% 23,6% 7,7% 7,7% 5,7% 51,3% 6,0%
5.000 3,4% 44,6% 26,0% 17,8% 6,7% 58,3% 6,1%
2 gerombol tumpang tindih
(P2)
10.000 23,5% 46,8% 32,0% 20,0% 10,9% 58,2% 6,1%
500 20,0% 62,8% 59,2% 69,5% 54,20% 20,0% 20,0%
2.000 20,0% 67,5% 85,0% 70,0% 60.3% 20,0% 20,0%
5.000 20,0% 70,0% 50,0% 70,0% 57,40% 27,9% 20,0%
Opsi penanganan pencilan
5%
5 gerombol tumpang tindih
(P5)
(1)
Kasus 3 : Populasi dengan 3 gerombol yang saling terpisah (P4) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 Ulangan
Ulangan Jarak Penggabungan
10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1 1 3,35 3,35 2,65 2,65 3,13 3,13 3,09 221,09 400,32 2 2,94 2,94 2,94 2,74 2,74 2,74 5,06 220,59 398,29 3 3,25 3,27 3,27 2,89 2,89 2,89 4,42 219,25 402,29 4 3,23 3,05 2,79 2,25 2,25 2,25 3,67 222,65 405,75 5 2,07 2,07 2,07 2,07 3,42 3,20 3,20 222,97 403,13 6 2,72 2,72 2,72 3,29 3,29 3,29 3,78 225,72 401,75 7 3,01 3,01 3,01 3,23 2,90 2,90 4,00 224,29 401,30 8 3,27 2,41 2,18 2,18 2,18 1,91 1,91 220,86 398,66 9 3,05 3,05 3,05 3,05 3,05 3,81 3,81 220,86 393,47 10 2,67 2,67 2,90 2,90 2,60 2,60 5,01 217,64 398,28 11 3,36 3,01 3,01 3,05 3,05 3,05 4,33 223,05 404,99 12 2,52 2,35 2,35 2,35 2,64 2,64 3,81 221,08 398,59 13 3,46 3,37 3,23 3,23 2,56 2,56 2,56 224,45 403,42 14 3,95 3,34 3,34 3,34 3,02 3,02 2,48 224,24 402,99 15 3,24 3,79 3,02 3,02 2,52 2,52 2,52 226,17 402,58 16 3,16 3,16 3,16 2,65 2,65 3,06 3,06 224,49 401,93 17 3,51 2,97 2,97 2,08 2,08 3,22 3,22 222,13 397,57 18 3,43 2,73 2,73 2,73 2,25 3,41 3,41 224,09 401,35 19 3,59 3,59 3,17 2,84 2,40 2,40 2,40 221,50 397,76 20 2,12 4,50 3,78 3,75 3,75 3,75 5,96 219,55 399,07 21 2,79 2,79 3,27 2,63 2,32 2,32 2,32 221,31 399,60 22 2,81 2,81 2,35 2,35 3,17 3,79 3,60 224,60 399,37 23 3,61 3,61 3,14 3,14 3,14 4,54 5,12 218,77 397,14 24 3,34 3,34 3,01 3,01 3,01 3,48 3,01 219,36 397,52 25 3,01 2,81 2,81 2,81 2,81 2,81 2,89 220,34 404,20 26 3,45 3,19 3,19 2,64 2,64 4,13 4,42 224,60 403,88 27 2,07 2,07 2,07 5,27 4,92 3,78 3,35 222,90 399,55 28 2,89 2,89 2,89 2,31 4,50 3,72 3,56 226,18 408,69 29 3,09 3,24 3,21 2,62 2,62 2,62 3,42 223,12 403,95 30 3,14 3,14 3,14 2,91 2,91 2,91 3,67 225,38 407,01 31 3,27 3,08 3,08 3,08 3,27 2,54 4,14 220,20 398,76 32 3,72 3,72 3,15 3,14 2,31 2,31 4,54 223,09 404,93 33 3,13 3,13 3,13 2,46 2,46 2,11 2,11 223,10 402,88 34 3,24 3,24 2,85 2,85 2,46 2,46 3,20 219,77 401,00 35 2,79 2,79 2,07 2,07 3,08 3,08 3,12 222,36 401,12 36 2,59 2,59 2,59 2,44 2,44 3,29 3,80 220,81 405,01 37 3,34 2,64 2,26 2,26 2,26 5,57 4,35 225,09 404,57 38 3,04 3,04 3,04 3,04 3,25 3,25 2,76 219,60 392,16 39 3,00 2,75 2,75 2,75 2,51 2,51 2,51 221,52 399,70 40 3,21 3,21 3,21 3,37 3,37 3,69 2,26 223,26 398,47 41 3,74 3,03 3,03 3,03 2,68 2,68 3,38 219,78 401,17
(2)
Kasus 3 : Populasi dengan 3 gerombol yang saling terpisah (P4) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 Ulangan
Ulangan Jarak Penggabungan
10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1 42 2,53 2,53 2,53 2,53 3,72 3,72 5,12 223,24 398,81 43 2,52 2,52 3,95 3,45 3,24 3,12 3,13 218,82 396,68 44 4,19 3,74 3,74 3,17 3,17 2,45 2,45 220,77 404,26 45 3,89 3,79 3,60 3,31 2,99 2,99 2,99 218,91 400,27 46 2,89 2,96 2,96 2,96 2,96 3,53 4,00 218,12 400,97 47 3,42 3,42 3,42 2,97 2,97 2,53 2,53 224,79 400,70 48 3,62 3,62 3,62 3,57 3,92 3,77 3,77 223,29 398,68 49 2,64 2,64 1,95 1,95 4,23 4,88 3,98 226,06 401,70 50 3,50 3,50 3,50 3,50 3,51 2,95 2,09 222,86 400,09 51 2,76 2,76 2,76 2,55 2,25 2,25 2,55 223,85 398,79 52 2,99 2,99 2,19 2,19 2,00 2,00 3,20 221,61 398,20 53 3,19 3,05 3,05 2,84 2,22 2,22 4,24 225,61 402,40 54 2,64 2,64 2,64 2,18 2,18 4,22 3,92 222,64 400,68 55 3,18 3,18 3,18 2,77 2,77 4,36 4,11 219,21 400,82 56 2,91 2,91 2,78 3,87 3,52 3,52 3,71 220,92 393,46 57 3,69 3,35 3,35 2,75 2,75 2,75 3,15 219,86 397,55 58 2,94 4,36 4,19 3,45 3,45 3,37 3,37 222,03 400,86 59 3,52 4,15 3,01 3,01 3,01 2,61 4,74 224,54 399,23 60 3,25 3,21 3,21 3,21 3,13 3,13 2,98 224,23 402,97 61 2,99 2,99 3,19 2,92 2,92 2,92 3,69 223,21 399,99 62 3,71 2,99 2,70 2,70 2,34 2,34 4,66 220,85 399,75 63 3,03 3,20 3,20 3,20 2,75 2,44 2,44 222,70 399,49 64 3,59 3,59 3,29 2,60 2,60 2,60 3,11 222,12 407,01 65 3,85 3,29 3,13 3,13 2,42 2,42 5,20 221,27 405,06 66 3,25 3,91 3,23 3,04 3,04 2,74 2,74 221,64 405,12 67 3,26 3,21 3,21 3,12 3,12 2,90 2,90 222,40 400,42 68 3,66 4,25 3,96 3,03 3,03 2,35 4,80 223,87 402,32 69 2,55 2,55 3,47 3,08 3,08 2,57 2,57 220,75 400,59 70 3,36 3,12 3,12 3,09 2,53 2,53 3,09 222,40 402,62 71 3,47 2,85 2,85 2,85 3,56 3,56 3,65 221,45 397,83 72 2,98 2,25 2,25 2,25 4,41 4,41 4,01 221,38 400,13 73 3,04 3,04 2,64 2,64 2,64 2,64 2,77 227,50 407,33 74 2,86 2,79 2,79 2,45 2,45 2,45 3,77 220,15 395,33 75 3,11 2,50 2,50 3,28 3,43 3,43 5,48 222,37 401,25 76 2,63 2,63 3,93 3,93 4,54 3,47 3,47 222,33 399,88 77 3,73 3,73 3,44 3,44 2,89 2,89 2,89 220,69 396,31 78 3,53 3,53 3,53 2,68 2,68 2,46 2,46 221,20 394,72 79 3,64 2,66 2,66 4,30 4,29 4,29 5,28 223,28 403,70 80 3,26 3,26 2,82 2,82 2,82 3,09 3,99 221,01 403,11 81 2,70 2,70 2,29 2,29 2,91 3,85 3,40 222,57 401,92 82 4,00 4,00 3,22 2,50 2,50 2,50 4,36 223,43 403,69
(3)
Kasus 3 : Populasi dengan 3 gerombol yang saling terpisah (P4) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 Ulangan
Ulangan Jarak Penggabungan
83 2,91 2,91 4,47 4,47 5,17 5,17 4,65 223,66 400,49 84 2,83 3,94 3,76 3,76 3,68 2,99 2,99 223,40 406,97 85 2,88 2,68 2,68 2,68 3,28 3,03 2,29 223,88 403,41 86 3,21 3,21 3,21 2,86 2,86 2,86 3,55 222,13 401,08 87 2,95 2,95 2,95 2,95 3,14 3,14 3,99 224,59 400,18 88 3,31 3,08 3,08 3,08 2,79 2,79 6,01 226,13 401,97 89 2,99 2,45 2,45 2,45 3,89 3,89 2,97 222,01 396,29 90 3,47 3,47 3,26 2,79 2,79 2,79 3,57 221,27 399,29 91 3,30 3,30 3,30 3,30 2,48 2,48 2,42 223,08 398,92 92 3,70 3,70 3,70 2,56 2,56 2,56 3,76 222,74 399,14 93 2,47 2,47 2,47 2,47 3,38 3,38 5,51 223,13 396,92 94 2,69 2,35 2,35 2,35 2,35 4,44 3,97 222,43 400,97 95 2,91 2,91 2,91 2,91 2,89 2,89 2,89 225,35 402,48 96 4,52 4,52 4,46 4,46 4,98 3,88 3,79 223,30 401,75 97 3,20 3,10 3,10 3,10 3,20 3,20 3,35 220,32 402,57 98 3,34 3,34 3,34 3,34 2,69 3,61 3,61 221,89 394,50 99 3,26 2,56 2,56 3,76 3,76 4,25 3,19 225,90 408,49 100 3,18 3,18 3,18 2,87 2,87 2,87 4,04 221,34 399,06
(4)
Kasus 4 : Populasi dengan 5 gerombol yang saling tumpang tindih (P5) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 ulangan
Jarak Penggabungan
Ulangan 10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1 1 3,65 3,65 3,65 3,39 5,51 14,73 18,61 224,26 314,22 2 2,91 2,91 2,91 2,24 8,94 10,46 17,73 217,61 311,24 3 2,94 2,94 2,94 4,29 4,36 16,60 23,59 226,70 314,12 4 4,51 4,17 4,27 3,48 3,02 14,41 17,51 224,67 317,09 5 3,78 4,67 4,67 4,67 4,03 10,09 16,23 225,49 316,07 6 3,66 3,66 3,00 3,00 7,63 10,23 14,44 226,63 313,61 7 3,14 3,14 3,14 2,91 7,19 11,65 15,96 216,66 311,76 8 2,33 2,33 4,14 4,14 4,14 16,22 21,01 220,59 310,08 9 3,56 3,56 3,56 3,29 3,48 16,10 23,02 225,35 315,06 10 4,01 3,25 3,25 2,39 4,03 14,98 23,29 222,92 312,10 11 3,75 3,75 3,00 3,00 2,72 11,37 20,79 220,21 308,64 12 3,07 2,39 2,39 2,39 6,80 9,80 20,29 224,08 310,45 13 3,74 3,74 3,50 3,50 3,50 13,60 17,66 219,61 316,71 14 2,93 2,93 4,04 4,69 4,69 14,43 19,86 222,93 318,51 15 3,09 3,09 3,09 2,44 2,44 11,56 19,50 227,57 317,52 16 3,46 3,46 6,27 6,27 6,27 15,37 20,36 222,82 309,86 17 3,79 3,79 3,79 3,65 3,65 13,67 18,83 222,39 312,65 18 2,93 2,93 5,25 5,25 7,10 14,31 19,21 219,93 307,16 19 3,11 3,11 3,45 3,45 3,45 10,84 15,21 220,69 312,09 20 3,17 3,17 3,17 3,09 3,09 12,46 19,37 218,64 311,99 21 3,22 3,22 2,70 2,70 3,45 14,28 17,59 225,95 315,93 22 3,50 3,50 3,50 2,78 3,72 13,70 21,52 215,86 312,52 23 3,87 3,87 3,87 5,39 5,80 15,29 19,56 221,79 307,17 24 3,14 3,14 4,37 4,37 5,77 9,05 12,61 221,90 308,81 25 3,86 3,86 3,86 3,78 2,82 13,80 21,44 220,32 310,12 26 2,89 2,89 2,83 2,83 2,84 11,50 21,33 223,21 314,29 27 3,78 3,78 3,82 3,45 3,45 12,55 16,71 221,96 309,40 28 3,53 3,53 3,53 3,44 5,11 15,50 21,58 222,11 312,69 29 3,62 3,19 2,45 2,45 2,91 16,90 20,06 225,07 312,28 30 3,36 3,18 3,18 3,18 4,31 14,61 19,21 222,65 308,60 31 3,02 6,02 5,90 5,90 5,90 15,08 20,31 220,74 316,53 32 3,78 3,78 3,78 3,85 2,95 13,90 22,33 222,68 309,87 33 3,82 4,13 4,75 4,65 4,65 15,95 22,80 217,05 311,32 34 3,73 3,58 3,58 2,76 2,76 11,05 22,31 217,43 304,61 35 4,81 3,52 3,52 3,22 3,33 14,50 21,57 219,44 312,07 36 2,91 2,91 2,38 2,38 2,38 13,36 18,59 223,60 311,20 37 3,36 3,36 3,02 3,02 3,02 13,36 18,05 218,90 311,60 38 3,32 3,08 3,08 2,24 2,24 14,48 18,24 220,89 307,34 39 3,57 3,57 3,22 3,22 3,85 14,05 20,08 224,37 314,68 40 3,53 3,20 5,60 5,60 5,82 8,55 11,74 223,23 309,07 41 2,83 2,83 3,26 3,26 3,26 4,71 14,78 19,00 227,38
(5)
Kasus 4 : Populasi dengan 5 gerombol yang saling tumpang tindih (P5) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 ulangan
Jarak Penggabungan
10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1 42 3,62 3,06 2,54 2,54 4,23 16,27 20,01 219,68 312,20 43 3,71 3,71 4,29 5,54 5,51 15,74 21,23 225,54 315,18 44 4,02 4,02 3,55 3,55 3,54 12,31 17,39 223,06 311,34 45 3,60 3,31 2,65 2,65 2,65 12,72 17,04 223,90 312,98 46 3,23 2,58 2,58 2,58 4,77 15,51 21,64 220,77 315,42 47 3,48 2,69 2,69 2,24 7,30 14,62 19,17 220,79 309,08 48 4,50 4,20 4,17 3,17 3,17 15,97 19,51 216,59 310,86 49 4,14 4,19 4,19 4,19 5,87 13,29 15,97 217,65 310,78 50 3,62 3,62 3,65 3,49 3,49 14,81 19,97 220,76 317,24 51 4,71 4,09 3,22 2,90 2,90 13,40 18,25 222,99 314,90 52 4,30 4,30 4,47 4,69 4,69 14,11 19,03 226,83 315,92 53 2,97 2,97 2,97 3,28 3,28 16,69 21,10 220,91 317,83 54 6,08 7,42 6,78 6,68 6,68 15,60 18,17 222,41 319,70 55 3,79 3,79 3,16 6,11 6,57 14,78 18,03 219,77 308,45 56 2,93 2,93 5,90 5,90 10,01 11,62 14,54 223,63 316,15 57 2,85 4,34 6,15 6,15 5,42 14,64 19,07 221,04 311,50 58 4,72 4,72 5,96 6,19 5,99 5,99 19,45 225,54 320,16 59 3,73 3,73 3,23 3,23 3,23 11,58 16,89 222,81 310,67 60 2,99 2,99 3,01 4,52 4,52 15,13 22,55 219,35 309,81 61 3,04 2,48 2,48 2,05 2,05 12,33 17,12 216,78 305,21 62 3,76 3,76 3,11 3,11 3,11 15,64 20,24 220,98 315,57 63 2,56 3,99 4,63 4,88 4,88 15,35 24,32 218,03 303,21 64 4,16 3,68 3,51 3,51 2,80 13,93 18,80 219,50 311,81 65 3,40 3,40 3,40 3,05 3,05 7,84 18,93 227,26 314,57 66 2,68 2,68 2,68 4,00 6,19 16,20 20,04 222,79 311,01 67 3,68 3,68 3,68 3,68 3,76 13,72 17,88 225,95 312,68 68 3,40 3,35 3,35 2,96 2,96 16,98 22,02 216,67 313,50 69 3,15 3,15 3,15 5,54 6,38 14,80 21,20 223,16 310,47 70 4,35 3,87 3,41 3,27 3,27 10,86 19,66 219,24 311,19 71 3,41 3,41 3,19 3,19 3,19 17,61 21,41 230,05 319,88 72 3,54 3,54 3,43 2,56 8,79 14,01 23,03 221,40 310,45 73 3,35 3,35 2,54 2,54 4,24 13,69 18,09 222,64 308,17 74 3,83 3,08 3,08 3,08 2,71 12,59 17,73 222,11 311,50 75 3,08 3,08 2,59 2,46 2,46 13,24 15,79 221,86 318,32 76 4,87 4,68 3,68 3,31 2,97 14,30 19,75 223,79 312,47 77 3,23 4,17 3,09 3,09 3,74 13,68 16,42 220,63 308,87 78 3,16 3,16 3,16 2,81 2,59 13,18 19,46 228,23 318,04 79 3,64 3,64 3,18 3,18 2,94 16,11 20,80 225,50 313,68 80 3,21 3,21 3,21 6,56 6,56 9,86 20,84 215,58 309,22 81 3,37 3,37 3,27 3,27 3,27 16,47 22,29 225,73 315,84
(6)
Kasus 4 : Populasi dengan 5 gerombol yang saling tumpang tindih (P5) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 ulangan
Jarak Penggabungan
10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1 82 2,78 3,95 3,95 3,95 6,88 13,05 17,03 219,16 318,17 83 3,80 3,42 3,42 6,00 4,57 14,63 24,07 224,54 313,35 84 3,33 3,33 3,33 3,05 3,05 14,37 19,58 221,72 308,30 85 4,28 3,77 3,03 3,03 2,67 15,43 22,38 218,30 313,77 86 3,49 3,49 3,49 3,95 3,95 16,76 21,99 222,97 313,92 87 3,84 3,84 3,22 3,22 3,22 10,41 20,19 222,75 313,31 88 3,73 2,83 2,83 2,83 3,92 14,63 21,33 225,04 311,70 89 4,13 4,13 4,92 4,50 4,50 15,20 18,87 224,74 310,97 90 3,11 3,11 3,11 4,09 7,54 11,72 16,08 223,80 321,00 91 3,64 3,38 3,38 3,32 2,80 17,61 22,02 217,47 310,74 92 3,77 3,47 3,02 3,02 7,75 10,79 21,93 220,37 313,44 93 3,00 3,00 2,34 2,34 11,24 12,77 16,84 221,12 316,55 94 3,11 3,11 3,11 6,16 6,16 9,13 12,45 223,03 311,93 95 2,82 3,40 3,40 2,27 2,27 11,47 20,35 227,69 315,31 96 2,63 2,63 4,17 4,17 4,17 10,55 15,11 220,06 311,04 97 2,66 2,39 2,39 4,89 5,73 18,13 21,95 226,84 317,15 98 2,77 2,77 2,77 2,39 9,69 14,95 18,74 226,27 314,50 99 3,83 3,83 3,83 3,83 3,14 13,70 20,35 221,66 316,48 100 3,14 3,14 3,14 3,06 3,06 12,15 20,43 219,98 304,43