Analisis berikutnya adalah menelusuri kesesuaian sebaran ukuran gerombol

25 tanpa penanganan pencilan ditampilkan pada lampiran 1.gambar 6. Pada penelitian ini, akan dibandingkan hasil penggerombolan TwoStep Cluster antara penggunaan opsi penanganan pencilan dengan tanpa penanganan pencilan. Metode Analisis Fokus penelitian ini adalah mengevaluasi keakuratan algoritma TwoStep Cluster dalam mendeteksi banyaknya gerombol dan ukuran masing-masing gerombol pada gugus data dari populasi yang dianalisis. Analisis yang akan dilakukan adalah : 1. Mengukur tingkat keakuratan algoritma TwoStep Cluster dalam mendeteksi banyaknya gerombol sebenarnya. Pada penelitian ini, tingkat keakuratan didefinisikan sebagai persentase jumlah percobaan run yang menghasilkan banyaknya gerombol yang sama dengan populasi data hipotetik dipandang sebagai banyaknya gerombol sebenarnya. A = Σ Xi N 14 dengan Xi bernilai 1 bila banyaknya gerombol yang dihasilkan dari algoritma TwoStep Cluster sama dengan banyaknya gerombol sebenarnya di dalam populasi pada penelitian ini diketahui dan 0 selainnya. N adalah banyaknya ulangan percobaan, pada penelitian ini sama dengan 100.

2. Analisis berikutnya adalah menelusuri kesesuaian sebaran ukuran gerombol

yang dihasilkan dari algoritma TwoStep Cluster dengan sebaran ukuran gerombol sebenarnya pada populasi. Kesesuaian sebaran ukuran gerombol diuji dengan menggunakan uji khi-kuadrat sebagai berikut : Ho : Sebaran ukuran gerombol hasil TwoStep Cluster = sebaran gerombol populasi. H1 : Sebaran ukuran gerombol hasil TwoStep Cluster ? sebaran gerombol populasi 26 Pada taraf nyata a sebesar 30, dapat didefinisikan tingkat kesesuaian sebaran ukuran gerombol hasil algoritma TwoStep Cluster dengan ukuran gerombol sebenarnya, yaitu : K = Σ Yi N 15 dengan Yi bernilai 1 bila hasil uji khi-kuadrat pada taraf nyata tertentu menghasilkan kesimpulan “Terima Ho”; dan 0 bila “Tolak Ho”. N adalah banyaknya ulangan percobaan, pada penelitian ini sama dengan 100. 3. Tingkat salah klasifikasi dari anggota gerombol. Salah klasifikasi dari hasil penggerombolan, pada penelitian ini didefinisikan sebagai total persentase semua individu objek yang berasal dari suatu gerombol namun teridentifikasi sebagai anggota gerombol lain pada proses penggerombolan, dalam hal ini adalah hasil penggerombolan SPSS TwoStep Cluster. Keanggotaan pada populasi yang sebenarnya Hasil Penggerombolan Populasi 1 Populasi 2 Gerombol 1 n 1 n 2 Gerombol 2 n 3 n 4 Salah klasifikasi pada 2 populasi geromb ol adalah n2+n3n1+n2+n3+n4 Prosedur dan Pelaksanaan Percobaan 1. Membangkitkan gugus data hipotetik untuk setiap kombinasi struktur populasi, komposisi jenis peubah, dan ukuran data yang tercantum pada Tabel 1. Masing- masing kombinasi perlakuan diulang sebanyak 100 kali. Dengan demikian akan dibangkitkan sebanyak 8.000 gugus data untuk dianalisis. Data hipotetik diperoleh dengan menggunakan prosedur yang telah dipaparkan pada bagian metode pembangkitan data, sedangkan pembangkitan data sebaran Νµ,1 dilakukan dengan menggunakan alat bantu perangkat 27 lunak software statistika yang tersedia, dalam hal ini peneliti menggunakan Minitab versi 13.2. Pada setiap gugus data bangkitan yang akan digunakan sebagai bahan simulasi, akan ditambahkan peubah kolom atau field yang menunjukkan indeks asal populasi. 2. Setiap gugus data yang terbentuk akan digerombolkan dengan menggunakan prosedur SPSS TwoStep Cluster. Pada SPSS versi 11.5 tersedia pada modul Analyze - Clasify. Pilihan menu dasar basic option yang digunakan adalah : Distance Measure : Log-likelihood Number of clusters : Determined Automatically, Maximum : 15 Clustering Criterion : BIC Sesuai dengan saran dari Bacher, Wenzig, dan Vogler 2004, pada menu Options, akan dilakukan pilihan pada kotak “Outlier Treatment” dengan memberi check box pada kotak “Use noise handling” dan mengisi pada kotak “Percentage” bilangan 5 artinya 5 dan dicobakan pula tanpa pencilan. Pada menu “Output” akan dipilih Statistik -statistik : a. Deskripsi setiap gerombol Descriptives by cluster untuk data kuantitatif. b. Sebaran frekuensi setiap gerombol Cluster frequencies untuk data kategorik. c. Informasi BIC , dan d. Simpan data keanggotaan gerombol Create cluster membership variable. 3. Hasil penggerombolan TwoStep Clust er, khususnya banyaknya gerombol yang terbentuk dan profil masing-masing gerombol, termasuk ukuran gerombol, akan dicatat kemudian dimasukkan sebagai data yang akan dianalisis pada pengolahan selanjutnya. 4. Setelah semua 8.000 gugus data hipotetik terolah dan statistik-statistik yang dihasilkan dicatat sesuai untuk masing-masing kombinasi perlakuan, tahap selanjutnya dilakukan analisis sebagaimana pada persamaan 13, dan menguji kesesuaian sebaran ukuran gerombol serta salah klasifikasi penggerombolan. 28 HASIL DAN PEMBAHASAN Kasus Data Homogen Data homogen adalah gugus data yang mana setiap individu berasal dari satu sebaran populasi tertentu. Dengan demikian pada populasi sebenarnya tidak terjadi penggerombolan, yaitu hanya terdapat 1 gerombol. Kasus ini jarang dijumpai pada situasi nyata, kecuali pada beberapa masalah segmentasi pelanggan dari produk masal. Berdasarkan percobaan simulasi, hasil analisis keakuratan penggerombolan algoritma TwoStep Cluster pada kasus ini berbeda dengan kasus-kasus populasi lain yang dicobakan. Oleh karena itu kasus ini dibahas secara terpisah. Disamping itu, metode penggerombolan konvensiona l, baik metode hirarki maupun k-rataan tidak memungkinkan untuk menghasilkan 1 gerombol. Pada Tabel 2 ditampilkan persentase kesesuaian banyaknya gerombol yang dihasilkan dari algoritma TwoStep Cluster dengan banyaknya gerombol sebenarnya pada populasi. Pada tabel tersebut terlihat bahwa persentase ketepatan TwoStep Cluster dalam mengidentifikasi banyaknya gerombol pada kasus data homogen umumnya sangat rendah, kecuali bila ukuran datanya kecil dalam penelitian ini yaitu 500. Algoritma TwoStep Cluster cukup akurat bilamana ukuran data relatif kecil dan peubah kriteria penggerombolan bersifat 1 semuanya kuantitatif V1, 2 semuanya bersifat kategorik V2 dan mentransfernya menjadi peubah biner yang diperlakukan sebagai data numerik , atau 3 sebagian kecil peubah kriteria bersifat kuantitatif V3 dan sebagian kecil peubah kategorik V4, yang ditransformasi ke peubah biner dan diperlakukan sebagai numerik. Tidak akuratnya algoritma TwoStep Cluster dalam menduga banyaknya gerombol di populasi, pada kasus data homogen, dapat dipahami, karena pada metode-metode penggerombolan, baik metode konvensional maupun TwoStep Cluster, terdapat kecenderungan untuk memecah gugus data yang dianalisis menjadi gerombol- gerombol Technical Manual SPSS, 2001. 29 Tabel 2 juga menyajikan hasil percobaan simulasi pada kasus data homogen dengan opsi tanpa penanganan pencilan dan dengan penanganan pencilan sebesar 5. Secara keseluruhan, ketepatan algoritma TwoStep Cluster dalam menduga banyaknya gerombol pada gugus data homogen tanpa penanganan terhadap pencilan maupun dengan penanganan terhadap pencilan sebesar 5 memberikan hasil yang tidak berbeda nyata. Tabel 2. Persentase ketepatan banyaknya gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya pada kasus data homogen Jenis Peubah kriteria penggerombolan Semua kategorik V2 Sebagian kecil kontinu V3 Sebagian besar kontinu V4 Penanga- nan Pencilan Ukuran Data Semua kontinu V1 Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numeric Biner sbg kategorik Biner sbg numerik 500 100 97 96 40 2.000 5.000 Opsi tanpa penangan - an pencilan 10.000 500 100 97 97 69 2.000 5.000 Opsi penangan - an pencilan 5 10.000 Pada kasus ini banyaknya gerombol sebenarnya hanya 1, maka untuk setiap hasil banyaknya penggerombolan algoritma TwoStep Cluster yang tepat sama dengan populasi, ukuran gerombolnya juga akan tepat sama, sedangkan bila dugaan banyaknya gerombol berbeda dengan populasi maka ukuran gerombolnya juga berbeda. Pengertian yang sama dengan di atas juga berlaku untuk salah klasifikasi pengge rombolan dari setiap individu. Bila dugaan banyaknya gerombol tepat sama dengan populasi hipotetik 1 gerombol, maka seluruh individu dikelompokkan 30 secara benar. Sebaliknya bila banyaknya gerombol dugaan lebih dari 1, maka terdapat individu yang salah klas ifikasi. Tabel 3 menampilkan rata-rata persentase salah klasifikasi penggerombolan pada kasus di populasi hanya terdapat 1 gerombol. Pada Tabel 3 terlihat bahwa bila ketepatan pendugaan banyaknya gerombol tinggi, maka salah klasifikasinya rendah, yaitu untuk kasus-kasus ukuran data 500 dengan semua peubah berjenis kontinu V1, semua peubah bersifat kategorik V2 yang ditransformasi ke bentuk biner dan diperlakukan sebagai peubah numerik, dan peubah campuran V3 dan V4 yang mana peubah kategorik ditransformasi ke biner dan diperlakukan sebagai numerik. Tabel 3. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya pada kasus data homogen Jenis Peubah kriteria penggerombolan Semua kategorik V2 Sebagian kecil kontinu V3 Sebagian besar kontinu V4 Penanga- nan Pencilan Ukuran Data Semua kontinu V1 Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik 500 0,0 74,8 1,4 75,3 1,6 66,7 27,3 2000 68,6 58,4 58,8 62,2 32,5 78,4 64,3 5000 59,7 55,6 51,9 57,0 54,8 79,0 73,9 Opsi tanpa penangan - an pencilan 10000 50,0 53,9 52,3 50,1 49,8 50,0 50,0 500 0,0 77,2 1,4 75,1 1,6 66,5 28,0 2.000 67,9 59,1 58,1 60,8 59,5 78,2 66,7 5.000 66,7 55,3 51,7 59,8 71,2 76,2 78,2 Opsi penangan - an encilan 5 10.000 61,3 54,1 53,8 73,5 61,0 29,3 29,0 Kasus Data Berasal dari Populasi yang Terbedakan Pada kasus populasi masing- masing mempunyai 2 dan 3 gerombol yang terpisah secara tegas P3 dan P4, TwoStep Cluster lebih akurat dalam menduga banyaknya gerombol, yaitu menghasilkan banyaknya gerombol yang sama dengan populasi yang sebenarnya. Secara keseluruhan, percobaan simulasi mengindikasikan 31 semakin besar ukuran data, ketepatan rata-rata banyaknya gerombol cenderung menurun. Pada kasus data berasal dari populasi yang saling terpisah secara tegas, algoritma TwoStep Cluster sangat akurat, dalam menduga banyaknya gerombol sebenarnya pada populasi, untuk berbagai jenis kumpulan peubah kriteria penggerombolan, baik semua peubahnya berjenis kontinu V1, semua nya peubah kategorik V2, ataupun peubah campuran V3 dan V4. Bilamana kumpulan peubah kriteria penggerombolan semuanya kategorik, transformasi ke peubah biner yang diperlakukan sebagai peubah numerik akan menurunkan tingkat keakuratan pendugaan banyaknya gerombol, sedangkan bilamana kumpulan peubah kriteria berupa campuran peubah kontinu dan kategorik, transformasi peubah kategorik menjadi peubah biner dan diperlakukan sebagai peubah numerik akan meningkatkan ketepatan pendugaan banyaknya gerombol. Penanganan pencilan outlier treatment dengan pilihan sebesar 5 berpengaruh pada keakuratan pendugaan banyaknya gerombol yang terbentuk. Pada semua peubah kriteria penggerombolan berjenis kontinu V1 keakuratan penduga banyaknya gerombol dari algoritma TwoStep Cluster menurun untuk ukuran data besar 10.000 baik untuk populasi dengan banyaknya gerombol 2 maupun 3. Sementara itu, bila semua peubah kriteria penggerombolan bersifat kategorik, baik tetap dipandang sebagai kategorik atau ditransformasi menjadi peubah biner yang diperlakukan sebagai numerik, memberikan hasil yang lebih buruk dibandingkan tanpa penanganan pencilan; kecuali untuk ukuran data kecil 500 dengan memperlakukan biner sebagai numerik. Bilamana peubah kriteria berjenis campuran antara kontinu dan kategorik, pada kasus 2 populasi yang terpisah tegas P3 algoritma TwoStep Cluster dengan penanganan pencilan 5 terlihat masih cukup akurat, walaupun menurun dibandingkan dengan tanpa penanganan pencilan, sedangkan pada kasus 3 populasi yang terpisah tegas P4, penanganan pencilan sebesar 5 memberikan hasil yang buruk untuk jenis peubah kriteria penggerombolan yang melibatkan lebih banyak peubah kategorik. Apabila peubah kriteria penggerombolan berjenis campuran 32 dengan sebagian besar kontinu; penanganan pencilan 5 masih cukup akurat untuk ukuran data kecil dan sedang 500 dan 2.000, tetapi untuk ukuran data besar 5.000 dan 10.000 keakuratan pendugaan menurun secara drastis dibandingkan tanpa penanganan pencilan. Tabel 4. Persentase ketepatan banyaknya gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan. Jenis Peubah kriteria penggerombolan Semua kategorik V2 Sebagian kecil kontinu V3 Sebagian besar kontinu V4 Penanga- nan Pencilan Model Populasi asal Ukuran Data Semua kontinu V1 Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik 500 100 100 100 100 100 100 100 2.000 100 100 53 99 100 99 100 5.000 100 100 55 100 100 100 100 2 gerombol terpisah Tegas P3 10.000 100 100 51 100 100 100 100 500 100 100 100 100 100 100 100 2.000 100 100 93 100 100 100 100 5.000 100 100 65 100 100 89 100 Op si tanpa penanganan pencilan 3 gerombol terpisah tegas P4 10.000 100 100 68 100 100 100 100 500 100 100 100 100 100 100 2.000 99 43 1 93 100 98 100 5.000 100 40 100 100 100 100 2 gerombol terpisah tegas P3 10.000 92 32 100 100 100 100 500 100 36 19 19 100 100 2.000 100 100 100 5.000 100 1 12 52 65 Opsi penanganan pencilan 5 3 gerombol terpisah tegas P4 10.000 73 2 12 9 4 3 10 Dengan menggunakan uji suai khi-kuadrat, diperoleh kesimpulan bahwa tanpa penanganan pencilan bila banyaknya gerombol yang dihasilkan dari algoritma TwoStep Cluster sama dengan populasi sebenarnya, maka sebaran ukuran gerombol yang dihasilkan dari TwoStep Cluster sama dengan sebaran ukuran gerombol di 33 populasi terima Ho; kecuali pada perlakuan semua peubah kategorik ditransformasi ke biner dan dipandang sebagai peubah numerik untuk kasus 3 populasi. Sebaliknya, dengan menerapkan opsi penanganan pencilan sebesar 5, sebaran ukuran gerombol yang terbentuk dari algoritma TwoStep Cluster hanya akurat pada kasus 2 populasi yang terpisah secara tegas, sedangkan pada kasus 3 populasi, hanya akurat bilamana peubah kriteria penggerombolan semuanya kontinu atau ukuran datanya relatif kecil 500. Tabel l 5. Persentase kesesuaian ukuran gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan. Jenis Peubah kriteria penggerombolan Semua kategorik V2 Sebagian kecil kontinu V3 Sebagian besar kontinu V4 Penanga- nan pencilan Model Populasi asal Ukuran Data Semua kontinu V1 Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik 500 100 100 100 100 100 100 100 2.000 100 100 100 100 100 100 100 5.000 100 100 100 100 100 100 100 2 gerombol terpisah Tegas P3 10.000 100 100 100 100 100 100 100 500 100 100 100 100 100 100 100 2.000 100 100 100 100 100 100 100 5.000 100 100 95 100 100 100 100 Op si tanpa penanganan pencilan 3 gerombol terpisah tegas P4 10.000 100 100 100 100 100 100 100 500 100 100 100 100 100 100 2.000 97 100 100 100 100 99 100 5.000 100 100 100 100 100 100 2 gerombol terpisah tegas P3 10.000 96 100 100 100 92 100 500 100 - 100 100 100 100 2.000 100 - 100 100 5.000 100 50 35 Opsi penanganan pencilan 5 3 gerombol terpisah tegas P4 10.000 100 58 22 75 100 34 Tabulasi silang antara individu- individu anggota gerombol asal dengan gerombol yang diperoleh dari TwoStep Cluster menunjukkan bahwa algoritma ini akurat dalam menghasilkan gerombol yang sama dengan populasi asal. Secara keseluruhan, terutama pada opsi tanpa penanganan pencilan, salah klasifikasi dari individu- individu gerombol sangat kecil di bawah 5; kecuali pada kasus semua peubah kriteria penggerombolan berjenis kategorik yang ditransformasi ke biner dan diperlakukan sebagai numerik. Sebagaimana tampak pada Tabel 6; salah klasifikasi penggerombolan dari TwoStep Cluster sangat kecil bila seluruh peubah kriteria penggerombolan berjenis kontinu, baik dengan penanganan pencilan 5 atau tanpa penanganan pencilan. Bilamana semua peubah kriteria penggerombolan merupakan peubah kategorik, pilihan penanganan pencilan 5 atau transformasi peubah kategorik menjadi bentuk biner yang diperlakukan sebagai peubah numerik akan memperbesar salah klasifikasi penggerombolan. Bila peubah kriteria penggerombolan merupakan campuran kontinu dan kategorik penanganan pencilan 5 memperbesar salah klasifikasi. Sementara itu, bila tanpa perlakuan penanganan pencilan, salah klasifikasi penggerombolan sangat kecil baik perlakuan peubah biner sebagai kategorik atau sebagai numerik. Kasus Populasi yang Saling Tumpang Tindih Pada kasus data berasal dari populasi yang saling tumpang tindih overlaping population, algoritma TwoStep Cluster masih cukup akurat untuk populasi data 2 gerombol, sedangkan pada kasus 5 gerombol yang saling tumpang tindih terjadi bias. Khusus untuk peubah kriteria berjenis campuran, transformasi peubah kategorik menjadi biner dan memperlakukannya sebagai peubah numerik akan meningkatkan keakuratan pendugaan banyaknya gerombol. Pada kasus ini, juga dapat disimpulkan bahwa penanganan pe ncilan secara umum akan mengurangi keakuratan hasil penggerombolan dari algoritma TwoStep Cluster. 35 Tabel 6. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan. Jenis Peubah kriteria penggerombolan Semua kategorik V2 Sebagian kecil kontinu V3 Sebagian besar kontinu V4 Penanga- nan pencilan Model Populasi asal Ukuran Data Semua kontinu V1 Biner sbg kategorik Biner sbg nume rik Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik 500 2.000 20,0 0,1 5.000 23,0 2 gerombol terpisah Tegas P3 10.000 21,0 500 0,0 0,1 2,1 0,1 0,1 0,0 0,0 2.000 0,6 0,1 2,5 0,1 0,1 0,0 0,0 5.000 0,5 0,1 17,9 0,1 0,1 2,8 0,0 Op si tanpa penanganan pencilan 3 gerombol terpisah tegas P4 10.000 0,0 0,1 16,4 0,1 0,1 0,0 0,0 500 0,0 50,0 0,0 0,0 0,0 0,0 0,0 2.000 0,7 50,0 27,5 0,8 0,5 0,0 0,0 5.000 0,0 50,0 27,0 0,5 0,0 0,0 0,0 2 gerombol terpisah tegas P3 10.000 0,9 50,0 34,4 0,0 0,0 5,5 0,0 500 0,0 51,7 30,7 30,7 45,0 0,0 0,0 2.000 0,0 52,5 50,0 52,0 50,0 0,0 0,0 5.000 0,0 54,7 50,0 0,0 50,0 13,3 0,0 Opsi penanga nan pencilan 5 3 gerombol terpisah tegas P4 10.000 6,8 55,6 43,6 47,4 50,0 24,0 0,0 Dari Tabel 7 dapat dilihat bahwa apabila hanya terdapat 2 gerombol yang saling tumpang tindih, keakuratan algoritma TwoStep Cluster dalam menduga banyaknya gerombol cukup baik untuk peubah kriteria penggerombolan semua kontinu V1, semua kategorik V2 dan peubah campuran yang mempunyai sebagian kecil kontinu V3. Hal ini berlaku untuk semua ukuran data yang dicobakan, walaupun kecenderungan tingkat keakuratan menurun dengan semakin meningkatnya ukuran data. Untuk populasi dengan peubah campuran yang sebagian besar kontinu, pendugaan gerombol akan menjadi akurat apabila peubah biner diperlakukan sebagai 36 numerik, namun dengan data yang sangat besar 10.000 juga tidak dapat menduga banyaknya gerombol dengan baik. Untuk populasi dengan 5 gerombol yang saling tumpang tindih, TwoStep Cluster tidak dapat mengidentifikasi secara akurat. Tabel 7. Persentase ketepatan ukuran gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih Jenis Peubah kriteria penggerombolan Semua kategorik V2 Sebagian kecil kontinu V3 Sebagian besar kontinu V4 Penanga- nan pencilan Model Populasi asal Ukuran Data Semua kontinu V1 Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik 500 100 99 100 98 100 48 100 2.000 100 100 100 98 100 26 100 5.000 100 95 97 93 99 14 100 2 gerombol tumpang tindih P2 10.000 100 84 80 80 92 16 18 500 2.000 5.000 Op si tanpa penanganan pencilan 5 gerombol tumpang tindih P5 10.000 500 100 99 99 98 100 47 100 2.000 100 99 99 99 100 26 100 5.000 99 56 66 79 96 24 99 2 gerombol tumpang tindih P2 10.000 67 43 54 71 76 28 64 500 2.000 5.000 Opsi penanganan pencilan 5 5 gerombol tumpang tindih P5 10.000 Bila ditelusuri lebih lanjut, dapat diketahui bahwa algoritma TwoStep Cluster menghasilkan pendugaan banyaknya gerombol sebanyak 3, untuk kasus 5 gerombol yang saling tumpang tindih. Hasil ini dapat dipahami, karena seperti terlihat pada Gambar 6 bagian metode terdapat 3 gerombol yang secara nyata dapat terbedakan, sedangkan 2 gerombol lainnya tersamar pada gerombol yang lain. Pada kasus 37 gerombol yang tidak terpisah secara tegas, ukuran masing- masing gerombol yang dihasilkan dari algoritma TwoStep Cluster sebagian besar tidak sesuai dengan ukuran gerombol sebenarnya dari populasi bangkitan Tabel 8 . Tabel 8. Persentase kesesuaian ukuran gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih. Jenis Peubah kriteria penggerombolan Semua kategorik V2 Sebagian kecil kontinu V3 Sebagian besar kontinu V4 Penanga- nan pencilan Model Populasi asal Ukuran Data Semua kontinu V1 Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik 500 91 58 52 57 71 67 81 2.000 87 31 28 56 61 50 71 5.000 28 8 6 18 16 79 20 2 gerombol tumpang tindih P2 10.000 28 5 5 19 8 63 11 500 - - - - - - - 2.000 - - - - - - - 5.000 - - - - - - - Op si tanpa penanganan pencilan 5 gerombol tumpang tindih P5 10.000 - - - - - - - 500 88 50 52 72 26 53 2.000 87 28 44 53 65 79 5.000 37 205 24 14 63 16 2 gerombol tumpang tindih P2 10.000 15 9 11 14 61 3 500 - - - - - - - 2.000 - - - - - - - 5.000 - - - - - - - Opsi penanganan pencilan 5 5 gerombol tumpang tindih P5 10.000 - - - - - - - Secara keseluruhan, salah klasifikasi penggerombolan dari algoritma Twostep Cluster pada kasus 5 gerombol yang saling tumpang tindih di populasi sangat besar 20 ke atas. Hasil ini cukup dapat dimengerti, karena secara visual pada Gambar 6 2 gerombol tumpang tindih dengan gerombol lainnya sehingga cenderung akan menghasilkan salah klasifikasi dalam penggerombolan. Bilamana di populasi asal 38 terdapat 2 gerombol, algoritma TwoStep Cluster masih akurat dalam menggerombolkan individu untuk kasus semua peubah kriteria berjenis kontinu, sedangkan bilamana peubah kriteria penggerombolan merupakan peubah kategorik atau campuran kontinu dan kategorik, salah klasifikasi penggerombolan relatif kecil bila ukuran data di bawah 5.000 Tabel 9. Tabel 9. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih Jenis Peubah kriteria penggerombolan Semua kategorik V2 Sebagian kecil kontinu V3 Sebagian besar kontinu V4 Penanga- nan pencilan Model Populasi asal Ukuran Data Semua kontinu V1 Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik Biner sbg kategorik Biner sbg numerik 500 3,7 8,1 7,8 7,7 6,4 44,9 4,8 2.000 3,2 7,6 7,3 8,6 5,8 54,7 4,0 5.000 3,4 11,2 11,4 14,2 10,4 58,8 4,9 2 gerombol tumpang tindih P2 10.000 3,3 17,9 19,2 23,8 21,3 60,4 6,9 500 20,0 22,4 22,1 20,0 20,0 20,0 20,0 2.000 20,0 21,3 22,2 20,0 20,0 20,0 20,0 5.000 20,0 24,5 28,6 20,0 20,0 20,0 20,0 Op si tanpa penanganan pencilan 5 gerombol tumpang tindih P5 10.000 20,0 20,4 30,8 20,3 20,0 20,0 20,0 500 3,7 8,1 7,8 30,7 6,4 44,9 4,7 2.000 3,2 23,6 7,7 7,7 5,7 51,3 6,0 5.000 3,4 44,6 26,0 17,8 6,7 58,3 6,1 2 gerombol tumpang tindih P2 10.000 23,5 46,8 32,0 20,0 10,9 58,2 6,1 500 20,0 62,8 59,2 69,5 54,20 20,0 20,0 2.000 20,0 67,5 85,0 70,0 60.3 20,0 20,0 5.000 20,0 70,0 50,0 70,0 57,40 27,9 20,0 Opsi penanganan pencilan 5 5 gerombol tumpang tindih P5 10.000 20,0 71,6 50,0 54,4 37,30 67,1 32,8 39 Perbandingan dengan Metode Hirarki dan K-rataan Secara umum, berdasarkan aspek-aspek penggunaannya, perbandingan antar metode penggerombolan hirarki, k-rataan, dan TwoStep Cluster diringkas pada Tabel 10. Ditinjau dari aspek peubah kriteria penggerombolannya, metode hirarki sesuai untuk peubah-peubah yang bersifat kuantitatif yang berskala rasio, interval, ordinal, berupa peubah biner. Metode k-rataan hanya dapat digunakan bilamana peubah kriteria penggerombolan merupakan peubah kuantitatif dengan skala rasio atau interval. TwoStep Cluster memungkinkan peubah kriteria penggerombolan bersifat kuantitatif, kategorik, atau campuran dari kuantitatif dan kategorik. Berdasarkan konsep jarak yang berlaku, metode hirarki memiliki banyak pilihan konsep jarak diantaranya Euclidian, khi-kuadrat atau phi-kuadrat, beda pola pattern difference, kecocokan sederhana simple matching, dan sebagainya. Konsep jarak yang berlaku pada metode k-rataan adalah Euclidian. Pada algoritma TwoStep Cluster, pilihan konsep jarak yang dapat digunakan adalah Euclidian bila semua peubah bersifat kuantitatif atau biner atau jarak log-likelihood terutama bila melibatkan peubah campuran atau kategorik. Metode hirarki dan k-rataan tidak mensyaratkan sebaran dari peubah-peubah kriteria penggerombolan; sedangkan TwoStep Cluster mengasumsikan peubah kuantitatif berasal dari sebaran normal yang saling bebas stokastik dan peubah kategorik berasal dari sebaran multinomial. Penentuan banyaknya gerombol yang terbentuk dari metode hirarki sangat tergantung dari peneliti berdasarkan dendogram yang terbentuk atau jarak penggabungan antar sub - gerombol. Pada metode k-rataan, penentuan banyaknya gerombol ditentukan diawal apriori sesuai dengan pengetahuan peneliti pada masalah yang ditelitinya. Sementara itu, penentuan banyaknya gerombol pada TwoStep Cluster dilakukan secara obyektif dengan melibatkan kriteria statistik BIC atau AIC. 40 Tabel 10. Perbandingan metode penggerombolan hirarki, k-rataan, dan TwoStep Cluster Aspek yang dibandingkan Metode hirarki Metode k-rataan Metode TwoStep Cluster Jenis peubah kriteria penggerombolan Kuantitatif rasio, interval, ordinal atau peubah biner Kuantitatif, dgn skala rasio atau interval Kuantitatif Kategorik Campuran Konsep jarak yang berlaku Euclidian, Chi- square, Pattern difference, Simple matching, dsb. Euclidian Euclidian Log-likelihood Prasyarat atau asumsi sebaran peubah kriteria Tidak ada asumsi sebaran Tidak ada asumsi sebaran Asumsi peubah kuantitatif menyebar Normal bebas stokastik dan peubah kategorik menyebar multinomial Ukuran data Sesuai untuk ukuran data relatif kecil Cocok untuk ukuran data besar Cocok untuk ukuran dara besar Penentuan Banyaknya gerombol Secara posterior berdasarkan dendogram Secara apriori ditentukan oleh peneliti Secara otomatik, berdasarkan kriteria statistik. 41 Pada tabel perbandingan di atas, dipaparkan bahwa metode hirarki hanya sesuai untuk jenis peubah kriteria penggerombolan yang semuanya berjenis kuantitatif atau semuanya peubah biner, selain itu ukuran data yang digerombolkan relatif kecil. Di pihak lain, metode TwoStep Cluster memungkinkan untuk mengolah data yang berukuran besar dan peubah kriteria penggerombolan bersifat semuanya kuantitatif, semuanya kategorik, atau campuran kuantitatif dan kategorik. Dengan demikian, perbandingan hasil penggerombolan antara metode hirarki dan TwoStep Cluster hanya dapat dilakukan untuk kasus peubah kriteria penggerombolan yang 1 semuanya bersifat kuantitatif dan 2 semuanya peubah biner. Mengingat metode hirarki efektif untuk ukuran data yang kecil, maka untuk tujuan perbandingan digunakan kasus ukuran data relatif kecil 500 data. Pada paket program SPSS versi 11.5, penentuan banyaknya gerombol minimum dengan menggunakan metode hirarki adalah 2 gerombol. Dengan demikian, metode ini tidak memungkinkan untuk mengidentifikasi kasus bilamana di dalam populasi hanya terdapat 1 gerombol. Oleh karena itu, dalam perbandingan kasus ini tidak dilibatkan. Sebagaimana dipaparkan pada Tabel 10, penentuan banyaknya gerombol pada metode hirarki umumnya bersifat subjektif sehingga sangat bervariasi dan sangat tergantung dari pengalaman pe neliti. Salah satu kriteria objektif yang sering digunakan dalam menentukan banyaknya gerombol yang terbentuk adalah dengan menggunakan kriteria jarak penggabungan terbesar lihat Lampiran 2. Penentuan banyaknya gerombol juga dapat ditelusuri dari pendekatan eksplorasi data dengan mengamati sebaran dari data yang akan digerombolkan, umumnya juga memanfaatkan analisis komponen utama. Dengan situasi tersebut, maka perbandingan keakuratan penentuan banyaknya gerombol yang dihasilkan oleh metode hirarki dan TwoStep Cluster tidak relevan; karena penentuan banyaknya gerombol dengan metode hirarki tergantung dari pengamatan secara visual. Pada penelitian ini diasumsikan peneliti mengetahui secara tepat banyaknya gerombol yang terdapat di populasi, agar keakuratan metode hirarki dalam menduga sebaran ukuran setiap gerombol dan salah klasifikasi penggerombolan dapat 42 dibandingkan dengan metode TwoStep Cluster. Kasus-kasus yang dibandingkan adalah kasus semua peubah kriteria penggerombolan berjenis kontinu V1 dan semua peubah kategorik yang ditransformasi ke biner diperlakukan sebagai numerik V2 dengan ukuran contoh 500. Mempertimbangkan hasil evaluasi yang dilakukan oleh Wijayanti 2002, pada penelitian ini digunakan metode perbaikan jarak pautan rataan dalam kelompok average linkage within group dan konsep jarak untuk peubah biner yang digunakan adalah simple matching. Hasil simulasi dan uji kesesuaian sebaran ukuran gerombol sebenarnya dengan yang dihasilkan dari metode hirarki dan TwoStep Cluster ditampilkan pada Tabel 11. Secara umum, pada kasus-kasus yang dibandingkan dengan ukuran data 500, metode TwoStep Cluster lebih baik dibandingkan dengan metode hirarki. Pada kasus data berasal dari populasi yang terbedakan P3 dan P4 dan peubah kriteria penggerombolan semuanya berjenis kontinu, persentase kesesuaian ukuran gerombol populasi dengan yang dihasilkan dari metode hirarki sama dengan yang dihasilkan dari TwoStep Cluster 100, sedangkan bila semua peubah kriteria penggerombolan merupakan peubah biner metode TwoStep Cluster jauh lebih baik dibandingkan dengan metode hirarki pada kasus populasi memiliki 3 gerombol yang terpisah secara tegas. Bila pada populasi terdapat 2 gerombol yang saling tumpang tindih, metode TwoStep Cluster lebih baik dibandingkan dengan metode hirarki, pada kasus peubah kriteria penggerombo lan semuanya berjenis kontinu. Pada kasus yang sama, metode hirarki sedikit lebih baik dibandingkan TwoStep Cluster untuk peubah kriteria berupa peubah biner. Sementara itu, bila pada populasi terdapat 5 gerombol yang saling tumpang tindih, metode hirarki lebih baik dibandingkan TwoStep Cluster untuk peubah kriteria semuanya bersifat kontinu. Dibandingkan dengan metode k-rataan, dengan asumsi banyaknya gerombol dapat diketahui sebelumnya, akurasi kesesuaian sebaran ukuran gerombol yang dihasilkan dari metode TwoStep Cluster sama dengan metode k-rataan, kecuali pada kasus 2 populasi yang saling tumpang tindih. 43 Tabel 11. Perbandingan persentase kesesuaian sebaran ukuran gerombol hasil olahan metode hirarki, k-rataan, dan TwoStep Cluster hasil 100 kali simulasi Jenis peubah yang dianalisis Jenis populasi hipotetik Semua kontinu V1 Semua biner V2 diperlakukan sebagai numerik hirarki k-rataan TwoStep hirarki k-rataan TwoStep 2 gerombol tumpang tindih P2 52,0 99 91 66,0 73 52 2 gerombol terpisah tegas P3 100 100 100 100,0 100 100 3 gerombol terpisah tegas P4 100 100 100 0,0 69 100 5 gerombol tumpang tindih P5 28,0 16 0,0 Tabulasi silang antara individu- individu anggota gerombol asal dengan gerombol yang diperoleh dari metode hirarki dan TwoStep Cluster menunjukkan bahwa secara umum metode TwoStep Cluster menghasilkan salah klasifikasi yang lebih kecil dibandingkan metode hirarki. Pada kasus populasi yang terpisah secara tegas, metode hirarki dan TwoStep Cluster menghasilkan salah klasifikasi yang sama 0 bilamana peubah kriteria penggerombolan bersifat semuanya kontinu dan semuanya biner untuk kasus 2 populasi. Metode TwoStep Cluster menghasilkan salah klasifikasi yang lebih kecil dibandingkan metode hirarki bila pada populasi terdapat 2 gerombol yang saling tumpang tindih, baik pada kasus semua peubah kriteria berjenis kontinu maupun semuanya biner. Metode hirarki lebih akurat dibandingkan TwoStep Cluster bilamana pada populasi terdapat 5 gerombol yang saling tumpang tindih bila diasumsikan peneliti dapat menduga banyaknya gerombol secara tepat dan semua peubah kriteria penggerombolan berjenis kontinu; sedangkan bila peubah kriteria. penggerombolan semuanya peubah biner, metode TwoStep Cluster jauh lebih akurat Tabel 12. 44 Secara keseluruhan persentase salah klasifikasi dari metode TwoStep Cluster tidak berbeda nyata dengan yang dihasilkan dari metode k-rataan, bilamana semua peubah kriteria penggerombolan merupakan peubah kontinu. Bila peubah kriteria penggerombolan merupakan peubah biner, salah klasifikasi dari metode TwoStep Cluster lebih kecil dibandingkan metode k-rataan. Tabel 12. Perbandingan persentase salah klasifikasi individu pada populasi dengan yang dihasilkan oleh metode hirarki, k-rataan, dan TwoStep Cluster hasil 100 kali simulasi Jenis Peubah yang dianalisis Jenis populasi hipotetik Semua kontinu V1 Semua biner V2 diperlakukan sebagai numerik hirarki k-rataan TwoStep hirarki k-rataan TwoStep 2 gerombol tumpang tindih P2 6,7 3.5 3.7 11,1 7.3 7.8 2 gerombol terpisah tegas P3 0,0 3 gerombol terpisah tegas P4 0 50,7 3 2.1 5 gerombol tumpang tindih P5 7,1 12.8 20 72,8 52.0 22.1 45 SIMPULAN DAN SARAN Simpulan 1. Metode TwoStep Cluster menghasilkan gerombol yang sama dengan populasi sebenarnya apabila semua peubah kriteria penggerombolan bersifat kontinu; kecuali pada situasi data yang saling tumpang tindih dan tidak terbedakan. 2. Metode TwoStep Cluster sangat akurat dalam menghasilkan gerombol yang sama dengan populasi sebenarnya pada kasus-kasus data yang terpisah secara tegas, atau setidaknya terlihat adanya perbedaan penggerombolan pada data yang dianalisis. 3. Transformasi peubah kategorik ke dalam bentuk biner dan memperlakukannya sebagai peubah numerik akan meningkatkan keakuratan TwoStep Cluster dalam menduga banyaknya gerombol, apabila peubah kriteria penggerombolan merupakan peubah campuran. 4. Apabila pada data tidak terdapat pencilan, penggunaan opsi “Penanganan Pencilan” outlier treatment akan menurunkan keakuratan TwoStep Cluster dalam menduga gerombol yang sebenarnya. 5. Pada kasus-kasus populasi dengan 2 dan 3 gerombol dan peubah kriteria penggerombolan semuanya kontinu atau semuanya peubah biner untuk ukuran data kecil 500, metode TwoStep Cluster lebih baik dibandingkan dengan metode hirarki dan tidak berbeda nyata dibandingkan metode k-rataan dalam hal akurasi sebaran ukuran gerombol asal serta salah klasifikasi. Saran 1. Sebelum melakukan penggerombolan disarankan peneliti memiliki pengetahuan awal terhadap data atau populasi yang akan digerombolkan. 2. Sebelum melakukan penggerombolan disarankan untuk melakukan analisis eksplorasi sebaran data, agar dapat membantu dalam menentukan banyaknya gerombol di populasi sebenarnya lebih akurat. 46 3. Perlu dilakukan studi perbandingan atau evaluasi terhadap keakuratan berbagai metode penggerombolan, khususnya metode hirarki, TwoStep Cluster, dan Latent Segment dalam menduga banyaknya gerombol serta profil gerombol yang sebenarnya di populasi. 4. Perlu dilakukan studi lebih lanj ut untuk mengevaluasi metode Twostep Cluster, dan metode penggerombolan lainnya, pada kasus terjadinya korelasi antar peubah kriteria karena dalam realitas sering terjadi korelasi antar peubah. 47 DAFTAR PUSTAKA Aaker, D.A. 2001. Strategic Marketing Management. Ed ke-6. John Wiley Sons Inc. New York. Aaker, D. A. And G. S. Day. 1990. Marketing Research. Ed ke-4. John Wiley Sons, New York. Adenberg, M.R. 1973, Cluster Analysis For Applications, Academic Press, Inc. New York Anonimous. 2001. The SPSS TwoStep Cluster Component. A scalable component to segment your customers more effectively. White paper – technical report, SPSS Inc. Chicago. __________. 2004. TwoStep Cluster Analysis. Technical Report, SPSS Inc. Chicago. Bacher, J. 2000. A Probabilistic Clustering Model for Variables of Mixed Type. Quality Quantity. Bacher, J., K. Wenzig and M. Vogler. 2004.. SPSS TwoStep Cluster : A First Evaluation. Friedrich-Alexander-Universität Erlangen-Nurnberg. Bernstein, L. K. Bradley, and S. Zarich. 2002. GOLDminer : Improving Models for Classifying Patients with Chest Pain. Yale Journal of Biology and Medicine 75. Chiu, T., Fang,D., Chen,J., Wang,Y., and Jeris,C. 2001. A Robust and Scalable Clustering Algorithm for Mixed Type Attributes in Large Database Environment. In Proceedings of the 7th ACM SIGKDD International Confererence on Knowledge Discovery and Data Mining 2001. Digby, P.G.N. and R.A. Kempton. 1987. Multivariate Analysis of Ecological Communities. Chapman and Hall. New York. Dillon, W.R. M. Goldstein. 1984. Multivariate Analysis Method Applications. John Wiley and Sons, Inc. New York. 48 Everitt, B.S., Landan, S. and Leese, M. 2001. Cluster Analysis. Ed ke-4 Arnold, London. Garson, D.G. 2006. Quantitative Research in Public Administration. Lecture Note. North Carolina State University. Huang, Z. 1998. Extensions to the k- means Algorithm for Clustering Large Data Sets with Categorical Variables. Data Mining and Knowledge Discovery. Kasali, R. 1998. Membidik Pasar Indonesia : Segmentasi, Targeting, dan Positioning. Gramedia Pustaka Utama, Jakarta.. Kotabe, M and K. Helsen. 2001. Global Marketing Management . Ed ke-2. John Wiley Sons, New York. Kotler, P. 2000. Marketing Management : The Millennium Edition. Prentice Hall International Inc. New Jersey. Lakshminarayan, C.K. and Q. Yu. 2001. A Novel Two-Stage Clustering Approach for Visitor Segmentation and Prediction Based on Click Stream Attributes. The Indian Institute of Information Technology, Bangalore. McCutcheon A, Hagenaars J., eds. 1999. Advances in Latent Class Modeling. Cambridge, UK and NY: Cambridge University Press. Morrison, D.F. 1990. Multivariate Statistical Methods. McGraw-Hill. Inc. New York. Porter, M. 1980. Competitive Strategy : Techniques for Analyzing Industries and Competitors. The Free Press, New York. Putri, D. Y. 2005. Penerapan Metode TwoStep Cluster dalam Analisis Gerombol : Studi Kasus Data Potensi Desa Sensus Ekonomi 2003 Wilayah Jawa Barat, Skripsi S1. Departemen Statistika FMIPA Institut Pertanian Bogor, Bogor- Indonesia. 49 Strehl, A. And J. Gosh. 2002. Relationship -Based Clustering and Visualization for High-Dimensional Data Mining. INFORMS. Journal on Computing. Pp. 1-23. Theodoridis, S. and K. Koutroumbas. 1999. Pattern Recognition. Academic Press, New York. Vermunt, J. K. and J. Magidson 2000. Latent class cluster analysis. Chapter B1 in Hagenaars and McCutcheon, eds., Advances in latent class models. Cambridge, UK: Cambridge University Press. Related to Latent Gold software. Wijayanti, A. 2002. Evaluasi Konsep Jarak dan Metode Penggerombolan untuk Data Biner. Skripsi. Jurusan Statistika. FMIPA. Institut Pertanian Bogor, Bogor. Zhang, T, R. Ramakrishnon and M. Livny. 1996. BIRCH: An Efficient data clustering method for very large databases. Proceeding of the ACM SIGMOD Conference on Management of Data, 103-114, Montreal, Canada. 50 LAMPIRAN 51 Lampiran 1. Tahapan analisis TwoStep Cluster dengan SPSS 1. Penyiapan data. 2. Pilih Menu : AnalyzeClassifyTwoStep Cluster Gambar 1, maka akan muncul kotak dialog Gambar 2. Gambar 1 . Kotak dialog pemilihan metode TwoStep Cluster Gambar 2 . Kotak dialog TwoStep Cluster 52 3. Pindahkan variabel yang akan digerombolkan ke kotak variabel sesuai dengan perlakuan yang diinginkan. Gambar 3. Kotak dialog perlakuan variabel

4. Pada kotak DISTANCE MEASURE beri tanda log likelihood untuk pilihan