Metode berhirarki Metode tak berhirarki

1 PENDAHULUAN Latar Belakang Terdapat dua metode dalam analisis gerombol klasik yaitu metode penggerombolan berhirarki dan tak berhirarki. Penentuan jumlah gerombol yang terbentuk untuk dua metode ini dilakukan secara subjektif. Pada metode pen ggerombolan berhirarki, penentuan besarnya pemotongan cut off pada dendogram masih ditentukan oleh peneliti Hair et. al, 1998. Sedangkan pada metode penggerombolan non hirarki, penentuan banyaknya jumlah gerombol akhir ditentukan oleh pengetahuan dan pengalaman peneliti Hair et. al, 1998. Pada saat ini, umumnya data yang ada tidak hanya menggunakan tipe kontinu numerik, tetapi juga menggunakan tipe data kategorik, contohnya data-data pada marketing riset. Oleh karena itu, SPSS mengembangkan algoritma yang memungkinkan untuk mengolah data dengan tipe numerik dan kategorik, serta dapat menentukan jumlah gerombol secara objektif. Algoritma tersebut diimplementasikan pada SPSS dengan nama Two Step Cluster. Two Step Cluster menggunakan dua ukuran jarak yaitu Log-Likelihood dan Euclidean. Kedua ukuran jarak tersebut dapat digunakan secara bersamaan pada analisis Two Step Cluster apabila data yang digunakan bertipe numerik. Tujuan Tujuan penelitian ini adalah membandingkan pengaruh ukuran jarak Log- Likelihood dan Euclidean terhadap pembentukan gerombol pada analisis Two Step Custer dengan menggunakan data simulasi. TINJAUAN PUSTAKA Analisis Gerombol Analisis gerombol merupakan salah satu dari grup teknik peubah ganda multivariate yang tujuan utamanya adalah mengelompokkan objek berdasarkan atas kriteria yang dimiliki. Analisis gerombol mengklasifikasi objek, sehingga antara satu objek dengan objek lainnya yang terletak dalam satu gerombol akan memiliki kesamaan tinggi yang sesuai dengan kriteria pemilihan yang ditentukan. Hasil dari penggerombolan harus memperlihatkan keragaman yang homogen di dalam gerombol dan keragaman yang heterogen antargerombol yang terbentuk. Ada dua metode dalam analisis gerombol satu tahap, yaitu :

1. Metode berhirarki

Metode penggerombolan berhirarki ditujukan untuk ukuran contoh kecil. Penggerombolan berhirarki menghasilkan seluruh kemungkinan terbentuknya gerombol. Metode penggerombolan berhirarki digunakan apabila banyak gerombol yang akan dibentuk belum diketahui sebelumnya. Pada dasarnya, terdapat dua prosedur pada penggerombolan berhirarki, yaitu prosedur penggabungan agglomerative dan prosedur pembagian divisive. Dalam metode berhirarki terdapat beberapa ukuran jarak antargerombol, antara lain metode pautan tunggal single linkage, pautan lengkap complete linkage, pautan rataan average linkage, metode Ward, dan metode centroid.

2. Metode tak berhirarki

Pada metode penggerombolan tak berhirarki, peneliti harus terlebih dahulu menentukan jumlah gerombol yang diinginkan. Salah satu contoh dari metode ini adalah metode K-means . Analisis gerombol K-means menggunakan ukuran jarak Euclidean. Penentuan pusat gerombol merupakan langkah awal pada metode ini. Langkah selanjutnya adalah menentukan gerombol dari tiap objek, yaitu berdasarkan atas kedekatan ukuran jarak Euclidean terhadap mean dari masing-masing gerombol. SPSS Two Step Cluster SPSS Two Step Cluster merupakan analisis penggerombolan yang dirancang untuk menangani data dengan jumlah yang sangat besar. Analisis ini dapat menangani masalah pengukuran dengan tipe data yang berbeda yaitu untuk tipe data numerik dan kategorik SPSS Two Step Cluster Analysis, 2004. Terdapat dua tahap pada metode ini yaitu : • Tahap pertama : Pembentukan gerombol awal Tahap gerombol awal menggunakan pendekatan penggerombolan sekuensial Theodoridis dan Koutroumbas, 1999. Dimana tahap ini data yang ada dimasukkan satu per satu, kemudian ditentukan data tersebut harus masuk pada gerombol yang telah terbentuk sebelumnya atau membentuk gerom bol yang baru. Prosedur pada tahap ini 2 diimplementasikan dengan membangun modifikasi Cluster Feature CF Tree. CF Tree terdiri dari tingkatan cabang depth dan masing-masing cabang berisikan dari angka yang dientrikan. Apabila dimisalkan sebuah pohon, maka tingkatan cabang tersebut terdiri dari batang pohon, dahan dan daun. Dalam CF tree tingkatan daun dikenal dengan nama daun entri entrian pada cabang daun dimana pada tingkatan ini merepresentasikan hasil akhir anak gerombol. Algoritma pertama pada CF Tree adalah memasukkan data satu per satu. Data yang masuk dihitung jaraknya pada daun entri yang telah ada dengan menggunakan ukuran jarak yang telah ditentukan. Apabila jarak tersebut kurang dari kriteria ukuran penerimaan threshold distance maka data tersebut masuk ke dalam daun entri yang telah ada, tetapi jika sebaliknya maka data membentuk daun entri baru. Jika tidak ada lagi tempat dalam cabang daun untuk menciptakan daun entri baru node telah melewati batas maksimum, maka cabang daun akan terbagi menjadi dua. Apabila dimisalkan pada sebuah pohon, dari satu dahan kemudian membelah menjadi dua dahan. Entrian pada cabang daun yang asli akan dibagi ke dalam dua grup dahan dengan menggunakan pasangan daun terjauh sebagai penempatan, dan membagi-bagikan kembali sisa entrian berdasarkan atas kriteria kedekatan. Jika tidak tersedia tempat dalam cabang dahan untuk menciptakan daun entri baru, maka cabang dahan yang telah melewati maksimum node akan terbagi menjadi dua. Apabila dimisalkan pada sebuah pohon, dari satu pohon kemudian membelah menjadi dua pohon . Entrian pada cabang dahan yang asli akan dibagi ke dalam dua grup pohon dengan menggunakan pasangan dahan terjauh sebagai penempatan, dan membagi-bagikan kembali sisa entrian berdasarkan atas kriteria kedekatan yang telah ditetapkan. Proses ini berlanjut sampai semua data selesai dimasukkan. Jika CF Tree berkembang melewati batas ukuran maksimum yang telah ditetapkan, maka CF Tree yang telah ada akan dibangun ulang dengan cara meningkatkan kriteria ukuran penerimaan. CF Tree yang melewati batas biasanya dikarenakan pada saat proses algoritma CF Tree ini dijalankan, terbentuk daun entri yang beranggotakan outlier . Outlier pada analisis Two Step Cluster adalah data yang tidak dapat dimasukkan pada gerombol manapun. Pada saat CF Tree akan dibangun ulang, maka akan diperiksa daun entri yang berpotensi sebagai outlier. Daun entri yang anggotanya berpotensi sebagai outlier merupakan daun entri yang jumlah anggotanya kurang dari fraksi ukuran gerombol yang memiliki jumlah paling besar yang telah ditetapkan SPSS Technical Support, 2001. Pada saat pembangunan ulang, daun entri yang berpotensi sebagai outlier disimpan. Setelah CF Tree dibangun ulang, maka satu per satu data dalam daun entri yang berpotensi sebagai pencilan dimasukkan ke dalam CF Tree yang baru tanpa mengubah ukuran CF Tree tersebut. Jika masih ada data yang tidak masuk ke dalam daun entri manapun, maka data tersebut dikatakan sebagai outlier. Dan data-data yang dideteksi sebagai outlier dimasukkan ke dalam satu gerombol. Besarnya nilai fraksi dimasukkan ke dalam Options “Outlier Treatment” pada SPSS. Pada gambar algoritma CF Tree di atas dan pada penelitian ini, maksimum depth dan maksimum node yang digunakan mengikuti default dari SPSS yaitu sebesar 3 dan 8. Sehingga maksimum daun entri anak gerombol yang terbentuk adalah sebanyak 512 anak gerombol. • Tahap kedua : Pembentukan gerombol akhir Pembentukan gerombol akhir ditandai dengan terbentuknya gerombol yang optimal. Suat u gerombol dikatakan optim al apabila memiliki jarak antargerombol paling jauh dan jarak antarobjek dalam gerombol tersebut paling dekat. Semakin dekat jarak antarobjek maka semakin besar kemiripan antarobjek 3 dalam satu gerombol. Pada tahapan ini, hasil dar i tahap pertama yaitu daun entri anak gerombol dari Cluster Feature CF Tree digerombolkan menggunakan metode gerombol berhirarki dengan prosedur penggabungan agglomerative. Tiap-tiap daun entri akhir yang terbentuk pada tahap pertama akan digabungkan satu per satu sesuai dengan ukuran jarak yang telah ditetapkan. Prosedur ini berakhir sampai seluruh daun entri menjadi satu gerombol. Apabila pada tahap pertama terdeteksi daun entri yang beranggotakan outlier, maka daun entri tersebut tidak diikutsertakan pada tahap kedua. Penentuan Jumlah Gerombol Dalam penentuan jumlah gerombol optimal, ada dua langkah yang harus dilakukan. Langkah pertama yaitu menghitung BIC Bayesian Information Criterion atau AIC Akaike’s Information Criterion saat semua daun entri hasil akhir pada tahap satu menjadi anggota dalam 1, 2, 3,... gerombol. Rumus BIC dan AIC untuk jumlah gerombol sebanyak J adalah sebagai berikut : ∑ = + − = J j N j m j J BIC 1 log 2 ζ ∑ = + − = J j j j m J AIC 1 2 ζ dimana :         ∑ = − + = B K k k L A K J j m 1 1 2 A K = jumlah total peubah numerik B K = jumlah total peubah kategorik k L = jumlah kategori untuk peubah kategorik ke-k N = jumlah total data Kemudian hasil perhitungan tersebut digunakan untuk menduga jumlah gerombol. Langkah yang kedua yaitu mencari peningkatan jarak terbesar antara dua gerombol terdekat pada masing-masing tahapan penggerombolan. Solusi gerombol yang terbaik memiliki BIC terkecil, tetapi ada beberapa kasus dalam penggerombolan dimana BIC akan terus menurun nilainya bila jumlah gerombol semakin meningkat. Maka dalam situasi tersebut, ratio BIC Changes rasio perubahan BIC dan ratio of Distance Measure Changes rasio perubahan jarak mengidentifikasi solusi gerombol terbaik. M enurut Chiu et. al 2001: 266 BIC k atau AIC k menghasilkan penduga awal yang baik bagi jumlah gerombol maksimum. Jumlah gerombol maksimum adalah banyaknya gerombol yang memiliki rasio BIC k BIC 1 yang pertama kali lebih kecil dari c 1 SPSS menetapkan c 1 = 0. 04 yang didasarkan atas studi simulasi SPSS Technical Support, 2001. Jumlah gerombol yang terbentuk dapat diketahui dengan menggunakan perbandingan antar jarak untuk k gerombol, dengan rumus perbandingannya sebagai berikut : k d k d k R 1 − = k l k l k d − − = 1 dimana : 2 log v v v BIC n r l − = atau 2 2 v v v AIC r l − = 1 , − = k k v 1 − k d = jarak jika k gerombol digabungkan dengan k -1 gerombol Jumlah gerombol diperoleh berdasarkan ketentuan ditemukannya perbedaan yang nyata pada rasio perubahan gerombol. Rasio perubahan gerombol dihitung sebagai berikut : 2 1 k R k R untuk dua nilai terbesar dari Rk k=1,2,…,k max ; k max didapatkan dari langkah pertama. Jika rasio perubahan lebih besar daripada nilai batas c 2 SPSS menetapkan nilai c 2 = 1.15 berdasarkan studi simulasi jumlah gerombol ditetapkan sama dengan k 1 , selainnya jumlah gerombol sama dengan maksimum { k 1 ,k 2 } . Ukuran Jarak Ukuran kemiripan dan ketakmiripan yang digunakan dalam analisis gerombol adalah jarak antarobjek dan jarak antargerombol. Fungsi jarak yang digunakan pada analisis Two Step Cluster adalah : 4

1. Jarak Euclidean