Studies of Self-Organizing Maps (SOM) In Grouping Objects (case study: grouping of villages/urbans in Wajo Regency, South Sulawesi).

KAJIAN SELF-ORGANIZING MAPS (SOM) DALAM
PENGELOMPOKAN OBJEK
(studi kasus: pengelompokan desa/kelurahan di Kabupaten Wajo
Sulawesi Selatan)

IRWAN THAHA

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul Kajian Self-Organizing Maps
(SOM) dalam Pengelompokan Objek (studi kasus: pengelompokan desa/kelurahan
di Kabupaten Wajo Sulawesi Selatan) adalah benar karya saya dengan arahan dari
komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan
tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang
diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks
dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juli 2013
Irwan Thaha
NRP G151110091

RINGKASAN
IRWAN THAHA. Kajian Self-Organizing Maps (SOM) Dalam Pengelompokan
Objek (studi kasus: pengelompokan desa/kelurahan di Kabupaten Wajo Sulawesi
Selatan). Dibimbing oleh ERFIANI dan I MADE SUMERTAJAYA.
Penggerombolan adalah proses mengelompokkan objek ke dalam kelompokkelompok yang memiliki kemiripan. Hasil dari penggerombolan akan
menunjukkan bahwa objek-objek yang dalam satu gerombol akan lebih homogen
dibandingkan antar gerombol. Terdapat dua metode dalam analisis gerombol klasik
yaitu metode penggerombolan berhirarki dan tak berhirarki. Penentuan jumlah
gerombol yang terbentuk untuk dua metode ini dilakukan secara subjektif. Metode
penggerombolan lain juga berkembang dengan menggunakan kecerdasan buatan.
Jaringan syaraf tiruan (artificial neural network) adalah suatu paradigma
pengolahan informasi yang diilhami oleh sistem biologi yaitu neuron, seperti otak
yang memproses informasi.
Self organizing maps (SOM) merupakan salah satu bentuk topologi dari

Unsupervised Artificial Neural Network (Unsupervised ANN) yang dalam proses
trainingnya tidak memerlukan pengawasan (target output). Penerapan
penggerombolan menggunakan algoritme SOM diharapkan dapat dijadikan alat
untuk menganalisis data sehingga diperoleh karakteristik dari data yang akan
dikelompokkan. Penggerombolan digunakan untuk mengelompokkan data secara
alamiah tanpa berdasarkan target kelas tertentu.
Pada penelitian ini, SOM dibandingkan dengan metode penggerombolan
dengan ukuran data besar yaitu two step cluster (TSC). Menurut Bacher (2004),
metode two step cluster merupakan suatu metode penggerombolan yang dapat
mengatasi masalah skala pengukuran, khususnya untuk data berukuran besar
dengan peubah yang memiliki tipe data kategorik dan numerik. Kinerja
penggerombolan SOM dan metode two step cluster dibandingkan melalui data
simulasi, dan selanjutnya menerapkan metode SOM pada penggerombolan
desa/kelurahan di Kabupaten Wajo Sulawesi Selatan.
Data dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data
sekunder. Data simulasi berupa data bangkitan sebaran normal ganda (μ,Ʃ) yang
berguna untuk mengukur kinerja metode two step clster dan SOM dalam
mengelompokkan objek. Data sekunder yang digunakan dalam penelitian ini
berupa data dari Badan Pusat Statistik (BPS) wilayah/desa di kecamatan di
Kabupaten Wajo provinsi Sulawesi Selatan adalah data Potensi Desa (PODES)

tahun 2011.
Data simulasi merupakan data bangkitan dengan tipe data numerik (M) yang
terdiri dari tiga bentuk populasi yaitu satu populasi yang beranggotakan tiga
gerombol yang berpisah secara tegas, satu populasi yang beranggotakan tiga
gerombol yang saling tumpang tindih (overlap) satu sama lain dalam jumlah kecil,
dan satu populasi yang beranggotakan tiga gerombol yang saling tumpang tindih
(overlap) satu sama lain dalam jumlah besar.
Hasil dari metode SOM dan TSC untuk data simulasi, memiliki kemampuan
untuk mengelompokkan data dengan baik, namun TSC memberikan hasil
pengelompokan yang lebih baik untuk ukuran data yang besar dibandingkan dengan
SOM. Selain itu, juga terlihat bahwa semakin besar jumlah data maka kesalahan

pengelompokan SOM akan berubah menjadi lebih besar, namun perubahannya
relatif kecil. Sebaliknya, semakin besar jumlah data maka kesalahan
pengelompokan metode TSC semakin kecil.
Data sekunder yang digunakan dalam penelitian ini berupa dokumentasi
tertulis dan identifikasi peubah yang digunakan tentang desa/kelurahan di
Kabupaten Wajo Provinsi Sulawesi Selatan adalah data Potensi Desa (PODES)
tahun 2011 yaitu: X1 (jumlah penduduk), X2 (keluarga tani), X3 (keluarga buruh
tani), X4 (keluarga pengguna listrik), X5 (bahan bakar untuk memasak sehari-hari),

X6 (fasilitas pendidikan), X7 (tenaga kesehatan), X8 (kematian penduduk). Objek
dalam terapan penelitian ini adalah seluruh desa/kelurahan di Kabupaten Wajo.
Hasil penggerombolan dengan metode SOM desa/kelurahan di Kabupaten
Wajo menghasilkan 3 gerombol. Gerombol yang terbentuk memiliki nilai deskriptif
yang sama antar gerombol dan setiap gerombol yang terbentuk didominasi oleh
beberapa kecamatan di daerah tersebut. Beberapa desa/kelurahan lain yang yang
tergabung juga memiliki kemiripan dari peubah pencirinya, misalkan berada di
sekitar kecamatan tersebut.
Kata kunci: penggerombolan, self-organizing maps, two step cluster, Kabupaten
Wajo

SUMMARY
IRWAN THAHA. Studies of Self-Organizing Maps (SOM) In Grouping Objects
(case study: grouping of villages/urbans in Wajo Regency, South Sulawesi).
Supervised by ERFIANI and I MADE SUMERTAJAYA.
Clustering is a process of classifying objects into groups which have similarity.
The result of clustering will show that objects in one cluster will be more homogeneous
than others. There are two methods in classic clustering analysis i.e. hierarchical cluster
method and non-hierarchical cluster method. Determination of the number of clusters
which formed by them is done subjectively. The cluster other methods also developed by

using artificial intelligence. Artificial neural network is an information processing
paradigm that inspired by the biology systems, it is neuron. Like brain which
process information.
Self-organizing maps (SOM) is one of the topology of Unsupervised
Artificial Neural Network (Unsupervised ANN) which process does not require
monitoring in his training. Application clustering using SOM algorithm is expected
to be used as a tool to analyze the data in order to obtain the characteristics of the
data that will be grouped. Clustering is used to group the data naturally without
based on the specific class target.
In this study, SOM compared with clustering method with large data sizes, it
was two-step cluster. According to Bacher (2004), two-step cluster method (TSC)
was a cluster method which can resolve the problem clustering measurement scale,
especially for large data with variables which have categorical and numerical data
types. Performance clustering SOM and two-step cluster method compared by the
simulation data, afterwards, applying the method of SOM on clustering
villages/urbans in Wajo regency, South Sulawesi.
The data in this study consisted of two sources i.e. simulated data and
secondary data. Simulated data was generated data multivariate distribution (μ,Ʃ)
which useful to measure the performance of two-step cluster method and SOM in
classifying an object. Secondary data, which used in this study, BPS’s data in Wajo

regency, South Sulawesi, was Village Potential Data (VPD) in 2011.
Simulation data was the generated data numeric type (M) which consisted of
three forms of the population i.e. a). a population consisted of three clusters were
clearly separated, b). a population which consisted of three clusters of overlapping
(overlap) each other in small numbers, and c). a population that consisted of three
clusters of overlapping (overlap) each other in large numbers.
The results of methods SOM and TSC showed that simulation data has the
good ability to classify data, however, TSC provides better clustering results for
large data sizes than SOM. In addition, it is also showed that the larger the number
of data, the misclassification of SOM would become larger, nevertheless, the
changes were relatively smaller. In the other hand, the larger the number of data the
misclassification of TSC method was become smaller.
Secondary data, which used in this study, written documentation and
identification of used variables about areas/villages in Wajo regency, South
Sulawesi, was Village Potential Data (VPD) in 2011 i.e. : X1 (total population), X2
(family farm), X3 (family farm laborer), X4 (family power user), X5 (fuel for daily

cooking), X6 (educational facilities), X7 (health personnel), X8 (population
mortality). Objects in this research were applied around the village/urbans in Wajo
district.

The results of clustering with SOM method, village/urbans in the Wajo
regency produced 3 clusters. The formed clusters have the same descriptive value
between clusters, and each clusters which formed, was dominated by a few districts
in that area. Some other villages/urbanss incorporated also have similar caracteristic
of variables, e.g. they being around the district.
Keywords: clustering, self-organizing maps, two-step cluster, Wajo

© Hak Cipta Milik IPB, Tahun 2013
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau
menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB

KAJIAN SELF-ORGANIZING MAPS (SOM) DALAM
PENGELOMPOKAN OBJEK
(studi kasus: pengelompokan desa/kelurahan di Kabupaten Wajo Sulawesi Selatan)


IRWAN THAHA

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
pada
Program Studi Statistika

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2013

Penguji Luar Komisi pada Ujian Tesis: Farit Mochamad Afendi

Judul Tesis : Kajian Self-Organizing Maps (SOM) dalam pengelompokan objek
(studi kasus: pengelompokan desa/kelurahan di Kabupaten Wajo
Sulawesi Selatan)
Nama
: Irwan Thaha

NRP
: G151110091

Disetujui oleh
Komisi Pembimbing

Dr Ir Erfiani, MSi
Ketua

Dr Ir I Made Sumertajaya, MSi
Anggota

Diketahui oleh

Ketua Program Studi Statistika

Dekan Sekolah Pascasarjana

Dr Ir Erfiani, MSi


Dr Ir Dahrul Syah, MScAgr

Tanggal Ujian: 15 Juli 2013

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah yang berjudul “Kajian Self-Organizing
Maps (SOM) dalam pengelompokan objek (studi kasus: pengelompokan
desa/kelurahan di Kabupaten Wajo Sulawesi Selatan)” berhasil diselesaikan.
Terima kasih penulis ucapkan kepada
1. Ibu Dr Ir Erfiani, MSi selaku pembimbing I dan ketua program studi
Pascasarjana Statistika dan Bapak Dr Ir I Made Sumertajaya, MSi selaku
pembimbing II, yang telah banyak memberikan bimbingan dan saran
dalam penyusunan karya ilmiah ini.
2. Penguji luar komisi bapak Farit Mochamad Afendi, Ph D pada ujian tesis,
yang telah memberikan kritik dan saran dalam perbaikan penyusunan
karya ilmiah ini.
3. Kedua orangtua, papa dan mama, serta seluruh keluarga, atas segala doa

dan kasih sayangnya.
4. Sahabat mahasiswa pascasarjana Statistika dan Statistika Terapan IPB
2011 atas kebersamaannya.
Semoga karya ilmiah ini bermanfaat.

Bogor, Juli 2013
Irwan Thaha

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

1 PENDAHULUAN
Latar Belakang
Tujuan Penelitian

1
1
2

2 TINJAUAN PUSTAKA
Analisis Gerombol
Self-Organizing Maps (SOM)
Indeks Davies-Bouldin
Two Step Cluster (TSC)
Penentuan Jumlah Gerombol TSC
Ukuran Jarak

3
3
4
6
6
8
9

3 METODE PENELITIAN
Data
Metode

11
11
14

4 HASIL DAN PEMBAHASAN
Simulasi
Perbandingan Kinerja SOM dan TSC
Penerapan Metode SOM

17
17
19
22

5 SIMPULAN DAN SARAN
Simpulan
Saran

26
26
26

DAFTAR PUSTAKA

27

LAMPIRAN

28

RIWAYAT HIDUP

34

DAFTAR TABEL
1
2
3
4
5
6

Eksplorasi data simulasi dan persentasi overlap
11
Learning Rate dan Penurunan LR setiap scenario dengan IDB terkecil 17
Eksplorasi data simulasi
18
Hasil penggerombolan dengan metode SOM dan TSC
19
Nilai koefisien korerasi antar peubah
23
Eksplorasi peubah tiap gerombol
25

DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9

Ilustrasi sebaran gerombol yang terpisah secara tegas
Ilustrasi sebaran gerombol yang overlap dalam jumlah kecil
Ilustrasi sebaran gerombol yang overlap dalam jumlah besar
Diagram alir tahapan penelitian
CP dan U-matriks skenario I
CP dan U-matriks skenario II
CP dan U-matriks skenario III
Visualisasi U-matriks dan CP desa/kelurahan
Output dengan jumlah 3 gerombol

11
12
13
16
20
21
22
23
24

DAFTAR LAMPIRAN
1 Kombinasi LR dan PLR dengan nilai IDB terkecil untuk masing-masing
skenario
28
2 Nilai IDB terkecil masing-masing jumlah gerombol yang terpilih
31

1

1 PENDAHULUAN

Latar Belakang
Penggerombolan adalah proses mengelompokkan objek ke dalam
kelompok-kelompok yang memiliki kemiripan. Hasil dari penggerombolan akan
menunjukkan bahwa objek-objek yang dalam satu gerombol akan lebih homogen
dibandingkan antar gerombol. Terdapat dua metode dalam analisis gerombol
klasik yaitu metode penggerombolan berhirarki dan tak berhirarki. Penentuan
jumlah gerombol yang terbentuk untuk dua metode ini dilakukan secara subjektif.
Pada metode penggerombolan berhirarki, penentuan besarnya pemotongan (cut
off) pada dendogram masih ditentukan oleh peneliti. Sedangkan pada metode
penggerombolan non hirarki, penentuan banyaknya jumlah gerombol akhir
ditentukan oleh pengetahuan dan pengalaman peneliti (Hair et al. 1998). Kedua
metode ini berbasis pada data yang berskala interval atau rasio.
Metode penggerombolan lain juga berkembang dengan menggunakan
kecerdasan buatan. Jaringan syaraf tiruan (artificial neural network) adalah suatu
paradigma pengolahan informasi yang diilhami oleh sistem biologi yaitu neuron,
seperti otak yang memproses informasi. Kunci jaringan syaraf tiruan (JST) adalah
struktur sistem pengolahan informasi, yang terdiri atas sejumlah unsur-unsur
(syaraf) yang bekerja saling berhubungan untuk memecahkan permasalahan
spesifik. Proses pembelajaran terhadap perubahan bobot dalam jaringan syaraf
tiruan ada dua, yaitu pembelajaran terawasi (supervised learning) dan
pembelajaran tak terawasi (unsupervised learning) (Klobucar dan Subasic 2012).
Self organizing maps (SOM) merupakan salah satu bentuk topologi dari
Unsupervised Artificial Neural Network (Unsupervised ANN) yang dalam proses
pembelajarannya tidak memerlukan pengawasan (target output). Penerapan
penggerombolan menggunakan algoritme SOM diharapkan dapat dijadikan alat
untuk menganalisis data sehingga diperoleh karakteristik dari data yang akan
dikelompokkan. Penggerombolan digunakan untuk mengelompokkan data secara
alamiah tanpa berdasarkan target kelas tertentu, sedemikian sehingga objek-objek
dalam gerombol yang sama lebih mirip dibandingkan dengan objek-objek dalam
gerombol yang lain. Metode pembelajarannya dilakukan dengan update weight
berdasarkan input sensor yang terdapat pada vektor input. SOM diperuntukkan
untuk ukuran data besar dan kecil serta mampu memvisualisasikan hasil
penggerombolan tersebut dalam dimensi lebih rendah. Kemampuan dalam
visualisasi ini dapat mengatasi masalah dalam metode cluster lain yang sulit jika
ukuran data besar, misalnya penggunaan dendogram.
Pada penelitian ini, SOM akan dibandingkan dengan metode
penggerombolan dengan ukuran data besar yaitu two step cluster. Menurut Bacher
(2004), metode two step cluster merupakan suatu metode penggerombolan yang
dapat mengatasi masalah skala pengukuran, khususnya untuk data berukuran
besar dengan peubah yang memiliki tipe data kategorik dan numerik. Fungsi jarak
yang digunakan adalah jarak Euclidian atau jarak Log Likelihood. Hasil dari
metode ini adalah mengetahui gerombol optimal yang terbentuk. Gerombol
optimal memiliki jarak antar gerombol yang paling jauh, dan jarak antar obyek
yang paling dekat. Persentasi salah klasifikasi dari metode two step cluster tidak

2
berbeda nyata dengan yang dihasilkan dari metode gerombol tak berhirarki misalnya
k-means jika peubahnya kontinu (Lathifaturrahmah 2010).
Beberapa penelitian yang menggunakan SOM dan two step cluster dalam
penggerombolan objek, diantaranya: Fujino dan Yoshida (2006), Annas et al.
(2007) menggunakan PCA dan SOM dalam bidang kehutanan untuk klasifikasi
dan risiko kebakaran wilayah hutan, begitupun dengan Klobucar dan Subasic
(2012). Hasil penelitian tersebut memberikan kesimpulan bahwa SOM melakukan
pengurangan dimensi nonlinear dan menghasilkan penggerombolan yang baik,
dan merupakan dasar yang baik untuk hasil visualisasi data. Namun, SOM akan
memberikan kinerja yang buruk jika terdapat hubungan linier antar variabelnya.
Edward dkk (2006) menggunakan Indeks Davies-Bouldin (IDB) untuk validasi
gerombol. Adapun penelitian yang menggunakan two step cluster untuk
penggerombolan diantaranya Lathifaturrahmah (2010) membandingkan hasil
penggerombolan metode k-means, fuzzy k-means dan two step cluster untuk
menentukan jumlah gerombol yang ideal untuk masing-masing metode. Pada
penelitian tersebut, hasil two step cluster relatif jauh berbeda dari metode lainnya
diantaranya dipengaruhi oleh kesesuaian metode dengan jumlah data yang
digunakan. He et al. (2005) dan Shih et al. (2010) menggunakan metode two step
cluster untuk data numerik dan kategorik. Hasil percobaan menunjukkan bahwa
pendekatan data yang diusulkan dengan tipe numerik dan kategorik dapat
mencapai kualitas tinggi dari hasil penggerombolan.
Pada penelitian ini akan dibandingkan kinerja penggerombolan SOM dan
metode two step cluster melalui data simulasi, dan selanjutnya menerapkan
metode SOM pada penggerombolan desa/kelurahan di Kabupaten Wajo Sulawesi
Selatan.

Tujuan

1.
2.

Tujuan dari penelitian ini adalah:
Membandingkan hasil penggerombolan metode SOM dan two step cluster (TSC)
Menerapkan metode SOM pada penggerombolan kondisi sosial desa/kelurahan di
Kabupaten Wajo Sulawesi Selatan

3

2 TINJAUAN PUSTAKA

Analisis Gerombol
Analisis gerombol merupakan salah satu dari teknik penggerombolan
peubah ganda (multivariate) yang tujuan utamanya adalah mengelompokkan
objek berdasarkan atas kriteria yang dimiliki. Analisis gerombol
mengelompokkan objek, sehingga antara satu objek dengan objek lainnya yang
terletak dalam satu gerombol akan memiliki kesamaan tinggi yang sesuai dengan
kriteria pemilihan yang ditentukan. Hasil dari penggerombolan harus
memperlihatkan keragaman yang homogen di dalam gerombol dan keragaman
yang heterogen antargerombol yang terbentuk (Hair et al. 1998). Ada dua metode
dalam analisis gerombol satu tahap, yaitu:
Metode berhirarki
Metode pengelompokan berhirarki ditujukan untuk ukuran contoh kecil.
Pengelompokan berhirarki menghasilkan seluruh kemungkinan terbentuknya
gerombol. Metode pengelompokan berhirarki digunakan apabila banyak gerombol
yang akan dibentuk belum diketahui sebelumnya. Pada dasarnya, terdapat dua
prosedur pada pengelompokan berhirarki, yaitu prosedur penggabungan
(agglomerative) dan prosedur pembagian (divisive).
Metode agglomerative dimulai dengan n buah gerombol yang masingmasing beranggotakan satu objek. Kemudian dua gerombol yang paling dekat
digabung dan ditentukan kembali kedekatan antargerombol yang baru. Proses ini
berlanjut sampai didapatkan satu gerombol yang anggotanya adalah seluruh objek.
Metode divisive dimulai dengan satu gerombol yang anggotanya adalah seluruh
objek, kemudian objek-objek yang paling jauh dipisah dan membentuk gerombol
lain. Proses ini berlanjut sampai semua objek masing-masing membentuk satu
gerombol.
Dalam metode berhirarki terdapat beberapa ukuran jarak antargerombol,
antara lain metode pautan tunggal (single linkage), pautan lengkap (complete
linkage), pautan rataan (average linkage), metode Ward, dan metode centroid.
Fungsi jarak yang sering digunakan diantaranya adalah jarak Euclidean dan jarak
Mahalanobis.
Metode tak berhirarki
Pada metode pengelompokan tak berhirarki, peneliti harus terlebih dahulu
menentukan jumlah gerombol yang diinginkan. Salah satu contoh dari metode ini
adalah metode K-means. Pada metode ini harus ditentukan terlebih dahulu
besarnya k, yaitu banyaknya gerombol. Pemilihan k dapat ditentukan secara
subjektif berdasarkan latar belakang bidang masing-masing. Jarak yang biasanya
digunakan adalah jarak Euclidean. Penentuan pusat gerombol merupakan langkah
awal pada metode ini. Langkah selanjutnya adalah menentukan gerombol dari tiap
objek, yaitu berdasarkan atas kedekatan ukuran jarak Euclidean terhadap mean
dari masing-masing gerombol.

4
Self-Organizing Maps (SOM)
Kohonen Self Organizing Feature Maps, disingkat dengan SOFM atau lebih
terkenal dengan istilah SOM ditemukan dan dikembangkan oleh Teuvo Kohonen
1982, seorang profesor di Academy of Finland. Metode ini memungkinkan untuk
menggambarkan data multidimensi ke dalam dimensi yang lebih kecil, biasanya
satu atau dua dimensi. Proses penyederhanaan ini dilakukan dengan mengurangi
vektor yang menghubungkan masing-masing node. Cara ini disebut juga dengan
Vektor Quantization. Teknik yang dipakai dalam metode SOM dilakukan dengan
membuat jaringan yang menyimpan informasi dalam bentuk hubungan node
dengan training set yang ditentukan (Annas et al. 2007). SOM merupakan salah
satu bentuk topologi dari Unsupervised Artificial Neural Network (Unsupervised
ANN) dimana dalam proses pelatihannya tidak memerlukan pengawasan (target
output). SOM digunakan untuk mengelompokkan (penggerombolan) data
berdasarkan karakteristik/fitur-fitur data.
SOM menggunakan competitive unsupervised learning dengan bobot awal
diberikan secara acak dan disesuaikan selama dalam proses pengelompokan.
Nodes akan mengelompok ke dalam gerombol berdasarkan kemiripannya. Sampel
yang paling umum dari SOM adalah Kohonen Self-organizing Maps dengan 1
lapisan input dan 1 lapisan khusus yang menghasilkan nilai-nilai keluaran yang
saling berkompetisi. Nodes pada lapisan khusus ini dipandang sebagai grid 2
dimensi berisi nodes dengan fungsi aktivasinya yang masing-masing terhubung
dengan tiap input node oleh satu arc yang memiliki suatu nilai bobot. Data dapat
dimasukkan ke dalam banyak competitive nodes secara parallel (Klobucar and
Subasic 2012).
Penggunaan SOM dalam memvisualisasikan struktur gerombol data tidak
memiliki kelemahan tertentu yang dimiliki oleh teknik gerombol lainnya.
Meskipun SOM dapat digunakan untuk memvisualisasikan gerombol, kadangkadang diperlukan spesifikasi lebih lanjut dari gerombol SOM. Dalam hal lain
bahwa semua algoritme penggerombolan termasuk SOM biasanya mempunyai
masalah dalam menentukan batas-batas kelompok. Ini adalah masalah yang
menyebabkan kesulitan untuk menghasilkan tingkat klasifikasi tinggi output SOM.
Metode SOM lebih fleksibel terhadap berbagai asumsi, sehingga dapat digunakan
untuk berbagai jenis data (Annas et al. 2007).
Ada tiga jenis visualisasi dari SOM yang digunakan (Annas et al. 2007)
yaitu: Unified distance matrix (U-matrix), Component Planes (CP), dan Color
Coding.
1. U-matriks
U-matriks menggambarkan jarak antara node terdekat pada peta SOM. Jika
menggunakan algoritme SOM, ukuran jarak dapat dihitung antara vektor dari node
dengan yang di sekitarnya. Nilai tertinggi yang berarti jarak antara node yang
berdekatan pada U-matriks dan indikasi ini menjadi wilayah pembeda antara
kelompok. Nilai terendah menggambarkan persamaan node pada wilayah
kelompok tersebut.
2. Component Planes (CP)
Component Planes (CP) menggambarkan bentuk awal tiap indikator nilai
vektor pada node. Visualisasi CP mampu merealisasikan pola kelompok dari
distribusi data pada grid node dan menghasilkan korelasi antara peubah input. U-

5

matriks dan CP dapat divisualisasikan secara simultan dengan menggunakan
SOM. Visualisasi ini dapat digunakan untuk membuat pengertian dari peubah
yang termasuk dalam kelompok.
3. SOM color-coding
SOM color-coding juga ditambahkan untuk pembuatan informasi pada peta.
Metode kombinasi seperti ukuran jarak dan kode warna mampu meningkatkan
tampilan pengelompokan SOM. Nilai jarak digunakan untuk mendefinisikan node
dengan perbedaan warna, yang memberikan kejelasan penggambaran kelompok.
Code warna menandai node menurut struktur kelompok. Kelompok yang
memiliki kesamaan nilai akan diwarnai seragam, jika wilayah dari peta tidak
sesuai dengan kelompok, maka akan mempunyai warna yang berbeda. Sehingga,
SOM color-coding menguraikan tanda node, yang menjadi masalah bagaimana
membedakan wilayah antara kelompok yang dapat dijelaskan jika pewarnaannya
tidak jelas untuk menyatakan batas dari kelompok.
Algoritme SOM

1.
2.
3.
4.

Algoritma SOM terdiri atas (Siang, 2005):
Mengisikan bobot antar neuron input dan output wji dengan bilangan random
0 sampai 1.
Menetapkan parameter learning rate ( )
Memilih salah satu input dari vektor input yang ada.
Menghitung jarak (dj) antarvektor input terhadap vektor output dengan
masing-masing neuron output dengan rumus:


= ∑(
5.
6.

7.
8.
9.

=



)

Mencari nilai terkecil dari seluruh bobot (dj). Index dari bobot (dj) yang
paling mirip disebut winning neuron.
Memperbarui setiap bobot μij dengan menggunakan rumus:
=

+�



Memperbarui learning rate.
Menyimpan bobot yang telah konvergen.
Mengulangi langkah 6 sampai dengan langkah 7 hingga tidak ada perubahan
pada bobot map atau telah mencapai iterasi atau epoch maksimal.

Perubahan tingkat pembelajaran (LR/α/ ) 0 <
< 1, dengan rumus
α(t + 1) = α(t). Lambang adalah penurunan tingkat pembelajaran menurun
seiring perubahan waktu t. Kriteria pemberhentian bisa berupa pembatasan jumlah
iterasi, atau ketika = 0. Apabila semua
hanya berubah sedikit saja, maka
iterasi telah mencapai konvergensi sehingga dapat dihentikan. Pengelompokan
vektor dilakukan dengan menghitung jarak vektor dengan jarak optimal.

6

Indeks Davies-Bouldin
Validasi gerombol adalah prosedur evaluasi hasil analisis gerombol secara
kuantitatif dan objektif. Indeks validitas digunakan sebagai metode validasi
gerombol untuk evaluasi kuantitatif dari hasil penggerombolan. Salah satu indeks
validitas ialah Indeks Davies-Bouldin (Salazar et al. 2002). Pengukuran ini
memaksimalkan jarak antar-gerombol antara gerombol Ci dan Cj dan pada waktu
yang sama mencoba untuk meminimalkan jarak antartitik dalam sebuah gerombol.
Jarak intra-gerombol sc (Qk) dalam gerombol Qk ialah:
∑ ‖� − ‖

dengan Nk adalah banyak titik yang termasuk dalam gerombol Qk dan Ck adalah
centroid dari gerombol Qk. Jarak antar-gerombol didefinisikan:
=

=‖





dengan Ck dan Cl adalah centroid gerombol k dan l. Di lain pihak, Indeks DaviesBouldin didefinisikan:
=



��

=

max {


+

,

}

dengan nc adalah banyak gerombol. Skema penggerombolan yang optimal
menurut Indeks Davies-Bouldin ialah yang memiliki Indeks Davies-Bouldin
minimal (Salazar et al. 2002).

Two step cluster (TSC)
Metode ini dapat mengatasi masalah skala pengukuran yang tidak sama,
dalam hal ini bertipe kontinu dan kategorik, serta memiliki jumlah objek amatan
relatif besar. Metode ini masih memiliki kelemahan yaitu sensitif terhadap data
yang berupa urutan atau tingkatan, sehingga masih tidak mampu dalam
menangani data ordinal. Apabila terdapat peubah yang bertipe ordinal, maka
sebelum dianalisis peubah tersebut harus ditransformasi terlebih dahulu.
Jarak antara dua gerombol didefinisikan sebagai jarak antar pusat dari
masing-masing gerombol tersebut. Pusat dari suatu gerombol adalah vektor dari
rataan masing-masing peubahnya. Jarak yang digunakan dalam metode two step
cluster adalah jarak Log-Likelihood dan jarak Euclidean.
Prosedur pengelompokan objek dalam metode two step cluster dilakukan
melalui dua tahapan (Bacher et al. 2004), yaitu tahap pembentukan gerombol awal
dan tahap pembentukan gerombol akhir (optimal).
Pembentukan gerombol awal
Tahap gerombol awal menggunakan pendekatan pengelompokan sekuensial.
Pada tahap ini data yang ada dimasukkan satu per satu, kemudian ditentukan data

7

tersebut harus masuk pada gerombol yang telah terbentuk sebelumnya atau
membentuk gerombol yang baru. Prosedur pada tahap ini diimplementasikan
dengan membangun modifikasi Clustering Feature (CF) Tree. Misalkan diberikan
N titik objek d dimensi pada suatu gerombol dimana i = 1,2,…,N. Vektor
penggerombolan feature dari gerombol didefinisikan sebagai quadriple:
CF=(N,M,V,K) dimana N adalah banyaknya objek pada gerombol, M menyatakan
rata-rata dari peubah kontinu dari N objek, V adalah variansi dari setiap peubah
kontinu pada N objek, K adalah banyaknya taraf pada setiap peubah kategorik.
CF-tree adalah keseimbangan tinggi pohon dengan dua parameter yaitu branching
factor (B) dan threshold (T) (SPSS 2001).
Outlier pada analisis two step cluster adalah data yang tidak dapat
dimasukkan pada gerombol manapun. Pada saat CF Tree akan dibangun ulang,
maka akan diperiksa daun entri yang berpotensi sebagai outlier. Daun entri yang
anggotanya berpotensi sebagai outlier merupakan daun entri yang jumlah
anggotanya kurang dari fraksi ukuran gerombol yang memiliki jumlah paling
besar yang telah ditetapkan (SPSS Technical Support 2001). Pada saat
pembangunan ulang, daun entri yang berpotensi sebagai outlier disimpan. Setelah
CF Tree dibangun ulang, maka satu per satu data dalam daun entri yang
berpotensi sebagai pencilan dimasukkan ke dalam CF Tree yang baru tanpa
mengubah ukuran CF Tree tersebut. Jika masih ada data yang tidak masuk ke
dalam daun entri manapun, maka data tersebut dikatakan sebagai outlier. Dan
data-data yang dideteksi sebagai outlier dimasukkan ke dalam satu gerombol.
Gerombol yang memiliki jarak terbesar dikatakan memiliki pencilan jika
jarak antara gerombol tersebut lebih besar dari titik kritis c, dengan rumusnya
sebagai berikut:
c = log(V)
dengan:
V = Πk Rk Πm Lm
Rk = range dari peubah kontinu ke-k
Lm = jumlah kategori untuk peubah kategori ke-m
Pada jarak Euclidean, data yang memuat pencilan memiliki prosedur yang
sama dengan jarak Log-Likelihood. Dikatakan pencilan jika jarak Euclidean
terbesar antara gerombol tersebut lebih besar dari titik kritis c, dengan rumus c
sebagai berikut:
=


=

�̂



dengan:
KA = jumlah total peubah kontinu
�̂ = ragam dugaan untuk peubah kontinu ke-l dalam gerombol k

Pembentukan CF Tree terdiri dari dua tahapan. Tahap pertama yaitu tahap
penyisipan (inserting) dan tahapan yang kedua adalah tahap pembentukan kembali
(rebuilding). Pada tahap inserting, secara random dipilih satu objek lalu diukur
jaraknya dengan objek yang lain. Jika jarak tersebut kurang dari jarak maksimum,
maka objek tersebut dimasukkan ke dalam satu gerombol. Tetapi jika jarak
tersebut melebihi jarak maksimum, maka objek tersebut dianggap pencilan dan

8
begitu seterusnya untuk objek selanjutnya. Dari pencilan tersebut akan dibuat
suatu gerombol yang baru. Tahap ini merupakan tahap rebuilding. Batas jarak
maksimum harus ditingkatkan sehingga dapat memasukkan lebih banyak objek.
Peningkatan jarak ini dapat mengakibatkan objek-objek yang tadinya berasal dari
gerombol yang berbeda bergabung menjadi satu gerombol CF Tree, sehingga
menghasilkan CF Tree yang berukuran lebih kecil dari semula (Bacher et al.
2004).
Pembentukan gerombol akhir (optimal)
Pembentukan gerombol akhir ditandai dengan terbentuknya gerombol yang
optimal. Suatu gerombol dikatakan optimal apabila memiliki jarak antar gerombol
paling jauh dan jarak antarobjek dalam gerombol tersebut paling dekat. Semakin
dekat jarak antarobjek maka semakin besar kemiripan antarobjek dalam satu
gerombol. Pada tahapan ini, hasil dari tahap pertama yaitu daun entri (anak
gerombol) dari Clustering Feature (CF) Tree dikelompokkan menggunakan
metode gerombol berhirarki dengan prosedur penggabungan (agglomerative).
Tiap-tiap daun entri akhir yang terbentuk pada tahap pertama akan digabungkan
satu per satu sesuai dengan ukuran jarak yang telah ditetapkan. Prosedur ini
berakhir sampai seluruh daun entri menjadi satu gerombol. Apabila pada tahap
pertama terdeteksi daun entri yang beranggotakan outlier, maka daun entri
tersebut tidak diikutsertakan pada tahap kedua.
Penentuan jumlah gerombol TSC
Dalam penentuan jumlah gerombol optimal, ada dua langkah yang harus
dilakukan. Langkah yang pertama yaitu menghitung BIC (Bayesian Information
Criterion) atau AIC (Akaike’s Information Criterion) untuk tiap–tiap gerombol.
Kemudian hasil perhitungan tersebut digunakan untuk menduga jumlah gerombol.
Langkah yang kedua yaitu mencari peningkatan jarak terbesar antara dua
gerombol terdekat pada masing-masing tahapan pengelompokan.
Rumus BIC dan AIC untuk gerombol J adalah sebagai berikut:
= − ∑� +
=

= − ∑� +
=

dengan:

A

= {

log⁡ �



+∑
=



}

K = jumlah total peubah numerik
KB = jumlah total peubah kategorik
Lk = jumlah kategori untuk peubah kategorik ke-k
N = jumlah total data
Kemudian hasil perhitungan tersebut digunakan untuk menduga jumlah
gerombol. Langkah yang kedua yaitu mencari peningkatan jarak terbesar antara

9

dua gerombol terdekat pada masing-masing tahapan pengelompokan. Solusi
gerombol yang terbaik memiliki BIC terkecil, tetapi ada beberapa kasus dalam
pengelompokan dimana BIC akan terus menurun nilainya bila jumlah gerombol
semakin meningkat. Maka dalam situasi tersebut, ratio BIC Changes (rasio
perubahan BIC) dan ratio of Distance Measure Changes (rasio perubahan jarak)
mengidentifikasi solusi gerombol terbaik.
Menurut Bacher (2004) BICk atau AICk menghasilkan penduga awal yang
baik bagi jumlah gerombol maksimum. Jumlah gerombol maksimum adalah
banyaknya gerombol yang memiliki rasio BICk/BIC1 yang pertama kali lebih kecil
dari c1 (SPSS menetapkan c1 = 0.04 yang didasarkan atas studi simulasi). Jumlah
gerombol yang terbentuk dapat diketahui dengan menggunakan perbandingan
antar jarak untuk k gerombol, dengan rumus perbandingannya sebagai berikut:

=
dengan:
� log −
� =
�−

� =



=







⁡atau

v = k, k – 1
dk – 1 = jarak jika k gerombol digabungkan dengan k - 1 gerombol
Jumlah gerombol diperoleh berdasarkan ketentuan ditemukannya perbedaan
yang nyata pada rasio perubahan gerombol. Rasio perubahan gerombol dihitung
sebagai berikut:


untuk dua nilai terbesar dari R(k) (k = 1,2,…,kmax; kmax didapatkan dari langkah
pertama). Jika rasio perubahan lebih besar daripada nilai batas c2 (SPSS
menetapkan nilai c2 = 1.15 berdasarkan studi simulasi) jumlah gerombol
ditetapkan sama dengan k1, selainnya jumlah gerombol sama dengan maksimum
{k1,k2}.

Ukuran jarak
Ukuran kemiripan dan ketakmiripan yang digunakan dalam analisis
gerombol adalah jarak antarobjek dan jarak antargerombol. Fungsi jarak yang
digunakan pada analisis Two step cluster adalah:
Jarak Euclidean
Jarak Euclidean paling sering digunakan diberbagai metode dalam analisis
gerombol, tetapi ukuran jarak ini hanya dapat digunakan apabila semua peubah

10
yang digunakan bertipe kontinu (numerik). Jarak Euclidean antara gerombol ke-i
dan gerombol ke-j dari p peubah didefinisikan:


= [∑(�̅ − �̅ ) ]

,

=

dengan:
, = jarak antara objek i ke objek j
̅
� = nilai tengah pada gerombol ke-i untuk peubah ke-k
�̅ = nilai tengah pada gerombol ke-j untuk peubah ke-k
p = banyaknya peubah yang diamati
Jarak Log-Likelihood
Jarak Log-Likelihood dapat digunakan untuk peubah kontinu maupun
kategorik. Jarak antara gerombol j dan s didefinisikan sebagai berikut:
,

dengan:

= ⁡ � + ⁡ �� − �

� = −� ∑

�(�̂ + �̂ ) + ∑ ̂

̂



N
Njkl



= −∑
=

=







,�

=

= jumlah total data
= jumlah data digerombol j untuk peubah kontinu ke-k dengan kategorik
ke-l
�̂
= ragam dugaan untuk peubah kontinu ke-k untuk keseluruhan observasi
dalam gerombol ke-j
�̂
= ragam dugaan untuk peubah kontinu ke-k untuk keseluruhan observasi
�̂ �
= ragam dugaan untuk peubah kontinu ke-k untuk keseluruhan observasi
dalam gerombol ke-s dan ke-j
KA
= jumlah total peubah kontinu
B
K
= jumlah total peubah kategorik
Lk
= jumlah kategorik untuk kategori ke-k
d(j,s) = jarak antara gerombol j dan s
= indeks kombinasi gerombol j dan s

11

3 METODE PENELITIAN
Data
Data dalam penelitian ini terdiri dari dua sumber yaitu data sekunder dan
data simulasi. Data sekunder digunakan untuk menggerombolkan desa/kelurahan
di Kabupaten Wajo dan data simulasi berguna untuk mengukur kinerja metode
TSC dan SOM dalam mengelompokkan objek.
Data simulasi
Data simulasi merupakan data bangkitan dengan tipe data numerik (M) yang
terdiri dari tiga bentuk populasi yaitu satu populasi yang beranggotakan tiga
gerombol yang berpisah secara tegas, satu populasi yang beranggotakan tiga
gerombol yang saling tumpang tindih (overlap) satu sama lain dalam jumlah kecil,
dan satu populasi yang beranggotakan tiga gerombol yang saling tumpang tindih
(overlap) satu sama lain dalam jumlah besar.
Tabel 1 Kombinasi data simulasi dan persentasi overlap
Model komposisi
Ukuran data
%
Model populasi
peubah
(n)
overlap
500
0
Skenario I
Numerik
1000
0
500
20
Skenario II
Numerik
1000
23
500
80
Skenario III
Numerik
1000
85
Skenario 1: satu populasi yang beranggotakan tiga gerombol yang berpisah
secara tegas (jarak antar gerombol relative besar). Gambar 1 menunjukkan
ilustrasi gerombol pada sebaran populasi model univariat.

-8

-4

0
X

4

8

Gambar 1 Ilustrasi sebaran gerombol pada skenario I

12

Gerombol 1: μ(X1i) = -6.00; i=1,2,3,..., n1, (note: n1 = n/4)
Gerombol 2: μ(X2i) = 0.00; i=1,2,3,..., n2, (note: n2 = n/2)
Gerombol 3: μ(X3i) = +6.00; i=1,2,3,..., n3, (note: n3 = n/4)
Pembangkitan data simulasi sesuai dengan kombinasi yang terlihat pada
Tabel 1. Setiap gugus data terdiri atas 5 peubah yaitu X1, X2,…, X5. Gugus data
yang dibangkitkan n = 500, n = 1000 masing-masing diulang 100 kali dengan
sebaran normal ganda Ng (μ,Ʃ), dengan μ(X1i) = [-6,-6,-6,-6,-6],
μ(X2i) = [0,0,0,0,0], μ(X3i) = [6,6,6,6,6], dan matriks peragamnya

Ʃ=

[

]

Skenario 2: satu populasi yang beranggotakan tiga gerombol yang saling
tumpang tindih (overlap) satu sama lain (pemisahan antar gerombol tidak tegas).
Gambar 2 menunjukkan ilustrasi gerombol pada sebaran populasi model univariat.

-6

-3

0

4

6

X

Gambar 2 Ilustrasi sebaran gerombol pada skenario II
Gerombol 1: μ(X1i) = -4.00; i=1,2,3,..., n1, (note: n1 = n/4)
Gerombol 2: μ(X2i) = 0.00; i=1,2,3,..., n2, (note: n2 = n/2)
Gerombol 3: μ(X3i) = +4.00; i=1,2,3,..., n3, (note: n3 = n/4)
Pembangkitan data simulasi sesuai dengan kombinasi yang terlihat pada
Tabel 1. Setiap gugus data terdiri atas 5 peubah yaitu X1, X2,…, X5. Gugus data
yang dibangkitkan n = 500, n = 1000 masing-masing diulang 100 kali dengan
sebaran normal ganda Ng (μ,Ʃ), dengan
μ(X1i) = [-4,-4,-4,-4,-4],
μ(X2i) = [0,0,0,0,0], μ(X3i) = [4,4,4,4,4], dan matriks peragamnya

13

Ʃ=

[

]

Skenario 3: satu populasi yang beranggotakan tiga gerombol yang saling
tumpang tindih (overlap) satu sama lain dalam jumlah yang besar. Gambar 3
menunjukkan ilustrasi gerombol pada sebaran populasi model univariat.

-4.5

-1.5

-3.0

0.
0X

1.5

3.0

4.5

Gambar 3 Ilustrasi sebaran gerombol pada skenario III
Gerombol 1: μ(X1i) = -2.00; i=1,2,3,..., n1, (note: n1 = n/4)
Gerombol 2: μ(X2i) = 0.00; i=1,2,3,..., n2, (note: n2 = n/2)
Gerombol 3: μ(X3i) = +2.00; i=1,2,3,..., n3, (note: n3 = n/4)
Pembangkitan data simulasi sesuai dengan kombinasi yang terlihat pada
Tabel 1. Setiap gugus data terdiri atas 5 peubah yaitu X1, X2,…, X5. Gugus data
yang dibangkitkan n = 500, n = 1000 masing-masing diulang 100 kali dengan
sebaran normal ganda Ng (μ,Ʃ), dengan
μ(X1i) = [-2,-2,-2,-2,-2],
μ(X2i) = [0,0,0,0,0], μ(X3i) = [2,2,2,2,2], dan matriks peragamnya

Ʃ=

[

]

Data sekunder
Data sekunder yang digunakan dalam penelitian ini data data Potensi Desa
(PODES) tahun 2011 Kabupaten Wajo provinsi Sulawesi Selatan dengan peubah
yang digunakan yaitu: X1 (jumlah penduduk), X2 (jumlah keluarga tani),

14
X3 (jumlah keluarga buruh tani), X4 (jumlah keluarga pengguna listrik), X5
(jumlah fasilitas pendidikan), X6 (jumlah tenaga kesehatan), X7 (jumlah kematian
penduduk). Objek dalam terapan penelitian ini adalah seluruh desa/kelurahan di
Kabupaten Wajo.
Metode
Langkah-langkah analisis data yang dilakukan berkaitan dengan tujuan
penelitian dilakukan melalui tahapan sebagai berikut:
1. Eksplorasi dan deskriptif data bangkitan
Tahapan ini dilakukan untuk melihat sebaran data bangkitan pada masingmasing skenario. Selain itu, juga untuk menunjukkan tingkat kekonsistenan
rataan, korelasi, dan ragam-peragam data bangkitan.
2. Penggerombolan dengan metode SOM
Penggerombolan dilakukan dengan membuat map pada masing-masing
skenario, selanjutnya menetapkan jumlah gerombol untuk menguhitung nilai IDB
gerombol tersebut. Jumlah iterasi yang digunakan adalah jumlah iterasi yang telah
konsisten dengan nilai IDB terkecil.
3. Penggerombolan dengan metode two step cluster
Tahapan dalam metode ini adalah sebagai berikut:
a. Penggerombolan awal (prepenggerombolan).
Algoritma pertama pada CF Tree adalah memasukkan data satu per satu.
Data yang masuk dihitung jaraknya pada daun entri yang telah ada dengan
menggunakan ukuran jarak yang telah ditentukan. Apabila jarak tersebut kurang
dari kriteria ukuran penerimaan (threshold distance) maka data tersebut masuk ke
dalam daun entri yang telah ada, tetapi jika sebaliknya maka data membentuk
daun entri baru.
Proses ini berlanjut sampai semua data selesai dimasukkan. Jika CF Tree
berkembang melewati batas ukuran maksimum yang telah ditetapkan, maka CF
Tree yang telah ada akan dibangun ulang dengan cara meningkatkan kriteria
ukuran penerimaan.
b. Penggerombolan akhir.
Dalam penentuan jumlah gerombol optimal, ada dua langkah yang harus
dilakukan. Langkah yang pertama yaitu menghitung BIC (Bayesian Information
Criterion) atau AIC (Akaike’s Information Criterion) untuk tiap–tiap gerombol.
Kemudian hasil perhitungan tersebut digunakan untuk menduga jumlah gerombol.
Metode ini menggunakan software SPSS dalam analisis gerombolnya.
4. Mengevaluasi kinerja metode SOM dan two step cluster
Perbandingan metode terbaik dilakukan dengan memeriksa kesalahan
pengelompokan masing-masing metode. Tingkat kesalahan minimum
pengelompokan merupakan metode terbaik dalam penggerombolan ini.

15

5. Penerapan metode SOM
Tahapan yang dilakukan dalam analisis ini:
a. Menstandarisasikan gugus peubah data di Kabupaten Wajo Sulawesi Selatan
b. Menggerombolkan gugus data dengan metode SOM
Pada tahap ini, hasil penggerombolan dicobakan pada berbagai jumlah
gerombol yang terbentuk. Kemudian, mancari nilai IDB terkecil untuk
masing-masing jumlah gerombol tersebut.
c. Interpretasi dan eksplorasi daerah dari hasil penggerombolan metode SOM.

16

Data

Data simulasi

Data sekunder

Standarisasi

Metode SOM

Penggerombolan

TSC

SOM

k

k

Perbandingan
kebaikan gerombol

Pembahasan

Simpulan
Gambar 4 Skema penelitian

17

4 HASIL DAN PEMBAHASAN
Simulasi
Perbandingan kinerja metode SOM dan two step cluster (TSC) melalui
data simulasi dimaksudkan untuk mencari metode yang memberikan hasil
pengelompokan yang maksimal yaitu tingkat kesalahan pengelompokan paling
minimum. Kinerja kedua metode diukur dengan berbagai kondisi populasi data
yaitu, populasi dengan tiga gerombol yang terpisah, bercampur dalam jumlah
yang sedikit, dan bercampur dalam jumlah yang besar.
Pada metode SOM, pembelajaran diawali dengan memilih secara acak suatu
vektor input kemudian menghitung jarak vektor input yang terpilih dengan satiap
bobot input (centroid). Selanjutnya nilai bobot input pemenang akan diperbaharui
berdasarkan nilai Learning Rate (LR) yang telah ditentukan. Untuk setiap iterasi,
terjadi penurunan Learning Rate (PLR). Nilai dari LR dan PLR dipilih secara acak
dari 0 < / < 1. Parameter awal dari algoritme SOM yang digunakan yaitu:
i. Learning rate (LR), = 0.1, 0.5, 0.9
ii. Penurunan learning rate (PLR), = 0.1, 0.5, 0.9
iii. Jumlah iterasi/epoch: 50 iterasi
Pada data simulasi, diperoleh kombinasi LR dan PLR dengan nilai IDB
terkecil (lampiran 1) untuk masing-masing skenario sebagai berikut:
Tabel 2 Learning Rate dan Penurunan LR setiap skenario dengan IDB terkecil
Ukuran data
Model populasi
LR
PLR
(n)
0.9
0.9
500
Skenario I
0.9
0.1
1000
0.9
0.1
500
Skenario II
0.9
0.9
1000
0.9
0.9
500
Skenario III
0.9
0.9
1000
Berdasarkan hasil di atas, selajutnya nilai LR dan PLR tersebut akan digunakan
pada ulangan penggerombolan. Metode ini menggunakan software Matlab dalam
penggerombolan.
Pembangkitan data simulasi
Data simulasi merupakan populasi yang dibagi ke dalam tiga skenario dan
untuk setiap skenario populasi yang dibangkitkan Ng (μ,Ʃ) sebanyak N = 10000
data yang dibagi ke dalam tiga gerombol n1, n2, n3 masing-masing 2500, 5000,
dan 2500. Kemudian, dilakukan sampling dengan jumlah sampel yaitu n = 500
(125,250,125) dan n = 1000 (250,500,250), setiap skenario diulang 100 kali untuk
masing-masing sampel. Berikut hasil eksplorasi data sampel setiap skenario:

18
Nilai matriks peragam setiap skenario sama untuk masing-masing jumlah
sampel.
Untuk jumlah sampel 500
.
.

Ʃ= − .
.
[− .

Untuk jumlah sampel 1000
.
.

Ʃ= − .
.
[− .

.
.

− .
− .
.
.
− .

.
− .
.
.
− .

− .
.
− .
− .
.

]

.
.

− .
− .
.
− .
− .

.
− .
− .
.
− .

.
− .
.
− .
.

]

− .
− .
.

− .
− .
− .

Adapun nilai rataan sampel masing-masing skenario adalah sebagai berikut:

Skenario
I

II

III

Tabel 3 Eksplorasi data simulasi
Ukuran data (n)
Nilai tengah
500
1000
μ(X1i)
-6.0721
-5.9807
μ(X2i)
0.0149
0.0123
μ(X3i)
6.0015
5.9985
μ(X1i)
-3.9873
-3.9807
μ(X2i)
-0.0267
0.0123
μ(X3i)
3.9848
3.9986
μ(X1i)
-1.9873
1.9986
μ(X2i)
-0.0123
0.0123
μ(X3i)
1.9848
1.9986

Hasil dari ketiga skenario memberikan matriks peragam yang sama pada
setiap ukuran sampel, terlihat bahwa nilai ragam dan korelasi sampel telah
mendekati nilai ragam dan korelasi dari populasi. Begitupun dengan nilai rataan
sampel telah mendekati nilai rataan populasi untuk setiap skenario, yaitu:
skenario I terpisah secara tegas dengan vektor rataan [-6, 0, 6], skenario II dengan
besar overlap untuk masing-masing ukuran data 20% dan 23% dengan vektor
rataan [-4, 0, 4], dan skenario III dengan besar overlap untuk masing-masing
ukuran data 80% dan 85% vektor rataan [-2, 0, 2].

19

Perbandingan kinerja metode SOM dan TSC
Perbandingan hasil penggerombolan metode SOM dan TSC terlihat pada
tabel berikut:
Tabel 4 Hasil penggerombolan dengan metode SOM dan TSC
% salah gerombol
Ukuran data
Model populasi
(n)
SOM
TSC
500
0
0
Skenario I
1000
0
0
500
0.424
0.004
Skenario II
1000
0.876
0.002
500
8.584
1.70
Skenario III
1.63
1000
10.045
Tabel 3 menunjukkan perbandingan kinerja metode SOM dan TSC dalam
mengelompokkan objek. Pada tabel di atas terlihat bahwa kedua metode
mengelompokkan objek dengan tingkat kesalahan 0% untuk kondisi populasi
terpisah secara tegas. Metode SOM maupun TSC dapat mengelompokkan data
dengan tingkat kebaikan gerombol 100% jika populasi datanya terpisah secara
tegas (tidak ada overlap).
Pada kondisi populasi data yang overlap dalam jumlah kecil (skenario II),
terdapat perbedaan hasil pengelompokan. Kedua metode tersebut memberikan
hasil yang cukup baik dalam mengelompokkan objek. Metode SOM dapat
mengelompokkan dengan benar data sekitar 99.6% dan 99.2% untuk masingmasing jumlah data 500 dan 1000. Tabel 4 juga terlihat hasil pengelompokan
metode TSC, bahwa metode ini mampu mengelompokkan data sekitar 99.99%
untuk masing-masing jumlah data. Skenario III juga memberikan hasil yang
serupa bahwa kedua metode ini mampu melakukan pengelompokan dengan baik.
Metode SOM dapat mengelompokkan dengan benar data sekitar 92.5% dan 90.0%
untuk masing-masing jumlah data 500 dan 1000. Tabel 4 juga terlihat hasil
pengelompokan metode TSC, bahwa metode ini mampu mengelompokkan data
sekitar 99.3% untuk masing-masing jumlah data.
Dengan demikian, hasil dari kedua metode ini memiliki kemampuan untuk
mengelompokkan data dengan baik, namun TSC memberikan hasil
pengelompokan yang lebih baik untuk ukuran data yang besar dibandingkan
dengan SOM. Selain itu, juga terlihat bahwa semakin besar jumlah data maka
kesalahan pengelompokan SOM akan berubah menjadi lebih besar, namun
perubahannya relatif kecil. Sebaliknya, semakin besar jumlah data maka
kesalahan pengelompokan metode TSC semakin kecil.
Pada kondisi data yang overlap, metode SOM mengalami salah
pengelompokan terjadi di gerombol 2 yang merupakan gerombol yang terjadi
overlap dari ketiga gerombol, namun tidak terjadi pada gerombol 1 dan 2 untuk
setiap skenario. Hasil yang berbeda ditunjukkan oleh metode TSC, kesalahan
pengelompokan terjadi secara merata di setiap gerombol.

20

Berikut hasil penggerombolan dengan metode SOM untuk setiap skenario:
Skenario I

Gambar 5 CP dan U-matriks skenario I

21

Skenario II

Gambar 6 CP dan U-matriks skenario II

22

Skenario III

Gambar 7 CP dan U-matriks skenario III

Penerapan metode SOM
Pada bagian ini akan dibahas penerapan SOM untuk menggerombolkan dan
mengidentifikasi desa/kelurahan di Kabupaten Wajo Sulawesi Selatan dengan
mengunakan metode SOM. Untuk memperoleh hasil yang lebih maksimal dan
mempermudah pendeskripsian hasil pengelompokan, maka setiap desa/kelurahan
dilakukan pengkodean.
Pertama dilakukan standarisasi dari peudah-peubah, kemudian memeriksa
asumsi multikolinier dari peubah-peubah tersebut. Hasilnya diperoleh bahwa
terdapat multikolinier antar peubah, namun pada penelitian ini tidak digunakan
penanganan untuk multikolinier. Hal ini menjadi salah satu keunggulan dari
metode SOM yang mampu mendeteksi adanya multikolinier antar peubahnya
(Annas et al. 2007). CP dapat memvisualisasi perbedaan antar input peubah
sebagai berikut:

23

Gambar 8 Visualisasi U-matriks dan CP desa/kelurahan
Gambar 8 menunjukkan visualisasi U-matriks dan CP dalam bentuk 2-D
dengan ukuran map 20 x 25, tidak ada aturan dalam memilih ukuran map, tetapi
satu keuntungan bahwa