Integrasi Self Organizing Maps dan Algoritme K-means untuk Clustering Data Ketahanan Pangan Kabupaten di Wilayah Provinsi Bali, Nusa Tenggara Barat, dan Nusa Tenggara Timur
INTEGRASI SELF ORGANIZING MAPS DAN ALGORITME
K-MEANS UNTUK CLUSTERING DATA KETAHANAN PANGAN
KABUPATEN DI WILAYAH PROVINSI BALI, NUSA TENGGARA
BARAT, DAN NUSA TENGGARA TIMUR
ULFA KHAIRA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
i
ii
INTEGRASI SELF ORGANIZING MAPS DAN ALGORITME
K-MEANS UNTUK CLUSTERING DATA KETAHANAN PANGAN
KABUPATEN DI WILAYAH PROVINSI BALI, NUSA TENGGARA
BARAT, DAN NUSA TENGGARA TIMUR
ULFA KHAIRA
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
ii
iii
ABSTRACT
ULFA KHAIRA. Integration of Self Organizing Maps and K-means Algorithm for Food Security
Cluster in Region Province of Bali, Nusa Tenggara Barat, and Nusa Tenggara Timur. Supervised
by ANNISA.
The assessment of food security as a measure of development is very important. Food
security in a region has multidimentional characteristics that need to be analyzed. The purpose of
this research is to implement the S-K algorithm (combination of Self organizing maps -SOM- and
K-means algorithm) for data clustering and to gain data characteristics as the result of data
clustering. The used data is the indicator for the food security from 30 districts in the provinces of
Bali, Nusa Tenggara Barat, and Nusa Tenggara Timur. These data are the input for S-K algorithm.
SOM clustering result is validated using Davies-Bouldin Index (DBI). Centroid and the number of
cluster from SOM are utilized as the input for K-means algorithm, which is used to refine the final
cluster. In this research, these data are also clustered by K-means algorithm with randomly
generated initial centroids. The value of DBI results of SOM, S-K, K-means clustering has been
compared and it is found that S-K algorithm has the minimum value of DBI. Thus, it is proved that
the S-K algorithm gives good clustering results. Based on the data analysis, the districts in the
Province of Nusa Tenggara Timur are categorized as the areas with food insecurity. Meanwhile,
the districts in the Province of Nusa Tenggara Barat are included in the relatively food insecurity
areas. Food security in all districts in the Province of Bali are satisfactory.
Keywords: Davies-Bouldin Index, Food Security, K-means, Self Organizing Maps
iii
iv
Judul Skripsi
Nama
NIM
: Integrasi Self Organizing Maps dan Algoritme K-means untuk Clustering Data
Ketahanan Pangan Kabupaten di Wilayah Provinsi Bali, Nusa Tenggara Barat,
dan Nusa Tenggara Timur
: Ulfa Khaira
: G64080064
Menyetujui:
Pembimbing,
Annisa, S.Kom, M.Kom
NIP 19790731 200501 2 002
Mengetahui:
Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si, M.Kom
NIP. 19660702 199302 1 001
Tanggal Lulus:
iv
v
KATA PENGANTAR
Alhamdulillaahirabbil ‘aalamiin, rasa syukur penulis ucapkan kepada Allah Subhanahu wa
Ta’ala atas segala curahan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan tugas
akhir yang berjudul Integrasi Self Organizing Maps dan Algoritme K-means untuk Clustering Data
Ketahanan Pangan Kabupaten di Wilayah Provinsi Bali, Nusa Tenggara Barat, dan Nusa Tenggara
Timur. Sholawat dan salam semoga senantiasa tercurah kepada Nabi Muhammad Shallallahu
a’laihi wasallam, keluarganya, para sahabat, serta para pengikutnya.
Terima kasih kepada kedua orang tua tercinta, Ayahanda Drs. H. M. Saman Sulaiman, M.A
dan Ibunda Hj. Darniati yang sampai detik ini selalu memberikan dukungan, semangat, doa, dan
curahan kasih sayang yang tiada terhingga, begitu juga dengan kedua adik penulis, Atar Satria
Fikri dan Zahratirizka yang menjadi penyemangat bagi penulis untuk selalu melakukan yang
terbaik. Serta keluarga besar penulis di Jambi terima kasih atas segala doa dan perhatiannya.
Penulis mengucapkan terima kasih kepada Ibu Annisa, S.Kom, M.Kom selaku pembimbing
yang dengan sabar membimbing serta memberikan masukan kepada penulis. Terima kasih juga
penulis sampaikan kepada Bapak Hari Agung Adrianto, S.Kom, M.Si dan Bapak Azis Kustiyo,
S.Si, M.Kom selaku penguji yang telah banyak memberikan masukan dan perbaikan dalam
menyempurnakan tugas akhir ini.
Penyelesaian penelitian ini tidak terlepas dari dukungan dan bantuan berbagai pihak, oleh
karena itu penulis ingin mengucapkan terima kasih kepada:
1
Mrs.Coco Ushimaya, Bapak Dedi Junadi, dan seluruh staf United Nations World Food
Programme (WFP) Indonesia yang telah membantu dalam penyediaan data ketahanan
pangan.
2
Teman-teman satu bimbingan: Fahrul, Norma, Muti, Hutomo, Stefanus, Delki, dan Zico
atas bantuan, dukungan, serta motivasi yang selalu diberikan.
3
Teman-teman yang selalu sabar ditanyai oleh penulis, senantiasa berbagi ilmu, membantu,
dan mengajarkan penulis dalam proses menyelesaikan tugas akhir, yaitu: Isnan Mulia, Indra
Lesmana, dan Wangi Saraswati.
4
Vininta Ayudiana, Kurnia Nuraeni, Mayanda Mega, serta teman-teman seperjuangan Ilmu
Komputer angkatan 45 atas segala bantuan, dukungan, dan kenangan bagi penulis selama
menjalani masa studi.
5
Teman-teman kostan SQ: Hana M, Fitra, Kak Dayu, Kak Mumpuni, Kak Septi, Nurul,
Mita, Hana A, Orin, Anni, Fida, Lina, Nia, dan Lia atas segala dukungan untuk segera
menyelesaikan tugas akhir ini.
6
Saudara seperantauan Himpunan Mahasiswa Jambi (HIMAJA) terima kasih atas segala
bantuan, perhatian, dan semangat yang diberikan. Semoga kita bisa memajukan dan
membangun Provinsi Jambi dengan ilmu yang kita dapatkan selama studi di IPB.
7
Suyitno, A.Md dan teman-teman Galaxy: Kak Agung, Uni Romi, Mba Dina, dan Mba
Septy atas perhatian, nasihat, serta motivasi yang selalu diberikan. Semoga Allah
Subhanahu wa Ta’ala selalu menyambungkan tali silaturahim ini.
8
Seluruh staf dan karyawan Departemen Ilmu Komputer, serta pihak lain yang telah
membantu dalam menyelesaikan penelitian ini.
Penulis menyadari bahwa penulisan tugas akhir ini masih jauh dari sempurna karena
keterbatasan pengalaman dan pengetahuan yang dimiliki penulis. Segala kesempurnaan hanya
milik Allah Subhanahu wa Ta’ala, semoga tulisan ini dapat bermanfaat, Aamin.
Bogor, Desember 2012
Ulfa Khaira
v
vi
RIWAYAT HIDUP
Ulfa Khaira dilahirkan di Kota Jambi pada tanggal 29 Desember 1989 dari pasangan Bapak
Drs. H. M.Saman Sulaiman, M.A dan Ibu Hj. Darniati. Penulis merupakan anak pertama dari tiga
bersaudara. Pada tahun 2008, penulis lulus dari Sekolah Menengah Atas (SMA) Negeri 1 Kota
Jambi dan diterima sebagai mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan
Pengetahuan Alam, Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI).
Pada tanggal 4 Juli 2011 penulis melaksanakan Praktik Kerja Lapangan di Kementerian
Lingkungan Hidup RI pada sampai dengan tanggal 19 Agustus 2011 di bagian Asisten Deputi
Data dan Informasi. Penulis juga seorang pecinta dunia tulis-menulis, sejak mengenyam
pendidikan di bangku SMP penulis aktif mengisi tulisan di majalah sekolah. Sebagai mahasiswa
perantauan, penulis ikut serta dalam kegiatan organisasi mahasiswa daerah Himpunan Mahasiswa
Jambi (HIMAJA). Penulis pernah menjadi asisten praktikum untuk mata kuliah Penerapan
Komputer pada tahun 2011 di Departemen Ilmu Komputer Institut Pertanian Bogor.
vi
DAFTAR ISI
Halaman
DAFTAR TABEL ...................................................................................................................... vi
DAFTAR GAMBAR .................................................................................................................. vi
DAFTAR LAMPIRAN ............................................................................................................... vi
PENDAHULUAN
Latar Belakang ........................................................................................................................ 1
Tujuan Penelitian..................................................................................................................... 1
Ruang Lingkup Penelitian ........................................................................................................ 1
TINJAUAN PUSTAKA
Clustering ............................................................................................................................... 1
Normalisasi z-score ................................................................................................................. 2
Algoritme K-means ................................................................................................................. 2
Self Organizing Maps (SOM)................................................................................................... 2
Algoritme Self Organizing Maps.............................................................................................. 3
Validitas Cluster...................................................................................................................... 3
Indeks Davies-Bouldin ............................................................................................................ 4
Ketahanan Pangan ................................................................................................................... 4
METODE PENELITIAN
Data Indikator Ketahanan Pangan ............................................................................................ 4
Praproses Data......................................................................................................................... 4
Data Mining ............................................................................................................................ 4
Representasi Pengetahuan ........................................................................................................ 5
Lingkungan Implementasi........................................................................................................ 5
HASIL DAN PEMBAHASAN
Data Indikator Ketahanan Pangan ............................................................................................ 5
Praproses Data......................................................................................................................... 6
Tiga Metode Clustering ........................................................................................................... 6
Penerapan Algoritme SOM ...................................................................................................... 6
Indeks Davies-Bouldin (DBI) .................................................................................................. 6
DBI Terbaik ............................................................................................................................ 6
Clustering dengan Algoritme S-K ............................................................................................ 6
Perbandingan Hasil Clustering................................................................................................. 7
Deskripsi Hasil Cluster ............................................................................................................ 8
SIMPULAN DAN SARAN
Simpulan ................................................................................................................................. 9
Saran ....................................................................................................................................... 9
DAFTAR PUSTAKA .................................................................................................................. 9
LAMPIRAN .............................................................................................................................. 10
v
vi
DAFTAR TABEL
Halaman
1
2
3
4
5
Indeks Davies-Bouldin terbaik untuk tiap ukuran cluster ......................................................... 6
Banyak anggota masing-masing cluster dengan ukuran cluster 3.............................................. 7
Nama anggota pada masing-masing cluster hasil clustering dengan algoritme S-K ................... 7
Nama anggota pada masing-masing cluster hasil clustering dengan algoritme SOM ................. 7
Nama anggota pada masing-masing cluster hasil clustering dengan algoritme K-means ........... 7
DAFTAR GAMBAR
Halaman
1 Ilustrasi lingkungan (Demuth dan Beale 2003)......................................................................... 3
2 Diagram alur penelitian ........................................................................................................... 5
3 Gambar sebaran jumlah anggota berdasarkan provinsi ............................................................. 8
DAFTAR LAMPIRAN
Halaman
1 Langkah-langkah clustering dengan algoritme K-means ........................................................ 11
2 Langkah-langkah clustering dengan algoritme SOM .............................................................. 13
3 Langkah perhitungan Indeks Davies-Bouldin......................................................................... 20
4 Indikator ketahanan pangan ................................................................................................... 22
5 Data indikator ketahanan pangan sebelum dinormalisasi ........................................................ 23
6 Data indikator ketahanan pangan setelah dinormalisasi .......................................................... 26
7 Pengamatan terhadap DBI ..................................................................................................... 29
8 Hasil clustering dari algoritme SOM, K-means, dan S-K ....................................................... 31
9 Bobot optimal dari SOM sebagai initial centroid bagi K-means ............................................. 32
10 Penilaian setiap indikator ...................................................................................................... 33
11 Karakteristik cluster .............................................................................................................. 34
vi
1
PENDAHULUAN
Latar Belakang
Kebijakan peningkatan ketahanan pangan
yang
ditetapkan
dalam
kerangka
pembangunan nasional berimplikasi bahwa
pengkajian ketahanan pangan sebagai tolak
ukur keberhasilan pembangunan menjadi
penting. Ketahanan pangan di suatu wilayah
mempunyai sifat multidimensional yang
memerlukan analisis dari berbagai indikator,
tidak hanya produksi dan ketersediaan pangan
saja. Meskipun tidak ada cara spesifik untuk
mengukur ketahanan pangan, kompleksitas
ketahanan pangan dapat disederhanakan
dengan menitikberatkan pada tiga dimensi
yang berbeda namun saling berkaitan yaitu
ketersediaan pangan, akses pangan oleh
rumah tangga, dan pemanfaatan pangan oleh
individu.
Pengelompokan
daerah
berdasarkan
indikator ketahanan pangan sangat penting
dilakukan untuk mengambil kebijakan dalam
hal penentuan sasaran dan memberikan
rekomendasi untuk intervensi kerawanan
pangan di tingkat provinsi dan kabupaten.
Teknik data mining diperlukan untuk
ekstraksi informasi dari data. Clustering
merupakan salah satu metode dalam data
mining untuk mengelompokkan himpunan
objek ke dalam kelas-kelas. Pada data mining
baik algoritme k-means dan self organizing
maps (SOM) merupakan proses unsupervised
learning yang penting untuk mendapatkan
pola pada kumpulan data yang tidak berlabel.
SOM tidak dapat menyajikan hasil clustering
yang tepat dan kecepatan konvergensi yang
lambat. Sedangkan K-means bergantung pada
initial centroid, jika terjadi kesalahan pada
pengambilan initial centroid maka hasil
clustering yang terjadi akan berkumpul pada
titik yang tidak optimal.
Penelitian ini menggunakan algoritme S-K
(Wang et al. 2010) yang merupakan
kombinasi dari SOM dan K-means untuk
pengelompokan daerah berdasarkan indikator
ketahanan pangan. Pada penelitian Wang
(2010), algoritme S-K memberikan efisiensi
yang baik dan cluster yang akurat. Self
organizing maps digunakan untuk mengetahui
jumlah cluster dan initial centroid yang
digunakan sebagai input untuk k-means,
selanjutnya, akan dihasilkan clustering terbaik
dari metode k-means (Kuo et al. 2001).
Tujuan Penelitian
Tujuan dari penelitian ini yaitu:
1 Menerapkan
algoritme
S-K
clustering ketahanan pangan.
untuk
2 Memperoleh karakteristik data ketahanan
pangan kabupaten di wilayah Provinsi
Bali, Nusa Tenggara Barat, dan Nusa
Tenggara Timur.
Ruang Lingkup Penelitian
Penelitian ini dibatasi pada penggunaan
teknik clustering dengan metode selforganizing maps (SOM) dan k-means. Data
yang digunakan adalah data indikator
ketahanan pangan kabupaten di wilayah
Provinsi Bali, Nusa Tenggara Barat, dan Nusa
Tenggara Timur.
TINJAUAN PUSTAKA
Clustering
Clustering adalah pengelompokan dari
record, observasi-observasi atau kasus-kasus
ke kelas yang memiliki kemiripan objekobjeknya. Cluster adalah koleksi dari record
yang mirip, dan tidak mirip dengan record
dari cluster lain. Clustering berbeda dengan
klasifikasi, dalam hal tidak ada variabel target
untuk
clustering.
Clustering tidak
mengklasifikasikan,
meramalkan,
atau
memprediksi nilai dari sebuah variabel target.
Algoritme-algoritme clustering digunakan
untuk menentukan segmen keseluruhan
himpunan data menjadi subgroup yang relatif
sama atau cluster, dengan kesamaan record
dalam cluster dimaksimumkan dan kesamaan
record di luar cluster diminimumkan (Larose
2004).
Secara umum metode utama clustering
dapat diklasifikasikan menjadi kategorikategori berikut (Han dan Kamber 2006):
Metode partisi. Misalkan ada sebuah
basis data berisi n objek. Metode partisi
membangun k partisi pada basis data
tersebut,
dengan
tiap
partisi
merepresentasikan cluster dan k ≤ n.
Partisi yang terbentuk harus memenuhi
syarat yaitu setiap cluster harus berisi
minimal satu objek dan setiap objek harus
termasuk tepat satu cluster.
Metode hirarki, yaitu membuat sebuah
dekomposisi berhirarki dari himpunan
data (atau objek) menggunakan beberapa
kriteria. Metode ini memiliki dua jenis
pendekatan yaitu:
2
Agglomerative, dimulai dengan
titik-titik
sebagai
cluster
individu. Pada setiap tahap
dilakukan penggabungan setiap
pasangan titik pada cluster
sampai hanya satu titik (atau
cluster) yang tertinggal.
o Divisive, dimulai dengan satu
cluster besar yang berisi semua
titik data.Pada setiap langkah,
dilakukan pemecahan sebuah
cluster sampai setiap cluster
berisi sebuah titik (atau terdapat
k cluster).
Metode berdasarkan kepekatan,
merupakan
pendekatan
yang
berdasarkan pada konektivitas dan
fungsi kepadatan.
Metode berdasarkan grid, merupakan
pendekatan yang berdasarkan pada
struktur multiple-level granularity.
Metode berdasarkan model, yaitu:
sebuah model yang dihipotesis untuk
tiap cluster dan ide dasarnya adalah
untuk menemukan model yang cocok
untuk tiap cluster.
o
dalam satu cluster. Strategi partitionalclustering yang paling sering digunakan
adalah berdasarkan kriteria square error.
Secara umum, tujuan kriteria square error
adalah untuk memperoleh partisi (jumlah
cluster tetap) yang meminimalkan total square
error. Misal, diberikan himpunan N objek
data yang telah dipartisi ke dalam K cluster
{C1, C2,…,Ck}. Setiap Ck memiliki nk objek
data dan tepat dalam satu cluster sehingga ∑ nk
= N, dimana k=1,…,K.
Mean vector Mk dari cluster Ck
didefinisikan sebagai centroid dari cluster
(Kantardzic 2003)
Mk = 1 nk
Langkah-langkah dalam algoritme Kmeans adalah (Kantardzic 2003):
1.
2.
v' =
v-A
σA
...(1)
Normalisasi z-score berguna ketika nilai
aktual dari maksimum dan minimum suatu
atribut tidak diketahui atau ketika outlier
mendominasi pada normalisasi min-max. (Han
dan Kamber 2006).
Algoritme K-means
K-Means
merupakan
algoritme
clustering yang bersifat partitional yaitu
membagi himpunan objek data ke dalam
sub himpunan (cluster) yang tidak overlap,
sehingga setiap objek data berada tepat
... (2)
dengan �� merupakan objek data ke-i milik
cluster Ck.
Normalisasi z-score
Normalisasi merupakan bagian dari
transformasi data, yaitu atribut diskalakan ke
dalam rentang nilai tertentu yang lebih kecil
seperti -1,0 – 1,0 atau 0,0 – 1,0. Salah satu
teknik normalisasi yang dapat digunakan
adalah z-score.
Normalisasi
z-score
(zero-mean
normalization)
merupakan
normalisasi
berdasarkan nilai rata-rata dan standar deviasi
dari suatu atribut. Misalkan nilai v merupakan
elemen dari A, Ᾱ adalah rata-rata, dan σA
adalah nilai standar deviasi dari atribut A,
maka nilai v akan ditransformasikan menjadi
v’ dengan fungsi
nk
i=1 xik
3.
4.
Ditentukan initial partion dengan k
cluster berisi sample yang dipilih secara
acak, kemudian dihitung pusat cluster dari
tiap-tiap cluster,
Dibangkitkan partisi baru dengan
penugasan setiap sample terhadap pusat
cluster terdekat,
Hitung pusat-pusat cluster baru,
Ulangi langkah 2 dan 3 sampai nilai
optimum dari fungsi kriteria dipenuhi
(atau sampai cluster membership telah
stabil).
Untuk lebih jelasnya langkah-langkah
clustering dengan algoritme K-means untuk
jumlah cluster 3 dapat dilihat pada Lampiran
1. Hasil cluster dengan metoda K-means
sangat bergantung pada nilai pusat cluster awal
yang diberikan. Pemberian nilai awal yang
berbeda bisa menghasilkan hasil cluster yang
berbeda.
Self Organizing Maps (SOM)
Self
Organizing
Maps
(SOM)
diperkenalkan oleh Teuvo Kohonen seorang
ilmuwan Finlandia pada tahun 1982, sehingga
SOM dikenal juga dengan jaringan Kohonen.
SOM merupakan salah satu jaringan syaraf
tiruan
yang
dikonfigurasi
untuk
pengelompokan data. Jaringan SOM Kohonen
menggunakan
metode
pembelajaran
unsupervised yang proses pelatihannya tidak
memerlukan pengawasan (target output).
SOM memperlihatkan tiga karakteristik:
kompetisi yaitu setiap vektor bobot saling
berlomba untuk menjadi simpul pemenang,
3
kooperasi yaitu setiap simpul pemenang
bekerjasama dengan lingkungannya, dan
adaptasi yaitu perubahan simpul pemenang
dan lingkungannya (Larose 2004).
Algoritme Self Organizing Maps
Misalkan himpunan dari m nilai-nilai field
untuk record ke-n menjadi sebuah vektor
input xn = xn1, xn2, xn3,…, xnm, dan himpunan
dari m bobot untuk simpul output tertentu j
menjadi vektor bobot wj= w1j, w2j,…, wmj
(Larose 2004).
Langkah-langkah
clustering
dengan
algoritme SOM dapat dilihat pada Lampiran
2. Secara garis besar langkah-langkah
algoritme SOM (Larose 2004) seperti yang
dijelaskan di bawah ini.
Untuk setiap vektor x, lakukan:
• Kompetisi. Untuk setiap simpul output j,
hitung nilai D(wj,xn) dari fungsi jarak.
Tentukan simpul pemenang j yang
meminimumkan
D(wj,xn) dari semua
simpul output.
•
Kooperasi. Identifikasikan semua simpul
output j dalam lingkungan simpul
pemenang j didefinisikan oleh lingkungan
berukuran R. Untuk simpul-simpul ini,
lakukan:
Adaptasi. Perbarui nilai bobot:
wij,new = wij,current + ( xni – wij,current)
...(3)
Perbarui learning rate ( ) dan ukuran
lingkungan R seperlunya.
Hentikan perlakuan ketika kriteria
pemberhentian dicapai.
Keterangan:
Inisialisasi
nilai
bobot
biasanya
menggunakan
nilai
tengah
(middle
point/midpoint) atau menggunakan nilai
acak (Demuth dan Beale 2003).
Lingkungan berukuran R berisi indeks dari
semua simpul-simpul yang berada dalam
radius R dari simpul pemenang i*. Ni (d) =
{j,dij ≤ R} (Demuth dan Beale 2003).
Gambar 1 Ilustrasi lingkungan (Demuth dan
Beale 2003)
Gambar 1 mengilustrasikan
konsep
lingkungan. Gambar 1 kiri menunjukkan
lingkungan dari radius R=1 sekeliling simpul
13. Gambar 1 kanan menunjukkan lingkungan
dari radius R=2. Topologi lingkungan yang
umum digunakan ada tiga yaitu topologi grid,
topologi hexagonal, dan topologi random
(Demuth dan Beale 2003, diacu dalam
Edward 2006).
Fungsi jarak biasanya digunakan jarak
Euclidean
D(wj, xn) =
i
wij -xni
2
... (4)
(Demuth dan Beale 2003).
Perubahan tingkat pembelajaran ( LR/α/ )
0 <
K-MEANS UNTUK CLUSTERING DATA KETAHANAN PANGAN
KABUPATEN DI WILAYAH PROVINSI BALI, NUSA TENGGARA
BARAT, DAN NUSA TENGGARA TIMUR
ULFA KHAIRA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
i
ii
INTEGRASI SELF ORGANIZING MAPS DAN ALGORITME
K-MEANS UNTUK CLUSTERING DATA KETAHANAN PANGAN
KABUPATEN DI WILAYAH PROVINSI BALI, NUSA TENGGARA
BARAT, DAN NUSA TENGGARA TIMUR
ULFA KHAIRA
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
ii
iii
ABSTRACT
ULFA KHAIRA. Integration of Self Organizing Maps and K-means Algorithm for Food Security
Cluster in Region Province of Bali, Nusa Tenggara Barat, and Nusa Tenggara Timur. Supervised
by ANNISA.
The assessment of food security as a measure of development is very important. Food
security in a region has multidimentional characteristics that need to be analyzed. The purpose of
this research is to implement the S-K algorithm (combination of Self organizing maps -SOM- and
K-means algorithm) for data clustering and to gain data characteristics as the result of data
clustering. The used data is the indicator for the food security from 30 districts in the provinces of
Bali, Nusa Tenggara Barat, and Nusa Tenggara Timur. These data are the input for S-K algorithm.
SOM clustering result is validated using Davies-Bouldin Index (DBI). Centroid and the number of
cluster from SOM are utilized as the input for K-means algorithm, which is used to refine the final
cluster. In this research, these data are also clustered by K-means algorithm with randomly
generated initial centroids. The value of DBI results of SOM, S-K, K-means clustering has been
compared and it is found that S-K algorithm has the minimum value of DBI. Thus, it is proved that
the S-K algorithm gives good clustering results. Based on the data analysis, the districts in the
Province of Nusa Tenggara Timur are categorized as the areas with food insecurity. Meanwhile,
the districts in the Province of Nusa Tenggara Barat are included in the relatively food insecurity
areas. Food security in all districts in the Province of Bali are satisfactory.
Keywords: Davies-Bouldin Index, Food Security, K-means, Self Organizing Maps
iii
iv
Judul Skripsi
Nama
NIM
: Integrasi Self Organizing Maps dan Algoritme K-means untuk Clustering Data
Ketahanan Pangan Kabupaten di Wilayah Provinsi Bali, Nusa Tenggara Barat,
dan Nusa Tenggara Timur
: Ulfa Khaira
: G64080064
Menyetujui:
Pembimbing,
Annisa, S.Kom, M.Kom
NIP 19790731 200501 2 002
Mengetahui:
Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si, M.Kom
NIP. 19660702 199302 1 001
Tanggal Lulus:
iv
v
KATA PENGANTAR
Alhamdulillaahirabbil ‘aalamiin, rasa syukur penulis ucapkan kepada Allah Subhanahu wa
Ta’ala atas segala curahan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan tugas
akhir yang berjudul Integrasi Self Organizing Maps dan Algoritme K-means untuk Clustering Data
Ketahanan Pangan Kabupaten di Wilayah Provinsi Bali, Nusa Tenggara Barat, dan Nusa Tenggara
Timur. Sholawat dan salam semoga senantiasa tercurah kepada Nabi Muhammad Shallallahu
a’laihi wasallam, keluarganya, para sahabat, serta para pengikutnya.
Terima kasih kepada kedua orang tua tercinta, Ayahanda Drs. H. M. Saman Sulaiman, M.A
dan Ibunda Hj. Darniati yang sampai detik ini selalu memberikan dukungan, semangat, doa, dan
curahan kasih sayang yang tiada terhingga, begitu juga dengan kedua adik penulis, Atar Satria
Fikri dan Zahratirizka yang menjadi penyemangat bagi penulis untuk selalu melakukan yang
terbaik. Serta keluarga besar penulis di Jambi terima kasih atas segala doa dan perhatiannya.
Penulis mengucapkan terima kasih kepada Ibu Annisa, S.Kom, M.Kom selaku pembimbing
yang dengan sabar membimbing serta memberikan masukan kepada penulis. Terima kasih juga
penulis sampaikan kepada Bapak Hari Agung Adrianto, S.Kom, M.Si dan Bapak Azis Kustiyo,
S.Si, M.Kom selaku penguji yang telah banyak memberikan masukan dan perbaikan dalam
menyempurnakan tugas akhir ini.
Penyelesaian penelitian ini tidak terlepas dari dukungan dan bantuan berbagai pihak, oleh
karena itu penulis ingin mengucapkan terima kasih kepada:
1
Mrs.Coco Ushimaya, Bapak Dedi Junadi, dan seluruh staf United Nations World Food
Programme (WFP) Indonesia yang telah membantu dalam penyediaan data ketahanan
pangan.
2
Teman-teman satu bimbingan: Fahrul, Norma, Muti, Hutomo, Stefanus, Delki, dan Zico
atas bantuan, dukungan, serta motivasi yang selalu diberikan.
3
Teman-teman yang selalu sabar ditanyai oleh penulis, senantiasa berbagi ilmu, membantu,
dan mengajarkan penulis dalam proses menyelesaikan tugas akhir, yaitu: Isnan Mulia, Indra
Lesmana, dan Wangi Saraswati.
4
Vininta Ayudiana, Kurnia Nuraeni, Mayanda Mega, serta teman-teman seperjuangan Ilmu
Komputer angkatan 45 atas segala bantuan, dukungan, dan kenangan bagi penulis selama
menjalani masa studi.
5
Teman-teman kostan SQ: Hana M, Fitra, Kak Dayu, Kak Mumpuni, Kak Septi, Nurul,
Mita, Hana A, Orin, Anni, Fida, Lina, Nia, dan Lia atas segala dukungan untuk segera
menyelesaikan tugas akhir ini.
6
Saudara seperantauan Himpunan Mahasiswa Jambi (HIMAJA) terima kasih atas segala
bantuan, perhatian, dan semangat yang diberikan. Semoga kita bisa memajukan dan
membangun Provinsi Jambi dengan ilmu yang kita dapatkan selama studi di IPB.
7
Suyitno, A.Md dan teman-teman Galaxy: Kak Agung, Uni Romi, Mba Dina, dan Mba
Septy atas perhatian, nasihat, serta motivasi yang selalu diberikan. Semoga Allah
Subhanahu wa Ta’ala selalu menyambungkan tali silaturahim ini.
8
Seluruh staf dan karyawan Departemen Ilmu Komputer, serta pihak lain yang telah
membantu dalam menyelesaikan penelitian ini.
Penulis menyadari bahwa penulisan tugas akhir ini masih jauh dari sempurna karena
keterbatasan pengalaman dan pengetahuan yang dimiliki penulis. Segala kesempurnaan hanya
milik Allah Subhanahu wa Ta’ala, semoga tulisan ini dapat bermanfaat, Aamin.
Bogor, Desember 2012
Ulfa Khaira
v
vi
RIWAYAT HIDUP
Ulfa Khaira dilahirkan di Kota Jambi pada tanggal 29 Desember 1989 dari pasangan Bapak
Drs. H. M.Saman Sulaiman, M.A dan Ibu Hj. Darniati. Penulis merupakan anak pertama dari tiga
bersaudara. Pada tahun 2008, penulis lulus dari Sekolah Menengah Atas (SMA) Negeri 1 Kota
Jambi dan diterima sebagai mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan
Pengetahuan Alam, Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI).
Pada tanggal 4 Juli 2011 penulis melaksanakan Praktik Kerja Lapangan di Kementerian
Lingkungan Hidup RI pada sampai dengan tanggal 19 Agustus 2011 di bagian Asisten Deputi
Data dan Informasi. Penulis juga seorang pecinta dunia tulis-menulis, sejak mengenyam
pendidikan di bangku SMP penulis aktif mengisi tulisan di majalah sekolah. Sebagai mahasiswa
perantauan, penulis ikut serta dalam kegiatan organisasi mahasiswa daerah Himpunan Mahasiswa
Jambi (HIMAJA). Penulis pernah menjadi asisten praktikum untuk mata kuliah Penerapan
Komputer pada tahun 2011 di Departemen Ilmu Komputer Institut Pertanian Bogor.
vi
DAFTAR ISI
Halaman
DAFTAR TABEL ...................................................................................................................... vi
DAFTAR GAMBAR .................................................................................................................. vi
DAFTAR LAMPIRAN ............................................................................................................... vi
PENDAHULUAN
Latar Belakang ........................................................................................................................ 1
Tujuan Penelitian..................................................................................................................... 1
Ruang Lingkup Penelitian ........................................................................................................ 1
TINJAUAN PUSTAKA
Clustering ............................................................................................................................... 1
Normalisasi z-score ................................................................................................................. 2
Algoritme K-means ................................................................................................................. 2
Self Organizing Maps (SOM)................................................................................................... 2
Algoritme Self Organizing Maps.............................................................................................. 3
Validitas Cluster...................................................................................................................... 3
Indeks Davies-Bouldin ............................................................................................................ 4
Ketahanan Pangan ................................................................................................................... 4
METODE PENELITIAN
Data Indikator Ketahanan Pangan ............................................................................................ 4
Praproses Data......................................................................................................................... 4
Data Mining ............................................................................................................................ 4
Representasi Pengetahuan ........................................................................................................ 5
Lingkungan Implementasi........................................................................................................ 5
HASIL DAN PEMBAHASAN
Data Indikator Ketahanan Pangan ............................................................................................ 5
Praproses Data......................................................................................................................... 6
Tiga Metode Clustering ........................................................................................................... 6
Penerapan Algoritme SOM ...................................................................................................... 6
Indeks Davies-Bouldin (DBI) .................................................................................................. 6
DBI Terbaik ............................................................................................................................ 6
Clustering dengan Algoritme S-K ............................................................................................ 6
Perbandingan Hasil Clustering................................................................................................. 7
Deskripsi Hasil Cluster ............................................................................................................ 8
SIMPULAN DAN SARAN
Simpulan ................................................................................................................................. 9
Saran ....................................................................................................................................... 9
DAFTAR PUSTAKA .................................................................................................................. 9
LAMPIRAN .............................................................................................................................. 10
v
vi
DAFTAR TABEL
Halaman
1
2
3
4
5
Indeks Davies-Bouldin terbaik untuk tiap ukuran cluster ......................................................... 6
Banyak anggota masing-masing cluster dengan ukuran cluster 3.............................................. 7
Nama anggota pada masing-masing cluster hasil clustering dengan algoritme S-K ................... 7
Nama anggota pada masing-masing cluster hasil clustering dengan algoritme SOM ................. 7
Nama anggota pada masing-masing cluster hasil clustering dengan algoritme K-means ........... 7
DAFTAR GAMBAR
Halaman
1 Ilustrasi lingkungan (Demuth dan Beale 2003)......................................................................... 3
2 Diagram alur penelitian ........................................................................................................... 5
3 Gambar sebaran jumlah anggota berdasarkan provinsi ............................................................. 8
DAFTAR LAMPIRAN
Halaman
1 Langkah-langkah clustering dengan algoritme K-means ........................................................ 11
2 Langkah-langkah clustering dengan algoritme SOM .............................................................. 13
3 Langkah perhitungan Indeks Davies-Bouldin......................................................................... 20
4 Indikator ketahanan pangan ................................................................................................... 22
5 Data indikator ketahanan pangan sebelum dinormalisasi ........................................................ 23
6 Data indikator ketahanan pangan setelah dinormalisasi .......................................................... 26
7 Pengamatan terhadap DBI ..................................................................................................... 29
8 Hasil clustering dari algoritme SOM, K-means, dan S-K ....................................................... 31
9 Bobot optimal dari SOM sebagai initial centroid bagi K-means ............................................. 32
10 Penilaian setiap indikator ...................................................................................................... 33
11 Karakteristik cluster .............................................................................................................. 34
vi
1
PENDAHULUAN
Latar Belakang
Kebijakan peningkatan ketahanan pangan
yang
ditetapkan
dalam
kerangka
pembangunan nasional berimplikasi bahwa
pengkajian ketahanan pangan sebagai tolak
ukur keberhasilan pembangunan menjadi
penting. Ketahanan pangan di suatu wilayah
mempunyai sifat multidimensional yang
memerlukan analisis dari berbagai indikator,
tidak hanya produksi dan ketersediaan pangan
saja. Meskipun tidak ada cara spesifik untuk
mengukur ketahanan pangan, kompleksitas
ketahanan pangan dapat disederhanakan
dengan menitikberatkan pada tiga dimensi
yang berbeda namun saling berkaitan yaitu
ketersediaan pangan, akses pangan oleh
rumah tangga, dan pemanfaatan pangan oleh
individu.
Pengelompokan
daerah
berdasarkan
indikator ketahanan pangan sangat penting
dilakukan untuk mengambil kebijakan dalam
hal penentuan sasaran dan memberikan
rekomendasi untuk intervensi kerawanan
pangan di tingkat provinsi dan kabupaten.
Teknik data mining diperlukan untuk
ekstraksi informasi dari data. Clustering
merupakan salah satu metode dalam data
mining untuk mengelompokkan himpunan
objek ke dalam kelas-kelas. Pada data mining
baik algoritme k-means dan self organizing
maps (SOM) merupakan proses unsupervised
learning yang penting untuk mendapatkan
pola pada kumpulan data yang tidak berlabel.
SOM tidak dapat menyajikan hasil clustering
yang tepat dan kecepatan konvergensi yang
lambat. Sedangkan K-means bergantung pada
initial centroid, jika terjadi kesalahan pada
pengambilan initial centroid maka hasil
clustering yang terjadi akan berkumpul pada
titik yang tidak optimal.
Penelitian ini menggunakan algoritme S-K
(Wang et al. 2010) yang merupakan
kombinasi dari SOM dan K-means untuk
pengelompokan daerah berdasarkan indikator
ketahanan pangan. Pada penelitian Wang
(2010), algoritme S-K memberikan efisiensi
yang baik dan cluster yang akurat. Self
organizing maps digunakan untuk mengetahui
jumlah cluster dan initial centroid yang
digunakan sebagai input untuk k-means,
selanjutnya, akan dihasilkan clustering terbaik
dari metode k-means (Kuo et al. 2001).
Tujuan Penelitian
Tujuan dari penelitian ini yaitu:
1 Menerapkan
algoritme
S-K
clustering ketahanan pangan.
untuk
2 Memperoleh karakteristik data ketahanan
pangan kabupaten di wilayah Provinsi
Bali, Nusa Tenggara Barat, dan Nusa
Tenggara Timur.
Ruang Lingkup Penelitian
Penelitian ini dibatasi pada penggunaan
teknik clustering dengan metode selforganizing maps (SOM) dan k-means. Data
yang digunakan adalah data indikator
ketahanan pangan kabupaten di wilayah
Provinsi Bali, Nusa Tenggara Barat, dan Nusa
Tenggara Timur.
TINJAUAN PUSTAKA
Clustering
Clustering adalah pengelompokan dari
record, observasi-observasi atau kasus-kasus
ke kelas yang memiliki kemiripan objekobjeknya. Cluster adalah koleksi dari record
yang mirip, dan tidak mirip dengan record
dari cluster lain. Clustering berbeda dengan
klasifikasi, dalam hal tidak ada variabel target
untuk
clustering.
Clustering tidak
mengklasifikasikan,
meramalkan,
atau
memprediksi nilai dari sebuah variabel target.
Algoritme-algoritme clustering digunakan
untuk menentukan segmen keseluruhan
himpunan data menjadi subgroup yang relatif
sama atau cluster, dengan kesamaan record
dalam cluster dimaksimumkan dan kesamaan
record di luar cluster diminimumkan (Larose
2004).
Secara umum metode utama clustering
dapat diklasifikasikan menjadi kategorikategori berikut (Han dan Kamber 2006):
Metode partisi. Misalkan ada sebuah
basis data berisi n objek. Metode partisi
membangun k partisi pada basis data
tersebut,
dengan
tiap
partisi
merepresentasikan cluster dan k ≤ n.
Partisi yang terbentuk harus memenuhi
syarat yaitu setiap cluster harus berisi
minimal satu objek dan setiap objek harus
termasuk tepat satu cluster.
Metode hirarki, yaitu membuat sebuah
dekomposisi berhirarki dari himpunan
data (atau objek) menggunakan beberapa
kriteria. Metode ini memiliki dua jenis
pendekatan yaitu:
2
Agglomerative, dimulai dengan
titik-titik
sebagai
cluster
individu. Pada setiap tahap
dilakukan penggabungan setiap
pasangan titik pada cluster
sampai hanya satu titik (atau
cluster) yang tertinggal.
o Divisive, dimulai dengan satu
cluster besar yang berisi semua
titik data.Pada setiap langkah,
dilakukan pemecahan sebuah
cluster sampai setiap cluster
berisi sebuah titik (atau terdapat
k cluster).
Metode berdasarkan kepekatan,
merupakan
pendekatan
yang
berdasarkan pada konektivitas dan
fungsi kepadatan.
Metode berdasarkan grid, merupakan
pendekatan yang berdasarkan pada
struktur multiple-level granularity.
Metode berdasarkan model, yaitu:
sebuah model yang dihipotesis untuk
tiap cluster dan ide dasarnya adalah
untuk menemukan model yang cocok
untuk tiap cluster.
o
dalam satu cluster. Strategi partitionalclustering yang paling sering digunakan
adalah berdasarkan kriteria square error.
Secara umum, tujuan kriteria square error
adalah untuk memperoleh partisi (jumlah
cluster tetap) yang meminimalkan total square
error. Misal, diberikan himpunan N objek
data yang telah dipartisi ke dalam K cluster
{C1, C2,…,Ck}. Setiap Ck memiliki nk objek
data dan tepat dalam satu cluster sehingga ∑ nk
= N, dimana k=1,…,K.
Mean vector Mk dari cluster Ck
didefinisikan sebagai centroid dari cluster
(Kantardzic 2003)
Mk = 1 nk
Langkah-langkah dalam algoritme Kmeans adalah (Kantardzic 2003):
1.
2.
v' =
v-A
σA
...(1)
Normalisasi z-score berguna ketika nilai
aktual dari maksimum dan minimum suatu
atribut tidak diketahui atau ketika outlier
mendominasi pada normalisasi min-max. (Han
dan Kamber 2006).
Algoritme K-means
K-Means
merupakan
algoritme
clustering yang bersifat partitional yaitu
membagi himpunan objek data ke dalam
sub himpunan (cluster) yang tidak overlap,
sehingga setiap objek data berada tepat
... (2)
dengan �� merupakan objek data ke-i milik
cluster Ck.
Normalisasi z-score
Normalisasi merupakan bagian dari
transformasi data, yaitu atribut diskalakan ke
dalam rentang nilai tertentu yang lebih kecil
seperti -1,0 – 1,0 atau 0,0 – 1,0. Salah satu
teknik normalisasi yang dapat digunakan
adalah z-score.
Normalisasi
z-score
(zero-mean
normalization)
merupakan
normalisasi
berdasarkan nilai rata-rata dan standar deviasi
dari suatu atribut. Misalkan nilai v merupakan
elemen dari A, Ᾱ adalah rata-rata, dan σA
adalah nilai standar deviasi dari atribut A,
maka nilai v akan ditransformasikan menjadi
v’ dengan fungsi
nk
i=1 xik
3.
4.
Ditentukan initial partion dengan k
cluster berisi sample yang dipilih secara
acak, kemudian dihitung pusat cluster dari
tiap-tiap cluster,
Dibangkitkan partisi baru dengan
penugasan setiap sample terhadap pusat
cluster terdekat,
Hitung pusat-pusat cluster baru,
Ulangi langkah 2 dan 3 sampai nilai
optimum dari fungsi kriteria dipenuhi
(atau sampai cluster membership telah
stabil).
Untuk lebih jelasnya langkah-langkah
clustering dengan algoritme K-means untuk
jumlah cluster 3 dapat dilihat pada Lampiran
1. Hasil cluster dengan metoda K-means
sangat bergantung pada nilai pusat cluster awal
yang diberikan. Pemberian nilai awal yang
berbeda bisa menghasilkan hasil cluster yang
berbeda.
Self Organizing Maps (SOM)
Self
Organizing
Maps
(SOM)
diperkenalkan oleh Teuvo Kohonen seorang
ilmuwan Finlandia pada tahun 1982, sehingga
SOM dikenal juga dengan jaringan Kohonen.
SOM merupakan salah satu jaringan syaraf
tiruan
yang
dikonfigurasi
untuk
pengelompokan data. Jaringan SOM Kohonen
menggunakan
metode
pembelajaran
unsupervised yang proses pelatihannya tidak
memerlukan pengawasan (target output).
SOM memperlihatkan tiga karakteristik:
kompetisi yaitu setiap vektor bobot saling
berlomba untuk menjadi simpul pemenang,
3
kooperasi yaitu setiap simpul pemenang
bekerjasama dengan lingkungannya, dan
adaptasi yaitu perubahan simpul pemenang
dan lingkungannya (Larose 2004).
Algoritme Self Organizing Maps
Misalkan himpunan dari m nilai-nilai field
untuk record ke-n menjadi sebuah vektor
input xn = xn1, xn2, xn3,…, xnm, dan himpunan
dari m bobot untuk simpul output tertentu j
menjadi vektor bobot wj= w1j, w2j,…, wmj
(Larose 2004).
Langkah-langkah
clustering
dengan
algoritme SOM dapat dilihat pada Lampiran
2. Secara garis besar langkah-langkah
algoritme SOM (Larose 2004) seperti yang
dijelaskan di bawah ini.
Untuk setiap vektor x, lakukan:
• Kompetisi. Untuk setiap simpul output j,
hitung nilai D(wj,xn) dari fungsi jarak.
Tentukan simpul pemenang j yang
meminimumkan
D(wj,xn) dari semua
simpul output.
•
Kooperasi. Identifikasikan semua simpul
output j dalam lingkungan simpul
pemenang j didefinisikan oleh lingkungan
berukuran R. Untuk simpul-simpul ini,
lakukan:
Adaptasi. Perbarui nilai bobot:
wij,new = wij,current + ( xni – wij,current)
...(3)
Perbarui learning rate ( ) dan ukuran
lingkungan R seperlunya.
Hentikan perlakuan ketika kriteria
pemberhentian dicapai.
Keterangan:
Inisialisasi
nilai
bobot
biasanya
menggunakan
nilai
tengah
(middle
point/midpoint) atau menggunakan nilai
acak (Demuth dan Beale 2003).
Lingkungan berukuran R berisi indeks dari
semua simpul-simpul yang berada dalam
radius R dari simpul pemenang i*. Ni (d) =
{j,dij ≤ R} (Demuth dan Beale 2003).
Gambar 1 Ilustrasi lingkungan (Demuth dan
Beale 2003)
Gambar 1 mengilustrasikan
konsep
lingkungan. Gambar 1 kiri menunjukkan
lingkungan dari radius R=1 sekeliling simpul
13. Gambar 1 kanan menunjukkan lingkungan
dari radius R=2. Topologi lingkungan yang
umum digunakan ada tiga yaitu topologi grid,
topologi hexagonal, dan topologi random
(Demuth dan Beale 2003, diacu dalam
Edward 2006).
Fungsi jarak biasanya digunakan jarak
Euclidean
D(wj, xn) =
i
wij -xni
2
... (4)
(Demuth dan Beale 2003).
Perubahan tingkat pembelajaran ( LR/α/ )
0 <