Customer Segmentation of PLN UPJ East Bogor Region Using Fuzzy C-Means

SEGMENTASI PELANGGAN PLN UPJ BOGOR TIMUR DAERAH BOGOR
MENGGUNAKAN FUZZY C-MEANS

KAMAL AFIAT

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011

ABSTRACT
KAMAL AFIAT. Customer Segmentation of PLN UPJ East Bogor Region Using Fuzzy CMeans. Under the direction of ANNISA.
Electricity is a very crucial source of energy nowadays. This is proven by the increase of PLN
customers every month. The increasing number of customers and the use of electricity should be
followed by increasing the quality of service. PLN can make a better decision to increase its service
by knowing its customer’s segmentations. The data of electricity usage is periodically kept by PLN
and can be used for customer segmentation analysis. Customer segmentation can be conducted using
clustering method such as Fuzzy C-Means algorithm. After the segmentation has been done, the
characteristics of electricity usage of each segment can be identified, and the distribution of each
segment can be visualized on a map to make it easier to see the distribution of each segment from its

spatial aspects. The clustering process in this research is used four clusters, which represent the usage
level, which are low class, medium class, high class, and very high class. As the result of the research,
we found out that the low class users are the majoring, whereas the high class has the least users.
Areas that have users from all segments are Babakan, Bantarjati, Baranang Siang, and Kedung
Halang.
Keywords: data mining, clustering, segmentation, fuzzy c-means

SEGMENTASI PELANGGAN PLN UPJ BOGOR TIMUR DAERAH BOGOR
MENGGUNAKAN FUZZY C-MEANS

KAMAL AFIAT

Skripsi
Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer
pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR

BOGOR
2011

Judul
Nama
NIM

: Segmentasi Pelanggan PLN UPJ Bogor Timur Daerah Bogor Menggunakan Fuzzy C-Means
: Kamal Afiat
: G64076037

Menyetujui:
Pembimbing,

Annisa, S.Kom, M.Kom
NIP. 197907312005012002

Mengetahui:
Ketua Departemen,


Dr. Ir. Sri Nurdiati, M.Sc
NIP. 196011261986012001

Tanggal Lulus :

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan hidayah-Nya
sehingga skripsi dengan judul Segmentasi Pelanggan PLN UPJ Bogor Timur Daerah Bogor
Menggunakan Fuzzy C-Means dapat terselesaikan. Penelitian ini dilaksanakan mulai Maret 2010
sampai dengan April 2011, bertempat di Departemen Ilmu Komputer.
Penulis ucapkan terima kasih kepada pihak-pihak yang telah membantu dalam penyelesaian tugas
akhir ini, antara lain:
1 Kepada ayah dan ibu, serta seluruh keluarga atas doa, dukungan, dan kasih sayangnya.
2 Kepada ibu Annisa, S.Kom., M.Kom. selaku pembimbing yang telah banyak memberi arahan
selama penulis menjalankan penelitian
3 Kepada bapak Tajudin dan bapak Yai dari pihak PLN yang telah membantu penulis dalam
mendapatkan data penelitian
4 Kepada Anggi Haryo Saksono, M. Rafi Muttaqin, Mas Satrio, dan Mas Azrul atas bantuan dan
dukungannya
5 Kepada teman-teman seperjuangan ekstensi Ilmu Komputer angkatan dua atas semangat dan

dukungannya
6 Kepada Desi Purnama Sari, Nadia Kaulika, dan murid-murid tersayang yang telah memberikan
semangat dan dukungannya
Semoga karya ilmiah ini bermanfaat.

Bogor, Juli 2011

Kamal Afiat

RIWAYAT HIDUP
Penulis dilahirkan di Bogor pada tanggal 2 April 1987 dari ayah H. Sofyan Rahmat Hidayat dan
ibu Metrawati Ramli. Penulis merupakan anak pertama dari tiga bersaudara.
Tahun 2004, penulis lulus dari SMA Insan Kamil Bogor dan pada tahun yang sama penulis
diterima di Diploma Teknik Informatika Institut Pertanian Bogor melalui jalur reguler. Pada tahun
2007, penulis melanjutkan studi di Penyelenggaraan Khusus Ilmu Komputer Institut Pertanian Bogor
melalui jalur reguler. Selain melanjutkan studi, pada tahun 2007 penulis juga mengajar di SMP Insan
Kamil Bogor sebagai pengajar mata pelajaran Teknologi Informasi dan Komunikasi (TIK), kemudian
pada tahun 2009 penulis berpindah tugas mengajar ke SMA Insan Kamil dengan mengajar mata
pelajaran yang sama. Sejak tahun 2004 penulis aktif mengikuti forum diskusi online tentang teknologi
dan informasi khususnya forum CHIP Online.


DAFTAR ISI
Halaman
DAFTAR TABEL ............................................................................................................................. v
DAFTAR GAMBAR ........................................................................................................................ v
DAFTAR LAMPIRAN .................................................................................................................... v
PENDAHULUAN
Latar Belakang .............................................................................................................................. 1
Tujuan ........................................................................................................................................... 1
Ruang Lingkup ............................................................................................................................. 1
Manfaat Penelitian ........................................................................................................................ 1
TINJAUAN PUSTAKA
Knowledge Discovery in Databases (KDD) ................................................................................. 1
Normalisasi z-score....................................................................................................................... 2
Data Mining .................................................................................................................................. 2
Clustering ..................................................................................................................................... 2
Himpunan Fuzzy ........................................................................................................................... 3
Fungsi Keanggotaan ..................................................................................................................... 3
Fungsi Keanggotaan pada Fuzzy Cluster ...................................................................................... 4
Operasi Himpunan Fuzzy .............................................................................................................. 4

Fuzzy C-Means (FCM) ................................................................................................................. 4
Algoritme FCM ............................................................................................................................ 5
METODE PENELITIAN
Studi Pustaka ................................................................................................................................ 7
Proses Knowledge Discovery in Databases .................................................................................. 7
Perancangan Sistem ...................................................................................................................... 8
Implementasi Sistem ..................................................................................................................... 9
HASIL DAN PEMBAHASAN
Data Penelitian .............................................................................................................................. 9
Praproses Data ............................................................................................................................ 10
Pemilihan Atribut ........................................................................................................................ 10
Normalisasi Data ........................................................................................................................ 10
Segmentasi menggunakan Fuzzy C-Means ................................................................................. 10
Evaluasi Cluster Berdasarkan Pelanggan ................................................................................... 13
Evaluasi Cluster Berdasarkan Daerah......................................................................................... 15
Visualisasi Clustering ................................................................................................................. 15
KESIMPULAN DAN SARAN
Kesimpulan ................................................................................................................................. 16
Saran ........................................................................................................................................... 16
DAFTAR PUSTAKA ..................................................................................................................... 16


iv

DAFTAR TABEL
Halaman
1 Perbedaan matriks derajat keanggotaan HCM dengan FCM ......................................................... 5
2 Data contoh .................................................................................................................................... 6
3 Fungsi objektif dalam 22 iterasi pada data contoh ......................................................................... 6
4 Tabel penggunaan daya .................................................................................................................. 9
5 Persentase dan jumlah anggota cluster pada clustering berdasarkan pelanggan .......................... 13
6 Persentase dan jumlah anggota cluster pada clustering berdasarkan daerah ................................ 13
7 Karakteristik pengguna listrik kelas rendah (cluster 1) ................................................................ 13
8 Karakteristik pengguna listrik kelas sedang (cluster 2)................................................................ 13
9 Karakteristik pengguna listrik kelas tinggi (cluster 3) ................................................................. 14
10 Karakteristik pengguna listrik kelas sangat tinggi (cluster 4) .................................................... 14
11 Karakteristik penggunaan listrik berdasarkan segmentasi daerah .............................................. 15

DAFTAR GAMBAR
Halaman
1 Kurva fungsi keanggotaan .............................................................................................................. 4

2 Fungsi keanggotaan pada fuzzy cluster (Cox 2005) ....................................................................... 4
3 Derajat keanggotaan pada Hard C-Means (K-Means) ................................................................... 5
4 Derajat Keanggotaan pada Fuzzy C-Means .................................................................................... 5
5 Plot 2 dimensi pada program FCM untuk data contoh ................................................................... 7
6 Diagram alur penelitian .................................................................................................................. 8
7 Pengaturan parameter pada program FCM ................................................................................... 11
8 Ringkasan hasil clustering pada program FCM ........................................................................... 11
9 Grafik hasil clustering pada segmentasi berdasarkan pelanggan ................................................. 12
10 Grafik hasil clustering pada segmentasi berdasarkan daerah ..................................................... 12
11 Grafik nilai fungsi objektif untuk clustering berdasarkan pelanggan......................................... 12
12 Grafik nilai fungsi objektif untuk clustering berdasarkan daerah .............................................. 12
13 Pesebaran spasial pengguna listrik kelas rendah ........................................................................ 13
14 Pesebaran spasial pengguna listrik kelas sedang ........................................................................ 13
15 Pesebaran spasial pengguna listrik kelas tinggi .......................................................................... 14
16 Pesebaran spasial pengguna listrik kelas sangat tinggi .............................................................. 14
17 Pesebaran spasial pengguna listrik semua kelas ......................................................................... 14
18 Plot clustering berdasarkan pelanggan ....................................................................................... 15
19 Plot clustering berdasarkan daerah ............................................................................................ 16

DAFTAR LAMPIRAN

Halaman
1 Contoh sebagian data penelitian ................................................................................................... 18
2 Histogram pengguna daya ............................................................................................................ 19
3 Transformasi nilai atribut menggunakan normalisasi z-score ...................................................... 20
4 Tabel penggunaan listrik rata-rata berdasarkan daerah ................................................................ 21
5 Tabel hasil clustering dengan FCM terhadap pelanggan ............................................................. 22
6 Tabel jumlah anggota cluster terhadap seluruh daerah ................................................................ 23
7 Tabel hasil clustering terhadap daerah ......................................................................................... 24

v

PENDAHULUAN
Latar Belakang
Listrik merupakan sumber daya yang
sangat dibutuhkan saat ini. Penggunaan listrik
setiap tahun, bahkan setiap bulan terus
meningkat. Hal ini dibuktikan dengan selalu
bertambahnya jumlah pelanggan PLN pada
setiap
bulannya.

Peningkatan
jumlah
pelanggan dan penggunaan listrik, tentunya
harus didukung oleh pihak PLN dengan
meningkatkan pelayanannya. Pihak PLN
dapat melakukan pengambilan keputusan
yang lebih baik untuk meningkatkan
pelayanannya dengan mengetahui segmentasi
pelanggannya.
PLN menyimpan data penggunaan listrik
dari pelanggannya secara berkala. Data
penggunaan
listrik
yang
ada
dapat
dimanfaatkan untuk analisis segmentasi
pelanggan. Segmentasi pelanggan, dapat
dilakukan dengan teknik clustering. Setelah
segmentasi dilakukan, pesebaran setiap

segmen dapat divisualisasikan pada peta untuk
mempermudah melihat persebaran setiap
segmen dari aspek spasialnya.
Pada penelitan sebelumnya, Daulay (2006)
telah melakukan segmentasi pasar mie instant
dengan menggunakan algoritme clustering
Fuzzy C-Means. Algoritme Fuzzy C-Means
dapat memberikan hasil segmentasi yang lebih
alami dibandingkan Hard C-Means (KMeans) karena hasil clustering dipengaruhi
oleh kecenderungan masing-masing data
terhadap cluster-nya. Suatu data tidak hanya
tepat milik satu cluster, tetapi juga dapat
memiliki nilai derajat keanggotaan pada
cluster lainnya. Ukuran rendah, sedang,
tinggi, dan sangat tinggi bersifat alami,
sehingga metode Fuzzy C-Means lebih cocok
digunakan untuk melakukan segmentasi
dibandingkan dengan menggunakan Hard CMeans.
Perbedaan penelitian ini dengan penelitian
yang dilakukan oleh Daulay (2006) adalah
dari segi pemilihan jumlah cluster atau
segmen yang dihasilkan. Penelitian Daulay
(2006) ditujukan untuk mencari jumlah cluster
yang tepat untuk digunakan dalam clustering
(segmentasi), sedangkan pada penelitian ini
jumlah cluster yang digunakan sudah
ditentukan, yaitu sebanyak empat cluster, di
mana keempat cluster tersebut akan menjadi
empat kelas pengguna listrik, yaitu: kelas
rendah, kelas sedang, kelas tinggi, dan kelas
sangat tinggi.

Tujuan
Tujuan dari penelitian ini adalah:
1. Melakukan segmentasi penggunaan listrik
dengan menerapkan metode clustering
Fuzzy C-Means pada data pelanggan PLN
UPJ Bogor Timur berdasarkan pelanggan
dan daerah.
2. Mendapatkan
karakteristik
kelas
penggunaan listrik setiap segmen yang
terbentuk dari hasil clustering.
3. Menampilkan persebaran cluster yang
terbentuk pada peta
Ruang Lingkup
Segmentasi
pelanggan
PLN
yang
dilakukan menggunakan data pelanggan PLN
UPJ Bogor Timur pada bulan Desember tahun
2009 dengan algoritme clustering Fuzzy CMeans.
Manfaat Penelitian
Penerapan algoritme clustering Fuzzy CMeans pada data penggunaan listrik dapat
memperlihatkan segmentasi dan karakteristik
dari setiap segmen penggunaan listrik di
daerah Bogor Timur berdasarkan pelanggan
dan daerah. Penelitian ini diharapkan dapat
membantu pihak PLN UPJ Bogor Timur
dalam melakukan pengambilan keputusan
yang lebih baik untuk meningkatkan
pelayanan PLN UPJ Bogor Timur dengan
mengevaluasi persebaran segmen penggunaan
listrik.

TINJAUAN PUSTAKA
Knowledge Discovery in Databases (KDD)
Knowledge discovery in databases (KDD)
adalah keseluruhan proses untuk mengubah
data mentah menjadi informasi yang berguna
(Tan et al. 2006). KDD merupakan sebuah
proses iteratif yang terurut, dan data mining
merupakan salah satu langkah dalam KDD
(Han & Kamber 2006). Tahapan proses KDD
menurut Han & Kamber (2006), yaitu:
1. Pembersihan data
Pembersihan terhadap data dilakukan
untuk menghilangkan data yang tidak
konsisten dan data yang mengandung
noise.
2. Integrasi data
Proses integrasi data dilakukan untuk
menggabungkan data dari berbagai
sumber.

1

3. Seleksi data
Proses seleksi data mengambil data yang
relevan digunakan untuk proses analisis.
4. Transformasi data
Proses
menransformasikan
atau
menggabungkan data ke dalam bentuk
yang sesuai dengan teknik data mining
yang akan digunakan.
5. Data mining
Data mining merupakan proses yang
penting dimana metode-metode cerdas
diaplikasikan untuk mengekstrak pola-pola
dalam data.
6. Evaluasi pola
Evaluasi
pola
diperlukan
untuk
mengidentifikasi beberapa pola yang
menarik
yang
merepresentasikan
pengetahuan.
7. Representasi pengetahuan
Penggunaan visualisasi dan teknik
representasi untuk menunjukkan hasil
penggalian pengetahuan dari data kepada
pengguna.
Normalisasi z-score
Normalisasi merupakan bagian dari
transformasi data, yaitu atribut diskalakan ke
dalam rentang nilai tertentu yang lebih kecil
seperti -1,0 – 1,0 atau 0,0 – 1,0. Salah satu
teknik normalisasi yang dapat digunakan
adalah z-score.
Normalisasi
z-score
(zero-mean
normalization)
merupakan
normalisasi
berdasarkan nilai rata-rata dan standar deviasi
dari suatu atribut (Han & Kamber 2006).
Misalkan nilai v merupakan elemen dari A, Ᾱ
adalah rata-rata, dan A adalah nilai standar
deviasi dari atribut A, maka nilai v akan
ditransformasikan menjadi v’ dengan fungsi
... (1)
Normalisasi z-score berguna ketika nilai
aktual dari maksimum dan minimum suatu
atribut tidak diketahui atau ketika outlier
mendominasi pada normalisasi min-max.
Data Mining
Data mining merupakan proses ekstraksi
informasi data berukuran besar (Han &
Kamber 2006). Teknik data mining digunakan
untuk memeriksa database berukuran besar
sebagai cara untuk menemukan pola yang
baru dan berguna, sehingga bisa didapatkan
informasi berguna yang mungkin sebelumnya
belum diketahui.

Tugas data mining dari sudut pandang
analisis data dapat diklasifikasi menjadi dua
kategori, yaitu descriptive data mining dan
predictive data mining. Descriptive data
mining menjelaskan sekumpulan data dalam
cara yang lebih ringkas. Ringkasan tersebut
menjelaskan sifat-sifat yang menarik dari
data. Predictive data mining menganalisis
data dengan tujuan mengonstruksi satu atau
sekumpulan model dan melakukan prediksi
perilaku dari kumpulan data baru.
Beberapa tugas dari data mining adalah:






Analisis asosiasi
Klasifikasi dan prediksi
Analisis cluster
Analisis outlier
Analisis trend dan evolusi

Clustering
Analisis cluster atau yang biasa disebut
clustering berbeda dengan classification
dimana tidak terdapat variabel target untuk
clustering. Algoritme clustering membagibagi dari keseluruhan himpunan data menjadi
subkelompok atau cluster yang relatif
homogen, dimana kesamaan record-record di
dalam cluster diperbesar, dan kesamaan
record-record di luar cluster diperkecil.
Clustering seringkali diterapkan dalam
langkah persiapan pada proses data mining
dengan menghasilkan cluster-cluster yang
digunakan sebagai input untuk berbagai
teknik, seperti jaringan syaraf tiruan.
Struktur data yang digunakan dalam
clustering adalah data matriks sedangkan tipe
data yang digunakan adalah (Han & Kamber
2006):
 Interval-scaled
variable
merupakan
ukuran kontinu pada penskalaan linear.
Contoh variabel yang termasuk pada tipe
data ini yaitu tinggi, berat, temperatur
cuaca, dan koordinat bujur-lintang.
 Atribut biner hanya mempunyai dua nilai
yaitu 0 dan 1.
 Atribut nominal memiliki lebih dari dua
nilai, misalkan merah, biru, kuning, hijau.
 Atribut ordinal dapat berupa data diskret
atau data kontinu. Tipe data ini dapat
diperlakukan seperti tipe data intervalscaled
variable
yang
sangat
mempertimbangkan urutan.
 Atribut
rasio
menggunakan
skala
Bt

-Bt

eksponensial, misalkan Ae atau Ae .
Kesamaan dan ketidaksamaan antara dua
objek diukur menggunakan pengukuran jarak.

2

Beberapa pengukuran jarak yang populer
digunakan antara lain:
 Jarak Euclidean:
... (2)
 Jarak Manhattan

 Divisive, dimulai dengan satu cluster
besar yang berisi semua titik data (all
inclusive cluster). Pada setiap langkah,
dilakukan pemecahan sebuah cluster
sampai setiap cluster berisi sebuah titik
(atau terdapat k cluster).

... (3)

3. Density-based, merupakan pendekatan
yang berdasarkan konektivitas dan fungsi
kepadatan.

... (4)

4. Grid-based, merupakan pendekatan yang
berdasarkan pada struktur multiple-level
granularity.

 Jarak Minkowski

Jarak Euclidean biasa digunakan untuk
mengevaluasi kedekatan objek dalam ruang
dua atau tiga dimensi. (Abonyi & Feil 2007).
Jarak Minkowski, merupakan generalisasi
dari jarak Euclidean dan jarak Manhattan,
dimana p merupakan nilai integer positif.
Jarak Minkowski akan merepresentasikan
jarak Manhattan jika p = 1, dan akan
merepresentasikan jarak Euclidean jika p = 2
(Han & Kamber 2006).
Menurut Han & Kamber (2006), beberapa
pendekatan yang sering digunakan dalam
clustering, yaitu:
1. Partitional method, yaitu membangun
sebuah partisi dari sebuah database D
dengan n objek ke dalam himpunan k
cluster. Kemudian diberikan sebuah k,
temukan partisi dari k cluster yang
mengoptimisasi pilihan kriteria partisi,
yaitu:
 Global optimal: menyelesaikan dengan
menjumlahkan semua partisi.
 Heuristic methods:
 K-means: tiap cluster diwakilkan
oleh titik tengah cluster.
 K-medoids atau PAM (Partition
around medoids): tiap cluster
diwakilkan oleh satu objek di
dalam cluster.
 Fuzzy C-Means (FCM): sebagian
data menjadi anggota dari dua atau
lebih cluster.
2. Hierarchical method, yaitu membuat
sebuah dekomposisi berhirarki dari
himpunan data (atau objek) menggunakan
beberapa kriteria. Metode ini memiliki dua
jenis pendekatan yaitu:
 Agglomerative, dimulai dengan titiktitik sebagai cluster individu. Pada
setiap tahap dilakukan penggabungan
setiap pasangan titik pada cluster
sampai hanya satu titik (atau cluster)
yang tertinggal.

5. Model-based,
sebuah
model
yang
dihipotesis untuk tiap cluster dan ide
dasarnya adalah untuk menemukan model
yang pantas untuk tiap cluster.
Kualitas hasil clustering bergantung pada
metode ukuran kesamaan yang digunakan dan
implementasinya. Selain itu, kualitas dari
metode clustering yang digunakan juga diukur
dari kemampuannya untuk menemukan
beberapa atau semua pola yang tersembunyi.
Himpunan Fuzzy
Teori himpunan fuzzy dan logika fuzzy
adalah suatu cara yang dapat digunakan untuk
mengatasi ketidaktepatan dan ketidakpastian.
Secara singkat, teori himpunan fuzzy
memungkinkan suatu objek adalah milik suatu
himpunan dengan nilai derajat keanggotaan di
antara 0 dan 1, sedangkan logika fuzzy
memungkinkan
pernyataan
untuk
membenarkan dengan tingkat kepastian antara
0 dan 1. Teori ini diperkenalkan oleh Lotfi
Zadeh pada tahun 1965 (Tan et al. 2006).
Nilai derajat keanggotaan menunjukkan
bahwa suatu objek tidak hanya memiliki
kondisi benar (bernilai 1) atau salah (bernilai
0), tetapi juga ada kondisi yang terletak di
antara
keduanya.
Kondisi
tersebut
direpresentasikan dengan nilai derajat
keanggotaan yang berada pada selang nilai 0
dan 1.
Fungsi Keanggotaan
Fungsi
keanggotaan
(membership
function)
adalah
suatu
kurva
yang
menunjukkan pemetaan titik-titik input data
ke dalam nilai keanggotaannya (sering disebut
dengan derajat keanggotaan) yang memiliki
interval antara 0 sampai 1. Fungsi
keanggotaan dari himpunan fuzzy A dapat
dinotasikan dengan: X → [0,1]. Gambar 1
merupakan contoh kurva fungsi keanggotaan.
Pada gambar tersebut, titik yang ditunjukkan

3

oleh huruf X memiliki derajat keanggotaan
sebesar 0,5.

pembicaraan U dengan fungsi keangotaan μ

A

dan μ , maka operasi-operasi dasar himpunan
B

fuzzy berikut dapat didefinisikan:
a. Union (Penggabungan)
 Gabungan dua himpunan samar A
dan B adalah himpunan samar C.
C = A∪B atau C = A ATAU B
 Dengan derajat keanggotaan C
adalah:
μ (x) = max (μ (x) , μ (x))
c

Fungsi Keanggotaan pada Fuzzy Cluster
Pada pendekatan fuzzy clustering, setiap
data diberikan sebagian derajat keanggotaan
dari beberapa cluster yang terdekat. Setiap
data akan memiliki derajat keanggotaan yang
diasosiasikan untuk setiap pusat cluster pada
selang nilai 0 sampai 1, yang menunjukkan
kekuatan penempatannya dalam cluster.

A

μ (x))

= (μ (x)

Gambar 1 Kurva fungsi keanggotaan

A

B

B

b. Intersection (Irisan)
 Irisan dua himpunan samar A dan B
adalah himpunan samar C.
C = A∩B atau C = A DAN B
 Dengan derajat keanggotaan C
adalah:
μ (x) = min (μ (x) , μ (x))
c

A

= (μ (x)
A

B

μ (x))
B

c. Complement (Ingkaran)
 Komplemen himpunan samar A
diberi tanda Ā (NOT A) dan
didefinisikan sebagai berikut:
μ (x) = 1 - μ (x)
Ā

A

Fuzzy C-Means (FCM)

Gambar 2 Fungsi keanggotaan pada fuzzy
cluster (Cox 2005)
Sebagai gambaran, fungsi keanggotan
pada fuzzy cluster dapat dibayangkan diameter
ruang cluster sebagai dasar dari suatu
himpunan fuzzy berbentuk lonceng. Kurva
keanggotaan mendefinisikan sejauh mana
sebuah titik berada pada cluster. Ilustrasi dari
fungsi keanggotaan pada fuzzy cluster dapat
dilihat pada Gambar 2 (Cox 2005). Pada
gambar tersebut pusat cluster ditunjukkan
oleh titik dengan huruf C yang memiliki nilai
derajat keanggotaan 1, sedangkan titik dengan
huruf A merupakan anggota dari cluster
dengan pusat cluster C memiliki derajat
keanggotaan sebesar 0,5 pada cluster tersebut.
Operasi Himpunan Fuzzy
Misalkan himpunan A dan B adalah dua
nilai dari himpunan fuzzy pada semesta

Fuzzy C-Means merupakan salah satu
teknik clustering yang menggunakan model
pengelompokan fuzzy, sehingga data dapat
menjadi semua anggota kelas atau cluster
yang terbentuk dengan derajat atau tingkat
keanggotaan yang berbeda pada selang nilai 0
sampai 1. Keberadaan suatu data pada cluster
ditentukan oleh derajat keanggotaannya.
Teknik FCM ini pertama kali diperkenalkan
oleh Jim Bezdek pada tahun 1981.
Perbedaan derajat keanggotaan antara
Hard C-Means (atau yang lebih dikenal
sebagai K-Means) dibandingkan dengan Fuzzy
C-Means dapat dilihat pada Gambar 3 dan
Gambar 4. Kedua gambar tersebut merupakan
kurva derajat keanggotaan untuk cluster A.
Pada Gambar 3 terlihat titik-titik yang berada
pada cluster A memiliki nilai derajat
keanggotaan bernilai 1, selainnya nilai derajat
keanggotannya bernilai 0, sedangkan pada
Gambar 4, titik yang ditandai dengan huruf X
merupakan titik milik cluster B, tetapi
memiliki derajat keanggotaan pada cluster A
sebesar 0,25. Perbandingan matriks derajat
keanggotaan dari Hard C-Means (HCM) dan
Fuzzy C-Means (FCM) dapat dilihat pada

4

Tabel 1 (Diasumsikan jumlah cluster yang
terbentuk sebanyak dua).

objektif yang digunakan pada algoritme FCM
adalah sebagai berikut (Ross 2005):
... (5)
dengan:
... (6)

Gambar 3 Derajat keanggotaan pada Hard CMeans (K-Means)

... (7)

... (8)
dimana:

Gambar 4 Derajat Keanggotaan pada
Fuzzy C-Means
Tabel 1 Perbedaan matriks derajat
keanggotaan HCM dengan FCM
Matriks derajat
keanggotaan pada
HCM

Matriks derajat
keanggotaan pada
FCM

Konsep dasar dari FCM, pertama kali
adalah menentukan pusat cluster yang akan
menandai lokasi rata-rata setiap cluster. Setiap
data memiliki derajat keanggotaan untuk
setiap cluster. Pada kondisi awal, pusat cluster
masih belum akurat. Pusat cluster akan
menuju ke lokasi yang tepat dengan cara
memperbaiki pusat cluster dan derajat
keanggotaan untuk setiap cluster secara
berulang.
Perulangan
yang
dilakukan
didasarkan pada fungsi objektif (Gulley &
Jang 2000).
Algoritme FCM

w adalah pembobot (parameter fuzzy),
dengan w
,
c adalah jumlah cluster, dengan c ≥ 2
dan c < n,
n adalah banyaknya data,
ik adalah fungsi untuk nilai derajat
keanggotaan data ke-k ke cluster ke-i
(matriks partisi),
dik adalah fungsi ukuran jarak untuk jarak
Euclidean antara pusat cluster ke-i
dengan data ke-k,
djk adalah fungsi ukuran jarak untuk jarak
Euclidean antara pusat cluster ke-j
dengan data ke-k,
vij adalah pusat cluster dari variabel ke-i,
dan cluster ke-j,
X adalah data yang di-cluster:

U adalah matriks partisi (matriks derajat
keanggotaan cluster):

V adalah matriks pusat cluster:

Nilai Jw terkecil adalah yang terbaik,
sehingga:

Algoritme FCM bertujuan untuk mencari
partisi cluster fuzzy yang optimal dengan
meminimalkan nilai fungsi objektif. Fungsi

5

Algoritme FCM secara lengkap diberikan
sebagai berikut (Ross 2005):
1. Menentukan:
a. Matriks X berukuran n × m, dengan n =
jumlah data yang akan di-cluster dan m
= jumlah variabel (kriteria).
b. Jumlah cluster yang akan dibentuk (n >
c ≥ 2).
c. pembobot (w > 1)
d. Maksimum iterasi (i)
e. Kriteria penghentian/treshold (ɛ = nilai
positif yang sangat kecil).
2. Membentuk matriks partisi awal U (derajat
keanggotaan dalam cluster) dengan ukuran
n  c; matriks partisi biasanya dibuat acak.
3. Menghitung pusat cluster V untuk setiap
cluster dengan menggunakan persamaan
nomor 8.
4. Memperbaiki derajat keanggotaan setiap
data pada setiap cluster (perbaiki matriks
partisi) menggunakan persamaan nomor 6.
5. Menghentikan iterasi jika pusat cluster V
tidak
berubah.
Alternatif
kriteria
penghentian adalah jika perubahan nilai
error (selisih nilai fungsi objektif) < nilai
treshold atau jika nilai absolut perubahan
matriks U di bawah nilai treshold
(Höppner et al. 1999). Nilai perubahan
matriks partisi pada iterasi sekarang
dengan iterasi sebelumnya menggunakan
fungsi nomor 9.

Nilai awal yang ditentukan untuk
clustering FCM pada data contoh adalah
sebagai berikut:
1. Matriks partisi awal (U0):

U=

2. Jumlah cluster yang akan dibentuk  c =
3
3. Pangkat pembobot  w = 2
4. Maksimum iterasi  i = 100
5. Kriteria penghentian  ɛ = 10-5
Melalui proses FCM, clustering optimal
terbentuk pada iterasi ke-22, dengan hasil:
 i = 22 (iterasi terakhir)
 Matriks pusat vektor (V):
V=
Matriks U ter-update (U22):

... (9)
Apabila Δ ≤ ε maka iterasi dihentikan.
Pencarian nilai Δ dilakukan dengan
mengambil elemen terbesar dari nilai
mutlak antara ik (t) dengan ik (t-1). Jika
tidak memenuhi kriteria penghentian,
kembali ke langkah nomor 3.
Algoritme FCM diterapkan pada data
contoh yang terdapat pada Tabel 2.
Tabel 2 Data contoh
X
12
25
17
20
18
15
26
15
10
16

Y
150
155
126
132
145
135
122
127
130
135

U=

Fungsi objektif selama 22 iterasi dapat
dilihat pada Tabel 3.
Tabel 3 Fungsi objektif dalam 22 iterasi pada
data contoh
Iterasi ke1
2
3
4
5
6
7
8
9
10

Fungsi Objektif
495,452485
281,352702
250,286133
244,005737
241,037645
239,401459
238,411739
237,605360
236,676011
235,393906

6

Iterasi ke11
12
13
14
15
16
17
18
19
20
21
22

Fungsi Objektif
233,635708
231,262171
230,004460
229,165714
228,876866
288,800946
288,783573
288,779830
288,779041
288,778876
288,778842
288,778835

Hasil clustering dengan FCM untuk data
contoh dapat dilihat pada Gambar 5. Cluster 1
ditunjukkan oleh warna cyan, cluster 2
ditunjukkan oleh warna magenta, dan cluster
3 ditunjukkan oleh warna biru. Pusat cluster
ditunjukkan oleh titik berbentuk kotak dengan
warna yang sejenis dengan cluster-nya.

1. Pembersihan data
Pembersihan data dilakukan dengan cara
menghapus data yang tidak valid seperti
data yang kurang lengkap nilai atributnya.
Selain dari data yang kurang nilai
atributnya,
pembersihan
data juga
dilakukan dengan tidak mengikutsertakan
data yang memiliki atribut daerah yang
tidak terdapat pada peta. Daerah-daerah
yang dianggap tidak valid karena tidak
terdapat pada peta adalah: Babakan
Fakultas, Bojong Enyod, Ceger, Desa
Tengah, Graha Indah, Kalibata, Karang
Asem, Komplek LPTI, Panggugah, Pulo
Armin, dan Sampora.
2. Integrasi data
Proses integrasi data yang dilakukan
adalah dengan menambahkan titik
koordinat dummy (X dan Y) untuk setiap
data, karena data sumber yang didapatkan
tidak memiliki titik koordinat. Integrasi
titik koordinat pada data diperlukan untuk
visualisasi persebaran cluster penggunaan
listrik pada peta.
Titik koordinat yang diberikan bersifat
random pada satu daerah. Sebagai contoh,
dalam satu daerah terdapat 100 data yang
memiliki atribut lingkungan Babakan,
maka disebar sebanyak 100 titik koordinat
pada daerah Babakan. Kemudian 100 titik
koordinat tersebut diintegrasikan pada 100
data yang memiliki atribut daerah
Babakan.

Gambar 5 Plot 2 dimensi pada program FCM
untuk data contoh

METODE PENELITIAN
Langkah-langkah yang dilakukan pada
penelitian ini adalah sebagai berikut:
Studi Pustaka
Pada tahap ini dilakukan pengumpulan
informasi dan bahan pustaka yang berkaitan
dengan data mining dan logika fuzzy
khususnya Fuzzy C-Means.
Proses Knowledge Discovery in Databases
Pada penelitian ini, proses Knowledge
Discovery in Databases (KDD) dilakukan
sesuai dengan tahap KDD menurut Han &
Kamber (2006). Tahap-tahap KDD yang
dilakukan pada penelitian ini adalah:

3. Seleksi data
Tahap seleksi data pada penelitian ini
terdapat dua tahap seleksi, yaitu seleksi
berdasarkan
daerah
dan
seleksi
berdasarkan jam penggunaan listrik.
Sebelum melakukan seleksi berdasarkan
daerah, dilakukan pengelompokan daerah
terlebih dahulu. Proses pengelompokan
daerah dilakukan dengan menggabungkan
beberapa daerah ke dalam satu kelurahan.
Sebagai contoh, data yang memiliki atribut
daerah Kedung Halang, Nanggrak Indah,
Nanggrak Mekar, dan Pasir Jambu
dijadikan satu daerah, yaitu daerah
kelurahan Kedung Halang.
Tahap seleksi data pertama adalah seleksi
berdasarkan daerah. Pada tahap ini, data
yang dipilih adalah data pelanggan PLN
UPJ Bogor Timur yang dikategorikan
sebagai daerah PLN UPJ Bogor Timur.
Hal ini dilakukan karena PLN UPJ Bogor
Timur tidak hanya melayani pelanggan di
daerah Bogor Timur saja, melainkan juga

7

mendapat limpahan pelanggan dari daerah
lain seperti daerah Citeureup, Semplak,
dan Bogor Kota. Selain itu, pembagian
daerah Bogor menurut PLN berbeda
dengan pembagian daerah Bogor menurut
pemerintah, karena beberapa daerah di
sekitar Bogor Timur menurut pemerintah
dimasukkan sebagai daerah Bogor Timur
oleh PLN UPJ Bogor Timur. Sebagai
contoh, daerah Kedung Halang yang
terdapat di Bogor Utara termasuk sebagai
daerah Bogor Timur oleh PLN UPJ Bogor
Timur. Data pelanggan yang tidak
dianggap sebagai pelanggan PLN UPJ
Bogor Timur tidak diikutsertakan dalam
proses clustering. Untuk membedakan
pelanggan tersebut, dapat dilihat dari lima
digit pertama kode pelanggan. Lima digit
pertama yang digunakan untuk pelanggan
PLN
UPJ
Bogor
Timur
adalah
53821xxxxxxx.

dari data. Cluster yang digunakan pada
penelitian ini sebanyak empat cluster.
Empat cluster tersebut akan dijadikan
empat kelas penggunaan listrik, yaitu
rendah, sedang, tinggi, dan sangat tinggi.
6. Evaluasi pola
Setelah melakukan data mining, dilakukan
evaluasi pola yang dilakukan dengan cara
melihat karakteristik dari setiap cluster
yang sudah dibentuk.
7. Representasi pengetahuan
Representasi pengetahuan yang digunakan
pada penelitian ini adalah dengan
visualisasi persebaran titik pelanggan pada
peta. Setiap anggota cluster akan
ditampilkan dalam warna yang berbeda
pada peta menurut cluster-nya.
Diagram alur penelitian yang digunakan
dapat dilihat pada Gambar 6.

Seleksi data dengan menggunakan kode
pelanggan ternyata masih belum bersih
dari daerah selain Bogor. Oleh karena itu,
seleksi daerah juga dilakukan secara
manual dengan tidak memasukkan data
yang daerahnya tidak dianggap sebagai
daerah Bogor seperti daerah Citeurep.

... (10)
4. Transformasi data
Tahap transformasi data dilakukan untuk
mengubah data agar dapat digunakan
dalam proses data mining. Transformasi
data yang dilakukan pada penelitian ini
adalah melakukan normalisasi data dengan
normalisasi z-score.
5. Data mining
Proses data mining yang dilakukan pada
penelitian ini adalah menerapkan teknik
clustering dengan algoritme Fuzzy CMeans untuk mendapatkan karakteristik

Praproses

Pembersihan,
Integrasi, &
Seleksi data

Data
Mining

Transfromasi
Data

Representasi
Pengetahuan

Tahap seleksi data kedua adalah seleksi
berdasarkan jam penggunaan listrik. Pada
tahap ini, data pelanggan yang dipilih
adalah data pengguna yang menggunakan
KWH ≥ 150 jam. Alasannya adalah,
penggunaan listrik dengan KWH < 150
jam dianggap sebagai rumah kosong atau
tidak aktif menggunakan listrik. Data
sumber yang didapat tidak terdapat
keterangan jumlah jam penggunaan listrik.
Cara mendapatkan jam penggunaan listrik
dari data pelanggan adalah dengan
menggunakan persamaan nomor 10.

Data KWH

Penerapan
Fuzzy C-Means

Plot Hasil
Clustering

Gambar 6 Diagram alur penelitian
Perancangan Sistem
Pada tahap ini dilakukan pemilihan
atribut-atribut yang akan digunakan pada
penelitian. Atribut-atribut yang terpilih
digunakan untuk diaplikasikan pada proses
clustering dengan Fuzzy C-Means (FCM).
Evaluasi pola dan representasi pengetahuan
ditampilkan dalam bentuk visualisasi pada
peta digital.

8

Implementasi Sistem
Clustering FCM diimplementasikan pada
program
yang
dikembangkan
dengan
perangkat lunak Matlab v.7.7. Tahap
implementasi sistem mengikuti langkahlangkah melakukan clustering dengan FCM,
yaitu:
1. Memilih data yang akan di-cluster
2. Menetapkan parameter-parameter untuk:
 Jumlah cluster (n > c ≥ 2)
 Pangkat pembobot (w > 1)
 Maksimum iterasi (i)
 Kriteria penghentian (ɛ)
3. Menghitung pusat cluster, fungsi objektif,
dan perubahan derajat keanggotaan pada
matriks U.
Tahap representasi pengetahuan dengan
peta
diimplementasikan
menggunakan
perangkat lunak Quantum GIS v.1.6.0.

HASIL DAN PEMBAHASAN
Data Penelitian
Data sumber yang digunakan pada
penelitian ini adalah data pelanggan UPJ
Bogor Timur pada bulan Desember 2009
dengan jumlah record sebanyak 104.773 baris
dan 5 atribut. Atribut-atribut tersebut adalah
nomor
pelanggan,
golongan,
daya,
lingkungan, dan KWH. Contoh sebagian data
penelitian yang digunakan dapat dilihat pada
Lampiran 1.
Berikut penjelasan masing-masing atribut
pada data sumber. Atribut nomor pelanggan
adalah nomor unik yang dimiliki oleh setiap
pelanggan. Setiap nomor pelanggan terdiri
dari dua belas digit. Lima digit pertama
merupakan inisialisasi daerah pelanggan. Dua
digit pertama dari lima digit tersebut
menunjukkan provinsi dan tiga digit
selanjutnya menunjukkan pembagian daerah
dari provinsi. Sebagai contoh, terdapat
pelanggan yang memiliki lima digit pertama
53821. Dua digit pertama, yaitu 53
menunjukkan bahwa pelanggan berada di
daerah Jawa Barat, sedangkan tiga digit
selanjutnya
821
menunjukkan
bahwa
pelanggan berada di daerah Bogor Timur.
Atribut golongan merupakan representasi
dari penggolongan pelanggan berdasarkan
jenis pelanggan dan tarif penggunaan per
KWH. Setiap golongan memiliki tarif yang
berbeda-beda untuk pembayaran listrik.
Sebagai contoh, tarif penggunaan listrik per
KWH golongan rumah tangga lebih murah

dibandingkan dengan golongan bisnis.
Golongan-golongan yang terdapat pada data
pelanggan UPJ Bogor Timur adalah bisnis
(B), industri (I), pemerintah (P), rumah tangga
(R), dan sosial (S). Golongan pelanggan juga
dibagi menjadi beberapa bagian tergantung
dari daya yang digunakan. Sebagai contoh,
daya pelangggan golongan bisnis ada dua,
yaitu B1 dan B2, sedangkan untuk rumah
tangga dibagi menjadi tiga golongan
pengguna daya, yaitu R1, R2, dan R3.
Penggunaan daya setiap golongan dapat
dilihat pada Tabel 4.
Atribut daya adalah nilai daya tetap yang
dipilih oleh pelanggan. Sebagai contoh, jika
dalam suatu rumah memiliki barang
elektronik yang membutuhkan daya 450 Watt,
rumah tersebut harus memiliki daya sekitar
450 Watt atau lebih untuk menyalakan alat
tersebut. Pada data sumber didapatkan
sebanyak 49 jenis daya. Kisaran daya yang
digunakan dimulai dari 160 – 197.000 Watt.
Pada histrogram yang disajikan pada
Lampiran 2 terlihat bahwa pengguna daya 450
Watt merupakan yang paling banyak
jumlahnya, disusul dengan pengguna daya
770, 1.300, dan 2.200 Watt. Jumlah pengguna
pada empat jenis daya tersebut memiliki lebih
dari 2.000 pelanggan, sedangkan pengguna
daya lainnya memiliki pelanggan di bawah
2.000 pelanggan.
Tabel 4 Tabel penggunaan daya
Daya (Watt)
Golongan
B1
B2
I1
I2
P1
P3
R1
R2
R3
S2

Terendah
450
2.560
1.300
16.500
450
160
450
3.500
7.700
450

Tertinggi
2.200
197.000
13.200
197.000
197.000
131.000
2.200
6.600
41.500
197.000

Atribut lingkungan adalah atribut yang
berisi nama-nama daerah tempat pelanggan
berada. Daerah-daerah yang terdapat pada
atribut ini biasanya berupa nama kelurahan,
walaupun terdapat beberapa nama daerah
yang bukan merupakan nama kelurahan.
Atribut KWH (Kilo Watt per Hour) adalah
banyaknya daya yang digunakan oleh
pelanggan dalam satu jam. Pada data
penelitian, atribut ini berisi nilai penggunaan
listrik dalam satuan KWH selama satu bulan.

9

Praproses Data
Hasil dari penelitian akan ditampilkan
dalam bentuk peta, untuk itu dibutuhkan titik
koordinat (X & Y). Namun data yang
digunakan pada penelitian ini tidak memiliki
data koordinat (X & Y) dari setiap pelanggan.
Oleh karena itu, dilakukan integrasi data
dengan menambahkan data koordinat (X dan
Y) yang dibuat secara random dengan bantuan
perangkat lunak Quantum GIS v.1.6.0.
Jumlah daerah (lingkungan) yang terdapat
pada data sebanyak 45 daerah. Kemudian
daerah-daerah tersebut dikelompokkan ke
dalam kelurahan-kelurahan dengan total
kelurahan yang didapat adalah sebanyak 39
kelurahan (dalam hal ini, daerah yang berada
pada daerah Citeureup dijadikan satu
kelurahan karena tidak dianggap sebagai
daerah
kota
Bogor).
Setelah
data
dikelompokkan ke dalam kelurahan, data
disaring dengan memilih data pelanggan PLN
UPJ Bogor Timur dengan memilih data
pelanggan
yang
memiliki
awalan
53821xxxxxxx pada kode pelanggan. Selain
itu, penyaringan juga dilakukan berdasarkan
kelurahan yang dimasukkan ke dalam kategori
daerah kota Bogor. Sebanyak 23 kelurahan
terpilih dari 39 kelurahan. Tahap penyaringan
data selanjutnya adalah dengan memilih data
pelanggan yang menggunakan KWH ≥ 150
jam.
Setelah melalui proses integrasi dan
penyaringan data, data yang digunakan pada
penelitian menjadi sebanyak 39.822 record
dan delapan field. Field-field yang terdapat
pada data penelitian adalah: Koordinat_X,
Koordinat_Y, No_Pelanggan, Golongan,
Daya, Lingkungan, KWH, dan Jam.
Pemilihan Atribut
Untuk melakukan segmentasi, dilakukan
pemilihan atribut yang sesuai untuk digunakan
pada proses clustering. Pemilihan atribut yang
digunakan adalah atribut-atribut yang relevan
dalam hal penggunaan listrik. Atribut yang
terpilih dalam penelitian ini adalah sebanyak
dua atribut dari delapan atribut yang ada, yaitu
daya dan KWH. Kedua atribut ini dianggap
sebagai atribut yang paling merepresentasikan
penggunaan listrik pelanggan.
Normalisasi Data
Proses normalisasi terhadap data dilakukan
terlebih dahulu sebelum masuk ke tahap
proses clustering, karena data yang digunakan
memiliki rentang nilai yang sangat besar.

Rentang nilai yang sangat besar cukup
mempengaruhi pada metode clustering yang
berbasis jarak seperti FCM. Normalisasi pada
umumnya digunakan untuk menyetarakan
atribut agar atribut satu dengan lainnya
memiliki ukuran yang sama. Normalisasi juga
membuat rentang nilai menjadi jauh lebih
kecil sehingga membantu perhitungan jarak
menjadi lebih cepat dan efisien.
Teknik normalisasi yang digunakan pada
penelitian ini adalah z-score. Normalisasi zscore dipilih karena pada data penelitian
outlier mendominasi pada daerah nilai
minimum. Setelah data dinormalisasi dengan
z-score, nilai rata-rata dari masing-masing
atribut menjadi 0 dan standar deviasinya
bernilai 1. Contoh sebagian data sebelum dan
sesudah ditransformasi dengan normalisasi zscore dapat dilihat pada Lampiran 3.
Segmentasi menggunakan Fuzzy C-Means
Proses segmentasi yang dilakukan pada
penelitian ini terdapat dua jenis, yaitu
segmentasi berdasarkan pelanggan dan
segmentasi berdasarkan daerah. Segmentasi
berdasarkan pelanggan adalah segmentasi
dengan menggunakan data pelanggan yang
sebelumnya
sudah
mengalami
tahap
praproses, sedangkan untuk segmentasi
berdasarkan daerah, menggunakan data yang
sama namun data tersebut diperkecil dengan
mengambil rata-rata daya, KWH per
daerahnya. Nilai rata-rata yang diambil
bukanlah nilai rata-rata data pelanggan yang
sudah dinormalisasi. Karena itu data tersebut
dinormalisasi
setelah
data
rata-rata
penggunaan listrik (daya dan KWH) dari
setiap daerah didapatkan. Data yang
digunakan untuk segmentasi berdasarkan
daerah dapat dilihat pada Lampiran 4.
Untuk mendapatkan hasil segmentasi
penggunaan listrik, dilakukan penerapan
teknik clustering pada data menggunakan
algoritme Fuzzy C-Means (FCM). Proses
clustering dilakukan dengan menggunakan
program
yang
dikembangkan
dengan
perangkat lunak Matlab v.7.7. Sebelum
melakukan
clustering
dengan
FCM,
ditentukan terlebih dahulu parameterparameter FCM yang dibutuhkan seperti yang
telah dibahas pada implementasi sistem.
Segmentasi
yang
diinginkan
pada
penelitian ini adalah membagi penggunaan
listrik menjadi empat kelas, yaitu kelas
penggunaan listrik rendah, sedang, tinggi, dan
sangat tinggi. Oleh karena itu, jumlah cluster

10

(c) yang digunakan pada penelitian ini adalah
sebanyak empat cluster.
Pembobot (w) merupakan parameter fuzzy
(fuzzifier) yang digunakan dalam FCM. Nilai
w tidak boleh 1, karena ketika w = 1 maka
tidak akan terjadi proses fuzzy clustering,
tetapi malah menjadi proses hard clustering.
Hal ini dikarenakan algoritme FCM
merupakan generalisasi dari algoritme
pendahulunya, yaitu algoritme Hard CMeans. Nilai w = 1 akan menyebabkan
pembagian dengan 0 pada persamaan nomor
8. Jadi, nilai pembobot (w) harus lebih besar
dari 1 (Höppner et al. 1999). Jika w > 2,
pembobot (w) akan mengurangi bobot yang
ditetapkan untuk cluster yang dekat dengan
titik. Terdapat beberapa pertimbangan untuk
memlih w = 2, salah satunya adalah untuk
menyederhanakan fungsi derajat keanggotaan
(ik) pada persamaan nomor 6 (Tan et al.
2006). Jadi, nilai pembobot yang digunakan
pada penelitian ini adalah 2.
Iterasi maksimum yang ditentukan pada
penelitian ini adalah sebanyak 100 iterasi,
agar proses perulangan tidak terlalu banyak.
Walaupun demikian, iterasi akan dihentikan
apabila nilai pada persamaan nomor 9 sudah
lebih kecil dari nilai kriteria penghentian (ɛ)
yang ditentukan.

Gambar 7 merupakan window dari
program yang telah dibuat untuk memilih data
yang akan digunakan untuk proses clustering
dengan FCM. Window tersebut juga
merupakan tempat memasukkan parameterparameter FCM yang akan digunakan.
Tombol Cluster merupakan tombol untuk
melakukan proses clustering, tentunya setelah
data dipilih dan parameter-parameternya telah
dimasukkan.
Setelah program melakukan proses
clustering dengan teknik FCM, program akan
memunculkan ringkasan statistik dari hasil
proses clustering seperti yang dapat dilihat
pada Gambar 8. Pada window tersebut
menampilkan karakteristik dari data yang
digunakan,
parameter-paramater
yang
digunakan, jumlah anggota dari masingmasing cluster, dan log nilai fungsi objektif.
Pada window tersebut juga terdapat beberapa
tombol yang dapat digunakan untuk
mendapatkan keterangan lebih lanjut dari hasil
clustering seperti tombol untuk melihat tabel
hasil clustering, tombol untuk melihat grafik
cluster, tombol untuk melihat plot cluster
dalam bentuk 2 dimensi, dan tombol untuk
menyimpan hasil clustering.

Nilai kriteria penghentian (ɛ) yang
ditentukan pada penelitian ini adalah 10-5.
Nilai tersebut sudah dianggap sebagai nilai
positif yang sangat kecil pada penelitian ini.
Jadi, nilai-nilai parameter yang digunakan
untuk
melakukan
clustering
dengan
menggunakan FCM pada penelitian ini adalah
sebagai berikut:





Jumlah cluster (c) = 4
Pangkat pembobot (w) = 2
Maksimum iterasi (i) = 100
Kriteria penghentian/treshold (ɛ) = 10-5

Gambar 8 Ringkasan hasil clustering pada
program FCM

Gambar 7 Pengaturan parameter pada
program FCM

Pengguna program FCM dapat melihat
grafik hasil clustering dalam bentuk bar.
Sumbu x merepresentasikan cluster, dan
sumbu y merepresentasikan jumlah anggota
cluster. Setiap cluster juga dibedakan dari
warna bar-nya. Pada setiap bar terdapat nilai
yang menunjukkan jumlah anggota cluster.

11

Grafik hasil clustering dari segmentasi
berdasarkan pelanggan dapat dilihat pada
Gambar 9 dan grafik hasil clustering dari
segmentasi berdasarkan daerah dapat dilihat
pada Gambar 10. Pada kedua grafik tersebut,
cluster 1 merupakan pengguna listrik kelas
rendah, cluster 2 merupakan pengguna listrik
kelas
sedang,
cluster
3
merupakan
penggunaan listrik kelas tinggi, dan cluster 4
merupakan pengguna listrik kelas sangat
tinggi. Terlihat pada kedua grafik tersebut
bahwa cluster 1 (kelas rendah) memiliki
anggota paling banyak dibandingkan dengan
cluster yang lain, dan yang paling sedikit
adalah cluster 4 (kelas sangat tinggi).

Pada clustering berdasarkan daerah, iterasi
berhenti pada iterasi ke-11 dengan pusat
vektor terakhir (matriks V) sebagai berikut:

Grafik dari fungsi objektif yang dihasilkan
dari clustering berdasarkan pelanggan dapat
dilihat pada Gambar 11. Pada grafik tersebut
terlihat nilai fungsi objektif sudah mulai stabil
pada iterasi ke-56, artinya cluster yang
terbentuk pada iterasi tersebut sudah mulai
optimal walaupun belum mencapai nila