PENGELOMPOKAN PEMINJAM BUKU DENGAN METODE K-MEANS DI PERPUSTAKAAN PUSAT UPN “VETERAN” JAWA TIMUR.

PENGELOMPOKAN PEMINJ AM BUKU
DENGAN METODE K-MEANS
DI PERPUSTAKAAN PUSAT UPN “VETERAN”
J AWA TIMUR

SKRIPSI

Disusun Oleh :
INTAN FITRI ANDYNI
1032010054

J URUSAN TEKNIK INDUSTRI
FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS PEMBANGUNAN NASIONAL “VETERAN”
J AWA TIMUR
2013

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

SKRIPSI

PENGELOMPOKAN PEMINJ AM BUKU
DENGAN METODE K-MEANS
DI PERPUSTAKAAN PUSAT UPN ”VETERAN” J AWA TIMUR
Disusun oleh :

INTAN FITRI ANDYNI
NPM : 1032010054
Telah dipertahankan dihadapan dan diter ima oleh Tim Penguji Skr ipsi
J ur usan Teknik Industr i Fakultas Teknologi Industr i
Universitas Pembangunan Nasional “Veter an” J awa Timur
Pada Tanggal 30 Desember 2013
Tim Penguji :
1.

Pembimbing :
1.

Ir. Budi Santoso, MMT
NIP. 19561205 198703 1 001


Ir . Handoyo, MT
NIP. 19570209 198503 1 003

2.

2.

Ir . Iriani, MMT
NIP. 19621126 198803 2 001

Dwi Sukma D ST, MT
NIP. 19810726 200501 1 002

3.

Ir . Handoyo, MT
NIP. 19570209 198503 1 003

Mengetahui
Dekan Fakultas Teknologi Industr i

Universitas Pembangunan Nasional ”Veter an” J awa Timur
Sur abaya

Ir . Sutiyono, MT
NIP. 19600713 198703 1 001

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

SKRIPSI
PENGELOMPOKAN PEMINJ AM BUKU
DENGAN METODE K-MEANS
DI PERPUSTAKAAN PUSAT UPN ”VETERAN” J AWA TIMUR
Disusun oleh :

INTAN FITRI ANDYNI
NPM : 1032010054
Telah dipertahankan dihadapan dan diter ima oleh Tim Penguji Skr ipsi
J ur usan Teknik Industr i Fakultas Teknologi Industr i
Universitas Pembangunan Nasional “Veter an” J awa Timur

Pada Tanggal 30 Desember 2013
Tim Penguji :
1.

Pembimbing :
1.

Ir. Budi Santoso, MMT
NIP. 19561205 198703 1 001

Ir . Handoyo, MT
NIP. 19570209 198503 1 003

2.

2.

Ir . Iriani, MMT
NIP. 19621126 198803 2 001


Dwi Sukma D ST, MT
NIP. 19810726 200501 1 002

3.

Ir . Handoyo, MT
NIP. 19570209 198503 1 003

Mengetahui
Ketua J ur usan Teknik Industr i
Fakultas Teknologi Industr i
Universitas Pembangunan Nasional “Veter an” J awa Timur
Sur abaya

Dr. Ir . Minto Waluyo, MM
NIP. 19611130 199003 1 001

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.


KATA PENGANTAR

Puji syukur kehadirat Allah SWT atas segala karunia dan anugerah-Nya sehingga
penulis dapat menyelesaikan penyusunan Tugas Akhir ini.
Tugas Akhir ini disusun untuk memenuhi persyaratan kelulusan Program Sarjana
Strata-1 (S-1) di Jurusan Teknik Industri Fakultas Teknologi Industri Universitas
Pembangunan Nasional “Veteran” Jawa Timur dengan judul :
“Pengelompokan Peminjam Buku Dengan Metode K-Means Di Per pustakaan Pusat
UPN ”Veter an” J awa Timur .
Penyelesaian penyusunan Tugas Akhir ini tentunya tidak terlepas dari peran serta
berbagai pihak yang telah memberikan bimbingan dan bantuan baik secara langsung
maupun tidak langsung. Oleh karena itu tidak berlebihan bila pada kesempatan kali ini
penulis mengucapkan terima kasih kepada :

1.

Kedua orang tua yang telah memberikan banyak dukungan secara moril, materil
serta doa, sehingga penyelesaian laporan ini dapat segera terselesaiakan.

2.


Bapak Ir. Sutiyono, MT, selaku Dekan Fakultas Teknologi Industri Universitas
Pembangunan Nasional “Veteran” Jawa Timur.

3.

Bapak Dr. Minto Waluyo, MM, selaku Ketua Jurusan Teknik Industri Universitas
Pembangunan Nasional “Veteran” Jawa Timur.

4.

Bapak Ir.Handoyo, MT, selaku Dosen Pembimbing Utama Skripsi.

5.

Bapak Dwi Sukma.D, ST, MT, selaku Dosen Pembimbing Pendamping Skripsi.

6.

Bapak Drs. Ananta Prathama, Msi, selaku kepala UPT Perpustakaan.


7.

Staf perpustakaan yang telah membantu untuk memberikan data sirkulasi
peminjaman buku.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

8.

Bapak Ir. Mokh. Suef, MSc(Eng), yang telah memberi pinjaman buku-bukunya.
Terimakasih untuk om suef yang juga telah membantu ketika penulis mengalami
kendala dalam perkuliahan.

9.

Teman-teman angkatan 2010 khususnya asisten laboratorium Optimasi dan
Pemrograman Komputer yang telah memberikan semangat dalam penyelesaian
Tugas Akhir ini. Serta untuk citra dan diska yang bersedia menemani dan selalu

membantu ketika penulis

mengalami kendala selama perkuliahan hingga

penyelesaian Tugas Akhir.

10. Pihak-pihak lain yang terkait baik secara langsung maupun tidak langsung dalam
penyelesaian Tugas Akhir ini yang tidak dapat disebutkan satu per satu.
Penulis menyadari sepenuhnya bahwa penyusunan Tugas Akhir ini terdapat
kekurangan, maka dengan segala kerendahan hati penulis mengharapkan saran dan kritik
yang bersifat membangun.
Akhir kata semoga Tugas Akhir ini dapat bermanfaat bagi semua pihak yang
membaca. Terima Kasih.
Surabaya, Desember 2013

Penulis

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.


DAFTAR ISI

KATA PENGANTAR...................................................................................................

i

DAFTAR ISI ..........................................................................................................

iii

DAFTAR GAMBAR ..............................................................................................

v

DAFTAR TABEL ..................................................................................................

vi

BAB I. PENDAHULUAN. ......................................................................................


1

1.1 Latar Belakang......................................................................................

1

1.2 Perumusan Masalah ..............................................................................

2

1.3 Batasan Masalah ..................................................................................

3

1.4 Asumsi .................................................................................................

3

1.5 Tujuan Peneleitian ................................................................................

4

1.6 Manfaat Peneleitian ..............................................................................

4

1.7 Sistematika Penulisan ...........................................................................

4

BAB II. TINJ AUAN PUSTAKA.............................................................................

6

2.1 Data Mining..........................................................................................

6

2.1.1 Teknik Data Mining .................................................................

7

2.2 Teknik Klastering .................................................................................

13

2.2.1 Klasifikasi Metode Klastering....................................................

15

2.2.2 K-Mean s...................................................................................

17

2.2.3 Contoh Penerapan Algoritma K-Means Cluster Analysis ............

23

2.3 Penentuan Sampel.................................................................................

30

2.4 Peneliti Terdahulu ................................................................................

32

BAB III. METODOLOGI PENELITIAN ..............................................................

34

3.1 Tempat dan Waktu Penelitian...............................................................

34

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

3.2 Identifikasi dan Definisi Operasional Variabel .....................................

34

3.3 Metode Pengumpulan Data ..................................................................

35

3.4 Metode Pengolahan Data .....................................................................

36

3.5 Langkah-langkah Pemecahan Masalah .................................................

37

BAB IV. HASIL DAN PEMBAHASAN .................................................................

42

4.1 Pengumpulan Data ...............................................................................

42

4.2 Penentuan Sampel ................................................................................

44

4.3 Pengolahan Data ..................................................................................

46

4.4 Hasil dan Pembahasan ..........................................................................

61

BAB V. KESIMPULAN DAN SARAN...................................................................

64

5.1 Kesimpulan ..........................................................................................

64

5.2 Saran....................................................................................................

64

DAFTAR PUSTAKA
LAMPIRAN

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR GAMBAR

Gambar 2.1 Decision Tree .......................................................................................

10

Gambar 2.2 Contoh Clustering .................................................................................

12

Gambar 2.3 Contoh Dendogram ...............................................................................

16

Gambar 2.4 Ilustrasi Langkah-langkah Dalam Algoritma K-Means...........................

20

Gambar 3.1 Langkah-langkah Pemecahan Masalah ..................................................

37

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR TABEL

Tabel 2.1

Tabel Observasi……………………………………………….

23

Tabel 2.2

Hasil Perhitungan……………………………………….…….

25

Tabel 2.3

Group Assignment……………………………….…………….

25

Tabel 2.4

Distance Pada Iterasi 1.…………………………………........

27

Tabel 2.5

Table Group Assignment.………………………………........

27

Tabel 2.6

Distance Pada Iterasi 2.…………………………………........

29

Tabel 2.7

Table Group Assignment Iterasi 2..……………………........

29

Tabel 2.8

Hasil Akhir Cluster……...………………………………........

29

Tabel 2.9

Krejcie dan Morgan.……………………………………........

30

Tabel 4.1

Kode Buku Berdasarkan DDC………………………….…....

43

Tabel 4.2

Kode Mahasiswa Berdasarkan Jurusan……………………..

43

Tabel 4.3

Krejcie dan Morgan…………………………………………..

44

Tabel 4.4

Jumlah Peminjam Tanggal 3-14 Juni 2013..……..……........

46

Tabel 4.5

Jumlah Peminjam Tanggal 17-28 Juni 2013……….....….....

47

Tabel 4.6

Jumlah Peminjam Tanggal 1-12 Juli 2013….………….....…

48

Tabel 4.7

Jumlah Peminjam Tanggal 15-26 Juli 2013..………...….....

49

Tabel 4.8

Jumlah Peminjam Tanggal 29-31 Juli dan
2-6 September 2013………………………………………….

50

Jumlah Peminjam Tanggal 19-20 September 2013...…….....

51

Tabel 4.10 Jumlah Peminjam Tanggal 23-30 September 2013………...

52

Tabel 4.9

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

Tabel 4.11 Jumlah Peminjam Bulan Juni, Juli dan September 2013…...

53

Tabel 4.12 Hasil Klasterisasi…………….....……………….…………...

60

Tabel 4.13 Analisis Klaster Kelompok Peminjam.……………………...

61

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR LAMPIRAN

Lampiran A Data Sirkulasi Peminjaman Buku Bulan Juni, Juli dan September
2013
Lampiran B Jarak Terpendek Iterasi 0
Lampiran C Jarak Terpendek Iterasi 1
Lampiran D Jarak Terpendek Iterasi 2
Lampiran E Hasil Iterasi
Lampiran F Pertanyaan Wawancara

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

Abstraksi

Penelitian ini bertujuan ini untuk melakukan pengelompokan aktifitas peminjam
buku di perpustakaan pusat UPN “Veteran” Jawa Timur dari berbagai jurusan
yang ada.
Berdasarkan sirkulasi peminjaman buku di perpustakaan pusat UPN “Veteran”
Jawa Timur, selama 3 bulan yaitu Juni, Juli dan September terdapat 1922 data.
Selama ini perpustakaan pusat UPN “Veteran” Jawa Timur belum mengetahui
mahasiswa dari jurusan mana saja yang melakukan aktifitas sebagai peminjam
buku dan kelompok buku mana saja yang banyak dipinjam. Sehingga tidak dapat
direkomendasikan dengan baik kelompok buku yang diprioritaskan untuk
diperbanyak.
Dengan adanya masalah tersebut, maka dilakukan penelitian pengelompokan
peminjam dan kelompok buku yang banyak dipinjam dengan metode k-means
untuk menunjang proses belajar mengajar.
Berdasarkan penelitian ini diperoleh 3 klaster, dengan persebaran data pada
klaster 1 (kurang aktif) terdapat 778 mahasiswa, klaster 2 (cukup aktif) terdapat
267 mahasiswa dan klaster 3 (aktif) terdapat 877 mahasiswa.
Serta untuk kelompok buku yang sering dipinjam dari 3 klaster tersebut adalah
kelompok buku teknologi terapan dalam bidang manajemen khususnya yaitu
akuntansi dan manajemen umum.

Kata kunci: peminjam, buku perpustakaan, klaster, metode k-means

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

Abstract
This research is to perform clustering of activity in the central library book
borrowers UPN "Veteran" East Java from a variety of majors.
Based on borrowing books at the library circulation center UPN "Veteran" East
Java, for 3 months are June, July and September is 1922 data. The center’s library
UPN "Veteran" East Java don’t know of any department that perform activities as
a borrower of books and book groups which are much borrowed. So it can’t be
recommended priority groups to be reproduced.
Given these problems , then conducted research grouping and group borrower are
many books borrowed by k-means clustering method to support the teaching and
learning process.
This research were obtained 3 clusters. Data in cluster 1 (less active) there are 778
students , cluster 2 (moderately active) there are 267 students and cluster 3
(active) there are 877 students.
For groups that are often borrowed books from the 3 cluster is a applied
technology in technology management especially accounting and general
management.
Keywords : borrowers, library books, cluster, k-means clustering

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

BAB I
PENDAHULUAN

1.1

Latar Belakang
Keberadaan perpustakaan tidak dapat dipisahkan dari budaya manusia.

Tinggi rendahnya peradaban suatu bangsa dapat dilihat dari kondisi perpustakaan
yang ia miliki. Pada hakekatnya perpustakaan merupakan hasil budaya berupa
lembaga yang mengumpulkan, menyimpan, mengatur baik berupa karya cetak
maupun karya rekam sebagai sumber informasi dan belajar dari generasi ke
generasi. Di Indonesia ada lima jenis perpustakaan dan kelima jenis perpustakaan
ini yaitu perpustakaan nasional, perpustakaan umum, perpustakaan khusus dan
perpustakaan perguruan tinggi.
Adapun koleksi perpustakaan perguruan tinggi diadakan melalui seleksi
yang mengacu kepada kebutuhan program-program studi yang diselenggarakan
dan diorganisasikan sedemikian rupa sehingga dapat menjamin efektivitas dan
efisiensi layanan kepada kebutuhan civitas academica. Pada setiap civitas
academica pun tidak dapat disamakan setiap kebutuhannya karena memiliki
kebutuhan berbeda pada literaturnya. Literatur yang digunakan mahasiswa setiap
jurusan pun berbeda. Dengan adanya pengelompokan yang terorganisir pada
setiap penggunanya dalam hal ini adalah peminjam dari berbagai jurusan maka
dapat diketahui kelompok literatur apa saja yang paling sering dipinjam oleh
mahasiswa.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

Selama ini perpustakaan pusat UPN “Veteran” Jawa Timur belum
mengetahui aktifitas kelompok peminjam dan kelompok buku mana saja yang
sering dipinjam untuk digunakan berbagai jurusan serta keaktifan mahasiswa
dalam meminjam.
Dengan

adanya

masalah

tersebut,

maka

dilakukan

penelitian

pengelompokan peminjaman buku dengan metode k-means. Dengan harapan
dapat diketahui mahasiswa dari jurusan mana saja yang aktif sebagai peminjam
buku di perpustakaan pusat sehingga dapat memberi rekomendasi pengadaan
literatur yang mendapat prioritas untuk diperbanyak dalam rangka untuk
menunjang proses belajar mengajar.
Teknik data mining dengan menggunakan K-Means cluster analysis dapat
dimanfaatkan untuk melakukan proses penggalian informasi dari data yang masih
tersembunyi dalam jumlah yang besar dan kompleks. Dimana K-means cluster
analysis merupakan salah satu metode cluster analysis non hirarki yang berusaha
untuk mempartisi data yang ada kedalam satu atau lebih cluster atau kelompok
data berdasarkan karakteristiknya, sehingga data yang mempunyai karakteristik
yang sama dikelompokan dalam satu cluster yang sama dan data yang mempunyai
karakteristik yang berbeda dikelompokan ke dalam cluster yang lain.

1.2

Perumusan Masalah
Berdasarkan latar belakang diatas, maka dapat dirumuskan suatu

permasalahan sebagai berikut:

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

Bagaimana mengelompokan peminjam berdasarkan kelompok buku
sehingga

dapat

memberi

rekomendasi

pengadaan

literatur

yang

akan

diprioritaskan.

1.3

Batasan Masalah
Agar penulisan dapat berjalan dengan baik dan sesuai dengan alurnya maka

perlu diberikan batasan-batasan masalah sebagai berikut:
1. Output yang dihasilkan berupa kelompok-kelompok (clustering) peminjam
berdasarkan jurusan.
2. Data yang diambil adalah data peminjaman buku selama 3 bulan yaitu Juni,
Juli dan September 2013.
3. Jurusan favorit tidak menetukan keaktifan peminjaman.
4. Keaktifan mahasiswa berdasarkan jumlah mahasiswa setiap jurusan

1.4

Asumsi
Sedangkan beberapa asumsi yang digunakan dalam penelitian ini adalah

sebagai berikut:
1. Data tidak berubah selama penelitian.
2. Atribut yang digunakan sesuai dengan kebutuhan penelitian, yaitu jurusan dan
peminjam dari berbagai kelompok buku.
3. Karakter mahasiswa peminjam bersifat sama.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

1.5

Tujuan Penelitian
Adapun tujuan penelitian ini adalah melakukan pengelompokan peminjam

berdasarkan kelompok buku sehingga dapat memberi rekomendasi pengadaan
literatur yang akan diprioritaskan.

1.6

Manfaat Penelitian
Manfaat yang dapat diambil dari penelitian ini adalah:

1. Penelitian ini diharapkan dapat membantu memberikan saran mengenai
rekomendasi buku yang sesuai dengan kelompok-kelompok peminjam dan
dapat meningkatkan jumlah peminjaman buku pada perpustakaan pusat UPN
“Veteran” Jawa Timur.
2. Dapat mengetahui adanya kesamaan atau kemiripan peminjaman dari berbagai
jurusan dengan kelompok buku yang dipinjam.

1.7

Sistematika Penulisan
Adapun sistematika penulisan dari tugas akhir ini adalah sebagai berikut:

BAB I

PENDAHULUAN
Bab ini berisi latar belakang, perumusan masalah, batasan dan
asumsi yang digunakan, tujuan dan manfaat penelitian, serta
sistematika penulisan.

BAB II

TINJ AUAN PUSTAKA
Bab ini berisi dasar-dasar teori yang digunakan dalam penelitian,
antara lain definisi dan metode data mining, analisis klaster,
algoritma K-Means dan pola pengambilan data.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

BAB III

METODE PENELITIAN
Bab ini berisi waktu dan lokasi penelitian, variabel-variabel yang
digunakan, pengumpulan data serta langkah-langkah dalam
melakukan penelitian yaitu hal-hal yang dilakukan atau urutan
kerja menyeluruh selama pelaksanaan penelitian.

BAB IV

HASIL DAN PEMBAHASAN
Bab ini berisi pengolahan dari data yang telah dikumpulkan serta
analisa dari hasil pengolahan data.

BAB V

KESIMPULAN DAN SARAN
Bab ini berisi kesimpulan dan saran dari hasil penelitian sehingga
dapat memberikan suatu rekomendasi sebagai masukan bagi pihak
perpustakaan.

DAFTAR PUSTAKA
LAMPIRAN

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

BAB II
TINJ AUAN PUSTAKA

2.1

Data Mining
Santosa (2007) menyatakan bahwa data mining sering juga disebut

knowledge discovery in database (KDD), adalah kegiatan yang meliputi
pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau
hubungan dalam set data berukuran besar. Keluaran dari data mining ini bisa
dipakai untuk memperbaiki pengambilan keputusan di masa depan. Sehingga
istilah pattern recognition sekarang jarang digunakan karena ia termasuk bagian
dari data mining.
Sedangkan menurut Larose (2004) dalam Nango (2012) menyatakan
bahwa data mining adalah suatu proses pencarian korelasi, pola dan tren baru
yang berguna dalam media penyimpanan data berukuran besar menggunakan
teknologi pengenalan pola seperti teknik-teknik statistik dan matematis. Istilah
lain yang sering digunakan antara lain knowledge mining from data, knowledge
extraction, data/ pattern analysis, data archeology, dan data dredging.
Tujuan data mining menurut Baskoro (2010) dalam Nango (2012)
menyatakan bahwa adapun tujuan dari adanya data mining adalah:
a.

Explanatory, yaitu untuk menjelaskan beberapa kegiatan observasi atau suatu
kondisi.

b.

Confirmatory, yaitu untuk mengkonfirmasikan suatu hipotesis yang telah ada.

c.

Exploratory, yaitu untuk menganalisis data baru suatu relasi yang janggal.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

2.1.1 Teknik Data mining
Perkembangan bidang data mining yang semakin pesat, menimbulkan
banyak tantangan baru, aplikasi-aplikasi dari metode dan teknik, statistik
serta sistem basis data yang ada tidak dapat secara langsung menyelesaikan
masalah-masalah yang ada dalam data mining.
Oleh karena itu maka perlu dilakukan studi-studi terkait untuk
menemukan metode data mining baru atau suatu teknik terintegrasi untuk
sebuah sistem data mining yang efektif dan efisien. Telah banyak kemajuan
dalam hal riset dan pengembangan dari data mining, juga banyak teknik
data mining dan sistem baru yang akhir-akhir ini dikembangkan.
Dalam melakukan analisis data mining secara umum teknik-teknik
pengolahan data terbagi menjadi 2 pendekatan yaitu Supervised learning dan
Unsupervised learning. Dalam pendekatan unsupervised learning metode analisis
dilakukan dengan dengan tanpa adanya latihan (training) dan tanpa adanya label
dari data. Dalam kategori ini adalah clustering analysis dan association rule
analysis.
Pendekatan lain adalah supervised learning, yaitu metode analisis dengan
menggunakan latihan (training). Dalam pendekatan supervised learning ini untuk
menemukan fungsi keputusan, fungsi pemisah atau fungsi regresi digunakan
beberapa contoh data yang mempunyai output atau label selama proses training,
disini kita ingin menemukan fungsi yang bisa dinyatakan sebagai y= f(x). Data
untuk training terdiri dari vector/matrik input dan output(label). Matrik/Vektor
input biasa diberi symbol X dan output diberi symbol Y.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

Dalam unsupervised learning kita tidak mempunyai data output atau Y.
Karena hasil dari data mining ini akan digunakan untuk pengambilan keputusan
maka sifat mudah difahami dan mudah pencariannya menjadi sangat penting,
sebab bagaimanapun apabila hasil tersebut sulit untuk difahami maka
kemungkinan akan sulit juga diinterpretasikan dengan benar, yang pada akhirnya
dihawatirkan akan menghasilkan keputusan yang kurang tepat atau bahkan salah.
(Saepulloh, 2010)
Menurut Han Jiawei (2011) ada beberapa teknik data mining yang
digunakan, diantaranya adalah:
1. Association Rule Mining/ Market Basket Analsysis
Aturan asosiasi (Association rules) atau analisis afinitas (affinity analysis)
berkenaan dengan studi tentang ’apa bersama apa’. Ini bisa berupa studi
transaksi di supermarket, misalnya seseorang yang membeli susu bayi juga
membeli sabun mandi. Di sini berarti susu bayi bersama dengan sabun mandi.
Karena awalnya berasal dari studi tentang database transaksi pelanggan untuk
menentukan kebiasaan suatu produk dibeli bersama produk apa, maka aturan
asosiasi juga sering dinamakan market basket analysis. Market Basket Analysis
adalah Analisis dari kebiasaan membeli customer dengan mencari asosiasi dan
korelasi antara item-item berbeda yang diletakkan customer dalam keranjang
belanjaannya. Dari jumlah besar aturan yang mungkin dikembangkan, perlu
memiliki aturan-aturan yang cukup kuat tingkat ketergantungan antar item
dalam antecedent dan consequent. Untuk mengukur kekuatan aturan asosiasi
ini, digunakan ukuran support dan Confidence seperti pada persamaan. Support

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

adalah rasio antara jumlah transaksi yang memuat antecedent dan consequent
dengan jumlah transaksi. Confidence adalah rasio antara jumlah transaksi yang
meliputi semua item dalam antecedent dan consequent dengan jumlah transaksi
yang meliputi semua item dalam antecedent.

Dimana :
S

= Support

Σ(Ta+Tc) =Jumlah

transaksi

yang

mengandung

antencendent

dan

yang

mengandung

antencendent

dan

consequencent
Σ(T)

= Jumlah transaksi

Dimana :
C

= Confidence

Σ(Ta+Tc) =Jumlah

transaksi

consequencent
Σ(Ta)

= Jumlah transaksi yang mengandung antencendent

Fungsi ini paling banyak digunakan untuk menganalisa data dalam rangka.
keperluan strategi pemasaran, desain katalog, dan proses pembuatan keputusan
bisnis. Contoh dari aturan asosiatif dari analisa pembelian di suatu pasar
swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut, pemilik
pasar swalayan dapat mengatur penempatan barangnya. Penting tidaknya suatu
aturan asosiatif dapat diketahui dengan dua parameter support yaitu persentase
kombinasi item tersebut dalam database dan Confidence yaitu kuatnya
hubungan antar item dalam aturan asosiatif.
2. Decision tree
Decision tree adalah salah satu metode classification yang paling populer
karena mudah untuk diinterpretasi oleh manusia. pada dasarnya konsep
decision tree yaitu mengubah data menjadi pohon keputusan dan aturan-aturan
keputusan. Dalam decision tree kita tidak menggunakan vektor jarak untuk
mengklasifikasikan obyek. Seringkali kita mempunyai data observasi dengan
atribut-atribut yang bernilai nominal. Misalkan obyek kita adalah sekumpulan
buah-buahan yang bisa dibedakan berdasarkan atribut bentuk, warna, ukuran
dan rasa. Dalam kumpulan buah itu mungkin ada semangka dan pisang yang
bisa dibedakan berdasarkan bentuk, warna, ukuran dan rasa. Bentuk, warna,
ukuran dan rasa adalah besaran nominal, yaitu bersifat kategoris dan tiap nilai
tidak

bisa

dijumlahkan

atau

dikurangkan.

Disini

didasarkan

pengelompokan objek berdasarkan atribut dan nilainya.

Gambar 2.1 Decision tree (Santoso, 2007)

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

pada

Dalam gambar diatas akan nampak di situ ada 4 level pertanyaan. Dalam setiap
level ditanyakan nilai atribut melalui sebuah simpul. Jawaban dari pertanyaan
itu dikemukakan lewat cabang-cabang. Langkah ini akan berakhir di suatu
simpul jika di situ sudah jelas kelas atau jenis obyek yang kita cari. Kalau
dalam satu tingkat suatu obyek sudah diketahui termasuk dalam jenis buah apa,
maka kita berhenti di level tersebut. Jika tidak, kita susul dengan pertanyaan di
level berikutnya hingga jelas ciri-cirinya dan kita bisa menentukan jenis
buahnya. Dengan cara ini akan mudah mengelompokkan obyek ke dalam
beberapa kelompok. Dalam decision tree setiap atribut ditanyakan di simpul.
Jawaban dari atribut ini dinyatakan dalam cabang sampai akhirnya ditemukan
kategori/ jenis dari suatu obyek di simpul terakhir.
Konsep entropy digunakan untuk penentuan pada atribut mana sebuah pohon
akan terbagi. Semakin tinggi entropy sebuah sampel, semakin tidak murni
sampel tersebut. Rumus yang digunakan untuk menghitung entropy sampel S
adalah sebagai berikut :
Entropy (S) = -p1 log2 p1 – p2 log2 p2
Dimana p1, p2, ....,pn masing-masing menyatakan proposi kelas 1, kelas 2, ...,
kelas n dalam output.
Aplikasi klasifikasi decision tree telah digunakan dalam banyak area seperti
kedokteran, manufaktur dan produksi, dan astronomi.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

3. Clustering
Clustering adalah proses pengelompokan kumpulan data menjadi beberapa
kelompok sehingga objek di dalam satu kelompok memiliki banyak kesamaan
dan memiliki banyak perbedaan dengan objek di kelompok lain. Clustering
sendiri juga disebut unsupervised learning, karena clustering lebih bersifat
untuk dipelajari dengan diperhatikan. Cluster analysis merupakan proses
partisi satu set objek data ke dalam himpunan bagian. Setiap himpunan bagian
adalah cluster, sehingga objek yang di dalam cluster mirip satu sama dengan
lainnya, dan mempunyai perbedaan dengan objek dari cluster yang lain.

Gambar 2.2 Contoh Clustering (Baskoro dalam Novianti, 2012)

Cluster analysis banyak digunakan dalam berbagai aplikasi seperti business
inteligence, image pattern recognition, web search, biology, dan security. Di
dalam business inteligence, clustering bisa mengatur banyak customer ke
dalam banyak group. Clustering juga dapat digunakan sebagai outlier
detection, di mana outliers bisa menjadi menarik daripada kasus yang biasa.
Contoh aplikasi yang digunakan adalah outlier detection berfungsi untuk
mendeteksi dan memonitori aktifitas kriminal dalam e-commerce.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

2.2

Teknik Klastering
Menurut Santosa (2007), Teknik klaster termasuk teknik yang sudah cukup

dikenal dan banyak dipakai dalam data mining. Sampai sekarang para ilmuwan
dalam bidang data mining masih melakukan berbagai usaha untuk melakukan
perbaikan model klaster karena metoda yang dikembangkan sekarang masih
bersifat heuristik. Usaha-usaha untuk menghitung jumlah klaster yang optimal dan
pengklasteran yang paling baik masih terus dilakukan. Dengan demikian
menggunakan metoda yang sekarang, kita tidak bisa menjamin

hasil

pengklasteran kita sudah merupakan hasil yang optimal. Namun, hasil yang
dicapai biasanya sudah cukup bagus dari segi praktis.
Tujuan utama dari metoda klaster adalah pengelompokan sejumlah data/
obyek kedalam klaster (group) sehingga dalam setiap klaster akan berisi data yang
semirip mungkin. Dalam klastering kita berusaha untuk menempatkan obyek yang
mirip (jaraknya dekat) dalam satu klaster dan membuat jarak antar klaster sejauh
mungkin. Ini berarti obyek dalam satu klaster sangat mirip satu sama lain dan
berbeda dengan obyek dalam klaster-klaster yang lain. Dalam teknik ini kita tidak
tahu sebelumnya berapa jumlah klaster dan bagaimana pengelompokanya.
Ada dua pendekatan dalam klastering: partisioning dan hirarki. Dalam
partisioning kita mengelompokkan obyek xi, x2, ..., xm ke dalam k klaster. Ini
bisa dilakukan dengan menentukan pusat klaster awal, lalu dilakukan realokasi
obyek berdasarkan kriteria tertentu sampai dicapai pengelompokkan yang
optimum. Dalam klaster hirarki, kita mulai dengan membuat m klaster dimana
setiap klaster beranggotakan satu obyek dan berakhir dengan satu klaster dimana

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

anggotanya adalah m obyek. Pada setiap tahap dalam prosedurnya, satu klaster
digabung dengan satu klaster yang lain. Kita bisa memilih berapa jumlah klaster
yang diinginkan dengan menentukan cut-off pada tingkat tertentu.
Sedangkan menurut

Hill (2007) dalam Saepulloh (2012) menyatakan

cluster analysis is usually used as an initial analytic tool, giving data mining
analysts the ability to identify general groupings in the data. Cluster analysis
merupakan salah satu metode data mining yang bersifat tanpa latihan
(unsupervised analisys) yang mempunyai tujuan untuk mengelompokan data
kedalam kelompok-kelompok dimana data-data yang berada dalam kelompok
yang sama akan mempunyai sifat yang relatif homogen.
Jika ada n objek pengamatan dengan p variable maka terlebih dulu
ditentukan ukuran kedekatan sifat antar data, ukuran kedekatan sifat data yang
bisa digunakan adalah jarak euclidius (Euclidean distance) antara dua objek dari
p dimensi pengamatan, jika objek pertama yang akan diamati adalah X =
[x1,x2,x3,….xp] dan Y=[y1,y2,y3,….yp] maka euclidean distance dirumuskan
sebagai berikut :

Secara formal definisi dari cluster analysis adalah sebagai berikut:
Misalkan S adalah himpunan objek yang mempunyai n buah elemen,
S = {o1,o2,o3…on}
Cluster analysis membagi S menjadi k himpunan C1,C2,C3…Ck, himpunanhimpunan tersebut disebut dengan cluster. Sebuah cluster Ci adalah subset atau

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

himpunan bagian dari S, C i ⊆ S . Solusi atau keluaran dari sebuah cluster
Analysis

dinyatakan

sebagai

himpunan

dari

semua

cluster,

C = {C1 , C2 , C3 ....Ck | Ci ⊆ S , ∀i ∈ 1, 2..k}

Jika S adalah himpunan objek yang mempunyai n buah elemen dan terdiri dari r
variable maka ketika S dibagi menjadi k cluster, maka model dari cluster dapat
didefinisikan dengan dua buah matrik yaitu matrik data Dnxk = (dik) dan matrik
variable Frxk = (fjk),

1, data ke i anggota kluster ke k
dik = 
0,data ke i bukan anggota kluster ke k
1, Variable ke j anggota kluster ke k
f jk = 
0, Variable ke j bukan anggota kluster ke k
Proses clustering mengasumsikan bahwa data akan menjadi anggota dari satu dan
hanya satu cluster. (Hill, 2007 dalam Saepulloh, 2012)

2.2.1 Klasifikasi Metode Klastering
Metode klastering pada dasarnya ada dua jenis, yaitu metode cluster
analysis hirarki (hierarchical clustering method) dan Metode cluster analysis non
hirarki (non hierarchical clustering method). Metode clustering hirarki digunakan
apabila belum ada informasi jumlah cluster yang akan dipilih, metode hirarki akan
menghasilkan cluster-cluster yang bersarang (nested) sehingga masing-masing
cluster dapat memiliki sub-cluster. Prinsip utama metode cluster analysis hirarki
adalah mengatur semua objek dalam sebuah pohon keputusan (umumnya berupa

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

pohon biner) berdasarkan suatu fungsi kriteria tertentu. Pohon tersebut disebut
dendogram.

Gambar 2.3 Contoh Dendogram (Saepulloh,2010)
Semakin tinggi level simpul pohon maka semakin rendah tingkat
similaritas antar objeknya, metode cluster analysis hirarki dapat dilakukan dengan
dua pendekatan yaitu bottom-up (agglomerative) dan top-down (divisive). Pada
pendekatan aggromerative

setiap objek pada awalnya berada pada cluster

masing-masing, kemudian setiap cluster yang paling mirip akan dikelompokan
dalam satu cluster, hingga membentuk suatu hirarki cluster. Sedangkan pada
pendekatan divisive, pada awalnya hanya terdapat satu buah cluster tunggal yang
beranggotakan seluruh objek, kemudian dilakukan pemecahan atas cluster
tersebut menjadi beberapa sub-cluster, contoh algoritma metode cluster hirarki
adalah HAC (Hieararchical Aggromerative Clustering) dengan beberapa variasi
perhitungan similaritas antar cluster seperti single-link, complete-link dan group
average.
Sedangkan metode cluster analysis non hirarki biasa juga disebut dengan
partitional clustering bertujuan mengelompokan n objek kedalam k cluster (k < n)
dimana nilai k sudah ditentukan sebelumnya. Salah satu prosedur clustering non
hirarki adalah menggunakan metode K-Means clustering analisis, yaitu metode
yang bertujuan untuk mengelompokan objek atau data sedemikian rupa sehingga

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

jarak tiap objek ke pusat cluster (centroid) adalah minimum, titik pusat cluster
terbentuk dari rata-rata nilai dari setiap variable.
Secara umum proses cluster analysis dimulai dengan perumusan masalah
clustering dengan mendefinisikan variable-variable yang akan digunakan sebagai
dasar proses cluster. Konsep dasar dari cluster analysis adalah konsep pengukuran
jarak (distance) atau kesamaaan (similarity), distance adalah ukuran tentang
jarak pisah antar objek sedangkan similaritas adalah ukuran kedekatan.
Pengukuran jarak (distance type measure) digunakan untuk data-data yang
bersifat metrik, sedangkan pengukuran kesesuaian (matching type measure)
digunakan untuk data-data yang bersifat kualitatif atau non metrik. Proses
clustering yang baik seharusnya menghasilkan cluster-cluster yang berkualitas
tinggi dengan sifat-sifat sebagai berikut:
a. Setiap objek pada cluster memiliki kemiripan (intra cluster similarity) yang
tinggi satu sama lainnya.
b. Kemiripan objek pada cluster yang berbeda (inter cluster similarity) rendah.
( Saepulloh, 2010)

2.2.2 K-Means
Cluster analysis merupakan salah satu metode data mining yang bersifat
tanpa latihan (unsupervised analisys), K-means cluster analysis merupakan salah
satu metode cluster analysis non hirarki yang berusaha untuk mempartisi data
yang ada kedalam satu atau lebih cluster atau kelompok data berdasarkan

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

karakteristiknya, sehingga data yang mempunyai karakteristik yang sama
dikelompokan dalam satu cluster yang sama dan data yang mempunyai
karakteristik yang berbeda dikelompokan ke dalam cluster yang lain. Tujuannya
adalah untuk meminimalkan objective function yang di set dalam proses
clustering, yang pada dasarnya berusaha untuk meminimalkan variasi dalam satu
cluster dan memaksimalkan variasi antar cluster.
Metode ini meliputi sequential threshold, pararel threshold dan optimizing
threshold,

Sequential threshold melakukan pengelompokan dengan terlebih

dahulu memilih satu objek dasar yang akan dijadikan nilai awal cluster, kemudian
semua cluster yang ada dalam jarak terdekat dengan cluster ini akan bergabung,
lalu dipilih cluster kedua dan semua objek yang mempunyai kemiripan dengan
cluster ini akan digabungkan, demikian seterusnya sehingga terbentuk beberapa
cluster dengan keseluruhan objek terdapat didalamnya. (Saepulloh, 2010)
Santosa (2007) menyatakan bahwa, dari beberapa teknik klastering yang
paling sederhana dan umum dikenal adalah klastering k-means. Dalam teknik ini
kita ingin mengelompokkan obyek ke dalam k kelompok atau klaster. Untuk
melakukan klastering ini, nilai k harus ditentukan terlebih dahulu. Biasanya user
atau pemakai sudah mempunyai informasi awal tentang obyek yang sedang
dipelajari, termasuk berapa jumlah klaster yang paling tepat. Secara detail kita
bisa menggunakan ukuran ketidakmiripan untuk mengelompokkan obyek kita.
Ketidakmiripan bisa diterjemahkan dalam konsep jarak. Jika jarak dua obyek atau

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

data titik cukup dekat, maka dua obyek itu mirip. Semakin dekat berarti semakin
tinggi

kemiripannya.

Semakin

tinggi

nilai

jarak,

semakin

tinggi

ketidakmiripannya. Algoritma k-means klastering dapat diringkas sebagai berikut:
a. Pilih jumlah klaster k
b. Inisialisasi k pusat klaster Ini bisa dilakukan dengan berbagai cara. Yang paling
sering dilakukan adalah dengan cara random. Pusat-pusat klaster diberi nilai
awal dengan angka-angka random.
c. Tempatkan setiap data/ obyek ke klaster terdekat. Kedekatan dua obyek
ditentukan berdasar jarak kedua obyek tersebut. Demikian juga kedekatan
suatu data ke klaster tertentu ditentukan jarak antara data dengan pusat klaster.
Dalam tahap ini perlu dihitung jarak tiap data ke tiap pusat klaster. Jarak paling
dekat antara satu data dengan satu klaster tertentu akan menentukan suatu data
masuk dalam klaster mana.
d. Hitung kembali pusat klaster dengan keanggotaan klaster yang sekarang Pusat
klaster adalah rata-rata dari semua data/ obyek dalam klaster tertentu. Jika
dikehendaki bisa juga memakai median dari klaster tersebut. Jadi rata-rata
(mean) bukan satu-satunya ukuran yang bisa dipakai.
e. Tugaskan lagi setiap obyek dengan memakai pusat klaster yang baru. Jika
pusat klaster sudah tidak berubah lagi, maka proses pengklasteran selesai.
Atau, kembali lagi ke langkah nomor 3 sampai pusat klaster tidak berubah lagi.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

Gambar 2.4 Ilustrasi langkah-langkah dalam algoritma K-Means (Santosa, 2007)

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

Adapun rumus untuk pengerjaan Algoritma K-Means adalah sebagai berikut:
A.

Menent ukan Banyaknya Cluster k
Untuk menentukan nilai banyaknya cluster k dilakukan dengan
beberapa pertimbangan sebagai berikut: (Saepulloh, 2010)
1. Pertimbangan teoritis, konseptual, praktis yang mungkin diusulkan untuk
menentukan berapa banyak jumlah cluster.
2. Besarnya relative cluster seharusnya bermanfaat, pemecahan cluster
yang menghasilkan 1 objek anggota cluster dikatakan tidak bermanfaat
sehingga hal ini perlu untuk dihindari.

B.

Menent ukan Cent roid
Penentuan centroid awal dilakukan secara random/ acak dari data/
objek yang tersedia sebanyak jumlah kluster k, kemudian untuk menghitung
centroid cluster berikutnya

ke i, vi digunakan rumus sebagai berikut:

(Saepulloh, 2010)
Ni

Vk =

∑X
i =1

i

Nk

Vk

: centroid pada cluster ke k

Xi

:

Nk

: Banyaknya objek/jumlah data yang menjadi anggota cluster ke k

Data ke i

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

C.

Meng h it u ng Jarak Ant ara Dat a Dengan Centroid
Menurut Santosa (2007), untuk menghitung jarak antara data dengan
centroid dapat dihitung dengan menggunakan rumus:

Dimana P
|.|

: Dimensi data
: Nilai Absolut

Sedangkan untuk euclidean distance jarak antara data dengan centroid
dihitung dengan menggunakan rumus:

Dimana P
|.|
D.

: Dimensi data
: Nilai Absolut

Pengalo k asian Ulang Dat a Kedala m Masing- masing Clust er
Untuk melakukan pengalokasian data kedalam masing-masing cluster
pada saat iterasi dilakukan secara umum dengan dua cara yaitu dengan cara
pengalokasian dengan cara hard k-means, dimana secara tegas setiap objek
dinyatakan sebagai anggota cluster satu dan tidak menjadi anggota cluster
lainnya. Cara lain adalah dengan cara fuzzy k-means dimana masing-masing
objek diberikan nilai kemungkinan untuk bisa bergabung dengan setiap
cluster yang ada. (Saepulloh, 2010)

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

E.

Konverg ensi
Pengecekan konvergensi dilakukan dengan membandingkan matrik
group assignment pada iterasi sebelumnya dengan matrik group assignment
pada iterasi yang sedang berjalan. Jika hasilnya sama maka algoritma kmeans cluster analysis sudah konvergen, tetapi jika berbeda maka belum
konvergen sehingga perlu dilakukan iterasi berikutnya. (Saepulloh, 2010)

2.2.3 C on t oh P en er a p a n Algor it m a K-M ean s Clu st er A n alysis
Untuk mempermudah memahami algoritma k-means cluster analysis maka
berikut ini adalah contoh sederhana pemakaian algoritma k-means cluster,
Misalkan kita mempunyai dua variable X1 dan X2 dengan masing-masing
mempunyai item-item A, B, C dan D sebagai berikut:

Tabel 2.1 Tabel Observasi
Item
A
B
C
D

Observasi
X1
X2
1
1
2
1
4
3
5
4

Tujuannya adalah membagi semua item menjadi 2 cluster ( k = 2) , dengan
menggunakan algoritma yang disebutkan diatas maka langkah-langkah yang
dikerjakan adalah sebagai berikut:

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

a. Tentukan k sebagai jumlah cluster yang akan di bentuk
k=2
b. Bangkitkan k Centroid (titik pusat cluster) awal secara random
Secara random kita tentukan A dan B sebagai centroid yang pertama, sehingga
diperoleh c1= (1,1) dan c2= (2,1)
c. Hitung jarak setiap data ke masing-masing centroid dari masing-masing cluster
dengan Euclidian distance sebagai berikut :

Dimana P

: Dimensi data

|.|

: Nilai Absolut

D(C1,A) =

(1 −1)2 + (1 −1)2 = 0

D(C1,B) =

(2 −1)2 + (1 −1)2 = 1

D(C1,C) =

(4 −1)2 + (3 −1)2 = 3,61

D(C1,D) =

(5 −1)2 + (4 −1)2 = 5

D(C2,A) =

(1 − 2)2 + (1 −1)2 = 1

D(C2,B) =

(2 − 2)2 + (1 −1)2 = 0

D(C2,C) =

(4 − 2)2 + (3 −1)2 = 2,83

D(C2,D) =

(5 − 2)2 + (4 −1)2 = 4,24

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

Sehingga distance yang diperoleh adalah sebagai berikut:
Tabel 2.2 Hasil Perhitungan
Distance
Cluster

A

B

C

D

C1

0

1

3,61

5

C2

1

0

2,83

4,24

d. Alokasikan masing-masing data ke dalam centroid yang paling terdekat
Proses alokasi dilakukan dengan melihat minimum distance. Dari table
distance diatas maka terlihat bahwa jarak item A terdekat pada cluster C1
sehingga item A dialokasikan kepada cluster C1, sementara item B, Item C,
Item D jarak terdekatnya pada cluster C2, sehingga item B, C, D dialokasikan
pada cluster C2. Dengan menggunakan rumus alokasi dibawah ini,

Maka diperoleh table group assigmentnya adalah sebagai berikut:
Tabel 2.3 Group Assigment
A

B

C

D

1

0

0

0

0

1

1

1

e. Lakukan iterasi-1, kemudian tentukan posisi centroid baru dengan cara
menghitung rata-rata dari data-data yang berada pada centroid yang sama.
Dengan menggunakan rumus,
Ni

Vi =

∑X
k =1

k

Ni

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

Maka diperoleh centroid baru untuk kedua cluster tersebut adalah
C1 = (1,1), karena beranggotakan 1 anggota
C2( x1 ) =

2+ 4+5
= 3, 67
3

C2( x2 ) =

1+ 3 + 4
= 2, 67
3

C2=(3.67, 2.67)
f. Ulangi langkah 3 jika posisi centroid baru dan centroid lama tidak sama,
karena nilai centroidnya berbeda maka langkah no 3 diulangi kembali sebagai
berikut:

1

D (C1,A) =
D1(C1,B) =
D1(C1,C) =
1

D (C1,D) =

(1 −1)2 + (1 −1)2 = 0
(2 −1)2 + (1 −1)2 = 1
(4 −1)2 + (3 −1)2 = 3,61
(5 −1)2 + (4 −1)2 = 5

D1(C2,A) =

(1− 3,67)2 + (1 − 2,67)2 = 3,14

D1(C2,B) =

(2 − 3,67)2 + (1− 2,67)2 = 2,36

D1(C2,C) =

(4 − 3,67)2 + (3 − 2,67)2 = 0,47

D1(C2,D) =

(5 − 3,67)2 + (4 − 2,67)2 = 1,89

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

Sehingga distance yang diperoleh pada iterasi 1 adalah sebagai berikut:
Tabel 2.4 Distance Pada Iterasi 1
Distance
Cluster

A

B

C

D

C1

0

1

3,61

5

C2

3,14

2,36

0,47

1,89

g. Alokasikan masing-masing data ke dalam centroid yang paling terdekat
Maka diperoleh table group assigmentnya pada iterasi 1 adalah sebagai
berikut:
Tabel 2.5 Table Group Assigmentnya
A

B

C

D

1

1

0

0

0

0

1

1

Karena hasil table group assignment pada iterasi 1 berbeda dengan table
group assignment sebelumya maka hasilnya belum konvergen sehingga perlu
dilakukan iterasi berikutnya, sebagai berikut:
h. Lakukan iterasi-2, tentukan posisi centroid baru dengan cara menghitung ratarata dari data-data yang berada pada centroid yang sama.
Maka diperoleh centroid baru untuk kedua cluster tersebut adalah
C1( x1 ) =

1+ 2
= 1, 5
2

C1( x2 ) =

1+1
=1
2

C1

= (1.5, 1)

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

C2( x1 ) =

4+5
= 4,5
2

C2( x2 ) =

3+ 4
= 3,5
2

C2

= (4.5, 3.5)

i. karena nilai centroid-nya berbeda dengan iterasi 1 maka langkah berikutnya
menghitung kembali distance-nya sebagai berikut:
D2(C1,A) =

(1 −1,5)2 + (1−1)2 = 0,5

D2(C1,B) =

(2 −1,5)2 + (1 −1)2 = 0,5

D2(C1,C) =

(4 −1,5)2 + (3 −1)2 = 3,2

D1(C1,D) =

(5 −1,5)2 + (4 −1)2 = 4,61

D2(C2,A) =

(1 − 4,5)2 + (1 − 3,5)2 = 4,30

D2(C2,B) =

(2 − 4.5)2 + (1 − 3,5)2 = 3,54

D2(C2,C) =

(4 − 4,5)2 + (3 − 3,5)2 = 0,71

D2(C2,D) =

(5 − 4,5)2 + (4 − 3,5)2 = 0,71

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyeb