IDENTIFIKASI TINGKAT KELULUSAN MAHASISWA MENGGUNAKAN METODE CLUSTERING ALGORITMA K-MEANS.

1

IDENTIFIKASI TINGKAT KELULUSAN MAHASISWA
MENGGUNAKAN METODE CLUSTERING
ALGORITMA K-MEANS

SKRIPSI

Disusun Oleh:

DISKA RENATA PUTRI

1032010066

J URUSAN TEKNIK INDUSTRI
FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS PEMBANGUNAN NASIONAL “ VETERAN “
J AWA TIMUR
2013

Hak Cipta © milik UPN "Veteran" Jatim :

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

2

SKRIPSI
IDENTIFIKASI TINGKAT KELULUSAN MAHASISWA
MENGGUNAKAN METODE CLUSTERING
ALGORITMA K-MEANS
Disusun oleh :
DISKA RENATA PUTRI
1032010066

Telah dipertahankan dihadapan dan diterima oleh Tim Penguji Skripsi
J urusan Teknik Industri Fakultas Teknologi Industri
Univer sitas Pembangunan Nasional “Veteran” J awa Timur
Pada Tanggal 30 Desember 2013
Tim Penguji :
1.

Pembimbing :

1.

Ir. Handoyo, MT
NIP. 19570209 198503 1 003

Ir. Rr. Rochmoeljati, MMT
NIP. 19611029 199103 2 001

2.

2.

Ir. Iriani, MMT
NIP. 19621126 198803 2 001

Dwi Sukma D ST, MT
NIP. 19810726 200501 1 002

3.


Ir. Budi Santoso, MMT
NIP. 19561205 198703 1 001

Mengetahui
Dekan Fakultas Teknologi Industri
Univer sitas Pembangunan Nasional “Veteran” J awa Timur
Surabaya

Ir. Sutiyono, MT
NIP. 19600713 198703 1 001

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

3

SKRIPSI
IDENTIFIKASI TINGKAT KELULUSAN MAHASISWA
MENGGUNAKAN METODE CLUSTERING
ALGORITMA K-MEANS

Disusun oleh :
DISKA RENATA PUTRI
1032010066

Telah dipertahankan dihadapan dan diterima oleh Tim Penguji Skripsi
J urusan Teknik Industri Fakultas Teknologi Industri
Univer sitas Pembangunan Nasional “Veteran” J awa Timur
Pada Tanggal 30 Desember 2013
Tim Penguji :
1.

Pembimbing :
1.

Ir. Handoyo, MT
NIP. 19570209 198503 1 003

Ir. Rr. Rochmoeljati, MMT
NIP. 19611029 199103 2 001


2.

2.

Ir. Iriani, MMT
NIP. 19621126 198803 2 001

Dwi Sukma D ST, MT
NIP. 19810726 200501 1 002

3.

Ir. Budi Santoso, MMT
NIP. 19561205 198703 1 001

Mengetahui
Ketua J urusan Teknik Industri
Fakultas Teknologi Industri
Univer sitas Pembangunan Nasional “Veteran” J awa Timur
Surabaya


Dr. Ir. Minto Waluyo, MM
NIP. 19611130 199003 1 001

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

4

KATA PENGANTAR

Puji syukur kehadirat Allah SWT atas segala karunia dan anugerah-Nya sehingga
penulis dapat menyelesaikan penyusunan Tugas Akhir ini.
Tugas Akhir ini disusun untuk memenuhi persyaratan kelulusan Program Sarjana
Strata-1 (S-1) di Jurusan Teknik Industri Fakultas Teknologi Industri Universitas
Pembangunan Nasional “Veteran” Jawa Timur dengan judul :
“Identifikasi Tingkat Kelulusan Mahasiswa Menggunakan Metode Cluster ing
Algor itma K-Means”
Penyelesaian penyusunan Tugas Akhir ini tentunya tidak terlepas dari peran serta
berbagai pihak yang telah memberikan bimbingan dan bantuan baik secara langsung

maupun tidak langsung. Oleh karena itu tidak berlebihan bila pada kesempatan kali ini
penulis mengucapkan terima kasih kepada :

1.

Kedua orang tua yang telah memberikan banyak dukungan secara moril, materil
serta doa, sehingga penyelesaian laporan ini dapat segera terselesaiakan.

2.

Bapak Ir. Sutiyono, MT, selaku Dekan Fakultas Teknologi Industri Universitas
Pembangunan Nasional “Veteran” Jawa Timur.

3.

Bapak Dr. Minto Waluyo, MM, selaku Ketua Jurusan Teknik Industri Universitas
Pembangunan Nasional “Veteran” Jawa Timur.

4.


Bapak Ir. Rr. Rochmoeljati, MMT, selaku Dosen Pembimbing Utama Skripsi.

5.

Bapak Dwi Sukma.D, ST, MT, selaku Dosen Pembimbing Pendamping Skripsi.

6.

Ibu Ir. Nisa Masruroh, MT, selaku Dosen Penguji Skripsi.

7.

Ibu Enny Ariyani, ST, MT, selaku Dosen Penguji Skripsi

8.

Bapak Ir. Handoyo, MT, selaku Dosen Penguji Skripsi.

9.


Ibu Ir. Iriani, MMT, selaku Dosen Penguji Skripsi.

10. Bapak Ir. Budi Santoso, MMT, selaku Dosen Penguji Skripsi.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

5

11. Untuk Adek dan ‘Agek’ yang telah memberikan banyak dukungan secara serta doa,
sehingga penyelesaian laporan ini dapat segera terselesaiakan.

12. Teman-teman angkatan 2010 khususnya asisten laboratorium Optimasi dan
Pemrograman Komputer yang telah memberikan semangat dalam penyelesaian
Tugas Akhir ini. Serta untuk Citra dan Intan yang bersedia menemani dan selalu
membantu ketika penulis

mengalami kendala selama perkuliahan hingga

penyelesaian Tugas Akhir.


13. Pihak-pihak lain yang terkait baik secara langsung maupun tidak langsung dalam
penyelesaian Tugas Akhir ini yang tidak dapat disebutkan satu per satu.
Penulis menyadari sepenuhnya bahwa penyusunan Tugas Akhir ini terdapat
kekurangan, maka dengan segala kerendahan hati penulis mengharapkan saran dan kritik
yang bersifat membangun.
Akhir kata semoga Tugas Akhir ini dapat bermanfaat bagi semua pihak yang
membaca. Terima Kasih.

Surabaya, Desember 2013

Penulis

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR ISI

KATA PENGANTAR .......................................................................................... i
DAFTAR ISI ....................................................................................................... ii

DAFTAR TABEL ..............................................................................................iii
DAFTAR GAMBAR .......................................................................................... iv
DAFTAR LAMPIRAN ........................................................................................ v
ABSTRAKSI ...................................................................................................... vi
BAB I PENDAHULUAN .................................................................................... 1
1.1

Latar Belakang....................................................................................... 1

1.2

Rumusan Masalah.................................................................................. 2

1.3

Batsan Masalah ...................................................................................... 2

1.4

Asumsi .................................................................................................. 3

1.5

Tujuan ................................................................................................... 3

1.6

Manfaat ................................................................................................. 3

1.7

Sistematika Penulisan ............................................................................ 4

BAB II TINJAUAN PUSTAKA .......................................................................... 6
2.1

Data ....................................................................................................... 6

2.1.1

Data Menurut Sifatnya .................................................................... 7

2.1.2

Data Menurut Sumbernya ............................................................... 7

2.1.3

Data Menurut Cara Memperolehnya ............................................... 7

2.2

Variabel ................................................................................................. 8

2.3

Data Mining ........................................................................................... 9

2.3.1

Pengertian Data Mining .................................................................. 9

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

2.3.2
2.4

Teknik Data Mining ...................................................................... 10

Clustering ............................................................................................ 15

2.4.1

Persyaratan Clustering .................................................................. 18

2.4.2

Klasifikasi Clustering ................................................................... 19

2.5

Algoritma K-means.............................................................................. 20

2.6

Contoh Penerapan Algoritma K-means ................................................ 26

2.7

Populasi Penelitian............................................................................... 32

2.8

Peneliti Terdahulu ................................................................................ 33

BAB III METODOLOGI PENELITIAN............................................................ 36
3.1

Lokasi dan Waktu Penelitian................................................................ 36

3.2

Identifikasi dan Definisi Operasional Variabel ..................................... 36

3.3

Langkah-langkah Pemecahan Masalah ................................................. 38

3.4

Metode Pengumpulan Data ................................................................. 4 2

3.5

Metode Pengolahan Data ..................................................................... 42

BAB IV HASIL DAN PEMBAHASAN ............................................................ 44
4.1

Pengumpulan Data ............................................................................... 44

4.2

Pengolahan Data .................................................................................. 47

4.3

Hasil dan Pembahasan ......................................................................... 56

BAB V KESIMPULAN DAN SARAN.............................................................. 59
5.1

Kesimpulan.......................................................................................... 59

5.2

Saran ................................................................................................... 59

DAFTAR PUSTAKA
LAMPIRAN

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR TABEL

Tabel 4.1 Data Mahasiswa Aktif Teknik Industri .............................................. 45
Tabel 4.2 Hasil Cluster ...................................................................................... 55

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR GAMBAR

Gambar 2.1 Decision Tree ................................................................................ 13
Gambar 2.2 Contoh Clustering .......................................................................... 15
Gambar 2.3 Cluster berdasarkan Definisi Well-Separated-Cluster .................... 16
Gambar 2.4 Cluster berdasarkan Definisi Center-Based-Cluster ....................... 17
Gambar 2.5 Ilustrasi Pengelompokan ................................................................ 17
Gambar 2.6 Partitional Clustering .................................................................... 19
Gambar 2.7 Dendogram Hierarchical Clustering .............................................. 20
Gambar 2.8 K-means Clustering (2 dimensi) .................................................... 21
Gambar 2.9 Ilustrasi Langkah-langkah Algoritma K-means .............................. 22
Gambar 3.1 Langkah-langkah Pemecahan Masalah ........................................... 38

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR LAMPIRAN

Lampiran I

Data Mahasiswa Teknik Industri 2010

Lampiran II

Data Mahasiswa Aktif Teknik Industri 2010

Lampiran III Jarak Iterasi 1
Lampiran IV Jarak Iterasi 2
Lampiran V

Jarak Iterasi 3

Lampiran VI Hasil Klasterisasi

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

6

ABSTRAKSI
Dalam dunia pendidikan saat ini, khususnya di UPN “Veteran” Jawa Timur
dituntut untuk memiliki keunggulan bersaing dengan memanfaatkan sumberdaya
yang dimiliki. Seperti halnya informasi untuk mengetahui tingkat kelulusan
mahasiswa, selama ini jurusan Teknik Industri telah menetapkan standard 3,5
tahun sebagai tolak ukur kelulusan mahasiswa. Namun belum diketahui apakah
batas standard tersebut telah dapat dipenuhi oleh mahasiswa.
Oleh karena itu penelitian ini menggunakan metode Clustering Algoritma Kmeans yang bertujuan melakukan pengelompokkan mahasiswa untuk
mengidentifikasi tingkat kelulusan mahasiswa Teknik Industri UPN “Veteran”
Jawa Timur, khususnya angkatan 2010.
Dari hasil penelitian menggunakan Clustering Algoritma K-means diketahui dari
76 mahasiswa Teknik Industri UPN “Veteran” Jawa Timur dapat diidentifikasi
bahwa kelulusan tepat waktu yaitu 3,5 tahun adalah sebesar 34% mahasiswa.
Sedangkan kelulusan 4 hingga 7 tahun sebesar 66% mahasiswa.

Kata kunci: Clustering, Algoritma K-means, Identifikasi Tingkat Kelulusan Mahasiswa

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

7

ABSTRACT
In education today, especially UPN “Veteran” East Java required to have a competitive
eminence by utilizing their resources. As well as information to find out the graduation
rates of the students, during the Industrial Engineering department has set the standard as
a benchmark 3.5 year of student graduation. But it has not known whether the limit of the
standard has been filled.
Therefore, this research applies the K-means clustering algorithm aimed at grouping the
students to identify for student’s graduation rate of Industrial Engineering UPN "Veteran"
East Java, especially the class of 2010.
From the results of research using the K-means clustering algorithm is known the 76
students of Industrial Engineering UPN "Veteran" East Java that can be identified in a
timely graduation is 3.5 years was 34% of students. While passing 4 to 7 years of
graduation by 66% of students.
Kata kunci: Clustering, K-means Algorithm, Identify of students’ graduation rate

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

8

BAB I
PENDAHULUAN

1.1

Latar Belakang
Ketersediaan akan informasi bukan hal yang sulit diperoleh dewasa ini,

sehingga informasi akan menjadi suatu elemen penting dalam perkembangan
kehidupan saat ini. Seringkali data ini hanya disimpan dalam penyimpanan data
tanpa pengolahan lebih lanjut sehingga tidak memiliki nilai guna lebih. Padahal,
tidak sedikit biaya yang harus dikeluarkan untuk mengumpulkan dan menyusun
data tersebut. Oleh karena itu, diperlukan konsep data mining agar data memiliki
guna lebih untuk keperluan di masa akan datang.
Dalam dunia pendidikan saat ini, khususnya di UPN “Veteran” Jawa Timur
dituntut untuk memiliki keunggulan bersaing dengan memanfaatkan sumberdaya
yang dimiliki. Seperti halnya informasi untuk mengetahui tingkat kelulusan
mahasiswa, selama ini jurusan Teknik Industri telah menetapkan standard 3,5
tahun sebagai tolak ukur kelulusan mahasiswa. Namun belum diketahui apakah
batas standard tersebut telah dapat dipenuhi oleh mahasiswa.
Dengan adanya permasalahan tersebut, maka dalam penelitian ini digunakan
metode clustering Algoritma K-means untuk mengidentifikasi tingkat kelulusan
mahasiswa, khususnya angkatan 2010. Karena mahasiswa angkatan 2010 adalah
mahasiswa tingkat akhir, sehingga dengan diketahui kelompok-kelompok
mahasiswa yang dapat memenuhi standard kelulusan dan kelompok mahasiswa
yang tidak dapat memenuhi standard kelulusan dapat digunakan sebagai acuan
untuk membuat standard kelulusan bagi jurusan pada tahun-tahun berikutnya.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

9

Clustering merupakan salah satu teknik yang dikenal dalam data mining.
Algoritma K-means memiliki kemampuan mengelompokkan data dalam jumlah
yang cukup besar dengan waktu komputasi yang relatif cepat dan efisien.
Sehingga dengan metode algoritma K-Means pada penelitian ini diharapkan dapat
digunakan untuk mengidentifikasi tingkat kelulusan mahasiswa program studi
Teknik Industri angkatan 2010 di UPN “Veteran” Jawa Timur.

1.2

Rumusan Masalah
Berdasarkan latar belakang masalah diatas, maka permasalahan yang bisa

dirumuskan dalam penelitian ini adalah bagaimana pengelompokkan mahasiswa
agar dapat mengidentifikasi tingkat kelulusan mahasiswa Teknik Industri UPN
“Veteran” Jawa Timur.

1.3

Batasan Masalah
Batasan-batasan yang digunakan dalam penelitian adalah sebagai berikut:

1. Data yang digunakan adalah data mahasiswa Teknik Industri UPN
“Veteran” Jawa Timur angkatan 2010 yang masih aktif berdasarkan IPK dan
SKS saat ini.
2. Pengerjaan dengan program Matlab untuk membantu proses clustering dan
analisis data.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

10

1.4

Asumsi
Asumsi yang digunakan dalam penelitian ini adalah sebagai berikut:

1. Semua data yang digunakan tidak berubah selama penelitian ini dilakukan.
2. Data mahasiswa yang digunakan sesuai dengan kebutuhan penelitian.

1.5

Tujuan
Adapun tujuan dari penelitian ini adalah melakukan pengelompokkan

mahasiswa untuk mengidentifikasi tingkat kelulusan mahasiswa Teknik Industri
UPN “Veteran” Jawa Timur.

1.6

Manfaat
Manfaat yang diperoleh dari hasil penelitian tersebut adalah:

1. Memberikan informasi sebagai dasar pertimbangan pengambilan keputusan
dalam melakukan evaluasi tingkat kelulusan mahasiswa.
2. Menambah wawasan ilmu pengetahuan tentang konsep data mining dengan
teknik clustering, khususnya algoritma K-means. Selain itu dapat digunakan
sebagai acuan penelitian berikutnya.

1.7

Sistematika Penulisan
Adapun sistematika penulisan dari penelitian ini adalah sebagai berikut:

BAB I

PENDAHULUAN
Bab ini berisikan penjelasan mengenai latar belakang, perumusan
masalah, batasan masalah dan asumsi yang digunakan, tujuan dan
manfaat penelitian, serta sistematika penulisan.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

11

BAB II

TINJ AUAN PUSTAKA
Bab ini berisi landasan-landasan teori yang digunakan untuk
mendukung terlaksananya penelitian ini. Adapun tinjauan pustaka
yang diangkat dalam bab ini adalah pengertian data mining, teknik
data mining, pengertian dan metode clustering, khususnya mengenai
algoritma K-means.

BAB III

METODOLOGI PENELITIAN
Bab ini berisi langkah-langkah dalam melakukan penelitian yaitu halhal yang dilakukan untuk mencapai tujuan dari penelitian atau urutan
kerja menyeluruh selama pelaksanaan penelitian. Didalamnya terdapat
tempat dan waktu penelitian, identifikasi dan definisi operasional
variable, langkah-langkah pemecahan masalah, metode pengumpulan
data, serta metode pengolahan data.

BAB IV

HASIL PENELITIAN DAN PEMBAHASAN
Bab ini berisi pengolahan dari data yang telah dikumpulkan, langkahlangkah pemecahan masalah dan metode analisis serta pembahasan
penelitian.

BAB V

KESIMPULAN DAN SARAN
Bab ini berisi kesimpulan dan saran dari hasil penelitian yang telah
dilakukan yang didapatkan dari tujuan dan permasalahan yang ada.

DAFTAR PUSTAKA
LAMPIRAN

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

12

BAB II
TINJ AUAN PUSTAKA

2.1

Data
Pengertian data menurut Webster New World Dictionary, Data adalah things

known or assumed, yang berarti bahwa data itu sesuatu yang diketahui atau
dasumsi artinya yang sudah terjadi merupakan fakta (bukti). Data dapat
memberikan gambaran tentang suatu keadaan atau persoalan.
Data bisa juga didefenisikan sekumpulan informasi atau nilai yang diperoleh
dari pengamatan (observasi) suatu objek, data dapat berupa angka dan dapat pula
merupakan lambang atau sifat. Beberapa macam data antara lain: data populasi
dan sampel, data observasi, data primer, dan data sekunder.
Pada dasarnya kegunaan data (setelah diolah dan dianalisis) ialah sebagai
dasar

yang

objektif

di

dalam

proses

pembuatan

keputusan-keputusan

(kebijaksanaan–kebijaksanaan) dalam rangka untuk memecahkan persoalan oleh
pengambilan keputusan. Keputusan yang baik hanya bisa diperoleh dari
pengambilan keputusan yang objektif, dan didasarkan atas datayang baik.
Data yang baik adalah data yang bisa dipercaya kebenarannya (reliable),
tepat waktu dan mencakup ruang lingkup yang luas atau bisa memberikan
gambaran tentang suatu masalah secara menyeluruh merupakan data relevan.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

13

2.1.1 Data Menurut Sifatnya
(Sugiono, 2005) Data menurut sifatnya dibagi menjadi 2, yaitu:
a. Data kualitatif yaitu data yang tidak berbentuk angka, misalnya: kuesioner
pertanyaan tentang suasana kerja, kualitas pelayanan sebuah restoran atau
gaya kepemimpinan, dan sebagainya.
b. Data kuantitatif yaitu data yang berbentuk angka, misalnya: harga saham,
besarnya pendapatan, dan sebagainya.

2.1.2 Data Menurut Sumbernya
Menurut sumber data, yang selanjutnya dibagi dua (Sugiono, 2005):
a. Data internal yaitu data dari dalam suatu organisasi yang menggambarkan
organisasi tersebut. Misalnya: jumlah karyawan suatu perusahaan, jumlah
modalnya, dan jumlah produksinya
b. Data eksternal yaitu data dari luar suatu organisasi yang dapat
menggambarkan faktor–faktor yang mungkin mempengaruhi hasil kerja
suatu organisasi. Misalnya: daya beli masyarakat mempengaruhi hasil
penjualan suatu perusahaan.

2.1.3 Data Menurut Cara Memperolehnya
(Sugiono, 2005) Menurut cara memperolehnya, data bisa dibagi dua:
a. Data primer (primery data) yaitu data yang dikumpulan sendiri oleh
perorangan/ suatu organisasi secara langsung dari obyek yang diteliti dan
untuk studi yang bersangkutan dan dapat berupa interview, observasi.
b. Data sekunderi (secondary data) yaitu data yang diperoleh/ dikumpulkan
dan disatukan studi–studi sebelumnya atau yang diterbitkan oleh berbagai

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

14

instansi lain. Biasanya sumber tidak langsung berupa data dokumentasi dan
arsip–arsip resmi.

2.2

Variabel
Dalam melakukan observasi tentunya perlu ditentukan karakter yang akan

diobservasi dari unit amatan yang disebut variabel. Variabel dalam penelitian
merupakan suatu atribut dari sekelompok objek yang diteliti yang memiliki variasi
antara satu objek dengan objek lain dalam kelompok tersebut.
Variabel penelitian adalah sesuatu yang digunakan sebagai ciri, sifat dan
ukuran yang dimiliki atau didapatkan oleh satuan penelitian tentang suatu konsep
pengertian tertentu (Sugiono, 2005). Variabel dalam penelitian ini terdiri dari
variabel independen (bebas) dan variabel dependen (terikat) dijelaskan sebagai
berikut:
1. Variabel independen (bebas) adalah variabel yang menjadi sebab timbulnya
atau berubahnya variabel terikat.
2. Variabel dependen (terikat) adalah variabel yang dipengaruhi atau menjadi
akibat karena adanya variabel bebas, dan variabel ini sering disebut variabel
respon.
Pengamatan utama dilakukan pada variabel yang datanya akan dianalisis,
sedangkan pengamatan selintas dilakukan pada variabel yang datanya tidak
dimaksudkan untuk dianalisis. Pada umumnya data pengamatan selintas
menggambarkan keadaan lingkungan atau lokasi dilakukannya observasi. Data
yang diperoleh dari pengamatan selintas seringkali dipergunakan untuk
mendukung pembahasan hasil dari data pengamatan utama.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

15

2.3

Data mining
Seiring dengan perkembangan teknologi, semakin berkembang pula

kemampuan kita dalam menggumpulkan dan mengolah data. Penggunaan
sistem komputerisasi dalam berbagai bidang baik itu dalam transaksitransaksi bisnis,

maupun untuk

kalangan pemerintah dan sosial,

telah

menghasilkan data yang berukuran sangat besar.
Data-data yang terkumpul ini merupakan suatu tambang emas yang
dapat digunakan sebagai informasi. Akibatnya data yang dihasilkan oleh bidangbidang tersebut sangatlah besar dan berkembang dengan cepat. Hal ini
menyebabkan

timbulnya kebutuhan

terhadap

teknik-teknik

yang

dapat

melakukan pengolahan data sehingga dari data-data yang ada dapat diperoleh
informasi penting yang dapat digunakan untuk perkembangan masing-masing
bidang tersebut.

2.3.1 Pengertian Data mining
Santosa (2007) menyatakan bahwa data mining merupakan suatu kegiatan
yang meliputi pengumpulan, pemakaian data historis untuk menentukan
keteraturan, pola atau hubungan dalam set data berukuran besar. Salah satu
tugas utama dari data mining adalah pengelompokan Clustering dimana data
yang dikelompokkan belum mempunyai contoh kelompok.
Larose dalam Novianti (2012) menyatakan bahwa data mining adalah
suatu proses pencarian korelasi, pola dan tren baru yang berguna dalam media
penyimpanan data berukuran besar menggunakan teknologi pengenalan pola
seperti teknik-teknik statistik dan matematis.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

16

2.3.2 Teknik Data mining
Perkembangan bidang data mining yang semakin pesat, menimbulkan
banyak tantangan baru, aplikasi-aplikasi dari metode dan teknik, statistik
serta sistem basis data yang ada tidak dapat secara langsung menyelesaikan
masalah-masalah yang ada dalam data mining.
Oleh karena itu maka perlu dilakukan studi-studi terkait untuk
menemukan metode data mining baru atau suatu teknik terintegrasi untuk
sebuah sistem data mining yang efektif dan efisien. Telah banyak kemajuan
dalam hal riset dan pengembangan dari data mining, juga banyak teknik
data mining dan sistem baru yang akhir-akhir ini dikembangkan.
Kata mining mempunyai arti yaitu usaha untuk mendapatkan sedikit
barang berharga dari sejumlah besar material dasar. Data mining memiliki akar
yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelegent),
machine learning, statistik dan database. Beberapa metode yang sering disebutsebut dalam literatur data mining antara lain clustering, association rules mining,
decision tree, neural network, classification, genetic algorithm dan lain-lain.
Dalam melakukan analisis data mining secara umum teknik-teknik
pengolahan data terbagi menjadi 2 pendekatan yaitu Supervised learning dan
Unsupervised learning. Dalam pendekatan unsupervised learning metode analisis
dilakukan dengan dengan tanpa adanya latihan (training) dan tanpa adanya label
(output) dari data. Dalam kategori ini adalah clustering dan association rule
analysis.
Pendekatan lain adalah supervised learning, yaitu metode analisis dengan
menggunakan latihan (training). Dalam pendekatan supervised learning ini untuk

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

17

menemukan fungsi keputusan, fungsi pemisah atau fungsi regresi digunakan
beberapa contoh data yang mempunyai output atau label selama proses training.
Data untuk training terdiri dari vector/ matrik input dan output (label). Matrik/
vektor input biasa diberi symbol X dan output diberi symbol Y.
(Saepulloh, 2010)
Menurut Han Jiawei (2011) ada beberapa teknik data mining yang
digunakan, diantaranya adalah:
1. Association Rule Mining/ Market Basket Analsysis
Aturan asosiasi (Association rules) atau analisis afinitas (affinity analysis)
berkenaan dengan studi tentang ’apa bersama apa’. Ini bisa berupa studi
transaksi di supermarket, misalnya seseorang yang membeli kopi juga
membeli gula. Di sini berarti kopi bersama dengan gula. Karena awalnya
berasal dari studi tentang database transaksi pelanggan untuk menentukan
kebiasaan suatu produk dibeli bersama produk apa, maka aturan asosiasi juga
sering dinamakan market basket analysis.
Market Basket Analysis adalah analisis dari kebiasaan membeli customer
dengan mencari asosiasi dan korelasi antara item-item berbeda yang
diletakkan customer dalam keranjang belanjaannya.
Dari jumlah besar aturan yang mungkin dikembangkan, perlu memiliki aturanaturan yang cukup kuat tingkat ketergantungan antar item dalam antecedent
dan consequent. Untuk mengukur kekuatan aturan asosiasi ini, digunakan
ukuran support dan confidence. Support adalah rasio antara jumlah transaksi

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

18

yang memuat antecedent dan consequent dengan jumlah transaksi. Confidence
adalah rasio antara jumlah transaksi yang meliputi semua item dalam
antecedent dan consequent dengan jumlah transaksi yang meliputi semua item
dalam antecedent.

……………… (2.1)
Dimana :
S

= Support

Σ(Ta+Tc) =

Jumlah

transaksi

yang

mengandung

antencendent

dan

consequencent
Σ(T)

= Jumlah transaksi

…………..(2.2)
Dimana :
C

= Confidence

Σ(Ta+Tc) =Jumlah

transaksi

yang

mengandung

antencendent

dan

consequencent
Σ(Ta)

= Jumlah transaksi yang mengandung antencendent

Fungsi ini paling banyak digunakan untuk menganalisa data dalam rangka.
keperluan strategi pemasaran, desain katalog, dan proses pembuatan
keputusan bisnis. Contoh dari aturan asosiatif dari analisa pembelian di suatu
pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang
pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

19

tersebut, pemilik pasar swalayan dapat mengatur penempatan barangnya.
Penting tidaknya suatu aturan asosiatif dapat diketahui dengan dua parameter
support yaitu persentase kombinasi item tersebut dalam database dan
confidence yaitu kuatnya hubungan antar item dalam aturan asosiatif.
2. Decision tree
Decision tree adalah salah satu metode classification yang paling populer
karena mudah untuk diinterpretasi oleh manusia. pada dasarnya konsep
decision tree yaitu mengubah data menjadi pohon keputusan dan aturan-aturan
keputusan.
Dalam

decision

tree

kita tidak

menggunakan

vektor

jarak

untuk

mengklasifikasikan obyek. Seringkali kita mempunyai data observasi dengan
atribut-atribut yang bernilai nominal. Misalkan obyek kita adalah sekumpulan
buah-buahan yang bisa dibedakan berdasarkan atribut bentuk, warna, ukuran
dan rasa. Dalam kumpulan buah itu mungkin ada semangka dan pisang yang
bisa dibedakan berdasarkan bentuk, warna, ukuran dan rasa. Bentuk, warna,
ukuran dan rasa adalah besaran nominal, yaitu bersifat kategoris dan tiap nilai
tidak

bisa

dijumlahkan

atau

dikurangkan.disini

didasarkan

pengelompokan objek berdasarkan atribut dan nilainya.

Gambar 2.1 Decision tree
Sumber: Santoso, 2007

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

pada

20

Dalam gambar diatas akan nampak di situ ada 4 level pertanyaan. Dalam
setiap level ditanyakan nilai atribut melalui sebuah simpul. Jawaban dari
pertanyaan itu dikemukakan lewat cabang-cabang. Langkah ini akan berakhir
di suatu simpul jika di situ sudah jelas kelas atau jenis obyek yang kita cari.
Kalau dalam satu tingkat suatu obyek sudah diketahui termasuk dalam jenis
buah apa, maka kita berhenti di level tersebut. Jika tidak, kita susul dengan
pertanyaan di level berikutnya hingga jelas ciri-cirinya dan kita bisa
menentukan jenis buahnya. Dengan cara ini akan mudah mengelompokkan
obyek ke dalam beberapa kelompok. Dalam decision tree setiap atribut
ditanyakan di simpul. Jawaban dari atribut ini dinyatakan dalam cabang
sampai akhirnya ditemukan kategori/jenis dari suatu obyek di simpul terakhir.
Konsep entropi digunakan untuk penentuan pada atribut mana sebuah pohon
akan terbagi. Semakin tinggi entropy sebuah sampel, semakin tidak murni
sampel tersebut. Rumus yang digunakan untuk menghitung entropy sampel S
adalah sebagai berikut :
Entropy (S) = -p1 log2 p1 – p2 log2 p2

……………….. (2.3)

Dimana p1, p2, ....,pn masing-masing menyatakan proposi kelas 1, kelas 2, ...,
kelas n dalam output.
Aplikasi klasifikasi decision tree telah digunakan dalam banyak area seperti
kedokteran, manufaktur dan produksi, dan astronomi.
3. Clustering
Clustering adalah proses pengelompokan kumpulan data menjadi beberapa
kelompok sehingga objek di dalam satu kelompok memiliki banyak kesamaan
dan memiliki banyak perbedaan dengan objek di kelompok lain. Clustering

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

21

sendiri juga disebut unsupervised learning, karena Clustering lebih bersifat
untuk dipelajari dengan diperhatikan. Cluster analysis merupakan proses
partisi satu set objek data ke dalam himpunan bagian. Setiap himpunan bagian
adalah cluster, sehingga objek yang di dalam cluster mirip satu sama dengan
lainnya, dan mempunyai perbedaan dengan objek dari cluster yang lain.

Gambar 2.2 Contoh Clustering
Sumber: (Baskoro dalam Novianti, 2012)
Cluster analysis banyak digunakan dalam berbagai aplikasi seperti business
inteligence, image pattern recognition, web search, biology, dan security. Di
dalam business inteligence, Clustering bisa mengatur banyak customer ke
dalam banyak group. Clustering juga dapat digunakan sebagai outlier
detection, di mana outliers bisa menjadi menarik daripada kasus yang biasa.
Contoh aplikasi yang digunakan adalah outlier detection berfungsi untuk
mendeteksi dan memonitori aktifitas kriminal dalam e-commerce.

2.4

Clustering
Proses pengelompokan sekumpulan obyek kedalam kelas-kelas obyek

yang sama disebut Clustering atau pengelompokan. Teknik cluster termasuk
teknik yang sudah cukup dikenal dan banyak dipakai dalam data mining.
Pengclusteran merupakan satu dari sekian banyak fungsi proses data mining

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

22

untuk menemukan kelompok atau identifikasi kelompok obyek yang

hampir

sama.
Secara umum cluster didefiniskan sebagai “sejumlah objek yang mirip
yang dikelompokan secara bersama”, namun definisi dari cluster bisa beragam
tergantung dari sudut pandang yang digunakan, beberapa definisi cluster
berdasarkan sudut pandang adalah sebagai berikut (Saepulloh, 2010):
1. Definisi Well-Separated Cluster
Berdasarkan definisi ini cluster adalah sekelompok titik (objek) dimana sebuah
titik pada kelompok itu lebih dekat atau mirip dengan semua titik (objek) yang
ada pada kelompok tersebut dari pada titik-titik (objek-objek) lain yang tidak
terdapat pada kelompok itu. Biasanya digunakan sebuah nilai batas (threshold)
untuk menentukan titik-titik (objek-objek) yang dianggap cukup dekat satu
sama lainnya.

Sumber: (Saepulloh, 2010)
Gambar 2.3 Cluster berdasarkan definisi Well-Separated-Cluster
2. Definisi Center-Based Cluster
Berdasarkan definisi ini sebuah cluster didefinisikan sebagai sekelompok titik
(objek) dimana semua titik pada kelompok itu lebih dekat dengan pusat atau
“center” dari kelompok tersebut dari pada pusat pada kelompok lainnya.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

23

Umumnya pusat cluster adalah centroid, yaitu rata-rata dari semua titik pada
cluster tersebut, namun dapat juga digunakan medoid, yaitu titik yang paling
mewakili pada sebuah cluster.

Sumber: (Saepulloh, 2010)
Gambar 2.4 Cluster berdasarkan definisi Center-Based Cluster
Clustering digunakan untuk menganalisis pengelompokkan berbeda terhadap
data. Prinsip dari Clustering adalah memaksimalkan kesamaan antar
anggota satu kelas dan meminimumkan kesamaan antar cluster. Clustering
dapat dilakukan pada data yang memiliki beberapa atribut yang dipetakan
sebagai

ruang

multidimensi. Ilustrasi dari Clustering dapat dilihat pada

gambar dibawah ini. Singkatnya, Clustering berusaha untuk menemukan
komponen kelompok secara natural berdasarkan pada kedekatan data.

Gambar 2.5 Ilustrasi Pengelompokan
Sumber: (Santosa, 2007)

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

24

2.4.1 Persyar atan Clustering
(Wakhidah, 2007) menyatakan bahwa syarat untuk melakukan analisa

Clustering adalah sebagai berikut:
1. Scalability
Mampu menangani data dalam jumlah yang besar. Karena database yang besar
berisi lebih dari jutaan objek bukan hanya ratusan objek, maka dari itu
diperlukan algoritma dengan Clustering yang scalable.
2. Kemampuan untuk menangani berbagai jenis tipe
Banyak algoritma Clustering yang hanya dibuat untuk menganalisa data
bersifat numeric. Namun sekarang ini, aplikasi data mining harus dapat
menangani berbagai macam bentuk data seperti biner, data nominal, data
ordinal, ataupun campuran.
3. Kemampuan untuk menangani data yang rusak
Pada kenyataannya, data pasti ada yang rusak, error, tidak dimengerti, ataupun
menghilang. Beberapa algoritma Clustering sangat sensitif terhadap data yang
rusak, sehingga menyebabkan cluster dengan kualitas rendah. Maka dari itu
diperlukan Clustering yang mampu menangani data yang rusak.
4. Usability
Pengguna tentu saja menginginkan hasil Clustering mudah ditafsirkan,
dimengerti, dan bermanfaat. Hal ini berarti Clustering perlu ditandai dengan
beberapa syarat sesuai kemauan user dan tentu saja hal itu mempengaruhi
pemilihan metode Clustering yang akan digunakan.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

25

2.4.2 Klasifikasi Clustering
Metode Clustering pada dasarnya ada dua jenis, yaitu hierarichal Clustering
method dan partitional Clustering method, seperti penjelasan berikut ini (Baskoro,
2010):
1. Partitional Clustering
Metode partitional Clustering atau biasa disebut non-hierarichal Clustering
bertujuan untuk mengelompokkan n objek kedalam k cluster, dimana nilai k
sudah ditentukan sebelumnya. Ini bias dilakukan dengan menentukan pusat
cluster awal, lalu dilakukan realokasi objek berdasarkan criteria tertentu
sampai dicapai pengelompokkan yang optimum.

Gambar 2.6 Partitional Clustering
Sumber: (Baskoro, 2010)

2. Hierarchical Clustering
Metode hierarchical Clustering digunakan apabila belum ada informasi
jumlah cluster yang akan dipilih, metode hirarki akan menghasilkan clustercluster yang bersarang (nested) sehingga masing-masing cluster dapat
memiliki sub-cluster. Prinsip utama hierarchical Clustering adalah mengatur
semua objek dalam sebuah pohon keputusan (umumnya berupa pohon biner)
berdasarkan suatu fungsi kriteria tertentu. Pohon tersebut disebut dendogram.
Dalam cluster hirarki, kita mulai dengan membuat m cluster dimana setiap

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

26

cluster beranggotakan satu obyek dan berakhir dengan satu cluster dimana
anggotanya adalah m obyek. Pada setiap tahap dalam prosedurnya, satu
cluster digabung dengan satu cluster yang lain.

Gambar 2.7 Dendogram Hierarchical Clustering
Sumber : (Saepulloh, 2010)

2.5 Algoritma K-means
Clustering Algoritma K-means merupakan teknik Clustering yang paling
umum dikenal karena sederhana dan mudah diimplementasikan. K-means
merupakan metode pengklasteran secara partitioning yang memisahkan data ke
dalam kelompok yang berbeda. Dalam teknik ini kita ingin mengelompokkan
obyek ke dalam k kelompok atau cluster.
Untuk melakukan Clustering ini, nilai k harus ditentukan terlebih dahulu.
Biasanya user atau pemakai sudah mempunyai informasi awal tentang obyek yang
sedang dipelajari termasuk berapa jumlah cluster yang paling tepat.
Secara detail kita bisa menggunakan ukuran ketidakmiripan untuk
mengelompokkan obyek kita. Ketidakmiripan bisa diterjemahkan dalam konsep
jarak. Jika jarak dua obyek atau data titik cukup dekat, maka dua obyek itu mirip.
Semakin dekat berarti semakin tinggi kemiripannya. Semakin tinggi nilai jarak,
semakin tinggi ketidakmiripannya.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

27

Agusta dalam Novianti (2012) menyatakan bahwa K-means merupakan salah
satu metode data Clustering non hirarki yang berusaha mempartisi data yang ada
ke dalam bentuk satu atau lebih cluster atau kelompok. Metode ini mempartisi
data ke dalam cluster atau kelompok sehingga data yang memiliki karakteristik
sama dikelompokkan ke dalam satu cluster yang sama.
K-Means merupakan algoritma untuk cluster n objek berdasarkan atribut
menjadi k partisi, dimana k < n. Gambar berikut ini menunjukkan k-means
Clustering algoritma dalam tindakan, untuk kasus dua dimensi. Pusat awal yang
dihasilkan secara acak untuk menunjukkan tahapan lebih rinci. Background ruang
partisi hanya untuk ilustrasi dan tidak dihasilkan oleh algoritma k-means.

Gambar 2.8 K-means Clustering dalam tindakan (2 dimensi)
Sumber: (Wakhidah, 2007)

Algoritma k-means merupakan algoritma yang membutuhkan parameter
input sebanyak k dan membagi sekumpulan n objek kedalam k cluster
sehingga

tingkat kemiripan

antar

anggota

dalam

satu

cluster

tinggi

sedangkan tingkat kemiripan dengan anggota pada cluster lain sangat rendah.
Kemiripan anggota terhadap cluster diukur dengan kedekatan objek terhadap nilai
mean pada cluster atau dapat disebut sebagai centroid cluster atau pusat massa
(Widyawati, 2010).

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

28

(Santoso, 2007) Rangkaian gambar dibawah ini menunjukkan ilustrasi bagaimana
Algoritma K-means dilakukan sebagai berikut:

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

29

Gambar 2.9 Ilustrasi algoritma K-means
Sumber: (Santosa, 2007)

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

30

Dari gambar diatas dapat dijelaskan mengenai langkah-langkah dari
algoritma K-means adalah:
1. Pilih jumlah cluster k
2. Inisialisasi k pusat cluster Ini bisa dilakukan dengan berbagai cara. Yang
paling sering dilakukan adalah dengan cara random. Pusat-pusat cluster diberi
nilai awal dengan angka-angka random.
3. Tempatkan setiap data/obyek ke cluster terdekat Kedekatan dua obyek
ditentukan berdasar jarak kedua obyek tersebut. Demikian juga kedekatan
suatu data ke cluster tertentu ditentukan jarak antara data dengan pusat cluster.
Dalam tahap ini perlu dihitung jarak tiap data ke tiap pusat cluster. Jarak
paling dekat antara satu data dengan satu cluster tertentu akan menentukan
suatu data masuk dalam cluster mana.
4. Hitung kembali pusat cluster dengan keanggotaan cluster yang sekarang Pusat
cluster adalah rata-rata dari semua data/obyek dalam cluster tertentu. Jika
dikehendaki bisa juga memakai median dari cluster tersebut. Jadi rata-rata
(mean) bukan satu-satunya ukuran yang bisa dipakai.
5. Tugaskan lagi setiap obyek dengan memakai pusat cluster yang baru. Jika
pusat cluster sudah tidak berubah lagi, maka proses pengclusteran selesai.
Atau, kembali lagi ke langkah nomor 3 sampai pusat cluster tidak berubah
lagi.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

31

Adapun rumus untuk pengerjaan Algoritma K-means adalah sebagai berikut:
a. Menent ukan Banyaknya Cluster k
Untuk menentukan nilai banyaknya cluster k dilakukan dengan beberapa
pertimbangan seperti dibawah ini: (Saepulloh, 2010)
1. Pertimbangan teoritis, konseptual, praktis yang mungkin diusulkan untuk
menentukan berapa banyak jumlah cluster.
2. Besarnya relative cluster seharusnya bermanfaat, pemecahan cluster yang
menghasilkan 1 objek anggota cluster dikatakan tidak bermanfaat sehingga
hal ini perlu untuk dihindari.
b. Menent ukan Cent roid
Penentuan centroid awal dilakukan secara random/ acak dari data/ objek yang
tersedia sebanyak jumlah kluster k, kemudian untuk menghitung centroid
cluster berikutnya ke i, vi digunakan rumus sebagai berikut: (Saepulloh, 2010)
Ni

Vk =

∑X
i =1

i

Nk

……….. (2.4)

Vk : centroid pada cluster ke k
Xi

:

Data ke i

Nk : Banyaknya objek/jumlah data yang menjadi anggota cluster ke k
c. Meng h it u ng Jarak Ant ara Dat a Dengan Centroid
Menurut Santosa (2007), untuk menghitung jarak antara data dengan centroid
dapat dihitung dengan menggunakan rumus dibawah ini:

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

32

……….. (2.5)

Dimana:
De : Euclidean Distance
i

: Banyaknya Objek

(x,y): Koordinat Objek
(s,t) : Koordinat Centroid
d. Konvergensi
Pengecekan konvergensi dilakukan dengan membandingkan matrik group
assignment pada iterasi sebelumnya dengan matrik group assignment pada
iterasi yang sedang berjalan. Jika hasilnya sama maka algoritma k-means
cluster analysis sudah konvergen, tetapi jika berbeda maka belum konvergen
sehingga perlu dilakukan iterasi berikutnya. (Saepulloh, 2010)

2.6 C on t oh P en er a p a n Algor it m a K -M ean s
Misalnya kita memiliki 4 objek sebagai titik data pelatihan dan setiap
obyek memiliki 2 atribut. Tiap atribut mewakili koordinat dari objek, yaitu:
Objek Atribut 1 (X): bobot indeks
Objek Atribut 2 (Y): pH
Tabel 2.1 Data Penelitian

Untuk menyelesaikan permasalahan tersebut, kita dapat melakukan beberapa
tahap, seperti dibawah ini:

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

33

1. Menentukan Jumlah Cluster
Dengan memperhatikan data tersebut, kita dapat mengelompokkan object
tersebut ke dalam dua cluster sesuai dengan atributnya (yaitu cluster 1 dan
cluster 2). Masalahnya adalah bagaimana menentukan medicine tersebut
merupakan anggota dalam cluster 1 atau cluster 2.
2. Menentukan nilai centroid
Untuk menentukan nilai awal centroid dilakukan secara acak. Disini,
dimisalkan titik koordinat medicine A adalah cluster 1 (C1) dan medicine B
adalah cluster 2 (C2) sebagai nilai centroid awal.
• C1 = (1,1)
• C2 = (2,1)
3. Menghitung jarak antara titik centroid dengan tiap titik object.
Untuk menghitung jarak antara titik centroid dengan tiap titik object, kita dapat
menggunakan rumus Euclidean Distance yaitu seperti dibawah ini:

dimana :
De adalah Euclidean Distance
i adalah banyaknya objek,
(x,y) merupakan koordinat object
(s,t) merupakan koordinat centroid

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

34

Sehingga pada iterasi 0, dengan titik centroid C1 = (1,1) dan C2 = (2,1).
Tabel 2.2 Jarak dengan Titik Centroid

Berikut adalah cara untuk menghitung distance dari tiap object :
• Medicine A = (1,1) dengan C1=(1, 1)

dengan C2=(2,1)

• Medicine B = (2,1) dengan C1=(1, 1)

dengan C2=(2,1)

• Medicine C = (4,3) dengan C1=(1, 1)

dengan C2=(2,1)

• Medicine D = (5,4) dengan C1=(1, 1)

dengan C2=(2,1)

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

35

dari perhitungan diatas, diperoleh distance matriksnya, yaitu:

4. Pengelompokan Object.
Setelah menghitung distance matriks, kita menentukan anggota cluster menurut
jarak minimum dari centroid. Dengan merujuk pada distance matriks, medicine
A termasuk cluster 1, sedangkan medicine B, C dan D termasuk cluster 2. Hal
ini dapat dilihat pada perolehan nilai sebagai berikut:

5. Iterasi 1, menentukan centroid baru.
Himpunan yang terbentuk pada tahap sebelumnya, telah diketahui anggota tiap
cluster. Untuk cluster 1 mempunyai anggota medicine A saja, sedangkan
cluster 2 mempunyai anggota medicine B, C dan D. Dari data tersebut, hitung
kembali centroid untuk menentukan centroid baru. Karena pada cluster 1 hanya
mempunyai 1 anggota, maka untuk centroid baru masih berada di C1 = (1,1).
Sedangkan pada C2 dengan menghitung nilai rata-ratanya dapat diperoleh nilai
centroid barunya, yaitu seperti dibawah ini:

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

36

6. Iterasi 1, menghitung jarak antara titik centroid baru dengan tiap titik object.
Pada tahap menghitung jarak antara object dengan centroid baru. Hal ini
hampir sama dengan tahap 3, yaitu menghitung jarak dengan

Dengan cara perhitungan yang sama pada tahap 3, maka diperoleh distance
matriksnya, yaitu seperti dibawah ini:

7. Iterasi 1, melakukan pengelompokan object
Hampir sama dengan tahap 4, yaitu menentukan anggota cluster dengan
menghitung jarak minimum tiap object dengan centroid baru. Hasil yang
diperoleh :

8. Iterasi 2, menentukan centroid baru.
Tahap ini mengulang kembali tahap 5, yaitu menghitung centroid baru. Dari
cluster 1 yang mempunyai 2 anggota yaitu medicine A dan B, dan cluster 2
yang mempunyai 2 anggota yaitu medicine C dan D, maka hasil centroid baru
yang diperoleh adalah:

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

37

9. Iterasi 2, menghitung jarak antara titik centroid baru dengan tiap titik object.
Tahap ini juga hampir sama dengan tahap