Aplikasi Clustering Untuk Pengelompokan. pdf

APLIKASI CLUSTERING UNTUK PENGELOMPOKAN MAHASISWA
STMIK ASIA BERDASARKAN USIA DAN DATA AKADEMIK
MENGGUNAKAN METODE K-MEANS
Rochmah Hidayati
STMIK ASIA Malang
Email: rochmahidayati06@gmail.com
ABSTRAK
Masalah ketidakseimbangan antara jumlah mahasiswa baru dan mahasiswa yang
menyelesaikan studi tepat waktu merupakan permasalahan yang penting untuk diperhatikan. Karena
salah satu factor yang menentukan kualitas perguruan tinggi adalah presentase kemampuan mahasiswa
untuk menyelesaikan studi tepat waktu. Ketidakseimbangan tersebut bisa jadi karena mahasiswa
menempuh studi tidak tepat waktu, memiliki status non-aktif atau bahkan dropout.
Pada penelitian ini penulis mencoba membangun sistem untuk mengelompokkan mahasiswa
menjadi dua cluster yaitu cluster pertama (rawan dropout) dan cluster kedua (tidak dropout), dengan
mengambil dataset mahasiswa STMIK ASIA jurusan teknik informatika angkatan 2006-2008 pada tahun
ajaran 2012/2013. Total record dataset dari angkatan 2006-2008 adalah 576 record. Data tersebut dibagi
menjadi 2 berdasarkan angkatan , yaitu untuk angkatan 2006-2007 adalah 315 record sebagai data
training dan angkatan 2008 adalah 261 record sebagai data testing. Dalam penelitian ini menggunakan
teknik clustering dengan metode K-Means untuk pengelompokan data. Tahap pertama pengujian terhadap
data training dengan mengambil centroid awal secara random, pengujian ini bertujuan untuk mencari
centroid awal yang tepat untuk disimpan dan digunakan pada saat pengujian data testing. Pemilihan pusat

cluster yang tepat pada pengujian data training akan memberikan hasil dengan tingkat kebenaran
pengelompokan yang lebih tinggi saat pengujian data testing.
Hasil pengujian terhadap data testing dengan 261 record data dan setelah tahap preprocessing
menjadi 174 record, menggunakan centroid awal C1= 42, 8, 0.59 dan C2= 24, 4, 2.56 menghasilkan 10
iterasi dengan hasil akhir cluster 1 (rawan dropout) sebanyak 40 anggota atau sebesar 23% dan Cluster 2
(tidak dropout) sebanyak 134 anggota atau sebesar 77%. Dengan tingkat kebenaran/ketepatan
pengelompokan berkisar antara 70% sampai dengan 73.13%.
Kata Kunci: Clustering, Data akademik,, Usia, K-Means

PENDAHULUAN
Perguruan
Tinggi
ASIA
Malang
merupakan salah satu perguruan tinggi yang cukup
menarik banyak mahasiswa. Namun ada beberapa
hal yang tidak seimbang antara masuk dan
keluarnya mahasiswa yang telah menyelesaikan
studinya. Mahasiswa yang masuk dalam jumlah
besar, tetapi mahasiswa yang lulus tepat waktu

sesuai dengan ketentuan jauh sangat kecil
dibandingkan
masuknya.
Artinya
terdapat
mahasiswa yang tidak diketahui statusnya.
Ketidakjelasan status tersebut bisa jadi karena
mahasiswa menempuh studi tidak tepat waktu,
memiliki status non-aktif atau bahkan drop out.
Beberapa penyebab kegagalan studi
mahasiswa
diantaranya
adalah
rendahnya
kemampuan akademik, faktor pembiayaan,
domisili saat menempuh studi dan faktor lainnya.

Tingginya presentasi mahasiswa yang memiliki
status non aktif juga menyebabkan tingginya
mahasiswa lulus tidak tepat waktu. Hal tersebut

menjadi sangat penting bagi manajemen perguruan
tinggi mengingat presentase mahasiswa lulus tepat
waktu adalah salah satu elemen penilaian
akreditasi yang ditetapkan oleh Badan Akreditasi.
Oleh karena itu untuk meningkatkan
kualitas pada perguruan tinggi ASIA Malang, maka
haruslah ada filter pada mahasiswa yang sedang
menempuh perkuliahan. Database perguruan
tinggi menyimpan data akademik, administrasi dan
biodata mahasiswa. Data tersebut apabila digali
dengan tepat maka diketahui pola atau
pengetahuan untuk mengambil keputusan.
Serangkaian proses mendapatkan pengetahuan
atau pola dari kumpulan data disebut dengan data

mining. Data mining memecahkan masalah dengan
menganalisis data yang telah ada dalam database.
Clustering merupakan salah satu metode data
mining yang bersifat tanpa arahan (unsupervised).
KMeans merupakan salah satu metode clustering


non hirarki yang berusaha mempartisi data
kedalam bentuk satu/lebih cluster/kelompok.
Metode ini mempartisi data ke dalam cluster
sehingga karakteristik yang sama dikelompokkan
kedalam
satu
cluster
yang
sama.

LANDASAN TEORI
1. Knowledge Discovery in Database
Menurut Jiawei Han Secara garis besar proses
KDD dapat direpresentasikan dengan gambar
sebagai berikut :

Gambar 1 Tahapan Proses KDD

1.1 Data Selection

Pemilihan (seleksi) data dari sekumpulan
data operasional perlu dilakukan sebelum tahap
penggalian informasi dalam KDD dimulai. Data
hasil seleksi yang akan digunakan untuk proses
data mining, disimpan dalam suatu berkas, terpisah
dari basis data operasional.
1.2 Preprocessing
Sebelum proses data mining dapat
dilaksanakan, perlu dilakukan proses awal pada
data yang menjadi fokus KDD untuk meyakinkan
kualitas dari data yang telah dipilih pada tahapan
sebelumnya.
A. Alasan pentingnya preprocessing
1. Jika data tidak berkualitas, maka hasil
Mining juga tidak berkualitas
a. Kualitas keputusan harus didasarkan
kepada kualitas data (misal, duplikasi
data atau data hilang bisa menyebabkan
ketidak-benaran atau bahkan statistik
yang menyesatkan.

b. Data warehouse memerlukan kualitas
integrasi data yang konsisten
2. Ekstraksi
data,
pembersihan
dan
transformasi merupakan kerja utama dari
pembuatan suatu data warehouse
3. Data preprocessing membantu didalam

memperbaiki presisi dan kinerja data Mining
dan mencegah kesalahan didalam data
Mining
B. Data yang harus dikoreksi
1. Data Incomplete
Berisi nilai yang salah yang disebabkan
karena :
a. Tidak tercatat (not recorded)
b. Tidak tersedia (not available)
c. Sengaja dihapus karena dianggap salah

atau tidak penting
2. Data Noisy
Berisi data salah yang tidak wajar
(Anomalies/outliers) karena :
a. Instrumen pengumpulan data yang
digunakan mungkin salah
b. Kesalahan manusia atau komputer yang
terjadi pada saat entri data.
c. Kesalahan dalam transmisi data.
3. Data Inconsistent
Berisi data yang tidak konsisten dan
berbeda dari sewajarnya disebabkan oleh :
Perubahan kode di sistem yang menjadikan
data tidak konsisten
1.3 Data mining
Data mining adalah proses mencari pola
atau informasi menarik dalam data terpilih dengan
menggunakan teknik atau metode tertentu. Teknik,
metode, atau algoritma dalam data mining sangat
bervariasi. Pemilihan metode dan algoritma yang

tepat sangat bergantung pada tujuan dan proses
KDD secara keseluruhan.
1.4 Interpretation/Evalution
Pola informasi yang dihasilkan dari
proses data mining perlu ditampilkan dalam
bentuk yang mudah dimengerti oleh pihak yang
berkepentingan. Tahap ini merupakan bagian dari
proses KDD yang disebut interpretation. Tahap ini
mencakup pemeriksaan apakah pola atau
informasi yang ditemukan bertentangan dengan
fakta atau hipotesis yang ada sebelumnya.

2. Data Mining
2.1 Pengertian Data Mining
Tan (2006) mendefinisikan data Mining
sebagai proses untuk mendapatkan informasi yang
berguna dari gudang basis data yang besar. Data
Mining juga dapat diartikan sebagai pengekstrakan
informasi baru yang diambil dari bongkahan data


besar yang membantu dalam pengambilan
keputusan. Istilah data Mining kadang disebut juga
knowledge discovery.
Salah satu teknik yang dibuat dalam data Mining
adalah bagaimana menelusuri data yang ada untuk

membangun
sebuah
model,
kemudian
menggunakan model tersebut agar dapat
mengenali pola data yang lain yang tidak berada
dalam basis data yang tersimpan. Kebutuhan untuk
prediksi juga dapat memanfaatkan teknik ini.
Dalam data Mining, pengelompokan data juga bisa
dilakukan. Tujuannya adalah agar kita dapat
mengetahui pola universal data-data yang ada.
2.2 Pekerjaan Data Mining
Pekerjaan yang berkaitan dengan data
mining dapat dibagi menjadi empat kelompok,

yaitu model prediksi (prediction modeling), analisis
kelompok (cluster analysis), analisis asosiasi
(association analysis), dan deteksi anomaly
(anomaly detection).
1. Model prediksi
Model prediksi berkaitan dengan pembuatan
sebuah model yang dapat melakukan pemetaan
dari setiap himpunan variabel ke setiap
targetnya, kemudian menggunakan model
tersebut untuk memberikan nilai target pada
himpunan baru yang didapat. Ada dua jenis
model prediksi, yaitu klasifikasi dan regresi.
Klasifikasi digunakan untuk variabel target
diskret, sedangkan regresi untuk variabel target
kontinu.
2. Analisis kelompok
Analisis kelompok melakukan pengelompokan
data-data ke dalam sejumlah kelompok
(cluster) berdasarkan kesamaan karakteristik
masing-masing data pada kelompok-kelompok

yang ada. Data-data yang masuk dalam batas
kesamaan
dengan
kelompoknya
akan
3. Clustering
Salah satu metode yang diterapkan dalam
KDD adalah clustering. Clustering adalah membagi
data ke dalam grup-grup yang mempunyai obyek
yang karakteristiknya sama. Garcia-Molina et al
menyatakan clustering adalah mengelompokkan
item data ke dalam sejumlah kecil grup sedemikian
sehingga masing-masing grup mempunyai sesuatu
persamaan yang esensial.
Clustering memegang peranan penting
dalam aplikasi data Mining, misalnya eksplorasi
data ilmu pengetahuan, pengaksesan informasi dan
text mining, aplikasi basis data spasial, dan analisis
web. Clustering diterapkan dalam mesin pencari di
Internet. Web mesin pencari akan mencari ratusan
dokumen yang cocok dengan kata kunci yang
dimasukkan.
Dokumen-dokumen
tersebut
dikelompokkan dalam cluster-cluster sesuai
dengan kata-kata yang digunakan.
Tan, dkk membagi clustering dalam dua
kelompok, yaitu hierarchical and partitional
clustering. Partitional Clustering disebutkan
sebagai pembagian obyek-obyek data ke dalam
kelompok yang tidak saling overlap sehingga setiap

Anomali data transaksi juga perlu dideteksi untuk
dapat mengetahui tindak lanjut berikutnya yang
dapat diambil. Semua hal tersebut bertujuan
mendukung kegiatan operasional perusahaan
sehingga tujuan akhir perusahaan diharapkan
dapat tercapai.
(Prasetyo,2012:2)

bergabung dalam kelompok tersebut, dan akan
terpisah dalam kelompok yang berbeda jika
keluar dari batas kesamaan dengan kelompok
tersebut.
3. Analisis asosiasi
Analisis
asosiasi
(association
analysis)
digunakan untuk menemukan pola yang
menggambarkan kekuatan hubungan fitur
dalam data. Pola yang ditemukan biasanya
merepresentasikan bentuk aturan implikasi
atau subset fitur. Tujuannya adalah untuk
menemukan pola yang menarik dengan cara
yang efisien.
4. Deteksi anomali
Pekerjaan deteksi anomali (anomaly detection)
berkaitan dengan pengamatan sebuah data dari
sejumlah data yang secara signifikan
mempunyai karakteristik yang berbeda dari
sisa data yang lain. Data-data yang
karakteristiknya menyimpang (berbeda) dari
data yang lain disebut outlier. Algoritma deteksi
anomali yang baik harus mempunyai laju
deteksi yang tinggi dan laju eror yang rendah.
(Prasetyo, 2012:5)
data berada tepat di satu cluster. Hierarchical
clustering adalah sekelompok cluster yang
bersarang seperti sebuah pohon berjenjang
(hirarki).
William membagi algoritma clustering ke
dalam kelompok besar seperti berikut:
1. Partitioning algorithms: algoritma dalam
kelompok ini membentuk bermacam partisi
dan kemudian mengevaluasinya dengan
berdasarkan beberapa criteria.
2. Hierarchy
algorithms:
pembentukan
dekomposisi hirarki dari sekumpulan data
menggunakan beberapa criteria.
3. Density-based:
pembentukan
cluster
berdasarkan pada koneksi dan fungsi densitas.
4. Grid-based: pembentukan cluster berdasarkan
pada struktur multiple-level granularity
5. Model-based: sebuah model dianggap sebagai
hipotesa untuk masing-masing cluster dan
model yang baik dipilih diantara model
hipotesa tersebut.
(Andayani, 2007)

4. K-Means
Algoritma K-Means adalah algoritma
clustering yang paling
popular dan banyak
digunakan dalam dunia industry. Algoritma ini
disusun atas dasar ide yang sederhana. Ada
awalnya ditentukan berapa cluster yang akan
dibentuk. Sebarang obyek atau elemen pertama
dalam cluster dapat dipilih untuk dijadikan sebagai
titik tengah (centroid point) cluster. Algoritma KMeans selanjutnya akan melakukan pengulangan
langkah-langkah berikut sampai terjadi kestabilan
(tidak ada obyekyang dapat dipindahkan):
1. Menentukan koordinat titik tengah setiap
cluster
2. Menentukan jarak setiap obyek terhadap
koordinat titik tengah
3. Mengelompokkan
obyek-obyek
tersebut
berdasarkan pada jarak minimumnya.
(Andayani, 2007)

PEMBAHASAN & HASIL
1. Deskripsi Sistem
Pada subbab ini menjelaskan tentang
aplikasi
clustering
untuk
pengelompokan
mahasiswa STMIK ASIA berdasarkan usia dan data
akademik menggunakan metode K-Means, atau
singkatnya bisa disebut dengan aplikasi clustering
untuk pengelompokkan mahasiswa STMIK ASIA.
Aplikasi ini menggunakan dataset mahasiswa
jurusan teknik informatika angkatan 2006-2008
pada tahun ajaran 2012/2013.
Aplikasi ini menggunakan teknik
clustering dengan metode K-Means dalam
mengolah data, menghasilkan 2 cluster/kelompok.
cluster pertama (C1) yaitu mahasiswa rawan
dropout, cluster kedua (C2) yaitu mahasiswa tidak
dropout. Hasil akhir dari aplikasi ini berupa
presentase dan anggota dari masing-masing
cluster.
Tujuan dibangunnya aplikasi ini dan penelitian
dengan pemilihan dataset mahasiswa jurusan TI
angkatan 2006-2008 diharapkan program dapat
mendeskripsikan pengelompokan mahasiswa
dengan benar dan menghasilkan kesimpulan yang
dapat memberikan gambaran dari masing-masing
cluster
agar
dapat
digunakan
untuk
pengelompokan
data
mahasiswa
angkatan
selanjutnya. Sehingga dengan adanya gambaran
pada masing-masing cluster tersebut kemungkinan
dapat memberikan solusi khususnya untuk
kelompok/cluster mahasiswa rawan dropout.
2. Analisa
Analisa data yang ada dalam bagian ini
merupakan analisa data pada sistem clustering
untuk pengelompokan mahasiswa, berdasarkan

masukan, proses dan keluaran yang ada pada
sistem.
a) Analisa Kebutuhan Masukan
Data masukan adalah data yang mengalir ke
dalam sistem. Sedangkan kebutuhan masukan
pada sistem clustering untuk mengelompokan
mahasiswa adalah pemilihan data (Data
Selection) yaitu biodata mahasiswa dan data
akademik mahasiswa STMIK ASIA jurusan
teknik informatika angkatan 2006-2008 pada
tahun ajaran 2012/2013. Total record dataset
dari angkatan 2006-2008 adalah 576 record.
Data tersebut dibagi menjadi 2 berdasarkan
angkatan, yaitu untuk angkatan 2006-2007
adalah 315 record sebagai data training dan
angkatan 2008 berjumlah 261 record sebagai
data testing.
Data mahasiswa yang akan diclustering yaitu
berdasarkan usia, masa studi minimal dan nilai
IPK
b) Analisa Kebutuhan Proses
Proses mencari pola atau informasi menarik
dalam data terpilih dengan menggunakan
metode K-Means, akan tetapi sebelumnya perlu
dilakukan praproses data terlebih dahulu
seperti sinkronisasi data, menampilkan atribut,
dan cleaning data. Setelah tahap praproses,
baru dilakukan proses clustering dengan
metode K-means.
c) Analisa Kebutuhan Keluaran
Data keluaran adalah data yang mengalir keluar
dari sistem. Keluaran (Output). Sistem
clustering untuk mengelompokan mahasiswa
ini menghasilkan keluaran yang terdiri dari
presentase cluster rawan dropout (C1) dan
cluster tidak dropout (C2) dan anggota dari
masing-masing cluster.

3. Diagram Context
Diagram konteks (Context Diagram) aplikasi
clustering untuk mengelompokkan mahasiswa
STMIK ASIA adalah diagram arus data (DAD) yang
menjelaskan proses sistem clustering untuk
mengelompokkan mahasiswa STMIK ASIA secara
menyeluruh. Diagram ini dimaksudkan untuk
menggambarkan dengan pihak mana saja sistem
ini berinteraksi, dan data apa saja yang mengalir di
antaranya. Berikut diagram konteks sistem
clustering untuk pengelompokan mahasiswa :

Pertama tama programmer yang juga
merangkap sebagai database administrator
(admin) memasukkan dataset data training
mahasiswa jurusan TI angkatan 2006-2007 ke
dalam sistem. kemudian data training mahasiswa
dapat dilihat atau ditampilkan oleh user untuk
diproses lebih lanjut yaitu proses mining data
training dan user dapat melihat hasil proses mining
data training. Pada sistem ini user dapat
melakukan
banyak
kegiatan
seperti
memasukkan/import data mahasiswa (data
testing), sampai proses mining data testing dan
melihat hasil dari proses mining data.
4. Data Flow Diagram
Diagram level nol adalah diagram yang
menggambarkan keseluruhan proses yang ada
dalam suatu sistem. Diagram ini menggambarkan
proses dan urutan-urutannya sebagai komponen
yang menyusun keseluruhan sistem. Diagram level
nol sistem clustering untuk pengelompokan
mahasiswa adalah sebagai berikut:

Gambar 3 DFD Level 0
Keterangan:

Gambar 3 diatas terdiri dari dua proses
utama yaitu proses training meliputi proses input
data training yang dilakukan oleh admin,
menampilkan data training yang dilakukan oleh
user dan mengolah data training menggunakan
metode K-Means. Proses yang kedua yaitu proses
testing alurnya sama dengan proses training.
Pada gambar 3.4 diatas terdapat dua tabel
yaitu tabel data training dan tabel data testing yang
mewakili dua proses yaitu proses mining data
training dan proses mining data testing. Pada
proses data training menggunakan data pada tabel
data training dan saat proses mining data training,
pusat cluster/centroid awal dapat disimpan di tabel
data centroid, dan centroid tersebut ditampilkan
untuk digunakan saat melakukan proses mining
data testing.

5. Studi Kasus
a. Persiapan Data
Setelah data terkumpul maka tahap
selanjutnya adalah mempersiapkan data tersebut
agar dapat digunakan untuk proses data mining.
Data mentah yang akan digunakan pada aplikasi ini
diperoleh dari beberapa sumber penyimpanan
data yaitu :
1. Biodata mahasiswa jurusan teknik informatika
angkatan/tahun masuk 2006, 2007 dan 2008,
dengan rincian data sebagai berikut:
a. Biodata angkatan 2006 total data 174
record
b. Biodata angkatan 2007 total data 205
record
c. Biodata angkatan 2008 total data 290
record
2. Data status mahasiswa jurusan teknik
informatika angkatan/tahun masuk 2006, 2007
dan 2008 pada tahun ajaran 2012/2013
semester ganjil, dengan rincian data sebagai
berikut:
b. Proses Data Mining
Record data training awal adalah 315 record, dan
setelah tahap preprocessing data yang siap diproses
mining adalah 262 record data. Selanjutnya akan
digunakan
algoritma
K-Means
untuk
mengelompokkan data. Data yang ada akan
dikelompokkan menjadi 2 kelompok yaitu :
1. Rawan Dropout (C1)
2. Tidak Dropout (C2)
Parameter hitung / atribut yang digunakan ada 3
atribut yaitu : usia, masa studi minimal dan IPK.
Langkah-langkah yang dilakukan adalah inisialisasi
dan iterasi 1,2,3,4 dan seterusnya sampai data
cluster tidak mengalami perubahan. Banyaknya

a.

Data status angkatan 2006 total data 174
record
b. Data status angkatan 2007 total data 205
record
c. Data status angkatan 2008 total data 290
record
3. Data IPK mahasiswa jurusan teknik informatika
angkatan 2006, 2007 dan 2008 pada tahun
ajaran 2012/2013 semester ganjil.
a. Data IPK angkatan 2006 total data 138
record
b. Data IPK angkatan 2007 total data 178
record
c. Data IPK angkatan 2008 total data 262
record
Setelah tahap sinkronisasi data total
record dataset dari angkatan 2006-2008 adalah
576 record. Data tersebut dibagi menjadi 2
berdasarkan angkatan, yaitu untuk angkatan 20062007 adalah 315 record sebagai data training dan
angkatan 2008 berjumlah 261 record sebagai data
testing.

cluster = 2, yaitu C1 yang diartikan sebagai
kelompok rawan drop out dan C2 sebagai
kelompok tidak drop out.
1. Langkah pertama adalah inisialisasi atau
mengalokasikan semua data dengan membuat
asumsi pusat cluster/centroid secara acak:

PUSAT CLUSTER / CENTROID AWAL
C1 =
29
7
1.81
C2 =
26
4
2.79

2. Hitung jarak setiap data yang ada terhadap
setiap pusat cluster. Dengan mengunakan
rumus Euclidian Distance :



d1= √
d2= √

� ,�




Misalkan untuk menghitung jarak data
mahasiswa pertama dengan pusat cluster
pertama adalah :
Hasil perhitungan selengkapnya pada tabel



= ‖� − � ‖ = √∑ � − �
=

2
2

+
+




2
2

+
+

.
.

Tabel Proses Mining Iterasi 1
− .
− .

2
2

= .
= .

3. Suatu data akan menjadi anggota dari suatu cluster
yang memiliki jarak terkecil dari pusat clusternya.
Misalkan untuk data pertama, jarak terkecil
diperoleh pada cluster pertama, maka data tersebut
akan masuk pada cluster pertama. Demikian juga

NO
1
2
3
4
5
6
7
8

USIA
27
26
26
27
28
29
25
28

MASA
7
4
4
4
7
7
4
4

IPK
2.69
3.16
2.76
2.06
0.63
1.81
2.71
2.86

d1
2.19
4.45
4.35
3.61
1.55
0.00
5.08
3.33

d2
3.16
0.37
0.03
1.24
4.20
4.35
1.00
2.00

C1
*

C2
**
**
**

*
*
**
**

untuk data kedua, jarak terkecil ada pada
cluster kedua, maka data tersebut akan masuk
pada data cluster kedua. Posisi cluster dapat
dilihat di tabel sebelah kanan.
4. Hitung pusat cluster baru
a. Untuk cluster pertama (C1) :
Contoh pada iterasi ke-1 jumlah data pada
cluster 1 (C1) = 81 data maka untuk
menghitung pusat cluster baru adalah
sebagai berikut:
.

=
.


=



+



+

+⋯





=



=

.

Selanjutnya untuk atribut masa studi
minimal
(C1.2),
IPK
(C1.3)
rumus
perhitungannya sama seperti diatas yaitu
rata-rata dari jumlah data pada atribut yang
termasuk dalam C1 dan jumlah data pada C1
b. Untuk cluster kedua (C2) :
Contoh pada iterasi ke-1 jumlah data pada
cluster 2 (C2) = 181 data
c. Pengujian Data Training
Dengan dilakukan pengujian akan diketahui
alur proses mining menggunakan metode K-Means
dan kualitas dari sistem.
Pengujian dilakukan pada data training
dengan 315 record data, setelah tahap
preprocessing data training menjadi 262 record
data. Pengujian ini bertujuan untuk mencari pusat
cluster yang dapat memberikan hasil yang tepat
untuk pengelompokan mahasiswa. Pusat cluster
tersebut akan disimpan dalam tabel data centroid.
Pengujian dilakukan beberapa kali sampai
menemukan centroid awal dengan kebenaran
pengelompokan yang cukup tinggi. Parameter yang

maka untuk menghitung pusat cluster baru
adalah sebagai berikut:
=

.
.



=

+

+




+⋯


=




=

.

Selanjutnya untuk atribut masa studi
minimal
(C2.2),
IPK
(C2.3)
rumus
perhitungannya sama seperti diatas yaitu
rata-rata dari jumlah data pada atribut yang
termasuk dalam C2 dan jumlah data pada C2
Maka diperoleh pusat cluster baru dari
perhitungan rata-rata pada iterasi ke-1 sebagai
berikut :
PUSAT CLUSTER / CENTROID AWAL
C1 =
28.91
6.28
C2 =
25.66
5.17

2.07
2.56

5. Ulangi langkah 2 hingga posisi data sudah tidak
mengalami perubahan.

digunakan untuk menguji kebenaran hasil sistem
adalah status mahasiswa.
Hasil clustering dinyatakan sudah benar jika
anggota cluster rawan dropout (C1) tidak terdapat
mahasiswa dengan status telah ujian (TU) dan
lulus (L), dan pada anggota cluster tidak dropout
(C2) tidak terdapat mahasiswa dengan status non
aktif (NA).
Setelah pengujian beberapa kali penulis
menyimpan centroid-centroid awal yang memiliki
kebenaran pengelompokan diatas 50%. Tabel 4.1
adalah centroid awal yang telah disimpan pada saat
pengujian data training.

Tabel 4.1 Tabel Pengujian Pada Data Training
CENTROID C1
NO
1
2
3
4
5

CENTROID C2

USIA

MASA

IPK

USIA

MASA

IPK

30
42
32
27
30

8
8
8
5
6

0.62
0.59
2.34
1.89
3.06

24
24
24
23
25

5
4
4
5
4

2
2.56
1.78
3.19
3.76

ƩC

54
4
54
118
69

d. Pengujian Data Testing
Pengujian dilakukan pada data testing
dengan 261 record data, setelah tahap
preprocessing data testing yang siap di mining
menjadi 174 record data. Pengujian ini bertujuan
untuk menguji data test dan untuk mendapatkan
kesimpulan presentase kebenaran pengelompokan.

DATA TRAINING
Cluster
Cluster 2
1
ƩC
S
B
S
B
208 17 37
82
126
258
1
3
112 146
208 17 37
82
126
144 52 66
57
87
193 32 37
82
111

PERSENTASE
KEBENARAN
HASIL(%)
C1
C2
68.52 60.58
75
56.59
68.52 60.58
55.93 60.42
53.62 57.51

Centroid-centroid awal pada tabel 4.2 adalah
centroid awal yang telah disimpan saat pengujian
data training. Pada tabel tersebut dapat diketahui
bahwa presentase kebenaran pengelompokan
lebih konsisten daripada saat pengujian data
training.

Tabel 4.2 Tabel Pengujian Pada Data Testing
CENTROID C1
NO
1
2
3
4
5

USIA

MASA

30
42
32
27
30

CENTROID C2

IPK

8
8
8
5
6

USIA

0.62
0.59
2.34
1.89
3.06

MASA

24
24
24
23
25

IPK

5
4
4
5
4

2
2.56
1.78
3.19
3.76

DATA TESTING
ƩC

40
40
40
40
40

ƩC

134
134
134
134
134

e. Hasil Pengujian
Tabel 4.3 di bawah ini merupakan
perbandingan
presentase
kebenaran
pengelompokan setelah dilakukan pengujian
terhadap data training dan data testing. Pengujian
terhadap
data
training
bertujuan
untuk
menemukan pusat cluster/centroid awal yang

Cluster 1

Cluster 2

S
12
12
12
12
12

S
36
36
36
36
36

B
28
28
28
28
28

B
98
98
98
98
98

PERSENTASE
KEBENARAN
HASIL(%)
C1
C2
70
73.13
70
73.13
70
73.13
70
73.13
70
73.13

tepat, dimana centroid awal tersebut diambil
secara random dan keakuratan pengelompokan
metode K-Means tergantung pada ketepatan
pemilihan pusat cluster awal. Sedangkan pengujian
terhadap data testing bertujuan untuk menguji
data
testing
dengan
presentase
kebenaran/ketepatan yang paling tinggi.

Tabel 4.3 Tabel Perbandingan Presentase Kebenaran
CENTROID C1
NO
1
2
3
4
5

CENTROID C2

USIA

MASA

IPK

USIA

MASA

IPK

30
42
32
27
30

8
8
8
5
6

0.62
0.59
2.34
1.89
3.06

24
24
24
23
25

5
4
4
5
4

2
2.56
1.78
3.19
3.76

PERSENTASE KEBENARAN HASIL(%)
DATA TRAINING
DATA TESTING
C1
C2
C1
C2
68.52
60.58
70
73.13
75
56.59
70
73.13
68.52
60.58
70
73.13
55.93
60.42
70
73.13
53.62
57.51
70
73.13

Pada tabel 4.3 dapat membuktikan bahwa
pemilihan pusat cluster awal yang tepat pada saat
pengujian data training akan memberikan hasil
dengan tingkat kebenaran pengelompokan yang
lebih tinggi pada pengujian data testing.
Hasil pengujian program terhadap data
testing dengan jumlah record data setelah tahap
preprocessing yaitu 174 record, menggunakan
pusat cluster awal : C1 = 42, 8, 0.59 dan C2 = 24, 4,
2.56

Proses mining tersebut menghasilkan 10 iterasi
dengan hasil :
a) Cluster 1 (rawan dropout) sebanyak 40
anggota atau 23% dari 174 record data
b) Cluster 2 (tidak dropout) sebanyak 134
anggota atau 77 % dari 174 record data
Gambar 4.11 dibawah ini adalah diagram
presentase hasil pengelompokan dengan tingkat
kebenaran/ketepatan pengelompokan berkisar
antara 70% sampai dengan 73.13%.

PENUTUP
1. Kesimpulan

dihasilkan oleh sistem bergantung pada
pemilihan pusat cluster awal harus tepat.
2. Untuk mengatasi hasil yang tidak konsisten dari
metode K-Means, dilakukan pengujian dengan
cara yang berbeda yaitu mencari dan
menyimpan pusat cluster awal yang tepat pada
pengujian data training dan menggunakan
pusat cluster tersebut untuk pengujian data
testing.
3. Pemilihan pusat cluster awal yang tepat pada
saat pengujian data training akan memberikan
hasil dengan tingkat kebenaran pengelompokan
yang lebih tinggi pada pengujian data testing.
4. Pada penelitian ini mahasiswa yang cenderung
dalam kelompok rawan dropout antara lain
adalah mahasiswa yang memiliki status non

Berdasarkan
implementasi
dan
pengujian
dari
aplikasi
clustering
untuk
pengelompokkan
mahasiswa
STMIK
ASIA
berdasarkan usia & data akademik menggunakan
metode K-Means, dapat diperoleh kesimpulan
sebagai berikut:
1. Algoritma K-Means ini dapat digunakan untuk
mengelompokkan mahasiswa berdasarkan usia,
masa studi dan nilai ipk menjadi 2 cluster, yaitu
cluster 1 (rawan dropout) dan cluster 2 (tidak
dropout). Akan tetapi untuk keakuratan dari
algoritma ini masih kurang efektif. Hal ini dapat
dibuktikan dengan melihat cluster yang

aktif yang berdampak pada penambahan masa
studi, dan mahasiswa yang memiliki ipk rendah.
5. Hasil pengujian program terhadap data testing
dengan jumlah record data setelah tahap
preprocessing yaitu 174 record, menggunakan
pusat cluster awal : C1 = 42, 8, 0.59 dan C2 = 24,
4, 2.56 menghasilkan 10 iterasi dengan hasil
akhir :
c) Cluster 1 (rawan dropout) sebanyak 40
anggota atau sebesar 23%
d) Cluster 2 (tidak dropout) sebanyak 134
anggota atau sebesar 77 %
Dengan
tingkat
kebenaran/ketepatan
pengelompokan berkisar antara 70% sampai
dengan 73.13%.
2. Saran
Saran yang sekiranya bermanfaat untuk
mengembangkan sistem clustering lebih lanjut
adalah:
1. Untuk mengantisipasi besarnya presentase
mahasiswa rawan dropout diharapkan ada

DAFTAR PUSTAKA
a. Agusta, Yudi, PhD. K-Means – Penerapan,
Permasalahan dan Metode terkait. Jurnal Sistem
dan Informatika Vol.3. 2007
b. Andayani, Sri. Pembentukan cluster dalam
Knowledge Discovery in Database dengan
algoritma K-Means. SEMNAS Jurdik Matematika
FMIPA UNY. Yogyakarta. 2007
c. Arbie, Manajamen Database dengan MYSQL,
Yogyakarta: ANDI, 2004
d. Arief, M. Rudianto, Pemrograman Web Dinamis
Menggunakan PHP & MYSQL , Yogyakarta:
ANDI, 2011
e. Han, Jiawei; Kamber, Micheline, Data
Preprocessing,
http://lecturer.eepisits.edu/~entin/Data%20Mining/Minggu%204
%20Data%20Preprocessing.pdf, ( 26 Juli 2013)
f. Hermawati, Fajar Astuti, Data Mining,
Yogyakarta: ANDI, 2013
g. HM, Jogiyanto, Analisis & Desain Sistem
Informasi: Pendekatan Terstruktur Teori &
Praktik Aplikasi Bisnis, Yogyakarta: ANDI, 2005
h. Kadir, Abdul, Dasar Pemrograman Web Dinamis
Menggunakan PHP, Yogyakarta: ANDI, 2008

batasan maksimal dari pihak akademik untuk
mahasiswa yang berstatus nonaktif, dan untuk
mahasiswa yang memiliki ipk rendah
seharusnya diwajibkan mengikuti program
perbaikan nilai tanpa harus menambah masa
studi, misalnya program perbaikan nilai pada
perkuliahan semester pendek.
2. Beberapa kemungkinan alternatif cara untuk
meningkatkan
ketepatan
pengelompokan
adalah dengan menggunakan metode tertentu
untuk seleksi/pemilihan atribut dengan kriteria
lain seperti gini index, gain ratio atau untuk
optimasi centroid menggunakan algoritma
genetika.
3. Menggunakan dataset dan atribut yang lebih
banyak terutama untuk data training, semakin
banyak atribut dan dataset saat pengujian data
training, semakin tinggi tingkat ketepatan
pengelompokan.
4. Menggunakan teknik praproses yang tepat
untuk menjaga keaslian data.

i. Kadir, Abdul, Tuntunan Praktis: Belajar
Database Menggunakan MySQL, Yogyakarta:
ANDI, 2008
j. Kendall, Kenneth E. and Kendall, Julie E., System
Analysis and Design, Fifth Edition, New Jersey:
Prentice Hall, 2002
k. Kristanto, Harianto, Konsep dan Perancangan
DATABASE, Yogyakarta: ANDI, 1994
l. Mata-Toledo, Ramon A. and Chusman, Pauline
K., Scaum’s Outliners of Fundamentals of
Relational Database, New York: Mc. Graw-Hill,
1999
m. Nugroho, Bunafit, Database Relasional dengan
MySQL, Yogyakarta: ANDI, 2005
n. Prasetyo, Eko, Data Mining – Konsep dan
Aplikasi Menggunakan MATLAB, Yogyakarta:
ANDI, 2012
o. Pressman, Roger S., REKAYASA PERANGKAT
LUNAK-BUKU SATU: Pendekatan Praktisi, Edisi
7, Yogyakarta: ANDI, 2012
p. Santosa, Budi, Data Mining Teknik pemanfaatan
Data Untuk Keperluan Bisnis, 1st ed, Yogyakarta:
Graha
Ilmu,
2007