DATA MINING DENGAN METODE CLUSTERING K M

DATA MINING DENGAN METODE CLUSTERING K-MEAN UNTUK
PENGELOMPOKAN MAHASISWA POTENSIAL DROP OUT PADA PROGRAM
STUDI TEKNIK INFORMATIKA UNIVERSITAS SILIWANGI
Adi Firmansyah, Acep Irham Gufroni, Andy Nur Rachman
Teknik Informatika Universitas Siliwangi Tasikmalaya
Email: blinkmedium@yahoo.co.id

ABSTRACT
The College is one of an institution that has many data volumes. Database’scollege save the academic data,
administration and data’s students. One of the data that found is the student’s comprehension information who
has a drop out potential. This problem is important to know and understanding. The understanding can be done
by analysis of possessing data to cluster and understanding of drop out potential students. It is important to keep
failure’s students of the collage management. The measure of success or achievement of students can be seen
from the Achievement Index (IP), which reflects all the values obtained student until the current semester. In this
survey technique data mining in the method of clustering k-mean will be implementation to be a number of
students cluster who have drop out potential of the strata 1 study program of Siliwangi University Informatics
Engineering.
Keywords :Data Mining, Clustering, Potenential Drop Out, K-mean
ABSTRAK
Perguruan tinggi adalah salah satu institusi yang sudah pasti memiliki data yang tidak kecil volumenya. Database
perguruan tinggi menyimpan data akademik, administrasi dan data mahasiswa. Salah satu data yang dapat digali

adalah informasi mahasiswa yang potensial drop out. Hal ini penting untuk diketahui dan dipahami, serta dapat
dilakukan dengan menganalisis data yang dimiliki untuk memahami dan mengelompokkan mahasiswa yang
potensial drop out. Pencegahan kegagalan mahasiswa sangat penting bagi manajemen perguruan tinggi. Ukuran
keberhasilan atau prestasi mahasiswa dapat dilihat dari Indeks Prestasi (IP) yang mencerminkan seluruh nilai
yang diperoleh mahasiswa sampai semester yang sedang berjalan Pada penelitian ini teknik data mining dalam
metode clustering k-mean akan di implementasikan untuk mengelompokkan jumlah mahasiswa-mahasiswa yang
di potensial drop out pada program Studi Strata 1 Teknik Informatika Universitas Siliwangi.
Kata Kunci: Data Mining, Clustering, Potensial Drop Out, K-mean

1. PENDAHULUAN
Beberapa institusi yang memanfaatkan
sistem informasi berbasis komputer selama
bertahun-tahun sudah pasti memiliki jumlah data
yang cukup besar pula. Data yang dihasilkan dan
disimpan dalam sistem komputer dirancang agar
cepat dan akurat baik dalam mengoperasikan
maupun administrasinya. Data ini dirancang untuk
pelaporan dan analisa yang menggunakan data.
Data tersedia secara luar biasa melimpah.
Sedemikian melimpahnya data, sehingga membuat

kita
semakin
tertantang
untuk
bertanya
“Pengetahuan apakah yang dapat dihasilkan dari
data tersebut”. (Guchi, 2010)
Perguruan tinggi adalah salah satu institusi
yang sudah pasti memiliki data yang tidak kecil
volumenya. Database perguruan tinggi menyimpan
data akademik, administrasi dan data mahasiswa.
Data tersebut apabila digali dengan tepat maka
dapat diketahui pola atau pengetahuan untuk
mengambil keputusan.
Salah satu data yang dapat digali adalah
pemahaman informasi mahasiswa yang potensial

drop out. Hal ini penting untuk diketahui dan
dipahami. Pemahaman dapat dilakukan dengan
mengungkapkan pengetahuan yang dimiliki untuk

memahami dan mengelompokkan. Pencegahan
kegagalan adalah sangat penting bagi manajemen
perguruan tinggi. Pengetahuan ini dapat digunakan
dalam membantu pihak perguruan tinggi untuk
lebih mengenal situasi para mahasiswanya dan
dapat dijadikan sebagai pengetahuan dini dalam
proses pengambilan keputusan untuk tindakan
preventif dalam hal mengantisipasi mahasiswa
drop-out, untuk meningkatkan prestasi mahasiswa,
untuk meningkatkan kurikulum, meningkatkan
proses kegiatan belajar dan mengajar dan banyak
lagi keuntungan lain yang bisa diperoleh dari hasil
penambangan data tersebut. (Guchi, 2010).
Teknik Informatika Universitas Siliwangi
Tasikmalaya adalah Universitas yang mempunyai
jumlah mahasiswa, hampir setiap tahun terdapat
calon mahasiswa yang terkena DO. Alasan lain
pemberlakuan sistem Drop Out lantaran mahasiswa
tidak bisa memenuhi target SKS (Sistem Kredit
Semester) yang ditentukan perguruan tinggi dalam

kurun waktu tertentu. Kondisi demikian bisa terjadi

lantaran mahasiswa yang bersangkutan memiliki
aktivitas lain di luar jam kuliah, yaitu seperti kerja
atau yang lainnya. Saat mahasiswa bekerja
konsentrasinya akan terpecah dengan kuliah,
akibatnya tidak bisa fokus dan kuliah jadi
terbengkalai.
Ukuran
keberhasilan atau
prestasi
mahasiswa dapat dilihat dari Indeks Prestasi (IP)
yang mencerminkan seluruh nilai yang diperoleh
mahasiswa sampai semester yang sedang berjalan.
IP diperoleh dengan cara menjumlahkan seluruh
nilai mata kuliah yang telah diambil dan
membaginya dengan total SKS (Satuan Kredit
Semester).
1.2 Rumusan Masalah
Rumusan masalah pada penelitian ini adalah

Bagaimana hasil pengelompokan data mining
menggunakan implementasi algoritma K-Mean
dengan data training yang bersumber dari data
Mahasiswa Teknik Informatika Universitas
Siliwangi.
1.3 Batasan Masalah
Agar penelitian ini lebih terarah dan tepat dalam
penyampaian tujuannya, serta untuk menghindari
penyimpangan pembahasan dari tujuan awal maka
diperlukan batasan masalah penelitian ini adalah
sebagai berikut:
1. Penelitian ini hanya mengelompokkan
mahasiswa drop out di program studi S1
Teknik Informatika Universitas Siliwangi.
2. Objek yang dikelompokkan drop out
adalah berdasarkan IP Semester awal sampai ip
semester akhir.
3. Data yang digunakan Data Mahasiswa
Angkatan 2010-2013.
4. Algoritma yang digunakan dalam

melakukan clustering adalahalgoritma KMeans.
1.4 Tujuan Penelitian
Adapun tujuan penelitian ini adalah untuk
melakukan pengelompokan mahasiswa yang
potensial drop out menggunakan implementasi
algoritma K-Mean dengan data training yang
bersumber dari data Mahasiswa Teknik Informatika
Universitas Siliwangi.
2. LandasanTeori
2.1 Data Mining
Data mining (penambangan data) adalah suatu
proses untuk menemukan suatu pengetahuan atau
informasi yang berguna dari data berskala besar.
Sering juga disebut segabai bagian proses KDD
(Knowledge
Discovery
in
Databases).
(Santosa,2007).
Han,

Kamber,
dan
Pei
(2012)
menyebutkan bahwa KDD atau Knowledge
Discovery from Data, merupakan proses terstruktur,
yaitu sebagai berikut:

1. Data

Cleaning
adalah
proses
membersihkan data dari data noise dan missing
value.
2. DataIntegration adalah proses untuk
menggabungkan data dari beberapa sumber
yang berbeda.
3. DataSelection adalah proses untuk
memilih data dari database yang sesuai dengan

tujuan analisis.
4. Data Transformation adalah proses
mengubah bentuk data menjadi data yang
sesuai untuk proses mining.
5. Data Mining adalah proses penting yang
menggunakan sebuah metode tertentu untuk
memperoleh sebuah pola dari data.
2.2 Clustering
Clustering merupakan pekerjaan yang
memisahkan data/vector ke dalam sejumlah
kelompok (cluster) menurut karakteristiknya
masing-masing. Data-data yang mempunyai
kemiripan karakteristik akan berkumpul dalam
cluster yang sama, dan data-data dengan
karakteristik berbeda akan terpisah dalam cluster
yang berbeda. (Teguh, 2009)
2.3 Metode K-Mean
Salah satu algoritma pengelompokan data
adalah algoritma K-Means. Algoritma K-Means
adalah algoritma klastering yang paling sederhana

dibanding algoritma
klastering yang lain. Algoritma ini mempunyai
kelebihan mudah diterapkan dan dijalankan, relatif
cepat, mudah untuk diadaptasi, dan paling banyak
dipraktekkan
dalam
tugas
data
mining.
(Teguh,2009)
Berdasarkan perbandingan kemampuan
prediktif
algoritma
non-hierarki
dengan
menggunakan data sel ragi, maka disimpulkan
bahwa Algoritma K-Means bagus digunakan untuk
mengelompokkan data ke dalam jumlah cluster.
(Rosni,2014)
Adapunl angkah-langkah pada algoritma K-Means

adalah sebagai berikut :
1. Tentukan K.
2. Pilih K buat catatan dari sekianc atatan yang
ada sebagai pusat kelompok awal (mi)
3. Untuk langkah ke – 3 ini lakukan :
1. Untuk setiap catatan, tentukan pusat
kelompok terdekatnya dan tetapkan
catatan tersebut sebagai kelompok anggota
dari kelompok yang terdekat pusat
kelompoknya. Dengan menggunakan
rumus Ecluidien Distance.

2. Hitung BCV ( Between Cluster Variation )
= Jarak Antar Cluster

3. Hitung WCV( Within cluster Variation ) =
Jarak antara anggota dalam Cluster.

4. Rasio = BCV/WCV
5. Bandingkan rasio tersebut dengan rasio


5.

sebelumnya jika sudah ada, jika rasio
tersebut nilainya semakin besar maka
lanjutkan kelangkah ke -4, namun jika
tidak hentikan prosesnya.
Perbaharui
pusat-pusat
kelompok
(bedasarkan kelompok yang di dapat dari
langkah ke – 3) dan kembalilah kelangkah
ke-3.

3. Metodologi
Langkah awal penelitian yaitu dimulai
dengan mengumpulkan data referensi dan konsep
algoritma Data mining. Data sampel yang
digunakan dalam penelitian ini diperoleh dari
Badan Administrasi Akademik
Universitas
Siliwangi dengan, yang dijadikan sampel dalam
penelitian ini adalah data mahasiswa dan data Nilai
Indeks Prestasi Mahasiswa Program Studi Teknik
Informatika. Dengan total jumlah data mahasiswa
Teknik Informatika Angkatan 2010-2013 sebanyak
data dengan rincian sebagai berikut:
Tabel 1. Data Penelitian
Angkatan
Jumlah Data
2010
314
2011
340
2012
320
2013
298
Total
1272
3.1
Metode Pengumpulan Data
Sumber teori dan data yang digunakan
dalam penelitian ini didapatkan dari beberapa cara,
diantaranya:
a. Studi Literatur
Studi literatur dilakukan dengan
mengumpulkan bahan-bahan refrensi baik dari
buku, artikel, paper, jurnal, makalah, maupun situssitus internet yang berhubungan dengan konsep dan
algoritma data mining.
b. Analisis Permasalahan
Pada tahap ini dilakukan analisis terhadap
studi literatur untuk mengetahui dan mendapatkan
pemahaman mengenai masalah yang di teliti.
c. Wawancara
Wawancara dilakukan untuk memperoleh
sumber data berdasarkan keterangan dan penulisan
secara langsung dari pihak yang terkait atau dengan
pembimbing lapangan.
d. Studi Pustaka
Melakukan pengumpulan dan penyusunan
data dengan membaca buku literature, serta bahanNo
1
2
3
4

bahan perkuliahan yang sesuai dengan masalah
yang diteliti.
3.2 Proses Persiapan Data Mining
1. Data Cleaning
Data Cleaning merupakan proses untuk dapat
mengatasi nilai yang hilang, noise dan data yang
tidak konsisten. (Han, Kamber, and Pei 2012)
Dari data set yang didapatkan dari data mahasiswa
Teknik Informatika sebanyak 314 Mahasiswa
Angkatan 2010, 340 Mahasiswa Angkatan 2011,
320 Mahasiswa Angkatan 2012 dan Mahasiswa
Angkatan 2013, seperti terlihat pada lampiran. Data
tersebut kemudian masuk ke proses Cleaning dan
beberapa mahasiswa yang sudah lulus dan
mahasiswa yang sudah keluar dalam proses
cleaning akan dihilangkan. Berikut ini adalah
kolom-kolom yang di cleaning beserta alasan
kolom tersebut mengalami proses cleaning.

Sebelum
Data
Mahasisw
a
yang
sudah
Lulus
Data
Mahasisw
a
yang
suda
Keluar
Kolom
“Nama”

Tabel 2. Data Cleaning
Cleaning
sesuda Alasan
h
Dihilangka Tidak dapat di
n
Proses

Dihilangka
n

-

Dihilangka
n

-

Tidak dapat di
Proses

Nilainya
Tidak
Mempengaru
hi Proses
Kolom
Dihilangka Data
IPK
“IPK”
n
dijadikan
sebagai
acuan.
Kolom
Dihilangka Data
SKS
“SKS”
n
dijadikan
sebagai acuan
a.
Data Mahasiswa yang sudah lulus,
dilakukan penghapusan data karena data mahasiswa
yang sudah lulus tidak dapat diproses.
b.
Data Mahasiswa yang sudah keluar,
dilakukan penghapusan data karena tidak dapat
diproses, baik yang keluar, ataupun yang sudah di
DO.
Setelah dilakukan proses Data Cleaning maka data
penelitian menjadi berkurang.
Tabel 3. Data Penelitian yang sudah di Cleaning
No
Angkatan
Jumlah Data
1
2010
100
2
2011
265

3
4

2012
2013
Total

248
258
871

2. Data Integration
Data
Integration
merupakan
proses
menggabungkan data dari banyak database atau
data warehouse. Proses ini dapat membantu
mengurangi data redundan dan data yang tidak
konsisten yang disebabkan pengambilan data dari
banyak sumber data. Hal ini tentu saja akan
berpengaruh terhadap kecepatan dan akurasi saat
melakukan Data mining(Han, Kamber, and Pei
2012).
Data set yang telah melalui proses
celeaning perlu di integrasikan karena data yang
digunakan secara terpisah, maka data tersebut
digabungkan.
3. Data Selection
Data Selection atau Data Reduction merupakan
proses meminimalkan jumlah data yang digunakan
untuk
proses
mining
dengan
tetap
merepresentasikan data aslinya. Mengurangi jumlah
data yang digunakan untuk proses mining akan
lebih efisien mengingat hasil yang didapatkan sama
(atau hampir sama) secara analitikal.
Dari 871 data set yang merupakan gabungan dari 4
Angkatan, dipilih 25 data set secara acak angkatan
2011 sebagaisampelyang dapat merepresentasikan
data tersebut. Data set tersebut dapat dilihat pada
tabel dibawah.
Tabel 4. Data Selection

3.3 Data Mining
Untuk melakukan Proses pengclusteran maka
langkah-langkah yang dilakukan sebagai berikut:

1. Inisialisasi
Menentukan Jumlah Cluster K=3 (C1,C2,C3)
Ket:
C1= Cluster ke-1
C2= Cluster ke-2
C3= Cluster Ke-3
2. Dilakukan pemilihan K data sebagai
centeroid awal, maka dengan data yang banyak
perlu dilakukan normalisasi data. Yaitu dengan
mencari nilai m1,m2 dan m3.Maka didapat
nilai m1,m2 dan m3.
m1 = 0.707142857
m2 = 2,803028571
m3 = 3.531428571
3.

Baca data IP Mahasiswa, Fakultas Teknik
Informatika Universitas Siliwangi untuk
angkatan 2011.

4.

Hitung jarak setiap data dengan masing-masing
centroid, Untuk mendapatkan jarak dari
masing-masing IP mahasiswa ke C1, C2, dan
C3digunakan rumus euclidean distance.
Tabel 5.Literasi 1

5. Menghitung Nilai BCV
BCV = d (m1, m2) + d (m2, m3) + d (m1,m3)
Didapat BCV = 3.5916
6. Menghitung Nilai WCV

DidapatNilai WCV = 62.1072
7. MenghitungNilai Ratio
Ratio = = = 0.0578
8. Menghitung Iterasi ke-2
mi =
mi =
m1 = = 5.752611
m2 = = 1.450244
m3 = = 2.22953
Lakukanlangkah 1-8 untukmencarihasilLiterasike
2. Setelah dibandingkan rasio ke 2 Iterasi tersebut,
jika rasio tersebut nilainya semakin besar maka
lanjutkan ke langkah berikutnya namun jika tidak
hentikan prosesnya.
4. HasildanPembahasan
Hasil dari proses Data Mining menggunakan
Metode Clustering K-mean sesuai dengan tujuan
yang telah ditetapkan, seperti dijelaskan dibawah
ini. Setelah proses perhitungan 25 data mahasiswa
menggunakan metode clustering dengan Algoritma
K-mean, hasil dari perhitungan 4 angkatan adalah
sebagai berikut:
4.1. Angkatan 2010
Setelah dibandingkan rasio ke 2 Iterasi tersebut,
jika rasio tersebut nilainya semakin besar maka
lanjutkan ke langkah berikutnya namun jika tidak
hentikan prosesnya
Rasio ke 2 literasi:
R1= 0.061121
R2= 0.058682
Tabel 6.Hasil Pengclusteran Mahasiswa Potensial
Drop Out Angkatan 2010

4.2 Angkatan 2011
Setelah dibandingkan rasio ke 2 Iterasi tersebut,
jika rasio tersebut nilainya semakin besar maka
lanjutkan ke langkah berikutnya namun jika tidak
hentikan prosesnya
Rasio ke 2 literasi:
R1= 0.0578297
R2= 0.042101
Karena nilainya tidak bertambah maka proses
dihentikan. Maka didapat Hasil dari Proses
Clustering Mahasiswa Potensial Drop Out adalah
Pada table dibawahini.
Tabel 7.Hasil Pengclusteran Mahasiswa Potensial
Drop Out Angkatan 2011

4.3 Angkatan 2012
Setelah dibandingkan rasio ke 2 Iterasi tersebut,
jika rasio tersebut nilainya semakin besar maka
lanjutkan ke langkah berikutnya namun jika tidak
hentikan prosesnya
Rasio ke 2 literasi:
R1= 0.083743912
R2= 0.076195584
Karena nilainya tidak bertambah maka proses
dihentikan. Maka didapat Hasil dari Proses
Clustering Mahasiswa Potensial Drop Out adalah
Pada table dibawahini.
Tabel 8.Hasil Pengclusteran Mahasiswa Potensial
Drop Out Angkatan 2012

4.4 Angkatan 2013
Setelah dibandingkan rasio ke 2 Iterasi tersebut,
jika rasio tersebut nilainya semakin besar maka
lanjutkan ke langkah berikutnya namun jika tidak
hentikan prosesnya
Rasioke 2 literasi:
R1= 0.104172
R2= 0.073581
Karena nilainya tidak bertambah maka proses
dihentikan. Maka didapat Hasil dari Proses
Clustering Mahasiswa Potensial Drop Out adalah
Pada table dibawahini.
Tabel 9.Hasil Pengclusteran Mahasiswa Potensial
Drop Out Angkatan 2013

5. Kesimpulandan Saran
5.1 Kesimpulan
Berdasarkan hasil analisis dan pengujian
yang dilakukan pada bab sebelumnya, maka

kesimpulan yang dapat diambil adalah sebagai
berikut:
Dengan bantuan teknik data mining, seperti
algoritma clustering, memungkinkan untuk
menemukan
karakteristik-karakteristik
dari
mahasiswa dan menggunakan karakteristik mereka
dalam memprediksi prestasi dimasa depan.
Hasilyang
diperoleh
merupakan
kelompok
mahasiswa yang berpotensi untuk drop out, artinya
mahasiswa-mahasiswa yang termasuk dalam data
merupakan
acuan
untuk
mempermudah
pengambilan keputusan terhadap mahasiswa yang
akan di drop out.
5.2 Saran
Untuk pengembangan penelitian lebih lanjut
terhadap sistem Aplikasi Prediksi Mahasiswa Drop
Out Akademik Dengan Menggunakan Metode
Clustering Pada Program Studi Teknik Informatika
Universitas Siliwangi.
sebagai berikut:
1.
Untuk mendapatkan hasil yang lebih variatif
penelitian ini dapat juga dikembangkan
dengan
menggunakan
algoritma
pengelompokkan lain seperti hierarchical
clustering, partitional clustering, single
linkage, complete linkage, average linkage,
DBSCAN, Fuzzy C-Means, Self-Organizing
Map, K-Modes dan lain-lain.
2.
Untuk memperoleh akurasi sistem yang lebih
tinggi
dalam
mengelompokkandata
mahasiswa yang potensial DO, algoritma
clusterring ini dapat dikombinasikan dengan
algoritma data mining pada fungsi mayor
yang lain, misalnya dengan fungsi mayor
klasifikasi, deteksi anomali, maupun analisa
asosiasi.
DaftarPustaka
Agusta,
Yudi,
2007.
K-MeansPenerapan,Permasalahan,
danMetodeTerkait. Jurnal Sistem dan
Informatika Vol. 3 (Pebruari 2007), 47-60
Akbar, Rizal. 2011. Penerapan Data Mining
denganMenggunakanMetode Clustering KMean
UntukMengukur
Tingkat
KetepatanKelulusanMahasiswa
Program

TeknikInformatika S1. JurnalInformatika
2011.
EkoPrasetyo. 2012. Datamining
KonsepdanAplikasimenggunakanMatlab
Yogyakarta: 2012.
Etandalan,
Website
http://ihsaned.blogspot.com/2013/02/dodrop-out-perkuliahan.html.
DiaksesPadatanggal 2 Agustus 2015.
Guchi, NurulMasithah., 2010. Pengelompokan
Mahasiswa
Potensial
Drop
Out
Menggunakan Metode Clustering Pada
Program Studi Strata 1 Ilmu Komputer Dan
Teknologi Informasi Universitas Sumatera
Utara. 2010.
Hamimi, Hafillah. 2014. Analisis Data
AnggaranPendapatanBelanja
Daerah
Menggunakan
Clustering
K-Means
danForecasting (StudiKasuspada DPKA
Kota Padang) Jurnal 2014.
Herawati,
Rosita.
2012.
RekomendaisiPenjurusan di SMU YSKI
denganAlgoritma K-Means.2012
Heryadi.Teguh. 2009. Penerapan Algoritma K-Means
Untuk Pengelompokan Data Nilai Siswa.JurnalA21 2009.
Jananto, Arief. 2010. Memprediksi Kinerja
Mahasiswa Menggunakan Teknik Data
Mining (Studi kasus data akademik
mahasiswa UNISBANK. Tesis Tidak
Terpublikasi. Yogyakarta: Universitas Gajah
Mada.
Lumbantoruan, Rosni. 2014.
ANDI.PENGUKURAN KEMAMPUAN
PREDIKTIF TEKNIK
CLUSTERINGDENGAN FIGURE OF
MERIT. Institute Teknologi Bandung. 2014.
Larose, D., T., 2005, Discovering Knowledge In
Data An Introduction to Data Mining, Jhon
Willey & Sons Inc, New Jersey
Narwati,2011.
PengelompokkanMahasiswaMenggunakanAl
goritma K-Means. JurnalInformatika 2011.
Safitri, HabibRamdani., Penerapan Teknik Data
Mining Dengan Metode Smooth Support
Vector Machine (SSVM) Untuk Memprediksi
Mahasiswa Yang Berpeluang Drop Out.,
2011.