DATA MINING MENGGUNAKAN ALGORITMA KMEANS

DATA MINING MENGGUNAKAN ALGORITMA KMEANS CLUSTERING
UNTUK MENENTUKAN STRATEGI TINGKAT KELULUSAN SMA
STUDI KASUS DATA SEKOLAH KOTA SMA BANDA ACEH
Sofyan Saputra
5520111189
Jurusan Tehnik Informatika
Sekolah Tinggi Manajemen Informasi Dan Komputer
Adhi Guna
ABSTRAK
Abstrak Abstrak Abstrak Abstrak Abstrak (maks 250 kata)
Keyword : Abstrak, Abstrak (3-5 kata)
1 Pendahuluan
Kemajuan teknologi informasi sudah
semakin berkembang pesat disegala bidang
kehidupan. Banyak sekali data yang
dihasilkan oleh teknologi informasi yang
canggih, mulai dari bidang industri,
ekonomi, ilmu dan teknologi serta berbagai
bidang kehidupan lainnya. Penerapan
teknologi
informasi

dalam
dunia
pendidikan juga dapat menghasilkan data
yang berlimpah mengenai siswa dan proses
pembelajaran yang dihasilkan.

berdasarkan sekolah asal siswa [1].

Berdasarkan data yang diperoleh dari
database website dinas pendidikan kota
banda terdapat terdapat 54 sekolah SMA
dan 10 sekolah SMK dimana terdapat 26
siswa yang tidak lulus sedangkan pada
tahun 2013 terdapat 49 SMA dan 8 SMK
terdapat 12 siswa yang tidak lulus.
Peningkatan ini terjadi karena kurangnya
pengolahan data secara tepat berdasarkan
data historis yang dimana hal tersebut dapat
mempengaruhi pengambilan keputusan
dalam menentukan strategi menghadapi

Tingginya kasus tidak lulus siswa ujian nasional.
SMA dan SMK dalam menempuh Ujian
Akhir Nasional membuat para guru 2 Landasan Teori
ataupun staf dari sekolah berusaha untuk 2.1 Definisi Data Mining
mencari cari cara agar para siswa mampu
Jika dilihat sudut pandang bahwa data
menghadapi Ujian Akhir Nasional dengan mining merupakan data yang menggali data
baik.
yang telah lama dari beberapa serangkaian
kegiatan. Menurut Giudici & Figini (2009)
Berdasarkan melimpahnya data siswa data mining merupakan proses terpadu dari
SMA dan SMK, informasi yang analisis data yang terdiri dari serangkaian
tersembunyi dapat diketahui dengan kegiatan yang berjalan berdasarkan definisi
mengolah data tersebut hingga berguna tujuan yang akan dianalisis, dengan analisis
bagi pihak sekolah. Pengolahan data datanya sampai interpretasi dan evaluasi
tersebut perlu dilakukan guna untuk hasil.
mengetahui pengetahuan baru (Knowledge
Menurut Giudici & Figini (2009),
Discovery) misalnya informasi mengenai berbagai tahapan dari proses data mining
pengelompokan data mahasiswa berpotensi adalah sebagai berikut:


1. Definisi tujuan untuk analisa
Suatu pernyataan yang jelas tentang
masalah dan tujuan yang akan dicapai
merupakan hal yang paling penting dalam
membentuk analisa dengan benar. Hal ini
menjadi salah satu bagian paling sulit dari
proses karena menentukan metode yang
akan digunakan. Oleh karena itu tujuan
harus jelas dan tidak boleh ada ruang untuk
keraguan atau ketidakpastian.
2. Seleksi,
organisasi,
dan
pra-perawatan data
Setelah
tujuan
dianalisa
dan
diidentifikasi perlu adanya pengumpulan

atau pemilihan data yang diperlukan untuk
analisa.
Sumber data yang ideal adalah
data warehouse perusahaan, sebuah “store
room” data histori yang sudah tidak lagi
digunakan. Jika tidak ada data warehouse
maka pasar data dapat diciptakan dari
overlapping dari berbagai sumber data
perusahaan.
3. Eksplorasi analisis data dan
mentransformasinya
Pada tahap ini melibatkan analisa
eksplorasi awal dari data, yang sangat
serupa dengan teknik Online Analytical
Process (OLAP).
Tahap ini dapat
mengakibatkan transformasi dari variabel
asli dalam rangka lebih memahami
fenomena atau metode statistik yang
digunakan.

Analisis eksplorasi dapat
menyoroti data anomaly, data yang berbeda
dari data yang lain.
4. Spesifikasi dari metode statistik
Berbagai macam metode statistik yang
dapat digunakan dan juga banyak algoritma
yang tersedia, sehingga sangat penting
membuat klasifikasi dari metode yang
sudah tersedia. Pemilihan metode yang
akan digunakan dalam membuat analisa
tergantung dari masalah yang sedang
dipelajari atau pada jenis data yang tersedia.
Berbagai
macam
metode
tersebut
dikelompokkan menjadi dua kelas utama

sesuai dengan tahap yang berbeda dari
analisis data yaitu:

a. Metode Deskriptif
Tujuan utama dari metode di kelas
ini adalah untuk menggambarkan
kelompok data dengan cara yang
ringkas.
Dalam metode deskriptif
tidak ada hipotesis sebab akibat antara
variabel-variabel yang tersedia. Yang
termasuk dalam kelompok ini misalnya
metode asosiasi, model log-linear,
model grafis).
b. Metode Prediksi
Metode dalam kelas ini mempunyai
tujuan untuk menggambarkan satu atau
lebih variabel yang dilakukan dengan
mencari aturan klasifikasi atau prediksi
berdasarkan data.
Aturan-aturan ini
membantu
memprediksi

atau
mengklasifikasikan hasil masa depan
salah satu atau lebih variabel respon
atau target dalam kaitannya dengan apa
yang terjadi pada variabel penjelas atau
masukan.
Yang termasuk dalam
metode ini antara lain neural network
dan decision tree dan termasuk juga
model regresi linear dan logistik.
5. Analisis data berdasarkan metode yang
dipilih Setelah menentukan metode statistik
yang
akan
digunakan
selanjutnya
menerjemahkan ke dalam algoritma yang
sesuai untuk mendapatkan hasil yang
dibutuhkan berdasarkan data yang tersedia.
6. Evaluasi dan perbandingan dari metode

yang digunakan dan pilihan model akhir
untuk analisis Interpretasi dari model yang
dipilih dan penggunaannya dalam decision
process
2.2 Algoritma K-Means
Menurut Hasn & Kamber algoritma KMeans bekerja dengan membagi data ke
dalam k buah cluster yang telah ditentukan
[3]. Beberapa cara penghitungan jarak yang
biasa digunakan yaitu:

1. Euclidean distance
Formula jarak antar dua titik dalam satu,
dua dan tiga dimensi secara berurutan
ditunjukkan pada formula 1, 2, 3 berikut
ini :

nilai bahasa inggris, rerata nilai bahasa
indonesia, rerata nilai fisika dan ekonomi,
rerata nilai kimia dan sosiologi, rerata nilai
biologi dan geografi, serta total nilai rerata

untuk semua mata pelajaran. Dalam
kasusnya rerata nilai menjadi patoka
terhadap jurusan dihilangkan karena
strategi yang sama akan diterapkan pada
semua jurusan.

2. Manhattan Distance
3.3 Pemilihan Atribut Data
Manhattan distance disebut juga taxicab
Atribut yang digunakan adalah semua
distance.
rerata nilai masing-masing mata pelajaran
yang diujiankan oleh para siswa dan Kode
Sekolah. Data yang tidak menjadi atribut
3. Chebichev Distance
akan dihilangkan sedangkan atribut Kode
Di dalam Chebichev distance atau sekolah yang bertipe nominal akan di
Maximum Metric jarak antar titik transformasi menjadi data integer agar
didefinisikan dengan cara mengambil nilai dapat dijadikan sebagai kode unik untuk
selisih terbesar dari tiap koordinat pemanfaatan performansi data.

dimensinya.
3.4 Penetapan Jumlah Cluster
Jumlah cluster (K) yang digunakan
2.3 Rapidminer
dalam penelitian ini adalah berjumlah 3.
RapidMiner adalah sebuah lingkungan
machine learning data mining, text mining 3.5 Transformasi Data
dan predictive analytics [5].
Atribut dengan jenis nominal seperti
kode sekolah akan di inisialisasi terlebih
3 Hasil Dan Pembahasan
dahulu kedalam bentuk angka. Proses
3.1 Pemahaman Data
inisial dilakukan seperti pada Tabel 1.
Datasets siswa didapatkan melalui
sumber bank data terbuka pada alamat
http://data.bandaacehkota.info/dataset/dafta
r-kelulusan-sma-kota-banda-aceh
untuk
data

siswa
SMA
dan
http://data.bandaacehkota.info/dataset/dafta
r-kelulusan-smk-kota-banda-aceh
untuk
data siswa SMK yang telah menempuh
ujian.
3.2 Deskripsi Data
Datasets siswa terdiri atas atribut
kode-sekolah,nama sekolah, status, jumlah
tidak lulus, jurusan, jumlah peserta
laki-laki,jumlah peserta perempuan, rerata

Tabel 1 Inisialisasi Kode Sekolah Jurusan
IPA
Kode Sekolah
06-01-001
06-01-002
06-01-003
06-01-004
06-01-005
06-01-006
06-01-007
06-01-008
06-01-009
06-01-010
06-01-011
06-01-015

Inisial
1
2
3
4
5
6
7
8
9
10
11
12

Jurusan
IPA
IPA
IPA
IPA
IPA
IPA
IPA
IPA
IPA
IPA
IPA
IPA

Inisial

11
11
11
11
11
11
11
11
11
11
11
11

06-01-016
06-01-017
06-01-018
06-01-019
06-01-020
06-01-025
06-01-026
06-01-027
06-01-028
06-01-029
06-01-030
06-01-031
06-01-032
06-01-036
06-01-037
06-01-039
06-01-040

13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

IPA
IPA
IPA
IPA
IPA
IPA
IPA
IPA
IPA
IPA
IPA
IPA
IPA
IPA
IPA
IPA
IPA

11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11
11

Tabel 2 Inisialisasi Kode Sekolah Jurusan
IPS
Kode Sekolah
06-01-001
06-01-002
06-01-003
06-01-004
06-01-008
06-01-009
06-01-011
06-01-015
06-01-016
06-01-017
06-01-018
06-01-019
06-01-020
06-01-025
06-01-026
06-01-027
06-01-028
06-01-029
06-01-030
06-01-031
06-01-032
06-01-036
06-01-039
06-01-040

Inisial
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

Jurusan
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS
IPS

Inisial
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12

pada urutan tertinggi nilai total rerata
masing-masing mata pelajaran. Sekolah
yang mendapat rerata tinggi namun
mempunyai tingkat siswa tidak lulus akan
di sorting paling atas.
3.6 Pemodelan Rapid Miner
Berikut adalah pengolahan data dengan
menggunakan algoritma K-Means pada
Rapidminer.

Gambar 1 Implementasi Rapid Miner
Dengan menggunakan pemodelan
k-means clustering seperti Gambar 1,
dengan inisialisasi jumlah cluster sebanyak
3 buah, maka didapatkan hasil dengan
cluster yang terbentuk adalah 3, sesuai
dengan pendefinisian bahwa cluster
berjumlah 3 dimana nilai k pada dataset
SMA IPA dapat dilihat pada Tabel 3.
Tabel 3 Hasil Klaster K-Means Dataset IPA
Cluster Model
Cluster_0
Cluster_1
Cluster_2
Total

9 Items
9 Items
11 Items
29 Items

Hasil perhitungan jarak cluster dengan
centroid dan perhitungan menggunakan
RapidMiner pada dataset SMA jurusan IPA.
Tabel 4 Hasil Jarak Cluster Dengan
Centroid Tabel Dataset IPA
Attribute

Cluster_0

Cluster_1

Cluster_2

kode_sek

5

14

24

status

1.4444

1.3333

1.5454

jml_td_lulus 0.4444

1.4444

0.4545

rerata_bin

7.74888

7.6511

7.28363

7.9455

7.84888

7.78454

7.60778

7.35778

7.12090

Selain pada atribut kode sekolah rerata_big
proses transformasi data juga dilakukan

rerata_mat

rerata_fis

8.7066667 8.457778

8.56181

rerata_kim

7.35778

7.176667

7.03909

rerata_bio

7.70111

7.808889

7.36909

total

47.06778

46.3011

45.15909

Selanjutnya adalah pemodelan pada
dataset SMA jurusan IPS dimana nilai k
dapat dilihat pada Tabel 5.
Tabel 5 Hasil Klaster K-Means Dataset IPS

Gambar 2 Plot Centroid Dataset IPA

Cluster Model
7 Items
8 Items
9 Items
24 Items

Cluster_0
Cluster_1
Cluster_2
Total

Hasil perhitungan jarak cluster dengan
centroid dan perhitungan menggunakan
RapidMiner pada dataset SMA jurusan IPS.

Gambar 3 Plot Centroid Dataset IPS

Tabel 6 Hasil Jarak Cluster Dengan
Centroid Tabel Dataset IPS
Attribute

Cluster_0

Cluster_1 Cluster_2

kode_sek

21

5

13.5

status

1.71429

1.22

1.25

0.33

0.5

jml_tdk_lulus 0.2858
rerata_bin

6.628571429 7.285555556 6.98625

rerata_big

7.317142857 7.676666667 7.4525

rerata_mat

6.22

rerata_eko

6.262857143 6.19

rerata_sos

6.327142857 6.578888889 6.46625

rerata_geo

6.964285714 6.748888889 6.7625

total

39.72

Gambar 4 Plot Data View Dataset IPA

6.778888889 6.67375
6.04

41.25888889 40.38125

Dimana akurasi berdasarkan rata-rata
within centroid distance.
Tabel 7 Rata-Rata Centroid Distance
Average Within IPA dan IPS
Cluster_0

Cluster_1

Cluster_2

Rata-Rata

-22.537

-17.765

-16.171

-18.641

-12.676

-15.244

-11.142

-13.128

Gambar 2 Plot Data View Dataset IPS
3.7 Evaluasi (Evaluation)
Evaluasi adalah fase lanjutan terhadap
tujuan data mining. Evaluasi dilakukan
secara mendalam dengan tujuan agar hasil
pada tahap pemodelan sesuai dengan
sasaran yang ingin dicapai.

3.7.1 Evaluasi Hasil (Evaluation Results)
Tahap ini menilai sejauh mana hasil
pemodelan data mining memenuhi tujuan
data mining yang telah ditentukan pada
tahap business understanding.
3.7.2 Pengecekan Ulang Proses (Review
Process)

Tabel 10 Hasil Analisa Pada Cluster 2
Jurusan IPA
Tidak Lulus
Berasal Dari
5
A. Negeri = 2
B. Swasta = 3
Jumlah Sekolah = 11
Rerata Nilai = 45.159

Selanjutnya analisa dilakukan pada
Pada tahapan ini penulis memastikan dataset SMA jurusan ips, dapat dilihat pada
bahwa semua tahapan / faktor penting yang Tabel 11 dan seterusnya.
telah dilakukan dalam pengolahan data
tidak ada yang terlewatkan.
Tabel 11 Hasil Analisa Pada Cluster 0
Jurusan IPA
3.7.3 Menentukan Langkah Selanjutnya
Tidak Lulus
Berasal Dari
(Determine Next Steps)
A. Negeri = 0
2
Pada tahap ini adalah tahapan dalam
B. Swasta = 2
menentukan langkah selanjutnya yang
Jumlah Sekolah = 7
dilakukan. Terdapat 2 pilihan yaitu kembali
Rerata Nilai = 39.72
pada tahap awal (predict understanding)
atau melanjutkan ke tahap akhir
Tabel 12 Hasil Analisa Pada Cluster 1
(deployment).
Jurusan IPA
3.8 Persebaran (Deployment)
Berdasarkan hasil analisa klaster
masing-masing jurusan maka hasil analisis
untuk evaluasi tahap akhir untuk
menentukan strategi kelulusan dapat dilihat
pada Tabel 8 dan seterusnya.
Tabel 8 Hasil Analisa Pada Cluster 0
Jurusan IPA
Tidak Lulus
Berasal Dari
3
A. Negeri = 2
B. Swasta = 1
Jumlah Sekolah = 9
Rerata Nilai = 47.067
Tabel 9 Hasil Analisa Pada Cluster 1
Jurusan IPA
Tidak Lulus
Berasal Dari
13
A. Negeri = 10
B. Swasta = 3
Jumlah Sekolah = 9
Rerata Nilai = 46.301

Tidak Lulus
3

Berasal Dari
A. Negeri = 1
B. Swasta = 2
Jumlah Sekolah = 9
Rerata Nilai = 41.258

Tabel 13 Hasil Analisa Pada Cluster 2
Jurusan IPA
Tidak Lulus
Berasal Dari
A. Negeri =
B. Swasta =
Jumlah Sekolah = 7
Rerata Nilai = 40.381
Berdasarkan hasil analisa maka strategi
yang dapat peneliti sarankan kepada
masing-masing sekolah yang berstatus
negeri maupun swasta pada jurusan IPA dan
IPS pada masing-masing sekolah yang
masuk dalam kategori cluster 1,2 dan 3
dapat dilihat pada Tabel 14 berikut ini.

Tabel 14. Strategi Yang Diajukan Pada
Jurusan IPA
No
1
2

Strategi
Meningkatkan Nilai
Rerata UAN/UAS
Pengawasan Yang Lebih
baik

Negeri Swasta
0 1 2 0 1 2
y

y y y y

y

y y

y

Tabel 15 Strategi Yang Diajukan Pada
Jurusan IPS
No
1
2
3

Strategi
Meningkatkan Nilai
Rerata UAN/UAS
Pengawasan Yang Lebih
baik
Melakukan Jadwal
Ekstrakurikuler Intensif

Negeri Swasta
0 1 2 0 1 2
y

y

y y y y

y

y y

y

y y y y

y

4 Kesimpulan Dan Saran
4.1 Kesimpulan
Algoritma
k-means
merupakan
algoritma yang mampu mengetahui dengan
evaluasi pada data yang random ini terbukti
bahwa hasil yang didapat terhadap strategi
yang akan dilaksanakan oleh sekolah
sangat baik bagi penerapannya untuk
sekolah tersebut.
Daftar Pustaka
[1] Johan Oscar Ong, "IMPLEMENTASI
ALGORITMA
K-MEANS
CLUSTERING
UNTUK
MENENTUKAN
STRATEGI
MARKETING
PRESIDENT
UNIVERSITY," Jurnal Ilmiah
Teknik Industri, vol. 12, no. 1, pp.
10-13, Juni 2013
[2] Giudici & Figini (2009). Applied Data

Mining for Business and Industry,
2nd Edition
[3]

Larose, Daniel T, Discovering
Knowledge
in
Data:
An
Introduction to Data Mining.:
John Willey &Sons. Inc, 2005.
[4] Han,J. and Kamber,M. “Data mining:
Concepts and Techniques”, 2nd
[5] Rima Dias Ramadhani, DATA MINING
MENGGUNAKAN
ALGORITMA
K-MEANS
CLUSTERING
UNTUK
MENENTUKAN
STRATEGI
PROMOSI
UNIVERSITAS
DIAN NUSWANTORO, Jurusan
Sistem Informasi, Fakultas Ilmu
Komputer, Universitas Dian
Nuswantoro

Dokumen yang terkait

ANALISIS KARAKTERISTIK MARSHALL CAMPURAN AC-BC MENGGUNAKAN BUTON GRANULAR ASPHALT (BGA) 15/20 SEBAGAI BAHAN KOMPOSISI CAMPURAN AGREGAT HALUS

14 283 23

PERANCANGAN DAN ANALISIS ALAT UJI GETARAN PAKSA MENGGUNAKAN FFT (FAST FOURIER TRANSFORM)

23 212 19

PENGARUH SUBSTITUSI AGREGAT HALUS DENGAN PASIR LAUT TERHADAP KUAT TEKAN BETON MENGGUNAKAN SEMEN PCC

5 68 1

ERBANDINGAN PREDIKSI LEEWAY SPACE DENGAN MENGGUNAKAN TABEL MOYERS DAN TABEL SITEPU PADA PASIEN USIA 8-10 TAHUN YANG DIRAWAT DI KLINIK ORTODONSIA RUMAH SAKIT GIGI DAN MULUT UNIVERSITAS JEMBER

2 124 18

KADAR TOTAL NITROGEN TERLARUT HASIL HIDROLISIS DAGING UDANG MENGGUNAKAN CRUDE EKSTRAK ENZIM PROTEASE DARI LAMBUNG IKAN TUNA YELLOWFIN (Thunnus albacares)

5 114 11

KAJIAN MUTU FISIK TEPUNG WORTEL (Daucus carota L.) HASIL PENGERINGAN MENGGUNAKAN OVEN

17 218 83

MENINGKATAN HASIL BELAJAR SISWA MELALUI MODEL PEMBELAJARAN TEMATIK DENGAN MENGGUNAKAN MEDIA REALIA DI KELAS III SD NEGERI I MATARAM KECAMATAN GADINGREJO KABUPATEN TANGGAMUS TAHUN PELAJARAN 2011/2012

21 126 83

UPAYA MENINGKATKAN AKTIVITAS DAN HASIL BELAJAR SISWA DENGAN MENGGUNAKAN PENDEKATAN KONTEKSTUAL PADA SISWA KELAS VI SD NEGERI 1 SINAR MULYA KECAMATAN BANYUMAS KAB. PRINGSEWU

43 182 68

PENINGKATAN HASIL BELAJAR TEMA MAKANANKU SEHAT DAN BERGIZI MENGGUNAKAN MODEL PEMBELAJARAN KOOPERATIF TIPE THINK-PAIR-SHARE PADA SISWA KELAS IV SDN 2 LABUHAN RATU BANDAR LAMPUNG

3 72 62

INTERPRETASI STRUKTUR BAWAH PERMUKAAN BERDASARKAN DATA SEISMIK 2D UNTUK PERHITUNGAN MANUAL GROSS ROCK VOLUME RESERVOAR PADA LAPANGA YTS

14 189 75