IMPLEMENTASI ALGORITMA K-MEANS UNTUK KLASTERISASI MAHASISWA BERDASARKAN PREDIKSI WAKTU KELULUSAN.
IMPLEMENTASI ALGORITMA K-MEANS UNTUK
KLASTERISASI MAHASISWA BERDASARKAN PREDIKSI
WAKTU KELULUSAN
SKRIPSI
Disusun Oleh :
ALVI SYAHRIN
NPM. 0934010254
J URUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS PEMBANGUNAN NASIONAL “VETERAN”
J AWA TIMUR
2013
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
IMPLEMENTASI ALGORITMA K-MEANS UNTUK
KLASTERISASI MAHASISWA BERDASARKAN PREDIKSI
WAKTU KELULUSAN
SKRIPSI
Diajukan Untuk Memenuhi Sebagai Per syaratan
Dalam Memperoleh Gelar Sarjana Komputer
J urusan Teknik Infor matika
Disusun Oleh :
ALVI SYAHRIN
NPM. 0934010254
J URUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS PEMBANGUNAN NASIONAL “VETERAN”
J AWA TIMUR
2013
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
IMPLEMENTASI ALGORITMA K-MEANS UNTUK KLASTERISASI MAHASISWA
BERDASARKAN PREDIKSI WAKTU KELULUSAN
DOSEN PEMBIMBING I
DOSEN PEMBIMBING II
PENYUSUN
: BARRY NUQOBA, S.Si, M.Kom
: Dr . Ir NI KETUT SARI, MT
: ALVI SYAHRIN
ABSTRAKSI
Waktu kelulusan merupakan permasalahan umum bagi pihak universitas
dan mahasiswa, karena kedua pihak tersebut sama-sama tidak dapat memprediksi
waktu kelulusan mahasiswa. Dengan adanya masalah ini, perlu untuk
menciptakan sistem yang dapat memprediksi tingkat kelulusan mahasiswa.
Teknik clustering dapat memecahkan masalah ini, yakni dengan menggunakan
algoritma K-Means.
Aplikasi ini mengimplementasi algoritma K-Means ke dalam studi kasus
tersebut. Aplikasi ini terdiri dari empat fungsi, yakni ‘Cluster’, ‘Show Centroid’,
‘Show the Graphic’, dan ‘Evaluate the Cluster’. ‘Cluster’ digunakan untuk
membagi data mahasiswa ke dalam kelas-kelas berdasarkan prediksi waktu
kelulusannya. ‘Show Centroid’ digunakan untuk melihat centroid akhir dari
proses iterasi. ‘Show the Graphic’ digunakan untuk menampilkan posisi tingkat
kelulusan mahasiswa. ‘Evaluate the Cluster’ digunakan untuk menghitung nilai
optimal dari hasil cluster tersebut.
Dengan adanya aplikasi ini, pihak universitas dapat melihat hasil prediksi
tingkat kelulusan mahasiswa. Maka, bila terdapat mahasiswa yang menduduki
peringkat terendah dalam prediksi kelulusan, pihak universitas dapat memberikan
bimbingan intensif atau semester pendek khusus, untuk membantu mahasiswa
tersebut dalam mengejar ketertinggalannya.
Keyword : Algoritma K-Means, Clustering
i
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
KATA PENGANTAR
Assalamu’alaikum Warrahmatullahi Wabarakatuh
Segala puji bagi Allah S.W.T atas segala limpahan karunia dan kasih
sayang-Nya, sehingga dengan segala keterbatasan waktu, tenaga, dan pikiran yang
dimiliki
oleh
penulis,
akhirnya
laporan
tugas
akhir
yang
berjudul
“I MPLEMENTASI ALGORITMA K-MEANS UNTUK KLASTERISASI
MAHASISWA BERDASARKAN PREDIKSI WAKTU KELULUSAN” dapat
diselesaikan sesuai dengan waktu yang telah ditetapkan.
Melalui skripsi ini, penulis merasa mendapat kesempatan besar untuk
memperdalam ilmu pengetahuan yang diperoleh selama di perkuliahan, terutama
dengan implementasi Teknologi Informasi dalam kehidupan sehari-hari. Meski
demikian, penulis menyadari bahwa skripsi ini masih memiliki beberapa
kekurangan. Oleh karena itu, kritik dan saran yang bersifat membangun sangatlah
diharapkan dari berbagai pihak agar tugas akhir ini bisa berkembang lebih baik lagi,
sehingga dapat memberikan manfaat bagi semua pihak yang membutuhkannya.
Dalam penyusunan tugas akhir ini, banyak pihak yang telah memberikan
bantuan baik materiil maupun spiritual ini, sehingga pada kesempatan ini penulis
mengucapkan rasa terima kasih yang sebesar-besarnya kepada:
1. ALLAH S.W.T. Alhamdulillah atas segala kelancaran dan kemudahan yang
selalu Engkau limpahkan kepada penulis. Dan, sungguh, semua ini dapat
terjadi atas kehendak-Nya. Alhamdulillah.
ii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
2. Bapak Barry Nuqoba, S.Si, M.Kom, selaku dosen pembimbing I.
Terimakasih banyak telah bersabar membimbing dan memberi saran yang
sangat bermanfaat kepada penulis.
3. Ibu Dr.Ir Ni Ketut Sari,MT selaku ketua jurusan Teknik Informatika, UPN
“Veteran” Jawa Timur, sekaligus dosen pembimbing II yang senantiasa
menyediakan waktu luang bagi penulis untuk berkonsultasi.
4. Hillman Himawan, Shelly Yudha F., Agus Setyawan, dan Rachmah Eka
Sari untuk bantuannya selama empat tahun terakhir penuh perjuangan ini.
5. Kawan-kawan TF ’09 yang senantiasa memberi dukungan.
6. Keluarga yang tak pernah henti-hentinya berdoa demi kebaikan penulis
dalam menyelesaikan tugas akhir ini.
Serta pihak-pihak lain yang ikut memberikan informasi dan data-data di
dalam menyelesaikan laporan skripsi ini, penulis mengucapkan terima kasih.
Akhir kata penulis harap agar tugas akhir yang disusun sesuai dengan
kemampuan dan pengetahuan yang sangat terbatas ini dapat bermanfaat bagi semua
pihak yang membutuhkan.
Wassalamu’alaikum Warrahmatullahi Wabarakatuh
Surabaya, Mei 2013
Penulis
iii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
DAFTAR ISI
Abstraksi ...................................................................................................... i
KATA PENGANTAR .................................................................................. ii
DAFTAR ISI ................................................................................................ iv
DAFTAR TABEL ........................................................................................ vi
DAFTAR GAMBAR .................................................................................... ix
DAFTAR LAMPIRAN ................................................................................. xiv
BAB I PENDAHULUAN ............................................................................. 1
1.1 Latar Belakang ............................................................................ 1
1.2 Rumusan Masalah........................................................................ 4
1.3 Batasan Masalah .......................................................................... 4
1.4 Tujuan ......................................................................................... 5
1.5 Manfaat ....................................................................................... 5
BAB II TINJAUAN PUSTAKA ................................................................... 6
2.1 Penelitian Terdahulu .................................................................. 6
2.1.1 Sepuluh Algoritma Data Mining Terbaik ......................... 6
2.1.2 Pengelompokkan Mahasiswa Berdasarkan Body Mass
Index ........................................................................................ 8
2.1.3 Pengelompokkan Berdasarkan Prestasi Akademik ........... 10
iv
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
2.2 Landasan Teori .......................................................................... 12
2.2.1 Data Mining..................................................................... 12
2.2.2 Clustering ........................................................................ 15
2.2.3 Algoritma K-Means ......................................................... 17
2.2.4 Silhouette......................................................................... 21
2.2.5 MATLAB ........................................................................ 22
BAB III PERANCANGAN SISTEM ............................................................ 25
3.1 Data Set .................................................................................. 25
3.2 Rancangan Penelitian .............................................................. 28
3.2.1 Diagram UML ............................................................... 30
3.2.1.1 Use Case ........................................................... 32
3.2.1.2 Activity Diagram ............................................... 33
3.2.2 Flowchart ...................................................................... 41
3.3 Rancangan Uji Coba dan Evaluasi ........................................... 46
BAB IV HASIL DAN PEMBAHASAN ....................................................... 49
4.1 Lingkungan Implementasi ......................................................... 49
4.2 Implementasi ............................................................................. 49
4.3 Hasil Uji Coba dan Evaluasi ...................................................... 51
BAB V KESIMPULAN DAN SARAN......................................................... 100
5.1 Kesimpulan ............................................................................... 100
v
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
5.2 Saran ......................................................................................... 101
DAFTAR PUSTAKA ................................................................................... 102
LAMPIRAN ................................................................................................. 104
vi
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
DAFTAR TABEL
Tabel 2.1 Parameter Fungsi K-Means ........................................................... 21
Tabel 2.2 Parameter Fungsi-fungsi MATLAB ............................................... 24
Tabel 3.1 Data Set......................................................................................... 25
Tabel 3.2 Skenario Fungsi Mengklaster Data ................................................ 34
Tabel 3.3 Skenario Fungsi Melihat Pusat Klaster .......................................... 36
Tabel 3.4 Skenario Melihat Grafik ................................................................ 38
Tabel 3.5 Skenario Mengevaluasi Hasil Klaster ............................................ 40
Tabel 3.6 Rancangan Tampilan GUI ............................................................. 47
Tabel 3.7 Rancangan Warna Plotting ............................................................ 48
Tabel 4.1 Jumlah Anggota Cluster Random 2 ............................................... 53
Tabel 4.2 Centroid Random 2 Uji Coba 1...................................................... 54
Tabel 4.3 Centroid Random 2 Uji Coba 2...................................................... 54
Tabel 4.4 Centroid Random 2 Uji Coba 3...................................................... 54
Tabel 4.5 Jumlah Anggota Cluster Random 3 ............................................... 58
Tabel 4.6 Centroid Random 3 Uji Coba 1...................................................... 58
Tabel 4.7 Centroid Random 3 Uji Coba 2...................................................... 59
Tabel 4.8 Centroid Random 3 Uji Coba 3...................................................... 59
Tabel 4.9 Jumlah Anggota Cluster Random 4 ............................................... 63
vii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Tabel 4.10 Centroid Random 4 Uji Coba 1 .................................................... 64
Tabel 4.11 Centroid Random 4 Uji Coba 2 .................................................... 64
Tabel 4.12 Centroid Random 4 Uji Coba 3 .................................................... 64
Tabel 4.13 Jumlah Anggota Cluster Random 5.............................................. 68
Tabel 4.14 Centroid Random 5 Uji Coba 1 .................................................... 69
Tabel 4.15 Centroid Random 5 Uji Coba 2 .................................................... 69
Tabel 4.16 Centroid Random 5 Uji Coba 3 .................................................... 70
Tabel 4.17 Jumlah Anggota Cluster Random 6.............................................. 74
Tabel 4.18 Centroid Random 6 Uji Coba 1 .................................................... 75
Tabel 4.19 Centroid Random 6 Uji Coba 2 .................................................... 75
Tabel 4.20 Centroid Random 6 Uji Coba 3 .................................................... 75
Tabel 4.21 Jumlah Anggota Cluster Random 7.............................................. 80
Tabel 4.22 Centroid Random 7 Uji Coba 1 .................................................... 80
Tabel 4.23 Centroid Random 7 Uji Coba 2 .................................................... 81
Tabel 4.24 Centroid Random 7 Uji Coba 3 .................................................... 81
Tabel 4.25 Nilai Optimal Random................................................................. 85
Tabel 4.26 Centr1oid Default 2 ..................................................................... 86
Tabel 4.27 Centroid Default 3 ....................................................................... 88
Tabel 4.28 Centroid Default 4 ....................................................................... 90
Tabel 4.29 Centroid Default 5 ....................................................................... 92
viii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Tabel 4.30 Centroid Default 6 ....................................................................... 95
Tabel 4.31 Centroid Default 7 ....................................................................... 97
Tabel 4.32 Nilai Optimal Default .................................................................. 99
ix
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
DAFTAR GAMBAR
Gambar 2.1 Flowchart Algoritma K-Means .................................................. 18
Gambar 3.1 Rancangan Pemrosesan .............................................................. 29
Gambar 3.2 Aktor ......................................................................................... 30
Gambar 3.3 Use Case .................................................................................... 31
Gambar 3.4 Use Case Diagram ..................................................................... 32
Gambar 3.5 Activity Diagram Mengklaster Data........................................... 35
Gambar 3.6 Activity Diagram Melihat Pusat Klaster ..................................... 37
Gambar 3.7 Activity Diagram Melihat Grafik Klaster ................................... 39
Gambar 3.8 Activity Diagram Mengevaluasi Hasil Klaster ........................... 41
Gambar 3.9 Flowchart Utama ....................................................................... 42
Gambar 3.10 Flowchart CalcInit ................................................................... 43
Gambar 3.11 Flowchart Next ........................................................................ 44
Gambar 3.12 Rancangan GUI ....................................................................... 48
Gambar 4.1 Implementasi Algoritma K-Means I ........................................... 50
Gambar 4.2 Implementasi Algoritma K-Means II .......................................... 51
Gambar 4.3 Plotting Random 2 Uji Coba 1 ................................................... 54
Gambar 4.4 Plotting Random 2 Uji Coba 2 ................................................... 55
Gambar 4.5 Plotting Random 2 Uji Coba 3 ................................................... 55
x
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Gambar 4.6 Silhouette Random 2 Uji Coba 1 ................................................ 56
Gambar 4.7 Silhouette Random 2 Uji Coba 2 ................................................ 56
Gambar 4.8 Silhouette Random 2 Uji Coba 3 ................................................ 57
Gambar 4.9 Tingkat Optimal Random 2 Uji Coba 1 ...................................... 57
Gambar 4.10 Plotting Random 3 Uji Coba 1 ................................................. 59
Gambar 4.11 Plotting Random 3 Uji Coba 2 ................................................. 60
Gambar 4.12 Plotting Random 3 Uji Coba 3 ................................................. 60
Gambar 4.13 Silhouette Random 3 Uji Coba 1 .............................................. 61
Gambar 4.14 Silhouette Random 3 Uji Coba 2 .............................................. 61
Gambar 4.15 Silhouette Random 3 Uji Coba 3 .............................................. 62
Gambar 4.16 Tingkat Optimal Random 3 Uji Coba 1 .................................... 62
Gambar 4.17 Tingkat Optimal Random 3 Uji Coba 2 .................................... 62
Gambar 4.18 Tingkat Optimal Random 3 Uji Coba 3 .................................... 62
Gambar 4.19 Plotting Random 4 Uji Coba 1 ................................................. 65
Gambar 4.20 Plotting Random 4 Uji Coba 2 ................................................. 65
Gambar 4.21 Plotting Random 4 Uji Coba 3 ................................................. 66
Gambar 4.22 Silhouette Random 4 Uji Coba 1 .............................................. 66
Gambar 4.23 Silhouette Random 4 Uji Coba 2 .............................................. 67
Gambar 4.24 Silhouette Random 4 Uji Coba 3 .............................................. 67
Gambar 4.25 Tingkat Optimal Random 4 Uji Coba 1 .................................... 68
xi
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Gambar 4.26 Tingkat Optimal Random 4 Uji Coba 2 .................................... 68
Gambar 4.27 Tingkat Optimal Random 4 Uji Coba 3 .................................... 68
Gambar 4.28 Plotting Random 5 Uji Coba 1 ................................................. 70
Gambar 4.29 Plotting Random 5 Uji Coba 2 ................................................. 71
Gambar 4.30 Plotting Random 5 Uji Coba 3 ................................................. 71
Gambar 4.31 Silhouette Random 5 Uji Coba 1 .............................................. 72
Gambar 4.32 Silhouette Random 5 Uji Coba 2 .............................................. 72
Gambar 4.33 Silhouette Random 5 Uji Coba 3 .............................................. 73
Gambar 4.34 Tingkat Optimal Random 5 Uji Coba 1 .................................... 73
Gambar 4.35 Tingkat Optimal Random 5 Uji Coba 2 .................................... 73
Gambar 4.36 Tingkat Optimal Random 5 Uji Coba 3 .................................... 73
Gambar 4.37 Plotting Random 6 Uji Coba 1 ................................................. 76
Gambar 4.38 Plotting Random 6 Uji Coba 2 ................................................. 76
Gambar 4.39 Plotting Random 6 Uji Coba 3 ................................................. 77
Gambar 4.40 Silhouette Random 6 Uji Coba 1 .............................................. 77
Gambar 4.41 Silhouette Random 6 Uji Coba 2 .............................................. 78
Gambar 4.42 Silhouette Random 6 Uji Coba 3 .............................................. 78
Gambar 4.43 Tingkat Optimal Random 6 Uji Coba 1 .................................... 79
Gambar 4.44 Tingkat Optimal Random 6 Uji Coba 2 .................................... 79
Gambar 4.45 Tingkat Optimal Random 6 Uji Coba 3 .................................... 79
xii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Gambar 4.46 Plotting Random 7 Uji Coba 1 ................................................. 81
Gambar 4.47 Plotting Random 7 Uji Coba 2 ................................................. 82
Gambar 4.48 Plotting Random 7 Uji Coba 3 ................................................. 82
Gambar 4.49 Silhouette Random 7 Uji Coba 1 .............................................. 83
Gambar 4.50 Silhouette Random 7 Uji Coba 2 .............................................. 83
Gambar 4.51 Silhouette Random 7 Uji Coba 3 .............................................. 84
Gambar 4.52 Tingkat Optimal Random 7 Uji Coba 1 .................................... 84
Gambar 4.53 Tingkat Optimal Random 7 Uji Coba 2 .................................... 84
Gambar 4.54 Tingkat Optimal Random 7 Uji Coba 3 .................................... 84
Gambar 4.55 Plotting Default 2 ..................................................................... 86
Gambar 4.56 Silhouette Default 2 ................................................................. 87
Gambar 4.57 Tingkat Optimal Default 2 ....................................................... 87
Gambar 4.58 Plotting Default 3 ..................................................................... 88
Gambar 4.59 Silhouette Default 3 ................................................................. 89
Gambar 4.60 Tingkat Optimal Default 3 ....................................................... 89
Gambar 4.61 Plotting Default 4 ..................................................................... 91
Gambar 4.62 Silhouette Default 4 ................................................................. 91
Gambar 4.63 Tingkat Optimal Default 4 ....................................................... 92
Gambar 4.64 Plotting Default 5 ..................................................................... 93
Gambar 4.65 Silhouette Default 5 ................................................................. 94
xiii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Gambar 4.66 Tingkat Optimal Default 5 ....................................................... 94
Gambar 4.67 Plotting Default 6 ..................................................................... 95
Gambar 4.68 Silhouette Default 6 ................................................................. 96
Gambar 4.69 Tingkat Optimal Default 6 ....................................................... 96
Gambar 4.70 Plotting Default 7 ..................................................................... 98
Gambar 4.71 Silhouette Default 7 ................................................................. 98
Gambar 4.72 Tingkat Optimal Default 7 ....................................................... 99
xiv
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
DAFTAR LAMPIRAN
Lampiran 1: Tabel Clustering Random 2 ...................................................... 104
Lampiran 2: Tabel Clustering Random 3 ....................................................... 107
Lampiran 3: Tabel Clustering Random 4 ....................................................... 109
Lampiran 4: Tabel Clustering Random 5 ....................................................... 112
Lampiran 5: Tabel Clustering Random 6 ....................................................... 115
Lampiran 6: Tabel Clustering Random 7 ....................................................... 118
Lampiran 7: Tabel Clustering Default 2 ........................................................ 121
Lampiran 8: Tabel Clustering Default 3 ........................................................ 124
Lampiran 9: Tabel Clustering Default 4 ........................................................ 126
Lampiran 10: Tabel Clustering Default 5 ...................................................... 129
Lampiran 11: Tabel Clustering Default 6 ...................................................... 132
Lampiran 12: Tabel Clustering Default 7 ...................................................... 135
xv
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
BAB I
PENDAHULUAN
1.1 Latar Belakang
Lulus tepat waktu adalah keinginan seluruh mahasiswa. Tidak hanya itu,
lulus tepat waktu adalah keuntungan bagi dua pihak. Pertama, pihak mahasiswa,
karena dengan begitu mahasiswa akan mendapatkan pekerjaan dengan lebih
mudah karena perusahaan cenderung mencari fresh graduate. Kedua, pihak
universitas, karena seiring tepatnya waktu kelulusan mahasiswa, hal itu akan
membantu memajukan kualitas universtas tersebut, seperti peningkatan akreditasi.
Sayangnya, waktu kelulusan mahasiswa tidak selalu dapat dideteksi secara
dini, sehingga bisa mengakibatkan keterlambatan kelulusan. Hal ini tentunya
merugikan kedua pihak. Untuk memecahkan masalah tersebut, perlu adanya suatu
sistem atau program yang dapat mengelompokkan golongan mahasiswa
berdasarkan prediksi waktu kelulusan. Dalam tugas akhir ini, pengelempokkan
mahasiswa dilakukan dengan cara clustering, menggunakan algoritma k-Means.
Clustering merupakan teknik yang sudah cukup dikenal dan banyak
dipakai dalam data mining. Sampai sekarang para ilmuwan dalam bidang data
mining masih melakukan berbagai usaha untuk melakukan perbaikan model
klaster karena metode yang dikembangkan masih bersifat heuristik. Dari beberapa
teknik klastering yang paling sederhana dan umum adalah algoritma k-Means,
yang mengelompokkan obyek berdasarkan jarak. (Budi Santoso, 2007)
1
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
2
Peneliti-peneliti terdahulu telah melakukan proses clustering dengan
menggunakan algoritma k-Means untuk memecahkan masalah serupa. Salah satu
contoh
pada
paper
nasional
berjudul,
“Aplikasi
K-Means
Untuk
Pengelompokan Mahasiswa Berdasar kan Nilai Body Mass Index (BMI) &
Ukuran Kerangka”. Peneliti tersebut menjelaskan bahwa, “Masalah kesehatan
merupakan permasalahan yang sangat penting untuk diperhatikan, diantaranya
adalah masalah BMI dan ukuran kerangka seseorang. Apabila seseorang telah
mengetahui nilai BMI-nya, orang tersebut dapat mengontrol berat badan
sehingga dapat mencapai berat badan normal yang sesuai dengan tinggi badan.
Pada penelitian ini, penulis mencoba membangun suatu sistem untuk
mengelompokkan data yang ada berdasarkan status gizi dan ukuran rangkanya
dengan
memasukkan
parameter
kondisi
fisik
dari
orang
tersebut.
Pengelompokkan data dilakukan dengan menggunakan metode clustering KMeans, yaitu dengan mengelompokkan n buah objek ke dalam k kelas
berdasarkan jaraknya dengan pusat kelas...” (Tedy Rismawan dan Sri
Kusumadewi, 2008)
Selain itu, paper bertaraf internasional pun pernah mengimplementasikan
algoritma k-Means. Paper tersebut berjudul “Application of K-Means Clustering
Algorithm for Prediction of Students’ Academic Performance”. Peneliti tersebut
menjelaskan bahwa, “Kemampuan untuk memantau progress akademik siswa
merupakan isu penting untuk komunitas pembelajaran. Didirikan sebuah sistem
yang digunakan untuk menganalisis hasil akademik siswa. Hasil tersebut
berdasarkan dari analisa klaster dan menggunakan standart statistik algoritma
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
3
untuk mengatur nilai mereka sesuai dengan tingkat kinerja. Dalam paper ini,
kami juga mengimplementasi algoritma k-Means untuk menganalisa hasil data.
Data yang diuji adalah data-data siswa pada lembaga swasta di Nigeria yang
mana bagus bila dipantau progres akademiknya.” (O.J, Oyelade dkk, 2010)
Dengan menggunakan algoritma k-Means, paper bertaraf internasional
tersebut menghasilkan data-data siswa yang telah dikelompokkan berdasarkan
GPA (Grade Point Average), mulai dari tiga sampai lima klaster.
Berdasarkan penelitian-penelitian yang telah dirangkum pada kedua paper
di atas, telah dibuktikan bahwa algoritma k-Means dapat menunjukkan
keberhasilannya dalam mengelompokkan data. Paper-paper tersebut akan
dijelaskan secara mendetail pada sub-bab “Peneliti Terdahulu” untuk semakin
menguatkan alasan penggunaan algoritma k-Means dalam tugas akhir ini.
Dalam tugas akhir ini, set obyeknya adalah data mahasiswa. Terdapat tiga
parameter yang digunakan sebagai parameter prediksi kelulusan, antara lain
jumlah SKS yang telah diambil, IPK, dan presentase kehadiran. Sehingga akan
menghasilkan data tiga dimensi. Data mahasiswa akan diproses dalam algoritma
k-Means. Algoritma tersebut akan memrosesnya, sehingga nantinya akan
terbentuk kelas-kelas yang berisi mahasiswa dengan karateristik serupa.
Karateristik serupa tersebut dapat membantu pihak universitas untuk memprediksi
waktu kelulusan golongan mahasiswa. Program akan disusun menggunakan
MATLAB R2010b.
Sejauh ini, pembahasan tentang pengelompokkan mahasiswa berdasarkan
prediksi waktu kelulusan belum pernah dibahas dalam penelitian mana pun—
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
4
dalam sudut pandang informatika. Jadi, menggabungkan teknik clustering dan
studi kasus ini akan sangat bermanfaat nantinya jika diterapkan pada kampuskampus.
1.2 Rumusan Masalah
Berikut adalah rumusan-rumusan masalah untuk menemukan solusi dari
permasalahan di atas:
a.
Mengumpulkan data mahasiswa berdasarkan parameter SKS, IPK, dan
akumulasi presentase kehadiran.
b. Mengklasterisasi mahasiswa dengan menggunakan algoritma k-Means.
c. Mengimplementasi algoritma K-Means dengan program MATLAB.
1.3 Batasan Masalah
Dari permasalahan-permasalahan di atas, maka batasan-batasan dalam
tugas akhir ini adalah:
a. Program dibangun dengan menggunakan MATLAB versi R2010b dan
tidak diintegerasikan dengan program lain, seperti database maupun halhal yang berhubungan dengan penyimpanan data.
b. Parameter dibatasi sebanyak tiga aspek. Jumlah klaster dibatasi dari dua
sampai tujuh.
c. Data mahasiswa yang diuji adalah 100 data mahasiswa Universitas
Pembangunan Nasional “Veteran” Jawa Timur.
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
5
1.4 Tujuan
Mengacu pada perumusan masalah di atas, tujuan yang hendak dicapai
dalam penyusunan tugas akhir ini antara lain:
a. Mengklaster data-data mahasiswa berdasarkan parameter yang ada.
b. Menghasilkan program yang dapat menunjukkan hasil data setelah melalui
proses clustering, beserta grafiknya.
c. Menampilkan plotting data untuk melihat kecendurungan pengelompokkan
data.
1.5 Manfaat
Bila program ini berhasil diimplementasikan, maka manfaat yang dapat
diberikan antara lain:
a. Pihak universitas dapat melihat hasil pengelompokkan mahasiswa,
sehingga dapat mengetahui mahasiswa mana saja yang membutuhkan
bimbingan atau semester pendek khusus.
b. Mahasiswa dapat mengetahui ia berada di kelas mana, sehingga
mengoptimalkan dirinya untuk segera mengejar ketertinggalan.
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
BAB II
TINJ AUAN PUSTAKA
2.1 Penelitian Terdahulu
2.1.1 Sepuluh Algoritma Data Mining Terbaik
Berikut adalah identitas paper:
Judul
: Top 10 Algorithms in Data mining
Penulis : Xindong Wu, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh,
Qiang Yang, Hiroshi Motoda, Geoffrey J. McLachlan, Angus Ng, Bing Liu,
Philip S. Yu, Zhi-Hua Zhou, Micheal Steinbach, David J. Hand, Dan
Steinberg
Tahun
: 2007 (International Paper)
Paper ini menyajikan sepuluh algoritma data mining yang telah
diidentifikasi oleh IEEE (International Conference on Data mining) pada
Desember 2006, antara lain: C4.5, k-Means, SVM, Apriori, EM, PageRank,
AdaBoost, kNN, Naif Bayes, dan CART. Sepuluh algoritma ini merupakan
algoritma yang paling berpengaruh pada penelitian data mining. Setiap penelitian
algoritma, dideskripsikan mengenai algoritma tersebut, membahas manfaatnya,
meninjau penelitian saat ini dan masa depan algoritma tersebut. Sepuluh algoritma
ini mencakup klasifikasi, clustering, pembelajaran statistik, analisis asosiasi, dan
mining link, yang semuanya merupakan topik penting dalam penelitian dan
perkembangan data mining.
6
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
7
Dalam
upaya
untuk
mengidentifikasi
beberapa
algoritma
paling
berpengaruh yang telah banyak digunakan dalam data mining, IEEE
mengidentefikasi sepuluh algoritma terbaik dalam presentasi data mining di
ICDM 2006, Hongkong.
Sebagai langkah pertama, dikumpulkan lebih dari 10 algoritma dalam data
mining dari para peneliti. Setiap nominasi algoritma, harus memberikan informasi
berikut: (a) Nama algoritma; (b) Penjelasan singkat; (c) Perwakilan referensi
publikasi. Setiap algoritma yang dinominasi juga harus sudah dikutip dan
digunakan oleh peneliti lain di lapangan.
Setelah pengumpulan algoritma pada langkah pertama, para penulis paper
mengonfirmasi setiap algoritma dengan mengumpulkan kutipan/predikatnya di
Google Scholar pada akhir Oktober 2006. Algoritma yang tidak mencapai 50
kutipan/predikat. Algoritma yang tersisa kemudian diorganisir dalam 10 topik:
analisis asosiasi, klasifikasi, clustering, pembelajaran statistik, bagging, boosting,
pola sekuensial, mining terpadu, set kasar, linkmining, dan mining grafik. Delapan
belas algoritma ini dapat dilihat dalam:
htt p:/ / w w w .cs.uvm.edu/ ~icdm/ algorit hms/ CandidateList .sht ml .
Langkah ketiga adalah proses identifikasi. Penulis paper melakukan
keterlibatan yang lebih luas dari komunitas penelitian. Penulis mengundang
anggota Komite Program KDD-06 (International Conference on Knowledge
Discovery and Data mining), ICDM '06 (International Conference on Data
mining), dan SDM (SIAM Internation Conference on Data mining), serta
ACMKDD dan Kontribusi Penelitian IEEE-ICDM. Mereka kemudian melakukan
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
8
voting terhadap 18 kandidat algoritma. Hasil pemungutan suara dipresentasikan
pada ICDM '06 pada Top 10 Algorithms in Data mining.
Saat melakukan pencarian kutipan pada akhir Oktober 2006, ditemukan
bahwa algoritma k-Means telah dikutip sebanyak 1579 kali. Itu artinya algoritma
k-Means sudah banyak digunakan oleh banyak peneliti. Selain itu, algoritma kMeans adalah satu-satunya algoritma clustering yang masuk ke dalam sepuluh
algoritma terbaik.
2.1.2 Pengelompokkan Mahasiswa Berdasar kan Body Mass Index
Berikut adalah identitas paper:
Judul
:
Aplikasi
K-Means
untuk
Pengelompokkan
Mahasiswa
Berdasarkan Nilai Body Mass Index (BMI) dan Ukuran Kerangka
Penulis : Tedy Rismawan dan Sri Kusumadewi
Tahun
: 2008
Penulisan paper ini dilatarbelakangi oleh ketidaktahuan para mahasiswa
mengenai BMI dan ukuran rangka mereka. Mereka tidak tahu apakah mereka
berada pada posisi BMI normal atau tidak. Meskipun sepele, BMI yang tidak
normal sangat mempengaruhi kesehatan seseorang. Itulah mengapa hal ini perlu
dilakukan.
Setelah penulis paper mengumpulkan data mahasiswa yang meliputi tinggi
badan, berat badan, dan lingkar lengan bawah, penulis paper memroses data-data
tersebut menggunakan algoritma k-Means. Dari 20 data yang terkumpul, penulis
paper menyelesaikan solusi clustering dengan menunjukkan satu per satu langkah
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
9
dalam algoritma k-Means. Hal tersebut membuat peneliti menyimpulkan bahwa
algoritma k-Means adalah salah satu algoritma yang efektif. Meskipun melakukan
pengulangan proses, tetapi algoritma k-Means selalu mengusahakan hasil cluster
yang berkualitas.
Hasil penelitian pada paper ini menyimpulkan bahwa algoritma clustering
k-Means dapat digunakan untuk mengelompokkan mahasiswa berdasarkan status
gizi dan ukuran rangka.
Langkah pertama yang dilakukan penulis paper adalah mengumpulkan data
mahasiswa yang meliputi tinggi badan, berat badan, dan lingkar lengan bawah.
Ketiga aspek tersebut kemudian disederhanakan menjadi dua parameter.
Parameter pertama adalah BMI (Body Mass Index) yang didapat dari pembagian
berat badan dan hasil kuadrat tinggi badan. Parameter kedua adalah ukuran rangka
yang didapat dari pembagian tinggi badan dan lingkar lengan bawah. Kedua
parameter tersebut kemudian digabungkan ke dalam satu tabel.
Kumpulan data tersebut kemudian diproses menggunakan algoritma kMeans. Penulis paper menjelaskan perhitungan tersebut satu per satu. Mulai dari
penentuan jumlah cluster yakni tiga, lalu pemilihan centroid secara random,
perhitungan jarak Euclidean, sampai menunjukkan iterasi dari posisi cluster.
Perhitungan menghasilkan sembilan iterasi. Cluster pertama memiliki 12 anggota.
Cluster kedua memiliki 7 anggota. Cluster ketiga memiliki satu anggota.
Penelitian pada paper ini menyimpulkan bahwa algoritma k-Means dapat
digunakan untuk mengelompokkan mahasiswa berdasarkan status gizi dan ukuran
kerangka. Itu berarti memungkinkan bagi tugas akhir ini untuk mengelompokkan
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
10
mahasiswa berdasarkan total SKS yang telah diambil, IPK, dan akumulasi
presentase kehadiran.
2.1.3 Pengelompokkan Siswa Berdasar kan Prestasi Akademik
Berikut adalah identitas jurnal:
Judul
: Application of K-Means Clustering Algorithm for Prediction of
Students’ Academic Performance
Penulis : Oyelade, Oladipupo, dan Obagbuwa
Tahun
: 2010 (International Journal)
Kemampuan untuk memantau progress akademik siswa merupakan isu
penting untuk komunitas pembelajaran. Didirikan sebuah sistem yang digunakan
untuk menganalisis hasil akademik siswa. Hasil tersebut diambil berdasarkan pada
analisa cluster dan menggunakan standart statistik algoritma untuk mengatur nilai
mereka sesuai dengan tingkat kinerja. Dalam paper ini, penulis juga
mengimplementasi algoritma k-Means untuk menganalisa hasil data. Data yang
diuji adalah data-data siswa pada lembaga swasta di Nigeria yang mana bagus bila
dipantau progres akademiknya untuk tujuan membuat keputusan yang efektif oleh
akademik perencana.
Paper ini mengelompokkan para siswa berdasarkan prediksi prestasi
akademik. Aspek yang digunakan oleh penulis paper adalah GPA (Grade Point
Average). GPA (atau di Indonesia disebut IPK) adalah salah satu indikator umum
yang digunakan oleh kinerja akademik. Banyak universitas di Nigeria yang
mengatur nilai minimum IPK yang harus dipertahankan untuk melanjutkan
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
11
program sarjana. Dalam beberapa universitas, persyaratan minimal IPK yang
ditetapkan bai siswa adalah 1,5. Meskipun demikian, untuk setiap program
pascasarjana, IPK 3,0 ke atas dianggap indikator kinerja akademik yang baik.
Oleh karena itu, IPK masih tetap merupakan faktor yang paling umum digunakan
oleh akademik perencana untuk mengevaluasi kemajuan dalam lingkungan
akademik.
Dengan bantuan data mining, seperti clustering, memungkinkan untuk
menemukan karateristik dari akademik kinerja siswa dan menggunakan
karateristik tersebut sebagai prediksi masa depan. Ada beberapa hasil menjanjikan
dari menggunakan algoritma k-Means dengan pengukuran jarak Euclidean, di
mana jarak ditentukan dengan menentukan kuadrat dari kedua jarak, lalu
menjumlahkan hasil kuadrat tersebut dan menemukan hasil akar dari penjumlahan
kuadrat.
Paper ini menguji data-data siswa dengan menggunakan jumlah cluster
sebanyak tiga, empat, dan lima. Sehingga menghasilkan cluster yang lebih
beragam. Sayangnya, penulis paper tidak menampilkan data siswa beserta cluster
index-nya, sehingga tidak terlihat hasil data sebenarnya.
Penulis paper menyimpulkan bahwa, algoritma clustering ini berfungsi baik
sebagai patokan untuk memantau perkembangan siswa kinerja perguruan tinggi.
Hal ini juga meningkatkan keputusan keputusan oleh perencana akademik untuk
memantau calon kinerja semester dengan semester dengan meningkatkan masa
depan hasil akademik dalam sesi akademik.
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
12
Paper ini memiliki topik yang serupa dengan tugas akhir. Hanya berbeda
pada penggunaan parameter. Parameter yang digunakan dalam paper ini hanyalah
IPK, sedangkan tugas akhir ini menggunakan tiga parameter, antara lain SKS,
IPK, dan presentase kehadiran. Dengan penambahan parameter, hasil cluster akan
semakin optimal.
2.2 Landasan Teori
2.2.1 Data Mining
Data mining adalah serangkaian proses untuk menggali nilai tambah
berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis
data. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan
mengenali pola yang penting atau menarik dari data yang terdapat dalam basis
data. Data mining terutama digunakan untuk mencari pengetahuan yang terdapat
dalam basis data yang besar sehingga sering disebut Knowledge Discovery in
Database (KDD). Proses pencarian pengetahuan ini menggunakan berbagai teknik
pembelajaran
komputer
(machine
learning)
untuk
menganalisis
dan
mengekstraksikannya. Proses pencarian bersifat iteratif dan interaktif untuk
menemukan pola atau model yang benar, baru, bermanfaat, dan dimengerti.
(Syamsuddin, Aries)
Kehadiran data mining dilatarbelakangi oleh beberapa hal antara lain:
a. Terjadinya overload data yang dialami oleh berbagai perusahaan. Datadata tersebut merupakan data transaksi yang umumnya diproses
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
13
menggunakan aplikasi komputer yang biasa disebut dengan On Line
Transaction Processing (OLTP).
b. Adanya ledakan informasi (explosion information) dari berbagai media,
terutama internet. Sebagian besar informasi yang disajikan oleh media
internet memiliki bentuk yang tak berstruktur. Media internet menyajikan
informasi dalam berbagai format file, bahasa, dan bentuk penyajian seperti
teks, gambar, suara atau pun video. Pertumbuhan yang pesat dari
akumulasi data atau informasi itu telah menciptakan kondisi dimana suatu
intuisi memiliki bergunung-gunung data, tetapi miskin informasi yang
bermanfaat (rich of data but poor of information).
Pemanfaatan data mining diperlukan untuk menangani tumpukan data
yang besar, namun sering kali tumpukan data yang besar ini dibiarkan saja, tanpa
dilakukan upaya untuk menggali informasi lebih jauh. Seakan-akan tumpukan
data dalam jumlah yang besar tersebut tidak memiliki manfaat sama sekali.
Pemanfaatan data itu dapat dilihat dalam dua sudut pandang, yaitu sudut pandang
komersial dan sudut pandang keilmuan. Dari sudut pandang komersial,
pemanfaatan data mining dapat digunakan untuk menangani meledaknya volume
data.
Terkait
dengan
memanfaaatkannya.
cara
Berbagai
menyimpannya,
teknik
komputasi
mengestraknya
dapat
digunakan
serta
untuk
menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan menjadi
asset untuk meningkatkan daya saing suatu intuisi. Data mining tidak hanya
digunakan untuk menangani persoalan menumpuknya data atau informasi dan
bagaimana menggudangkannya tanpa kehilangan informasi yang penting. Data
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
14
mining juga diperlukan untuk menyelesaikan permasalahan atau menjawab
kebutuhan bisnis itu sendiri, antara lain:
a. Bagaimana mengetahui hilangnya pelanggan karena pesaing
b. Bagaimana mengetahui item produk atau konsumen yang memiliki
kesamaan karakteristik
c. Bagaimana mengidentifikasi produk-produk yang terjual bersamaan
dengan produk lain
d. Bagaimana memprediksi tingkat penjualan
e. Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi
suatu item
f. Bagaimana memprediksi perilaku bisnis di masa yang akan datang.
Dari keenam permasalah di atas, dapat disimpulkan pula bahwa data
mining dapat menyelesaikan permasalahan dalam tugas akhir ini, yakni:
bagaimana memprediksi waktu kelulusan mahasiswa? Namun, fungsi apa yang
umum diterapkan oleh data mining dalam menyelesaikan permasalahan ini?
Berikut adalah fungsi-fungsi yang umum diterapkan dalam data mining:
a. Association, adalah proses untuk menemukan aturan assosiatif antara
suatu kombinasi item dalam suatu waktu.
b. Sequence, hampir sama dengan association bedanya sequence
diterapkan lebih dari satu periode.
c. Classification, adalah proses penemuan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data dengan tujuan
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
15
untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak
diketahui.
d. Regretion, adalah proses pemetaan data dalam suatu nilai prediksi.
e. Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan
pola-pola di dalam sekumpulan data.
f. Solution, adalah proses penemuan akar masalah dan problem solving
dari persoalan bisnis yang dihadapi atau paling tidak sebagai informasi
pendukung dalam pengambilan keputusan.
g. Clustering, adalah proses pengelompokan sejumlah data atau obyek ke
dalam kelompok-kelompok data (cluster) sehingga setiap cluster akan
berisi data yang saling mirip. Ini adalah fungsi yang akan digunakan dalam
tugas akhir ini. Clustering akan dibahas lebih lanjut dalam sub-bab
selanjutnya.
2.2.2 Clustering
Teknik cluster termasuk teknik yang sudah cukup dikenal dan banyak
dipakai dalam data mining. Sampai sekarang para ilmuwan dalam bidang data
mining masih melakukan berbagai usaha untuk melakukan perbaikan model
cluster karena metode yang dikembangkan sekarang masih bersifat heuristik.
Usaha-usaha untuk menghitung jumlah cluster yang optimal dan pengclusteran
yang paling baik masih terus dilakukan. Dengan demikian menggunakan metode
yang sekarang, kita tidak bisa menjamin hasil pengclusteran kita sudah
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
16
merupakan hasil yang optimal. Namun, hasil yang dicapai biasanya sudah cukup
bagus dari segi praktis.
Tujuan utama dari metode cluster adalah pengelompokkan sejumlah
data/obyek ke dalam cluster (group) sehingga dalam setiap cluster akan berisi data
yang semirip mungkin. Dalam clustering kita berusaha untuk menempatkan obyek
yang mirip (jaraknya dekat) dalam satu cluster dan membuat jarak antar cluster
sejauh mungkin. Ini berarti obyek dalam satu cluster sangat mirip satu sama lain
dan berbeda dengan obyek dalam cluster-cluster yang lain. Dalam teknik ini kita
tidak tahu sebelumnya berapa jumlah cluster dan bagaimana pengelompokannya.
Clustering adalah salah satu teknik unsupervised learning dimana kita tidak perlu
melatih metode tersebut atau dengan kata lain, tidak ada fase learning. Masuk
dalam pendekatan unsupervised learning adalah metode-metode yang tidak
membutuhkan label atau pun keluaran dari setiap data yang diinvestigasi.
Sebaliknya, supervised learning adalah metode yang memerlukan training
(melatih) dan testing (menguji). Masuk ke dalam kategori ini adalah regresi,
neural network (ANN), analisis diskriminan (LDA), dan support vector machine
(SVM)
Ada dua pendekatan dalam clustering: partisioning dan hirarki. Dalam
partisioning kita mengelompokkan obyek x1, x2, x3, …, xn ke dalam k cluster. Ini
bisa dilakukan dengan menentukan pusat cluster awal, lalu dilakukan realokasi
obyek berdasarkan kriteria tertentu sampai dicapai pengelompokkan yang
optimum. Dalam cluster hirarki, kita mulai dengan membuat m cluster dimana
setiap cluster beranggotakan satu obyek dan berakhir dengan satu cluster dimana
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
17
anggotanya adalah m obyek. Pada setiap tahap dalam prosedurnya, satu cluster
digabung dengan satu cluster yang lain. Kita bisa memilih berapa jumlah cluster
yang diinginkan dengan menentukan cut-off pada tingkat tertentu.
Dalam cluster, untuk menggabungkan dua atau lebih obyek menjadi satu
cluster, biasanya digunakan ukuran kemiripan atau ketidakmiripan. Semakin
mirip dua obyek, semakin tinggi peluang untuk dikelompokkan dalam satu
cluster. Sebaliknya semakin tidak mirip semakin rendah peluang untuk
dikelompokkan dalam satu cluster.
Salah satu algoritma yang sering digunakan dan terbukti berhasil dalam
proses clustering adalah algoritma k-Means. Pembahasan mengenai Algoritma kMeans dijelaskan pada sub-bab berikut.
2.2.3 Algoritma k-Means
Dari beberapa teknik clustering yang paling sederhana dan umum dikenal
adalah clustering k-Means. Algoritma k-Means merupakan metode clustering
berbasis jarak yang membagi data ke dalam sejumlah cluster. Algoritma k-Means
sering disebut sebagai clustering yang berulang-ulang, karena pada prosesnya
selalu terdapat pergantian pusat cluster baru di setiap iterasinya.
Algoritma k-Means dimulai dengan menentukan k—k merupakan
banyaknya cluster yang ingin dibentuk. Kemudian, tetapkan nilai pusat cluster
dari masing-masing. Hitung jarak setiap data berdasarkan cluternya, barulah
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh
KLASTERISASI MAHASISWA BERDASARKAN PREDIKSI
WAKTU KELULUSAN
SKRIPSI
Disusun Oleh :
ALVI SYAHRIN
NPM. 0934010254
J URUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS PEMBANGUNAN NASIONAL “VETERAN”
J AWA TIMUR
2013
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
IMPLEMENTASI ALGORITMA K-MEANS UNTUK
KLASTERISASI MAHASISWA BERDASARKAN PREDIKSI
WAKTU KELULUSAN
SKRIPSI
Diajukan Untuk Memenuhi Sebagai Per syaratan
Dalam Memperoleh Gelar Sarjana Komputer
J urusan Teknik Infor matika
Disusun Oleh :
ALVI SYAHRIN
NPM. 0934010254
J URUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS PEMBANGUNAN NASIONAL “VETERAN”
J AWA TIMUR
2013
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
IMPLEMENTASI ALGORITMA K-MEANS UNTUK KLASTERISASI MAHASISWA
BERDASARKAN PREDIKSI WAKTU KELULUSAN
DOSEN PEMBIMBING I
DOSEN PEMBIMBING II
PENYUSUN
: BARRY NUQOBA, S.Si, M.Kom
: Dr . Ir NI KETUT SARI, MT
: ALVI SYAHRIN
ABSTRAKSI
Waktu kelulusan merupakan permasalahan umum bagi pihak universitas
dan mahasiswa, karena kedua pihak tersebut sama-sama tidak dapat memprediksi
waktu kelulusan mahasiswa. Dengan adanya masalah ini, perlu untuk
menciptakan sistem yang dapat memprediksi tingkat kelulusan mahasiswa.
Teknik clustering dapat memecahkan masalah ini, yakni dengan menggunakan
algoritma K-Means.
Aplikasi ini mengimplementasi algoritma K-Means ke dalam studi kasus
tersebut. Aplikasi ini terdiri dari empat fungsi, yakni ‘Cluster’, ‘Show Centroid’,
‘Show the Graphic’, dan ‘Evaluate the Cluster’. ‘Cluster’ digunakan untuk
membagi data mahasiswa ke dalam kelas-kelas berdasarkan prediksi waktu
kelulusannya. ‘Show Centroid’ digunakan untuk melihat centroid akhir dari
proses iterasi. ‘Show the Graphic’ digunakan untuk menampilkan posisi tingkat
kelulusan mahasiswa. ‘Evaluate the Cluster’ digunakan untuk menghitung nilai
optimal dari hasil cluster tersebut.
Dengan adanya aplikasi ini, pihak universitas dapat melihat hasil prediksi
tingkat kelulusan mahasiswa. Maka, bila terdapat mahasiswa yang menduduki
peringkat terendah dalam prediksi kelulusan, pihak universitas dapat memberikan
bimbingan intensif atau semester pendek khusus, untuk membantu mahasiswa
tersebut dalam mengejar ketertinggalannya.
Keyword : Algoritma K-Means, Clustering
i
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
KATA PENGANTAR
Assalamu’alaikum Warrahmatullahi Wabarakatuh
Segala puji bagi Allah S.W.T atas segala limpahan karunia dan kasih
sayang-Nya, sehingga dengan segala keterbatasan waktu, tenaga, dan pikiran yang
dimiliki
oleh
penulis,
akhirnya
laporan
tugas
akhir
yang
berjudul
“I MPLEMENTASI ALGORITMA K-MEANS UNTUK KLASTERISASI
MAHASISWA BERDASARKAN PREDIKSI WAKTU KELULUSAN” dapat
diselesaikan sesuai dengan waktu yang telah ditetapkan.
Melalui skripsi ini, penulis merasa mendapat kesempatan besar untuk
memperdalam ilmu pengetahuan yang diperoleh selama di perkuliahan, terutama
dengan implementasi Teknologi Informasi dalam kehidupan sehari-hari. Meski
demikian, penulis menyadari bahwa skripsi ini masih memiliki beberapa
kekurangan. Oleh karena itu, kritik dan saran yang bersifat membangun sangatlah
diharapkan dari berbagai pihak agar tugas akhir ini bisa berkembang lebih baik lagi,
sehingga dapat memberikan manfaat bagi semua pihak yang membutuhkannya.
Dalam penyusunan tugas akhir ini, banyak pihak yang telah memberikan
bantuan baik materiil maupun spiritual ini, sehingga pada kesempatan ini penulis
mengucapkan rasa terima kasih yang sebesar-besarnya kepada:
1. ALLAH S.W.T. Alhamdulillah atas segala kelancaran dan kemudahan yang
selalu Engkau limpahkan kepada penulis. Dan, sungguh, semua ini dapat
terjadi atas kehendak-Nya. Alhamdulillah.
ii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
2. Bapak Barry Nuqoba, S.Si, M.Kom, selaku dosen pembimbing I.
Terimakasih banyak telah bersabar membimbing dan memberi saran yang
sangat bermanfaat kepada penulis.
3. Ibu Dr.Ir Ni Ketut Sari,MT selaku ketua jurusan Teknik Informatika, UPN
“Veteran” Jawa Timur, sekaligus dosen pembimbing II yang senantiasa
menyediakan waktu luang bagi penulis untuk berkonsultasi.
4. Hillman Himawan, Shelly Yudha F., Agus Setyawan, dan Rachmah Eka
Sari untuk bantuannya selama empat tahun terakhir penuh perjuangan ini.
5. Kawan-kawan TF ’09 yang senantiasa memberi dukungan.
6. Keluarga yang tak pernah henti-hentinya berdoa demi kebaikan penulis
dalam menyelesaikan tugas akhir ini.
Serta pihak-pihak lain yang ikut memberikan informasi dan data-data di
dalam menyelesaikan laporan skripsi ini, penulis mengucapkan terima kasih.
Akhir kata penulis harap agar tugas akhir yang disusun sesuai dengan
kemampuan dan pengetahuan yang sangat terbatas ini dapat bermanfaat bagi semua
pihak yang membutuhkan.
Wassalamu’alaikum Warrahmatullahi Wabarakatuh
Surabaya, Mei 2013
Penulis
iii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
DAFTAR ISI
Abstraksi ...................................................................................................... i
KATA PENGANTAR .................................................................................. ii
DAFTAR ISI ................................................................................................ iv
DAFTAR TABEL ........................................................................................ vi
DAFTAR GAMBAR .................................................................................... ix
DAFTAR LAMPIRAN ................................................................................. xiv
BAB I PENDAHULUAN ............................................................................. 1
1.1 Latar Belakang ............................................................................ 1
1.2 Rumusan Masalah........................................................................ 4
1.3 Batasan Masalah .......................................................................... 4
1.4 Tujuan ......................................................................................... 5
1.5 Manfaat ....................................................................................... 5
BAB II TINJAUAN PUSTAKA ................................................................... 6
2.1 Penelitian Terdahulu .................................................................. 6
2.1.1 Sepuluh Algoritma Data Mining Terbaik ......................... 6
2.1.2 Pengelompokkan Mahasiswa Berdasarkan Body Mass
Index ........................................................................................ 8
2.1.3 Pengelompokkan Berdasarkan Prestasi Akademik ........... 10
iv
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
2.2 Landasan Teori .......................................................................... 12
2.2.1 Data Mining..................................................................... 12
2.2.2 Clustering ........................................................................ 15
2.2.3 Algoritma K-Means ......................................................... 17
2.2.4 Silhouette......................................................................... 21
2.2.5 MATLAB ........................................................................ 22
BAB III PERANCANGAN SISTEM ............................................................ 25
3.1 Data Set .................................................................................. 25
3.2 Rancangan Penelitian .............................................................. 28
3.2.1 Diagram UML ............................................................... 30
3.2.1.1 Use Case ........................................................... 32
3.2.1.2 Activity Diagram ............................................... 33
3.2.2 Flowchart ...................................................................... 41
3.3 Rancangan Uji Coba dan Evaluasi ........................................... 46
BAB IV HASIL DAN PEMBAHASAN ....................................................... 49
4.1 Lingkungan Implementasi ......................................................... 49
4.2 Implementasi ............................................................................. 49
4.3 Hasil Uji Coba dan Evaluasi ...................................................... 51
BAB V KESIMPULAN DAN SARAN......................................................... 100
5.1 Kesimpulan ............................................................................... 100
v
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
5.2 Saran ......................................................................................... 101
DAFTAR PUSTAKA ................................................................................... 102
LAMPIRAN ................................................................................................. 104
vi
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
DAFTAR TABEL
Tabel 2.1 Parameter Fungsi K-Means ........................................................... 21
Tabel 2.2 Parameter Fungsi-fungsi MATLAB ............................................... 24
Tabel 3.1 Data Set......................................................................................... 25
Tabel 3.2 Skenario Fungsi Mengklaster Data ................................................ 34
Tabel 3.3 Skenario Fungsi Melihat Pusat Klaster .......................................... 36
Tabel 3.4 Skenario Melihat Grafik ................................................................ 38
Tabel 3.5 Skenario Mengevaluasi Hasil Klaster ............................................ 40
Tabel 3.6 Rancangan Tampilan GUI ............................................................. 47
Tabel 3.7 Rancangan Warna Plotting ............................................................ 48
Tabel 4.1 Jumlah Anggota Cluster Random 2 ............................................... 53
Tabel 4.2 Centroid Random 2 Uji Coba 1...................................................... 54
Tabel 4.3 Centroid Random 2 Uji Coba 2...................................................... 54
Tabel 4.4 Centroid Random 2 Uji Coba 3...................................................... 54
Tabel 4.5 Jumlah Anggota Cluster Random 3 ............................................... 58
Tabel 4.6 Centroid Random 3 Uji Coba 1...................................................... 58
Tabel 4.7 Centroid Random 3 Uji Coba 2...................................................... 59
Tabel 4.8 Centroid Random 3 Uji Coba 3...................................................... 59
Tabel 4.9 Jumlah Anggota Cluster Random 4 ............................................... 63
vii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Tabel 4.10 Centroid Random 4 Uji Coba 1 .................................................... 64
Tabel 4.11 Centroid Random 4 Uji Coba 2 .................................................... 64
Tabel 4.12 Centroid Random 4 Uji Coba 3 .................................................... 64
Tabel 4.13 Jumlah Anggota Cluster Random 5.............................................. 68
Tabel 4.14 Centroid Random 5 Uji Coba 1 .................................................... 69
Tabel 4.15 Centroid Random 5 Uji Coba 2 .................................................... 69
Tabel 4.16 Centroid Random 5 Uji Coba 3 .................................................... 70
Tabel 4.17 Jumlah Anggota Cluster Random 6.............................................. 74
Tabel 4.18 Centroid Random 6 Uji Coba 1 .................................................... 75
Tabel 4.19 Centroid Random 6 Uji Coba 2 .................................................... 75
Tabel 4.20 Centroid Random 6 Uji Coba 3 .................................................... 75
Tabel 4.21 Jumlah Anggota Cluster Random 7.............................................. 80
Tabel 4.22 Centroid Random 7 Uji Coba 1 .................................................... 80
Tabel 4.23 Centroid Random 7 Uji Coba 2 .................................................... 81
Tabel 4.24 Centroid Random 7 Uji Coba 3 .................................................... 81
Tabel 4.25 Nilai Optimal Random................................................................. 85
Tabel 4.26 Centr1oid Default 2 ..................................................................... 86
Tabel 4.27 Centroid Default 3 ....................................................................... 88
Tabel 4.28 Centroid Default 4 ....................................................................... 90
Tabel 4.29 Centroid Default 5 ....................................................................... 92
viii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Tabel 4.30 Centroid Default 6 ....................................................................... 95
Tabel 4.31 Centroid Default 7 ....................................................................... 97
Tabel 4.32 Nilai Optimal Default .................................................................. 99
ix
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
DAFTAR GAMBAR
Gambar 2.1 Flowchart Algoritma K-Means .................................................. 18
Gambar 3.1 Rancangan Pemrosesan .............................................................. 29
Gambar 3.2 Aktor ......................................................................................... 30
Gambar 3.3 Use Case .................................................................................... 31
Gambar 3.4 Use Case Diagram ..................................................................... 32
Gambar 3.5 Activity Diagram Mengklaster Data........................................... 35
Gambar 3.6 Activity Diagram Melihat Pusat Klaster ..................................... 37
Gambar 3.7 Activity Diagram Melihat Grafik Klaster ................................... 39
Gambar 3.8 Activity Diagram Mengevaluasi Hasil Klaster ........................... 41
Gambar 3.9 Flowchart Utama ....................................................................... 42
Gambar 3.10 Flowchart CalcInit ................................................................... 43
Gambar 3.11 Flowchart Next ........................................................................ 44
Gambar 3.12 Rancangan GUI ....................................................................... 48
Gambar 4.1 Implementasi Algoritma K-Means I ........................................... 50
Gambar 4.2 Implementasi Algoritma K-Means II .......................................... 51
Gambar 4.3 Plotting Random 2 Uji Coba 1 ................................................... 54
Gambar 4.4 Plotting Random 2 Uji Coba 2 ................................................... 55
Gambar 4.5 Plotting Random 2 Uji Coba 3 ................................................... 55
x
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Gambar 4.6 Silhouette Random 2 Uji Coba 1 ................................................ 56
Gambar 4.7 Silhouette Random 2 Uji Coba 2 ................................................ 56
Gambar 4.8 Silhouette Random 2 Uji Coba 3 ................................................ 57
Gambar 4.9 Tingkat Optimal Random 2 Uji Coba 1 ...................................... 57
Gambar 4.10 Plotting Random 3 Uji Coba 1 ................................................. 59
Gambar 4.11 Plotting Random 3 Uji Coba 2 ................................................. 60
Gambar 4.12 Plotting Random 3 Uji Coba 3 ................................................. 60
Gambar 4.13 Silhouette Random 3 Uji Coba 1 .............................................. 61
Gambar 4.14 Silhouette Random 3 Uji Coba 2 .............................................. 61
Gambar 4.15 Silhouette Random 3 Uji Coba 3 .............................................. 62
Gambar 4.16 Tingkat Optimal Random 3 Uji Coba 1 .................................... 62
Gambar 4.17 Tingkat Optimal Random 3 Uji Coba 2 .................................... 62
Gambar 4.18 Tingkat Optimal Random 3 Uji Coba 3 .................................... 62
Gambar 4.19 Plotting Random 4 Uji Coba 1 ................................................. 65
Gambar 4.20 Plotting Random 4 Uji Coba 2 ................................................. 65
Gambar 4.21 Plotting Random 4 Uji Coba 3 ................................................. 66
Gambar 4.22 Silhouette Random 4 Uji Coba 1 .............................................. 66
Gambar 4.23 Silhouette Random 4 Uji Coba 2 .............................................. 67
Gambar 4.24 Silhouette Random 4 Uji Coba 3 .............................................. 67
Gambar 4.25 Tingkat Optimal Random 4 Uji Coba 1 .................................... 68
xi
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Gambar 4.26 Tingkat Optimal Random 4 Uji Coba 2 .................................... 68
Gambar 4.27 Tingkat Optimal Random 4 Uji Coba 3 .................................... 68
Gambar 4.28 Plotting Random 5 Uji Coba 1 ................................................. 70
Gambar 4.29 Plotting Random 5 Uji Coba 2 ................................................. 71
Gambar 4.30 Plotting Random 5 Uji Coba 3 ................................................. 71
Gambar 4.31 Silhouette Random 5 Uji Coba 1 .............................................. 72
Gambar 4.32 Silhouette Random 5 Uji Coba 2 .............................................. 72
Gambar 4.33 Silhouette Random 5 Uji Coba 3 .............................................. 73
Gambar 4.34 Tingkat Optimal Random 5 Uji Coba 1 .................................... 73
Gambar 4.35 Tingkat Optimal Random 5 Uji Coba 2 .................................... 73
Gambar 4.36 Tingkat Optimal Random 5 Uji Coba 3 .................................... 73
Gambar 4.37 Plotting Random 6 Uji Coba 1 ................................................. 76
Gambar 4.38 Plotting Random 6 Uji Coba 2 ................................................. 76
Gambar 4.39 Plotting Random 6 Uji Coba 3 ................................................. 77
Gambar 4.40 Silhouette Random 6 Uji Coba 1 .............................................. 77
Gambar 4.41 Silhouette Random 6 Uji Coba 2 .............................................. 78
Gambar 4.42 Silhouette Random 6 Uji Coba 3 .............................................. 78
Gambar 4.43 Tingkat Optimal Random 6 Uji Coba 1 .................................... 79
Gambar 4.44 Tingkat Optimal Random 6 Uji Coba 2 .................................... 79
Gambar 4.45 Tingkat Optimal Random 6 Uji Coba 3 .................................... 79
xii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Gambar 4.46 Plotting Random 7 Uji Coba 1 ................................................. 81
Gambar 4.47 Plotting Random 7 Uji Coba 2 ................................................. 82
Gambar 4.48 Plotting Random 7 Uji Coba 3 ................................................. 82
Gambar 4.49 Silhouette Random 7 Uji Coba 1 .............................................. 83
Gambar 4.50 Silhouette Random 7 Uji Coba 2 .............................................. 83
Gambar 4.51 Silhouette Random 7 Uji Coba 3 .............................................. 84
Gambar 4.52 Tingkat Optimal Random 7 Uji Coba 1 .................................... 84
Gambar 4.53 Tingkat Optimal Random 7 Uji Coba 2 .................................... 84
Gambar 4.54 Tingkat Optimal Random 7 Uji Coba 3 .................................... 84
Gambar 4.55 Plotting Default 2 ..................................................................... 86
Gambar 4.56 Silhouette Default 2 ................................................................. 87
Gambar 4.57 Tingkat Optimal Default 2 ....................................................... 87
Gambar 4.58 Plotting Default 3 ..................................................................... 88
Gambar 4.59 Silhouette Default 3 ................................................................. 89
Gambar 4.60 Tingkat Optimal Default 3 ....................................................... 89
Gambar 4.61 Plotting Default 4 ..................................................................... 91
Gambar 4.62 Silhouette Default 4 ................................................................. 91
Gambar 4.63 Tingkat Optimal Default 4 ....................................................... 92
Gambar 4.64 Plotting Default 5 ..................................................................... 93
Gambar 4.65 Silhouette Default 5 ................................................................. 94
xiii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Gambar 4.66 Tingkat Optimal Default 5 ....................................................... 94
Gambar 4.67 Plotting Default 6 ..................................................................... 95
Gambar 4.68 Silhouette Default 6 ................................................................. 96
Gambar 4.69 Tingkat Optimal Default 6 ....................................................... 96
Gambar 4.70 Plotting Default 7 ..................................................................... 98
Gambar 4.71 Silhouette Default 7 ................................................................. 98
Gambar 4.72 Tingkat Optimal Default 7 ....................................................... 99
xiv
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
DAFTAR LAMPIRAN
Lampiran 1: Tabel Clustering Random 2 ...................................................... 104
Lampiran 2: Tabel Clustering Random 3 ....................................................... 107
Lampiran 3: Tabel Clustering Random 4 ....................................................... 109
Lampiran 4: Tabel Clustering Random 5 ....................................................... 112
Lampiran 5: Tabel Clustering Random 6 ....................................................... 115
Lampiran 6: Tabel Clustering Random 7 ....................................................... 118
Lampiran 7: Tabel Clustering Default 2 ........................................................ 121
Lampiran 8: Tabel Clustering Default 3 ........................................................ 124
Lampiran 9: Tabel Clustering Default 4 ........................................................ 126
Lampiran 10: Tabel Clustering Default 5 ...................................................... 129
Lampiran 11: Tabel Clustering Default 6 ...................................................... 132
Lampiran 12: Tabel Clustering Default 7 ...................................................... 135
xv
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
BAB I
PENDAHULUAN
1.1 Latar Belakang
Lulus tepat waktu adalah keinginan seluruh mahasiswa. Tidak hanya itu,
lulus tepat waktu adalah keuntungan bagi dua pihak. Pertama, pihak mahasiswa,
karena dengan begitu mahasiswa akan mendapatkan pekerjaan dengan lebih
mudah karena perusahaan cenderung mencari fresh graduate. Kedua, pihak
universitas, karena seiring tepatnya waktu kelulusan mahasiswa, hal itu akan
membantu memajukan kualitas universtas tersebut, seperti peningkatan akreditasi.
Sayangnya, waktu kelulusan mahasiswa tidak selalu dapat dideteksi secara
dini, sehingga bisa mengakibatkan keterlambatan kelulusan. Hal ini tentunya
merugikan kedua pihak. Untuk memecahkan masalah tersebut, perlu adanya suatu
sistem atau program yang dapat mengelompokkan golongan mahasiswa
berdasarkan prediksi waktu kelulusan. Dalam tugas akhir ini, pengelempokkan
mahasiswa dilakukan dengan cara clustering, menggunakan algoritma k-Means.
Clustering merupakan teknik yang sudah cukup dikenal dan banyak
dipakai dalam data mining. Sampai sekarang para ilmuwan dalam bidang data
mining masih melakukan berbagai usaha untuk melakukan perbaikan model
klaster karena metode yang dikembangkan masih bersifat heuristik. Dari beberapa
teknik klastering yang paling sederhana dan umum adalah algoritma k-Means,
yang mengelompokkan obyek berdasarkan jarak. (Budi Santoso, 2007)
1
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
2
Peneliti-peneliti terdahulu telah melakukan proses clustering dengan
menggunakan algoritma k-Means untuk memecahkan masalah serupa. Salah satu
contoh
pada
paper
nasional
berjudul,
“Aplikasi
K-Means
Untuk
Pengelompokan Mahasiswa Berdasar kan Nilai Body Mass Index (BMI) &
Ukuran Kerangka”. Peneliti tersebut menjelaskan bahwa, “Masalah kesehatan
merupakan permasalahan yang sangat penting untuk diperhatikan, diantaranya
adalah masalah BMI dan ukuran kerangka seseorang. Apabila seseorang telah
mengetahui nilai BMI-nya, orang tersebut dapat mengontrol berat badan
sehingga dapat mencapai berat badan normal yang sesuai dengan tinggi badan.
Pada penelitian ini, penulis mencoba membangun suatu sistem untuk
mengelompokkan data yang ada berdasarkan status gizi dan ukuran rangkanya
dengan
memasukkan
parameter
kondisi
fisik
dari
orang
tersebut.
Pengelompokkan data dilakukan dengan menggunakan metode clustering KMeans, yaitu dengan mengelompokkan n buah objek ke dalam k kelas
berdasarkan jaraknya dengan pusat kelas...” (Tedy Rismawan dan Sri
Kusumadewi, 2008)
Selain itu, paper bertaraf internasional pun pernah mengimplementasikan
algoritma k-Means. Paper tersebut berjudul “Application of K-Means Clustering
Algorithm for Prediction of Students’ Academic Performance”. Peneliti tersebut
menjelaskan bahwa, “Kemampuan untuk memantau progress akademik siswa
merupakan isu penting untuk komunitas pembelajaran. Didirikan sebuah sistem
yang digunakan untuk menganalisis hasil akademik siswa. Hasil tersebut
berdasarkan dari analisa klaster dan menggunakan standart statistik algoritma
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
3
untuk mengatur nilai mereka sesuai dengan tingkat kinerja. Dalam paper ini,
kami juga mengimplementasi algoritma k-Means untuk menganalisa hasil data.
Data yang diuji adalah data-data siswa pada lembaga swasta di Nigeria yang
mana bagus bila dipantau progres akademiknya.” (O.J, Oyelade dkk, 2010)
Dengan menggunakan algoritma k-Means, paper bertaraf internasional
tersebut menghasilkan data-data siswa yang telah dikelompokkan berdasarkan
GPA (Grade Point Average), mulai dari tiga sampai lima klaster.
Berdasarkan penelitian-penelitian yang telah dirangkum pada kedua paper
di atas, telah dibuktikan bahwa algoritma k-Means dapat menunjukkan
keberhasilannya dalam mengelompokkan data. Paper-paper tersebut akan
dijelaskan secara mendetail pada sub-bab “Peneliti Terdahulu” untuk semakin
menguatkan alasan penggunaan algoritma k-Means dalam tugas akhir ini.
Dalam tugas akhir ini, set obyeknya adalah data mahasiswa. Terdapat tiga
parameter yang digunakan sebagai parameter prediksi kelulusan, antara lain
jumlah SKS yang telah diambil, IPK, dan presentase kehadiran. Sehingga akan
menghasilkan data tiga dimensi. Data mahasiswa akan diproses dalam algoritma
k-Means. Algoritma tersebut akan memrosesnya, sehingga nantinya akan
terbentuk kelas-kelas yang berisi mahasiswa dengan karateristik serupa.
Karateristik serupa tersebut dapat membantu pihak universitas untuk memprediksi
waktu kelulusan golongan mahasiswa. Program akan disusun menggunakan
MATLAB R2010b.
Sejauh ini, pembahasan tentang pengelompokkan mahasiswa berdasarkan
prediksi waktu kelulusan belum pernah dibahas dalam penelitian mana pun—
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
4
dalam sudut pandang informatika. Jadi, menggabungkan teknik clustering dan
studi kasus ini akan sangat bermanfaat nantinya jika diterapkan pada kampuskampus.
1.2 Rumusan Masalah
Berikut adalah rumusan-rumusan masalah untuk menemukan solusi dari
permasalahan di atas:
a.
Mengumpulkan data mahasiswa berdasarkan parameter SKS, IPK, dan
akumulasi presentase kehadiran.
b. Mengklasterisasi mahasiswa dengan menggunakan algoritma k-Means.
c. Mengimplementasi algoritma K-Means dengan program MATLAB.
1.3 Batasan Masalah
Dari permasalahan-permasalahan di atas, maka batasan-batasan dalam
tugas akhir ini adalah:
a. Program dibangun dengan menggunakan MATLAB versi R2010b dan
tidak diintegerasikan dengan program lain, seperti database maupun halhal yang berhubungan dengan penyimpanan data.
b. Parameter dibatasi sebanyak tiga aspek. Jumlah klaster dibatasi dari dua
sampai tujuh.
c. Data mahasiswa yang diuji adalah 100 data mahasiswa Universitas
Pembangunan Nasional “Veteran” Jawa Timur.
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
5
1.4 Tujuan
Mengacu pada perumusan masalah di atas, tujuan yang hendak dicapai
dalam penyusunan tugas akhir ini antara lain:
a. Mengklaster data-data mahasiswa berdasarkan parameter yang ada.
b. Menghasilkan program yang dapat menunjukkan hasil data setelah melalui
proses clustering, beserta grafiknya.
c. Menampilkan plotting data untuk melihat kecendurungan pengelompokkan
data.
1.5 Manfaat
Bila program ini berhasil diimplementasikan, maka manfaat yang dapat
diberikan antara lain:
a. Pihak universitas dapat melihat hasil pengelompokkan mahasiswa,
sehingga dapat mengetahui mahasiswa mana saja yang membutuhkan
bimbingan atau semester pendek khusus.
b. Mahasiswa dapat mengetahui ia berada di kelas mana, sehingga
mengoptimalkan dirinya untuk segera mengejar ketertinggalan.
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
BAB II
TINJ AUAN PUSTAKA
2.1 Penelitian Terdahulu
2.1.1 Sepuluh Algoritma Data Mining Terbaik
Berikut adalah identitas paper:
Judul
: Top 10 Algorithms in Data mining
Penulis : Xindong Wu, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh,
Qiang Yang, Hiroshi Motoda, Geoffrey J. McLachlan, Angus Ng, Bing Liu,
Philip S. Yu, Zhi-Hua Zhou, Micheal Steinbach, David J. Hand, Dan
Steinberg
Tahun
: 2007 (International Paper)
Paper ini menyajikan sepuluh algoritma data mining yang telah
diidentifikasi oleh IEEE (International Conference on Data mining) pada
Desember 2006, antara lain: C4.5, k-Means, SVM, Apriori, EM, PageRank,
AdaBoost, kNN, Naif Bayes, dan CART. Sepuluh algoritma ini merupakan
algoritma yang paling berpengaruh pada penelitian data mining. Setiap penelitian
algoritma, dideskripsikan mengenai algoritma tersebut, membahas manfaatnya,
meninjau penelitian saat ini dan masa depan algoritma tersebut. Sepuluh algoritma
ini mencakup klasifikasi, clustering, pembelajaran statistik, analisis asosiasi, dan
mining link, yang semuanya merupakan topik penting dalam penelitian dan
perkembangan data mining.
6
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
7
Dalam
upaya
untuk
mengidentifikasi
beberapa
algoritma
paling
berpengaruh yang telah banyak digunakan dalam data mining, IEEE
mengidentefikasi sepuluh algoritma terbaik dalam presentasi data mining di
ICDM 2006, Hongkong.
Sebagai langkah pertama, dikumpulkan lebih dari 10 algoritma dalam data
mining dari para peneliti. Setiap nominasi algoritma, harus memberikan informasi
berikut: (a) Nama algoritma; (b) Penjelasan singkat; (c) Perwakilan referensi
publikasi. Setiap algoritma yang dinominasi juga harus sudah dikutip dan
digunakan oleh peneliti lain di lapangan.
Setelah pengumpulan algoritma pada langkah pertama, para penulis paper
mengonfirmasi setiap algoritma dengan mengumpulkan kutipan/predikatnya di
Google Scholar pada akhir Oktober 2006. Algoritma yang tidak mencapai 50
kutipan/predikat. Algoritma yang tersisa kemudian diorganisir dalam 10 topik:
analisis asosiasi, klasifikasi, clustering, pembelajaran statistik, bagging, boosting,
pola sekuensial, mining terpadu, set kasar, linkmining, dan mining grafik. Delapan
belas algoritma ini dapat dilihat dalam:
htt p:/ / w w w .cs.uvm.edu/ ~icdm/ algorit hms/ CandidateList .sht ml .
Langkah ketiga adalah proses identifikasi. Penulis paper melakukan
keterlibatan yang lebih luas dari komunitas penelitian. Penulis mengundang
anggota Komite Program KDD-06 (International Conference on Knowledge
Discovery and Data mining), ICDM '06 (International Conference on Data
mining), dan SDM (SIAM Internation Conference on Data mining), serta
ACMKDD dan Kontribusi Penelitian IEEE-ICDM. Mereka kemudian melakukan
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
8
voting terhadap 18 kandidat algoritma. Hasil pemungutan suara dipresentasikan
pada ICDM '06 pada Top 10 Algorithms in Data mining.
Saat melakukan pencarian kutipan pada akhir Oktober 2006, ditemukan
bahwa algoritma k-Means telah dikutip sebanyak 1579 kali. Itu artinya algoritma
k-Means sudah banyak digunakan oleh banyak peneliti. Selain itu, algoritma kMeans adalah satu-satunya algoritma clustering yang masuk ke dalam sepuluh
algoritma terbaik.
2.1.2 Pengelompokkan Mahasiswa Berdasar kan Body Mass Index
Berikut adalah identitas paper:
Judul
:
Aplikasi
K-Means
untuk
Pengelompokkan
Mahasiswa
Berdasarkan Nilai Body Mass Index (BMI) dan Ukuran Kerangka
Penulis : Tedy Rismawan dan Sri Kusumadewi
Tahun
: 2008
Penulisan paper ini dilatarbelakangi oleh ketidaktahuan para mahasiswa
mengenai BMI dan ukuran rangka mereka. Mereka tidak tahu apakah mereka
berada pada posisi BMI normal atau tidak. Meskipun sepele, BMI yang tidak
normal sangat mempengaruhi kesehatan seseorang. Itulah mengapa hal ini perlu
dilakukan.
Setelah penulis paper mengumpulkan data mahasiswa yang meliputi tinggi
badan, berat badan, dan lingkar lengan bawah, penulis paper memroses data-data
tersebut menggunakan algoritma k-Means. Dari 20 data yang terkumpul, penulis
paper menyelesaikan solusi clustering dengan menunjukkan satu per satu langkah
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
9
dalam algoritma k-Means. Hal tersebut membuat peneliti menyimpulkan bahwa
algoritma k-Means adalah salah satu algoritma yang efektif. Meskipun melakukan
pengulangan proses, tetapi algoritma k-Means selalu mengusahakan hasil cluster
yang berkualitas.
Hasil penelitian pada paper ini menyimpulkan bahwa algoritma clustering
k-Means dapat digunakan untuk mengelompokkan mahasiswa berdasarkan status
gizi dan ukuran rangka.
Langkah pertama yang dilakukan penulis paper adalah mengumpulkan data
mahasiswa yang meliputi tinggi badan, berat badan, dan lingkar lengan bawah.
Ketiga aspek tersebut kemudian disederhanakan menjadi dua parameter.
Parameter pertama adalah BMI (Body Mass Index) yang didapat dari pembagian
berat badan dan hasil kuadrat tinggi badan. Parameter kedua adalah ukuran rangka
yang didapat dari pembagian tinggi badan dan lingkar lengan bawah. Kedua
parameter tersebut kemudian digabungkan ke dalam satu tabel.
Kumpulan data tersebut kemudian diproses menggunakan algoritma kMeans. Penulis paper menjelaskan perhitungan tersebut satu per satu. Mulai dari
penentuan jumlah cluster yakni tiga, lalu pemilihan centroid secara random,
perhitungan jarak Euclidean, sampai menunjukkan iterasi dari posisi cluster.
Perhitungan menghasilkan sembilan iterasi. Cluster pertama memiliki 12 anggota.
Cluster kedua memiliki 7 anggota. Cluster ketiga memiliki satu anggota.
Penelitian pada paper ini menyimpulkan bahwa algoritma k-Means dapat
digunakan untuk mengelompokkan mahasiswa berdasarkan status gizi dan ukuran
kerangka. Itu berarti memungkinkan bagi tugas akhir ini untuk mengelompokkan
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
10
mahasiswa berdasarkan total SKS yang telah diambil, IPK, dan akumulasi
presentase kehadiran.
2.1.3 Pengelompokkan Siswa Berdasar kan Prestasi Akademik
Berikut adalah identitas jurnal:
Judul
: Application of K-Means Clustering Algorithm for Prediction of
Students’ Academic Performance
Penulis : Oyelade, Oladipupo, dan Obagbuwa
Tahun
: 2010 (International Journal)
Kemampuan untuk memantau progress akademik siswa merupakan isu
penting untuk komunitas pembelajaran. Didirikan sebuah sistem yang digunakan
untuk menganalisis hasil akademik siswa. Hasil tersebut diambil berdasarkan pada
analisa cluster dan menggunakan standart statistik algoritma untuk mengatur nilai
mereka sesuai dengan tingkat kinerja. Dalam paper ini, penulis juga
mengimplementasi algoritma k-Means untuk menganalisa hasil data. Data yang
diuji adalah data-data siswa pada lembaga swasta di Nigeria yang mana bagus bila
dipantau progres akademiknya untuk tujuan membuat keputusan yang efektif oleh
akademik perencana.
Paper ini mengelompokkan para siswa berdasarkan prediksi prestasi
akademik. Aspek yang digunakan oleh penulis paper adalah GPA (Grade Point
Average). GPA (atau di Indonesia disebut IPK) adalah salah satu indikator umum
yang digunakan oleh kinerja akademik. Banyak universitas di Nigeria yang
mengatur nilai minimum IPK yang harus dipertahankan untuk melanjutkan
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
11
program sarjana. Dalam beberapa universitas, persyaratan minimal IPK yang
ditetapkan bai siswa adalah 1,5. Meskipun demikian, untuk setiap program
pascasarjana, IPK 3,0 ke atas dianggap indikator kinerja akademik yang baik.
Oleh karena itu, IPK masih tetap merupakan faktor yang paling umum digunakan
oleh akademik perencana untuk mengevaluasi kemajuan dalam lingkungan
akademik.
Dengan bantuan data mining, seperti clustering, memungkinkan untuk
menemukan karateristik dari akademik kinerja siswa dan menggunakan
karateristik tersebut sebagai prediksi masa depan. Ada beberapa hasil menjanjikan
dari menggunakan algoritma k-Means dengan pengukuran jarak Euclidean, di
mana jarak ditentukan dengan menentukan kuadrat dari kedua jarak, lalu
menjumlahkan hasil kuadrat tersebut dan menemukan hasil akar dari penjumlahan
kuadrat.
Paper ini menguji data-data siswa dengan menggunakan jumlah cluster
sebanyak tiga, empat, dan lima. Sehingga menghasilkan cluster yang lebih
beragam. Sayangnya, penulis paper tidak menampilkan data siswa beserta cluster
index-nya, sehingga tidak terlihat hasil data sebenarnya.
Penulis paper menyimpulkan bahwa, algoritma clustering ini berfungsi baik
sebagai patokan untuk memantau perkembangan siswa kinerja perguruan tinggi.
Hal ini juga meningkatkan keputusan keputusan oleh perencana akademik untuk
memantau calon kinerja semester dengan semester dengan meningkatkan masa
depan hasil akademik dalam sesi akademik.
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
12
Paper ini memiliki topik yang serupa dengan tugas akhir. Hanya berbeda
pada penggunaan parameter. Parameter yang digunakan dalam paper ini hanyalah
IPK, sedangkan tugas akhir ini menggunakan tiga parameter, antara lain SKS,
IPK, dan presentase kehadiran. Dengan penambahan parameter, hasil cluster akan
semakin optimal.
2.2 Landasan Teori
2.2.1 Data Mining
Data mining adalah serangkaian proses untuk menggali nilai tambah
berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis
data. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan
mengenali pola yang penting atau menarik dari data yang terdapat dalam basis
data. Data mining terutama digunakan untuk mencari pengetahuan yang terdapat
dalam basis data yang besar sehingga sering disebut Knowledge Discovery in
Database (KDD). Proses pencarian pengetahuan ini menggunakan berbagai teknik
pembelajaran
komputer
(machine
learning)
untuk
menganalisis
dan
mengekstraksikannya. Proses pencarian bersifat iteratif dan interaktif untuk
menemukan pola atau model yang benar, baru, bermanfaat, dan dimengerti.
(Syamsuddin, Aries)
Kehadiran data mining dilatarbelakangi oleh beberapa hal antara lain:
a. Terjadinya overload data yang dialami oleh berbagai perusahaan. Datadata tersebut merupakan data transaksi yang umumnya diproses
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
13
menggunakan aplikasi komputer yang biasa disebut dengan On Line
Transaction Processing (OLTP).
b. Adanya ledakan informasi (explosion information) dari berbagai media,
terutama internet. Sebagian besar informasi yang disajikan oleh media
internet memiliki bentuk yang tak berstruktur. Media internet menyajikan
informasi dalam berbagai format file, bahasa, dan bentuk penyajian seperti
teks, gambar, suara atau pun video. Pertumbuhan yang pesat dari
akumulasi data atau informasi itu telah menciptakan kondisi dimana suatu
intuisi memiliki bergunung-gunung data, tetapi miskin informasi yang
bermanfaat (rich of data but poor of information).
Pemanfaatan data mining diperlukan untuk menangani tumpukan data
yang besar, namun sering kali tumpukan data yang besar ini dibiarkan saja, tanpa
dilakukan upaya untuk menggali informasi lebih jauh. Seakan-akan tumpukan
data dalam jumlah yang besar tersebut tidak memiliki manfaat sama sekali.
Pemanfaatan data itu dapat dilihat dalam dua sudut pandang, yaitu sudut pandang
komersial dan sudut pandang keilmuan. Dari sudut pandang komersial,
pemanfaatan data mining dapat digunakan untuk menangani meledaknya volume
data.
Terkait
dengan
memanfaaatkannya.
cara
Berbagai
menyimpannya,
teknik
komputasi
mengestraknya
dapat
digunakan
serta
untuk
menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan menjadi
asset untuk meningkatkan daya saing suatu intuisi. Data mining tidak hanya
digunakan untuk menangani persoalan menumpuknya data atau informasi dan
bagaimana menggudangkannya tanpa kehilangan informasi yang penting. Data
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
14
mining juga diperlukan untuk menyelesaikan permasalahan atau menjawab
kebutuhan bisnis itu sendiri, antara lain:
a. Bagaimana mengetahui hilangnya pelanggan karena pesaing
b. Bagaimana mengetahui item produk atau konsumen yang memiliki
kesamaan karakteristik
c. Bagaimana mengidentifikasi produk-produk yang terjual bersamaan
dengan produk lain
d. Bagaimana memprediksi tingkat penjualan
e. Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi
suatu item
f. Bagaimana memprediksi perilaku bisnis di masa yang akan datang.
Dari keenam permasalah di atas, dapat disimpulkan pula bahwa data
mining dapat menyelesaikan permasalahan dalam tugas akhir ini, yakni:
bagaimana memprediksi waktu kelulusan mahasiswa? Namun, fungsi apa yang
umum diterapkan oleh data mining dalam menyelesaikan permasalahan ini?
Berikut adalah fungsi-fungsi yang umum diterapkan dalam data mining:
a. Association, adalah proses untuk menemukan aturan assosiatif antara
suatu kombinasi item dalam suatu waktu.
b. Sequence, hampir sama dengan association bedanya sequence
diterapkan lebih dari satu periode.
c. Classification, adalah proses penemuan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data dengan tujuan
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
15
untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak
diketahui.
d. Regretion, adalah proses pemetaan data dalam suatu nilai prediksi.
e. Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan
pola-pola di dalam sekumpulan data.
f. Solution, adalah proses penemuan akar masalah dan problem solving
dari persoalan bisnis yang dihadapi atau paling tidak sebagai informasi
pendukung dalam pengambilan keputusan.
g. Clustering, adalah proses pengelompokan sejumlah data atau obyek ke
dalam kelompok-kelompok data (cluster) sehingga setiap cluster akan
berisi data yang saling mirip. Ini adalah fungsi yang akan digunakan dalam
tugas akhir ini. Clustering akan dibahas lebih lanjut dalam sub-bab
selanjutnya.
2.2.2 Clustering
Teknik cluster termasuk teknik yang sudah cukup dikenal dan banyak
dipakai dalam data mining. Sampai sekarang para ilmuwan dalam bidang data
mining masih melakukan berbagai usaha untuk melakukan perbaikan model
cluster karena metode yang dikembangkan sekarang masih bersifat heuristik.
Usaha-usaha untuk menghitung jumlah cluster yang optimal dan pengclusteran
yang paling baik masih terus dilakukan. Dengan demikian menggunakan metode
yang sekarang, kita tidak bisa menjamin hasil pengclusteran kita sudah
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
16
merupakan hasil yang optimal. Namun, hasil yang dicapai biasanya sudah cukup
bagus dari segi praktis.
Tujuan utama dari metode cluster adalah pengelompokkan sejumlah
data/obyek ke dalam cluster (group) sehingga dalam setiap cluster akan berisi data
yang semirip mungkin. Dalam clustering kita berusaha untuk menempatkan obyek
yang mirip (jaraknya dekat) dalam satu cluster dan membuat jarak antar cluster
sejauh mungkin. Ini berarti obyek dalam satu cluster sangat mirip satu sama lain
dan berbeda dengan obyek dalam cluster-cluster yang lain. Dalam teknik ini kita
tidak tahu sebelumnya berapa jumlah cluster dan bagaimana pengelompokannya.
Clustering adalah salah satu teknik unsupervised learning dimana kita tidak perlu
melatih metode tersebut atau dengan kata lain, tidak ada fase learning. Masuk
dalam pendekatan unsupervised learning adalah metode-metode yang tidak
membutuhkan label atau pun keluaran dari setiap data yang diinvestigasi.
Sebaliknya, supervised learning adalah metode yang memerlukan training
(melatih) dan testing (menguji). Masuk ke dalam kategori ini adalah regresi,
neural network (ANN), analisis diskriminan (LDA), dan support vector machine
(SVM)
Ada dua pendekatan dalam clustering: partisioning dan hirarki. Dalam
partisioning kita mengelompokkan obyek x1, x2, x3, …, xn ke dalam k cluster. Ini
bisa dilakukan dengan menentukan pusat cluster awal, lalu dilakukan realokasi
obyek berdasarkan kriteria tertentu sampai dicapai pengelompokkan yang
optimum. Dalam cluster hirarki, kita mulai dengan membuat m cluster dimana
setiap cluster beranggotakan satu obyek dan berakhir dengan satu cluster dimana
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
17
anggotanya adalah m obyek. Pada setiap tahap dalam prosedurnya, satu cluster
digabung dengan satu cluster yang lain. Kita bisa memilih berapa jumlah cluster
yang diinginkan dengan menentukan cut-off pada tingkat tertentu.
Dalam cluster, untuk menggabungkan dua atau lebih obyek menjadi satu
cluster, biasanya digunakan ukuran kemiripan atau ketidakmiripan. Semakin
mirip dua obyek, semakin tinggi peluang untuk dikelompokkan dalam satu
cluster. Sebaliknya semakin tidak mirip semakin rendah peluang untuk
dikelompokkan dalam satu cluster.
Salah satu algoritma yang sering digunakan dan terbukti berhasil dalam
proses clustering adalah algoritma k-Means. Pembahasan mengenai Algoritma kMeans dijelaskan pada sub-bab berikut.
2.2.3 Algoritma k-Means
Dari beberapa teknik clustering yang paling sederhana dan umum dikenal
adalah clustering k-Means. Algoritma k-Means merupakan metode clustering
berbasis jarak yang membagi data ke dalam sejumlah cluster. Algoritma k-Means
sering disebut sebagai clustering yang berulang-ulang, karena pada prosesnya
selalu terdapat pergantian pusat cluster baru di setiap iterasinya.
Algoritma k-Means dimulai dengan menentukan k—k merupakan
banyaknya cluster yang ingin dibentuk. Kemudian, tetapkan nilai pusat cluster
dari masing-masing. Hitung jarak setiap data berdasarkan cluternya, barulah
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh