Analisa Data Mahasiswa Baru Terhadap Program Studi Yang Dipilih Di Universitas Pembangunan Nasional “Veteran” Jawa Timur Menggunakan Teknik Data Mining.

Analisa Data Mahasiswa Bar u Ter hadap Pr ogr am Studi Yang
Dipilih Di Univer sitas Pembangunan Nasional “Veter an” J awa
Timur Menggunakan Teknik Data Mining

SKRIPSI

Disusun Oleh :
Citr a Ar um Sar i
1032010048

J URUSAN TEKNIK INDUSTRI
FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS PEMBANGUNAN NASIONAL “VETERAN”
J AWA TIMUR
2014

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

SKRIPSI
ANALISA DATA MAHASISWA BARU TERHADAP

PROGRAM STUDI YANG DIPILIH DI UNIVERSITAS
PEMBANGUNAN NASIONAL “VETERAN” J AWA TIMUR
MENGGUNAKAN TEKNIK DATA MINING
Disusun oleh :
CITRA ARUM SARI
1032010048

Telah dipertahankan dihadapan dan diterima oleh Tim Penguji Skripsi
J urusan Teknik Industri Fakultas Teknologi Industri
Univer sitas Pembangunan Nasional “Veteran” J awa Timur
Pada Tanggal 20 J anuari 2014
Tim Penguji :
1.

Pembimbing :
1.

Ir. Rusindiyanto, MT
NIP. 19650225 199203 1 001


Ir. Endang Pudji W., MMT
NIP. 19591228 198803 2 001

2.

2.

Ir. Nisa Masruroh, MT
NIP. 19630125 198803 2 001

Dwi Sukma D ST, MT
NIP. 19810726 200501 1 002

3.

Ir. Endang Pudji W., MMT
NIP. 19591228 198803 2 001

Mengetahui
Dekan Fakultas Teknologi Industri

Univer sitas Pembangunan Nasional “Veteran” J awa Timur
Surabaya

Ir. Sutiyono, MT
NIP. 19600713 198703 1 001

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

SKRIPSI
ANALISA DATA MAHASISWA BARU TERHADAP
PROGRAM STUDI YANG DIPILIH DI UNIVERSITAS
PEMBANGUNAN NASIONAL “VETERAN” J AWA TIMUR
MENGGUNAKAN TEKNIK DATA MINING
Disusun oleh :
CITRA ARUM SARI
1032010048

Telah dipertahankan dihadapan dan diterima oleh Tim Penguji Skripsi
J urusan Teknik Industri Fakultas Teknologi Industri

Univer sitas Pembangunan Nasional “Veteran” J awa Timur
Pada Tanggal 20 J anuari 2014
Tim Penguji :
1.

Pembimbing :
1.

Ir. Rusindiyanto, MT
NIP. 19650225 199203 1 001

Ir. Endang Pudji W., MMT
NIP. 19591228 198803 2 001

2.

2.

Ir. Nisa Masruroh, MT
NIP. 19630125 198803 2 001


Dwi Sukma D ST, MT
NIP. 19810726 200501 1 002

3.

Ir. Endang Pudji W., MMT
NIP. 19591228 198803 2 001
Mengetahui
Ketua J urusan Teknik Industri
Fakultas Teknologi Industri
Univer sitas Pembangunan Nasional “Veteran” J awa Timur
Surabaya

Dr. Ir. Minto Waluyo, MM
NIP. 19611130 199003 1 001

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.


KATA PENGANTAR

Puji syukur kehadirat Allah SWT atas segala karunia dan anugerah-Nya
sehingga penulis dapat menyelesaikan penyusunan Tugas Akhir ini.
Tugas Akhir ini disusun untuk memenuhi persyaratan kelulusan Program
Sarjana Strata-1 (S-1) di Jurusan Teknik Industri Fakultas Teknologi Industri
Universitas Pembangunan Nasional “Veteran” Jawa Timur dengan judul :
“ Analisa Dat a M ahasisw a Baru Terhadap Program St udi Yang Dipilih Di
Universit as Pembangunan Nasional “ Vet eran” Jaw a Timur M enggunakan
Teknik Dat a M ining”

Penyelesaian penyusunan Tugas Akhir ini tentunya tidak terlepas dari
peran serta berbagai pihak yang telah memberikan bimbingan dan bantuan baik
secara langsung maupun tidak langsung. Oleh karena itu tidak berlebihan bila
pada kesempatan kali ini penulis mengucapkan terima kasih kepada :
1.

Kedua orang tua yang telah memberikan banyak dukungan secara moril,
materil serta doa, sehingga penyelesaian laporan ini dapat segera
terselesaiakan.


2.

Bapak Ir. Sutiyono, MT, selaku Dekan Fakultas Teknologi Industri
Universitas Pembangunan Nasional “Veteran” Jawa Timur.

3.

Bapak Dr. Minto Waluyo, MM, selaku Ketua Jurusan Teknik Industri
Universitas Pembangunan Nasional “Veteran” Jawa Timur.

4.

Ibu Ir. Endang Pudji W., MMT, selaku Dosen Pembimbing Utama Skripsi.

i
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

5.


Bapak Dwi Sukma.D, ST, MT, selaku Dosen Pembimbing Pendamping
Skripsi.

6.

Bapak Ir. Budi Santoso, MMT, selaku Dosen Penguji Skripsi.

7.

Ir. Iriani, MMT, selaku Dosen Penguji Skripsi.

8.

Ir. Nisa Masruroh, MT, selaku Dosen Penguji Skripsi.

9.

Ibu Ir. Erlina P., MT selaku Dosen Penguji Skripsi


10.

Bapak Ir. Rusindiyanto, MT, selaku Dosen Penguji Skripsi.

11.

Teman-teman angkatan 2010 khususnya asisten laboratorium Optimasi dan
Pemrograman

Komputer

yang

telah

memberikan

semangat

dalam


penyelesaian Tugas Akhir ini. Serta untuk Diska dan Intan yang bersedia
menemani dan selalu membantu ketika penulis mengalami kendala selama
perkuliahan hingga penyelesaian Tugas Akhir.
12.

Pihak-pihak lain yang terkait baik secara langsung maupun tidak langsung
dalam penyelesaian Tugas Akhir ini yang tidak dapat disebutkan satu per
satu.
Penulis menyadari sepenuhnya bahwa penyusunan Tugas Akhir ini

terdapat kekurangan, maka dengan segala kerendahan hati penulis mengharapkan
saran dan kritik yang bersifat membangun.
Akhir kata semoga Tugas Akhir ini dapat bermanfaat bagi semua pihak
yang membaca. Terima Kasih.

Surabaya, Januari 2014

ii
Hak Cipta © milik UPN "Veteran" Jatim :

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

Penulis

iii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR ISI

KATA PENGANTAR ..............................................................................

i

DAFTAR ISI ............................................................................................

iii

DAFTAR GAMBAR ................................................................................

v

DAFTAR TABEL ....................................................................................

vi

DAFTAR LAMPIRAN ............................................................................

vii

BAB I PENDAHULUAN
1.1

Latar Belakang ...............................................................................

1

1.2

Perumusan Masalah........................................................................

2

1.3

Batasan Masalah.............................................................................

3

1.4

Asumsi ...........................................................................................

3

1.5

Tujuan Penelitian ...........................................................................

4

1.6

Manfaat Penelitian..........................................................................

4

1.7

Sistematika Penulisan .....................................................................

4

BAB II TINJ AUAN PUSTAKA
2.1

2.2

2.3

Data Mining ...................................................................................

6

2.1.1

Tahapan Data Mining ..................................................................

9

2.1.2

Pengelompokkan Data Mining ....................................................

12

Clustering .......................................................................................

16

2.2.1

Metode Clustering .......................................................................

19

Algoritma K-Means .................................................................................

20

2.3.1

Tahapan Algoritma K-Means ......................................................

23

2.3.2

Euclidean Distance......................................................................

26

iv
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

2.4

2.3.3

Beberapa Permasalah yang Terkait dengan K-Means ...................

26

2.3.4

Kelemahan dan Kelebihan Algoritma K-Means ...........................

27

Penelitian Terdahulu.......................................................................

28

BAB III METODE PENELITIAN
3.1

Pengamatan Obyek .........................................................................

35

3.2

Identifikasi Variabel .......................................................................

35

3.3

Pengumpulan Data .........................................................................

36

3.4

Pengolahan Data.............................................................................

36

3.5

Langkah-Langkah Penelitian dan Pemecahan Masalah ...................

37

BAB IV HASIL PENELITIAN DAN PEMBAHASAN
4.1

Pengumpulan Data .........................................................................

41

4.2

Pengolahan Data.............................................................................

44

4.3

Pembahasan ...................................................................................

48

BAB V KESIMPULAN DAN SARAN
5.1

Kesimpulan ....................................................................................

50

5.2

Saran ..............................................................................................

50

DAFTAR PUSTAKA

v
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR GAMBAR

Gambar 2.1

Kajian Umum Data Mining .................................................

7

Gambar 2.2

Tahap-Tahap Data Mining ..........................................................

9

Gambar 2.3

Contoh Clustering .......................................................................

18

Gambar 2.4

Grafik Hasil Klasterisasi Nilai Kompetensi Kualifikasi
Akademik Dan Perencanaan & Pelaksanaan Pembelajaran..

23

Gambar 2.5

Cara Kerja Algoritma K-Means...............................................

25

Gambar 2.6

Hasil Uji Coba Penelitian ....................................................

31

Gambar 2.7

Hasil Clustering Menggunakan Algoritma K-Means ...........

33

Gambar 3.1

Langkah-langkah Penelitian dan Pemecahan Masalah .........

38

vi
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR TABEL

Tabel 2.1 Hasil Kluster Program Studi Berdasarkan Jumlah Mahasiswa
Baru .........................................................................................

29

Tabel 2.2 Hasil Kluster Kota Asal Mahasiswa Baru .................................

29

Tabel 4.1 Pengumpulan Data Mahasiswa Baru Universitas Pembangunan
Nasional “Veteran” Jawa Timur ...............................................

42

Tabel 4.2 Jarak Setiap Data dengan Pusat Kluster Iterasi 1 .......................

45

Tabel 4.3 Hasil Kluster Data Berdasar Jarak Minimum Iterasi 1 ...............

45

Tabel 4.4 Jarak Setiap Data dengan Pusat Kluster Iterasi 2 .......................

46

Tabel 4.5 Hasil Kluster Data Berdasar Jarak Minimum Iterasi 2 ...............

46

Tabel 4.6 Jarak Setiap Data dengan Pusat Kluster Iterasi 3 .......................

47

Tabel 4.7 Hasil Kluster Data Berdasar Jarak Minimum Iterasi 3 ...............

47

Tabel 4.8 Hasil Pengolahan Data Mahasiswa Baru Universitas Pembangunan
Nasional “Veteran” Jawa Timur ...............................................

48

vii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR LAMPIRAN

LAMPIRAN I.1

Nilai Pusat Kluster Iterasi 1

LAMPIRAN I.2

Hasil Pengolahan Data Mahasiswa Baru Universitas
Pembangunan Nasional “Veteran” Jawa Timur Iterasi 1

LAMPIRAN II.1

Nilai Pusat Kluster Iterasi 2

LAMPIRAN II.2

Hasil Pengolahan Data Mahasiswa Baru Universitas
Pembangunan Nasional “Veteran” Jawa Timur Iterasi 2

LAMPIRAN III.1

Nilai Pusat Kluster Iterasi 2

LAMPIRAN III.2

Hasil Pengolahan Data Mahasiswa Baru Universitas
Pembangunan Nasional “Veteran” Jawa Timur Iterasi 3

viii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

ix
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR ISI

KATA PENGANTAR ..............................................................................

i

DAFTAR ISI ............................................................................................

iii

DAFTAR GAMBAR................................................................................

v

DAFTAR TABEL ....................................................................................

vi

DAFTAR LAMPIRAN ............................................................................

vii

BAB I PENDAHULUAN
1.1

Latar Belakang ...............................................................................

1

1.2

Perumusan Masalah .......................................................................

2

1.3

Batasan Masalah ............................................................................

3

1.4

Asumsi ...........................................................................................

3

1.5

Tujuan Penelitian ...........................................................................

4

1.6

Manfaat Penelitian .........................................................................

4

1.7

Sistematika Penulisan .....................................................................

4

BAB II TINJ AUAN PUSTAKA
2.1

2.2

2.3

Data Mining ...................................................................................

6

2.1.1

Tahapan Data Mining..................................................................

9

2.1.2

Pengelompokkan Data Mining ....................................................

12

Clustering.......................................................................................

16

2.2.1

Metode Clustering.......................................................................

19

Algoritma K-Means .................................................................................

20

2.3.1

Tahapan Algoritma K-Means ......................................................

23

2.3.2

Euclidean Distance .....................................................................

26

iii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

2.4

2.3.3

Beberapa Permasalah yang Terkait dengan K-Means...................

26

2.3.4

Kelemahan dan Kelebihan Algoritma K-Means ...........................

27

Penelitian Terdahulu ......................................................................

28

BAB III METODE PENELITIAN
3.1

Pengamatan Obyek.........................................................................

35

3.2

Identifikasi Variabel .......................................................................

35

3.3

Pengumpulan Data .........................................................................

36

3.4

Pengolahan Data ............................................................................

36

3.5

Langkah-Langkah Penelitian dan Pemecahan Masalah ...................

37

BAB IV HASIL PENELITIAN DAN PEMBAHASAN
4.1

Pengumpulan Data .........................................................................

41

4.2

Pengolahan Data ............................................................................

44

4.3

Pembahasan ...................................................................................

50

BAB V KESIMPULAN DAN SARAN
5.1

Kesimpulan ....................................................................................

54

5.2

Saran ..............................................................................................

54

DAFTAR PUSTAKA

iv
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR GAMBAR

Gambar 2.1

Kajian Umum Data Mining .................................................

7

Gambar 2.2

Tahap-Tahap Data Mining ..........................................................

9

Gambar 2.3

Contoh Clustering.......................................................................

18

Gambar 2.4

Grafik Hasil Klasterisasi Nilai Kompetensi Kualifikasi
Akademik Dan Perencanaan & Pelaksanaan Pembelajaran .

23

Gambar 2.5

Cara Kerja Algoritma K-Means ..............................................

25

Gambar 2.6

Hasil Uji Coba Penelitian....................................................

31

Gambar 2.7

Hasil Clustering Menggunakan Algoritma K-Means ...........

33

Gambar 3.1

Langkah-langkah Penelitian dan Pemecahan Masalah .........

38

v
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR TABEL

Tabel 2.1 Hasil Kluster Program Studi Berdasarkan Jumlah Mahasiswa
Baru .........................................................................................

29

Tabel 2.2 Hasil Kluster Kota Asal Mahasiswa Baru .................................

29

Tabel 4.1 Pengumpulan Data Mahasiswa Baru Universitas Pembangunan
Nasional “Veteran” Jawa Timur ...............................................

42

Tabel 4.2 Jarak Setiap Data dengan Pusat Kluster Iterasi 1 .......................

45

Tabel 4.3 Hasil Kluster Data Berdasar Jarak Minimum Iterasi 1 ...............

45

Tabel 4.4 Jarak Setiap Data dengan Pusat Kluster Iterasi 2 .......................

46

Tabel 4.5 Hasil Kluster Data Berdasar Jarak Minimum Iterasi 2 ...............

47

Tabel 4.6 Jarak Setiap Data dengan Pusat Kluster Iterasi 3 .......................

48

Tabel 4.7 Hasil Kluster Data Berdasar Jarak Minimum Iterasi 3...............

49

Tabel 4.8 Hasil Pengolahan Data Mahasiswa Baru Universitas Pembangunan
Nasional “Veteran” Jawa Timur ...............................................

50

vi
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR LAMPIRAN

LAMPIRAN I

Nilai Pusat Kluster Iterasi 1
Hasil Pengolahan Data Program Studi Universitas
Pembangunan Nasional “Veteran” Jawa Timur Iterasi 1

LAMPIRAN II

Nilai Pusat Kluster Iterasi 2
Hasil Pengolahan Data Program Studi Universitas
Pembangunan Nasional “Veteran” Jawa Timur Iterasi 2

LAMPIRAN III

Nilai Pusat Kluster Iterasi 2
Hasil Pengolahan Data Program Studi Universitas
Pembangunan Nasional “Veteran” Jawa Timur Iterasi 3

vii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

1

Abstr ak
Universitas Pembangunan Nasional “Veteran” Jawa Timur berlokasi di
Surabaya merupakan Perguruan Tinggi Swasta di Indonesia yang memiliki 6
Fakultas dengan 19 Program Studi (Progdi) sarjana.
Banyaknya peminat dari setiap program studi di Universitas Pembangunan
Nasional “Veteran” Jawa Timur dapat dipengaruhi oleh asal SMA, pendapatan
orang tua dan asal kota. Berdasarkan hal tersebut, maka penelitian ini akan
mengelompokkan program studi berdasarkan data mahasiswa yang ada dengan
tujuan memberikan informasi kepada pihak Universitas untuk memprioritaskan
program studi dengan sedikit peminat.
Untuk proses pencarian informasi dari data mahasiswa baru UPN
“Veteran” Jawa Timur digunakan teknik data mining, sedangkan clustering KMeans digunakan untuk mengelompokkan program studi dalam beberapa kelas
berdasarkan kemiripan data.
Berdasarkan hasil clustering dengan metode algoritma K-Means telah
terdapat 3 kluster, dimana kluster 1 merupakan program studi dengan sedikit
peminat sebanyak 10 program studi, kluster 2 banyak peminat sebanyak 5
program studi dan kluster 3 cukup peminat sebanyak 4 program studi.
Kata Kunci : Program Studi, Data Mining, Clustering K-Means

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

2

Abstr act
Universitas Pembangunan Nasional "Veteran" East Java is located in
East Java, Surabaya is Indonesia's Private University which has 6 faculties with
19 courses.
The number of applicants from each courses at the Universitas
Pembangunan Nasional "Veteran" East Java can be affected by SMA origin,
parental income and home town. Based on this, the study will be categorize
courses based on existing student data with the purpose of providing information
to the University to prioritize programs with little interest.
For information search process of the new student data UPN "Veteran"
East Java is used data mining techniques, while the K-Means clustering is used to
group the courses into classes based on similar data.
Based on the results of the clustering method K-Means algorithm has been
there 3 clusters, where cluster 1 is a courses with little interest in as many as 10
courses, cluster 2 of enthusiasts as much as 5 courses and cluster 3 is quite
interested as much as 4 courses.
Keyword : Courses, Data Mining, Clustering K-Means

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

3

BAB I
PENDAHULUAN

1.1

Latar Belakang
Universitas Pembangunan Nasional “Veteran” Jawa Timur, disingkat UPN

“Veteran” Jatim atau UPN VJT berlokasi di Surabaya merupakan Perguruan
Tinggi Swasta di Indonesia yang berdiri sejak 5 Juli 1959. UPN “Veteran” Jawa
Timur hingga tahun 2013, memiliki 6 Fakultas dengan 19 Program Studi (Progdi)
sarjana, yaitu Fakultas Ekonomi Bisnis dengan 3 Program Studi, yaitu Progdi
Ilmu Ekonomi dan Pembangunan, Progdi Akuntansi dan Progdi Manajemen,
Fakultas Petanian dengan 2 Program Studi, yaitu Progdi Agroteknologi dan
Progdi Agribisnis, Fakultas Teknologi Industri dengan 5 Program Studi, yaitu
Progdi Teknik Kimia, Progdi Teknik Industri, Progdi Teknologi Pangan, Progdi
Teknik Informatika dan Progdi Sistem Informasi, Fakultas Ilmu Sosial dan Ilmu
Politik dengan 4 Program Studi, yaitu Progdi Administrasi Negara, Progdi
Administrasi

Bisnis,

Progdi

Ilmu

Komunikasi

dan

Progdi

Hubungan

Internasional, Fakultas Teknik Sipil dan Perencanaan dengan 4 Program Studi,
yaitu Progdi Teknik Sipil, Progdi Teknik Arsitektur, Progdi Teknik Lingkungan
dan Progdi Desain Komunikasi Visual, serta Fakultas Hukum dengan 1 Program
Studi yaitu Progdi Ilmu Hukum.
Jumlah mahasiswa baru di Universitas Pembangunan Nasional “Veteran”
Jawa Timur mengalami pertumbuhan dan perkembangan yang cukup signifikan.
Jumlah mahasiswa baru dapat diketahui dari setiap program studi yang ada,

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

4

dimana ada yang banyak peminat dan kurang peminat. Besarnya peminat dari
setiap program studi dapat dipengaruhi oleh asal kota, pendapatan orang tua, asal
wilayah dan lain – lain. Berdasarkan hal tersebut, maka dalam penelitian ini akan
mengelompokkan program studi berdasarkan data mahasiswa yang ada dengan
tujuan memberikan informasi kepada pihak Universitas untuk memprioritaskan
program studi yang memiliki sedikit peminat.
Untuk metode yang akan digunakan dalam penelitian ini adalah teknik
data mining. Data mining berperan sebagai pencarian informasi yang berharga
dari basis data yang sangat besar. Data mining adalah suatu proses dalam
menemukan berbagai model, ringkasan data dan nilai – nilai yang berharga dari
sekumpulan data. Pada penelitian ini, metode data mining digunakan untuk proses
pencarian informasi dari data mahasiswa baru semester 1 UPN “Veteran” Jawa
Timur. Selain data mining juga menggunakan teknik clustering K-Means, dimana
clustering

K-Means

digunakan

untuk

mengelompokkan

program

studi

berdasarkan jarak minimum setiap data ke kluster.
Dengan demikian, diharapkan dapat memberikan informasi yang
bermanfaat bagi pihak Universitas dalam melakukan promosi mengenai program
studi sarjana yang ada di Universitas Pembangunan Nasional “Veteran” Jawa
Timur ini.

1.2

Perumusan Masalah
Berdasarkan latar belakang diatas, maka dapat dirumuskan suatu

permasalahan sebagai berikut :

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

5

Bagaimana hasil pengelompokkan program studi sarjana berdasarkan data
mahasiswa baru menggunakan clustering K-Means?

1.3

Batasan Masalah
Agar penulisan dapat berjalan dengan baik dan sesuai dengan alurnya

maka perlu diberikan batasan-batasan masalah sebagai berikut :
1.

Data yang digunakan adalah data mahasiswa program studi sarjana UPN
“Veteran” Jatim, yaitu data mahasiswa semester 1 meliputi: program studi,
kota asal, pendapatan orang tua dan jenis SMA.

2.

Menggunakan algoritma K-Means untuk pengelompokan data.

3.

Pengerjaan dengan software matlab untuk membantu proses klasterisasi
dan analisis data.

1.4

Asumsi
Sedangkan beberapa asumsi yang digunakan dalam penelitian ini adalah

sebagai berikut :
1.

Data tidak berubah selama penelitian.

2.

Data yang digunakan merupakan data yang siap diolah dengan clustering
K-Means.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

6

1.5

Tujuan Penelitian
Adapun tujuan penelitian dalam penyusunan tugas akhir ini adalah untuk

mengetahui hasil kelompok program studi sarjana yang perlu mendapat prioritas
utama dari pihak Universitas.

1.6

Manfaat Penelitian
Manfaat yang dapat diambil dari penelitian ini adalah :

1.

Diharapkan dapat menjadi referensi untuk penggunaan Algoritma KMeans bagi praktisi atau peneliti lain untuk diterapkan pada kasus
penelitian yang lain.

2.

Dengan

menggunakan

data

mining

dengan

clustering K-Means,

diharapkan dapat membantu pihak Universitas untuk mengetahui
kelompok program studi yang perlu diprioritaskan di Universitas
Pembangunan Nasional “Veteran” Jawa Timur.

1.7

Sistematika Penulisan
Adapun sistematika penulisan dari tugas akhir ini adalah sebagai berikut :
BAB I

PENDAHULUAN
Bab ini berisi latar belakang, perumusan masalah, batasan
masalah, asumsi yang digunakan, tujuan penelitian, manfaat
penelitian, serta sistematika penulisan.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

7

BAB II

TINJ AUAN PUSTAKA
Pada bab ini akan menguraikan mengenai landasan-landasan
teori atau literatur yang digunakan untuk menyelesaikan
laporan penelitian ini dan digunakan sebagai landasan peneliti
untuk menjalankan penelitian.

BAB III

METODE PENELITIAN
Bab ini berisi langkah-langkah dalam melakukan penelitian
yaitu hal-hal yang dilakukan untuk mencapai tujuan dari
penelitian atau urutan kerja menyeluruh selama pelaksanaan
penelitian.

BAB IV

HASIL PENELITIAN DAN PEMBAHASAN
Bab ini berisi pengolahan dari data yang telah dikumpulkan,
langkah-langkah pemecahan masalah dan metode analisis serta
pembahasan penelitian.

BAB V

KESIMPULAN DAN SARAN
Bab ini berisi kesimpulan dan saran dari hasil penelitian yang
telah dilakukan yang didapatkan dari tujuan dan permasalahan
yang ada.

DAFTAR PUSTAKA
LAMPIRAN

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

8

BAB II
TINJ AUAN PUSTAKA

2.1

Data Mining
Istilah data mining memiliki beberapa padanan seperti knowledge

discovery atau pattern recognition. Istilah knowledge discovery atau penemuan
pengetahuan digunakan kerena tujuan utama dari data mining memang untuk
mendapatkan pengetahuan yang masih tersembunyi di dalam bongkahan data.
Istilah pattern recognition atau pengenalan pola pun tepat digunakan kerena
pengetahuan yang hendak digali memang berbentuk pola-pola yang mungkin juga
masih perlu digali dari dalam bongkahan data yang tengah dihadapi. (Susanto,
2010 dalam tesis Budiman, 2012)
Data Mining sebagai salah satu cabang ilmu yang relatif baru mempunyai
potensi pengembangan yang sangat besar dan diprediksi akan menjadi salah satu
yang paling revolusioner pada dekade ini (Larose, 2006 dalam tesis Budiman,
2012). Data Mining sendiri merupakan sebuah proses ekstraksi informasi untuk
menemukan pola (pattern recognition) yang penting pada tumpukan data dalam
database sehingga menjadi pengetahuan (knowledge discovery). Fungsi-fungsi
dalam data mining antara lain: fungsi deskripsi, fungsi estimasi, fungsi Prediksi,
fungsi Klasifikasi, fungsi Clustering dan fungsi asosiasi (Larose, 2005 dalam tesis
Budiman, 2012).
Data mining adalah serangkaian proses untuk menggali nilai tambah dari
suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

9

manual (Moertini, 2002). Secara umum data mining memiliki beberapa kajian.
Seperti yang dapat dilihat pada Gambar 2.1, data mining merupakan pusat dari
beberapa kajian. Diantaranya adalah estimasi, seleksi variabel, clustering,
visualisasi, market basket analysis dan klasifikasi. Semua kajian tersebut
termasuk ke dalam data mining.

Gambar 2.1 Kajian Umum Data Mining
(Sumber : Santosa, 2007)
Data mining merupakan bidang dari beberapa bidang keilmuan yang
menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database
dan visualisasi untuk penanganan permasalahan pengambilan informasi dari
database yang besar (Larose, 2005). Data mining adalah analisis otomatis dari data
yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau
kecenderungan yang penting yang biasanya tidak disadari keberadaannya
(Moertini, 2002). Hal-hal penting yang terkait dengan data mining adalah (Luthfi
& Kusrini, 2009):

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

10

1.

Data mining merupakan suatu proses otomatis terhadap data yang sudah
ada.

2.

Data yang akan diproses berupa data yang sangat besar.

3.

Tujuan data mining adalah mendapatkan hubungan atau pola yang
mungkin memberikan indikasi yang bermanfaat.
Hubungan yang dicari dalam data mining dapat berupa hubungan antara

dua atau lebih objek dalam satu dimensi yang sama. Misalnya dalam dimensi
produk dapat melihat keterkaitan pembelian suatu produk dengan produk yang
lain. Selain itu, hubungan juga dapat dilihat antara dua atau lebih atribut dan dua
atau lebih objek (Ponniah, 2001). Masalah-masalah yang sesuai untuk
diselesaikan dengan teknik data mining dapat dicirikan dengan (Piatetsky &
Shapiro, 2006):
1.

Memerlukan keputusan yang bersifat knowledge-based.

2.

Mempunyai lingkungan yang berubah.

3.

Metode yang ada sekarang bersifat sub-optimal.

4.

Tersedia data yang bisa diakses, cukup dan relevan.

5.

Memberikan keuntungan yang tinggi jika keputusan yang diambil tepat.
Kata mining mempunyai arti yaitu usaha untuk mendapatkan sedikit

barang berharga dari sejumlah besar material dasar. Data mining memiliki akar
yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelegent),
machine learning, statistik dan database. Beberapa metode yang sering disebutsebut dalam literatur data mining antara lain clustering, classification, association
rules mining, neural network, genetic algorithm dan lain-lain (Moertini, 2002).

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

11

Data mining sering digunakan untuk membangun model prediksi/ inferensi
yang bertujuan untuk memprediksi tren masa depan atau perilaku berdasarkan
analisis data terstruktur. Dalam konteks ini, prediksi adalah pembangunan dan
penggunaan model untuk menilai kelas dari contoh tanpa label, atau untuk menilai
jangkauan nilai atau contoh yang cenderung memiliki nilai atribut. Klasifikasi dan
regresi adalah dua bagian utama dari masalah prediksi, dimana klasifikasi
digunakan untuk memprediksi nilai diskrit atau nominal sedangkan regresi
digunakan untuk memprediksi nilai terus-menerus atau nilai yang ditentukan
(Larose, 2005).
2.1.1 Tahapan Data Mining
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi
beberapa tahap yang diilustrasikan di Gambar 2.2. Tahap-tahap tersebut bersifat
interaktif, pemakai terlibat langsung atau dengan perantaraan knowledge base.

Gambar 2.2 Tahap-Tahap Data Mining (Han, 2006)

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

12

Tahap-tahap data mining ada 7, yaitu :
1.

Pembersihan data (data cleaning)
Pembersihan data merupakan proses menghilangkan noise dan data yang
tidak konsisten atau data tidak relevan. Pada umumnya data yang
diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen,
memiliki isian-isian yang tidak sempurna seperti data yang hilang, data
yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga
atribut-atribut data yang tidak relevan dengan hipotesa data mining yang
dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang.
Pembersihan data juga akan mempengaruhi performasi dari teknik data
mining karena data yang ditangani akan berkurang jumlah dan
kompleksitasnya.

2.

Integrasi data (data integration)
Integrasi data merupakan penggabungan data dari berbagai database ke
dalam satu database baru. Tidak jarang data yang diperlukan untuk data
mining tidak hanya berasal dari satu database tetapi juga berasal dari
beberapa database atau file teks. Integrasi data dilakukan pada atributaribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut
nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu
dilakukan secara cermat karena kesalahan pada integrasi data bisa
menghasilkan hasil

yang

menyimpang dan bahkan menyesatkan

pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

13

jenis produk ternyata menggabungkan produk dari kategori yang berbeda
maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada.
3.

Seleksi Data (Data Selection)
Data yang ada pada database sering kali tidak semuanya dipakai, oleh
karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari
database.

Sebagai

contoh,

sebuah

kasus

yang

meneliti

faktor

kecenderungan orang membeli dalam kasus market basket analysis, tidak
perlu mengambil nama pelanggan, cukup dengan id pelanggan saja.
4.

Transformasi data (Data Transformation)
Data diubah atau digabung ke dalam format yang sesuai untuk diproses
dalam data mining. Beberapa metode data mining membutuhkan format
data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa
metode standar seperti analisis asosiasi dan clustering hanya bisa
menerima input data kategorikal. Karenanya data berupa angka numerik
yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini
sering disebut transformasi data.

5.

Proses mining,
Merupakan suatu proses utama saat metode diterapkan untuk menemukan
pengetahuan berharga dan tersembunyi dari data.

6.

Evaluasi pola (pattern evaluation),
Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang
ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola
yang khas maupun model prediksi dievaluasi untuk menilai apakah

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

14

hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh
tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti
menjadikannya umpan balik untuk memperbaiki proses data mining,
mencoba metode data mining lain yang lebih sesuai, atau menerima hasil
ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.
7.

Presentasi pengetahuan (knowledge presentation),
Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang
digunakan untuk memperoleh pengetahuan yang diperoleh pengguna.
Tahap

terakhir

dari

proses

data

mining

adalah

bagaimana

memformulasikan keputusan atau aksi dari hasil analisis yang didapat.
Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami
data mining. Karenanya presentasi hasil data mining dalam bentuk
pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang
diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi
juga bisa membantu mengkomunikasikan hasil data mining (Han, 2006
dalam skripsi Masykur, 2010).
2.1.2 Pengelompokkan Data Mining
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang
dapat dilakukan, yaitu (Larose, 2005):
1.

Deskripsi
Terkadang penelitian analisis secara sederhana ingin mencoba mencari
cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam
data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

15

menemukan keterangan atau fakta bahwa siapa yang tidak cukup
profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi
dari pola dan kecenderungan sering memberikan kemungkinan penjelasan
untuk suatu pola atau kecenderungan.
2.

Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi
lebih ke arah numerik daripada ke arah kategori. Model dibangun
menggunakan record lengkap yang menyediakan nilai dari variabel target
sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi
nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai
contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah
sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan
level sodium darah. Hubungan antara tekanan darah sistolik dan nilai
variabel prediksi dalam proses pembelajaran akan menghasilkan model
estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus
baru lainnya.

3.

Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa
dalam prediksi nilai dari hasil akan ada di masa datang. Contoh prediksi
dalam bisnis dan penelitian adalah :
a. Prediksi harga beras dalam tiga bulan yang akan datang.
b. Prediksi presentase kenaikan kecelakaan lalu lintas tahun depan jika batas
bawah kecepatan dinaikkan.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

16

Beberapa metode dan teknik yang digunakan dalam klasifikasi dan
estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.
4.

Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh,
penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu
pendapatan tinggi, pendapatan sedang, dan pendapatan rendah. Contoh
lain klasifikasi dalam bisnis dan penelitian adalah :
a. Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang
curang atau bukan.
b. Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan
suatu kredit yang baik atau buruk.
c. Mendiagnosis penyakit seorang pasien untuk mendapatkan kategori
penyakit apa.

5.

Pengklusteran
Pengklusteran merupakan pengelompokan record, pengamatan, atau
memperhatikan dan membentuk kelas objek-objek yang memiliki
kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan satu
dengan yang lainnya dan memiliki ketidakmiripan dengan record-record
dalam cluster lain. Pengklusteran berbeda dengan klasifikasi yaitu tidak
adanya variabel target dalam pengklusteran. Pengklusteran tidak mencoba
untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari
variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk
melakukan pembagian terhadap keseluruhan data menjadi kelompok-

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

17

kelompok yang memiliki kemiripan (homogen), yang mana kemiripan
record dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan
dengan record dalam kelompok lain akan bernilai minimal. Contoh
pengklusteran dalam bisnis dan penelitian adalah:
a. Melakukan pengklusteran terhadap ekspresi dari gen, untuk mendapatkan
kemiripan perilaku dari gen dalam jumlah besar.
b. Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari
suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang
besar.
c. Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap
perilaku finansial dalam baik dan mencurigakan.
6.

Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul
dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis
keranjang belanja. Contoh asosiasi dalam bisnis dan penelitian adalah :
a. Menemukan barang dalam supermarket yang dibeli secara bersamaan dan
barang yang tidak pernah dibeli secara bersamaan.
b. Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang
diharapkan untuk memberikan respons positif terhadap penawaran
upgrade layanan yang diberikan.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

18

2.2

Clustering
Clustering adalah studi formal metode dan algoritma untuk partisi atau

pengelompokan. Analisis clustering tidak menggunakan pelabelan kategori
sebelumnya. Clustering bersifat unsupervised learning atau tidak mempunyai
tahap pelatihan data, berbeda dengan klasifikasi (Jain, 2009 dalam tesis Budiman,
2012).
Clustering adalah alat penemuan mengungkapkan hubungan dan struktur
di dalam data yang sebelumnya tidak jelas menjadi pengetahuan yang bermanfaat
ketika ditemukan.
Tujuan utama dari metode clustering adalah pengelompokan sejumlah
data/ obyek ke dalam cluster (group) sehingga dalam setiap cluster akan berisi
data yang semirip mungkin. Clustering adalah metode yang berusaha untuk
menempatkan obyek yang mirip (jaraknya dekat) dalam satu cluster dan membuat
jarak antar cluster sejauh mungkin. Ini berarti obyek dalam satu cluster sangat
mirip satu sama lain dan berbeda dengan obyek dalam cluster-cluster yang lain.
Clustering digunakan untuk menganalisis pengelompokkan berbeda
terhadap data, mirip dengan klasifikasi, namun pengelompokkan belum
didefinisikan sebelum dijalankannya tool data mining. Clustering membagi item
menjadi kelompok-kelompok berdasarkan yang ditemukan tool data mining.
Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas
dan meminimumkan kesamaan antar cluster. Clustering dapat dilakukan pada data
yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi
(Kusnawi, 2007 dalam tesis Budiman, 2012).

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

19

Clustering adalah sebuah proses pengelompokan data ke dalam beberapa
kelas berdasarkan kemiripan data. Tujuannya adalah untuk menemukan cluster
yang berkualitas dalam waktu yang layak. Clustering merupakan suatu alat untuk
analisa data, yang memecahkan permasalahan penggolongan. Clustering dalam
data mining berguna untuk menemukan pola distribusi di dalam sebuah data set
yang berguna untuk proses analisa data. Kesamaan objek biasanya diperoleh dari
kedekatan nilai – nilai atribut yang menjelaskan objek – objek data, sedangkan
objek – objek data biasanya dipresentasikan sebagai sebuah titik dalam ruang
multidimensi.
Terdapat dua pendekatan dalam metode dalam metode ini diantaranya
adalah Hierarchical dan Partitioning. Clustering dengan dengan pendekatan
hirarki atau

sering

disebut

dengan

hierarchical

clustering

merupakan

pengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana
data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak
pada hirarki yang berjauhan. Sedangkan, clustering dengan pendekatan partisi
atau

sering

disebut

dengan

partition



based

clustering

merupakan

pengelompokkan data dengan memilah – milah data yang dianalisa ke dalam
cluster – cluster yang ada.
Baskoro (2010) dalam skripsi Nango Dwi (2012) menyatakan bahwa
Clustering atau clusterisasi adalah salah satu alat bantu pada data mining yang
bertujuan mengelompokkan obyek-obyek ke dalam cluster-cluster. Cluster adalah
sekelompok atau sekumpulan obyek-obyek data yang similar satu sama lain
dalam cluster yang sama dan dissimilar terhadap obyek-obyek yang berbeda

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

20

cluster. Obyek akan dikelompokkan ke dalam satu atau lebih cluster sehingga
obyek-obyek yang berada dalam satu cluster akan mempunyai kesamaan yang
tinggi antara satu dengan lainnya. Obyek-obyek dikelompokkan berdasarkan
prinsip memaksimalkan kesamaan obyek pada cluster yang sama dan
memaksimalkan ketidaksamaan pada cluster yang berbeda. Kesamaan obyek
biasanya diperoleh dari nilai-nilai atribut yang menjelaskan obyek data,
sedangkan obyek-obyek data biasanya direpresentasikan sebagai sebuah titik
dalam ruang multidimensi.
Dengan menggunakan clusterisasi, kita dapat mengidentifikasi daerah
yang padat, menemukan pola-pola distribusi secara keseluruhan, dan menemukan
keterkaitan yang menarik antara atribut-atribut data. Dalam data mining, usaha
difokuskan pada metode-metode penemuan untuk cluster pada basis data
berukuran besar secara efektif dan efisien. Beberapa kebutuhan clusterisasi dalam
data mining meliputi skalabilitas, kemampuan untuk menangani tipe 12 atribut
yang berbeda, mampu menangani dimensionalitas yang tinggi, menangani data
yang mempunyai noise, dan dapat diterjemahkan dengan mudah.

Gambar 2.3 Contoh Clustering (Baskoro 2010)
Adapun tujuan dari data clustering ini adalah untuk meminimalisasikan
objective function yang diset dalam proses clustering, yang pada umumnya

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

21

berusaha

meminimalisasikan

variasi

di

dalam

suatu

cluster

dan

memaksimalisasikan variasi antar cluster.
2.2.1 Metode Clustering
Menurut Baskoro (2010) dalam skripsi Nango Dwi (2012), secara garis
besar, terdapat beberapa metode clusterisasi data. Pemilihan metode clusterisasi
bergantung pada tipe data dan tujuan clusterisasi itu sendiri. Metode-metode
beserta algoritma yang termasuk didalamnya meliputi :
a.

Partitioning Method
Membangun berbagai partisi dan kemudian mengevaluasi partisi tersebut
dengan beberapa kriteria, yang termasuk metode ini meliputi algoritma KMeans, K-Medoid, PROCLUS, CLARA, CLARANS, dan PAM.

b.

Hierarchical Methods
Membuat suatu penguraian secara hierarkikal dari himpunan data dengan
menggunakan beberapa kriteria. Metode ini terdiri atas dua macam, yaitu
Agglomerative yang menggunakan strategi bottom-up dan Disisive yang
menggunakan strategi top-down. Metode ini meliputi algoritma BIRCH,
AGNES, DIANA, CURE, dan CHAMELEON.

c.

Density-based Methods
Metode ini berdasarkan konektivitas dan fungsi densitas. Metode ini
meliputi algoritma DBSCAN, OPTICS, dan DENCLU.

d.

Grid-based Methods
Metode ini berdasarkan suatu struktur granularitas multi-level. Metode
clusterisasi ini meliputi algoritma STING, WaveCluster, dan CLIQUE.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

22

e.

Model-based Methods
Suatu model dihipotesakan untuk masing-masing cluster dan ide untuk
mencari best fit dari model tersebut untuk masing-masing yang lain.
Metode klusterisasi ini meliputi pendekatan statitik, yaitu algoritma
COBWEB dan jaringan syaraf tiruan, yaitu SOM.

2.3

Algoritma K-Means
Menurut Widyawati (2010) dalam skripsi Nango Dwi (2012), algoritma k-

means merupakan algoritma yang membutuhkan parameter input sebanyak k dan
membagi sekumpulan n objek kedalam k cluster sehingga tingkat kemiripan antar
anggota dalam satu cluster tinggi sedangkan tingkat kemiripan dengan anggota
pada cluster lain sangat rendah. Kemiripan anggota terhadap cluster diukur
dengan kedekatan objek terhadap nilai mean pada cluster atau dapat disebut
sebagai centroid cluster atau pusat massa.
Berikut rumus pengukuran jarak menurut Santosa (2007) dalam skripsi
Nango Dwi (2012) :
d(x,y) = ||x-y||2 =



(

− )

Adapun rumus perhitungan jarak lainnya didefinisikan sebagai berikut :
d(x,y) = (

− )

+ (

− )

Keterangan :
d = titik dokumen
x = data record
y = data centroid

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

23

Jarak yang terpendek antara centroid dengan dokumen menentukan posisi
cluster suatu dokumen. Misalnya dokumen A mempunyai jarak yang paling
pendek ke centroid 1 dibanding ke yang lain, maka dokumen A masuk ke group 1.
Hitung kembali posisi centroid baru untuk tiap-tiap centroid (Ci..j) dengan
mengambil rata – rata dokumen yang masuk pada cluster awal (Gi..j ). Iterasi
dilakukan terus hingga posisi group tidak berubah. Berikut rumus dari penentuan
centroid :
C (i) = |

|




̅

Adapun rumus iterasi lainnya didefinisikan sebagai berikut :
C(i) =



Keterangan :
x1 = nilai data record ke-1
x2 = nilai data record ke-2
Σx = jumlah data record
K-Means merupakan algoritma clustering yang bersifat partitional yaitu
membagi himpunan objek data ke dalam sub himpunan (cluster) yang tidak
overlap, sehingga setiap objek data berada tepat dalam satu cluster. Strategi