Tabel 3.2 Data Jenis Program Beasiswa di Universitas sumatera Utara No.
Nama Beasiswa
1 Beasiswa Peningkatan Prestasi Akademik PPA
2 Beasiswa Bantuan Belajar Mahasiswa BBM
3 Beasiswa BANK INDONESIA BI
4 Beasiswa Technological and Professional Skills Development Sector
Project TPSDP 5
Beasiswa Yayasan Supersemar 6
Beasiswa Yayasan Toyota Astra 7
Beasiswa Yayasan Jepang 8
Beasiswa PT.DJARUM 9
Beasiswa TANOTO FOUNDATION 10
Beasiswa TJIPTA SARJANA 11
Beasiswa Konsorsium Pendidikan BPMIGAS -KKKS Badan Pelaksanaan Minyak dan Gas
– Kontraktor Kontrak Kerja Sama 12
Beasiswa Society of Petroleum SPE 13
Beasiswa Yayasan Salim 14
Beasiswa PT. Bank Rakyat Indonesia BRI Persero Tbk 15
Beasiswa PT. Gudang Garam 16
Beasiswa YKPP Yayasan Kesejahteraan Pegawai Pertamina 17
Beasiswa PT. SUN LIFE FINANCIAL INDONESIA 18
Beasiswa Peningkatan Prestasi Ekstrakurikuler PPE
3.3 Perancangan Sistem
Sistem yang akan dibangun pada tugas akhir ini dapat dilihat pada gambar 3.1 flowchart sistem clustering. Mahasiswa melakukan pendaftaran dengan menginputkan
data kedalam sistem. Sistem melakukan proses filter datacleaning data pada data yang diinputkan. Data yang telah di cleaning kemudian dihitung centroid dari tiap-tiap data.
Kemudian Sistem menghitung jarak data terhadap cluster, jika urutan jarak sama maka disimpan ke database jika urutan jarak tidak sama kembali ke perhitungan centroid.
Flowchart sistem clustering yang dibangun adalah sebagai berikut:
Universitas Sumatera Utara
Start
Input data mahasiswa
Filter data cleaning data
Hitung centroid clusteri
inc i = 18 Hitung jarak data
anggota clusteri
Sort Asc
Urutan jarak sama
Simpan ke database
Ya
End Ya
Tidak
Tidak
Gambar 3.1 Flowchart Clustering
Universitas Sumatera Utara
3.3.1 Pengelompokan Data Clustering Data Data di kelompokkan berdasarkan karakteristik yang telah di tentukan yaitu
berdasarkan umur, fakultas, semester, SKS yang telah diselesaikan, Indeks Prestasi Kumulatif IPK, dan penghasilan orang tua. Data yang di inputkan mahasiswa akan
di filterisasi kemudian akan terbentuk centroid, berdasarkan karakteristik yang telah ditentukan centroid yang dihasilkan sebanyak enam centroid. Setelah centroid
terbentuk kemudian dilakukan proses cluster dengan C-Means. Secara umum proses pengelompokan data dapat dilihat pada gambar 3.2 tahapan pengelompokan data
berikut :
Gambar 3.2 Tahapan Pengelompokan Data
3.3.2 Data Cleaning
Karakter yang akan di inputkan oleh mahasiswa berupa Nomor Induk Mahasiswa NIM, Nama, Email, Tanggal lahir, Nomor handphone, Alamat, Fakultas, Program
S1 atau D3, Semester, Jumlah SKS lulus, Indeks Prestasi Kumulatif IPK, Nama ayah, Nama ibu, Alamat orang tua, dan Penghasilan orang tua. Nomor Induk
Mahasiswa digunakan sebagai id mahasiswa. Mahasiswa melakukan login dengan menginputka NIM dan data selengkapnya akan muncul pada sistem, apabila data
selengkapnya telah ditampilkan kemudian mahasiswa melakukan pendaftaran.
Kemudian dilakukan proses filterisasi Data Cleaning sehingga dihasilkan data Umur, Fakultas, Semester, SKS, Indeks Prestasi Kumulatif, dan Penghasilan
orang tua. Proses clustering tidak dapat menghitung data kategori dan hanya bisa menghitung data numerik pada karakteristik fakultas, pada databasenya di ubah ke
numerik. Nilai numerik pada tiap fakultas dapat dilihat pada tabel 3.3. Pada data penghasilan orang tua, jumlah penghasilan orangtua dibagi 1.000.000 agar dapat
mempermudah dalam penghitungan jarak cluster. Pada table 3.4 merupakan sampel
Universitas Sumatera Utara
data, diambil dari data mahasiswa Fakultas Ilmu Komputer dan Teknologi Informasi merupakan sampel data dari 20 mahasiswa yang mendaftar beasiswa dengan
karakteristik yang telah di inputkan mahasiswa, setelah dilakukan proses filterisasi data cleaning maka hasil dari data mahasiswa yang mendaftar beasiswa dapat dilihat
pada tabel 3.4.
Tabel 3.3 Nilai Numerik Tiap Fakultas Nilai Numerik Fakultas
Nama Fakultas
1 Kedokteran
2 Hukum
3 Pertanian
4 Teknik
5 Ekonomi
6 Kedokteran Gigi
7 Ilmu Budaya
8 Matematika dan Ilmu Pengetahuan Alam
9 Ilmu Sosial dan Ilmu Politik
10 Kesehatan Masyarakat
11 Farmasi
12 Psikologi
13 Keperawatan
14 Ilmu Komputer dan Teknologi Informasi
Tabel 3.4 Hasil Filterisasi Cleaning Data Karakteristik Data Mahasiswa NIM
Umur Fakultas
Semester Jumlah
SKS Lulus
IPK Penghasilan
101402001 20
14 6
85 2.98
5 101402002
21 14
6 87
3.56 5
101402003 21
14 6
87 3.2
5 101402004
20 14
6 82
2.91 7.5
101402005 21
14 6
85 2.97
5 101402007
22 14
6 87
3.42 5
101402008 21
14 6
96 3.05
5 101402009
20 14
6 87
3.68 5
101402010 20
14 6
72 2.13
5.5 101402013
21 14
6 85
3.22 5
101402014 20
14 6
84 3.5
5 101402015
20 14
6 87
3.28 5.5
Universitas Sumatera Utara
Tabel 3.4 Hasil Filterisasi Cleaning Data Karakteristik Data Mahasiswa Lanjutan
NIM Umur
Fakultas Semester
Jumlah SKS
Lulus IPK
Penghasilan
101402016 20
14 6
84 3.17
5 101402017
20 14
6 87
3.35 5
101402018 20
14 6
84 2.99
5 101402019
21 14
6 87
3.24 5
101402020 20
14 6
98 3.42
7.5 101402021
22 14
6 85
3.08 7.5
101402022 20
14 6
82 2.81
7.5 101402023
20 14
6 87
3.51 7.5
Tabel diatas merupakan filterisasicleaning data dari data yang di inputkan mahasiswa yang mendaftar beasiswa. Setiap penghasilan orang tua dibagikan
1.000.000 sehingga menghasilkan nilai seperti pada tabel 3.4. Misalkan penghasilan orang tua RP 5.000.000 kemudian dibagi 1.000.000 sehingga hasilnya 5. Mahasiswa
yang orang tuanya mampu mempunyai kemungkinan untuk memperoleh beasiswa apabila mahasiswa tersebut berprestasi dan jika kriteria yang dimiliki mahasiswa
sesuai dengan syarat beasiswa yang ditawarkan. Sedangkan untuk Fakultas di ubah menjadi numerik dengan nilai numeriknya berdasarkan urutan dari tiap Fakultas
tersebut, seperti pada tabel 3.3.
3.3.3 Pembentukan Centroid Cluster Pembentukan centroid di gunakan untuk mengelompokkan atribut-atribut dari tiap-
tiap cluster. Atribut dari tiap cluster di jumlahkan kemudian dicari rata-rata tiap cluster dan di akarkan untuk mendapatkan hasil yang minimum. Pembentukan
centroid di hitung dengan persamaan: ⋃
= 1 ∀
Keterangan: X
: Data sampel himpunan ke-i : Himpunan ke i, dengan i=
1,2, …, c
Universitas Sumatera Utara
: Data ke k, dengan k= 1,2, …, p
c : Banyak jenis himpunan data
p : Banyak data
1. Centroid 1 – Gabungan dari semua kelompok set umur meliputi himpunan
titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan
∑ dengan n = jumlah data.
= =
= 20.5 =
√ 20.5 = 4.5
2. Centroid 2 – Gabungan dari semua kelompok set fakultas meliputi himpunan
titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan
∑ dengan n = jumlah data.
= =
= 14 =
√ 14 = 3.7
3. Centroid 3 – Gabungan dari semua kelompok set semester meliputi
himpunan titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan
∑ dengan n = jumlah data.
= =
Universitas Sumatera Utara
= 6 =
√ 6 = 2.4
4. Centroid 4 – Gabungan dari semua kelompok set SKS meliputi himpunan
titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan
∑ dengan n = jumlah data.
= =
= 85.9 =
√ 85.9 = 9.3
5. Centroid 5 – Gabungan dari semua kelompok set IPK meliputi himpunan
titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan
∑ dengan n = jumlah data.
=
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
=
.
= 3.17 =
√ 3.17 = 1.78
6. Centroid 6 – Gabungan dari semua kelompok set penghasilan orang tua
meliputi himpunan titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis
dengan persamaan ∑
dengan n = jumlah data. =
. .
. .
. .
.
=
.
= 5.68
Universitas Sumatera Utara
= √ 5.68
= 2.38 Dari persamaan di atas maka dapat dihasilkan enam centroid dengan nilai yang
berbeda tiap centroidnya. Tidak ada yang overlap antara cluster. Tidak ada cluster yang kosong dan tidak ada cluster yang memuat semua titik data. Tidak ada centroid
yang nilainya sama karena centroid di kelompokkan berdasarkan objek yang sama dan berbeda dengan objek pada centroid yang lain, karena clustering mengelompokkan
objek-objek sedemikian rupa sehingga objek dalam satu cluster sangat mirip sedangkan objek diberbagai cluster cukup berbeda. Dari persamaan di atas dapat
disimpulkan bahwa perbandingan antara tiap-tiap centroid dapat dilihat pada tabel 3.4 berikut:
Tabel 3.5 Perbandingan Antara Tiap-tiap Centroid
4.5 3.7
2.4 9.3
1.78 2.38
3.3.4 Clustering dengan C-Means Proses pengelompokan Clustering C-Means dapat dilihat pada gambar 3.4 Flowchart
Clustering C-Means. Pertama ditentukan banyaknya cluster kemudian di tentukan pusat cluster. Pada penelitian ini jumlah cluster sebanyak 18, jumlah cluster pada
penelitian ini di tetapkan berdasarkan banyaknya beasiswa yang ditawarkan di Universitas Sumatera Utara. Kemudian di tentukan pusat cluster dan dihitung jarak
objek ke pusat cluster, objek tersebut dikelompokkan berdasarkan jarak minimum. Jika ada objek yang harus dipindah maka prosesnya akan kembali ke penentuan pusat
cluster. Pusat cluster merupakan centroid yang memperoleh nilai minimum. Pada
centroid1 samapai centroid6 pusat clusternya adalah centroid5 karena memperoleh nilai minimum yaitu 1.78. Pusat cluster bertujuan untuk menemukan alokasi titik data
sedemikian rupa sehingga jarak diminimalkan. Menurut Euclidean norm, antara sampel data k,
dan i pusat cluster dihitung dengan persamaan:
Universitas Sumatera Utara
= −
Keterangan: : Jarak data ke pusat cluster
: Nilai data : Pusat cluster
k : 1,2, … p
i :
1,2, … c p
: Banyak data c
: Banyak jenis himpunan data
Gambar 3.3 Flowchart Clustering C-Means
Universitas Sumatera Utara
Tabel 3.6 Jarak Data Umur ke Pusat Cluster Umur
= −
= Jarak data ke pusat cluster
20 20
– 1.78 18.22
21 21
– 1.78 19.22
21 21
– 1.78 19.22
20 20
– 1.78 18.22
21 21
– 1.78 19.22
22 22
– 1.78 20.22
21 21
– 1.78 19.22
20 20
– 1.78 18.22
20 20
– 1.78 18.22
21 21
– 1.78 19.22
20 20
– 1.78 18.22
20 20
– 1.78 18.22
20 20
– 1.78 18.22
20 20
– 1.78 18.22
20 20
– 1.78 18.22
21 21
– 1.78 19.22
20 20
– 1.78 18.22
22 22
– 1.78 20.22
20 20
– 1.78 18.22
20 20
– 1.78 18.22
Pada tabel 3.5 dapat diketahui jarak data umur ke pusat cluster. Sedangkan untuk sampel data Fakultas, Semester, SKS, IPK, dan penghasilan orang tua dapat
diketahui jarak data dari tiap objek ke pusat cluster dengan persamaan seperti pada tabel 3.5. Setelah diketahui jarak objek ke pusat cluster kemudian objek
dikelompokkan berdasarkan jarak minimum. Jika ada objek yang harus di pindah maka akan kembali pada proses penentuan pusat objek tersebut. Kemudian lanjut pada
proses penghitungan jarak objek ke pusat cluster hingga pengelompokan objek berdasarkan jarak minimum dan dilakukan secara berulang sehingga diperoleh
kualitas alokasi cluster yang berbeda. C-Means menggunakan jumlah jarak antara
Universitas Sumatera Utara
usulan cluster dan data terkait yang menunjukkan milik kelompok tersebut, sehingga diperoleh rekomendasi jenis beasiswa yang sesuai untuk di ikuti mahasiswa yang
mendaftar beasiswa. Rekomendasi yang diperoleh mahasiswa sesuai dengan jarak kedekatan karakter yang di inputkan terhadap jenis beasiswa yang direkomendasikan.
3.4 Analisis Komponen Sistem