Perancangan Sistem Penerapan Metode Clustering Data Dengan C-Means Untuk Rekomendasi Penerima Beasiswa Pada Universitas Sumatera Utara

Tabel 3.2 Data Jenis Program Beasiswa di Universitas sumatera Utara No. Nama Beasiswa 1 Beasiswa Peningkatan Prestasi Akademik PPA 2 Beasiswa Bantuan Belajar Mahasiswa BBM 3 Beasiswa BANK INDONESIA BI 4 Beasiswa Technological and Professional Skills Development Sector Project TPSDP 5 Beasiswa Yayasan Supersemar 6 Beasiswa Yayasan Toyota Astra 7 Beasiswa Yayasan Jepang 8 Beasiswa PT.DJARUM 9 Beasiswa TANOTO FOUNDATION 10 Beasiswa TJIPTA SARJANA 11 Beasiswa Konsorsium Pendidikan BPMIGAS -KKKS Badan Pelaksanaan Minyak dan Gas – Kontraktor Kontrak Kerja Sama 12 Beasiswa Society of Petroleum SPE 13 Beasiswa Yayasan Salim 14 Beasiswa PT. Bank Rakyat Indonesia BRI Persero Tbk 15 Beasiswa PT. Gudang Garam 16 Beasiswa YKPP Yayasan Kesejahteraan Pegawai Pertamina 17 Beasiswa PT. SUN LIFE FINANCIAL INDONESIA 18 Beasiswa Peningkatan Prestasi Ekstrakurikuler PPE

3.3 Perancangan Sistem

Sistem yang akan dibangun pada tugas akhir ini dapat dilihat pada gambar 3.1 flowchart sistem clustering. Mahasiswa melakukan pendaftaran dengan menginputkan data kedalam sistem. Sistem melakukan proses filter datacleaning data pada data yang diinputkan. Data yang telah di cleaning kemudian dihitung centroid dari tiap-tiap data. Kemudian Sistem menghitung jarak data terhadap cluster, jika urutan jarak sama maka disimpan ke database jika urutan jarak tidak sama kembali ke perhitungan centroid. Flowchart sistem clustering yang dibangun adalah sebagai berikut: Universitas Sumatera Utara Start Input data mahasiswa Filter data cleaning data Hitung centroid clusteri inc i = 18 Hitung jarak data anggota clusteri Sort Asc Urutan jarak sama Simpan ke database Ya End Ya Tidak Tidak Gambar 3.1 Flowchart Clustering Universitas Sumatera Utara 3.3.1 Pengelompokan Data Clustering Data Data di kelompokkan berdasarkan karakteristik yang telah di tentukan yaitu berdasarkan umur, fakultas, semester, SKS yang telah diselesaikan, Indeks Prestasi Kumulatif IPK, dan penghasilan orang tua. Data yang di inputkan mahasiswa akan di filterisasi kemudian akan terbentuk centroid, berdasarkan karakteristik yang telah ditentukan centroid yang dihasilkan sebanyak enam centroid. Setelah centroid terbentuk kemudian dilakukan proses cluster dengan C-Means. Secara umum proses pengelompokan data dapat dilihat pada gambar 3.2 tahapan pengelompokan data berikut : Gambar 3.2 Tahapan Pengelompokan Data 3.3.2 Data Cleaning Karakter yang akan di inputkan oleh mahasiswa berupa Nomor Induk Mahasiswa NIM, Nama, Email, Tanggal lahir, Nomor handphone, Alamat, Fakultas, Program S1 atau D3, Semester, Jumlah SKS lulus, Indeks Prestasi Kumulatif IPK, Nama ayah, Nama ibu, Alamat orang tua, dan Penghasilan orang tua. Nomor Induk Mahasiswa digunakan sebagai id mahasiswa. Mahasiswa melakukan login dengan menginputka NIM dan data selengkapnya akan muncul pada sistem, apabila data selengkapnya telah ditampilkan kemudian mahasiswa melakukan pendaftaran. Kemudian dilakukan proses filterisasi Data Cleaning sehingga dihasilkan data Umur, Fakultas, Semester, SKS, Indeks Prestasi Kumulatif, dan Penghasilan orang tua. Proses clustering tidak dapat menghitung data kategori dan hanya bisa menghitung data numerik pada karakteristik fakultas, pada databasenya di ubah ke numerik. Nilai numerik pada tiap fakultas dapat dilihat pada tabel 3.3. Pada data penghasilan orang tua, jumlah penghasilan orangtua dibagi 1.000.000 agar dapat mempermudah dalam penghitungan jarak cluster. Pada table 3.4 merupakan sampel Universitas Sumatera Utara data, diambil dari data mahasiswa Fakultas Ilmu Komputer dan Teknologi Informasi merupakan sampel data dari 20 mahasiswa yang mendaftar beasiswa dengan karakteristik yang telah di inputkan mahasiswa, setelah dilakukan proses filterisasi data cleaning maka hasil dari data mahasiswa yang mendaftar beasiswa dapat dilihat pada tabel 3.4. Tabel 3.3 Nilai Numerik Tiap Fakultas Nilai Numerik Fakultas Nama Fakultas 1 Kedokteran 2 Hukum 3 Pertanian 4 Teknik 5 Ekonomi 6 Kedokteran Gigi 7 Ilmu Budaya 8 Matematika dan Ilmu Pengetahuan Alam 9 Ilmu Sosial dan Ilmu Politik 10 Kesehatan Masyarakat 11 Farmasi 12 Psikologi 13 Keperawatan 14 Ilmu Komputer dan Teknologi Informasi Tabel 3.4 Hasil Filterisasi Cleaning Data Karakteristik Data Mahasiswa NIM Umur Fakultas Semester Jumlah SKS Lulus IPK Penghasilan 101402001 20 14 6 85 2.98 5 101402002 21 14 6 87 3.56 5 101402003 21 14 6 87 3.2 5 101402004 20 14 6 82 2.91 7.5 101402005 21 14 6 85 2.97 5 101402007 22 14 6 87 3.42 5 101402008 21 14 6 96 3.05 5 101402009 20 14 6 87 3.68 5 101402010 20 14 6 72 2.13 5.5 101402013 21 14 6 85 3.22 5 101402014 20 14 6 84 3.5 5 101402015 20 14 6 87 3.28 5.5 Universitas Sumatera Utara Tabel 3.4 Hasil Filterisasi Cleaning Data Karakteristik Data Mahasiswa Lanjutan NIM Umur Fakultas Semester Jumlah SKS Lulus IPK Penghasilan 101402016 20 14 6 84 3.17 5 101402017 20 14 6 87 3.35 5 101402018 20 14 6 84 2.99 5 101402019 21 14 6 87 3.24 5 101402020 20 14 6 98 3.42 7.5 101402021 22 14 6 85 3.08 7.5 101402022 20 14 6 82 2.81 7.5 101402023 20 14 6 87 3.51 7.5 Tabel diatas merupakan filterisasicleaning data dari data yang di inputkan mahasiswa yang mendaftar beasiswa. Setiap penghasilan orang tua dibagikan 1.000.000 sehingga menghasilkan nilai seperti pada tabel 3.4. Misalkan penghasilan orang tua RP 5.000.000 kemudian dibagi 1.000.000 sehingga hasilnya 5. Mahasiswa yang orang tuanya mampu mempunyai kemungkinan untuk memperoleh beasiswa apabila mahasiswa tersebut berprestasi dan jika kriteria yang dimiliki mahasiswa sesuai dengan syarat beasiswa yang ditawarkan. Sedangkan untuk Fakultas di ubah menjadi numerik dengan nilai numeriknya berdasarkan urutan dari tiap Fakultas tersebut, seperti pada tabel 3.3. 3.3.3 Pembentukan Centroid Cluster Pembentukan centroid di gunakan untuk mengelompokkan atribut-atribut dari tiap- tiap cluster. Atribut dari tiap cluster di jumlahkan kemudian dicari rata-rata tiap cluster dan di akarkan untuk mendapatkan hasil yang minimum. Pembentukan centroid di hitung dengan persamaan: ⋃ = 1 ∀ Keterangan: X : Data sampel himpunan ke-i : Himpunan ke i, dengan i= 1,2, …, c Universitas Sumatera Utara : Data ke k, dengan k= 1,2, …, p c : Banyak jenis himpunan data p : Banyak data 1. Centroid 1 – Gabungan dari semua kelompok set umur meliputi himpunan titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan ∑ dengan n = jumlah data. = = = 20.5 = √ 20.5 = 4.5 2. Centroid 2 – Gabungan dari semua kelompok set fakultas meliputi himpunan titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan ∑ dengan n = jumlah data. = = = 14 = √ 14 = 3.7 3. Centroid 3 – Gabungan dari semua kelompok set semester meliputi himpunan titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan ∑ dengan n = jumlah data. = = Universitas Sumatera Utara = 6 = √ 6 = 2.4 4. Centroid 4 – Gabungan dari semua kelompok set SKS meliputi himpunan titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan ∑ dengan n = jumlah data. = = = 85.9 = √ 85.9 = 9.3 5. Centroid 5 – Gabungan dari semua kelompok set IPK meliputi himpunan titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan ∑ dengan n = jumlah data. = . . . . . . . . . . . . . . . . . . . . = . = 3.17 = √ 3.17 = 1.78 6. Centroid 6 – Gabungan dari semua kelompok set penghasilan orang tua meliputi himpunan titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan ∑ dengan n = jumlah data. = . . . . . . . = . = 5.68 Universitas Sumatera Utara = √ 5.68 = 2.38 Dari persamaan di atas maka dapat dihasilkan enam centroid dengan nilai yang berbeda tiap centroidnya. Tidak ada yang overlap antara cluster. Tidak ada cluster yang kosong dan tidak ada cluster yang memuat semua titik data. Tidak ada centroid yang nilainya sama karena centroid di kelompokkan berdasarkan objek yang sama dan berbeda dengan objek pada centroid yang lain, karena clustering mengelompokkan objek-objek sedemikian rupa sehingga objek dalam satu cluster sangat mirip sedangkan objek diberbagai cluster cukup berbeda. Dari persamaan di atas dapat disimpulkan bahwa perbandingan antara tiap-tiap centroid dapat dilihat pada tabel 3.4 berikut: Tabel 3.5 Perbandingan Antara Tiap-tiap Centroid 4.5 3.7 2.4 9.3 1.78 2.38 3.3.4 Clustering dengan C-Means Proses pengelompokan Clustering C-Means dapat dilihat pada gambar 3.4 Flowchart Clustering C-Means. Pertama ditentukan banyaknya cluster kemudian di tentukan pusat cluster. Pada penelitian ini jumlah cluster sebanyak 18, jumlah cluster pada penelitian ini di tetapkan berdasarkan banyaknya beasiswa yang ditawarkan di Universitas Sumatera Utara. Kemudian di tentukan pusat cluster dan dihitung jarak objek ke pusat cluster, objek tersebut dikelompokkan berdasarkan jarak minimum. Jika ada objek yang harus dipindah maka prosesnya akan kembali ke penentuan pusat cluster. Pusat cluster merupakan centroid yang memperoleh nilai minimum. Pada centroid1 samapai centroid6 pusat clusternya adalah centroid5 karena memperoleh nilai minimum yaitu 1.78. Pusat cluster bertujuan untuk menemukan alokasi titik data sedemikian rupa sehingga jarak diminimalkan. Menurut Euclidean norm, antara sampel data k, dan i pusat cluster dihitung dengan persamaan: Universitas Sumatera Utara = − Keterangan: : Jarak data ke pusat cluster : Nilai data : Pusat cluster k : 1,2, … p i : 1,2, … c p : Banyak data c : Banyak jenis himpunan data Gambar 3.3 Flowchart Clustering C-Means Universitas Sumatera Utara Tabel 3.6 Jarak Data Umur ke Pusat Cluster Umur = − = Jarak data ke pusat cluster 20 20 – 1.78 18.22 21 21 – 1.78 19.22 21 21 – 1.78 19.22 20 20 – 1.78 18.22 21 21 – 1.78 19.22 22 22 – 1.78 20.22 21 21 – 1.78 19.22 20 20 – 1.78 18.22 20 20 – 1.78 18.22 21 21 – 1.78 19.22 20 20 – 1.78 18.22 20 20 – 1.78 18.22 20 20 – 1.78 18.22 20 20 – 1.78 18.22 20 20 – 1.78 18.22 21 21 – 1.78 19.22 20 20 – 1.78 18.22 22 22 – 1.78 20.22 20 20 – 1.78 18.22 20 20 – 1.78 18.22 Pada tabel 3.5 dapat diketahui jarak data umur ke pusat cluster. Sedangkan untuk sampel data Fakultas, Semester, SKS, IPK, dan penghasilan orang tua dapat diketahui jarak data dari tiap objek ke pusat cluster dengan persamaan seperti pada tabel 3.5. Setelah diketahui jarak objek ke pusat cluster kemudian objek dikelompokkan berdasarkan jarak minimum. Jika ada objek yang harus di pindah maka akan kembali pada proses penentuan pusat objek tersebut. Kemudian lanjut pada proses penghitungan jarak objek ke pusat cluster hingga pengelompokan objek berdasarkan jarak minimum dan dilakukan secara berulang sehingga diperoleh kualitas alokasi cluster yang berbeda. C-Means menggunakan jumlah jarak antara Universitas Sumatera Utara usulan cluster dan data terkait yang menunjukkan milik kelompok tersebut, sehingga diperoleh rekomendasi jenis beasiswa yang sesuai untuk di ikuti mahasiswa yang mendaftar beasiswa. Rekomendasi yang diperoleh mahasiswa sesuai dengan jarak kedekatan karakter yang di inputkan terhadap jenis beasiswa yang direkomendasikan.

3.4 Analisis Komponen Sistem