Model Profil Mahasiswa Yang Potensial Drop Out Menggunakan Teknik Kernel K-Mean Clustering Dan Decision Tree

(1)

MODEL PROFIL MAHASISWA YANG POTENSIAL DROP OUT

MENGGUNAKAN TEKNIK KERNEL K-MEAN CLUSTERING DAN DECISION TREE

TESIS

Oleh

ZEFRI PAULANDA

107038004/TINF

PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA MEDAN

(2)

MODEL PROFIL MAHASISWA YANG POTENSIAL DROP OUT

MENGGUNAKAN TEKNIK KERNEL K-MEAN CLUSTERING DAN DECISION TREE

TESIS

Diajukan sebagai salah satu syarat untuk memperoleh gelar Magister Komputer dalam Program Studi Magister (S2) Teknik Informatika pada

Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara

Oleh

ZEFRI PAULANDA 107038004/TINF

PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA MEDAN

(3)

MODEL PROFIL MAHASISWA YANG POTENSIAL DROP OUT

MENGGUNAKAN TEKNIK KERNEL K-MEAN CLUSTERING DAN DECISION TREE

PENGESAHAN TESIS

Judul Tesis : MODEL PROFIL MAHASISWA YANG

POTENSIAL DROP OUT

MENGGUNAKAN TEKNIK KERNEL K-MEAN CLUSTERING DAN DECISION TREE

Nama Mahasiswa : ZEFRI PAULANDA

Nomor Induk Mahasiwa : 107038004

Program Studi : Magister Teknik Informatika

Fakultas : Ilmu Komputer dan Teknologi Informasi

Universitas Sumatera Utara

Menyetujui Komisi Pembimbing

Dr. Marwan Ramli, M.Si

Anggota Ketua

Prof. Dr. Tulus

Ketua Program Studi, Dekan,

Prof. Dr. Muhammad Zarlis

NIP : 195707011986011003 NIP: 195707011986011003

(4)

PERNYATAAN ORISINALITAS

MODEL PROFIL MAHASISWA YANG POTENSIAL DROP OUT

MENGGUNAKAN TEKNIK KERNEL K-MEAN CLUSTERING DAN DECISION TREE

TESIS

Dengan ini saya menyatakan bahwa saya mengakui semua karya tesis ini adalah hasil kerja saya sendiri kecuali kutipan dan ringkasan yang tiap satunya telah dijelaskan sumbernya dengan benar.

Medan, Juni 2012

Zefri Paulanda NIM 107038004

(5)

PERNYATAAN PERSETUJUAN PUBLIKASI

KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini :

Nama : Zefri Paulanda

NIM : 107038004

Program Studi : Teknik Informatika Jenis Karya Ilmiah : Tesis

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak bebas Royalti Non-Eksklusif (non-Exlusive Royalty Free Right) atas tesis saya yang berjudul

MODEL PROFIL MAHASISWA YANG POTENSIAL DROP OUT

MENGGUNAKAN TEKNIK KERNEL K-MEAN CLUSTERING DAN DECISION TREE

Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk data-base, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan atau sebagai pemilik hak cipta.

Demikian pernyataan ini dibuat dengan sebenarnya.

Medan, Juni 2012

Zefri Paulanda NIM 107038004

(6)

Telah diuji pada Tanggal : 19 Juni 2012

PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Tulus

Anggota : 1. Dr. Marwan Ramli, M.Si

2. Prof. Dr. Muhammad Zarlis 3. Dr. Poltak Sihombing, M.Kom 4. Prof. Dr. Herman Mawengkang

(7)

RIWAYAT HIDUP

DATA PRIBADI

Nama lengkap berikut gelar : Zefri Paulanda, ST Tempat dan Tanggal Lahir : Medan, 17 Juli 1977

Alamat Rumah : Jl. Sekip Gg. Agussalim No. 19 B Medan Telepon / HP : 061- 4146243 / 08126455891

e-mail :

Instansi Tempat Bekerja : Guru SMP Negeri 5 Percut Sei Tuan

Alamat Kantor : Jl. Cucak Rawa II No. 3 Perumnas Mandala

Telepon : -

DATA PENDIDIKAN

SD : SD Negeri No. 060841 Medan Tamat : 1988

SMP : SMP Negeri 6 Medan Tamat : 1992

SMA : SMA Methodist I Medan Tamat : 1995

Strata-1 : Institut Sains Teknologi TD Pardede Tamat : 2005 Strata-2 : PSMTIF PPs Fasilkom-TI USU Tamat : 2012

(8)

KATA PENGANTAR

Pertama-tama kami panjatkan puji syukur kepada Tuhan Yang Maha Esa, atas segala limpahan rahmat dan karunia-Nya sehingga tesis ini dapat diselesaikan tepat pada waktunya. Dengan selesainya tesis ini, perkenankanlah kami mengucapkan terima kasih yang sebesar-besarnya kepada :

Rektor Universitas Sumatera Utara, Prof. Dr. dr. Syahril Pasaribu, DTM&H, M.Sc (CTM), Sp. A(K) atas kesempatan yang diberikan kepada saya untuk mengikuti dan menyelesaikan pendidikan Program Magister.

Dekan Fasilkom-TI (Fakultas Ilmu Komputer dan Teknologi Informasi) Universitas Sumatera Utara Prof. Dr. Muhammad Zarlis, atas kesempatan yang diberikan kepada saya menjadi mahasiswa Program Magister pada Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara.

Ketua Program Studi Magister (S2) Teknik Informatika, Prof. Dr. Muhammad Zarlis dan Sekretaris Program Studi M. Andri Budiman, S.T, M.Comp, M.E.M beserta seluruh staff pengajar pada Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara, yang telah bersedia membimbing penulis sehingga dapat menyelesaikan pendidikan tepat pada waktunya.

Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya saya ucapkan kepada Prof. Dr. Tulus, selaku pembimbing utama dan kepada Dr. Marwan Ramli, M.Si, selaku pembimbing Anggota yang dengan penuh kesabaran menuntun serta membimbing saya hingga selesainya tesis ini dengan baik.

Terima kasih yang tak terhingga dan penghargaan setinggi-tingginya saya ucapkan kepada Prof. Dr. Muhammad Zarlis, Dr. Poltak Sihombing, M.Kom dan Prof. Dr Herman Mawengkang, sebagai pembanding yang telah memberikan saran dan masukan serta arahan yang baik demi penyelesaian tesis ini.

Staff Pegawai dan Administrasi pada Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara yang telah memberikan bantuan dan pelayanan terbaik kapada penulis selama mengikuti perkuliahan hingga saat ini.

(9)

Kepada Ayahanda Alm. Drs. P. Gultom, Ibunda R. Hutabarat selaku orang tua, kepada A. Nainggolan dan M. Panjaitan selaku mertua, kepada Istri tersayang Eka Prasty Nainggolan, S.Pd, dan kepada kedua buah hatiku Slavina Mathilda Putrianda Br. Gultom dan Secilia Ananda Br. Gultom, kepada abangda dan kakanda, juga kepada adik ipar dan lae di Pakam, yang tidak dapat saya sebutkan satu persatu, terimakasih atas segala pengorbanannya, baik moril maupun materil budi baik ini tidak dapat dibalas hanya diserahkan kepada Yesus Kristus.

Rekan mahasiswa/i Angkatan kedua tahun 2010 pada Program Pascasarjana Fakultas Fasilkom-TI Universitas Sumatera Utara yang telah banyak membantu penulis baik berupa dorongan semangat dan doa selama mengikuti perkuliahan.

Semua pihak yang tidak dapat penulis sebutkan satu persatu dalam tesis ini, terimakasih atas segala bantuan dan doa yang diberikan. Dengan segala kekurangan dan kerendahan hati, sekali lagi penulis mengucapkan terima kasih. Semoga kiranya Tuhan yang membalas segala bantuan dan kebaikan yang telah kalian berikan.

Medan, Juni 2012

ZEFRI PAULANDA NIM 107038004

(10)

MODEL PROFIL MAHASISWA YANG POTENSIAL DROP OUT

MENGGUNAKAN TEKNIK KERNEL K-MEAN CLUSTERING DAN DECISION TREE

ABSTRAK

Tesis ini merepresentasikan suatu model profil mahasiswa yang potensial drop out. Model ini disusun dengan menggunakan kernel k-mean clustering dan Decision Tree. Ini dimotivasi oleh adanya ketidakseragaman penyebab mahasiswa yang drop out dalam program D3 Tehnik Informatika FMIPA USU Medan. Oleh karena itu perlu sebuah model profil mahasiswa yang kemungkinan drop out seorang mahasiswa. Sebagai contoh kasus diambil data mahasiswa D3 Tehnik Informatika FMIPA USU Medan untuk angkatan 2009/2010 dan 2010/2011. Data yang diperoleh terlebih dahulu dikelompokkan untuk mendapatkan informasi kondisi mahasiswa secara keseluruhan. Berdasarkan analisa model yang diperoleh ditemukan Mahasiswa yang potensial drop out disebabkan oleh karena tidak ada lagi minat belajar mahasiswa, kurangnya faktor dukungan orang tua, kurangnya kepercayaan diri juga kurangnya prilaku dan waktu belajar mahasiswa.

(11)

MODEL PROFILE OF POTENTIAL STUDENTS DROP OUT

TECHNIQUE USING KERNEL K-MEANS CLUSTERING

AND DECISION TREE

ABSTRACT

This thesis presents a model profile of potential students who drop out. The model was compiled using kernel k-means clustering and Decision Tree. This is motivated by the existence of unequal causes students who drop out in the program D3 Technical Information Faculty USU Medan. Therefore need a model profile of students who drop out the possibility of a student. For example take the case of student data D3 Technical Information Faculty USU Medan to force 2009/2010 and 2010/2011. The data obtained were grouped to obtain advance information of students overall condition. Based on the analysis of models obtained are found students who drop out due to potential because there is no interest in learning of students, lack of parental support factor, a lack of confidence is also a lack of time behavior and student learning.

(12)

DAFTAR ISI

Halaman

KATA PENGANTAR i

ABSTRAK iii

ABSTRACT iv

DAFTAR ISI v

DAFTAR GAMBAR vii

DAFTAR TABEL viii

DAFTAR LAMPIRAN ix

BAB I PENDAHULUAN 1

1.1 Latar Belakang 1

1.2 Perumusan Masalah 6

1.3 Batasan Masalah 6

1.4 Tujuan Penelitian 7

1.5 Manfaat Penelitian 7

BAB II TINJAUAN PUSTAKA 9

2.1 Penambangan Data (Data Mining) 9

2.2 Penambangan Data Pada Pendidikan Tinggi 11 2.3 Algoritma Clustering (Clustering Algorithm) 15 2.3.1 Clustering Hirarkhi (Hierarchical Clustering) 19 2.3.2 Clustering Partisional (Partisional Clustering) 20

2.4 Analisis Cluster 22

2.5 Metode Kernel 23

2.6 Fungsi Kernel 24

2.7 Kernel K-Means Clustering 26

2.8 Decision Tree 31

2.9 Algoritma C 4.5 32

2.10 Persamaan dengan Riset-Riset Lain 37

2.11 Perbedaan dengan Riset-Riset Lain 38

2.12 Kontribusi Riset 39

BAB III METODOLOGI PENELITIAN 40

3.1 Lokasi dan Waktu Penelitian 40

3.2 Rancangan Penelitian 40

3.2.1 Perhitungan dengan menggunakan Gain dan Entropy 41

3.3 Diagram Aktivitas Penelitian 42

3.4 Teknik Pengumpulan Data 43

3.5 Pra Pemrosesan Data (Preprocessing Data) 44

(13)

3.7 Model Cluster 47

3.8 Interpretasi 48

BAB IV HASIL DAN PEMBAHASAN 53

4.1 Pendahuluan 53

4.2 Hasil Penelitian 53

4.3 Cluster Model 55

4.4 Cluster Data Berdasarkan Predikat Prestasi Akademik 57

4.5 Analisis Cluster 58

4.6 Analisis Percobaan Decision Tree 59

4.6.1. Cara untuk menghitung atribut pada

nilai Gain dan Entropy 65

BAB V KESIMPULAN DAN SARAN 70

5.1 Kesimpulan 70

5.2 Saran 70

DAFTAR PUSTAKA 71

(14)

DAFTAR GAMBAR

Nomor

Gambar Judul Halaman

2.1 Tahap-Tahap Menggali Pengetahuan Dari Pangkalan Data

2.2 Proses Pemetaan Kernel 26

3.1 Diagram aktivitas Kerja Penelitian 54

4.1 Cluster Model 55

4.2

Distribusi data antara IPK dengan minat belajar, kepercayaan diri, prilaku belajar, dukungan orangtua dan waktu belajar

4.3 Anggota Cluster berdasarkan Predikat 58

4.4 Grafik Decision Tree 59

4.5 Model Aturan Text Decision Tree 64

4.6 Profil Predikat Kelulusan 65

4.7 Pohon keputusan berdasarkan urutan gain tertinggi

(15)

DAFTAR TABEL

Nomor

Tabel Judul Halaman

3.1 Tampilan Data Set 44

3.2 Tampilan Data 45

3.3 Kategorisasi IPK 46

3.4 Tampilan Kategorisasi Data 46

4.1 Data dalam bentuk XML 54

(16)

DAFTAR LAMPIRAN

Nomor

Lampiran Judul Halaman

A KUESIONER L-1

B Korelasi Penelitian 400 Data L-5

C Data percobaan pembuatan aturan decision tree L-10 D Data aturan Decision Tree berpotensial DO atau Tidak L-19

(17)

MODEL PROFIL MAHASISWA YANG POTENSIAL DROP OUT

MENGGUNAKAN TEKNIK KERNEL K-MEAN CLUSTERING DAN DECISION TREE

ABSTRAK

(18)

MODEL PROFILE OF POTENTIAL STUDENTS DROP OUT

TECHNIQUE USING KERNEL K-MEANS CLUSTERING

AND DECISION TREE

ABSTRACT

(19)

BAB I

PENDAHULUAN

1.1 Latar Belakang

Menurut Turban et al (2005), Aplikasi dari teknik penambangan data ini difokuskan untuk membangun metode-metode dalam mengungkapkan pengetahuan yang tersimpan di dalam data dan digunakan untuk membuka informasi yang tersembunyi di dalam data yang tidak nampak dipermukaan tetapi potensial untuk digunakan. Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang tersimpan di dalam database besar.

Konsep dari data mining adalah KDD (knowledge Discovery in Databases) yang terdiri dari beberapa tahapan seperti pemilihan data, pra pengolahan, transformasi, data mining, dan evaluasi hasil disebut Data Mining (Maimon dan Last. 2000). Teknik data mining secara garis besar dapat dibagi dalam dua kelompok yaitu verifikasi dan discovery. Metode verifikasi umumnya meliputi teknik-teknik statistik seperti goodness of fit, dan analisis variansi. Metode discovery lebih lanjut dapat dibagi atas model prediktif dan model deskriptif. Teknik prediktif melakukan prediksi terhadap data dengan menggunakan hasil-hasil yang telah diketahui dari data yang berbeda. Model ini dapat dibuat berdasarkan penggunaan data historis lain. Sementara itu, model deskriptif bertujuan mengidentifikasi pola-pola atau hubungan antar data dan

(20)

memberikan cara untuk mengeksplorasi karakteristik data yang diselidiki (Dunham. 2003).

Memiliki jumlah data yang sangat besar, misalnya data dosen, pegawai, sarana prasarana dalam Perguruan tinggi dapat melakukan analisa saat ini dituntut untuk memiliki kemampuan bersaing dengan memanfaatkan semua sumber daya yang dimiliki. Selain sumber daya sarana, prasarana dan manusia adalah salah satu sumber daya yang dapat digunakan untuk meningkatkan kemampuan bersaing. Sistem informasi dapat digunakan untuk mendapatkan, mengolah dan menyebarkan informasi untuk menunjang kegiatan operasional sehari-hari sekaligus menunjang kegiatan pengambilan keputusan strategis.

Sebagaimana yang telah dibentuk sebelumnya bahwa data yang disebutkan adalah data mahasiswa dalam data set misalnya data mahasiswa yang potensial drop out. Pemahaman profil mahasiswa yang potensial drop out penting untuk diketahui, pemahaman dapat dilakukan dengan mengungkapkan pengetahuan, ini juga dapat digunakan untuk lebih mengetahui bagaimana profil seorang mahasiswa yang akan mengikuti ujian akhir apakah dia cenderung gagal atau berhasil, pengetahuan yang dimiliki untuk memahami, memprediksi, dan pencegahan kegagalan adalah sangat penting bagi managemen perguruan tinggi. Pengetahuan ini dapat digunakan dalam membantu para dosen untuk lebih mengenal situasi para mahasiswanya, dan dapat dijadikan sebagai pengetahuan dini dalam proses pengambilan keputusan untuk tindakan preventif dalam hal mengantisipasi mahasiswa drop-out, untuk meningkatkan prestasi mahasiswa, untuk meningkatkan kurikulum, meningkatkan proses kegiatan belajar dan

(21)

mengajar dan banyak lagi keuntungan lain yang bisa diperoleh dari hasil penambangan data.

Ukuran keberhasilan atau prestasi mahasiswa dapat dilihat dari Indeks Prestasi Kumulatif (IPK) mencerminkan seluruh nilai yang diperoleh mahasiswa sampai semester yang sedang berjalan, yang menunjukkan prestasi akademik mahasiswa bersangkutan sampai semester tersebut. IPK diperoleh dengan cara menjumlahkan seluruh nilai mutu semua mata kuliah yang telah diambil dan membaginya dengan total sks (satuan kredit semester).

Ada beberapa faktor yang menjadi penghalang bagi mahasiswa mencapai dan mempertahankan IPK tinggi yang mencerminkan usaha mereka secara keseluruhan selama masa kuliah di perguruan tinggi. Faktor tersebut dapat ditargetkan oleh pihak perguruan tinggi sebagai tindakan mengembangkan strategi untuk meningkatkan prestasi mahasiswa dan meningkatkan kinerja akademik dengan cara memantau perkembangan kinerja mereka. Menurut Oyelade (2010), evaluasi kinerja merupakan salah satu dasar untuk memantau perkembangan prestasi akademik mahasiswa di dalam perguruan tinggi dan pengelompokkan mahasiswa kedalam kategori yang berbeda sesuai dengan prestasi mereka menjadi tugas yang rumit. Dengan pengelompokkan mahasiswa secara tradisional berdasarkan nilai rata-rata mereka, maka sulit untuk memperoleh pandangan yang menyeluruh mengenai keadaan prestasi mahasiswa (Oyelade. 2010).

Dengan bantuan teknik data mining, seperti algoritma clustering, yang memungkinkan untuk menemukan karakteristik-karakteristik dari prestasi mahasiswa dan menggunakan karakteristik mereka untuk memprediksi prestasi di

(22)

masa depan. Algoritma clustering yang baik idealnya menghasilkan kelompok dengan batasan cluster yang berbeda, meskipun dalam praktek pemisahan yang sempurna biasanya tidak bisa dicapai (Oyelade. 2010).

Pemahaman tentang profil mahasiswa merupakan pengetahuan yang sangat bermanfaat dalam proses pengambilan kebijakan oleh pimpinan perguruan tinggi. Namun masih sangat jarang penelitian yang berkaitan dengan bagaimana menggambarkan sebuah model profil mahasiswa yang dapat dijadikan sebagai basis pengetahuan dalam pengambilan keputusan. Profil Mahasiswa yang dimaksud dalam penelitian ini merupakan gambaran riil kondisi mahasiswa saat ini, berdasarkan informasi profil mahasiswa ini, akan dapat ditentukan tindakan yang semestinya diambil oleh pihak managemen perguruan tinggi untuk mengantisipasi kegagalan mahasiswa dalam menghadapi ujian akhir.

Dalam beberapa penelitian yang telah dilakukan oleh peneliti yang dituliskan dalam jurnal atau karya ilmiah tentang penggunaan data mining pada perguruan tinggi adalah : Romero dan Ventura (2007), telah melakukan survey menyimpulkan bahwa data mining yang berhubungan dengan pendidikan sangat baik untuk diteliti terutama di bidang e-learning, multimedia, artificial intelligent dan web database. Merceron dan Yacep (2005) melakukan penelitian menggunakan data mining untuk mengidentifikasi perilaku mahasiswa yang cenderung gagal pada prestasi akademikk sebelum ujian akhir. Waiyamai, (2003) menggunakan data mining untuk membantu dalam pengembangan kurikulum baru. Ogor, (2007) menggunakan teknik data mining yang digunakan untuk membangun prototype Penilaian Kinerja Monitoring System (PAMS) untuk

(23)

mengevaluasi kinerja mahasiswa. Sajadin, et al, (2009) menggunakan teknik data mining dalam pemantauan dan memprediksi peningkatan prestasi mahasiswa berdasakan minat, prilaku belajar, pemanfaatan waktu dan dukungan orang tua di perguruan tinggi.

Kernel K-mean adalah pengembangan dari algoritma K-means yang menggunakan metode kernel untuk memetakan data yang berdimensi tinggi pada space yang baru sehingga dapat dipisahkan secara linier. Hal ini dilakukan untuk meningkatkan akurasi hasil klaster. Di dalam kernel K-mean diharapkan data bisa dipisahkan dengan lebih baik karena data yang overlap atau data outlier bisa menjadi linier di ruang dimensi baru (Santosa, 2007).

Menurut keputusan Rektor USU Nomor : 3128/J05/SK/AK/2004 Dalam Peraturan Akademik D3 Teknik Informatika FMIPA USU Medan, Mahasiswa dinyatakan lulus dengan ketentuan 2,00 < IPK < 2,75 dengan kriteria Memuaskan. Dengan mengetahui kategori karakteristik mahasiswa diharapkan dapat mendorong para mahasiswa untuk meningkatkan indeks prestasi akademiknya sebelum masa studi berakhir.

Dalam penelitian ini, akan digunakan teknik Kernel K-Means Clustering dan decision tree, untuk menganalisis dan membangun sebuah model profil mahasiswa. Metode ini dipergunakan berdasarkan berbagai laporan dalam literature bahwa teknik Kernel K-Mean Clustering merupakan salah satu metode klaster yang handal dan mampu mengklasterkan dataset campuran (Numerical and Categorical). Dari laporan metode ini memiliki hasil yang lebih baik jika dibandingkan dengan Metode K-Mean Clustering tradisional. Teknik Decision

(24)

Tree merupakan metode dalam machine learning yang sangat dikenal dan handal dalam pattern classification. Sebagai asumsi awal penulis berkeyakinan bahwa metode ini akan cukup efektif digunakan untuk membangun model profil mahasiswa yang potensial mengalami kegagalan pada masa ujian akhir studinya.

Penelitian ini mengambil area pendidikan tinggi sebagai sebagai salah satu domain penelitian dalam bidang penambangan data dengan sumber data dari database akademik D3 Teknik Informatika FMIPA USU Medan hal ini dilakukan sebagai informasi yang diketahui bagian akademik D3 Teknik Informatika terdapat mahasiswa yang memiliki IP rendah dan cenderung DO dan data primer diperoleh dengan melakukan survei (menyebarkan kuesioner) terhadap mahasiswa D3 Teknik Informatika FMIPA USU Angkatan 2009/2010 dan 2010/2011, semester 3 dan 5 hal ini akan terdapat mahasiswa yang drop out.

1.2 Perumusan Masalah

Penelitian tesis ini memprediksi model profil mahasiswa yang cenderung drop out di D3 Teknik Informatika FMIPA USU Medan. Model ini dibangun dengan menggunakan k-mean clustering dan Decision tree.

1.3 Batasan Masalah

Mengingat luasnya ruang lingkup penelitian dalam implemantasi teknik-teknik data mining di area pendidikan, khususnya pada pendidikan tinggi, maka penelitian ini dibatasi pada:

(25)

1. Sumber data untuk penelitian ini, diperoleh dari database akademik dan hasil digunakan bidang informatika dan komputer di D3 Teknik Informatika FMIPA USU Medan.

2. Model aturan prediksi dibentuk berdasarkan hasil pengolahan data menggunakan teknik kernel k-mean clustering dan Decision Tree.

3. Untuk menganalisis data dalam penelitian ini akan menggunakan bantuan perangkat lunak data mining yang berbasis open source seperti Rapid Miner versi 5.2 dimana telah tersedia GUI untuk teknik Kernel K means clustering dan Decision Tree.

1.4 Tujuan Penelitian

Beranjak dari latar belakang permasalahan, tujuan penelitian ini adalah untuk Membangun model profil mahasiswa yang memiliki kecenderungan drop-out pada mahasiswa program diploma tiga dengan menggunakan teknik kernel k-mean clustering dan Decision Tree.

1.5 Manfaat Penelitian

Penelitian ini secara teoritis diharapkan akan bermanfaat bagi menambah khasanah dan variasi penelitian dalam penerapan teknik-teknik data mining pada area pendidikan. Hasil dari penelitian ini diharapkan dapat dijadikan sebagai perbandingan bagi peneliti lain yang tertarik dalam penerapan teknik-teknik data mining pada area pendidikan.

(26)

Secara praktis hasil penelitian ini juga dapat bermanfaat bagi institusi pendidikan tinggi sebagai referensi dan sebagai informasi pendukung dalam mengambil kebijakan strategis.

Model profil mahasiswa dan model prediksi yang diperoleh dari penelitian ini juga dapat dipergunakan oleh institusi-institusi pendidikan tinggi yang memiliki program sarjana, sebagai sistem informasi pendukung dalam proses pengambilan keputusan untuk melakukan tindakan preventif terhadap mahasiswa D3 Teknik Informatika FMIPA USU Medan yang cenderung drop-out.

(27)

BAB II

TINJAUAN PUSTAKA

2.1 Penambangan Data (Data Mining)

Penambangan data (Data Mining) adalah serangkaian proses untuk menggali nilai tambah dari sekumpulan data berupa pengetahuan yang selama ini tersembunyi dibalik data atau tidak diketahui secara manual (Han, J dan Kamber, M, 2006). Proses untuk menggali nilai tambah dari sekumpulan data sering juga dikenal sebagai penemuan pengetahuan dari pangkalan data (Knowledge Discovery in Databases = KDD) yaitu tahap-tahap yang dilakukan dalam menggali pengetahuan dari sekumpulan data. Tahap-tahap yang dimaksud digambarkan seperti Gambar 2.1.

(28)

Gambar 2.1. Tahap-Tahap Menggali Pengetahuan Dari Pangkalan Data Sumber : Fayyad 1996

Tahap-tahap data mining seperti yang diilustrasikan pada Gambar 2.1 dapat dijelaskan sebagai berikut:

1. Pembersihan Data (Untuk membuang data yg tidak konsisten dan Noise) 2. Integrasi data ( Penggabungan data dari berbagai sumber)

3. Transformasi data (Data diubah menjadi bentuk yang sesuai untuk teknik data mining)

4. Aplikasi Teknik Data Mining

5. Evaluasi pola yang ditemukan (untuk menemukan informasi dan pengetahuan yang menarik)

6. Presentasi pengetahuan (dengan menggunakan teknik visualisasi)

Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menaik yang sebelumnya tidak diketahui. Data mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent) machine learning, statistik dan database. Beberapa metode yang sering disebut dalam literatur data mining antara lain clustering, classification, association rules, neural network genetic algorithm dan lain-lain (Pramudiono, 2006).

(29)

Data mining sering digunakan untuk membangun model prediksi/inferensi yang bertujuan untuk memprediksi tren masa depan atau prilaku berdasarkan analisis data terstruktur. Dalam konteks ini, prediksi adalah pembangunan dan penggunaan model untuk menilai kelas dari contoh tanpa label, atau untuk menilai jangkauan nilai atau contoh yang cenderung memiliki nilai atribut. Klasifikasi dan regresi adalah dua bagian utama dari masalah prediksi, dimana klasifikasi digunakan untuk memprediksi nilai diskrit atau nominal sedangkan regresi digunakan untuk memprediksi nilai terus-menerus atau nilai yang ditentukan (Larose, 2005).

Masalah-masalah yang sesuai untuk diselesaikan dengan teknik data mining dapat dicirikan dengan (Piatetsky dan Shapiro, 2006) :

- Memerlukan keputusan yang bersifat knowledge-based - Mempunyai lingkungan yang berubah

- Metode yang ada sekarang bersifat sub-optimal - Tersedia data yang bisa diakses, cukup dan relevan

- Memberikan keuntungan yang tinggi jika keputusan yang diambil tepat

2.2. Penambangan Data Pada Pendidikan Tinggi

Penambangan data (Data Mining) adalah satu proses untuk mengungkapkan informasi atau pengetahuan yang tidak nampak dipermukaan tetapi mungkin potensial digunakan dan tersembunyi didalam data (Han J dan Kember, 2006). Aplikasi data mining pada perguruan tinggi adalah area yang baru yang disebut sebagai Educational Data Mining. Romero C dan Ventura S,(2007) telah melakukan survey pada educational data mining dari tahun 1995 – 2005 ,

(30)

mereka menyimpulkan bahwa pendidikan adalah wilayah penelitian yang sangat menjanjikan, dan cukup spesifik yang tidak dipresentasikan pada domain riset yang lain. Merceron. A dan Yacep.K (2005), memberikan sebuah studi kasus yang menggunakan data mining untuk mengidentifikasi prilaku mahasiswa yang gagal untuk memperingatkan mahasiswa sebelum ujian akhir. Data mining pada area pendidikan juga digunakan oleh Naeimeh D, et. al (2005), untuk mengidentifikasi dan kemudian meningkatkan proses pendidikan pada system pendidikan tinggi. Waiyamai K (2003), menggunakan data mining untuk membantu pengembangan kurikulum yang baru dan membantu mahasiswa teknik untuk menseleksi bidang utamanya. Sajadin S, et al (2009), menggunakan data mining untuk memonitor pencapaian dan meningkatkan prestasi akademik mahasiswa.

Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2005) :

1. Deskripsi (Description)

Terkadang penelitian analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan.

(31)

Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilan model estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya

3. Prediksi (Prediction)

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa datang. Contoh prediksi dalam bisnis dan penelitian adalah :

 Prediksi harga beras dalam tiga bulan yang akan datang

 Prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah kecepatan dinaikkan.

Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi

4. Klasifikasi (Classification)

Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang dan pendapatan rendah.

(32)

Contoh lain klasifikasi dalam bisnis dan penelitian adalah :

 Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan

 Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik atau buruk

 Mendiagnosis penyakit seorang pasien untuk mendapatkan kategori penyakit apa.

5. Pengklusteran (Clustering)

Pengklusteran merupakan pengelompokkan record, pengamatan atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan dengan record-record dalam cluster lain. Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam pengklusteran. Pengklusteran tidak mencoba untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan record dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal.

Contoh pengklusteran dalam bisnis dan penelitian adalah :

 Melakukan pengklusteran terhadap ekspresi dari gen, untuk mendapatkan kemiripan perilaku dari gen dalam jumlah besar.

(33)

 Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar.

 Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap perilaku finansial dalam keadaan baik atau mencurigakan.

6. Asosiasi (Assosiation)

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja

Contoh asosiasi dalam bisnis dan penelitian adalah :

 Menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli secara bersamaan.

 Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respons posistif terhadap penawaran upgrade layanan yang diberikan.

2.3 Algoritma Clustering (Clustering Algorithm)

Clustering (pengelompokkan data) mempertimbangkan sebuah pendekatan penting untuk mencari kesamaan dalam data dan menempatkan data yang sama ke dalam kelompok-kelompok. Clustering membagi kumpulan data ke dalam beberapa kelompok dimana kesamaan dalam sebuah kelompok adalah lebih besar daripada diantara kelompok-kelompok (Rui Xu dan Donald 2009). Gagasan mengenai pengelompokkan data atau clustering, memiliki sifat yang sederhana

(34)

dan dekat dengan cara berpikir manusia, kapanpun kepada kita dipresentasikan jumlah data yang besar, kita biasanya cenderung merangkumkan jumlah data yang besat ini ke dalam sejumlah kecil kelompok-kelompok atau kategori-kategori untuk memfasilitasi analisanya lebih lanjut. Selain dari itu, sebagian besar data yang dikumpulkan dalam banyak masalah terlihat memiliki beberapa sifat yang melekat yang mengalami pengelompokkan-pengelompokkan natural (Hammuda dan Karay, 2003).

Algoritma-algoritma clustering digunakan secara ekstensif tidak hanya untuk mengorganisasikan dan mengkategorikan data, akan tetapi juga sangat bermanfaat untuk kompresi data dan konstruksi model. Melalui pencarian kesamaan dalam data, seseorang dapat mempresentasikan data yang sama dengan lebih sedikit simbol misalnya. Juga, jika kita dapat menemukan kelompok-kelompok data, kita dapat membangun sebuah model masalah berdasarkan pengelompokkan-pengelompokkan ini (Dubes dan Jain, 1988).

Clustering menunjuk pada pengelompokkan record, observasi-observasi, atau kasus-kasus ke dalam kelas-kelas objek yang sama. Cluster adalah sekumpulan record yang adalah sama dengan satu sama lain dan tidak sama dengan record dalam cluster lain. Clustering berbeda dari klasifikasi dimana tidak ada variabel target untuk clustering. Tugas clustering tidak mencoba untuk mengklasifikasikan, mengestimasi atau mempredikasi nilai variabel target (Larose, 2005). Bahkan, algoritma clustering berusaha mensegmentasikan seluruh kumpulan data ke dalam subkelompok-subkelompok atau cluster-cluster

(35)

homogen secara relatif. Dimana kesamaan record dalam cluster dimaksimalkan dan kesamaan dengan record diluar cluster ini diminimalkan.

Clustering sering dilaksanakan sebagai langkah pendahuluan dalam proses pengumpulan data, dengan cluster-cluster yang dihasilkan digunakan sebagai input lebih lanjut ke dalam sebuah teknik yang berbeda, seperti neural diatas dapat diperoleh sebagai jarak dari pembaharuan formula Lance-Williams (Lance & Williams, 1967).

D(C1.. C1, Ck = a(i) d (Ci, Ck)+ a(k) d (Cj, Ck)+ bd (Ci, Cj)+ cld (Ci, Ck)- d (Cj, Ck

Dimana, a,b,c, adalah koefisien-koefisien yang sesuai dengan hubungan tertentu. Formula ini menyatakan sebuah metrik hubungan antara kesatuan dari dua cluster dan cluster ketiga dalam bentuk komponen-komponen yang mendasari.

)

Clustering hirarki berdasarkan metrik hubungan mengalami kompleksitas waktu. Dibawah asumsi-asumsi yang tepat, seperti kondisi daya reduksi (metode-metode grafik memenuhi kondisi ini), (metode-metode-(metode-metode metrik hubungan memiliki kompleksitas (N2

Dalam linguistik, pencarian informasi dan taksonomi biner aplikasi clustering dokumen adalah sangat membantu. Metode-metode aljabar linear, yang didasarkan pada dekomposisi nilai singular (Singular Value Decomposition-SVD) digunakan untuk tujuan ini dalam filtering kolaboratif dan pencarian informasi (Berry & Browne, 1999). Aplikasi SVD terhadap clustering divisive hirarkhi dari kumpulan dokumen menghasilkan algroitma PDDP (Prinsipal Direction Divisive Partitioning) (Boley, 1998). Algoritma ini membagi dua data dalam ruang Euclidean dengan sebuah hyperplane yang mengalir melalui centroid data secara

(36)

orthogonal pada eigenvector dengan nilai singular yang besar. Pembagian cara k (konstanta) juga memungkinkan jika k nilai singular yang besar. Pembagian cara k juga memungkinkan jika k nilai singular terbesar dipertimbangkan. Divisive hirarki yang membagi dua rata-rata k terbukti (Steinbach et al. 2000) dapat dipilih untuk clustering dokumen network. karena ukuran yang besar dari banyak database yang direpresentasikan saat ini, maka sering sangat membantu untuk menggunakan analisa clustering terlebih dahulu, untuk mengurangi ruang pencarian untuk algoritma-algoritma downstream. Aktivitas clustering pola khusus meliputi langkah-langkah berikut (Dubes dan Jain, 1988) :

(I) Representasi pola (secara opsional termasuk ekstraksi dan/atau seleksi sifat)

(II) Defenisi ukuran kedekatan pola yang tepat untuk domain data (III) Clustering pengelompokkan

(IV) Penarikan data (jika dibutuhkan) dan (V) Pengkajian output (jika dibutuhkan)

Representasi pola merujuk pada jumlah kelas, jumlah pola-pola yang ada, dan jumlah, tipe dan skala fitur yang tersedia untuk algoritma clustering. Beberapa informasi ini dapat tidak bisa dikontrol oleh praktisioner. Seleksi sifat (fitur) adalah proses pengidentifikasian subset fitur original yang paling efektif untuk digunakan dalam clustering. Ekstraksi fitur adalah penggunaan satu atau lebih transformasi dari sifat-sifat input untuk menghasilkan sifat-sifat baru yang lebih baik.

(37)

Pertimbangan dataset X yang terdiri dari point-point data (atau secara sinonim, objek-objek, hal-hal kasus-kasus, pola, tuple, transaksi) xi = (xi1, …, xid) Є A dalam ruang atribut A, dimana i = 1, N, dan setiap komponen adalah sebuah atribut A kategori numerik atau nominal. Sasaran akhir dari clustering adalah untuk menemukan point-point pada sebuah sistem terbatas dari subset k, cluster. Biasanya subset tidak berpotongan (asumsi ini terkadang dilanggar), dan kesatuan mereka sama dengan dataset penuh dengan pengecualian yang memungkinkan outlier. Ci adalah sekelompok point data dalam dataset X, dimana X = Ci.. Ck.. Coutliers, Cjl.. Cj2 = 0.

2.3.1. Clustering Hirarkhi (Hierarchical Clustering)

Clustering hirarkhi membangun sebuah hirarkhi cluster atau dengan kata lain sebuah pohon cluster, yang juga dikenal sebagai dendrogram. Setiap node cluster mengandung cluster anak; cluster-cluster saudara yang membagi point yang ditutupi oleh induk mereka. Metode-metode clustering hirarkhi dikategorikan ke dalam agglomerative (bawah-atas) dan idivisive (atas-bawah) (Jain & Dubes, 1988; Kaufman & Russeeuw, 1990). Clustering agglomerative dimulai dengan cluster satu point (singleton) dan secara berulang mengabungkan dua atau lebih cluster yang paling tepat. Cluster divisive dimulai dengan satu cluster dari semua point data dan secara berulang membagi cluster yang paling tepat. Proses tersebut berlanjut hingga kriteria penghentian (seringkali, jumlah k yang diperlukan dari cluster) dicapai. Kelebihan cluster hirarkhi meliputi :

(38)

(I) Fleksibilitas yang tertanam mengenai level granularitas (II) Kemudahan menangani bentuk-bentuk kesamaan atau jarak (III) Pada akhirnya, daya pakai pada tipe-tipe atribut apapun

Kelemahan dari clustering hirarkhi berhubungan dengan : (I) Ketidakjelasan kriteria terminasi

(II) Terhadap perbaikan hasil clustering, sebagian besar algoritma hirarkhi tidak mengunjungi kembali cluster-clusternya yang telah dikonstruksi. Untuk clustering hirarkhi, menggabungkan atau memisahkan subset dari point-point dan bukan point-point individual, jarak antara pint-point individu harus digeneralisasikan terhadap jarak antara subset.

Ukuran kedekatan yang diperoleh disebut metrik hubungan. Tipe metrik hubungan yang digunakan secara signifikan mempengaruhi algortima hirarkhi, karena merefleksikan konsep tertentu dari kedekatan dan koneksitas. Metrik hubungan antar cluster utama (Murtagh 1985, Olson 1995) termasuk hubungan tunggal, hubungan rata-rata dan hubungan sempurna. Semua metrik hubungan

2.3.2. Clustering Partisional (Partitional Clustering)

Dengan mengetahui objek-objek database N, sebuah algoritma clustering partisional membentuk k bagian dari data, dimana setiap cluster mengoptimalkan kriteria clustering, seperti minimasi jumlah jarak kuadrat dari rata-rata dalam setiap cluster.

(39)

Salah satu isu dengan algoritma-algoritma tersebut adalah kompleksitas tinggi, karena menyebutkan semua pengelompokkan yang memungkinkan dan berusaha mencari optimum global. Bahkan untuk jumlah objek yang kecil, jumlah partisi adalah besar. Itulah sebabnya mengapa solusi-solusi umum dimulai dengan sebuah partisi awal, biasanya acak, dan berlanjut dengan penyempurnaannya.

Praktek yang lebih baik akan berupa pelaksanaan algoritma partisional untuk kumpulan point-point awal yang berbeda (yang dianggap sebagai representative) dan meneliti apakah semua solusi menyebabkan partisi akhir yang sama atau tidak. Algoritma-algoritma clustering partisional berusaha memperbaiki secara local sebuah kriteria tertentu. Pertama, menghitung nilai-nilai kesamaan atau jarak, mengurutkan hasil, dan mengangkat nilai yang mengoptimalkan kriteria. Oleh karena itu, dapat dianggap sebagai algoritma seperti greedy.

Sebuah pendekatan terhadap pembagian data adalah mengambil sudut pandang konseptual yang mengidentifikasikan cluster dengan model tertentu yang parameternya tidak diketahui harus ditemukan. Model-model probabilistik menganggap bahwa data berasal dari campuran beberapa populasi yang didistribusi dan prioritasnya ingin ditemukan. Sebuah kelebihan yang jelas dari metode-metode probabilitas adalah daya interpretasi dari cluster-cluster yang dibuat. Dengan memiliki representasi cluster yang tepat juga memungkinkan penghitungan yang tidak ekspensif dari ukuran-ukuran intra-cluster dari kesesuaian yang memberikan fungsi objektif yang tergantung pada sebuah pembagian (partition). Tergantung pada bagaimana representative dibuat,

(40)

algoritma-algoritma partitioning optimasi literative dibagi lagi ke dalam metode-metode K-medoids dan K-means.

2.4 Analisis Cluster

Analisis cluster adalah suatu analisis statitik yang bertujuan memisahkan obyek kedalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu dengan yang lain. Dalam analisis ini tiap-tiap kelompok bersifat homogen antar anggota dalam kelompok atau variasi obyek dalam kelompok yang terbentuk sekecil mungkin (Prayudho, 2008).

Tujuan Analisis Cluster :

1. Untuk mengelompokkan objek-objek (individu-individu) menjadi kelompok-kelompok yang mempunyai sifat yang relatif sama (homogen)

2. Untuk membedakan dengan jelas antara satu kelompok (cluster) dengan kelompok lainnya.

Adapun manfaat Analisis Cluster sebagai berikut :

1. Untuk menerapkan dasar-dasar pengelompokkan dengan lebih konsisten

2. Untuk mengembangkan suatu metode generalisasi secara induktif, yaitu pengambilan kesimpulan secara umum dengan berdasarkan fakta-fakta khusus.

3. Menemukan tipologi yang cocok dengan karakter obyek yang diteliti 4. Mendeskripsikan sifat-sifat / karakteristik dari masing-masing kelompok Analisis cluster dilakukan dengan langkah-langkah berikut :

(41)

1. Merumuskan permasalahan

2. Memilih ukuran jarak atau kesamaan 3. Memilih prosedur pengklusteran 4. Menetapkan jumlah cluster 5. Interpretasi dan profil dari cluster 6. Menaksir reliabilitas dan validitas

2.5 Metode Kernel

Machine learning untuk penelitian pengolah sinyal sangat dipengaruhi oleh metode yang popular kernel Mercer (Christianini & Taylor, 2000). Point utama dalam metode kernel adalah apa yang disebut “kernel trick”, yang memungkinkan penghitungan dalam beberapa inner product, kemungkinan dengan dimensi yang tidak terbatas, ruang fitur Anggaplah xi dan xj

k (x

adalah dua point data ruang input. Jika fungsi kernel k(…) memenuhi kondisi Mercer maka :

i , xj) = Φ(xi).Φ(xj

Dimana, (x

) (2.1)

i,xj

Metode-metode Kernel adalah algoritma yang secara implisit melaksanakan, melalui penggantian inner product dengan Kernel Mercer yang tepat, sebuah pemetaan nonlinear dari data input ke ruang fitur berdimensi tinggi (Vapnik, ) menunjukkan inner product dan Φ(.) melambangkan pemetaan non-linier dari ruang input kepada fitur kernel. Kernel trick memungkinkan pelaksanaan dari algoritma pembelajaran, yang dinyatakan dalam bentuk inner product ruang fitur kernel.

(42)

1995). Metode-metode kernel yang sangat disupervisi telah dikembangkan untuk menyelesaikan masalah-masalah klasifikasi dan regresi.

K-means adalah algoritma unsupervised learning yang membagi kumpulan data ke dalam sejumlah cluster yang dipilih dibawah beberapa ukuran-ukuran optimisasi. Sebagai contoh, kita sering ingin meminimalkan jumlah kuadrat dari jarak Euclidean antara sampel dari centroid. Asumsi di belakang ukuran ini adalah keyakinan bahwa ruang data terdiri dari daerah elliptical yang terisolasi. Meskipun demikian, asumsi tersebut tidak selalu ada pada aplikasi spesifik. Untuk menyelesaikan masalah ini, sebuah gagasan meneliti ukuran-ukuran lain, misalnya kesamaan kosinus yang digunakan dalam pencarian informasi. Gagasan lain adalah memetakan data pada ruang baru yang memenuhi persyaratan untuk ukuran optimasi. Dalam hal ini, fungsi kernel merupakan pilihan yang baik.

2.6 Fungsi Kernel

Ada kalanya tidak cukup bagi machine learning untuk bekerja dalam ruang input karena asumsi di belakang mesin tidak menyesuaikan pola riil dari data. Sebagai contoh, SVM (support vector machine) dan Perceptron memerlukan data yang tidak dapat dipisahkan secara linier, sedangkan K-means dengan jarak Euclidean mengharapkan data terdistribusi ke dalam daerah elliptical. Ketika asumsi tersebut tidak digunakan, maka kita dapat menggunakan beberapa jenis transformasi pada data, dengan memetakan mereka pada ruang baru dimana machine learning dapat digunakan. Fungsi Kernel memberikan kepada kita sebuah alat untuk mendefenisikan transformasi.

(43)

Anggaplah kita diberikan sekumpulan sampel x1, x2, x3,…, xN, dimana xi ɛ RD, dan fungsi pemetaan Φ yang memetakan x1 dari ruang input RD

k (x

pada ruang baru Q. Fungsi kernel didefenisikan sebagai dot product dalam ruang baru Q :

i , xj) = Φ(xi).Φ(xj) (2.2)

Sebuah fakta penting mengenai fungsi kernel adalah bahwa fungsi ini dibangun tanpa mengetahui bentuk kongkrit dari Φ, yaitu transformasi yang didefinisikan secara implicit. Tiga fungsi kernel yang secara umum tercantum di bawah ini :

Polynomial k ( xi, xj) = (xi . xj + 1 )d Radial k ( x

(2.3)

i, xj) = exp (-r || xi – xj ||2 Neural k ( x

) (2.4)

i, xj) = tanh (axi . xj

Kelemahan utama dari fungsi Kernel meliputi, pertama beberapa sifat dari ruang baru hilang, misalnya, dimensionalitas dan tingkatan nilainya, sehingga kekurangan bentuk eksplisit untuk Φ. Kedua, penentuan bentuk kernel yang tepat untuk kumpulan data tertentu harus diwujudkan melalui eksperimen-eksperimen.

+ b) (2.5)

Bahkan, biaya penghitungan dan penyimpanan meningkat menurut margin luas. Prinsip ini menjamin bahwa fungsi kernel dapat selalu diexpresikan sebagi dot product diantara dua input vector dalam beberapa ruang dimensi yang tinggi.

(44)

Gambar 2.2. Proses Pemetaan Kernel

2.7. KERNEL K-MEANS CLUSTERING

Clustering adalah salah satu metode yang terkenal dalam data mining, yang digunakan untuk mendapatkan kelompok-kelompok dari data, dimana setiap objek data akan dikelompokkan kedalam satu kelompok berdasarkan kemiripannya, dan yang lainnya akan dikelompokan pada kelompok yang lain.( Han,J. and Kamber,M, 2006)

K-Means Clustering merupakan teknik dalam klaster data yang sangat terkenal karena kecepatannya dalam mengklasterkan data. Akan tetapi K-Means Clustering memiliki kelemahan didalam memproses data yang berdimensi banyak. Khususnya untuk masukan yang bersifat non-linierly separable. K-Means clustering juga tidak mampu mengrupkan data yang bertipe kategorikal dan juga data campuran (numeric dan kategorikal). Kenyataan didunia nyata data yang tersedia atau yang diperoleh memiliki dimensi yang banyak dan juga bersifat campuran. Untuk mengatasi permasalahan ini, telah banyak diusulkan oleh para peneliti metode-metode yang dapat mengatasi kelemahan ini, salah satu diantaranya adalah Kernel K-Means Clustering (L.S Dhillon, et. al, 2005).

Input Space Feature Space

) ( ) ( ) ,

(x1 x2 x1 x2

(45)

Kernel K-Means Clustering, pada prinsipnya mirip dengan K-Means tradisional, letak perbedaan yang mendasar ada pada perubahan masukannya. Dalam Kernel K-Means data point akan dipetakan pada dimensi baru yang lebih tinggi menggunakan fungsi non-linier sebelum dilakukan proses clustering (Cristianini N, Taylor,J.S.2000) Kemudian Kernel K-Means akan mempartisi data menggunakan linier separator pada space yang baru.

Metode kernel pertama dan barangkali yang paling tepat adalah Support Vector Machine (SVM) (Burges, 1998), yang mengoptimalkan kriteria margin maksimum dalam ruang fitur kernel. Algoritma k-means barangkali telah menjadi teknik clustering popular sejak diperkenalkan dalam era 1960an. Ini memaksimalkan jarak Euclidean kuadrat antara pusat-pusat cluster. Meskipun demikian, telah diketahui bahwa ini hanya optimal untuk (yang dapat dipisahkan secara linear) cluster terdistribusi Gaussian. Metode yang berbeda untuk melaksanakan algoritma ini dalam ruang kernel yakni kernel k-means telah diperoleh. Dalam (Zang dan Alexander, 2006) teknik optimasi stochastic dikembangkan dengan menggunakan kernel trick, sedangkan dalam (Girolami, 2002) pemetaan data actual diperkirakan melalui eigenvector dari apa yang disebut matriks kernel.

Secara eksperimental, penelitian-penelitian ini memperlihatkan bahwa keterbatasan k-means bisa telah teratasi, dan hasil yang baik dicapai juga untuk kumpulan-kumpulan data yang memiliki batasan-batasan cluster nonlinear. Motivasi untuk keinginan melaksanakan K-means dalam ruang fitur kernel dinyatakan secara longgar sebagai “masalah kemampuan memisahkan nonlinear

(46)

yang dapat dielakkan oleh kelas melalui pemetaan data yang diamati pada ruang data berdimensi yang lebih tinggi dengan cara nonlinear sehingga setiap cluster untuk setiap kelas membentang ke dalam bentuk sederhana”. Meskipun demikian, tidak jelas bagaimana kernel K-means berhubungan dengan sebuah operasi pada kumpulan data ruang input. Juga tidak jelas cara menghubungkan lebar kernel dengan sifat-sifat kumpulan data input. Beberapa pemikiran yang disebutkan pada point-point ini telah dibuat dalam (Girolami, 2002; Cristianini & Taylor, 2000).

Biasanya perluasan dari k-means ke kernel k-means direalisasi melalui pernyataan jarak dalam bentuk fungsi kernel (Girolami, 2002; Muller et al 2003). Meskipun demikian, implementasi tersebut mengalami masalah seris seperti biaya clustering tinggi karena kalkulasi yang berulang dari nilai-nilai kernel, atau memori yang tidak cukup untuk menyimpan matriks kernel, yang membuatnya tidak dapat sesuai untuk corpora yang besar.

Anggaplah kumpulan data memiliki N sampel x1, x2,…xN. Algoritma K-means bertujuan untuk membagi sampel N ke dalam cluster K, C1, C2, …, CK, dan kemudian mengembalikan pusat dari setiap cluster, m1, m2,…,mk sebagai representative dari kumpulan data. Selanjutnya kumpulan data N-point dipadatkan ke dalam “code book” point K. Algoritma K-means clustering mode batch yang menggunakan jarak Euclidean bekerja sebagai berikut :

Algoritma 1

Langkah 1 Pilih awal pusat K : m1, m2, …. m Langkah 2 Menentukan setiap sampel x

(47)

terdekat, yang membentuk cluster K. yaitu menghitung nilai fungsi indicator δ (xi, Ck), (1 < k < K).

δ (xi, ck  

 < ≠

otherwise k j all for m x D m x

D _i _k _i _j

, 0 ) , ( ) , ( , 1 ) =

Langkah 3 Hitunglah pusat baru mk untuk setiap cluster C

∑

₌ n

i i k i

x C x

c 1 ( , )

1 _δ

Dimana C_k adalah jumlah sampel dalam Ck

C =

∑

n₌

i 1δ (xi,Ck)xi Langkah 4 menghasilkan mk

Isu utama yang memperluas k-means tradisional ke kernel k-means adalah penghitungan jarak dalam ruang baru. Anggaplah u

(1 < k < K)

i = Φ (xi) menunjukkan transformasi x1. Jarak Euclidean antara ui dan uj

ditulis sebagai : 2

(ui, uj) = || Φ (xi) – Φ (xj) || = Φ

(xi) -2 Φ (xi) Φ (xj) + Φ2(xj = k (x

) i , xi) -2 k (xi , xi) + k (xj , xj Anggaplah z

) (2.6)

adalah pusat cluster dalam ruang yang ditransformasikan dimana,

∑

₌

i i k i

u C u

c 1 ( , )

1 _δ

(2.7)

Dimana δ (u_i,C_k)adalah fungsi indikator. Jarak antara ui dan zk

dinyatakan sebagai berikut :

2 {ui,zk

1 ( , ) 1

∑

− N

i i k i

i u C u

u δ

(48)

= k (xi , xi) + f (xi , Ck) + g (Ck Dimana,

)

f (xi, Ck

∑

₌ N

i j k i j

k x x k C u

c 1 ( , ) ( , )

2 _δ

) = (2.8)

Perbedaan utama antara kernel k-means dengan versi tradisional k-means ada di langkah 4, dalam algoritma Kernel K-means. Karena cluster dalam ruang yang ditransformasikan tidak dapat dinyatakan secara eksplisit, maka harus memilih pseudo centre. Dengan menggunakan Jarak Euclidean pada tradisional k-means, diperoleh kernel berdasarkan algoritma k-means sebagai berikut :

Algoritma 2

Langkah 1 Tentukan δ (xi, Ck) (1< I < N, 1 < k < K) dengan nilai awal, yang membentuk cluster initial K C1, C2,…, C

Langkah 2 Untuk setiap cluster C

k hitunglah |Ck| dan g (Ck Langkah 3 Untuk setiap sampel latihan x

)

i dan cluster Ck, hitunglah f(xi, Ck) dan kemudian tentukan xi

δ (x

pada cluster terdekat i , Ck

= )      ≠ + < + lain yang k j untuk C g C x f C g C x

f _i _k _k _i _j _j

, 0 ) ( ) , ( ) ( ) , ( , 1

Langkah 4 Untuk setiap cluster Ck, pilih sampel yang terdekat dengan pusat sebagai representative dari Ck, mk= arc min D (δ (xi),zk). xi, dimana δ (x19, Ck) = 1

(49)

Dalam persamaan faktor k (xi, xj) diabaikan karena tidak berkontribusi untuk menentukan cluster terdekat. Perbedaan utama antara kernel k-means dan versi tradisionalnya ada dalam langkah 4.

2.8. DECISION TREE

Decision tree merupakan salah satu metode klasifikasi yang menggunakan representasi struktur pohon (tree) dimana setiap node mempresentasikan atribut, cabangnya merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas. Node yang paling atas dari decision tree disebut sebagai root

Decision tree merupakan metode klasifikasi yang paling popular digunakan. Selain karena pembangunannya relatif cepat, hasil dari model yang dibangun mudah untuk dipahami.

Pada decision tree terdapat 3 jenis node, yaitu :

a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output atau mempunyai output lebih dari satu.

b. Internal Node, merupakan node percabangan, pada node ini hanya terdapat satu input dan mempunyai output minimal dua.

c. Leaf node atau terminal node, merupakan node akhir, pada node ini hanya terdapat satu input dan tidak mempunyai output.

(50)

2.9. ALGORITMA C 4.5

Algoritma C 4.5 adalah salah satu metode untuk membuat decision tree berdasarkan training data yang telah disediakan. Algoritma C 4.5 merupakan pengembangan dari ID3. Beberapa pengembangan yang dilakukan pada C 4.5 adalah sebagai antara lain bisa mengatasi missing value, bisa mengatasi continue data, dan praining.

Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari record pada kategori tertentu. pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variable input dengan sebuah variable target.

Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan, pohon keputusan sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain.

Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogeny dengan memperhatikan pada variable tujuannya. Sebuah pohon keputusan mungkin dibangun dengan seksama secara manual atau dapat tumbuh secara otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan untuk memodelkan himpunan data yang belum terklasifikasi.

(51)

Variabel tujuan bisaanya dikelompokkan dengan pasti dan model pohon keputusan lebih mengarah pada perhitungan probability dari tiap-tiap record terhadap kategori-kategori tersebut atau untuk mengklasifikasi record dengan mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan untuk mengestimasi nilai dari variabel continue meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini.

Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan, antara lain ID3, CART, dan C4.5 (Larose, 2006).

Data dalam pohon keputusan bisaanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai criteria dalam pembentukan pohon. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin dan temperatur.

Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan dan hujan (Basuki dan Syarif, 2003).

Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule (Basuki dan Syarif, 2003).

Berikut ini algoritma dasar dari C 4.5 : Input : sampel training, label training, atribut 1. Membuat simpul akar untuk pohon yang dibuat

(52)

2. Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (+)

3. Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (-)

4. Jika atribut kosong, berhenti dengan suatu bohon dengan suatu simpul akar, dengan label sesuai nilai yang terbanyak yang ada pada label training

5. Untuk yang lain, Mulai

a. A ---- atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan Gain rasio)

b. Atribut keputusan untuk simpul akar ---- A c. Untuk setiap nilai, vi, yang mungkin untuk A

1) Tambahkan cabang di bawah akar yang berhubungan dengan A = vi

2) Tentukan sampel Svi sebagai sbset dari sampel yang mempunyai nilai vi untuk atribut A

3) Jika sampel Svi kosong

i. Di bawah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang ada pada label training

ii. Yang lain tambah cabang baru di bawah cabang yang sekarang C 4.5 (sampel training, label training, atribut – [A].

d. Berhenti

Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sma dengan jumlah path yang mungkin dapat dibangun dari root sampai leaf node.

Tree Praining dilakukan untuk menyederhanakan tree sehingga akurasi dapat bertambah. Pruning ada dua pendekatan, yaitu :

a. Pre-praining, yaitu menghentian pembangunan suatu subtree lebih awal (yaitu dengan memutuskan untuk tidak lebih jauh mempartisi data training). Saat seketika berhenti, maka node berubah menjadi leaf (node akhir). Node akhir ini menjadi kelas yang paling sering muncul di antara subset sampel.

(53)

b. Post-praining, yaitu menyederhanaan tree dengan cara membuang beberapa cabang subtree setelah tree selesai dibangun. Node yang jarang dipotong akan menjadi leaf (node akhir) dengan kelas yang paling sering muncul.

Secara umum algoritma C 4.5 untuk membangun pohon keputusan adalah sebagai berikut :

1. Pilih atribut sebagai akar

2. Buat cabang untuk masing-masing nilai 3. Bagi kasus dalam cabang

4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama

Untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi dari atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus seperti tertera dalam Rumus I (Craw, 2005).

Gain(S,A) = Entropy(S) –

∑

₌₁ *Entropy(Si)

S Si

n i

Dengan

S : Himpunan Kasus A : Atribut

N : Jumlah Partisi atribut A |Si| : Jumlah kasus pada partisi ke i |S| : Jumlah kasus dalam S

(54)

Sedangkan perhitungan nilai Entropy dapat dilihat pada rumus 2 berikut (Craw, 2005) :

Entropy(A) =

∑

n_i₌₁−pi*log₂ pi Dengan

S : Himpunan Kasus A : Fitur

n : Jumlah partisi S

pi : Proporsi dari Si terhadap S

Riset-Riset Terkait

Terdapat beberapa riset yang telah dilakukn oleh banyak peneliti berkaitan dengan domain pendidikan, seperti yang akan dijelaskan di bawah ini.

Yu et al (2010) dalam risetnya menjelaskan mengenai sebuah pendekatan data mining dapat diaplikasikan untuk meneliti faktor-faktor yang mempengaruhi tingkat daya ingat mahasiswa. Oyelade et al. (2010) dalam risetnya mengimplementasikan algoritma k-means clustering dikombinasikan dengan deterministik model untuk menganalisa hasil prestasi mahasiswa pada perguruan tinggi swasta

Nugroho, (2008) menjelaskan dalam risetnya mengenai Implementasi decision tree berbasis analisis teknikal untuk pembelian dan penjualan saham, menyimpulkan system pendukung keputusan decision tree yang dibangun berdasarkan analisis teknikal mampu memberikan gambaran saat saham diperdagangkan hanya beerdasarkan pergerakan trend. Perdagangan berdasarkan

(55)

pergerakan trend ini bersifat spekulasi namun cukup mampu memberikan keuntungan.

Sunjana (2010b) menjelaskan dalam risetnya tentang klasifikasi data nasabah sebuah asuransi menggunakan algoritma C 4.5, berikut adalah kesimpulan yang dapat diambil dari data nasabah asuransi setelah dilakukan analisis menggumakan metode algoritma C 4.5 :

1. Aplikasi dapat menyimpulkan bahwa rata-rata nasabah memiliki status L dikarenakan pembayaran premi yang melebihi 10% dari penghasilam 2. Dengan persentase atribut premi dasar dan penghasilan, maka dapat

diketahui rata-rata status nasabah memiliki nilai P atau L

Bhargavi at al (2008) menjelaskan dalam risetnya tetang menguraikan pengetahuan menggunakan aturan dengan pendekatan decision tree.

Al-Radaideh et al (2006) menjelaskan dalam risetnya tentang pemanfaatan data mining terhadap data mahasiswa menggunakan decision tree.

Adeyemo dan Kuye (2006) menjelaskan dalam risetnya untuk memprediksi kinerja mahasiswa di bidang akademik menggunakan algoritma decision tree.

Dedy Hartama (2011) menjelaskan model aturan keterhubungan data mahasiswa menggunakan Algoritma C 4.5 untuk meningkatkan indeks prestasi.

2.10. Persamaan dengan Riset-Riset Lain

Kruck dan Lending (2003) dalam penelitiannya menjelaskan sebuah model untuk memprediksi kinerja di tingkat perguruan tinggi dalam mata kuliah pengantar sistem informasi.

(56)

Ogor (2007) dalam penelitiannya menggunakan teknik data mining yang digunakan untuk membangun prototype Penilaian Kinerja Monitoring Sistem (PAMS) untuk mengevaluasi kinerja mahasiswa.

Sajadin et al (2009) menggunakan teknik data mining dalam pemantauan dan memprediksi peningkatan prestasi mahasiswa berdasarkan minat, prilaku belajar, pemanfaatan waktu dan dukungan orang tua di perguruan tinggi.

2.11. Perbedaan dengan Riset-Riset Lain

Dari beberapa riset yang dilakukan peneliti sebelumnya, terdapat beberapa titik perbedaan dengan riset yang akan dilakukan ini :

Analisa dalam proses pengambilan keputusan dalam melakukan tindakan preventif terhadap mahasiswa yang cenderung gagal kuliah atau drop-out, diperlukan sebuah model profil mahasiswa yang dapat menggambarkan situasi ril mahasiswa tersebut pada saat mengikuti perkuliahan, selanjutnya bagaimana model ini dapat dijadikan sebagai indikator untuk deteksi dini kondisi mahasiswa yang cenderung drop-out.

Pada penelitian ini hasil akhir yang diharapkan dengan analisa model profil mahasiswa dan model prediksi yang diperoleh dari penelitian ini juga dapat dipergunakan oleh institusi-institusi pendidikan tinggi yang memiliki program sarjana, sebagai sistem informasi pendukung dalam proses pengambilan keputusan untuk melakukan tindakan preventif terhadap mahasiswa diploma tiga yang cenderung drop-out.

(57)

2.12. Kontribusi Riset

Penelitian ini memberikan kontribusi pada pemahaman kita tentang hubungan para dosen untuk lebih mengenal situasi para mahasiswanya, dan dapat dijadikan sebagai pengetahuan dini dalam proses pengambilan keputusan untuk tindakan preventif dalam hal mengantisipasi mahasiswa drop-out, untuk meningkatkan prestasi mahasiswa, untuk meningkatkan kurikulum, meningkatkan proses kegiatan belajar dan mengajar dan banyak lagi keuntungan lain yang bisa diperoleh dari hasil penambangan data yang telah ditentukan oleh perguruan tinggi.

Beberapa kemungkinan lain mungkin dianggap penting adalah dosen wali dapat menggunakan informasi yang diberikan dalam mengambil beberapa tindakan untuk meningkatkan kinerja mahasiswa dalam meningkatkan predikat kelulusan.

Pembuat keputusan bisa menggunakan model profil mahasiswa yang potensial drop out menggunakan Teknik kernel k-mean clustering dan Decision tree untuk meningkatkan kualitas pengambilan keputusan. Penelitian ini memperkenalkan aplikasi metode Kernel K-Means Clustering untuk lembaga pendidikan tinggi

(58)

BAB III

METODOLOGI PENELITIAN

Dalam Bab ini akan digunakan dalam penelitian yang meliputi waktu dan tempat, rancangan penelitian, aktivitas penelitian dan teknik pengumpulan data serta analisis data

3.1. Lokasi dan Waktu Penelitian

Penelitian dilakukan di D3 Teknik Informatika FMIPA USU, Jl. Bioteknologi No. 1 Kampus USU Padang Bulan Medan. Lamanya waktu yang dibutuhkan untuk menyelesaikan penelitian ini selama 3 bulan yang dimulai pada Februari 2012 sampai dengan bulan April 2012

3.2. Rancangan Penelitian

Pada tahap awal penelitian dilakukan dengan cara menyebarkan kuesioner (angket) pada Mahasiswa D3 Teknik Informatika FMIPA USU Medan yang menjadi subjek penelitian. Kuesioner berisikan tentang Minat Belajar, Kepercayaan Diri, Prilaku Belajar, Dukungan Orang tua dan Waktu Belajar. Hasil kuesioner ini diolah dengan menggunakan software Rapidminer untuk mendapatkan pengelompokkan mahasiswa berdasarkan 4 kriteria yaitu Dengan Pujian (DP), Sangat memuaskan (SM), Memuaskan (M), Buruk (B).

Keempat komponen ini dibuat dengan memperhatikan Indeks Prestasi mahasiswa D3 Teknik Informatika FMIPA USU Medan.

(59)

3.2.1 Perhitungan Dengan Menggunakan Gain dan Entropy

Dari pengujian diperoleh cluster dari data yang telah diuji selanjutnya dilakukan analisis cluster dan diklasifikasi dalam decision tree untuk menganalisis dan mendapatkan model aturan Setelah itu data diuji dengan cara perhitungan sendiri. Cara untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi dari atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus seperti tertera dalam Rumus I (Craw, 2005).

Gain(S,A) = Entropy(S) –

∑

₌₁ *Entropy(Si) S

Si n i

Dengan

S : Himpunan Kasus A : Atribut

N : Jumlah Partisi atribut A |Si| : Jumlah kasus pada partisi ke i |S| : Jumlah kasus dalam S

Sedangkan perhitungan nilai Entropy dapat dilihat pada rumus 2 berikut (Craw, 2005) :

Entropy(A) =

∑

n_i₌₁−pi*log₂ pi Dengan

S : Himpunan Kasus A : Fitur

n : Jumlah partisi S

(60)

3.3. Diagram Aktivitas Penelitian

Berikut ini alur kerja yang akan dilakukan pada penelitian ini yang digambarkan dalam diagram aktivitas pada gambar 3.1 berikut :

Gambar 3.1. Diagram Aktivitas Kerja Penelitian Start

Data Collective (Instrument)

Data Cleaning

Data Penelitian

Clustering (Kernel k-means)

Model Cluster

Interpretasi

Rule Model Profil Mahasiswa

End Decision Tree

Rapidminer C 4.5

Hitungan dengan menggunakan Gain dan Entropy Interpretasi

Rule Model Profil Mahasiswa

(61)

3.4. Teknik Pengumpulan Data

Untuk mendapatkan input yang baik dari teknik data mining, dilakukan preprocessing terhadap data yang akan digunakan. Preprocessing data merupakan tahap prapemrosesan. Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning (pembersihan) pada data yang menjadi fokus atau target KDD. Dalam kasus ini, data yang diambil sebanyak 400 mahasiswa tahun ajaran 2009-2010 dan 2010-2011 dari D3 Teknik Informatika FMIPA USU Medan. Atribut yang digunakan pada penelitian ini berupa IPK, Minat Belajar, Kepercayaan diri, Prilaku Belajar, Dukungan Orang Tua, Jenis Kelamin, dan Predikat.

Data set kedua penulis mensurvei mahasiswa tentang prediksi prestasi akademik dengan menggunakan kuesioner tertulis. Penulis menciptakan instrument survey dan termasuk pertanyaan demografis secara umum. Jumlah mahasiswa sebanyak 400 orang, dan penulis mendapatkan data sampel sebanyak 400 orang dari 420 untuk data set pertama dan 400 orang untuk data kuisioner mahasiswa yang merupakan data set kedua. Sumber data yang dikumpulkan dari catatan kartu hasil studi akademik mahasiswa.

Untuk data set, penulis mengembangkan kuesioner (Lampiran A) untuk mengukur keterhubungan data demografi yang sesungguhnya dari beberapa pertanyaan untuk menghasilkan informasi demografi untuk responden. Pertanyaan-pertanyaan yang dibuat adalah tipe skala poit linker 5 yang disusun dari “sangat tidak setuju” sampai “sangat setuju” yang bekenaan untuk membuat aturan indeks prestasi akhir mereka. Data set dapat dilihat pada Tabel 3.1

(62)

Tabel 3.1 Tampilan Data Set

No Role Name Type

1 label IPK Nominal

2 regular Minat Belajar Numeric

3 regular Kepercayaan diri Nominal 4 regular Perilaku Belajar Nominal 5 regular Dukungan Orang tua Nominal

6 regular Waktu belajar Nominal

7 regular Agama Nominal

8 regular Jenis Kelamin Nominal

9 regular Predikat Polynomial

10 regular MB Polynomial

11 regular KPD Polynomial

12 regular PB Polynomial

13 regular DO Polynomial

14 regular WB Polynomial

3.5. Pra Pemrosesan Data (Preprocessing Data)

Data set penulis mensurvei mahasiswa tentang prediksi prestasi akademik dengan menggunakan kuesioner tertulis. Penulis menyebarkan instrumen survey dan termasuk pertanyaan demografis secara umum. Jumlah mahasiswa sebanyak

(63)

400 orang, dan penulis mendapatkan data sampel sebanyak 400 orang untuk data kuesioner mahasiswa. Sumber data yang dikumpulkan dari catatan kartu hasil studi akademik mahasiswa.

Tabel 3.2. Tampilan data

Tabel 3.2 merupakan tampilan data yang diperoleh dari sistem file D3 Teknik Informatika FMIPA USU Medan Tahun Ajaran 2009-2010 dan 2010-2011 yang terdiri dari IPK, Minat Belajar, Kepercayaan diri, Prilaku Belajar, Dukungan Orang tua, Waktu Belajar, Jenis Kelamin, Predikat.

Menurut keputusan Rektor USU Nomor : 3128/J05/SK/AK/2004 Dalam Peraturan Akademik D3 Teknik Informatika FMIPA USU Medan. dipilih field-field yang akan dikategorisasi. Field yang akan dikategorisasi adalah IPK. IPK dikategorisasi menjadi 4 kategori yaitu, dengan Pujian, Sangat memuaskan, Memuaskan dan Buruk sebagaimana terlihat pada Tabel 3.3 berikut :

(64)

Tabel 3.3. Kategorisasi IPK

No IPK Predikat

1 < 2,00 Buruk

2 2,00 – 2,75 Memuaskan

3 2,76 – 3,50 Sangat Memuaskan 4 3,51 – 4,00 Dengan Pujian

Setelah dikategorisasi dihasilkan sebuah tabel data dengan format xls seperti pada tabel 3.4.

Tabel 3.4. Tampilan Kategorisasi Data

Hasil kategorisasi data akan digunakan untuk input data pada software open source Rapidminer. Setelah itu dilakukan transformasi data dari format xls menjadi XML sehingga dihasilkan data pengujian dalam format XML. Dilakukan pengujian terhadap data yang sudah dalam XML menggunakan algoritma Kernel K-Means. Dari pengujian diperoleh cluster dari data yang telah diuji selanjutnya dilakukan analisis cluster untuk menganalisis dan mendapatkan model aturan yang digambarkan dari hasil cluster.

(1)

3.12 69 80 59 63 60 1 Sangat memuaskan tinggi Menengah tinggi tinggi rendah

2.04 68 81 60 58 64 1 Memuaskan tinggi Menengah tinggi tinggi rendah

2.58 66 79 62 62 71 1 Memuaskan tinggi Menengah tinggi tinggi tinggi

2.80 68 82 55 60 61 2 Sangat memuaskan tinggi Menengah menengah tinggi rendah

3.52 66 81 56 54 71 1 Dengan Pujian tinggi Menengah menengah Menengah tinggi

3.44 69 81 52 57 68 1 Sangat memuaskan tinggi Menengah menengah tinggi Menengah

3.27 66 83 52 50 68 1 Sangat memuaskan tinggi tinggi menengah Menengah Menengah

3.38 69 82 53 59 63 1 Sangat memuaskan tinggi Menengah menengah tinggi rendah

3.15 66 82 53 58 64 1 Sangat memuaskan tinggi Menengah menengah tinggi rendah

3.25 69 76 64 48 72 2 Sangat memuaskan tinggi rendah tinggi Menengah tinggi

3.12 66 79 59 58 66 1 Sangat memuaskan tinggi Menengah tinggi tinggi Menengah

2.94 64 76 64 63 63 1 Sangat memuaskan Menengah rendah tinggi tinggi rendah

2.50 65 81 64 52 65 2 Memuaskan Menengah Menengah tinggi Menengah Menengah

2.18 64 82 55 50 73 1 Memuaskan Menengah Menengah menengah Menengah tinggi

1.78 62 78 54 47 65 2 Buruk rendah rendah menengah rendah Menengah

3.21 ₆₅ ₈₄ ₅₆ ₅₀ ₆₄ _{1 Sangat memuaskan Menengah tinggi} _{menengah Menengah rendah}

3.36 66 81 52 53 67 2 Sangat memuaskan tinggi Menengah menengah Menengah Menengah

(2)

2.92 64 76 59 63 62 2 Sangat memuaskan Menengah rendah tinggi tinggi rendah

2.09 65 77 58 56 62 1 Memuaskan Menengah rendah tinggi tinggi rendah

2.79 64 80 51 62 67 2 Sangat memuaskan Menengah Menengah menengah tinggi Menengah

3.33 67 81 60 63 67 1 Sangat memuaskan tinggi Menengah tinggi tinggi Menengah

3.20 66 81 65 50 62 2 Sangat memuaskan tinggi Menengah tinggi Menengah rendah

2.73 66 84 52 64 65 1 Memuaskan tinggi tinggi menengah tinggi Menengah

3.08 66 80 52 52 63 2 Sangat memuaskan tinggi Menengah menengah Menengah rendah

2.79 64 81 59 53 72 1 Sangat memuaskan Menengah Menengah tinggi Menengah tinggi

3.27 62 81 54 53 67 2 Sangat memuaskan rendah Menengah menengah Menengah Menengah

2.97 64 82 52 66 63 1 Sangat memuaskan Menengah Menengah menengah tinggi rendah

2.29 67 79 53 64 60 2 Memuaskan tinggi Menengah menengah tinggi rendah

2.66 70 81 59 65 68 2 Memuaskan tinggi Menengah tinggi tinggi Menengah

3.33 65 83 54 57 69 1 Sangat memuaskan Menengah tinggi menengah tinggi Menengah

2.69 66 83 53 57 62 1 Memuaskan tinggi tinggi menengah tinggi rendah

3.34 67 80 62 61 65 1 Sangat memuaskan tinggi Menengah tinggi tinggi Menengah

3.17 ₆₉ ₈₂ ₄₇ ₆₂ ₆₉ _{1 Sangat memuaskan tinggi} _{Menengah rendah} _tinggi _Menengah

3.25 65 80 62 54 61 1 Sangat memuaskan Menengah Menengah tinggi Menengah rendah

(3)

3.26 67 81 56 56 64 1 Sangat memuaskan tinggi Menengah menengah tinggi rendah

1.50 60 80 54 46 63 1 Buruk rendah Menengah menengah rendah rendah

3.31 65 83 53 54 68 1 Sangat memuaskan Menengah tinggi menengah Menengah Menengah

3.17 67 83 56 59 64 2 Sangat memuaskan tinggi tinggi menengah tinggi rendah

2.71 66 80 57 58 68 2 Memuaskan tinggi Menengah menengah tinggi Menengah

2.90 64 78 47 53 64 2 Sangat memuaskan Menengah rendah rendah Menengah rendah

3.33 67 81 61 62 68 2 Sangat memuaskan tinggi Menengah tinggi tinggi Menengah

3.25 64 83 66 60 69 2 Sangat memuaskan Menengah tinggi tinggi tinggi Menengah

3.43 70 83 54 60 69 2 Sangat memuaskan tinggi tinggi menengah tinggi Menengah

2.76 66 82 54 59 62 2 Memuaskan tinggi Menengah menengah tinggi rendah

3.28 67 75 54 56 64 1 Sangat memuaskan tinggi rendah menengah tinggi rendah

3.38 63 77 54 56 65 1 Sangat memuaskan rendah rendah menengah tinggi Menengah

3.19 68 78 53 57 59 1 Sangat memuaskan tinggi rendah menengah tinggi rendah

2.90 67 90 55 56 60 2 Sangat memuaskan tinggi tinggi menengah tinggi rendah

2.85 64 90 61 52 68 2 Sangat memuaskan Menengah tinggi tinggi Menengah Menengah

3.44 ₇₀ ₈₅ ₅₅ ₅₁ ₇₄ _{2 Sangat memuaskan tinggi} _tinggi _{menengah Menengah tinggi}

3.25 66 82 57 55 60 2 Sangat memuaskan tinggi Menengah menengah tinggi rendah

(4)

3.24 64 79 52 51 67 1 Sangat memuaskan Menengah Menengah menengah Menengah Menengah

3.25 70 78 52 50 68 1 Sangat memuaskan tinggi rendah menengah Menengah Menengah

2.98 69 82 52 55 62 1 Sangat memuaskan tinggi Menengah menengah tinggi rendah

3.09 64 87 52 55 69 1 Sangat memuaskan Menengah tinggi menengah tinggi Menengah

3.27 67 82 53 58 63 1 Sangat memuaskan tinggi Menengah menengah tinggi rendah

2.60 66 79 60 64 70 1 Memuaskan tinggi Menengah tinggi tinggi tinggi

2.90 73 80 57 60 62 2 Sangat memuaskan tinggi Menengah menengah tinggi rendah

2.78 69 85 55 60 72 2 Sangat memuaskan tinggi tinggi menengah tinggi tinggi

3.39 66 82 58 54 59 1 Sangat memuaskan tinggi Menengah tinggi Menengah rendah

3.67 66 82 59 59 63 2 Dengan Pujian tinggi Menengah tinggi tinggi rendah

2.83 63 84 57 51 76 2 Sangat memuaskan rendah tinggi menengah Menengah tinggi

3.16 69 80 53 49 61 1 Sangat memuaskan tinggi Menengah menengah Menengah rendah

3.02 64 84 62 56 61 1 Sangat memuaskan Menengah tinggi tinggi tinggi rendah

3.30 70 80 55 62 61 1 Sangat memuaskan tinggi Menengah menengah tinggi rendah

3.23 63 80 58 50 60 1 Sangat memuaskan rendah Menengah tinggi Menengah rendah

3.61 ₆₅ ₈₅ ₆₂ ₄₉ ₆₂ _{1 Dengan Pujian} _{Menengah tinggi} _tinggi _{Menengah rendah}

3.12 64 86 53 56 66 2 Sangat memuaskan Menengah tinggi menengah tinggi Menengah

(5)

3.08 64 80 59 53 59 2 Sangat memuaskan Menengah Menengah tinggi Menengah rendah

3.22 65 85 57 61 67 2 Sangat memuaskan Menengah tinggi menengah tinggi Menengah

2.73 66 84 59 60 65 2 Memuaskan tinggi tinggi tinggi tinggi Menengah

3.56 64 79 53 52 71 1 Dengan Pujian Menengah Menengah menengah Menengah tinggi

3.18 68 81 55 53 62 1 Sangat memuaskan tinggi Menengah menengah Menengah rendah

2.87 66 81 62 62 65 2 Sangat memuaskan tinggi Menengah tinggi tinggi Menengah

3.31 66 93 52 56 61 2 Sangat memuaskan tinggi tinggi menengah tinggi rendah

3.25 65 82 52 50 68 1 Sangat memuaskan Menengah Menengah menengah Menengah Menengah

3.11 65 83 57 54 67 1 Sangat memuaskan Menengah tinggi menengah Menengah Menengah

2.78 66 84 52 49 64 2 Sangat memuaskan tinggi tinggi menengah Menengah rendah

3.44 63 84 53 52 60 1 Sangat memuaskan rendah tinggi menengah Menengah rendah

3.40 68 89 53 55 63 2 Sangat memuaskan tinggi tinggi menengah tinggi rendah

3.43 66 82 57 57 69 1 Sangat memuaskan tinggi Menengah menengah tinggi Menengah

3.02 65 84 47 55 58 2 Sangat memuaskan Menengah tinggi rendah tinggi rendah

2.02 65 80 57 57 67 1 Memuaskan Menengah Menengah menengah tinggi Menengah

1.55 ₅₇ ₇₁ ₅₃ ₄₆ ₆₇ _{2 Buruk} _rendah _rendah _{menengah rendah} _Menengah

3.52 68 80 52 52 66 1 Dengan Pujian tinggi Menengah menengah Menengah Menengah

(6)

3.43 63 82 52 63 63 1 Sangat memuaskan rendah Menengah menengah tinggi rendah

3.45 64 81 52 48 64 1 Sangat memuaskan Menengah Menengah menengah Menengah rendah

3.44 66 81 53 52 73 1 Sangat memuaskan tinggi Menengah menengah Menengah tinggi

3.32 61 82 53 52 60 1 Sangat memuaskan rendah Menengah menengah Menengah rendah

3.27 67 76 63 60 66 1 Sangat memuaskan tinggi rendah tinggi tinggi Menengah

3.20 68 79 58 54 66 2 Sangat memuaskan tinggi Menengah tinggi Menengah Menengah

2.94 69 82 57 57 66 2 Sangat memuaskan tinggi Menengah menengah tinggi Menengah

3.10 70 81 60 54 62 2 Sangat memuaskan tinggi Menengah tinggi Menengah rendah

Model Profil Mahasiswa Yang Potensial Drop Out Menggunakan Teknik Kernel K-Mean Clustering Dan Decision Tree

TESIS

ZEFRI PAULANDA

107038004/TINF

TESIS

PERNYATAAN ORISINALITAS

TESIS

PERNYATAAN PERSETUJUAN PUBLIKASI

KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

KATA PENGANTAR

MODEL PROFILE OF POTENTIAL STUDENTS DROP OUT

TECHNIQUE USING KERNEL K-MEANS CLUSTERING

AND DECISION TREE

MODEL PROFILE OF POTENTIAL STUDENTS DROP OUT

TECHNIQUE USING KERNEL K-MEANS CLUSTERING

AND DECISION TREE

BAB I

PENDAHULUAN

BAB II

TINJAUAN PUSTAKA

∑

∑

∑

∑

∑

∑

∑

BAB III

METODOLOGI PENELITIAN

∑

∑

Parts

Dokumen yang terkait

Model Segmentasi Pelanggan Dengan Kernel K-Means Clustering Berbasis Customer Relationship Management (CRM)

Pengelompokan Mahasiswa Potensial Drop Out Menggunakan Metode Clustering Pada Program Studi Strata 1 Ilmu Komputer Dan Teknologi Informasi Universitas Sumatera Utara

FUZZY DECISION TREE UNTUK ANALISA FAKTOR (1)

Model Segmentasi Pelanggan Dengan Kernel K-Means Clustering Berbasis Customer Relationship Management

PENGENALAN CITRA REKAMAN ECG ATRIAL FIBRILATION DAN NORMAL MENGGUNAKAN DEKOMPOSISI WAVELET DAN K-MEAN CLUSTERING

View of Pengelompokan Mahasiswa Potensial Drop Out Menggunakan Metode Clustering K-Means

PREDIKSI MAHASISWA DROP OUT MENGGUNAKAN METODE SUPPORT VECTOR MACHINE

Pengelompokan Mahasiswa Potensial Drop Out Menggunakan Metode Clustering Pada Program Studi Strata 1 Ilmu Komputer Dan Teknologi Informasi Universitas Sumatera Utara

Kernel k-means, Spectral Clustering and Normalized Cuts

Segmentasi Trabecular Bone pada Dental Panoramic Radiograph menggunakan K-means Clustering dan Root-Guided Decision Tree (RGDT) - ITS Repository

Dokumen yang Anda mencari sudah siap untuk unduhkan