Model Aturan Keterhubungan Data Mahasiswa Menggunakan Algoritma C 4.5 untuk Meningkatkan Indeks Prestasi

(1)

MODEL ATURAN KETERHUBUNGAN DATA MAHASISWA

MENGGUNAKAN ALGORITMA C 4.5 UNTUK

MENINGKATKAN INDEKS PRESTASI

TESIS

Oleh

DEDY HARTAMA

097038009/TIF

PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SUMATERA UTARA MEDAN


(2)

MODEL ATURAN KETERHUBUNGAN DATA MAHASISWA

MENGGUNAKAN ALGORITMA C 4.5 UNTUK

MENINGKATKAN INDEKS PRESTASI

TESIS

Diajukan sebagai salah satu syarat untuk memperoleh gelar

Magister Komputer dalam Program Studi Magister

Teknik Informatika pada Program Pascasarjana

Fakultas MIPA Universitas Sumatera Utara

Oleh

DEDY HARTAMA 097038009/TIF

PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SUMATERA UTARA MEDAN


(3)

PENGESAHAN TESIS

Judul Tesis : MODEL ATURAN KETERHUBUNGAN

DATA MAHASISWA MENGGUNAKAN ALGORITMA C 4.5 UNTUK

MENINGKATKAN INDEKS PRESTASI

Nama Mahasiswa : DEDY HARTAMA

Nomor Induk Mahasiswa : 097038009

Program Studi : Magister Teknik Informatika

Fakultas : Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara

Menyetujui Komisi Pembimbing

Dr. Zakarias Situmorang Prof. Dr. Herman Mawengkang

Anggota Ketua

Ketua Program Studi,

Prof. Dr. Muhammad Zarlis NIP : 195707011986011003


(4)

PERNYATAAN ORISINALITAS

MODEL ATURAN KETERHUBUNGAN DATA MAHASISWA

MENGGUNAKAN ALGORITMA C 4.5 UNTUK

MENINGKATKAN INDEKS PRESTASI

TESIS

Dengan ini saya nyatakan bahwa saya mengakui semua karya tesis ini adalah hasil kerja saya sendiri kecuali kutipan dan ringkasan yang tiap bagiannya telah di jelaskan sumbernya dengan benar.

Medan, 19 April 2011

DEDY HARTAMA. NIM : 097038009


(5)

PERNYATAAN PERSETUJUAN PUBLIKASI

KARYA ILMIAH UNTUK KEPENTINGAN

AKADEMIS

Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini:

Nama : DEDY HARTAMA

Nim : 097038009

Program Studi : Magister ( S2) Teknik Informatika Jenis Karya Ilmiah : TESIS

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty free Right) atas Tesis saya yang berjudul:

MODEL ATURAN KETERHUBUNGAN DATA MAHASISWA

MENGGUNAKAN ALGORITMA C 4.5 UNTUK

MENINGKATKAN INDEKS PRESTASI

Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan atau sebagai pemilik hak cipta.

Demikian pernyataan ini dibuat dengan sebenarnya.

Medan, 19 April 2011

DEDY HARTAMA. NIM : 097038009


(6)

Telah diuji pada

Tanggal : 19 April 2011

PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Herman Mawengkang Anggota : 1. Prof. Dr. Muhammad Zarlis

2. Dr. Zakarias Situmorang

3. M. Andre Budiman, ST, M. Comp. Sc, M.EM


(7)

RIWAYAT HIDUP

DATA PRIBADI

Nama lengkap berikut gelar : Dedy Hartama, ST

Tempat dan Tanggal Lahir : Marihat, 11 Oktober 1973

Alamat Rumah : Jl. Jawa Gg Sate Atas No. 1

Pematangsiantar

Telepon / HP : (0622)25671 / +628126438793

Email

Instansi Tempat Bekerja : AMIK Tunas Bangsa

Alamat Kantor : Jl. Jendral Sudirman Blok A No. 1,2,3

Pematangsiantar

Telepon : (0622) 22431

DATA PENDIDIKAN

SD : SD NEGERI No. 095210 Tamat : 1986

SMP : SMP NEGERI 8 Tamat : 1989

SMU : SMU NEGERI 3 Tamat : 1992

D3 : FMIPA Ilmu Komuter USU Tamat : 1996

Strata-1 : STT Harapan Medan Tamat : 2003


(8)

KATA PENGANTAR

Pertama-tama kami panjatkan puji syukur kehadirat Allah SWT Tuhan Yang Maha Esa atas segala limpahan rakhmad dan karunia-Nya sehingga Tesis ini dapat diselesaikan melalui bimbingan, arahan dan bantuan yang diberikan berbagai pihak khususnya pembimbing, pembanding, para dosen, teman teman mahasiswa, khususnya mahasiswa Program Studi Magister (S2) Teknik Informatika di FMIPA Universitas Sumatera Utara.

Tesis dengan judul: ” Model Aturan Keterhubungan Data Mahasiswa Menggunakan Algoritma C 4.5 untuk Meningkatkan Indeks Prestasi” adalah merupakan Tesis dan syarat untuk memperoleh gelar Magister Komputer dalam Program Studi Magister (S2) Teknik Informatika pada Program Pascasarjana FMIPA Universitas Sumatera Utara

Dengan selesainya tesis ini, perkenankanlah penulis mengucapkan terima kasih yang sebesar-besarnya kepada:

Ketua Yayasan Muhammad Nasir AMIK Tunas Bangsa Pematangsiantar H. Maulia Ahmad Ridwan Syah yang telah memberikan izin, bantuan moril dan materil dan kesempatan kepada penulis untuk mengikuti pendidikan lanjutan pada Program Pascasarjana FMIPA USU.

Rektor Universitas Sumatera Utara, Prof. Dr. dr. Syahril Pasaribu, DTM&H, M,Sc (CTM), Sp. A(K) atas kesempatan yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan Program Magister (S2).

Dekan Fakultas MIPA Universitas Sumatera Utara, Dr. Sutarman, M.Sc atas kesempatan yang diberikan kepada penulis menjadi mahasiswa Program Magister (S2) pada Program Pascasarjana FMIPA Universitas Sumatera Utara.


(9)

Ketua Program Studi Magister (S2) Teknik Informatika, Prof. Dr. Muhammad Zarlis, Sekretaris Program Studi Magister (S2) Teknik Informatika M. Andri Budiman, ST, M. Comp. Sc, M.EM beserta seluruh Staff dan Staff Pengajar pada Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fakultas MIPA Universitas Sumatera Utara, yang telah bersedia membimbing penulis, sehingga dapat menyelesaikan pendidikan tepat pada waktunya.

Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Prof. Dr. Herman Mawengkang selaku Pembimbing Utama dan Dr. Zakarias Situmorang selaku Pembimbing Anggota yang dengan penuh kesabaran membimbing, memotivasi, memberikan dukungan moril, kritik dan saran serta memberikan bahan-bahan yang berkaitan dengan penyusunan tesis ini sehingga penulis dapat menyelesaikan tesis ini dengan baik.

Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Prof. Dr. Muhammad Zarlis, M. Andre Budiman, ST, M. Comp. Sc, M.EM, dan Amer Sharif, S.Si, M.Kom sebagai pembanding, yang telah memberikan saran, masukan dan arahan yang baik demi penyelesaian tesis ini.

Seluruh Staf Pengajar dan Administrasi, Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fakultas MIPA Universitas Sumatera Utara yang telah memberikan bantuan dan pelayanan yang baik kepada penulis selama mengikuti perkuliahan.

Orangtua tercinta Ayahanda dan Ibunda, serta Ibu Mertua serta semua keluarga yang senantiasa mendoakan, dan memberikan dorongan kepada penulis.

Istri tercinta, Nina Fadilah, S.S yang selalu mendoakan, memberikan semangat, dengan kasih, sabar dan bantuan selama penulis mengikuti pendidikan, budi baik ini tidak dapat dibalas hanya diserahkan kepada Allah SWT, Tuhan Yang maha Esa. Sekali lagi terima kasih.


(10)

Rekan Mahasiswa Angkatan Pertama Program Studi Magister (S2) Teknik Informatika Komputer FMIPA Universitas Sumatera Utara dan Rekan Sejawat di AMIK Tunas Bangsa Pematangsiantar yang telah banyak membantu penulis selama mengikuti perkuliahan.

Kepada semua pihak yang tidak dapat penulis sebutkan satu persatu dalam tesis ini, terima kasih atas segala bantuan yang diberikan. Sekecil apapun yang Anda berikan untuk penulis turut menghantarkan penulis untuk menyelesaikan pendidikan yang ditempuh selama ini. Dengan segala kekurangan dan kerendahan hati, semoga kiranya Allah SWT Tuhan Yang Maha Kuasa membalas segala bantuan, kebaikan yang telah diberikan.

Medan, April 2011 Penulis,


(11)

MODEL ATURAN KETERHUBUNGAN DATA MAHASISWA

MENGGUNAKAN ALGORITMA C 4.5 UNTUK

MENINGKATKAN INDEKS PRESTASI

ABSTRAK

Tesis ini mengusulkan sebuah model aturan keterhubungan data mahasiswa dengan indeks prestasi di perguruan tinggi swasta. Faktor-faktor mana yang lebih dominan yang mempengaruhi indeks prestasi belum dapat diketahui dengan pasti. Data diperoleh dari database Akademik AMIK Tunas Bangsa dan hasil survei terhadap mahasiswa semester III tahun ajaran 2008 dan 2009. Dalam tesis ini algoritma C 4.5 decision tree diaplikasikan agar mendapatkan suatu model aturan yang dapat memperlihatkan keterhubungan antara nilai rata rata matakuliah kurikulum berbasis kompetensi dengan data ekonomi, dukungan orang tua dan fasilitas belajar terhadap indeks prestasi mahasiswa. Model aturan yang diperoleh menunjukkan bahwa variabel terbaik dari prediktor yang digunakan adalah faktor ekonomi yang memberikan kontribusi sebesar 79,8% terhadap indeks prestasi mahasiswa.


(12)

THE CONNECTEDNESS RULE MODEL OF STUDENT

DATA USING C 4.5 ALGORITHM TO IMPROVE

STUDENT ACHIEVEMENT

ABSTRACT

This thesis proposes the connectedness rule model of Students’ data with the student achievement in a private college. The more dominant factors that influence the student achievement is not exactly known yet. The data are taken from the database of the Academy of Management and Information Tunas Bangsa in Pematangsiantar and from the result of the survey on the university students of the third semester for the year of 2008 and 2009. In this thesis The C 4.5 algorithm decision tree is applied so that we can get a rule model that shows the connectedness between the average marks of the curriculum based on the competency with the economic data, parental support and the learning facilities with the university students’ achievement. The rule model that is taken shows that the best variable from the prediction which is used is the economic factor that gives contribution nearly 79,81 % to the university students’ achievement.


(13)

DAFTAR ISI

Halaman

KATA PENGANTAR i

ABSTRAK iv

ABSTRACT v

DAFTAR ISI vi

DAFTAR TABEL viii

DAFTAR GAMBAR x

DAFTAR LAMPIRAN xi

BAB I PENDAHULUAN 1

1.1 Latar Belakang 1

1.2 Perumusan Masalah 4

1.3. Batasan Masalah 4

1.4 Tujuan Penelitian 4

1.5 Manfaat Penelitian 4

BAB II TINJAUAN PUSTAKA 6

2.1 Pengertian Data Mining 6

2.2 Pengelompokan Data Mining 14

2.3 Decision Tree 17

2.4 Algoritma C 4.5 17

2.5 Ekstraksi Rule dari Decision Tree 26

2.6 Riset- riset Terkait 27

2.7 Persamaan dengan Riset – riset lain 28

2.8 Perbedaan dengan Riset-riset lain 29

2.9 Kontribusi Riset 29

BAB III METODE PENELITIAN 31

3.1. Pendahuluan 31

3.2 Lokasi dan Waktu Penelitian 31

3.3 Rancangan Penelitian 32


(14)

3.5 Validitas dan Reabilitas (Keakuratan Data) 36

3.6 Preprocessing Data 36

3.6.1 Preprocessing Database Akademik 36

3.6.2 Preprocessing Data Kuesioner 38

3.7 Alat Analisis Data 39

3.7.1 Paket Statitik Untuk Ilmu Sosial 39

3.7.2 Komunitas Rapid Miner 39

3.8 Instrument Penelitian 40

3.9 Diagram Aktifitas Kerja Penelitian 41

3.10 Model Decision Tree 42

BAB IV HASIL DAN PEMBAHASAN 44

4.1. Pendahuluan 44

4.2 Hasil Percobaan 44

4.2.1 Hasil Percobaan Sampel Data 45

4.2.2 Hasil Percobaan Descriptive Data 47

4.2.3 Hasil Percobaan Frekuensi Data 48

4.2.3.1 Statistik Frekuensi Faktor Ekonomi 48 4.2.3.2 Statistik Frekuensi Faktor Dukungan

Orang Tua 48

4.2.3.3 Statistik Frekuensi Faktor Fasilitas

Belajar Mahasiswa 49

4.2.4 Signifikan dan Multicollinearity 50

4.2.4.1 Signifikan 50

4.2.4.2 Multicollinearity 52

4.2.5 Hasil Percobaan Decision Tree 53

4.2.6.Validasi Decision Tree 60

BAB V KESIMPULAN DAN SARAN 62

5.1. Kesimpulan 62

5.2 Saran 63

DAFTAR PUSTAKA 64


(15)

DAFTAR TABEL

Nomor J u d u l Halaman

2.1 Keputusan Bermain Tenis 20

2.2 Perhitungan Node 1 22

2.3 Perhitungan Node 1.1 24

2.4 Perhitungan Node 1.1.2 25

3.1 Meta Data View Data Set Pertama 34

3.2 Meta Data View Data Set Kedua 35

3.3 Meta Data View Data Set Pertama dan Kedua 35

3.4 Statistik Reliabilitas Data 36

3.5 Preprocessing Data Gabungan 4 Tabel 37

3.6 Tabel Data Penelitian 38

3.7 Data Kuesioner 38

4.1 Signifikan dan Reliabilitas Statistik Faktor Ekonomi 45 4.2 Signifikan dan Reliabilitas Statistik Dukungan

Orang Tua 45

4.3 Signifikan dan Reliabilitas Statistik Faktor Fasilitas

Belajar 46

4.4 Signifikan dan Reliabilitas Statistik Data 46

4.5 Descriptive Statistics Testing Data 47

4.6 Statistics Frequency Faktor Ekonomi 48

4.7 Statistics Frequency Faktor Dukungan Orang Tua 48 4.8 Statistics Frequency Faktor Fasilitas Belajar Mahasiswa 49

4.9 Statistics Frequency Tiga Faktor Pendukung 50

4.10 Korelasi Signifikan dari Empat Prediktor Variabel Predikat 51 4.11 Signifikan dari Empat Variabel Prediktor Predikat 52


(16)

4.12 Multicollinearity Diagnostik 52

4.13 Keterangan Rule Grafik 54

4.14 Keterangan Rule Text dengan Gain Rasio 56


(17)

DAFTAR GAMBAR

Nomor J u d u l Halaman

2.1 Bidang Ilmu Data Mining 09

2.2 Proses dari Data Mining 11

2.3 Proses Data Mining Menurut CRISP-DM 12

2.4 Pohon Keputusan Hasil Perhitungan Node 1 23

2.5 Pohon Keputusan Hasil Perhitungan Node 1.1 24

2.6 Pohon Keputusan Hasil Perhitungan Node 1.1.2 26

3.1 Record dari Database Pendidikan 32

3.2 Rancangan Penelitian Aturan Indeks Prestasi 33

3.3 Pra Pengolahan Data 37

3.4 Proses Percobaan 40

3.5 Diagram Aktivitas Kerja Penelitian 41

3.6 Model Decision Tree Grafik 42

4.1 Grafik Decision Tree 53

4.2 Model Aturan Text Decision Tree 55

4.3 Model Aturan Induction Rule 57

4.4 Profil Predikat Kelulusan 58

4.5 Hubungan Predikat dengan Rata MKK 58

4.6 Hubungan Predikat dengan Rata MBB 59

4.7 Hubungan Predikat dengan Rata MPK 59

4.8 Hubungan Predikat dengan Rata MKB 60

4.9 Desain Model Validasi Rapidminer 61


(18)

DAFTAR LAMPIRAN

Nomor J u d u l Halaman

A Bentuk Kuesioner Mahasiswa L-1

B Sampel Data Mahasiswa dari Database L-3

C Sampel Training 60 Data L-4

D Korelasi Penelitian 734 Data L-5

E Daftar Mata Kuliah Semester 3 L-6

F Data Percobaan Pembuatan Aturan Decision Tree L-7

G Output Descriptive dan Frequency L-8


(19)

MODEL ATURAN KETERHUBUNGAN DATA MAHASISWA

MENGGUNAKAN ALGORITMA C 4.5 UNTUK

MENINGKATKAN INDEKS PRESTASI

ABSTRAK

Tesis ini mengusulkan sebuah model aturan keterhubungan data mahasiswa dengan indeks prestasi di perguruan tinggi swasta. Faktor-faktor mana yang lebih dominan yang mempengaruhi indeks prestasi belum dapat diketahui dengan pasti. Data diperoleh dari database Akademik AMIK Tunas Bangsa dan hasil survei terhadap mahasiswa semester III tahun ajaran 2008 dan 2009. Dalam tesis ini algoritma C 4.5 decision tree diaplikasikan agar mendapatkan suatu model aturan yang dapat memperlihatkan keterhubungan antara nilai rata rata matakuliah kurikulum berbasis kompetensi dengan data ekonomi, dukungan orang tua dan fasilitas belajar terhadap indeks prestasi mahasiswa. Model aturan yang diperoleh menunjukkan bahwa variabel terbaik dari prediktor yang digunakan adalah faktor ekonomi yang memberikan kontribusi sebesar 79,8% terhadap indeks prestasi mahasiswa.


(20)

THE CONNECTEDNESS RULE MODEL OF STUDENT

DATA USING C 4.5 ALGORITHM TO IMPROVE

STUDENT ACHIEVEMENT

ABSTRACT

This thesis proposes the connectedness rule model of Students’ data with the student achievement in a private college. The more dominant factors that influence the student achievement is not exactly known yet. The data are taken from the database of the Academy of Management and Information Tunas Bangsa in Pematangsiantar and from the result of the survey on the university students of the third semester for the year of 2008 and 2009. In this thesis The C 4.5 algorithm decision tree is applied so that we can get a rule model that shows the connectedness between the average marks of the curriculum based on the competency with the economic data, parental support and the learning facilities with the university students’ achievement. The rule model that is taken shows that the best variable from the prediction which is used is the economic factor that gives contribution nearly 79,81 % to the university students’ achievement.


(21)

BAB I

PENDAHULUAN

1.1 Latar Belakang

Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang tersimpan di dalam database besar. (Turban et al, 2005 ).

Data mining adalah bagian dari proses KDD ( Knowledge Discovery in Databases) yang terdiri dari beberapa tahapan seperti pemilihan data, pra pengolahan, transformasi, data mining, dan evaluasi hasil (Maimon dan Last, 2000)

Teknik data mining secara garis besar dapat dibagi dalam dua kelompok: verifikasi dan discovery. Metode verifikasi umumnya meliputi teknik-teknik statistik seperti goodness of fit, dan analisis variansi. Metode discovery lebih lanjut dapat dibagi atas model prediktif dan model deskriptif. Teknik prediktif melakukan prediksi terhadap data dengan menggunakan hasil-hasil yang telah diketahui dari data yang berbeda. Model ini dapat dibuat berdasarkan penggunaan data historis lain. Sementara itu, model deskriptif bertujuan mengidentifikasi pola-pola atau hubungan antar data dan memberikan cara untuk mengeksplorasi karakteristik data yang diselidiki (Dunham, 2003).

Kegiatan dan kemajuan belajar mahasiswa dilakukan penilaian secara berkala, yang dapat berbentuk ujian, pelaksanaan tugas, dan pengamatan oleh dosen. Ujian dapat diselenggarakan melalui ujian tengah semester, ujian akhir semester, ujian akhir program studi, ujian skripsi.


(22)

Penilaian hasil belajar dinyatakan dengan huruf A, B, C, D, dan E yang masing masing bernilai 4, 3, 2, 1, dan 0. (Kepmendiknas No. 232/U/2000 BAB V Pasal 12).

Kurikulum pendidikan tinggi adalah seperangkat rencana dan pengaturan mengenai isi maupun bahan kajian dan pelajaran serta cara penyampaian dan penilaiannya yang digunakan sebagai pedoman penyelenggaraan kegiatan belajar mengajar di perguruan tinggi. Kelompok Matakuliah Pengembangan Kepribadian (MPK) adalah kelompok bahan kajian dan pelajaran untuk mengembangkan manusia Indonesia yang beriman dan bertaqwa terhadap Tuhan Yang Maha Esa dan berbudi pekerti luhur, berkepribadian mantap, dan mandiri serta mempunyai rasa tanggung jawab kemasyarakatan dan kebangsaan. Kelompok Matakuliah Keilmuan dan Keterampilan (MKK) adalah kelompok bahan kajian dan pelajaran yang ditujukan terutama untuk memberikan landasan penguasaan ilmu dan ketrampilan tertentu. Kelompok Matakuliah Keahlian Berkarya (MKB) adalah kelompok bahan kajian dan pelajaran yang bertujuan menghasilkan tenaga ahli dengan kekaryaan berdasarkan dasar ilmu dan ketrampilan yang dikuasai. Kelompok Matakuliah Perilaku Berkarya (MPB) adalah kelompok bahan kajian dan pelajaran yang bertujuan untuk membentuk sikap dan perilaku yang diperlukan seseorang dalam berkarya menurut tingkat keahlian berdasarkan dasar ilmu dan keterampilan yang dikuasai. Kelompok Matakuliah Berkehidupan Bermasyarakat (MBB) adalah kelompok bahan kajian dan pelajaran yang diperlukan seseorang untuk dapat memahami kaidah berkehidupan bermasyarakat sesuai dengan pilihan keahlian dalam berkarya. (Kepmendiknas No. 232/U/2000 Pasal 6,7,8,9,10 dan 11).

Dalam beberapa penelitian yang telah dilakukan oleh peneliti yang dituliskan dalam jurnal atau karya ilmiah tentang penggunaan data mining pada perguruan tinggi adalah : Romero dan Ventura, (2007), telah melakukan survey data mining dalam bidang pendidikan antara tahun 1995 sampai 2005, mereka menyimpulkan bahwa data mining yang berhubungan dengan pendidikan sangat baik untuk diteliti terutama di bidang e-learning, multimedia, artificial intelligent


(23)

dan web database. Merceron dan Yacep, (2005) melakukan penelitian menggunakan data mining untuk mengidentifikasi perilaku mahasiswa yang cenderung gagal pada prestasi akademik sebelum ujian akhir. Waiyamai, (2003) menggunakan data mining untuk membantu dalam pengembangan kurikulum baru. El-Halees, (2008) menganalisis perilaku belajar mahasiswa dengan teknik data mining. Ogor, (2007) menggunakan teknik data mining yang digunakan untuk membangun prototipe Penilaian Kinerja Monitoring System (PAMS) untuk mengevaluasi kinerja mahasiswa. Sembiring, et al., (2009) menggunakan teknik data mining dalam pemantauan dan memprediksi peningkatan prestasi mahasiswa berdasarkan minat, prilaku belajar, pemanfatan waktu dan dukungan orang tua di perguruan tinggi.

Walaupun telah banyak penelitian yang dilakukan berkaitan dengan indeks prestasi mahasiswa namun faktor-faktor yang mempengaruhi indeks prestasi mahasiswa masih belum dapat diketahui dengan pasti sehingga perlu dilakukan penelitian untuk melihat keterhubungan data mahasiswa dengan indeks prestasi.

Tesis ini mengaplikasikan teknik data mining dengan algoritma C 4.5 dalam membuat model aturan keterhubungan data mahasiswa berdasarkan matakuliah Kurikulum Berbasis Kompetensi (KBK) dan data demografi yang mendukung peningkatan indeks prestasi mahasiswa. Model aturan yang diperoleh untuk mengklasifikasikan predikat mahasiswa yang terdiri dari dengan pujian, sangat memuaskan, memuaskan, dan buruk.

Dengan menggunakan Algoritma C 4.5, penelitian tesis ini akan memberikan aturan dalam bentuk decision tree agar mahasiswa dapat meningkatkan nilai matakuliah untuk meningkatkan indeks prestasi pada semester yang akan diambil berikutnya. Penelitian ini diharapkan dapat memberikan kontribusi bagi perguruan tinggi swasta khususnya Akademi Manajemen Informatika dan Komputer ( AMIK ) Tunas Bangsa Pematangsiantar.

Model aturan keterhubungan data mahasiswa dengan indeks prestasi yang diperoleh dari tesis ini menunjukkan bahwa faktor ekonomi orang tua merupakan variabel yang dominan dalam meningkatkan indeks prestasi mahasiswa di AMIK Tunas Bangsa Pematangsiantar.


(24)

1.2 Perumusan Masalah

Berdasar pada latar belakang di atas, maka dapat dirumuskan masalah dalam tesis ini sebagai berikut:

1.Bagaimana membuat model aturan keterhubungan data mahasiswa dengan indeks prestasi menggunakan algoritma C 4.5.

2.Bagaimana menggunakan model aturan untuk mengklasifikasikan predikat akhir seorang mahasiswa berdasarkan indeks prestasi.

1.3 Batasan Masalah

Rumusan masalah di atas, dibatasi dengan beberapa hal sebagai berikut :

1. Algoritma teknik data mining yang digunakan adalah algoritma C 4.5 untuk mendapatkan decision tree.

2. Data diperoleh dari database pendidikan AMIK Tunas Bangsa dan data hasil survey mahasiswa menggunakan kuesioner mahasiswa.

3. Dalam membuat rule atau aturan, penulis menggunakan perangkat lunak rapidminer 5.0 untuk melakukan analisis data.

1.4 Tujuan Penelitian

Tujuan yang ingin dicapai pada penelitian tesis ini yaitu :

1. Untuk mendapatkan sebuah model aturan keterhubungan data mahasiswa dengan indeks prestasi mahasiswa.

2. Untuk membantu bagian manajemen pendidikan dalam mengambil

tindakan preventif bagi mahasiswa yang memiliki kecendrungan predikat buruk pada akhir masa studi.

1.5 Manfaat Penelitian

Manfaat dari penelitian tesis ini adalah:

1. Membantu manajemen pada bagian akademik dalam mengambil

keputusan untuk menentukan predikat indeks prestasi mahasiswa

2. Sebagai model untuk prediksi predikat akhir ujian semester mahasiswa AMIK Tunas Bangsa Pematangsiantar.


(25)

3. Sebagai referensi bagi peneliti selanjutnya yang berkaitan dengan penggunaan teknik data mining pada perguruan tinggi.

4. Memberikan masukan pada manajemen AMIK Tunas Bangsa sebagai

dasar untuk meningkatkan kualitas layanan pada prestasi akademik mahasiswa dengan nilai yang telah diprediksi dari nilai semester yang telah diproses dalam database pendidikan AMIK Tunas Bangsa.


(26)

BAB II

TINJAUAN PUSTAKA

2.1 Pengertian Data Mining

Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di dalam database besar. (Turban et al, 2005 ).

Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika (Larose, 2006).

Selain definisi di atas beberapa definisi juga diberikan seperti, “data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.” (Pramudiono, 2006). “Data mining adalah analisis otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya.” (Pramudiono, 2006).

“Data mining merupakan analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik data.” (Larose, 2006).


(27)

“Data mining merupakan bidang dari beberapa keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk penanganan permasalahan pengambilan informasi dari database yang besar.” (Larose, 2006).

Kemajuan luar biasa yang terus berlanjut dalam bidang data mining didorong oleh beberapa faktor, antara lain (Larose, 2006).

1. Pertumbuhan yang cepat dalam kumpulan data.

2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan memiliki akses ke dalam database yang baik.

3. Adanya peningkatan akses data melalui navigasi web dan intranet. 4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam

globalisasi ekonomi.

5. Perkembangan teknologi perangkat lunak untuk data mining

(ketersediaan teknologi).

6. Perkembangan yang hebat dalam kemampuan komputasi dan

pengembangan kapasitas media penyimpanan.

Dari definisi-definisi yang telah disampaikan, hal penting yang terkait dengan data mining adalah :

1. Data mining merupakan suatu proses otomatis terhadap data yang sudah ada.

2. Data yang akan diproses berupa data yang sangat besar.

3. Tujuan data mining adalah mendapatkan hubungan atau pola yang mungkin memberikan indikasi yang bermanfaat.

Hubungan yang dicari dalam data mining dapat berupa hubungan antara dua atau lebih dalam satu dimensi. Misalnya dalam dimensi produk, kita dapat melihat keterkaitan pembelian suatu produk dengan produk yang lain. Selain itu, hubungan juga dapat dilihat antara dua atau lebih atribut dan dua atau lebih objek. (Ponniah, 2001).

Sementara itu, penemuan pola merupakan keluaran lain dari data mining. Misalkan sebuah perusahaan yang akan meningkatkan fasilitas kartu kredit dari pelanggan, maka perusahaan akan mencari pola dari pelanggan-pelanggan yang


(28)

ada untuk mengetahui pelanggan yang potensial dan pelanggan yang tidak potensial.

Beberapa definisi awal dari data mining meyertakan fokus pada proses otomatisasi. Berry dan Linoff, (2004) dalam buku Data Mining Technique for Marketing, Sales, and Customer Support mendefinisikan data mining sebagai suatu proses eksplorasi dan analisis secara otomatis maupun semi otomatis terhadap data dalam jumlah besar dengan tujuan menemukan pola atau aturan yang berarti (Larose, 2006).

Tiga tahun kemudian, dalam buku Mastering Data Mining mereka memberikan definisi ulang terhadap pengertian data mining dan memberikan pernyataan bahwa “jika ada yang kami sesalkan adalah frasa secara otomatis maupun semi otomatis, karena kami merasa hal tersebut memberikan fokus berlebih pada teknik otomatis dan kurang pada eksplorasi dan analisis”. Hal tersebut memberikan pemahaman yang salah bahwa data mining merupakan produk yang dapat dibeli dibandingkan keilmuan yang harus dikuasai (Larose, 2006).

Pernyataan tersebut menegaskan bahwa dalam data mining otomatisasi tidak menggantikan campur tangan manusia. Manusia harus ikut aktif dalam setiap fase dalam proses data mining. Kehebatan kemampuan algoritma data mining yang terdapat dalam perangkat lunak analisis yang terdapat saat ini memungkinkan terjadinya kesalahan penggunaan yang berakibat fatal. Pengguna mungkin menerapkan analisis yang tidak tepat terhadap kumpulan data dengan menggunakan pendekatan yang berbeda. Oleh karenanya, dibutuhkan pemahaman tentang statistik dan struktur model matematika yang mendasari kerja perangkat lunak (Larose, 2006).


(29)

Gambar 2.1 Bidang Ilmu Data Mining

Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dahulu. Gambar 2.1 menunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik, database, dan juga information retrieval (Pramudiono, 2006).

Istilah data mining dan Knowledge Discovery in Database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut (Fayyad, 1996).

1. Data Selection

Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.

Pencarian Informasi

Database

Artificial Intelligent

Statistik Data Mining

Ekstraksi data (bahasa alami, web)

Penstrukturan)

Dasar (Seleksi, presentase

Hasil) Data yang besar (Normalisasi data Transformasi, OLAP)

Pembelajaran (Neural Network, pohon


(30)

2. Pre-processing/Cleaning

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

3. Transformation

Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.

4. Data mining

Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode dan algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5. Interpretation/Evalution

Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya. Penjelasan di atas dapat direfresentasikan pada Gambar 2.2


(31)

Gambar 2.2 Proses dari Data Mining Sumber: SPSS, 2004

Cross-Industry Standart Process for Data Mining (CRISP-DM) yang di kembangkan tahun 1996 oleh analisis dari beberapa industri seperti Daimler Chrysler, SPSS dan NCR. CRISP-DM menyediakan standar proses data mining sebagai strategi pemecahan masalah secara umum dari bisnis atau unit penelitian.

Dalam CRISP-DM sebuah proyek data mining memiliki siklus hidup yang terbagi dalam enam fase Gambar 2.3. Keseluruhan fase berurutan yang ada tersebut bersifat adaptif. Fase berikutnya dalam urutan bergantung kepada keluaran dari fase sebelumnya. Hubungan penting antar fase digambarkan dengan panah. Sebagai contoh, jika proses berada pada fase modeling. Berdasar pada perilaku dan karakteristik model, proses mungkin kembali kepada fase data preparation untuk perbaikan lebih lanjut terhadap data atau berpindah maju kepada fase evaluation.


(32)

Gambar 2.3 Proses Data Mining Menurut CRISP-DM Sumber: CRISP, 2005

Enam fase CRISP-DM ( Cross Industry Standard Process for Data Mining) (Larose, 2006).

1. Fase Pemahaman Bisnis ( Business Understanding Phase )

a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian secara keseluruhan.

b. Menerjemahkan tujuan dan batasan menjadi formula dari

permasalahan data mining.


(33)

2. Fase Pemahaman Data ( Data Understanding Phase ) a. Mengumpulkan data.

b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal.

c. Mengevaluasi kualitas data.

d. Jika diinginkan, pilih sebagian kecil kelompok data yang mungkin mengandung pola dari permasalahan

3. Fase Pengolahan Data ( Data Preparation Phase )

a. Siapkan dari data awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif.

b. Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan.

c. Lakukan perubahan pada beberapa variabel jika dibutuhkan. d. Siapkan data awal sehingga siap untuk perangkat pemodelan. 4. Fase Pemodelan ( Modeling Phase )

a. Pilih dan aplikasikan teknik pemodelan yang sesuai. b. Kalibrasi aturan model untuk mengoptimalkan hasil.

c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk

digunakan pada permasalahan data mining yang sama.

d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu.

5. Fase Evaluasi ( Evaluation Phase )

a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektivitas sebelum disebarkan untuk digunakan.

b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal.

c. Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik.


(34)

d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining.

6. Fase Penyebaran (Deployment Phase)

a. Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek.

b. Contoh sederhana penyebaran: Pembuatan laporan.

c. Contoh kompleks Penyebaran: Penerapan proses data mining secara paralel pada departemen lain. Informasi lebih lanjut

me

2.2 Pengelompokan Data Mining

Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat di lakukan, yaitu (Larose, 2006).

1.Deskripsi

Terkadang peneliti dan analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecendrungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecendrungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecendrungan.

2.Estimasi

Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik dari pada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilkan model


(35)

estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya.

3.Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang.

Contoh prediksi dalam bisnis dan penelitian adalah:

a. Prediksi harga beras dalam tiga bulan yang akan datang.

b. Prediksi presentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah kecepatan dinaikan.

Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi. 4.Klasifikasi

Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.

Contoh lain klasifikasi dalam bisnis dan penelitian adalah:

a. Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan.

b. Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik atau buruk.

c. Mendiagnosa penyakit seorang pasien untuk mendapatkan


(36)

5.Pengklusteran

Pengklusteran merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.

Kluster adalah kumpulan record yang memiliki kemiripan suatu dengan yang lainnya dan memiliki ketidakmiripan dengan record dalam kluster lain.

Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam pengklusteran. Pengklusteran tidak mencoba untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan dengan record dalam kelompok lain akan bernilai minimal.

Contoh pengklusteran dalam bisnis dan penelitian adalah:

a. Mendapatkan kelompok-kelompok konsumen untuk target

pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar.

b. Untuk tujuan audit akutansi, yaitu melakukan pemisahan terhadap prilaku finansial dalam baik dan mencurigakan.

c. Melakukan pengklusteran terhadap ekspresi dari gen, dalam jumlah besar.

6.Asosiasi

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.

Contoh asosiasi dalam bisnis dan penelitian adalah:

a. Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respon positif terhadap penawaran upgrade layanan yang diberikan.


(37)

b. Menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli bersamaan.

Untuk mendukung penelitian ini penulis menggunakan Algoritma C4.5 decision tree.

2.3 Decision Tree

Decision tree merupakan salah satu metode klasifikasi yang menggunakan representasi struktur pohon (tree) di mana setiap node merepresentasikan atribut, cabangnya merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas. Node yang paling atas dari decision tree disebut sebagai root.

Decision tree merupakan metode klasifikasi yang paling populer digunakan. Selain karena pembangunannya relatif cepat, hasil dari model yang dibangun mudah untuk dipahami.

Pada decision tree terdapat 3 jenis node, yaitu:

a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu.

b. Internal Node , merupakan node percabangan, pada node ini hanya terdapat satu input dan mempunyai output minimal dua.

c. Leaf node atau terminal node , merupakan node akhir, pada node ini hanya terdapat satu input dan tidak mempunyai output.

2.4 Algoritma C 4.5

Algoritma C 4.5 adalah salah satu metode untuk membuat decision tree berdasarkan training data yang telah disediakan. Algoritma C 4.5 merupakan pengembangan dari ID3. Beberapa pengembangan yang dilakukan pada C 4.5 adalah sebagai antara lain bisa mengatasi missing value, bisa mengatasi continue data, dan pruning.

Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan


(38)

mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari record pada kategori tertentu. Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.

Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan, pohon keputusan sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain (Berry dan Linoff, 2004).

Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogen dengan memperhatikan pada variabel tujuannya. Sebuah pohon keputusan mungkin dibangun dengan seksama secara manual atau dapat tumbuh secara otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan untuk memodelkan himpunan data yang belum terklasifikasi.

Variabel tujuan biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih mengarah pada perhitungan probability dari tiap-tiap record terhadap kategori-kategori tersebut atau untuk mengklasifikasi record dengan mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan untuk mengestimasi nilai dari variabel continue meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini.

Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan,antara lain ID3, CART, dan C4.5 (Larose, 2006).

Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin, dan temperatur.


(39)

Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan, dan hujan (Basuki dan Syarif, 2003)

Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule (Basuki dan Syarif, 2003).

Berikut ini algoritma dasar dari C4.5:

Input : sampel training, label training, atribut

1. Membuat simpul akar untuk pohon yang dibuat

2. Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (+)

3. Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (-)

4. Jika atribut kosong, berhenti dengan suatu pohon dengan suatu simpul akar, dengan label sesuai nilai yang terbanyak yang ada pada label training 5. Untuk yang lain, Mulai

a. A --- atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan Gain rasio)

b. Atribut keputusan untuk simpul akar --- A c. Untuk setiap nilai, vi, yang mungkin untuk A

1) Tambahkan cabang di bawah akar yang berhubungan dengan A= vi

2) Tentukan sampel Svi sebagai subset dari sampel yang mempunyai nilai vi untuk atrribut A

3) Jika sampel Svi kosong

i. Di bawah cabang tambahkan simpul daun

dengan label = nilai yang terbanyak yang ada pada label training

ii. Yang lain tambah cabang baru di bawah cabang yang sekarang C4.5 (sampel training, label training, atribut-[A])

d. Berhenti

Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sama dengan jumlah path yang mungkin dapat dibangun dari root sampai leaf node.


(40)

Tree Pruning dilakukan untuk menyederhanakan tree sehingga akurasi dapat bertambah. Pruning ada dua pendekatan, yaitu :

a. Pre-pruning, yaitu menghentikan pembangunan suatu subtree lebih awal (yaitu dengan memutuskan untuk tidak lebih jauh mempartisi data training). Saat seketika berhenti, maka node berubah menjadi leaf (node akhir). Node akhir ini menjadi kelas yang paling sering muncul di antara subset sampel.

b. Post-pruning, yaitu menyederhanakan tree dengan cara membuang beberapa cabang subtree setelah tree selesai dibangun. Node yang jarang dipotong akan menjadi leaf (node akhir) dengan kelas yang paling sering muncul.

Untuk memudahkan penjelasan mengenai algoritma C 4.5 berikut ini disertakan contoh kasus yang dituangkan dalam Tabel 2.1

Tabel 2.1 Keputusan Bermain Tenis

No CUACA TEMPERATUR KELEMBABAN ANGI N BERMAI N

1 Cer ah Panas Tinggi Tidak Tidak

2 Cer ah Panas Tinggi Ya Tidak

3 Mendung Panas Tinggi Tidak Ya

4 Huj an Sedang Tinggi Tidak Ya

5 Huj an Dingin Nor m al Tidak Ya

6 Huj an Dingin Nor m al Ya Ya

7 Mendung Dingin Nor m al Ya Ya

8 Cer ah Sedang Tinggi Tidak Ya

9 Cer ah Dingin Nor m al Tidak Tidak

10 Huj an Sedang Nor m al Tidak Ya

11 Cer ah Sedang Nor m al Ya Ya

12 Mendung Sedang Tinggi Ya Ya

13 Mendung Panas Nor m al Tidak Ya

14 Huj an Sedang Tinggi Ya Tidak

Dalam kasus yang tertera pada Tabel 2.1 akan dibuat pohon keputusan untuk menentukan main tenis atau tidak dengan melihat keadaan cuaca, temperatur, kelembaban dan keadaan angin.


(41)

Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut:

1. Pilih atribut sebagai akar

2. Buat cabang untuk masing-masing nilai 3. Bagi kasus dalam cabang

4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.

Untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi dari atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus seperti tertera dalam Rumus 1 (Craw, 2005).

Gain(S,A) = Entrropy(S) – * Entropy(Si) Dengan

S : Himpunan Kasus

A : Atribut

N : Jumlah partisi atribut A |Si| : Jumlah kasus pada partisi ke i |S| : Jumlah kasus dalam S

Sedangkan perhitungan nilai Entropy dapat dilihat pada rumus 2 berikut (Craw, 2005):

Entropy(A) = Dengan

S : Himpunan Kasus

A : Fitur

n : Jumlah partisi S


(42)

Berikut ini adalah penjelasan lebih rinci mengenai masing-masing langkah dalam pembentukan pohon keputusan dengan menggunakan algoritma C4.5 untuk menyelesaikan permasalahan pada Tabel 2.1

1. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus untuk keputusan Tidak, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut cuaca, temperatur, kelembaban dan angin. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.2

Tabel 2.2 Perhitungan Node 1 Node Jumlah Kasus (S) Tidak (S1) Ya

(S2) Entropy Gain

1 TOTAL 14 4 10 0.863120569

CUACA 0.258521037

MENDUNG 4 0 4

HUJAN 5 1 4 0.721928095

CERAH 5 3 2 0.970950594

TEMPERATUR 0.183850925

DINGIN 4 0 4 0

PANAS 4 2 2 1

SEDANG 6 2 4 0.918295834

KELEMBABAN 0.370506501

TINGGI 7 4 3 0.985228136

NORMAL 7 0 7 0

ANGIN 0.005977711

TIDAK 8 2 6 0.811278124

YA 6 4 2 0.918295834

Baris total kolom Entropy pada Tabel 2.2 dihitung dengan rumus 2, sebagai berikut:

Entropy(Total) = (- *Log2( ))+(- *Log2( )) Entropy(Total) =0.863120569

Sementara itu nilai Gain pada baris cuaca dihitung dengan menggunakan rumus 1, sebagai berikut :

Gain(Total,Cuaca) = Entropy(Total) - * Entropy(Cuaca)

Gain(Total,Cuaca) = 0.863120569 – (( *0)+ (( *0.723)+ (( *0.97)) Gain(Total,Cuaca) = 0.23


(43)

Dari hasil pada Tabel 2.2 dapat diketahui bahwa atribut dengan Gain tertinggi adalah kelembaban yaitu sebesar 0.37. Dengan demikian kelembaban dapat menjadi node akar. Ada 2 nilai atribut dari kelembaban yaitu tinggi dan normal. Dari kedua nilai atribut tersebut, nilai atribut normal sudah mengklasifikasikan kasus menjadi 1 yaitu keputusannya Ya, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut tinggi masih perlu dilakukan perhitungan lagi.

Dari hasil tersebut dapat digambarkan pohon keputusan sementara, tampak seperti Gambar 2.4

Gambar 2.4 Pohon Keputusan Hasil Perhitungan Node 1

2. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus untuk keputusan Tidak, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut cuaca, temperatur dan angin yang dapat menjadi node akar dari nilai atribut tinggi. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.3

1.

Kelembaban

Ya ?

Norm Tinggi


(44)

Tabel 2.3 Perhitungan Node 1.1 Node Jumlah Kasus (S) Tidak (S1) Ya

(S2) Entropy Gain

1.1 KELEMBABAN-TI NGGI

7 4 3 0.985228136

CUACA 0.69951385

MENDUNG 2 0 2 0

HUJAN 2 1 1 1

CERAH 2 3 0 0

TEMPERATUR 0.020244207

DI NGI N 0 0 0 0

PANAS 3 2 1 0.918295834

SEDANG 4 2 2 1

ANGI N 0.020244207

TI DAK 4 2 2 1

YA 3 4 1 0.918295834

Dari hasil pada Tabel 2.3 dapat diketahui bahwa atribut dengan Gain tertinggi adalah cuaca yaitu sebesar 0.699. Dengan demikian cuaca dapat menjadi node cabang dari nilai atribut tinggi. Ada 3 nilai atribut dari cuaca yaitu mendung, hujan dan cerah. dari ketiga nilai atribut tersebut, nilai atribut mendung sudah mengklasifikasikan kasus menjadi 1 yaitu keputusannya Ya dan nilai atribut cerah sudah mengklasifikasikan kasus menjadi satu dengan keputusan Tidak, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut hujan masih perlu dilakukan perhitungan lagi.

Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar 2.5 berikut:

Gambar 2.5 Pohon Keputusan Hasil Perhitungan Node 1.1

1. Kelembaban Ya 1.1 Cuaca Normal Ting i Tidak 1.1.2 ? Ya Cerah Huja Mendung


(45)

3. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus untuk keputusan Tidak, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut temperatur dan angin yang dapat menjadi node cabang dari nilai atribut hujan. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.4

Tabel 2.4 Perhitungan Node 1.1.2 Node

Jumlah Kasus

(S)

Tidak (S1)

Ya

(S2) Entropy Gain

1.1 KELEMBABAN-TI NGGI dan CUACA – HUJAN

2 1 1 1

TEMPERATUR 0

DI NGI N 0 0 0 0

PANAS 0 0 0 0

SEDANG 2 1 1 1

ANGI N 1

TI DAK 1 0 1 0

YA 1 1 0 0

Dari hasil pada Tabel 2.4 dapat diketahui bahwa atribut dengan Gain tertinggi adalah angin yaitu sebesar 1. Dengan demikian angin dapat menjadi node cabang dari nilai atribut hujan. Ada 2 nilai atribut dari angin yaitu Tidak dan Ya. Dari kedua nilai atribut tersebut, nilai atribut Tidak sudah mengklasifikasikan kasus menjadi 1 yaitu keputusannya Ya dan nilai atribut Ya sudah mengklasifikasikan kasus menjadi satu dengan keputusan Tidak, sehingga tidak perlu dilakukan perhitungan lebih lanjut untuk nilai atribut ini. Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar 2.6


(46)

Gambar 2.6 Pohon Keputusan Hasil Perhitungan Node 1.1.2

Dengan memperhatikan pohon keputusan pada Gambar 2.6 diketahui bahwa semua kasus sudah masuk dalam kelas. Dengan demikian, pohon keputusan pada Gambar 2.6 merupakan pohon keputusan terakhir yang terbentuk.

2.5 Ekstraksi Rule dari Decision Tree

Pengetahuan yang diperoleh dari decision tree dapat direpresentasikan dalam bentuk klasifikasi IF-THEN rules. Nilai suatu atribut akan menjadi bagian anticendent (bagian IF), sedang daun (leaf) dari sebuah decision tree akan menjadi bagian consequent (THEN). Aturan seperti ini akan menjadi sangat membantu manusia dalam memahami model klasifikasi terutama jika ukuran decision tree terlalu besar .

Ya Tidak

Tida Ya

1. Kelembaban

Ya 1.1

Cuaca

Norma Tinggi

Tidak 1.1.2

Angin Ya

Cerah Huja


(47)

2.6 Riset-Riset Terkait

Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti berkaitan dengan domain pendidikan, seperti yang akan dijelaskan di bawah ini :

Yu et al. (2010) dalam risetnya menjelaskan mengenai sebuah pendekatan data mining dapat diaplikasikan untuk meneliti faktor-faktor yang mempengaruhi tingkat daya ingat mahasiswa.

Sunjana (2010a) juga menyampaikan hasil risetnya mengenai aplikasi data mining mahasiswa dengan metode klasifikasi decision tree. Dengan kesimpulan sebagai berikut :

1. Penentuan data training sangat menentukan tingkat akurasi tree yang dibuat.

2. Besar prosentase kebenaran tree sangat dipengaruhi oleh data training yang digunakan untuk membangun model tree tersebut.

3. Nilai IPK seorang mahasiswa terlihat sangat terpengaruh dengan 9 (Sembilan) mata kuliah yang dianggap pokok.

Quadri dan Kalyankar (2010) juga menjelaskan tentang penggunaan teknik decision tree untuk mengidentifikasi berbagai faktor yang meyebabkan mahasiswa melakukan drop out untuk meningkatkan kinerja akademik.

She et al. (2010) dalam risetnya menjelaskan mengenai prediksi penurunan sifat sifat manusia secara cepat dan akurat dengan klasifikasi decision tree .

Rocha dan Junior (2010) juga dalam risetnya menjelaskan tentang bagaimana mengidentifikasi kecurangan-kecurangan yang terjadi di bidang perbankan menggunakan CRISP-DM dan decision tree.

Nogroho, (2008) menjelaskan dalam risetnya mengenai Implementasi decision tree berbasis analisis teknikal untuk pembelian dan penjualan saham, menyimpulkan sistem pendukung keputusan decision tree yang dibangun berdasarkan analisis teknikal mampu memberikan gambaran saat saham diperdagangkan hanya berdasarkan pergerakan trend. Perdagangan berdasarkan pergerakan trend ini bersifat spekulasi namun cukup mampu memberikan keuntungan.


(48)

Sunjana (2010b) menjelaskan dalam risetnya tentang klasifikasi data nasabah sebuah asuransi menggunakan algoritma C 4.5, berikut adalah kesimpulan yang dapat diambil dari data nasabah asuransi setelah dilakukan análisis menggunakan metode algoritma C 4.5:

1. Aplikasi dapat menyimpulkan bahwa rata-rata nasabah memiliki status L dikarenakan pembayaran premi yang melebihi 10% dari penghasilan. 2. Dengan persentase atribut premi_dasar dan penghasilan, maka dapat

diketahui rata-rata status nasabah memiliki nilai P atau L.

Bhargavi at al. (2008) menjelaskan dalam risetnya tentang menguraikan pengetahuan menggunakan aturan aturan dengan pendekatan decision tree.

Al-Radaideh et al. (2006) menjelaskan dalam risetnya tentang pemanfaatan data mining terhadap data mahasiswa menggunakan decision tree

Adeyemo dan Kuye (2006) menjelaskan dalam risetnya untuk memprediksi kinerja mahasiswa di bidang akademik menggunakan algoritma decision tree.

2.7 Persamaan dengan Riset-Riset lain

Kruck dan Lending (2003) dalam penelitiannya menjelaskan sebuah

model untuk memprediksi kinerja akademis di tingkat perguruan tinggi dalam mata kuliah pengantar sistem informasi.

Ogor (2007) dalam penelitiannya menggunakan teknik data mining yang digunakan untuk membangun prototipe Penilaian Kinerja Monitoring System (PAMS) untuk mengevaluasi kinerja mahasiswa.

Sembiring et al. (2009) menggunakan teknik data mining dalam pemantauan dan memprediksi peningkatan prestasi mahasiswa berdasarkan minat, prilaku belajar, pemanfatan waktu dan dukungan orang tua di perguruan tinggi.


(49)

2.8 Perbedaan dengan Riset-Riset lain

Dari beberapa riset yang dilakukan peneliti sebelumnya, terdapat beberapa titik perbedaan dengan riset yang akan dilakukan ini :

1. Analisa peningkatan indeks prestasi akademik dilakukan pada Perguruan Tinggi Swasta (PTS) yang risetnya dilakukan di Akademi Manajemen Informatika Komputer (AMIK) Tunas Bangsa Pematangsiantar. Riset yang dilakukan penulis berbeda dengan riset sebelumnya, jika riset sebelumnya peningkatan indeks prestasi akademik berdasarkan variabel IPK, data demografi, test logika, dan motivasi, sedangkan aturan atau rule peningkatan indeks prestasi akademik yang akan dilakukan penulis adalah berdasarkan matakuliah Kurikulum Berbasis Kompetensi (KBK), di mana mata kuliah ini hanya dimiliki oleh PTS di Indonesia sesuai dengan UU MENDIKNAS No. 232/U/2000. Selain berdasarkan mata kuliah peningkatan indeks prestasi akademik mahasiswa, variabel datanya diolah dari data kuesioner mahasiswa AMIK Tunas Bangsa Pematangsiantar sesuai dengan keadaan dukungan orang tua, ekonomi orang tua, dan fasilitas belajar mahasiswa.

2. Predikat keberhasilan

Pada riset ini, hasil akhir yang diharapkan dengan analisa peningkatan indeks prestasi akademik berdasarkan Kurikulum Berbasis Kompetensi (KBK) adalah dosen dan mahasiswa dapat meningkatkan kualitas pembelajaran untuk menguasai mata kuliah yang berhubungan dengan KBK untuk mendapatkan predikat dengan pujian dan sangat memuaskan sehingga dapat bersaing di pasar tenaga kerja.

2.9 Kontribusi Riset

Penelitian ini memberikan kontribusi pada pemahaman kita tentang hubungan data matakuliah Kurikulum Berbasis Kompetensi (KBK) dengan data demografi yaitu data pendukung untuk meningkatkan proses belajar mengajar yang ditunjukkan dengan nilai IP semester, berdasarkan predikat yang telah ditentukan oleh lembaga pendidikan di perguruan tinggi swasta dapat meningkatkan indeks prestasi akademik mahasiswa.


(50)

Beberapa kemungkinan lain mungkin dianggap penting adalah dosen wali dapat menggunakan informasi yang diberikan dalam mengambil beberapa tindakan untuk meningkatkan kinerja mahasiswa dalam meningkatkan predikat kelulusan. Pembuat keputusan bisa menggunakan model prediksi peningkatan indeks prestasi akademik untuk meningkatkan kualitas proses pengambilan keputusan. Penelitian ini memperkenalkan aplikasi metode klasifikasi rule decision tree algoritma C 4.5 untuk lembaga pendidikan perguruan tinggi swasta.


(51)

BAB III

METODOLOGI PENELITIAN

3.1 Pendahuluan

Tujuan dari tesis ini adalah untuk membuat model aturan keterhubungan data mahasiswa menggunakan algoritma C 4.5 untuk meningkatkan indeks

prestasi mahasiswa yang lebih baik dengan menyediakan data prestasi akademik

mahasiswa berupa indeks prestasi yang dapat digunakan sebagai pedoman analisis dalam pembuatan keputusan.

Pada bagian ini kita mulai dengan menggambarkan studi kasus data mining pada sistem penilaian akademik di perguruan tinggi dan prosedur bagaimana mengumpulkan data yang dapat digunakan pada penelitian ini.

Data dikumpulkan dari database pendidikan akademik dan mensurvei mahasiswa diploma yang telah menempuh semester 3 sampai dengan tahun 2011 di Akademi Manajemen Informatika Komputer (AMIK) Tunas Bangsa Pematangsiantar. Instrumen penelitian yang digunakan harus mempunyai ukuran yang akurat. Secara terperinci, bagaimana mendapatkan input yang lebih baik dalam proses data mining yang digambarkan pada bagian sebelum pemprosesan data. Penulis memberikan tinjauan singkat dari beberapa analysis data yang digunakan pada penelitian ini.

3.2

   Lokasi dan Waktu Penelitian 

Penelitian dilakukan di Akademi Manajemen Informatika Komputer (AMIK) Tunas Bangsa, Jl. Jendral Sudirman Blok A No. 1,2,3 Pematangsiantar. Lamanya waktu yang dibutuhkan untuk menyelesaikan penelitian ini selama 4 bulan yang dimulai pada awal januari 2011 sampai dengan akhir bulan April 2011.


(52)

3.3 Rancangan Penelitian

Rancangan penelitian ini pertama kali dilakukan dengan melakukan pengamatan (observasi) untuk mempelajari klasifikasi data matakuliah. Hasil pengamatan kemudian dibuat percobaan yang mendukung, selanjutnya dilakukan eksperimen data dengan menggunakan rapidminer yang merupakan software open source untuk membuat model aturan data yang diambil dari database pendidikan Akademi Manajemen Informatika Komputer (AMIK) Tunas Bangsa dan data demografi mahasiswa. Hasil dari eksperimen data ini merupakan pengembangan dari ilmu pengetahuan yang nantinya dapat merupakan masukan bagi pemecahan masalah yang ada di lembaga pendidikan, dalam hal ini di Akademi Manajemen Informatika Komputer (AMIK) Tunas Bangsa Pematangsiantar.

Dalam melakukan klasifikasi data dari database SQL server pendidikan AMIK Tunas Bangsa Pematangsiantar penulis melakukan beberapa tahapan, antara lain :

1. Mengambil data dari database SQL server, seperti pada Gambar 3.1 

Gambar 3.1 Record dari Database Pendidikan

2. Membuat perintah SQL server data yang berbentuk baris menjadi kolom  

3. Melakukan Data Transformation Service ( DTS ) dari SQL server dipindahkan  ke excel  (.xls).  


(53)

4. Untuk mendapatkan aturan  dari data indeks prestasi mahasiswa yang diambil dari  database SQL server penulis menggunakan program rapidminer dengan rancangan  penelitiannya dapat dilihat pada Gambar 3.2 

Gambar 3.2 Rancangan Penelitian Aturan Indeks Prestasi

Pada Gambar 3.2 dapat dijelaskan urutan pertama mahasiswa melakukan sistem pendaftaran ke perguruan tinggi swasta, kemudian mahasiswa mengikuti ujian berdasarkan matakuliah yang diambil setiap semester. Hasil ujian disimpan kedalam database, data nilai hasil ujian diklasifikasikan dengan melakukan penyaringan data kemudian data yang sudah konsisten dilakukan training data, apabila sampel data sudah valid maka dilakukan pembuatan model aturan dengan algoritma C 4.5. Hasil dari model aturan ini menjadi sebuah rekomendasi bagi pihak manajemen Perguruan Tinggi Swasta (PTS).


(54)

3.4 Prosedur Pengumpulan Data

Dalam studi kasus ini, untuk data set pertama, penulis mengumpulkan data dari SQL Server database nilai rata-rata matakuliah kurikulum berbasis kompetensi AMIK Tunas Bangsa Pematangsiantar yang telah mendapatkan kartu hasil studi pada semester 3 yaitu tahun ajaran 2008 sampai dengan 2009 yang terdiri dari predikat, IP, ratamkb, ratamkk, ratampk, ratambb, ratampb, semester.

Dataset kedua penulis mensurvei mahasiswa tentang prediksi prestasi akademik dengan menggunakan kuesioner tertulis. Penulis menciptakan instrument survey dan termasuk pertanyaan demografis secara umum. Jumlah mahasiswa sebanyak 755 orang, dan penulis mendapatkan data sampel sebanyak 734 orang dari 735 untuk data set pertama dan 734 orang untuk data kuisioner mahasiswa yang meruapakan data set kedua. Sumber data yang dikumpulkan dari catatan kartu hasil studi akademik mahasiswa.

Untuk dataset kedua, penulis mengembangkan kuesioner (Lampiran A) untuk mengukur keterhubungan data demografi yang sesungguhnya dari mahasiswa. 5 (lima) pertanyaan menghasilkan informasi demografi untuk responden. Pertanyaan pertanyaan yang dibuat adalah tipe skala point linker 5 yang disusun dari “ sangat setuju” sampai “ sangat tidak setuju”. yang berkenaan untuk membuat aturan indeks prestasi akhir mereka. Data set pertama dapat dilihat pada Tabel 3.1

Tabel 3.1 Tampilan Data Set Pertama

No Role Name Type

1 label predikat nominal

2 regular IP nominal

3 regular Ratamkb nominal 4 regular Ratamkk nominal 5 regular Ratampk nominal 6 regular Ratambb nominal 7 regular Semester nominal

Pada Tabel 3.1 atribut predikat sebagai label yang merupakan tujuan dari atribut IP, ratamkb,ratamkk,ratampk,ratambb dan semester.


(55)

Data set kedua dapat dilihat pada Tabel 3.2

Tabel 3.2 Tampilan Data Set Kedua

No Role Name Type

1 label predikat nominal

2 regular IP nominal

3 regular ekonomi nominal 4 regular dukungan orang tua nominal

5 regular fasilitas belajar nominal

6 regular semester nominal

Pada Tabel 3.2 atribut predikat sebagai label yang merupakan tujuan dari atribut IP, dukungan orang tua, ekonomi, fasilitas dan semester.

Keterhubungan data antara data set pertama dan data set kedua dapat dilihat pada Tabel 3.3

Tabel 3.3 Tampilan Data Set Pertama dan Kedua

No Role Name Type

1 label predikat nominal

2 regular IP nominal

3 Regular ratamkb nominal 4 regular ratamkk nominal 5 regular ratampk nominal 6 regular ratambb nominal 7 regular ekonomi nominal 8 regular dukungan orang tua nominal

9 regular fasilitas belajar nominal 10 regular semester nominal

Pada Tabel 3.3 atribut predikat sebagai label yang merupakan tujuan dari atribut IP, ratamkb,ratamkk,ratampk,ratambb, dukungan orang tua, ekonomi, fasilitas dan semester.


(56)

Keakuratan instrumen yang digunakan pada penelitian ini adalah penting. Keakuratan mengacu apakan instrumen yang digunakan mengukur secara konsisten setiap waktu dan populasi ( Gall et al., 1996 ).

Survei dalam studi ini diuji dalam jangka waktu dan ukuran internal yang terpercaya yang memiliki keterkaitan antara bagian bagian tes ( Brown and Alexander, 1991 ). Hal ini menjamin apakah pengukuran instrumen secara akurat dimaksudkan untuk mengukur.

Cronbach’s Alpha diberikan survei untuk mengukur konsistensi internal. Menurut Mitchell dan Jolley ( 1999 ), Cronbach’s Alpha pada atau di atas 0.60 diterima sebagai bukti realibilitas internal. Validitas dan Realibilitas dari kuesioner dengan jumlah data sebanyak 60 item, seperti pada Tabel 3.4

Tabel 3.4 Statistik Reliabilitas Data No Variabel dalam Skala Cronbach's alpha

Jumlah Data

1 Faktor Ekonomi .634 60

2 Faktor Dukungan Orang Tua .635 60

3 Faktor Fasilitas .629 60

Dari Tabel di atas Cronbach's alpha dari ke tiga variabel berjumlah di atas 0.60 ini menunjukkan bahwa data yang diolah adalah valid dan dipercaya.

3.6 Preprocessing Data

3.6.1 Preprocessing Database Akademik

Untuk mendapatkan input yang lebih baik dari teknik data mining, penulis melakukan beberapa preprocessing untuk data yang akan dikumpulkan. Data disusun dalam table yang berbeda yang dihubungkan dalam tabel tunggal. Tabel yang digabungkan adalah :

1. tabel mahasiswa  2. tabel matakuliah  3. tabel nilai  4. tabel IP 


(57)

Dari ke 4 tabel di atas, dipilih data yang digunakan untuk data penelitian yang terdiri dari data predikat, IP, ratamkb, ratamkk, ratambb, ratampb dan ratampk , semester. Gambar 3.3 adalah sampel data dari tabel yang ada di database.

Gambar 3.3 Pra Pengolahan Data

Gambar 3.3 di atas terdiri dari 4 tabel, data yang dipilih dari tabel mahasiswa adalah nim dan nama, dari tabel matakuliah field yang dipilih sebagai field kunci adalah kdmk dan field nmmk, kemudian dari tabel nilai kode matakuliah yang berbentuk baris diubah menjadi kolom. Field yang dipilih dari tabel nilai adalah kdmk dan huruf mutu berdasarkan nim dan yang terakhir dari tabel IP yang dipilih adalah field IP berdasarkan IP.

Dari pilihan field ke empat tabel di atas data yang dipilih dapat dilihat pada Tabel 3.5

Tabel 3.5 Tabel Preprocessing Data Gabungan Empat Tabel

Nim Nama MKB MPK MKK MPB MBB Semester IP

…… …… ……. ……. ……. ……. ……. ……. …….

Data tabel 3.5 di atas kemudian disederhanakan kembali. Karena nim, nama bersifat primary key maka data tidak digunakan dalam penelitian, sehingga data yang dipilih dalam penelitian adalah pada Tabel 3.6 dengan menambahkan field predikat berdasarkan IP dimana ketentuannya sebagai berikut :


(58)

No IP Predikat 1 < 2,00 buruk 2 2,00 - 2,75 memuaskan 3 2,76 - 3.50 sangat memuaskan 4 3.51 - 4,00 dengan pujian

Tabel 3.6 Tabel Data Penelitian

Predikat IP MKB MPK MKK MPB MBB Semester

…… …… ……. ……. ……. ……. ……. …….

3.6.2 Preprocessing Data Kuesioner

Data survei dalam bentuk kuesioner yang dibagikan kepada mahasiswa terdiri dari beberapa field. Data yang dikumpulkan dapat dilihat pada Tabel 3.7

Tabel 3.7 Data Kuesioner

IP Q Q Q Q Q R Q Q Q Q Q R Q Q Q Q Q R

Nim Nama

1 2 3 4 5 E 6 7 8 9 10 O 11 12 13 14 15 F

… … … … … … … … … … …

Data pada tabel 3.7 di atas dapat dijelaskan bahwa :

1. Q1 sampai dengan Q5 adalah pertanyaan untuk ekonomi orang tua.  2. RE adalah rata‐rata ekonomi dari pertanyaan Q1 sampai dengan Q5  3.  Q6 sampai dengan Q10 adalah pertanyaan untuk dukungan orang 

tua. 

4. RO adalah rata‐rata dukungan orang tua dari pertanyaan Q6 sampai  dengan Q10 

5. Q11 sampai dengan Q15 adalah pertanyaan untuk fasilitas belajar  6. RF adalah rata‐rata fasilitas belajar dari pertanyaan Q11 sampai 

dengan Q15 

Dari keterangan tabel 3.7 di atas, pengolahan data penelitian dibagi dua, yaitu rata-rata ekonomi, dukungan orang tua dan fasilitas belajar digunakan pada software rapidminer sedangkan nilai dari pertanyaan digunakan pada software SPSS 18.

3.7 Alat Analisis Data

3.7.1 Paket Statistik untuk Ilmu Sosial

SPSS (Statistical Package for the Social Sciences) dianggap timer (alat pengukur waktu) tertua di bidang data mining. Ini awalnya dirancang untuk digunakan oleh


(59)

ilmuwan sosial untuk menganalisa data dari survei. SPPS mengizinkan pengguna untuk menarik data dan menampilkan operasi analisis statistik yang rumit, seperti komputasi regresi dan menampilkan presentasi data grafis. Ini juga menggunakan inferensial yang rumit dan prosedur statistik yang multi variasi, seperti analisis varians (ANOVA), analisis faktor, analisis kluster,dan analisis data katerogikal. SPSS terutama sekali sangat cocok digunakan untuk survei penelitian.

SPPS 18.0 digunakan pada studi ini untuk menampilkan analisis regresi pada data set kedua yang dijelaskan pada Tabel 3.2 Keduanya merupakan langkah yang bijak dan penuh model regresi yang dijalankan untuk menentukan model yang terbaik yang sesuai dengan data.

3.7.2 Komunitas Rapidminer

Rapidminer dahulu YALE Mierswa et al. (2006 ) ini adalah permulaan yang bebas dan terbuka untuk KDD dan ML, yang menyediakan beraneka ragam

metode yang mengizinkan bentuk dasar dari aplikasi baru. Rapidminer (dahulunya YALE ) dan propagandanya membuktikan lebih dari 400 operator dari

segala aspek data mining. Operator meta secara otomatis mengoptimalkan desain eksperimen dan pengguna tidak memerlukan waktu yang panjang untuk menentukan langkah dan parameter yang lebih panjang. Sejumlah besar teknik visualisasi dan kemungkinan untuk meletakkan breakpoints setelah masing masing operator memberikan pandangan tentang keberhasilan desain anda-

bahkan untuk me

Rapidminer 5.0 digunakan pada studi ini untuk menampilkan kelompok siswa pada kumpulan data dan memperlihatkan matriks presentasi yang tersebar dari kelompok data.

3.8 Instrument Penelitian

Dalam penelitian ini, penulis melakukan beberapa dataset file dalam bentuk spreadsheet file excel 2003 (xls). Transformasi data ini diperlukan sebagai masukan untuk perangkat lunak yang akan digunakan dalam penelitian ini.


(60)

Dalam pengolahan data transformasi, penulis menggunakan perangkat lunak rapidminer versi 5.0 Instrumen penelitian seperti Gambar 3.4 dapat dijelaskan bahwa data penelitian berasal dari data kuesioner mahasiswa dan data dari database pendidikan AMIK Tunas Bangsa. Kedua data set ini kemudian diubah kedalam bentuk file excel (.xls) dan bersifat nominal. Setelah data dipilih yang berbentuk klasifikasi maka data kemudian dianalisis menggunakan software rapidminer seperti disajikan pada Gambar 3.4

.

Gambar 3.4 Proses Percobaan

3.9 Diagram Aktifitas Kerja Penelitian

Berikut ini alur kerja yang akan dilakukan pada penelitian ini yang digambarkan dalam diagram aktivitas pada Gambar 3.5

Peneliti Software Data Set di

rubah Menjadi Type .xls

Pengumpulan Data Dari Database

Pengumpulan Data dari Kuisioner

Transformation datasets RapidMinerSoftware

KNOWLEDGE Data Analysis


(61)

Tidak

Sesuai

Tidak

Ya

Gambar 3.5 Diagram Aktivitas Kerja Penelitian

3.10   Model Decision Tree 

Model decision tree dengan Model Grafik yang akan digunakan disajikan pada Gambar 3.6

Identifikasi Masalah

Menetapkan Tujuan Penelitian

Mengumpulkan Data Dari database Akademik dan Kuesioner dari

Mahasiswa

DTS Data SQL ke excel

Analis data dengan SPSS

Olah Data di Rapidminer Decision Tree Valid

Membuat Rule dan Analisa

Membuat Kesimpulan dan Saran


(62)

Gambar 3.6 Model Decision Tree Grafik

Dari Gambar 3.6 dapat dijelaskan bahwa faktor ekonomi memiliki pengaruh paling besar dalam data penelitian tesis ini, setelah dilakukan percobaan dengan menggunakan rapidminer bahwa variabel ekonomi berada pada node paling atas. Rule setelah diterjemahkan kedalam bahasa sederhana adalah :

Rule Keterangan Rule Predikat

1. Jika rata-rata Ekonomi = 3 Buruk 2. Jika rata-rata Ekonomi = 3.2 dan rata-rata fasilitas=3.6 Buruk 3. Jika rata-rata Ekonomi = 3.2 dan rata-rata fasilitas=3.7 dan

ratamkb = B

Memuaskan 4. Jika rata-rata Ekonomi = 3.2 dan rata-rata fasilitas=3.7 dan

ratamkb = C dan ratamkk= B

Memuaskan 5. Jika rata-rata Ekonomi = 3.2 dan rata-rata fasilitas=3.7 dan

ratamkb = C dan ratamkk = C

Memuaskan 6. Jika rata-rata Ekonomi = 3.2 dan rata-rata fasilitas=3.7 dan

ratamkb = C dan ratamkk = D

Buruk 7. Jika rata-rata Ekonomi = 3.2 dan rata-rata fasilitas=3.7 dan

ratamkb = D

Buruk 8. Jika rata-rata Ekonomi = 3.2 dan rata-rata fasilitas=3.7 dan

ratamkb = E

Buruk 9. Jika rata-rata Ekonomi = 3.4 atau rata-rata ekonomi = 3.5 Memuaskan 10. Jika rata-rata Ekonomi = 3.6 dan rata-rata fasilitas 3.9 Memuaskan 11. Jika rata-rata Ekonomi = 3.6 dan rata-rata fasilitas 4 dan

ratamkb=A

Sangat Memuaskan 12. Jika rata-rata Ekonomi = 3.6 dan rata-rata fasilitas 4 dan

ratamkb=B

Sangat Memuaskan 13. Jika rata-rata Ekonomi = 3.6 dan rata-rata fasilitas 4 dan

ratamkb=C

Memuaskan 14. Jika rata-rata Ekonomi = 3.6 dan rata-rata fasilitas 4 dan

ratamkb=D

Memuaskan 15. Jika rata-rata Ekonomi = 3.8 atau rata-rata ekonomi = 4 atau Sangat


(1)

BAB V

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Tesis ini menghasilkan beberapa kesimpulan sebagai berikut :

1. Diperoleh suatu model aturan yang dapat memperlihatkan aturan keterhubungan antara nilai rata-rata matakuliah dengan faktor ekonomi, dukungan orang tua dan fasilitas belajar terhadap indeks prestasi mahasiswa.

2. Dalam studi kasus pada Akademi Manajemen Informatika Komputer (AMIK) Tunas Bangsa Pematangsiantar bahwa sebagian besar mahasiswa yang memiliki predikat buruk apabila faktor rata-rata ekonomi = 3 dan ratamkk bernilai E dan predikat dengan pujian apabila jika ratamkk = A dan ratamkb = A kemudian rata-rata dukungan orang tua = 4.8

3. Algoritma C 4.5 tetap dianggap sebagai algoritma yang sangat membantu dalam melakukan klasifikasi data karena karakteristik data klasifikasi didapatkan dengan jelas baik dalam bentuk struktur pohon keputusan (tree) mapun aturan induction rue if then, sehingga memudahkan pengguna dalam melakukan penggalian informasi terhadap yang bersangkutan.

4. Penelitian ini telah menunjukkan ada tiga dari empat variabel tersebut memiliki korelasi yang sangat signifikan terhadap model aturan aturan keterhubungan data mahasiswa untuk meningkatkan indeks prestasi seperti yang diusulkan (faktor ekonomi, faktor dukungan orang tua dan fasilitas belajar) dengan predikat indeks prestasi mahasiswa pada akhir


(2)

semester. Semua prediktor tiga variabel di atas memberikan kontribusi 82,8% dan variabel terbaik dari prediktor ekonomi memberikan kontribusi 79,8%.

5.2 Saran

Saran penulis terhadap tesis ini adalah sebagai berikut :

1. Untuk mendapatkan hasil yang lebih variatif mungkin penelitian ini dapat dikembangkan dengan teknik data mining yang lain seperti Fuzzy Decision Tree, algoritma genetika, association rule dan algoritma KNearest Neighbor untuk mencari aturan atau pendekatan model yang ingin dicapai.

2. Dalam penelitian lebih lanjut, pengujian model aturan dapat menggunakan metode SSVM (Smooth Support Vector Machine) sebagai alat pengujian akurasi kebenaran model aturan yang didapat. 3. Dari pendekatan model aturan yang didapat, perlu menjadi perhatian

khusus bagi manajemen AMIK Tunas Bangsa Pematangsiantar untuk melihat dan mengambil keputusan variabel mana yang harus diperhatikan untuk mendukung peningkatan indeks prestasi mahasiswa agar mendapatkan predikat sangat memuaskan dan dengan pujian, sehingga mahasiswa yang akan lulus dapat bersaing di pasar kerja global.


(3)

DAFTAR PUSTAKA

Adeyemo B. A. dan Kuye G, 2006, Mining Students’ Academic Performance Using Decision Tree Algorithms, Journal of Information Technology Impact, Vol. 6 No. 3 pp. 161-170.

Al-Radaideh Q.A, Al-Shawakfa E.M. dan Al-Najjar I. M, 2006, Mining Student Data using Decision Trees, International Arab Conference on Information Technology (ACIT’2006), pp. 1-5.

Basuki A dan Syarif I, 2003. Decision Tree. Politeknik Elektronika Negeri Surabaya (PENS) – ITS www2.eepis-its.edu/~basuki/lecture/Decision Tree.pdf . diakses tanggal 11 april 2011

Berry, M. J. A. dan Linoff G. S, 2004. Data Mining Techniques For Marketing, sales,  Customer Relationship Management, Second Edition, Wiley Publishing, Inc. 

Bhargavi P, Jyothi B, Jyothi S and Sekar K, 2008, Knowledge Extraction Using Rule Based Decision Tree Apprroach, IJCSNS International Journal of Computer Science and Network Security, Vol. 8, pp.296-301.

Braha D dan Shmilovici A, 2003, On the Use of Decision Tree Induction for Discovery of Interactions in a Photolithographic Process, IEEE Transaction on Semiconductor Manufacturing, Vol. 16, pp. 644-652.

Brown, L. & Alexander, J. (1991).  Self‐Esteem Index Examiner’s Manual.   Austin, TX: Pro‐ Ed Publishing. 

Craw, S. (2005). Case Based Reasoning : Lecture 3: CBR Case-Base Indexing

CRISP ( Cross Industry Standard Process for Data Mining , diakses tanggal 11 april 2011


(4)

Dunham, M.H. 2003. Data mining introductory and advanced topics. New Jersey: Prentice Hall.

Fayyad, U. M, 1996, Advances in Knowledge Discovery and Data Mining. Camberidge,  MA: The MIT Press. 

Gall, M. D., Borg, W. R., & Gall, J. P. (1996). Educational research introduction (6th ed.). White Plains, NY: Longman Publishers USA.

Keputusan Mentri Pendidikan Nasional No. 232/U/2000 tentang pedoman penyusunan kurikulum pendidikan tinggi dan penilaian hasil belajar mahasiswa.

Kruck, S. E dan Lending D, 2003, Predicting Academic Performance in an Introductory College-Level IS Course, Information Technology, Learning, and Performance Journal, Vol. 21, No. 2 pp. 9-15.

Larose D, T., 2006, Data Mining Methods and Models, Jhon Wiley & Sons, Inc. Hoboken New Jersey

Maimon, O. dan Last, M. 2000. Knowledge Discovery and Data Mining, The Info-Fuzzy Network (IFN) Methodology. Dordrecht: Kluwer Academic. Merceron, A and Yacef, K. 2005. Educational Data mining: A case study. In

proceedings of the 12th International Conference on Artificial Intelligence in Education AIED 2005, Amsterdam, The Netherlands, IOS Press, Vol 5, pp 1-8

Mitchell M dan Jolley J, 1999. Research Design Explained. New York: Holt, Rinehart and Winston.

Mierswa, I., Wurst, M., Klinkenberg, R., Scholz, M. and Euler, T., 2006, Yale ACM SIGKDD International Conference on Knowledge Discovery and Data Mining

Nogroho F.S,D, 2008, Implementasi Decision Tree Bebasis Analisis Teknikal untuk Pembelian dan Penjualan Saham, Vol. 9, pp. 38-49.

Ogor E. N, 2007. Student Academic Performance Monitoring and Evaluation, Congress of  Electronics, Robotics and Automotive Mechanic, Vol.4, pp‐354‐359 


(5)

Ponniah, P, 2001, Datawarehouse Fundamentals: A Comprhenship Guide for IT Professional, John Willey & Sons, Inc

Pramudiono, I, 2006, Apa itu Data Mining ? dalam , diakses tanggal 11 april 2011

Quadri N.M and Kalyankar N.V, 2010, Drop Out Feature of Student Data for Academic Performance Using Decision Tree Techniques, Global Journal of Computer Science and Technology, Vo. 10, pp. 2-5.

Rocha B.C. dan Junior S.T. R, 2010, Identifying Bank Frauds Using Crisp-Dm and Decision Trees, International Journal of Computer Science & Information Technology (IJCSIT), Vol. 5 No.5, pp. 162-169.

Romero, C. and Ventura, S. 2007. Educational Data mining: A survey from 1995 to 2005,  Expert systems With Application” Vol. 33, pp. 135‐146.  

Sembiring S, Embong A, Mohammad, M. A, Furqan M, “Improving Student Academic Performance by An Application of Data Mining Techniques”, Proceeding The 5th IMT-GT International Conference on Mathematics, Statistics, and Their Application (ICMSA 2009), ISBN 978-602-95343-0-6, page 390-394.

She R., Chu J. S. C. Wang K. dan Chen N., 2010, Fast Accurate Gene Prediction by Decision Tree Classification., Proceedings SIAM International Conference on Data Mining Vol 10, pp 790-801

SPSS, Clementine 7.0 User’s guide, 2004

Sunjana, 2010a, Aplikasi Mining Data Mahasiswa dengan Metode Klasifikasi Decision Tree, Seminar Nasional Aplikasi Teknologi Informasi, Vol 7 pp. 24-29.

Sunjana, 2010b, Klasifikasi Data Nasabah Sebuah Asuransi Menggunakan Algoritma C4.5, Seminar Nasional Aplikasi Teknologi Informasi, Vol. 7, pp. 31-34.


(6)

Turban, E., Aronson, J. E. & Liang, T., 2005, Decision Support Sistems and Intelligent Sistems (Sistem Pendukung Keputusan dan Sistem Cerdas), Edisi Ketujuh, Andi, Yogyakarta.

Waiyamai,K 2003. Improving Quality Graduate Student by Data Mining. Departement of Computer engineering. Faculty of Engineering. Kasetsart University, Bangkok Thailand Presentasi dalam

Yu C. H, DiGangi S, Pennell J.A dan Kaprolet C, 2010, A Data Mining Approach for Identifying of Student Retention from Sophomore to Junior Year, Journal of Data Science Vol. 8, pp 307-325