Model Rule Penyebab Mahasiswa Perguruan Tinggi Pindah Dengan Metode Decision Tree

(1)

PINDAH DENGAN METODE

DECISION TREE

TESIS

AFEN PRANA UTAMA SEMBIRING

097038029/TIF

PROGRAM STUDI S2 TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

2013


(2)

MODEL

RULE

PENYEBAB MAHASISWA PERGURUAN TINGGI

PINDAH DENGAN METODE

DECISION TREE

TESIS

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah

Magister Teknik Informatika

AFEN PRANA UTAMA SEMBIRING

097038029/TIF

PROGRAM STUDI S2 TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2013


(3)

Judul : MODEL RULE PENYEBAB MAHASISWA PERGURUAN TINGGI PINDAH DENGAN METODE

DECISION TREE

Kategori : Tesis

Nama : Afen Prana Utama Sembiring Nomor Induk Mahasiswa : 097038029

Program Studi : S2 Teknik Informatika

Fakultas : ILMUKOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Dr. ZakariasSitumorang Prof. Dr. Muhammad Zarlis

Diketahui/disetujui oleh

Program Studi S2 Teknik Informatika Ketua

Prof. Dr. Muhammad Zarlis NIP : 195707011986011003


(4)

MODEL RULE PENYEBAB MAHASISWA PERGURUAN TINGGI PINDAH DENGAN METODE DECISION TREE

TESIS

Saya mengakui bahwa tesis ini adalah hasil kerja saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 10 Juli 2013

Afen Prana Utama Sembiring 097038029


(5)

Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini:

Nama : AFEN PRANA UTAMA SEMBIRING

Nim : 097038029

Program Studi : Magister (S2) TeknikInformatika

JenisKaryaIlmiah : TESIS

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty free Right) atas tesis saya yang berjudul:

MODEL

RULE

PENYEBAB MAHASISWA PERGURUAN TINGGI

PINDAH DENGAN METODE

DECISION TREE

Beserta perangkat yang ada (jika diperlukan).Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan atau sebagai pemilik hak cipta.

Demikian pernyataan ini dibuat dengan sebenarnya.

Medan, 10 Juli 2013

Afen Prana Utama Sembiring. 097038029


(6)

PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Muhammad Zarlis. Anggota : 1. Dr. ZakariasSitumorang, M.T.

2. Prof. Dr. Opim Salim Sitompul. 3. Prof. Dr.Herman Mawengkang. 4. Prof. Dr. Tulus, VorDipl.Math., M.Si.


(7)

DATA PRIBADI

Nama lengkap : AfenPranaUtama Sembiring, S.T., M.Kom.

TempatdanTanggalLahir : Medan, 27 April 1974

AlamatRumah : Jl. Sei Batanghari No. 58 A

Medan - 20121

Telepon / HP : (061)4155410 / +628126088893

Email : afen366@yahoo.com

InstansiTempatBekerja : STMIK-STIE MIKROSKIL

Alamat Kantor : Jl. Thamrin No 122, 124, 140

Medan - 20212

Telepon : (061) 4573767

DATA PENDIDIKAN

SD : SD NEGERI No. 060831 TAMAT : 1987

SMP : SMP TUNAS KARTIKA-1 TAMAT : 1990

SMU : SMA TUNAS KARTIKA-2 TAMAT : 1993

S1 : STT Mandala Bandung TAMAT : 2001


(8)

Pertama-tama kami panjatkan puji syukur kehadirat Tuhan Yang Maha Esa atas segala limpahan rakhmad dan karunia-Nya sehingga Tesis ini dapat diselesaikan melalui bimbingan, arahan dan bantuan yang diberikan berbagai pihak khususnya pembimbing, pembanding, para dosen, khususnya mahasiswa Program Studi S2 Teknik Informatika di Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

Tesis dengan judul: ”Model Rule Penyebab Mahasiswa Perguruan Tinggi Pindah Dengan Metode Decision Tree” adalah merupakan Tesis dan syarat untuk

memperoleh ijazah magister pada Program Studi S2 Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

Dengan selesainya tesis ini, perkenankanlah penulis mengucapkan terima kasih yang sebesar-besarnya kepada:

Ketua STMIK Mikroskil Dr. Mimpin Ginting, M.S, beserta jajarannya yang telah memberikan izin, dukungan dan kesempatan kepada penulis untuk mengikuti pendidikan lanjutan pada Program Studi S2 Teknik Informatika Universitas Sumatera Utara.

Rektor Universitas Sumatera Utara, Prof. Dr. dr. Syahril Pasaribu, DTM&H, M,Sc (CTM), Sp. A(K) atas kesempatan yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan Program Studi S2 Teknik Informatika Universitas Sumatera Utara.

Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara, Prof. Dr. Muhammad Zarlis yang juga sebagai Ketua Program Studi S2 Teknik Informatika atas kesempatan yang diberikan kepada penulis menjadi mahasiswa Program Studi S2 Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

Sekretaris Program Studi S2 Teknik Informatika M. Andri Budiman, ST, M. Comp. Sc, M.EM. beserta seluruh Staff Pengajar dan Staff Administrasi yang telah memberikan bantuan dan pelayanan yang baik selama mengikuti perkuliahan.

Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Prof. Dr. Muhammad Zarlis selaku Pembimbing Utama dan Dr.


(9)

Zakarias Situmorang, M.T selaku Pembimbing Anggota yang dengan penuh kesabaran membimbing dan memotivasi, serta memberi saran yang berkaitan dengan penyusunan tesis ini sehingga penulis dapat menyelesaikan tesis ini dengan baik.

Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kepada Prof. Dr. Herman Mawengkang, Prof. Dr. Opim Salim Sitompul, Prof. Dr. Tulus sebagai pembanding, yang telah memberikan saran, masukan dan arahan yang baik demi penyelesaian tesis ini.

Orangtua tercinta Ibunda M Br Ginting, serta Ibu Mertua K Br Sitepu (+) serta semua keluarga yang senantiasa mendoakan, dan memberikan dorongan kepada penulis.

Istri tercinta, Helen Morina Ginting, A.Md, beserta anak anakku terkasih Deryl Aditya, Jessica Nadine Regina dan Shelly Christine yang selalu mendoakan, memberikan semangat, dengan kasih dan sabar selama penulis mengikuti pendidikan, budi baik ini tidak dapat dibalas hanya diserahkan kepada Tuhan Yang Maha Esa. Sekali lagi terima kasih.

Kepada semua pihak yang tidak dapat penulis sebutkan satu persatu dalam tesis ini, terima kasih atas segala bantuan yang diberikan. Sekecil apapun yang Anda berikan untuk penulis turut menghantarkan penulis untuk menyelesaikan pendidikan yang ditempuh selama ini. Dengan segala kekurangan dan kerendahan hati, semoga kiranya Tuhan Yang Maha Kuasa membalas segala bantuan, kebaikan yang telah diberikan.

Medan, 10 Juli 2013 Penulis,


(10)

ABSTRAK

Faktor-faktor yang mempengaruhi potensi mahasiswa mengundurkan diri/pindah masih belum dapat diketahui dengan pasti. Data mahasiswa diperoleh dari database

mahasiswa STMIK Mikroskil dan hasil survei terhadap mahasiswa tahun ajaran 2011 dan 2012 yang dilakukan melalui website. Algoritma teknik data mining yang digunakan adalah algoritma C 4.5 untuk mendapatkan decision tree sehingga mendapatkan suatu model aturan/rule yang dapat memperlihatkan keterhubungan IPK antara data ekonomi orang tua, dukungan keluarga, fasilitas, motivasi,

confidence, dan kualitas pelayanan terhadap faktor-faktor mahasiswa yang diprediksi berpotensi mengundurkan diri/pindah dan memerlukan perhatian ekstra. Model aturan yang diperoleh menunjukkan bahwa keenam variable predictor memberikan kontribusi 80.2 %. Sedangkan variabel terbaik dari prediktor yang digunakan adalah faktor ekonomi yang memberikan kontribusi sebesar 58.3% terhadap mahasiswa yang berpotensi mengundurkan diri/pindah.


(11)

MODEL

RULE

THE CAUSE OF COLLEGE STUDENT MOVING

WITH A METHOD OF DECISION TREE

ABSTRACT

Factors that influence students' potential resigned still not be known with certainty. Student data obtained from the database of students STMIK Mikroskil and the results of a survey of student academic year 2011 and 2012 were carried out through the website. Algorithms data mining technique used is the algorithm C 4.5 to get the decision tree so getting a model rule that can demonstrate a grade point average connectedness between economic data of parents, family support, facilities, motivation, confidence, and quality of service to the factors students potentially predictable resigned and require extra attention. Model rules showed that six predictor variables contribute 80.2%. While the best of predictor variables used are economic factors which contributed 58.3% of the students who could potentially resigned. Key Word : Algorithms C 4.5, decision tree, model rule.


(12)

DAFTAR ISI

Halaman

KATA PENGANTAR i

ABSTRAK iii

ABSTRACT iv

DAFTAR ISI v

DAFTAR TABEL viii

DAFTAR GAMBAR x

DAFTAR LAMPIRAN xi

BAB I PENDAHULUAN 1

1.1 Latar Belakang 1

1.2 Perumusan Masalah 2

1.3. Batasan Masalah 2

1.4 Tujuan Penelitian 3

1.5 Manfaat Penelitian 3

BAB II TINJAUAN PUSTAKA 4

2.1 Pengunduran Diri Mahasiswa 4

2.2 Pengertian Data Mining 5

2.3 Pengelompokan Data Mining 10

2.4 Pengertian Decision Tree 12

2.5 Algoritma C 4.5 13

2.6 Ekstraksi Rule dari Decision Tree 20

2.7 Riset- riset Terkait 23

2.8 Persamaan dengan Riset – riset lain 23

2.9 Perbedaan dengan Riset-riset lain 24

2.10 Kontribusi Riset 24

BAB III METODE PENELITIAN 26

3.1. Pendahuluan 26

3.2 Lokasi dan Waktu Penelitian 26


(13)

3.4 Prosedur Pengumpulan Data 27

3.4.1 Mahasiswa Mengundurkan Diri 27

3.4.2 Mahasiswa Berpotensi Mengundurkan Diri 27

3.5 Validitas dan Reabilitas (Keakuratan Data) 30

3.6 Preprocessing Data 30

3.6.1 Preprocessing Database Akademik 30

3.6.2 Preprocessing Data Kuesioner 33

3.7 Alat Analisis Data 34

3.7.1 Paket Statitik Untuk Ilmu Sosial 34

3.7.2 Komunitas Rapid Miner 34

3.8 Instrument Penelitian 35

3.9 Diagram Aktifitas Kerja Penelitian 37

BAB IV HASIL DAN PEMBAHASAN 40

4.1. Pendahuluan 40

4.2 Hasil Transformasi Data Set Pengunduran Diri

Mahasiswa 40

4.3 Hasil Transformasi Data Set 42

4.3.1 Hasil Percobaan Sampel Data 42

4.3.2 Hasil Percobaan Descriptive Data 45

4.3.3 Hasil Percobaan Frekuensi Data 46

4.3.3.1 Statistik Frekuensi Faktor Ekonomi 46 4.3.3.2 Statistik Frekuensi Faktor Dukungan

Keluarga 47

4.3.3.3 Statistik Frekuensi Faktor Fasilitas Belajar 47 4.3.3.4 Statistik Frekuensi Faktor Motivasi 48 4.3.3.5 Statistik Frekuensi Faktor Confidence 49 4.3.3.6 Statistik Frekuensi Faktor Kualitas

Pelayanan 50

4.3.4 Signifikan 51

4.4.4 Hasil Percobaan Decision Tree 53

BAB V KESIMPULAN DAN SARAN 70

5.1. Kesimpulan 70


(14)

DAFTAR PUSTAKA 72


(15)

DAFTAR TABEL

Halaman

Tabel 2.1 Keputusan Bermain Tenis 15

Tabel 2.2 Perhitungan Node 1 17

Tabel 2.3 Perhitungan Node 1.1 18

Tabel 2.4 Perhitungan Node 1.1.2 19

Tabel 3.1 Tampilan Data Set Pertama Pengunduran Diri 27 Tabel 3.2 Tampilan Data Set Pertama Potensi Mengundurkan Diri 28

Tabel 3.3 Tampilan Data Set Kedua 28

Tabel 3.4 Tampilan Data Set Pertama dan Kedua 29

Tabel 3.5 Mahasiswa Pindah 31

Tabel 3.6 Biodata Mahasiswa 32

Tabel 3.7 Sks Lulus Mahasiswa 32

Tabel 3.8 Data Penelitian 33

Tabel 3.9 Data Kuesioner 33

Tabel 4.1 Korelasi Signifikan IPK dan Pendidikan Orang Tua 41 Tabel 4.2 Signifikan dan Reliabilitas Statistik Faktor Ekonomi

Orang Tua 42

Tabel 4.3 Signifikan dan Reliabilitas Statistik Faktor Dukungan

Keluarga 42

Tabel 4.4 Signifikan dan Reliabilitas Statistik Faktor Fasilitas Belajar 43 Tabel 4.5 Signifikan dan Reliabilitas Statistik Faktor Motivasi 43 Tabel 4.6 Signifikan dan Reliabilitas Statistik Faktor Confidence 43 Tabel 4.7 Signifikan dan Reliabilitas Statistik Faktor Kualitas Pelayanan 44

Tabel 4.8 Signifikan dan Reliabilitas Statistic Data 44

Tabel 4.9 Descriptive Statistik Testing Data 45

Tabel 4.10 Hasil Uji Frekuensi Faktor Ekonomi Orang Tua 46

Tabel 4.11 Hasil Uji Frekuensi Faktor Dukungan Keluarga 47 Tabel 4.12 Hasil Uji Frekuensi Faktor Fasilitas Belajar 48


(16)

Tabel 4.14 Hasil Uji Frekuensi Faktor Confidence 49 Tabel 4.15 Hasil Uji Frekuensi Faktor Kualitas Pelayanan 50

Tabel 4.16 Statistik Frekuensi Enam Faktor Pendukung 51

Tabel 4.17 Korelasi Signifikan dari Enam Prediktor Variable Predikat 52

Tabel 4.18 Signifikan Dari Enam Variable Prediktor 53

Tabel 4.19 Keterangan Rule Grafik 54

Tabel 4.20 Keterangan Rule Text dengan Gain Rasio 59


(17)

DAFTAR GAMBAR

Halaman

Gambar 2.1 Bidang Ilmu Data Mining 6

Gambar 2.2 Taksonomi Data Mining 7

Gambar 2.3 Tahap-tahap Data Mining 8

Gambar 2.4 Pohon Keputusan Hasil Perhitungan Node 1 18

Gambar 2.5 Pohon Keputusan Hasil Perhitungan Node 1.1 19

Gambar 2.6 Pohon Keputusan Hasil Perhitungan Node 1.1.2 20

Gambar 3.1 Proses Percobaan 35

Gambar 3.2 Diagram Aktivitas Kerja Penelitian 38

Gambar 4.1 Grafik Decision Tree 53

Gambar 4.2 Model Aturan Text Decision Tree 58

Gambar 4.3 Model Aturan Induction Rule 64

Gambar 4.4 Hubungan Antara Predikat Dengan Ekonomi Orang Tua 66 Gambar 4.5 Hubungan Antara Predikat Dengan Dukungan Keluarga 67

Gambar 4.6 Hubungan Antara Predikat Dengan Fasilitas 67

Gambar 4.7 Hubungan Antara Predikat Dengan Motivasi 68

Gambar 4.8 Hubungan Antara Predikat Confidence 68


(18)

DAFTAR LAMPIRAN

Halaman

Lampiran A Bentuk Kuesioner Mahasiswa 74

Lampiran B Jawaban Kuesioner Mahasiswa 77

Lampiran C Database Mahasiswa SIPT 78

Lampiran D Output Korelasi Signifikan 82

Lampiran E Output Reliabilitas Keenam Faktor 84

Lampiran F Output Descriptive Statistik Pengujian 96

Lampiran G Output Statistik Frekuensi Enam Faktor 98


(19)

ABSTRAK

Faktor-faktor yang mempengaruhi potensi mahasiswa mengundurkan diri/pindah masih belum dapat diketahui dengan pasti. Data mahasiswa diperoleh dari database

mahasiswa STMIK Mikroskil dan hasil survei terhadap mahasiswa tahun ajaran 2011 dan 2012 yang dilakukan melalui website. Algoritma teknik data mining yang digunakan adalah algoritma C 4.5 untuk mendapatkan decision tree sehingga mendapatkan suatu model aturan/rule yang dapat memperlihatkan keterhubungan IPK antara data ekonomi orang tua, dukungan keluarga, fasilitas, motivasi,

confidence, dan kualitas pelayanan terhadap faktor-faktor mahasiswa yang diprediksi berpotensi mengundurkan diri/pindah dan memerlukan perhatian ekstra. Model aturan yang diperoleh menunjukkan bahwa keenam variable predictor memberikan kontribusi 80.2 %. Sedangkan variabel terbaik dari prediktor yang digunakan adalah faktor ekonomi yang memberikan kontribusi sebesar 58.3% terhadap mahasiswa yang berpotensi mengundurkan diri/pindah.


(20)

MODEL

RULE

THE CAUSE OF COLLEGE STUDENT MOVING

WITH A METHOD OF DECISION TREE

ABSTRACT

Factors that influence students' potential resigned still not be known with certainty. Student data obtained from the database of students STMIK Mikroskil and the results of a survey of student academic year 2011 and 2012 were carried out through the website. Algorithms data mining technique used is the algorithm C 4.5 to get the decision tree so getting a model rule that can demonstrate a grade point average connectedness between economic data of parents, family support, facilities, motivation, confidence, and quality of service to the factors students potentially predictable resigned and require extra attention. Model rules showed that six predictor variables contribute 80.2%. While the best of predictor variables used are economic factors which contributed 58.3% of the students who could potentially resigned. Key Word : Algorithms C 4.5, decision tree, model rule.


(21)

PENDAHULUAN

1.1 Latar Belakang

Kemampuan teknologi informasi untuk menghasilkan, mengumpulkan dan menyimpan berbagai tipe data kemampuannya sangat pesat sekali jika dibandingkan kemampuan untuk menganalisis pola yang menarik, meringkas dan mengekstraksi

knowledge dari data yang terdapat dalam set data berukuran besar. Penggunaan yang luas atas teknologi komputer dan jaringan telah membentuk database-database elektronik besar yang menyimpan berbagai transaksi bisnis.

Perguruan tinggi baik negeri maupun swasta (PTN/PTS) telah memiliki sistem informasi perguruan tinggi (SIPT) yang mendukung sebagian besar dalam pengelolaan data perguruan tinggi. Jenis data yang terdapat pada SIPT dapat berupa data akademik, sumber daya manusia (dosen, laboran, teknisi, staf administrasi dll), inventaris, keuangan dan sebagainya. Dalam fitur akademik biasanya terdapat data mahasiswa, kurikulum, dosen, kartu rencana studi, jadual kuliah, nilai, kartu hasil studi dan alumni. Apabila SIPT telah digunakan beberapa tahun lamanya, tentu pada basis data tersebut tersimpan data yang cukup banyak dan bersifat historis. Namun data yang banyak ini belum banyak dimanfaatkan dalam menggali informasi atau pengetahuan yang dapat membantu pimpinan perguruan tinggi dalam membuat rencana yang bersifat strategis. Salah satu informasi yang urgent adalah informasi yang berhubungan dengan pengunduran diri/pindahnya mahasiswa dari sebuah perguruan tinggi (PT).

Hampir tidak ada perguruan tinggi baik negeri maupun swasta (PTN/PTS) yang tidak pernah mahasiswanya mengundurkan diri/pindah sebagai mahasiswa di PTN/PTS tersebut. Hal ini dibuktikan dengan adanya peraturan pengunduran diri mahasiswa baru dan reguler. Pengunduran diri mahasiswa termasuk putus studi atau

drop out di PTS bahkan cukup banyak, seperti pada STMIK Mikroskil mencapai 88 orang rata-rata per tahun mahasiswa yang mengundurkan diri dari rata-rata 2500 mahasiswa yang tercatat aktif kuliah dalam periode tahun 2007 hingga 2010. (sumber: SIPT Mikroskil). Merupakan hal yang penting bagi PTS/PTN untuk mengenali, mengidentifikasi kemampuan akademik masing-masing mahasiswa khususnya


(22)

informasi tentang faktor-faktor yang dominan berpengaruh pada pengunduran diri mahasiswa. Faktor-faktor yang dimaksud berupa data pribadi mahasiswa sebagai faktor eksternal sedangkan faktor internal terdiri dari indeks prestasi mahasiswa, program studi, grade ujian saringan masuk (USM).

Walaupun banyak penelitian yang telah dilakukan berkaitan dengan memprediksi mahasiswa drop out, namun faktor faktor yang mempengaruhi potensi mahasiswa mengundurkan diri/pindah masih belum dapat diketahui dengan pasti sehingga perlu dilakukan penelitian untuk membuat model aturan keterhubungan data mahasiswa berdasarkan prediksi risiko. Penelitian tesis ini akan diperoleh model aturan / rule penyebab mahasiswa perguruan tinggi yang mengundurkan diri/pindah .

1.2 Perumusan Masalah

Dari uraian pada latar belakang dapat dirumuskan permasalahan yang dihadapi yakni membuat suatu model rule dan menggunakan rule pengetahuan yang dapat disajikan kepada pimpinan dalam rangka mendukung pembuatan kebijakan dalam merespon masalah yang muncul ke permukaan dan mengantisipasi munculnya masalah baru. Sehingga pertanyaan yang harus dijawab dalam penelitian ini adalah:

1. Bagaimana membuat model aturan/rule penyebab mahasiswa perguruan tinggi yang mengundurkan diri/pindah menggunakan algoritma C 4.5.

2. Bagaimana menggunakan model aturan/rule untuk melihat penyebab mahasiswa mengundurkan diri/pindah.

1.3 Batasan Masalah

Rumusan masalah di atas, dibatasi dengan beberapa hal sebagai berikut:

1. Algoritma teknik data mining yang digunakan adalah algoritma C 4.5 untuk mendapatkan decision tree.

2. Penelitian ini dibatasi hanya pada analisis data mahasiwa, baik data akademik maupun biodatanya yang diperoleh dari database SIPT STMIK Mikroskil, dan data hasil survey mahasiswa yang telah mengundurkan diri/pindah menggunakan kuesioner.

3. Aturan atau rule yang dibuat, penulis menggunakan perangkat lunak rapidminer 5.0 untuk melakukan analisis data.


(23)

1.4 Tujuan Penelitian

Tujuan yang ingin dicapai pada penelitian tesis ini yaitu untuk mendapatkan sebuah model aturan/rule penyebab mahasiswa perguruan tinggi mengundurkan diri/pindah dengan menggunakan metode decision tree.

1.5 Manfaat Penelitian

Manfaat dari penelitian tesis ini adalah:

1. Membantu pimpinan dalam rangka mendukung pembuat kebijakan penyebab mahasiswa berpotensi berisiko mengundurkan diri/pindah.

2. Pimpinan dapat mengetahui dimana adanya kertekaitan satu atau lebih penyebab mahasiswa mengundurkan diri/pindah.

3. Memberi masukan pada manajemen STMIK Mikroskil untuk membuat rencana strategis dan mengantisipasi munculnya masalah baru.


(24)

TINJAUAN PUSTAKA

2.1 Pengunduran Diri Mahasiswa

Hampir tidak ada perguruan tinggi baik negeri maupun swasta (PTN/PTS) yang tidak pernah mahasiswanya mengundurkan diri sebagai mahasiswa di PTN/PTS tersebut. Hal ini dibuktikan dengan adanya peraturan pengunduran diri mahasiswa. Sebagai contoh, Universitas Indonesia (UI) sendiri memiliki peraturan tersebut dan khusus program studi computer science dapat diakses secara online, dan pada ketentuan pengunduran mahasiswa Institut Pertanian Bogor (IPB) dicantumkan ketentuan pengunduran diri mahasiswa baru dan reguler.

Peraturan Akademik STMIK Mikroskil Pasal 37 tentang drop out / putus studi diberlakukan apabila: telah melewati batas masa studi untuk program sarjana paling lama 14 semester atau program diploma paling lama 10 semester, tidak memenuhi persyaratan minimal akademik, mendapat sanksi akibat melanggar tata tertib yang berlaku (sumber : peraturan Akademik Mikroskil 2011-2015)

Pengunduran diri mahasiswa termasuk drop out di PTS bahkan cukup banyak, seperti pada STMIK Mikroskil mencapai 88 orang rata-rata per tahun mahasiswa yang mengundurkan diri dalam periode tahun 2007 hingga 2010 (sumber : SIPT Mikroskil). Alasan pengunduran diri sangat beragam, seperti orangtua pindah tugas, mahasiswa pindah kerja, berhenti kuliah, tidak sanggup mengikuti pelajaran, dan lain sebagainya. Banyak diantara alasan tersebut ternyata hanya karangan belaka setelah dibuktikan melalui beberapa penelusuran. Sehingga dibutuhkan lebih banyak penelitian lagi tentang pola tersembunyi, kecenderungan pengunduran diri mahasiswa. Berbeda dengan pengunduran diri, dropout diakibatkan oleh ketidakmampuan mahasiswa dalam mencapai sejumlah SKS hingga semester tertentu. Kecenderungan yang mempengaruhi drop out hampir sama dengan faktor pengunduran diri.

2.2 Pengertian Data Mining

Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basisdata. Informasi yang


(25)

dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata.

Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di dalam database besar. (Turban et al, 2005 ).

Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika (Larose, 2006).

Data mining adalah sebuah proses secara berulang dimana kemajuan ditentukan oleh penemuan, baik melalui metode otomatis atau manual. Data mining

sangat berguna dalam sebuah analisis skenario eksplorasi dimana tidak adanya

gagasan tentang suatu hasil yang “menarik”. Data mining menemukan informasi yang baru, berharga dalam volume data yang besar yang merupakan upaya kerjasama manusia dan komputer. Hasil terbaik dicapai dengan menyeimbangkan pengetahuan para ahli dalam menggambarkan masalah dan tujuan dengan kemampuan pencarian komputer (Kantardzic, 2003).

Data mining merupakan analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang

berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik data.”

(Larose, 2006).

Data mining merupakan bidang dari beberapa keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi

untuk penanganan permasalahan pengambilan informasi dari database yang besar.”

(Larose, 2006).

Kemajuan luar biasa yang terus berlanjut dalam bidang data mining didorong oleh beberapa faktor, antara lain (Larose, 2006).

1. Pertumbuhan yang cepat dalam kumpulan data.

2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan memiliki akses ke dalam database yang baik.


(26)

3. Adanya peningkatan akses data melalui navigasi web dan intranet.

4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam globalisasi ekonomi.

5. Perkembangan teknologi perangkat lunak untuk data mining (ketersediaan teknologi).

6. Perkembangan yang hebat dalam kemampuan komputasi dan pengembangan kapasitas media penyimpanan.

Dari definisi-definisi yang telah disampaikan, hal penting yang terkait dengan

data mining adalah:

1. Data mining merupakan suatu proses otomatis terhadap data yang sudah ada.

2. Data yang akan diproses berupa data yang sangat besar.

3. Tujuan data mining adalah mendapatkan hubungan atau pola yang mungkin memberikan indikasi yang bermanfaat.

Hubungan yang dicari dalam data mining dapat berupa hubungan antara dua atau lebih dalam satu dimensi. Misalnya dalam dimensi produk, kita dapat melihat keterkaitan pembelian suatu produk dengan produk yang lain. Selain itu, hubungan juga dapat dilihat antara dua atau lebih atribut dan dua atau lebih objek. (Ponniah, 2001).

Gambar 2.1 Bidang Ilmu Data Mining

Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi

Pencarian Informasi

Database

Artificial Intelligent

Statistik Data Mining

Ekstraksi data (bahasa alami, web)

Penstrukturan)

Dasar (Seleksi, presentase

Hasil) Data yang besar

(Normalisasi data Transformasi, OLAP)

Pembelajaran (Neural Network, pohon


(27)

banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dahulu. Gambar 2.1 menunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik,

database, dan juga information retrieval (Pramudiono, 2006).

Metode data mining secara garis besar dapat dibagi dalam dua kelompok: verifikasi dan discover. Metode verifikasi umumnya meliputi teknik-teknik statistic seperti goodness of fit, Uji-T rata-rata dan analisis variansi. Metode discovery lebih lanjut dapat dibagi atas model prediktif dan model deskriptif. Model prediktif melakukan prediksi terhadap data dengan menggunakan hasil-hasil yang telah diketahui dari data yang berbeda. Model ini dapat dibuat berdasarkan penggunaan data historis lain. Sementara itu, model deskriptif bertujuan mengidentifikasi pola-pola atau hubungan dalam data dan memberikan cara untuk mengeksplorasi sifat sifat data yang diselidiki (Dunham 2003). Taksonomi metode-metode data mining dapat dilihat pada gambar 2.2.

Gambar 2.2 Taksonomi data mining (Maimon & Last 2000, Dunham 2003)

Data mining terutama digunakan untuk mencari pengetahuan yang terdapat dalam basis data yang besar sehingga sering disebut Knowledge Discovery in Database (KDD). Proses pencarian pengetahuan ini menggunakan berbagai teknik-teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksikannya. Proses pencarian bersifat iteratif dan interaktif untuk -Neural network

- Bayesian network - Decision tree - Support vector machine - Instance based

-Clustering - Peringkasan - Aturan asosiasi - Pengungkapan sekuen - Goodness of Fit

- Uji-T Rata-rata - Analisis Variansi

Data Mining

Verifikasi Discovery

Prediktif Deskriptif


(28)

menemukan pola atau model yang sahih, baru, bermanfaat dan dimengerti. Dalam penerapannya data mining memerlukan berbagai perangkat lunak analisis data untuk menemukan pola dan relasi data agar dapat digunakan untuk membuat prediksi dengan akurat.

Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan di gambar 2.3. Tahap-tahap tersebut bersifat iterative dan interaktif, pemakai terlibat langsung atau dengan perantaraan knowledge base.

Gambar 2.3 Tahap-tahap data mining (Han dan Kamber, 2006) Tahap-tahap data mining ada 6 (enam) yaitu:

1. Pembersihan data (data cleaning)

Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang. Pembersihan data juga akan


(29)

mempengaruhi performasi dari teknik data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

2. Integrasi data (data integration)

Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database

atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada.

3. Seleksi Data (Data Selection)

Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan saja.

4. Transformasi data (Data Transformation)

Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam

data mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut transformasi data.

5. Datamining

Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data.


(30)

Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba metode data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.

7. Presentasi pengetahuan (knowledge presentation)

Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mining (Han dan Kamber, 2006).

2.3 Pengelompokan Data Mining

Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat di lakukan, yaitu (Larose, 2006):

1. Deskripsi

Terkadang peneliti dan analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecendrungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecendrungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecendrungan.

2. Estimasi

Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik dari pada ke arah kategori. Model dibangun


(31)

menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilkan model estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya.

3. Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang.

Contoh prediksi dalam bisnis dan penelitian adalah:

a. Prediksi harga beras dalam tiga bulan yang akan datang.

b. Prediksi presentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah kecepatan dinaikan.

Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.

4. Klasifikasi

Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.

Contoh lain klasifikasi dalam bisnis dan penelitian adalah:

a. Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan.

b. Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik atau buruk.

c. Mendiagnosa penyakit seorang pasien untuk mendapatkan termasuk kategori apa.

5. Pengklusteran

Pengklusteran merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Kluster adalah kumpulan record yang memiliki kemiripan suatu dengan yang lainnya dan memiliki ketidakmiripan dengan record dalam kluster lain.


(32)

Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam pengklusteran. Pengklusteran tidak mencoba untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan dengan record dalam kelompok lain akan bernilai minimal.

Contoh pengklusteran dalam bisnis dan penelitian adalah:

a. Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar.

b. Untuk tujuan audit akutansi, yaitu melakukan pemisahan terhadap prilaku finansial dalam baik dan mencurigakan.

c. Melakukan pengklusteran terhadap ekspresi dari gen, dalam jumlah besar.

6. Asosiasi

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.

Contoh asosiasi dalam bisnis dan penelitian adalah:

a. Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respon positif terhadap penawaran

upgrade layanan yang diberikan.

b. Menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli bersamaan.

2.4 Pengertian Decision Tree

Decision tree merupakan salah satu metode klasifikasi yang menggunakan representasi struktur pohon (tree) di mana setiap node merepresentasikan atribut, cabangnya merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas.


(33)

Decision tree merupakan metode klasifikasi yang paling populer digunakan. Selain karena pembangunannya relatif cepat, hasil dari model yang dibangun mudah untuk dipahami.

Pada decision tree terdapat 3 jenis node, yaitu:

a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu.

b. Internal Node, merupakan node percabangan, pada node ini hanya terdapat satu input dan mempunyai output minimal dua.

c. Leaf node atau terminal node, merupakan node akhir, pada node ini hanya terdapat satu input dan tidak mempunyai output.

2.5 Algoritma C 4.5

Algoritma C 4.5 adalah salah satu metode untuk membuat decision tree berdasarkan

training data yang telah disediakan. Algoritma C 4.5 merupakan pengembangan dari ID3. Beberapa pengembangan yang dilakukan pada C 4.5 adalah sebagai antara lain bisa mengatasi missing value, bisa mengatasi continue data, dan pruning.

Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode decision tree mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari record pada kategori tertentu. Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.

Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan, pohon keputusan sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain (Berry dan Linoff, 2004).

Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogen dengan


(34)

memperhatikan pada variabel tujuannya. Sebuah pohon keputusan mungkin dibangun dengan seksama secara manual atau dapat tumbuh secara otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan untuk memodelkan himpunan data yang belum terklasifikasi.

Variabel tujuan biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih mengarah pada perhitungan probability dari tiap-tiap record terhadap kategori-kategori tersebut atau untuk mengklasifikasi record dengan mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan untuk mengestimasi nilai dari variabel continue meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini.

Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan, antara lain ID3, CART, dan C4.5 (Larose, 2006).

Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin, dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan, dan hujan (Basuki dan Syarif, 2003)

Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule

(Basuki dan Syarif, 2003). Berikut ini algoritma dasar dari C4.5:

Input : sampel training, label training, atribut

1. Membuat simpul akar untuk pohon yang dibuat

2. Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (+)

3. Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (-)

4. Jika atribut kosong, berhenti dengan suatu pohon dengan suatu simpul akar, dengan label sesuai nilai yang terbanyak yang ada pada label training

5. Untuk yang lain, Mulai

a. A --- atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan Gain rasio)

b. Atribut keputusan untuk simpul akar --- A c. Untuk setiap nilai, vi, yang mungkin untuk A

1) Tambahkan cabang di bawah akar yang berhubungan dengan A= vi


(35)

2) Tentukan sampel Svi sebagai subset dari sampel yang mempunyai nilai vi untuk atrribut A

3) Jika sampel Svi kosong

i. Di bawah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang ada pada label training

ii. Yang lain tambah cabang baru di bawah cabang yang sekarang C4.5 (sampel training, label training, atribut-[A])

d. Berhenti

Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sama dengan jumlah path yang mungkin dapat dibangun dari root sampai leafnode.

Tree Pruning dilakukan untuk menyederhanakan tree sehingga akurasi dapat bertambah. Pruning ada dua pendekatan, yaitu:

a. Pre-pruning, yaitu menghentikan pembangunan suatu subtree lebih awal (yaitu dengan memutuskan untuk tidak lebih jauh mempartisi data training). Saat seketika berhenti, maka node berubah menjadi leaf (node akhir). Node

akhir ini menjadi kelas yang paling sering muncul di antara subset sampel. b.Post-pruning, yaitu menyederhanakan tree dengan cara membuang

beberapa cabang subtree setelah tree selesai dibangun. Node yang jarang dipotong akan menjadi leaf (node akhir) dengan kelas yang paling sering muncul.

Untuk memudahkan penjelasan mengenai algoritma C4.5 berikut ini contoh kasus keputusan bermain tenis yang dituangkan dalam Tabel 2.1

Tabel 2.1 Keputusan Bermain Tenis

No CUACA TEMPERATUR KELEMBABAN ANGIN BERMAIN

1 Cerah Panas Tinggi Tidak Tidak

2 Cerah Panas Tinggi Ya Tidak

3 Mendung Panas Tinggi Tidak Ya

4 Hujan Sedang Tinggi Tidak Ya

5 Hujan Dingin Normal Tidak Ya

6 Hujan Dingin Normal Ya Ya

7 Mendung Dingin Normal Ya Ya

8 Cerah Sedang Tinggi Tidak Ya

9 Cerah Dingin Normal Tidak Tidak

10 Hujan Sedang Normal Tidak Ya

11 Cerah Sedang Normal Ya Ya

12 Mendung Sedang Tinggi Ya Ya

13 Mendung Panas Normal Tidak Ya


(36)

Dalam kasus yang tertera pada Tabel 2.1 akan dibuat pohon keputusan untuk menentukan main tenis atau tidak dengan melihat keadaan cuaca, temperatur, kelembaban dan keadaan angin.

Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut:

1. Pilih atribut sebagai akar

2. Buat cabang untuk masing-masing nilai 3. Bagi kasus dalam cabang

4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.

Untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi dari atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus seperti tertera dalam rumus (2.1) (Craw, 2005).

Gain(S,A) = Entrropy(S) – Expectation(A)

Gain(S,A) = Entrropy(S) –∑ ⃓ �⃓

⃓ ⃓

�= * Entropy(Si) (2.1) Dengan

S : Himpunan Kasus A : Atribut

N : Jumlah partisi atribut A |Si| : Jumlah kasus pada partisi ke i |S| : Jumlah total kasus dalam S

Sedangkan perhitungan nilai Entropy dapat dilihat pada rumus (2.2) berikut (Craw, 2005):

Entropy(A) = ∑�= − �� ∗ log pi (2.2)

Dengan

S : Himpunan Kasus A : Fitur

n : Jumlah partisi S

pi : Proporsi dari Si terhadap S

Berikut ini adalah penjelasan lebih rinci mengenai masing-masing langkah dalam pembentukan pohon keputusan dengan menggunakan algoritma C4.5 untuk menyelesaikan permasalahan pada Tabel 2.1


(37)

1. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus untuk keputusan Tidak, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut cuaca, temperatur, kelembaban dan angin. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil perhitungan contoh kasus keputusan bermain tenis ditunjukkan oleh Tabel 2.2

Tabel 2.2 Perhitungan Node 1

Node

Jumlah Kasus

(S)

Tidak (S1)

Ya

(S2) Entropy Gain

1 TOTAL 14 4 10 0.863120569

CUACA 0.258521037

MENDUNG 4 0 4

HUJAN 5 1 4 0.721928095

CERAH 5 3 2 0.970950594

TEMPERATUR 0.183850925

DINGIN 4 0 4 0

PANAS 4 2 2 1

SEDANG 6 2 4 0.918295834

KELEMBABAN 0.370506501

TINGGI 7 4 3 0.985228136

NORMAL 7 0 7 0

ANGIN 0.005977711

TIDAK 8 2 6 0.811278124

YA 6 4 2 0.918295834

Baris total kolom Entropy pada Tabel 2.2 dihitung dengan rumus (2.2), sebagai berikut:

Entropy(Total) = (- *Log2( ))+(- *Log2( ))

Entropy(Total) =0.863120569

Sementara itu nilai Gain pada baris cuaca dihitung dengan menggunakan rumus (2.1), sebagai berikut:

Gain(Total,Cuaca) = Entropy(Total) - ∑ |� ���| | ��|

�= * Entropy(Cuaca)

Gain(Total,Cuaca) = 0.863120569 – (( *0) + ( *0.723) + ( *0.97)) Sehingga didapat Gain(Total,Cuaca) = 0.258521037

Dari hasil pada Tabel 2.2 dapat diketahui bahwa atribut dengan Gain tertinggi adalah kelembaban yaitu sebesar 0.37. Dengan demikian kelembaban dapat menjadi


(38)

nilai atribut tersebut, nilai atribut normal sudah mengklasifikasikan kasus menjadi 1 yaitu keputusannya Ya, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut tinggi masih perlu dilakukan perhitungan lagi.

Dari hasil tersebut dapat digambarkan pohon keputusan sementara, tampak seperti Gambar 2.4

Gambar 2.4 Pohon Keputusan Hasil Perhitungan Node 1

2. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus untuk keputusan Tidak, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut cuaca, temperatur dan angin yang dapat menjadi node akar dari nilai atribut tinggi. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.3

Tabel 2.3 Perhitungan Node 1.1

Node

Jumlah Kasus

(S)

Tidak (S1)

Ya

(S2) Entropy Gain

1.1 KELEMBABAN-TINGGI

7 4 3 0.985228136

CUACA 0.69951385

MENDUNG 2 0 2 0

HUJAN 2 1 1 1

CERAH 2 3 0 0

TEMPERATUR 0.020244207

DINGIN 0 0 0 0

PANAS 3 2 1 0.918295834

SEDANG 4 2 2 1

ANGIN 0.020244207

TIDAK 4 2 2 1

YA 3 2 1 0.918295834

Dari hasil pada Tabel 2.3 dapat diketahui bahwa atribut dengan Gain tertinggi adalah cuaca yaitu sebesar 0.699. Dengan demikian cuaca dapat menjadi node cabang

1. Kelembaban

Ya ?

Normal Tinggi


(39)

dari nilai atribut tinggi. Ada 3 nilai atribut dari cuaca yaitu mendung, hujan dan cerah. dari ketiga nilai atribut tersebut, nilai atribut mendung sudah mengklasifikasikan kasus menjadi 1 yaitu keputusannya Ya dan nilai atribut cerah sudah mengklasifikasikan kasus menjadi satu dengan keputusan Tidak, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut hujan masih perlu dilakukan perhitungan lagi.

Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar 2.5

Gambar 2.5 Pohon Keputusan Hasil Perhitungan Node 1.1

3. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus untuk keputusan Tidak, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut temperatur dan angin yang dapat menjadi node cabang dari nilai atribut hujan. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.4

Tabel 2.4 Perhitungan Node 1.1.2

Node Jumlah Kasus (S) Tidak (S1) Ya

(S2) Entropy Gain

1.1 KELEMBABAN-TINGGI dan CUACA – HUJAN

2 1 1 1

TEMPERATUR 0

DINGIN 0 0 0 0

PANAS 0 0 0 0

SEDANG 2 1 1 1

ANGIN 1

TIDAK 1 0 1 0

YA 1 1 0 0

1. Kelemb aban Ya 1.1 Cuaca Normal Tinggi Tidak 1.1.2 ? Ya Cerah Hujan Mendung


(40)

Dari hasil pada Tabel 2.4 dapat diketahui bahwa atribut dengan Gain tertinggi adalah angin yaitu sebesar 1. Dengan demikian angin dapat menjadi node cabang dari nilai atribut hujan. Ada 2 nilai atribut dari angin yaitu Tidak dan Ya. Dari kedua nilai atribut tersebut, nilai atribut Tidak sudah mengklasifikasikan kasus menjadi 1 yaitu keputusannya Ya dan nilai atribut Ya sudah mengklasifikasikan kasus menjadi satu dengan keputusan Tidak, sehingga tidak perlu dilakukan perhitungan lebih lanjut untuk nilai atribut ini. Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar 2.6

Gambar 2.6 Pohon Keputusan Hasil Perhitungan Node 1.1.2

Dengan memperhatikan pohon keputusan pada Gambar 2.6 diketahui bahwa semua kasus sudah masuk dalam kelas. Dengan demikian, pohon keputusan pada Gambar 2.6 merupakan pohon keputusan terakhir yang terbentuk.

2.6 Ekstraksi Rule dari Decision Tree

Pengetahuan yang diperoleh dari decision tree dapat direpresentasikan dalam bentuk klasifikasi IF-THEN rules. Nilai suatu atribut akan menjadi bagian anticendent

(bagian IF), sedang daun (leaf) dari sebuah decision tree akan menjadi bagian

Ya Tidak

Tidak Ya

1.

Kelemba ban

Ya

1.1

Cuaca

Normal Tinggi

Tidak

1.1.2 Angin

Ya

Cerah Hujan


(41)

consequent (THEN). Aturan seperti ini akan menjadi sangat membantu manusia dalam memahami model klasifikasi terutama jika ukuran decisiontree terlalu besar.

2.7 Riset-Riset Terkait

Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti berkaitan dengan seperti yang akan dijelaskan di bawah ini:

Kotsiantis (2009) dalam risetnya mengatakan bahwa mahasiswa drop out

terjadi cukup sering yang menyelenggarakan pendidikan jarak jauh dan tingkat putus sekolah lebih tinggi dibandingkan pendidikan konvensional. Membatasi mahasiswa

drop out sangat penting dalam pembelajaran jarak jauh dan oleh karena itu kemampuan untuk memprediksi drop out mahasiswa sangat bermanfaat dengan sejumlah cara yang berbeda. Menggunakan studi eksperimental metodologi yang diusulkan local cost sensitive tevhnique. Percobaan berlangsung dalam dua tahap yang berbeda. Tahap pertama (fase pelatihan) algoritma dilatih dengan menggunakan data yang dikumpulkan dari tahun ajaran sebelumnya. Atribut yang dikumpulkan antara lain gender, age, marital status, number of children, occupation, computer literacy, job associated with computers, face to face meeting, written assignment. Selanjutnya tutor mengumpulkan sepuluh kelompok data dari tahun ajaran baru. Masing masing dari sepuluh kelompok digunakan untuk mengukur prediksi akurasi dalam kelompok ini (fase pengujian)

Kumar dan Vijayalakshmi (2011) dalam risetnya mempelajari data pendidikan dengan metode klasifikasi seperti decision tree untuk memprediksi perilaku siswa dan kinerja dalam hasil ujian akhir, hasil prediksi akan membantu tutor untuk mengidentifikasi siswa yang lemah dan membantu siswa untuk nilai skor yang lebih baik. Algoritma decision tree 4.5 diterapkan pada data penilaian internal siswa untuk memprediksi siswa dalam performance ujian akhir. Hasil dari pohon keputusan memprediksi jumlah siswa yang cenderung gagal atau lulus. Hasilnya diberikan kepada tutor dan mengambil langkah-langkah untuk meningkatkan performance siswa yang diprediksi akan gagal. Hasil analisis menyatakan bahwa pembuatan prediksi telah membantu siswa yang lebih lemah untuk membawa perbaikan dan meningkatkan keberhasilannya.

Sunjana (2010a) hasil risetnya mengenai teknik klasifikasi menggunakan


(42)

menemukan pola yang terjadi pada data mata kuliah mahasiswa. Penerapan algoritma C 4.5 untuk melihat apakah IPK seorang mahasiswa dapat diperkirakan berdasarkan nilai beberapa mata kuliah yang dianggap paling signifikan dalam menentukan IPK seorang mahasiswa. Matakuliah yang diambil merupakan matakuliah yang wajib diambil oleh setiap mahasiswa di setiap semesternya dan yang saling berhubungan satu dengan yang lainnya atau matakuliah prasyarat. Hasil uji yang diperoleh didapatkan prosentase error rate dari data training pada matakuliah. Semakin besar prosentase nilai error rate yang dihasilkan pada data testing, maka rule yang dihasilkan pun tidak baik. Begitu juga sebaliknya.

Sunjana (2010b) menjelaskan dalam risetnya tentang klasifikasi data nasabah sebuah asuransi menggunakan algoritma C 4.5. Dengan algoritma tersebut dapat diketahui data nasabah mana yang dikelompokkan ke kelas lancar dan data nasabah mana yang dikelompokkan kekelas tidak lancar. Kemudian pola tersebut dapat digunakan untuk memperkirakan nasabah yang bergabung, sehingga perusahaan bisa mengambil keputusan menerima atau menolak calon nasabah tersebut. Atribut yang digunakan dalam penelitian adalah penghasilan, premi dasar, cara pembayaran, mata uang dan status sedang. Label yang digunakan untuk pengklasifikasian adalah lancar dan tidak lancar

Quadri dan Kalyankar (2010) juga menjelaskan tentang performance akademik mahasiswa sangat penting untuk lembaga pendidikan dan membuat rencana program strategis yang dapat direncanakan dalam meningkatkan atau mempertahankan

performance siswa selama periode mereka mengikuti pelajaran di perguruan tinggi tersebut. performance siswa diukur dengan rata-rata IPK setelah lulus. Penelitian ini menyajikan data mining dalam memprediksi siswa drop out. Menggunakan teknik

decision tree untuk memilih analisis dan prediksi yang terbaik. Daftar mahasiswa yang sudah diprediksi kemungkinan untuk drop out dengan data mining diserahkan kepada guru dan manajemen untuk intervensi langsung atau tidak langsung. Analisis komponen menggabungkan sejumlah metode machine learning secara otomatis menganalisis data dalam log database. Menggunakan metode decision tree yang bertujuan untuk mengkarakterisasi motivasi siswa.

Al-Radaideh et al. (2006) menjelaskan dalam risetnya tentang performance

siswa menjadi perhatian besar terhadap pendidikan tinggi dimana ada beberapa faktor yang dapat mempengaruhi performance siswa. Dengan menggunakan proses data


(43)

mining khususnya klasifikasi untuk membantu dalam meningkatkan kualitas sistem pendidikan tinggi dengan mengevaluasi data siswa, mempelajari atribut utama yang dapat mempengaruhi performance siswa dalam program pendidikan. Tiga metode klasifikasi algoritma yang berbeda diuji ID3, C 4.5 dan Naïve Bayes. Proses generasi didasarkan pada decision tree sebagai metode klasifikasi dimana rule yang dihasilkan dipelajari dan dievaluasi. Rule dibangun yang memungkinkan siswa untuk memprediksi nilai akhir dalam suatu program studi yang diteliti. Pengetahuan yang didapat digunakan untuk memberikaan pola pemahaman pendaftaran siswa diteliti, tindakan untuk memberikan kelas keterampilan kursus dasar tambahan, konseling akademis.

Adeyemo dan Kuye (2006) menjelaskan dalam risetnya, menyajikan evaluasi faktor-faktor yang berkontribusi terhadap performance akademik siswa di perguruan tinggi. Variable kualifikasi untuk masuk dan tipe penerimaan mahasiswa dan bagaimana faktor-faktor yang mempengaruhi performance akademik siswa. Evaluasi dilakukan menggunakan perangkat lunak komputer yang mengimplementasikan algoritma decision tree.

2.8. Persamaan dengan riset-riset lain

Curtis et al (1983) dalam penelitiannya pelajar sekolah menengah yang drop out di sekolah adalah yang tidak mampu secara sosial dan ekonomi.

Gerben W. Dekker et all (2009) dalam penelitiannya melakukan prediksi mahasiswa yang drop out dengan mengkalsifikasikan kelompok mahasiswa yang

drop out setelah semester pertama mereka belajar atau memprediksi sebelum mereka masuk ke program studi serta mengidentifikasi faktor-faktor sukses tertentu.

Hasil penelitian Khoirunnisak dan Iriawan (2010) dalam penelitiannya tingginya tingkat keberhasilan dan rendahnya tingkat kegagalan mahasiswa mencerminkan kualitas proses belajar mengajar dari suatu perguruan tinggi. Dan membuktikan bahwa mahasiswa yang dropout dari ITS Surabaya dipengaruhi oleh faktor perbedaan usia, perbedaan asal daerah mahasiswa, perbedaan penghasilan orang tua, perbedaan fakultas mahasiswa, perbedaan jalur masuk, serta perbedaan nilai IPK dan nilai TPB. menggunakan pendekatan Bayesian mixture survival melalui model mixture weibull proportional hazards.


(44)

Jadric, et all (2010) dalam penelitiannya data diproses dengan aplikasi metode

data mining, regressi logistic, pohon keputusan dan neural network. Model dibangun menggunakan metodologi SEMMA yang dibandingkan dengan memilih salah satu prediksi terbaik mahasiswa drop out .

2.9 Perbedaan dengan Riset-Riset lain

Dari beberapa riset yang dilakukan peneliti sebelumnya, terdapat beberapa titik perbedaan dengan riset yang akan dilakukan ini:

1. Analisis mahasiswa yang mengundurkan diri/pindah, risetnya dilakukan di Sekolah Tinggi Manajemen Informatika dan Komputer (STMIK) Mikroskil Medan. Yang akan dilakukan penulis adalah mendapatkan model aturan / rule

penyebab mahasiswa pindah/mengundurkan diri dari sekumpulan data set historis sehingga didapatkan klasifikasi keterhubungan dalam bentuk decision tree. variabel datanya diolah dari data kuesioner mahasiswa STMIK Mikroskil Medan seperti fasilitas belajar mahasiswa, lingkungan belajar, interest, disiplin, peraturan akademik, dukungan orang tua, ekonomi orang tua, biodata mahasiswa dan data akademik mahasiswa.

Kuesioner dilakukan sebagai alat penting dalam mendapatkan sejumlah perwakilan orang untuk menjawab pertanyaan dan membuat penilaian dari apa yang kebanyakan orang pikirkan. Informasi yang diperoleh dari kuesioner dapat digunakan untuk tren dan perubahan plot pada persepsi publik.

2. Predikat mahasiswa beresiko

Pada riset ini, hasil akhir yang diharapkan pihak manajamen dan program studi mendapatkan model rule penyebab mahasiswa perguruan tinggi mengundurkan diri/pindah.

2.10 Kontribusi Riset

Penelitian ini memberikan kontribusi pada pemahaman tentang hubungan data mahasiswa yang berpotensi berisiko dengan faktor faktor yang mempengaruhi mahasiswa berhenti studi, berdasarkan predikat berisiko mengundurkan diri/pindah dan predikat perlunya perhatian ekstra sehingga dapat diberi motivasi dan mendapatkan pemecahan masalah dengan baik.


(45)

Kontribusi lainnya adalah membantu pimpinan perguruan tinggi dalam membuat suatu rencana yang bersifat strategis. Penelitian ini memperkenalkan suatu aplikasi metode klasifikasi rule decision tree menggunakan algoritma C4.5 untuk mengeksplorasi set data berukuran besar dari database SIPT.


(46)

METODOLOGI PENELITIAN

3.1 Pendahuluan

Tujuan tesis ini untuk mendapatkan sebuah model rule penyebab mahasiswa perguruan tinggi mengundurkan diri/pindah menggunakan algoritma C 4.5 decision tree untuk dapat digunakan sebagai pedoman analisis dalam membuat keputusan di program studi.

Data dari SQL database SIPT STMIK Mikroskil dilakukan query dan data kuesioner mahasiswa didapat melalui pengisian secara online di website survey mongkey. Instrumen penelitian yang digunakan harus mempunyai ukuran yang akurat.

3.2

Lokasi dan Waktu Penelitian

Penelitian dilakukan di sekolah tinggi manajemen informatika dan komputer STMIK Mikroskil Medan, Jl. Thamrin No, 122, 124, 140 Medan. Lamanya waktu yang dibutuhkan untuk menyelesaikan penelitian ini selama 6 bulan yang dimulai pada awal Juni 2011 sampai dengan akhir bulan Desember 2011

3.3 Rancangan Penelitian

Sasaran utama pada penelitian ini adalah mengkaji faktor faktor yang mempengaruhi potensi mahasiswa mengundurkan diri/pindah.

Pada rancangan penelitian ini pertama kali dilakukan dengan melakukan

observasi alasan pengunduran diri mahasiswa yang sangat beragam, seperti orangtua pindah tugas, mahasiswa pindah kerja, tidak sanggup mengikuti pelajaran dan lain sebagainya. Banyak diantara alasan tersebut ternyata hanya karangan belaka setelah dibuktikan melalui beberapa penulusuran. Hasil observasi kemudian dibuat percobaan yang mendukung, selanjutnya dilakukan teknik pengukuran untuk mengukur kekuatan hubungan diantara dua variable. Ke dua variable yang diukur adalah variable IPK dan variable pendidikan orang tua. Hasil dari eksperimen data pengunduran ini dijadikan model aturan/rule penyebab mahasiswa perguruan tinggi pindah di STMIK Mikroskil dengan metode decision tree.


(47)

Pada rancangan penelitian kedua, data akademik, data demografi dan data kuesioner mahasiswa, dengan menggunakan perangkat lunak RapidMiner yang merupakan perangkat lunak open source untuk membuat set aturan data. Hasil dari eksperimen data ini merupakan menambang pengetahuan (mining knowledge) yang nantinya dapat membantu pimpinan perguruan tinggi untuk membuat rencana strategis dan mengantisipasi munculnya masalah baru,

3.4 Prosedur Pengumpulan Data 3.4.1 Mahasiswa Mengundurkan Diri

Penulis mengumpulkan dari database SIPT data akademik mahasiswa yang dikelola oleh Unit Pelaksana Teknis Pusat Sistem Informasi (UPT PSI). Data set pertama pada mahasiswa yang mengundurkan diri dapat dilihat pada table

Tabel 3.1 Tampilan Data Set Pertama Pengunduran Diri

No Role Name Type

1 label predikat nominal

2 regular programstudi nominal

3 regular IPK nominal

4 regular Total SKS Lulus nominal

5 regular Total SKS tidak lulus nominal 6 regular Total SKS belum diambil nominal

7 regular Total SKS nilai D nominal

8 regular Total SKS nilai E nominal

9 regular Jlh SKS diambil nominal

10 regular Semester nominal

11 regular Pendidikan orangtua nominal

3.4.2. Mahasiswa Berpotensi Mengundurkan Diri

Data set pertama pada data akademik mahasiswa yang berpotensi risiko mengundurkan diri terdiri dari: predikat, program studi, IPK, Total sks lulus, total sks tidak lulus, total sks belum diambil, total sks nilai D, total sks nilai E, jumlah sks diambil, semester dan pendidikan orang tua.

Pada dataset kedua penulis melakukan suatu teknik kuesioner ke mahasiswa

dengan menggunakan kuesioner diisi melalui website

http://surveymonkey.com/s/kuesioner untuk mengumpulkan informasi mempelajari sikap-sikap, keyakinan, perilaku dan karakteristik beberapa mahasiswa. Penulis menciptakan instrument survey dan termasuk pertanyaan demografis secara umum. Jumlah mahasiswa sebanyak 3000 orang, dan penulis mendapatkan data sampel


(48)

sebanyak 1235 orang untuk data set pertama dan 1235 orang untuk data kuesioner mahasiswa yang merupakan data set kedua.

Untuk dataset kedua, penulis mengembangkan kuesioner (Lampiran A) untuk mengukur keterhubungan data demografi yang sesungguhnya dari mahasiswa. sikap, keyakinan, perilaku dan karakteristik yang sesungguhnya dari mahasiswa. Program Studi Sistem Informasi, Teknik Informatika, Manajemen Informatika dan Komputerisasi Akuntansi. Pertanyaan pertanyaan yang dibuat adalah tipe skala point

likert 5 yang disusun dari sangat setuju, setuju, kurang setuju, tidak setuju, sangat tidak setuju. yang berkenaan untuk membuat aturan keterhubungan mahasiswa yang berpotensi resiko mengundurkan diri/pindah. Data set pertama dapat dilihat pada Tabel 3.2

Tabel 3.2 Tampilan Data Set Pertama Potensi Mengundurkan Diri

No Role Name Type

1 label Predikat nominal

2 regular IPK nominal

3 regular Totalskslulus nominal

4 regular Totalskstidaklulu nominal 5 regular totalsksbelumdiambil nominal

6 regular totalnilaiD nominal

7 regular totalnilaiE nominal

8 regular JlhSKSdiambil nominal

9 regular Semester nominal

Pada Tabel 3.2 atribut predikat sebagai label yang merupakan tujuan dari atribut predikat, IPK, kode program studi, jumlah SKS diambil, total SKS lulus, total SKS tidak lulus yang meliputi total SKS nilai D, Total SKS nilai E, kuesioner, dan semester. Data set kedua dapat dilihat pada Tabel 3.3

Tabel 3.3 Tampilan Data Set Kedua

No Role Name Type

1 label predikat nominal

2 regular IPK nominal

3 regular Ekonomi nominal


(49)

5 regular Fasilitas nominal

6 regular Motivasi nominal

7 regular Confidence nominal

8 regular

Kualitas Pelayanan nominal

9 regular

Semester nominal

10 regular

Pendidikan orang tua nominal

Pada Tabel 3.3 atribut predikat sebagai label yang merupakan tujuan dari atribut IPK, ekonomi orang tua, dukungan orang tua, fasilitas, motivasi, confidence, kualitas pelayanan, semester dan pendidikan orang tua.

Keterhubungan data antara data set pertama dan data set kedua dapat dilihat pada Tabel 3.4

Tabel 3.4 Tampilan Data Set Pertama dan Kedua

No Role Name Type

1 label predikat nominal

2 regular Programstudi nominal

3 regular IPK nominal

4 regular TotalSKSlulus nominal

5 regular Totalskstidaklulus nominal 6 regular Totalsksbelumdiambil nominal

7 regular TotalSKSnilaiD nominal

8 regular TotalSKSnilaiE nominal

9 regular JLHSKSdiambil nominal

10 regular Ekonomi_orang_tua nominal 11 regular Dukungan_orang_tua nominal

12 regular Fasilitas nominal

13 regular Motivasi nominal

14 regular Confidence nominal

15 regular Kualitaspelayanan nominal

16 regular semester nominal


(50)

Pada Tabel 3.4 atribut predikat sebagai label yang merupakan tujuan dari atribut program studi, IPK, total sks lulus, total sks tidak lulus, total sks belum diambil, total sks nilai D, total sks nilai E, jumlah sks diambil, ekonomi_orang_tua, dukungan orang tua, fasilitas, motivasi, confidence, kualitas pelayanan, semester dan pendidikan orang tua,

3.5 Validitas dan Reliabilitas (Keakuratan) Data

Keakuratan instrumen yang digunakan pada penelitian ini adalah penting. Keakuratan mengacu apakah instrumen yang digunakan mengukur secara konsisten setiap waktu dan populasi (Gall et al., 1996).

Survei dalam studi ini diuji dalam jangka waktu dan ukuran internal yang terpercaya yang memiliki keterkaitan antara bagian bagian tes ( Brown and Alexander, 1991 ). Hal ini menjamin apakah pengukuran instrumen secara akurat dimaksudkan untuk mengukur.

Cronbach’s Alpha diberikan survei untuk mengukur konsistensi internal. Menurut Mitchell dan Jolley (1999), Cronbach’s Alpha pada atau di atas 0.60 diterima sebagai bukti realibilitas internal. Validitas dan Realibilitas dari kuesioner dengan jumlah data sebanyak 1235 item

3.6 Preprocessing Data

3.6.1 Preprocessing Database Akademik

Untuk mendapatkan input yang lebih baik dari teknik data mining, penulis melakukan beberapa preprocessing terhadap data yang akan digunakan. preprocessing data merupakan tahap prapemrosesan sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning (pembersihan). Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki. Data yang tidak relevan itu juga lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari teknik data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.


(51)

Tabel mahasiswa yang mengundurkan diri yang berisi no sk berhenti, tanggal sk berhenti kuliah, tanggal berhenti, NIM, Nama, keterangan program studi, tahun ajaran, keterangan semester pindah, alasan pindah.

Tabel 3.5 Mahasiswa Pindah

Tabel biodata mahasiswa terdapat nim, nama mahasiswa, tempat lahir, tanggal lahir, jenis kelamin, jumlah saudara, anak keberapa, agama, kota lahir, kota orangtua, pekerjaan orang tua, pendidikan orang tua, jurusan sekolah, grade usm dll, seperti pada Table 3.6 di bawah ini.


(52)

Tabel 3.6 Biodata Mahasiswa

Tabel sks lulus mahasiswa seperti, NIM, nama, total sks lulus, IPK, total sks tidak lulus, total sks belum lulus, total sks nilai D, total sks nilai E.


(53)

Tabel 3.8 Data Penelitian

Predikat IPK Total SKS Lulus Total SKS Tidak Lulus Total SKS Belum Diambil Total Sks nilai D Total Sks nilai E Jumlahsks Diambil

Semester Pendidikan Orang tua

…… …… ……. ……. ……. ……. ……. ……. ……. …….

Pada Tabel 3.8 data penelitian dibuat field predikat, IPK, total sks lulus, total sks tidak lulus, total sks belum diambil, total sks nilai D, total sks nilai E, Jumlahsks dambil, semester dan pendidikan orang tua.

3.6.2 Preprocessing Data Kuesioner

Data survei dalam bentuk kuesioner yang dibagikan kepada mahasiswa terdiri dari beberapa field. Data yang dikumpulkan dapat dilihat pada Tabel 3.9

Tabel 3.9 Data Kuesioner

Nim Nama IP Q Q Q Q R Q Q Q Q Q R Q Q Q Q Q Q R

1 2 3 4 E 5 6 7 8 9 D 10 11 12 … … 27 K

… … … …

Data pada Tabel 3.9 di atas dapat dijelaskan bahwa :

1. Q1 sampai dengan Q4 adalah pertanyaan untuk ekonomi orang tua. 2. RE adalah rata-rata ekonomi dari pertanyaan Q1 sampai dengan Q4 3. Q5 sampai dengan Q9 adalah pertanyaan untuk dukungan

keluarga.

4. RD adalah rata-rata dukungan keluarga dari pertanyaan Q5 sampai dengan Q9

5. Q10 sampai dengan Q14 adalah pertanyaan untuk fasilitas.

6. RF adalah rata-rata fasilitas dari pertanyaan Q10 sampai dengan Q14

7. Q15 sampai dengan Q19 adalah pertanyaan untuk motivasi

8. RM adalah rata-rata motivasi dari pertanyaan Q15 sampai dengan Q19

9. Q20 sampai dengan Q23 adalah pertanyaan untuk confidence

10.RC adalah rata-rata confidence dari pertanyaan Q15 sampai dengan Q19

11.Q24 sampai dengan Q27 adalah pertanyaan untuk kualitas pelayanan


(54)

12.RK adalah rata-rata kualitas pelayanan dari pertanyaan Q24 sampai dengan Q27

Dari keterangan Tabel 3.9 di atas, pengolahan data penelitian dibagi dua, pertama data kuesioner yaitu rata-rata ekonomi, dukungan orang tua, fasilitas, motivasi, confidence, kualitas pelajaran digunakan pada software RapidMiner sedangkan yang kedua, data nilai dari pertanyaan kuesioner digunakan pada software

SPSS 18.

3.7 Alat Analisis Data

3.7.1 Paket Statistik Untuk Ilmu Sosial

SPSS (Statistical Package for the Social Sciences) dianggap timer (alat pengukur waktu) tertua di bidang data mining. Ini awalnya dirancang untuk digunakan oleh ilmuwan sosial untuk menganalisa data dari survei. SPPS mengijinkan pengguna untuk menarik data dan menampilkan operasi analisis statistik yang rumit, seperti komputasi regresi dan menampilkan presentasi data grafis. Ini juga menggunakan inferensial yang rumit dan prosedur statistik yang multi variasi, seperti analisis

varians (ANOVA), analisis faktor, analisis kluster, dan analisis data katerogikal. SPSS terutama sekali sangat cocok digunakan untuk survei penelitian.

SPPS 18.0 digunakan pada studi ini untuk menampilkan analisis regresi pada data set kedua yang dijelaskan pada Tabel 3.3 Keduanya merupakan langkah yang bijak dan penuh model regresi yang dijalankan untuk menentukan model yang terbaik yang sesuai dengan data.

3.7.2 Komunitas RapidMiner

RapidMiner dahulu YALE Mierswa et al. (2006) ini adalah permulaan yang bebas dan terbuka untuk KDD dan ML, yang menyediakan beraneka ragam metode yang mengizinkan bentuk dasar dari aplikasi baru. RapidMiner (dahulunya YALE ) dan propagandanya membuktikan lebih dari 400 operator dari segala aspek

data mining. Operator meta secara otomatis mengoptimalkan desain eksperimen dan pengguna tidak memerlukan waktu yang panjang untuk menentukan langkah dan parameter yang lebih panjang. Sejumlah besar teknik visualisasi dan kemungkinan untuk meletakkan breakpoints setelah masing masing operator memberikan


(55)

pandangan tentang keberhasilan desain anda- bahkan untuk menjalankan percobaan (http://www.rapidminer.com)

RapidMiner 5.0 digunakan pada studi ini untuk repository proses, data dan penanganan meta data, transformasi data, pemodelan data dan metode visualisasi data.

3.8 Instrument Penelitian

Instrumen penelitian seperti Gambar 3.1 dapat dijelaskan bahwa data penelitian berasal dari data mahasiswa yang mengundurkan diri, data kuesioner mahasiswa, data akademik dan biodata mahasiswa yang diambil dari database SIPT STMIK Mikroskil.

Tahapan atau rangkaian proses data mining dapat dibagi menjadi beberapa tahap. Tahap-tahap tersebut bersifat interaktif. Terdapat 6 tahapan pada data mining

yaitu:

Data kuesioner

http://

surveymonkey.com/ s/kuesioner

Database SIPT STMIK MIKROSKIL

Cleaning dan Integration

Datawarehouse

Seleksi dan transformasi

data

Penambangan Data

Analisis Data dan evaluasi pola model yang

diperoleh

Knowledge model mahasiswa pindah


(1)

Coefficient Correlationsa

Model EKONOMI

ORANG TUA

DUKUNGAN

KELUARGA FASILITAS MOTIVASI CONFIDENCE

KUALITAS PELAYANAN Covariances EKONOMI

ORANG TUA

.005 -.004 -.002 .000

DUKUNGAN KELUARGA

-.004 .009 -.003 .000

FASILITAS -.002 -.003 .006 -.001

MOTIVASI .000 .000 -.001 .001

5 Correlations EKONOMI ORANG TUA

1.000 -.650 -.288 -.060 -.006

DUKUNGAN KELUARGA

-.650 1.000 -.387 .008 -.131

FASILITAS -.288 -.387 1.000 -.154 -.003

MOTIVASI -.060 .008 -.154 1.000 -.616

CONFIDENCE -.006 -.131 -.003 -.616 1.000

Covariances EKONOMI ORANG TUA

.004 -.004 -.001 .000 -1.467E-5

DUKUNGAN KELUARGA

-.004 .007 -.002 3.031E-5 .000

FASILITAS -.001 -.002 .004 .000 -8.086E-6

MOTIVASI .000 3.031E-5 .000 .002 -.001

CONFIDENCE -1.467E-5 .000 -8.086E-6 -.001 .001

6 Correlations EKONOMI ORANG TUA

1.000 -.651 -.280 -.015 .033 -.114

DUKUNGAN KELUARGA

-.651 1.000 -.388 -.010 -.140 .051

FASILITAS -.280 -.388 1.000 -.124 .015 -.053

MOTIVASI -.015 -.010 -.124 1.000 -.419 -.357

CONFIDENCE .033 -.140 .015 -.419 1.000 -.340

KUALITAS PELAYANAN

-.114 .051 -.053 -.357 -.340 1.000

Covariances EKONOMI ORANG TUA

.004 -.003 -.001 -4.135E-5 7.786E-5 .000

DUKUNGAN KELUARGA

-.003 .007 -.002 -3.671E-5 .000 .000

FASILITAS -.001 -.002 .004 .000 3.667E-5 .000

MOTIVASI -4.135E-5 -3.671E-5 .000 .002 -.001 -.001


(2)

Coefficient Correlationsa

Model EKONOMI

ORANG TUA

DUKUNGAN

KELUARGA FASILITAS MOTIVASI CONFIDENCE

KUALITAS PELAYANAN KUALITAS

PELAYANAN

.000 .000 .000 -.001 .000 .002

a. Dependent Variable: IPK

Collinearity Diagnosticsa

Mod el Dimensio n Eigenvalu e Conditio n Index Variance Proportions (Constan t) EKONO MI ORANG TUA DUKUNGA N KELUARG A FASILITA S MOTIVA SI CONFIDEN CE KUALITAS PELAYANA N dimension0 1 dimension1

1 1.991 1.000 .00 .00

2 .009 14.497 1.00 1.00

2

dimension1

1 2.989 1.000 .00 .00 .00

2 .010 17.500 .40 .10 .00

3 .001 59.987 .60 .89 1.00

3

dimension1

1 3.988 1.000 .00 .00 .00 .00

2 .010 20.005 .40 .08 .00 .00

3 .002 50.547 .21 .39 .01 .87

4 .001 71.520 .39 .53 .99 .12

4

dimension1

1 4.980 1.000 .00 .00 .00 .00 .00

2 .010 22.111 .42 .05 .00 .00 .06

3 .007 25.839 .00 .05 .01 .01 .93

4 .002 56.790 .19 .37 .00 .87 .01

5 .001 79.934 .38 .53 .99 .12 .00

5

dimension1

1 5.973 1.000 .00 .00 .00 .00 .00 .00

2 .012 22.678 .24 .00 .00 .00 .10 .16

3 .009 25.304 .18 .11 .01 .01 .05 .07

4 .004 39.353 .00 .00 .00 .00 .83 .75

5 .002 62.232 .20 .37 .00 .87 .01 .00

6 .001 88.013 .38 .52 .99 .12 .00 .01

6

dimension1

1 6.967 1.000 .00 .00 .00 .00 .00 .00 .00

2 .013 23.322 .16 .00 .01 .01 .06 .10 .06


(3)

Collinearity Diagnosticsa

Mod el

Dimensio n

Eigenvalu e

Conditio n Index

Variance Proportions

(Constan t)

EKONO MI ORANG

TUA

DUKUNGA N KELUARG

A

FASILITA S

MOTIVA SI

CONFIDEN CE

KUALITAS PELAYANA

N

6 .002 67.249 .19 .37 .00 .86 .02 .00 .00

7 .001 95.476 .38 .52 .98 .12 .00 .02 .01

a. Dependent Variable: IPK

Residuals Statisticsa

Minimum Maximum Mean Std. Deviation N

Predicted Value .5406 4.1570 2.2903 .79844 1235

Residual -1.19917 1.13920 .00000 .39546 1235

Std. Predicted Value -2.191 2.338 .000 1.000 1235

Std. Residual -3.025 2.874 .000 .998 1235


(4)

(5)

(6)