Prediksi prestasi akademik mahasiswa berdasarkan hasil seleksi penerimaan mahasiswa baru jalur prestasi dengan metode pohon keputusan menggunakan slgoritma J48 - USD Repository
PREDIKSI PRESTASI AKADEMIK MAHASISWA
BERDASARKAN HASIL SELEKSI PENERIMAAN MAHASISWA BARU
JALUR PRESTASI DENGAN METODE POHON KEPUTUSAN
MENGGUNAKAN ALGORITMA J48
Skripsi
Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika
Oleh:
Florensia Dwinta Parmeska Kustanto
075314022
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2011
PREDICTION OF STUDENT ACADEMIC ACHIEVEMENT
BASED ON THE RESULTS OF LANE ACHIEVEMENT
STUDENT SELECTION ADMISSIONS
WITH DECISION TREE METHOD
USING J48 ALGORITHM
A Thesis
Presented as Partial Fullfillment of the Requirements
To Obtain Sarjana Komputer
in Department of Informatics Engineering
By:
Florensia Dwinta Parmeska Kustanto
075314022
INFORMATICS ENGINEERING STUDY PROGRAM
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2011
HALAMAN PERSEMBAHAN
Apa yang kau alami kini mungkin tak dapat engkau mengerti
Sa tu hal tanamkan di Hati, “Indah Semua yang Tuhan Beri “..
Tuhanmu tak akan memberi ular beracun pada yang minta roti
Cobaan yang engkau alami takkan melebihi kekuatan mu ..
Tangan Tuhan sedang merenda suatu karya yang agung mulia
Saatnya kan tiba nanti, kau lihat pelangi kasih-Nya..
Tangan Tuhan, by: Nikita Ku Persembahkan untuk: Tuhan Yesus dan Bunda Maria, Keluarga Tercinta, Dosen Pembimbing, Kekasih dan Teman-teman …………
Terima Kasih untuk Motivasi dan Doanya
PREDIKSI PRESTASI AKADEMIK MAHASISWA
BERDASARKAN HASIL SELEKSI PENERIMAAN MAHASISWA BARU
JALUR PRESTASI DENGAN METODE POHON KEPUTUSAN
MENGGUNAKAN ALGORITMA J48
ABSTRAK
Dalam hal seleksi penerimaan mahasiswa baru melalui jalur prestasi,Universitas Sanata Dharma memberikan syarat khusus untuk mendaftar. Hal
tersebut dilakukan oleh Universitas Sanata Dharma agar mampu menyaring calon
mahasiswa yang unggul. Diharapkan mereka saat kuliah akan mendapat prestasi
akademik yang baik pula. Muncul sebuah pertanyaan yaitu bagaimana prestasi
akademik mahasiswa tersebut pada saat kuliah, yang tercermin dalam IPK
mahasiswa yang bersangkutan? Jawaban dari pertanyaan itu bisa didapatkan
dengan menggali informasi dari data mahasiswa jalur prestasi tersebut. Informasi
yang ingin didapat dari data tersebut adalah latar belakang mahasiswa dari jalur
prestasi yang seperti apakah yang pada saat kuliah akan mendapatkan prestasi
akademik Dengan Pujian dengan kategori “A”, Sangat Memuaskan dengan
kategori “B”, Memuaskan dengan kategori “C” dan kurang memuaskan dengan
kategori “D”. Penelitian Tugas Akhir ini menerapkan teknik klasifikasi dengan
pendekatan pohon keputusan pada penambangan data. Data mahasiswa yang
diteliti adalah data PMB Jalur Prestasi dan data akademik seluruh Program Studi
di Universitas Sanata Dharma. Data diperoleh dari Biro Administrasi Perencanaan
dan Sistem Informasi (BAPSI) Universitas Sanata Dharma. Data tersebut diolah
dengan algoritma J48 untuk menemukan pola dari klasifikasi latar belakang
mahasiswa berdasarkan prestasi akademik mahasiswa sesuai kategori IPK.
Tingkat rata-rata akurasi yang dihasilkan dari uji coba pola klasifikasi untuk
program studi Teknik Informatika adalah sebesar 49.31 % , sedangkan untuk
program studi Farmasi adalah sebesar 39.79%.
PREDICTION OF STUDENT ACADEMIC ACHIEVEMENT
BASED ON THE RESULTS OF LANE ACHIEVEMENT
STUDENT SELECTION ADMISSIONS
WITH DECISION TREE METHOD
USING J48 ALGORITHM
ABSTRACT In terms of selection of new admissions through the path of achievement,Sanata Dharma provide special conditions for registering. This is done by the
University of Sanata Dharma in order to be able to filter out students who
excelent. Hopefully they will get GPA is also good. An emerging question is how
the academic achievement of students are at college, which is reflected in the
GPA of the students concerned? The answer to that question can be obtained by
collecting information from the data track student achievement. Who wish to
obtain information from these data is the background of student achievement path
as if that is when the college was going to get academic achievement with praise
by the category "A", Very Satisfying the category "B", Satisfy the category "C"
and less satisfactory with the category "D". This final study applying
classification techniques to approach the decision tree in data mining. Data of
students studied were PMB data points throughout the academic achievement data
and Studies Program at the University of Sanata Dharma. Data obtained from Biro
Administrasi Perencanaan dan Sistem Informasi (BAPSI) Sanata Dharma
University. The data is processed with the J48 algorithm to find patterns of
student background classification is based on academic achievement of students
by category GPA. The average level of accuracy resulting from the test pattern for
the classification of Informatic Engineering study program amounted to 49.31%,
while for Pharmacy courses is 39.79%.KATA PENGANTAR
Puji syukur penulis panjatkan atas Kehadirat Tuhan Yang Maha Esa, yang
telah melimpahkan rahmat dan berkatNya sehingga penulis dapat menyelesaikan
tugas akhir yang berjudul “ Prediksi Prestasi Akademik Mahasiswa BerdasarkanHasil Seleksi Penerimaan Mahasiswa Baru Jalur Prestasi Dengan Metode Pohon
Keputusan Menggunakan Algoritma J48 “ dan penulis selalu diberi kekuatan
untuk berkembang dan menjadi lebih. Tugas akhir ini ditulis sebagai salah satu
syarat memperoleh gelar sarjana komputer program studi Teknik Informatika,
Fakultas Sains dan Teknologi Universitas Sanata Dharma.Terima kasih sebesar-besarnya kepada semua pihak yang turut memberikan
dukungan, semangat dan bantuan sehingga selesainya skripsi ini:1. Tuhan Yesus Kristus dan Bunda Maria yang telah memberikan semuanya sehingga penulis bisa menyelesaikan tugas akhir ini.
2. Ibu P. H . Prima Rosa, S.Si., M.Sc. selaku dosen pembimbing atas kesabaran, bimbingan, waktu, saran dan terlebih atas dukungan yang diberikan.
3. Laboran komputer atas bantuan kepada penulis ketika melakukan ujian akhir.
4. Kedua orang tua, papa Drs. Yohanes Kustanto, S.Pd dan mama Dra.
Damiana Dwi Tanti, S.Pd yang telah memberikan cinta dalam bentuk semangat, perhatian dan doa sehingga penulis dapat menyelesaikan tugas akhir ini.
5. Semua saudara, Adik Theodorin Hanna Vebrita Kustanto dan Angelina Widiyanti Purwoko, Tante Agustina Sri Kadaryanti, Mbah Kakung Ign.
Darso Roesyanto dan Mbah Putri M. M. Sukeni Wotowiharjo yang telah memberikan semangat, perhatian dan doa sehingga penulis dapat menyelesaikan tugas akhir ini.
6. Kekasih tercinta, Antonius Hari Widiatmoko yang selalu menyemangati dan menghibur ketika dalam kesulitan, dan juga terimakasih untuk doanya.
7. Sahabat dan teman-teman, Fabian Fransiskus Paranso, S.T. , Gregorius Arief Sudarmo Wicaksono, S.T. , Sari Indah Anatta, Arum Citra Dewi, Ni Made Kristianingsih Kuatra, Ana Suryaningsih, Leonardus Ardyandita, M. Bangkit Widyatmoko dan teman-teman seperjuangan dalam menyelesaikan tugas akhir ini.
8. Semua pihak yang berperan baik secara langsung maupun tidak langsung sehingga penulis dapat menyelesaikan tugas akhir ini.
Penulis menyadari bahwa masih banyak kekurangan yang terdapat pada laporan
tugas akhir ini. Saran dan kritik penulis harapkan untuk perbaikan-perbaikan pada
masa yang akan dating dan penulis berharap semoga skripsi ini dapat bermanfaat
bagi pembaca.Yogyakarta, 24 Juli 2011 Penulis (Florensia Dwinta Parmeska Kustanto)
DAFTAR ISI
BAB II
BAB III
BAB IV
BAB V126
BAB VI
DAFTAR PUSTAKA ..........................................................................................136
LAMPIRAN .........................................................................................................139
DAFTAR GAMBAR
Gambar 2.1 Data Mining dan teknologi basis data lainnya .....................................8Gambar 2.2 Proses Data Mining ............................................................................11 Gambar 2. 3 Proses Klasifikasi dan kaitannya dengan prediksi ............................13Gambar 2.4 Gambaran Pohon Keputusan ..............................................................14Gambar 2.5 Pohon Keputusan Untuk Node 1 ........................................................22Gambar 2.6 Pohon Keputusan Untuk Node 1.1 .....................................................23Gambar 2.7 Pohon Keputusan Untuk Node 1.1.1 ..................................................25 Gambar 2. 8 Pohon Keputusan Untuk Node 1.1.1.1 ..............................................26Gambar 3.8 DiagramUse Case ...............................................................................58 Gambar 3. 9 Diagran Aktivitas Login ....................................................................69
DAFTAR TABEL
Tabel 3.1 Tabel Data PMB jalur prestasi ...............................................................34Tabel 3.2 Tabel Data Nilai Mahasiswa jalur prestasi per Matakuliah ...................35Tabel 3.3 Tabel Data SKS Matakuliah per Program Studi ....................................36Tabel 3.4 Tabel data PMB .....................................................................................42 Tabel 3. 5 Tabel Aturan Pengkategorisasian Nilai Rapor dan IPK........................43Tabel 3.6 Hasil Transformasi untuk nilai rapor angkatan 2005 .............................44Tabel 3.7 Tabel Data Pelatihan PMB Jalur Prestasi ..............................................49Tabel 3.8 Tabel Data Uji PMB Jalur Prestasi ........................................................52Tabel 3.9 Tabel Visualisasi Penyimpanan Pohon ..................................................57Tabel 3.10 Deskripsi Use Case ..............................................................................59 Tabel 3. 11 Kelas Interface LoginSPPA ................................................................77
BAB I PENDAHULUAN
1.1. Latar Belakang Masalah
Seiring dengan perkembangan teknologi, semakin berkembang pula
kemampuan kita dalam mengumpulkan dan mengolah data. Data dikumpulkan
dan disimpan bisa dalam bentuk softcopy maupun hardcopy. Data-data yang
terkumpul ini merupakan suatu tambang emas yang dapat digunakan sebagai
informasi apabila diolah terlebih dahulu agar dapat diutarakan secara jelas dan
tepat sehingga dapat dimengerti oleh orang lain yang tidak langsung
mengalaminya sendiri.Universitas Sanata Dharma (USD) merupakan salah satu instansi akademik
yang memiliki banyak data. Tidak hanya data akademik saja tetapi masih banyak
lagi data yang tersimpan, salah satunya adalah data Penerimaan Mahasiswa Baru
(PMB). Setiap tahunnya Universitas Sanata Dharma membuka pendaftaran untuk
penerimaan mahasiswa baru. Seleksi penerimaan mahasiswa baru dilakukan
dalam berbagai cara, antara lain penerimaan mahasiswa baru melalui jalur
prestasi, melalui jalur reguler dan melalui jalur kerja sama. Setiap dibuka
pendaftaran maka akan ada banyak data yang terkumpul dari pendaftar sebagai
syarat untuk pendaftaran. Data tersebut seiring berjalannya waktu akan semakin
bertambah dan potensial menjadi kuburan data karena tidak dimanfaatkan.Dalam hal seleksi penerimaan mahasiswa baru melalui jalur prestasi,
Universitas Sanata Dharma memberikan syarat utama untuk mendaftar yaitu
dengan melampirkan hasil belajar siswa SMA / sederajat saat kelas XI semester 1
dan semester 2 dan kelas XII semester 1. Syarat kedua adalah nilai rata-rata
kognitif sejumlah mata pelajaran minimal 67. Untuk siswa jurusan IPA, nilai
tersebut meliputi mata pelajaran Bahasa Indonesia, Bahasa Inggris, Matematika,
Fisika, Kimia dan Biologi, sedangkan untuk siswa jurusan IPS meliputi Bahasa
Indonesia, Sejarah, Bahasa Inggris, Matematika, dan Ekonomi. Selain itu terdapat
2 SMA jurusan IPA/SMF sedangkan khusus pendaftar program studi Pendidikan
Bahasa Inggris dan Sastra Inggris harus memiliki nilai mata pelajaran Bahasa
Inggris pada rapor kelas XI semester 1 dan 2 minimal 8. Tujuan dari beberapa
syarat tersebut agar Universitas Sanata Dharma mampu menyaring calon
mahasiswa yang unggul. Diharapkan mereka nantinya saat kuliah akan
mendapatkan Indeks Prestasi (IP) yang baik di setiap semesternya dan lulus
dengan Indeks Prestasi Kumulatif (IPK) yang baik pula.Calon mahasiswa yang berhasil lolos seleksi PMB Jalur Prestasi di
Universitas Sanata Dharma merupakan orang-orang yang memenuhi kategori
sebagai mahasiswa yang diterima secara khusus, karena prestasi akademik pada
saat SMA. Setelah calon mahasiswa dinyatakan lolos seleksi dan diterima sebagai
mahasiswa di Universitas Sanata Dharma karena prestasi akademik saat SMA,
muncul sebuah pertanyaan yaitu bagaimana prestasi akademik mahasiswa tersebut
pada saat kuliah, yang tercermin dalam IPK mahasiswa yang bersangkutan?
Jawaban dari pertanyaan itu bisa didapatkan dengan menggali informasi dari data
mahasiswa jalur prestasi tersebut. Informasi yang ingin didapat dari data tersebut
adalah latar belakang mahasiswa dari jalur prestasi yang seperti apakah yang pada
saat kuliah akan mendapatkan prestasi akademik Dengan Pujian dengan kategori
“A”, Sangat Memuaskan dengan kategori “B”, Memuaskan dengan kategori “C”
dan kurang memuaskan dengan kategori “D”. Selanjutnya klasifikasi tersebut
akan dimanfaatkan untuk melakukan prediksi prestasi akademik mahasiswa yang
mendaftar melalui jalur prestasi.Penelitian Tugas Akhir ini menerapkan teknik klasifikasi melalui pendekatan
pohon keputusan pada penambangan data. Data mahasiswa yang akan diteliti dan
diolah merupakan data PMB Jalur Prestasi dan data akademik seluruh Program
Studi di Universitas Sanata Dharma. Data diperoleh dari Biro Administrasi
Perencanaan dan Sistem Informasi (BAPSI) Universitas Sanata Dharma. Data
tersebut akan diolah dengan algoritma J48 untuk menemukan pola dari klasifikasi
latar belakang mahasiswa berdasarkan prestasi akademik mahasiswa sesuai
kategori IPK. Data latar belakang mahasiswa meliputi nilai rapor kelas XI
semester 1 dan 2, kelas XII semester 1, mata pelajaran untuk siswa jurusan IPA,
3
nilai tersebut meliputi mata pelajaran Bahasa Indonesia, Bahasa Inggris,
Matematika, Fisika, Kimia dan Biologi, sedangkan untuk siswa jurusan IPS
meliputi Bahasa Indonesia, Sejarah, Bahasa Inggris, Matematika, dan Ekonomi,
asal sekolah, daerah asal sekolah, jurusan saat sekolah, dan jenis kelamin.
Berdasarkan pola klasifikasi tersebut, diharapkan akan dapat dilakukan prediksi
prestasi akademik mahasiswa berdasarkan hasil seleksi penerimaan mahasiswa
baru jalur prestasi dengan metode pohon keputusan menggunakan algoritma J48.
1.2. Perumusan Masalah
Berdasarkan latar belakang masalah diatas, rumusan masalah yang diidentifikasi
adalah:1. Bagaimana cara mengklasifikasikan latar belakang mahasiswa dari jalur prestasi yang meliputi nilai rapor, asal sekolah, daerah asal sekolah, jurusan saat sekolah, dan jenis kelamin berdasarkan prestasi akademiknya menurut kategori IPK Dengan Pujian dengan kategori “A”, Sangat Memuaskan dengan kategori “B”, Memuaskan dengan
kategori “C” dan kurang memuaskan dengan kategori “D”?
2. Bagaimana memprediksi prestasi akademik mahasiswa berdasarkan hasil seleksi penerimaan mahasiswa baru jalur prestasi dengan metode pohon keputusan menggunakan algoritma J48? 1.3.
Batasan Masalah Dalam tugas akhir ini batasan masalah yang akan diambil dalam pembahasan adalah sebagai berikut:
1. Penelitian ini hanya menerapkan metode pohon keputusan dengan menggunakan algoritma J48.
2. Data mahasiswa diambil dari data PMB Jalur Prestasi dan data akademik mahasiswa seluruh Program Studi di Universitas Sanata Dharma tahun angkatan 2005-2006 karena mahasiswa pada tahun angkatan tersebut
4 sudah menempuh perkuliahan lebih dari 8 semester sehingga diharapkan ketika proses pengolahan data akan didapatkan pola yang menarik. Dan untuk data angkatan 2007 akan dijadikan data testing yang akan digunakan untuk menguji pola yang terbentuk. Data PMB dan data akademik yang didapat meliputi nomor alias, jenis kelamin, daerah asal, alamat asal, nama sekolah, jurusan saat SMA / sederajat, nilai rapor kelas XI semester 1 dan 2, kelas XII semester 1, mata pelajaran (untuk IPA: Bahasa Indonesia, Bahasa Inggris, Matematika, Fisika, Kimia dan Biologi. Untuk IPS: Bahasa Indonesia, Sejarah, Bahasa Inggris, Matematika, dan Ekonomi.), program studi, sks yang telah ditempuh, nilai per semester, Indeks Prestasi Kumulatif(IPK), ketua program studi, dan dosen pembimbing akademik yang diperoleh dari Biro Administrasi Perencanaan dan Sistem Informasi (BAPSI) Universitas Sanata Dharma.
- –
3. Data akademik yang akan diolah adalah IPK mahasiswa dari semester 1
semester 8 karena diasumsikan bahwa lama studi yang ideal adalah 4 tahun atau 8 semester.
1.4. Tujuan
Tujuan dari penelitian ini adalah :
1. Mencari pola klasifikasi dari latar belakang mahasiswa PMB jalur prestasi berdasarkan prestasi akademiknya.
2. Memprediksi prestasi akademik mahasiswa.
1.5. Luaran
Sebuah sistem berbasis teknologi informasi yang mampu mengenali pola dan
memprediksi prestasi akademik mahasiswa berdasarkan masukan latar belakang
mahasiswa (nilai rapor, asal sekolah, daerah asal sekolah, jurusan saat sekolah,
kabupaten asal, kabupaten sekolah dan jenis kelamin).5
1.6. Kegunaan
Hasil prediksi tersebut dapat digunakan oleh:
1. Dosen Pembimbing Akademik Sebagai bahan konseling mahasiswa bimbingannya.
2. Ketua Program Studi Sebagai alat bantu dalam seleksi PMB jalur prestasi.
1.7. Metodologi Penelitian
Metodologi yang digunakan untuk menyelesaikan masalah pada tugas akhir ini menurut Jiawei Han dan Kamber [1]:
1. Pembersihan Data ( Data Cleaning ) Pada tahap ini dilakukan proses membuang data yang tidak konsisten dan noise. Contohnya: data yang kadaluarsa, salah pengetikan maupun data yang kosong.
2. Penggabungan Data ( Data Integration ) Penggabungan data dari beberapa sumber agar seluruh data terangkum dalam satu table yang utuh. (denormalisasi)
3. Seleksi Data ( Data Selection ) Menyeleksi data dimana data yang relevan diambil dari database.
4. Transformasi Data ( Data Transformation ) Mentranformasikan atau merubah data kedalam bentuk yang sesuai untuk ditambang.
5. Penambangan Data ( Data Mining ) Penerapan teknik penambangan data untuk mengekstrak pola.
6 Dalam penilitian Tugas Akhir ini, teknik yang digunakan adalah teknik klasifikasi dengan membuat pohon keputusan. Algoritma yang digunakan untuk membuat pohon keputusan adalah algoritma J48.
6. Evaluasi Pola ( Pattern Evaluation ) Untuk mengidentifikasikan pola yang menarik untuk merepresentasikan sebuah pengetahuan.
7. Presentasi Pengetahuan ( Knowledge Presentation ) Pada tahap ini pola yang didapat direpresentasikan kepada pengguna akhir kedalam bentuk yang dapat dipahami,
7
1.8. Sistematika Penulisan
Adapun sistematika penulisan tugas akhir ini adalah sebagai berikut: Halaman Judul Abstrak , berisi tentang rangkuman Tugas Akhir. Daftar Isi
Bab I Pendahuluan Pendahuluan berisi tentang latar belakang masalah, perumusan masalah, batasan masalah, tujuan, luaran, kegunaan, metodologi penelitian dan sistematika penulisan.
Bab II Landasan Teori Landasan Teori di dalam bab II ini berisi tentang teori yang digunakan dalam penulisan Tugas Akhir
, meliputi: pengertian penambangan data, proses penambangan data, teknik klasifikasi, pengertian pohon keputusan, manfaat pohon keputusan, kelebihan pohon keputusan, kekurangan pohon keputusan, dan algoritma J48.
Bab III Analisis dan Perancangan Sistem Analisis dan Perancangan Sistem berisi tentang identifikasi sistem, pemrosesan data awal, Input, Proses dan Output , dan perancangan sistem. Bab IV Implementasi Program Implementasi Program berisi implementasi dari program yang dibuat. Bab V Analisis Hasi Analisis Hasil berisi tentang pembahasan hasil yang terbentuk dari program, baik akurasi ataupun pola klasifikasinya. Bab VI Kesimpulan dan Saran Kesimpulan dan saran berisi tentang kesimpulan penelitian dan saran untuk pengembangan penelitian selanjutnya. Daftar Pustaka
BAB II LANDASAN TEORI
2.1. Pengertian Penambangan Data (Data Mining)
Definisi umum dari penambangan data itu sendiri adalah “serangkaian proses
untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui
secara manual dari suatu kumpulan data” [2]. Penambangan data juga dikenal dengan nama Knowledge Discovery in Databases (KDD). Kehadiran penambangan data dilatar belakangi problema explosion data yang
dialami akhir-akhir ini dimana banyak organisasi telah mengumpulkan data sekian
tahun lamanya (data pembelian, data penjualan, data nasabah, data transaksi dsb)
dan yang terjadi adalah banyak data tapi miskin informasi. Hampir semua data
tersebut dimasukkan dengan menggunakan aplikasi komputer yang digunakan
untuk menangani transaksi sehari-hari. Pada Gambar 2.1 di bawah ini
menunjukkan posisi masing-masing teknologi:Gambar 2.1 Data Mining dan teknologi basis data lainnya[3]9 Perbedaan penambangan data dengan gudang data adalah pada bagian
pengolahannya. Pada penambangan data terjadi On-line Transaction Processing
(OLTP), sedangkan pada gudang data terjadi On-line Analytical Processing
(OLAP). Gambar 2.1 di atas terlihat bahwa teknologi data warehouse digunakan
untuk melakukan OLAP, sedangkan penambangan data digunakan untuk
melakukan information discovery yang informasinya lebih ditujukan untuk
seorang Data Analyst dan Business Analyst dengan ditambah visualisasi tentunya.
Dalam prakteknya, penambangan data juga mengambil data dari data warehouse,
hanya saja aplikasi dari penambangan data lebih spesifik dibandingkan OLAP
mengingat database bukan satu-satunya bidang ilmu yang mempengaruhi
penambangan data. Banyak lagi bidang ilmu yang turut memperkaya
penambangan data seperti: information science (ilmu informasi), high
performance computing, visualisasi, machine learning, statistik, neural networks
(jaringan syaraf tiruan), pemodelan matematika, information retrieval
(pemerolehan informasi) dan information extraction serta pengenalan pola.
Pengolahan citra (image processing) juga digunakan dalam rangka melakukan
penambangan data terhadap data image atau spatial.2.2. Proses Penambangan Data
Proses penambangan data menurut Jiawei Han dan Kamber [1] terdiri dari beberapa tahap, yaitu:
1. Pembersihan Data ( Data Cleaning ) Pada tahap ini dilakukan proses membuang data yang tidak konsisten dan noise. Contohnya: data yang kadaluarsa, salah pengetikan maupun data yang kosong.
2. Penggabungan Data ( Data Integration ) Penggabungan data dari beberapa sumber agar seluruh data terangkum dalam satu tabel yang utuh.
10
3. Seleksi Data ( Data Selection ) Menyeleksi data dimana data yang relevan diambil dari database.
4. Transformasi Data ( Data Transformation ) Mentranformasikan atau merubah data kedalam bentuk yang sesuai untuk ditambang.
5. Penambangan Data ( Data Mining )
Penerapan teknik penambangan data untuk mengekstrak pola.
6. Evaluasi Pola ( Pattern Evaluation ) Pola yang didapat dari proses penambangan data akan dievaluasi dengan hipotesa yang telah dibentuk sebelumnya.
Akhir dari tahap ini adalah diperolehnya persentase akurasi data.
7. Presentasi Pengetahuan ( Knowledge Presentation ) Pada tahap ini pola yang didapat direpresentasikan kepada pengguna akhir kedalam bentuk yang dapat dipahami, misalnya melalui tahap visualisasi.
11 Dapat diilustrasikan tahapan penambangan data melalui gambar 2.2 berikut ini:
Gambar 2.2 Proses Data Mining[1]2.3. Teknik Klasifikasi
Didalam penambangan data terdapat beberapa teknik untuk mendapatkan
informasi dari data. Teknik Asosiasi, Teknik Klastering dan Teknik Klasifikasi
dapat digunakan untuk melakukan penambangan data. Teknik Klasifikasi
merupakan salah satu teknik dalam penambangan data dengan melihat pada
kelakuan dan atribut dari kelompok yang telah didefinisikan. Teknik ini dapat
memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang
telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah
aturan. Aturan-aturan tersebut digunakan pada data-data baru untuk diklasifikasi.
12 Proses teknik klasifikasi terdiri dari dua tahap utama, yaitu [4]:
1. Membangun model Tujuan dari tahap ini adalah menggambarkan satu set dari kelas-kelas yang ditentukan sebelumnya. Sampel diasumsikan merupakan kepunyaan suatu kelas yang sudah diketahui berdasarkan pada nilai- nilai atributnya. Kelas ditentukan oleh atribut label kelas. Sampel yang digunakan untuk membangun model disebut himpunan data pelatihan. Model direpresentasikan sebagai pola klasifikasi, atau formula matematis.
2. Penggunaan Model Tahap ini bertujuan untuk mengklasifikasikan objek yang baru akan didapatkan atau belum dikenal. Penilaian keakuratan dari model dapat dilakukan dengan menggunakan suatu himpunana tes. Label yang sudah diketahui dari contoh himpunan tes akan dibandingkan dengan hasil klasifikasi dari model. Tingkat keakuratan sendiri berupa persentase dari contoh himpunan tes yang diklasifikasikan secara benar oleh model.
13 Kaitan klasifikasi dengan prediksi akan dijelaskan dengan ilustrasi dari gambar berikut:
Membangun model Algoritma Klasifikasi Data Pelatihan menghasilkan Penggunaan model
Klasifikasi Data Uji (Aturan) Prediksi
Data Baru Aturan menghasilkan
Hasil klasifikasi (hasil prediksi)
Gambar 2. 3 Proses Klasifikasi dan kaitannya dengan prediksi [5]
2.4.Pengertian Pohon Keputusan Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat
dan terkenal. Metode pohon keputusan mengubah fakta menjadi pohon keputusan
yang merepresentasikan aturan.Sebuah pohon keputusan adalah “sebuah struktur yang dapat digunakan
untuk membagi kumpulan data yang besar menjadi himpunan record yang lebih
kecil dengan menerapkan serangkaian aturan keputusan, dengan masing-masing
rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang
lain” [6].Banyak algoritma yang dapat dipakai dalam pembentukan pohon
14 keputusan, antara lain: ID3, CART, J48 (C4.5).
Pada pohon keputusan, setiap titik (node) di bagian dalam merupakan
sebuah atribut, setiap cabang (branch) menggambarkan keluaran dari logical tes
dan leaf node atau titik daun memnggambarkan kelas-kelas atau suatu kelas
distribusi. Titik yang terletak di paling atas merupakan akar (root node). Gambar
2.4 di bawah ini akan menjelaskan bentuk dari pohon keputusan.Akar (root node) cabang (branches)
Daun Daun (leaf node) (leaf node)
Kemungkinan kejadian Kemungkinan kejadian
Gambar 2.4 Gambaran Pohon Keputusan 2.5. Manfaat Pohon KeputusanManfaat utama dari penggunaan pohon keputusan adalah “kemampuannya
untuk memecah proses pengambilan keputusan yang kompleks menjadi lebih
simpel sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari
permasalahan” [7]. Pohon Keputusan juga berguna untuk mengeksplorasi data,
menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan
sebuah variabel target. Pohon keputusan memadukan antara eksplorasi data dan
pemodelan, sehingga sangat bagus sebagai langkah awal dalam proses pemodelan
bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain.15
2.6. Kelebihan Pohon Keputusan
Kelebihan dari metode pohon keputusan adalah [7]:
1. Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat global, dapat diubah menjadi lebih simpel dan spesifik.
2. Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena ketika menggunakan metode pohon keputusan maka contoh diuji hanya berdasarkan kriteria atau kelas tertentu.
3. Fleksibel untuk memilih fitur dari internal node yang berbeda, fitur yang terpilih akan membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang sama. Kefleksibelan metode pohon keputusan ini meningkatkan kualitas keputusan yang dihasilkan jika dibandingkan ketika menggunakan metode penghitungan satu tahap yang lebih konvensional
4. Dalam analisis multivariat, dengan kriteria dan kelas yang jumlahnya sangat banyak, seorang penguji biasanya perlu untuk mengestimasikan baik itu distribusi dimensi tinggi ataupun parameter tertentu dari distribusi kelas tersebut. Metode pohon keputusan dapat menghindari munculnya permasalahan ini dengan menggunakan kriteria yang jumlahnya lebih sedikit pada setiap node internal tanpa banyak mengurangi
kualitas keputusan yang dihasilkan.
16
2.7. Kekurangan Pohon Keputusan
Kekurangan dari metode pohon keputusan adalah [7]:
1. Terjadi overlap, terutama ketika kelas-kelas dan kriteria yang digunakan jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan meningkatnya waktu pengambilan keputusan dan jumlah memori yang diperlukan.
2. Pengakumulasian jumlah kesalahan dari setiap tingkat dalam sebuah pohon keputusan yang besar.
3. Kesulitan dalam mendesain pohon keputusan yang optimal.
4. Hasil kualitas keputusan yang didapatkan dari metode pohon keputusan sangat tergantung pada bagaimana pohon tersebut didesain.
2.8. Algoritma J48
P ada penelitian Tugas Akhir ini akan menggunakan algoritma J48. “J48 (also
known as C4.5) is an algorithm introduced by Ross Quinlan (1993) for inducing
Classification Models, also called Decision Trees” dikemukakan oleh Witten[8],
maka prinsip kerja algoritma J48 sama dengan C4.5 dalam proses belajar yaitu
membaca seluruh sampel atau kasus dari tempat penyimpanan dan memuatnya ke
memori, kemudian melakukan komputasi dengan membaca sampel-sampel di
memori untuk membangun pohon yang juga disimpan di memori.Dalam algoritma J48 atau yang biasa dikenal dengan algoritma C4.5, pohon
dibangun dengan cara membagi data secara rekursif hingga tiap bagian terdiri dari
data yang berasal dari kelas yang sama.Bentuk pembagian(split) yang digunakan untuk membagi data itu tergantung dari
jenis atribut yang digunakan. Algoritma J48 dapat menangani data numerik
(kontinyu) dan diskret. Split untuk atribut numerik yaitu mengurutkan contoh
17
berdasarkan atribut kontiyu A, kemudian membentuk minimum permulaan
(threshold ) M dari contoh-contoh yang ada dari kelas mayoritas pada setiap partisi
yang bersebelahan, lalu menggabungkan partisi-partisi yang bersebelahan tersebut
dengan kelas mayoritas yang sama. Split untuk atribut diskret A mempunyai
bentuk value (A) ε X dimana X ⊂ domain(A).Jika suatu himpunan data mempunyai beberapa pengamatan dengan record
dengan beberapa nilai variabel tidak ada (missing value) dan jika jumlah
pengamatan terbatas maka atribut dengan missing value dapat diganti dengan nilai
rata-rata dari variabel yang bersangkutan.Untuk melakukan pemisahan obyek (split) dilakukan uji terhadap atribut
dengan mengukur tingkat ketidakmurnian pada sebuah simpul (node). Pada
algoritma J48 menggunakan rasio perolehan (gain ratio). Sebelum menghitung
rasio perolehan, perlu menghitung dulu nilai informasi dalam satuan bits dari
suatu kumpulan objek. Cara menghitungnya dilakukan dengan menggunakan
konsep entropi. Entropi adalah pengukuran ketidakpastian rata-rata pengumpulan
data. Untuk menghitung Entropi menggunakan rumus (2.1).Entropi S ( ) ( p p ) ( p p ) (2.1)
log2 log2 ……. Keterangan: S = ruang (data) sampel yang digunakan untuk pelatihan. p+
= jumlah kejadian yang bersolusi positif atau mendukung pada data sampel untuk kriteria tertentu. p- = adalah jumlah kejadian yang bersolusi negatif atau tidak mendukung pada data sampel untuk kriteria tertentu.
18 Catatan: 1. Entropi(S) = 0, jika semua contoh pada S berada dalam kelas yang sama.
2. Entropi(S) = 1, jika jumlah contoh positif dan negatif dalam S adalah sama.
3. 0 > Entropi(S) < 1, jika jumlah contoh positif dan negatif dalam S tidak sama
Kemudian menghitung perolehan informasi dari output data atau variabel
dependent S yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain
(S,A). Perolehan informasi, gain (S,A), dari atribut A relative terhadap output data