Prediksi prestasi akademik mahasiswa berdasarkan hasil seleksi penerimaan mahasiswa baru jalur prestasi dengan metode pohon keputusan menggunakan slgoritma J48 - USD Repository

  

PREDIKSI PRESTASI AKADEMIK MAHASISWA

BERDASARKAN HASIL SELEKSI PENERIMAAN MAHASISWA BARU

JALUR PRESTASI DENGAN METODE POHON KEPUTUSAN

MENGGUNAKAN ALGORITMA J48

Skripsi

  

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika

Oleh:

Florensia Dwinta Parmeska Kustanto

  

075314022

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

  

2011

  

PREDICTION OF STUDENT ACADEMIC ACHIEVEMENT

BASED ON THE RESULTS OF LANE ACHIEVEMENT

STUDENT SELECTION ADMISSIONS

WITH DECISION TREE METHOD

USING J48 ALGORITHM

A Thesis

  

Presented as Partial Fullfillment of the Requirements

To Obtain Sarjana Komputer

in Department of Informatics Engineering

  

By:

Florensia Dwinta Parmeska Kustanto

075314022

  

INFORMATICS ENGINEERING STUDY PROGRAM

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2011

HALAMAN PERSEMBAHAN

  

Apa yang kau alami kini mungkin tak dapat engkau mengerti

Sa tu hal tanamkan di Hati, “Indah Semua yang Tuhan Beri “..

  

Tuhanmu tak akan memberi ular beracun pada yang minta roti

Cobaan yang engkau alami takkan melebihi kekuatan mu ..

  

Tangan Tuhan sedang merenda suatu karya yang agung mulia

Saatnya kan tiba nanti, kau lihat pelangi kasih-Nya..

  Tangan Tuhan, by: Nikita Ku Persembahkan untuk: Tuhan Yesus dan Bunda Maria, Keluarga Tercinta, Dosen Pembimbing, Kekasih dan Teman-teman …………

  Terima Kasih untuk Motivasi dan Doanya

  

PREDIKSI PRESTASI AKADEMIK MAHASISWA

BERDASARKAN HASIL SELEKSI PENERIMAAN MAHASISWA BARU

JALUR PRESTASI DENGAN METODE POHON KEPUTUSAN

MENGGUNAKAN ALGORITMA J48

ABSTRAK

Dalam hal seleksi penerimaan mahasiswa baru melalui jalur prestasi,

Universitas Sanata Dharma memberikan syarat khusus untuk mendaftar. Hal

tersebut dilakukan oleh Universitas Sanata Dharma agar mampu menyaring calon

mahasiswa yang unggul. Diharapkan mereka saat kuliah akan mendapat prestasi

akademik yang baik pula. Muncul sebuah pertanyaan yaitu bagaimana prestasi

akademik mahasiswa tersebut pada saat kuliah, yang tercermin dalam IPK

mahasiswa yang bersangkutan? Jawaban dari pertanyaan itu bisa didapatkan

dengan menggali informasi dari data mahasiswa jalur prestasi tersebut. Informasi

yang ingin didapat dari data tersebut adalah latar belakang mahasiswa dari jalur

prestasi yang seperti apakah yang pada saat kuliah akan mendapatkan prestasi

akademik Dengan Pujian dengan kategori “A”, Sangat Memuaskan dengan

kategori “B”, Memuaskan dengan kategori “C” dan kurang memuaskan dengan

kategori “D”. Penelitian Tugas Akhir ini menerapkan teknik klasifikasi dengan

pendekatan pohon keputusan pada penambangan data. Data mahasiswa yang

diteliti adalah data PMB Jalur Prestasi dan data akademik seluruh Program Studi

di Universitas Sanata Dharma. Data diperoleh dari Biro Administrasi Perencanaan

dan Sistem Informasi (BAPSI) Universitas Sanata Dharma. Data tersebut diolah

dengan algoritma J48 untuk menemukan pola dari klasifikasi latar belakang

mahasiswa berdasarkan prestasi akademik mahasiswa sesuai kategori IPK.

Tingkat rata-rata akurasi yang dihasilkan dari uji coba pola klasifikasi untuk

program studi Teknik Informatika adalah sebesar 49.31 % , sedangkan untuk

program studi Farmasi adalah sebesar 39.79%.

  

PREDICTION OF STUDENT ACADEMIC ACHIEVEMENT

BASED ON THE RESULTS OF LANE ACHIEVEMENT

STUDENT SELECTION ADMISSIONS

WITH DECISION TREE METHOD

USING J48 ALGORITHM

ABSTRACT In terms of selection of new admissions through the path of achievement,

Sanata Dharma provide special conditions for registering. This is done by the

  

University of Sanata Dharma in order to be able to filter out students who

excelent. Hopefully they will get GPA is also good. An emerging question is how

the academic achievement of students are at college, which is reflected in the

GPA of the students concerned? The answer to that question can be obtained by

collecting information from the data track student achievement. Who wish to

obtain information from these data is the background of student achievement path

as if that is when the college was going to get academic achievement with praise

by the category "A", Very Satisfying the category "B", Satisfy the category "C"

and less satisfactory with the category "D". This final study applying

classification techniques to approach the decision tree in data mining. Data of

students studied were PMB data points throughout the academic achievement data

and Studies Program at the University of Sanata Dharma. Data obtained from Biro

Administrasi Perencanaan dan Sistem Informasi (BAPSI) Sanata Dharma

University. The data is processed with the J48 algorithm to find patterns of

student background classification is based on academic achievement of students

by category GPA. The average level of accuracy resulting from the test pattern for

the classification of Informatic Engineering study program amounted to 49.31%,

while for Pharmacy courses is 39.79%.

KATA PENGANTAR

  Puji syukur penulis panjatkan atas Kehadirat Tuhan Yang Maha Esa, yang

telah melimpahkan rahmat dan berkatNya sehingga penulis dapat menyelesaikan

tugas akhir yang berjudul “ Prediksi Prestasi Akademik Mahasiswa Berdasarkan

Hasil Seleksi Penerimaan Mahasiswa Baru Jalur Prestasi Dengan Metode Pohon

Keputusan Menggunakan Algoritma J48 “ dan penulis selalu diberi kekuatan

untuk berkembang dan menjadi lebih. Tugas akhir ini ditulis sebagai salah satu

syarat memperoleh gelar sarjana komputer program studi Teknik Informatika,

Fakultas Sains dan Teknologi Universitas Sanata Dharma.

Terima kasih sebesar-besarnya kepada semua pihak yang turut memberikan

dukungan, semangat dan bantuan sehingga selesainya skripsi ini:

  1. Tuhan Yesus Kristus dan Bunda Maria yang telah memberikan semuanya sehingga penulis bisa menyelesaikan tugas akhir ini.

  2. Ibu P. H . Prima Rosa, S.Si., M.Sc. selaku dosen pembimbing atas kesabaran, bimbingan, waktu, saran dan terlebih atas dukungan yang diberikan.

  3. Laboran komputer atas bantuan kepada penulis ketika melakukan ujian akhir.

  4. Kedua orang tua, papa Drs. Yohanes Kustanto, S.Pd dan mama Dra.

  Damiana Dwi Tanti, S.Pd yang telah memberikan cinta dalam bentuk semangat, perhatian dan doa sehingga penulis dapat menyelesaikan tugas akhir ini.

  5. Semua saudara, Adik Theodorin Hanna Vebrita Kustanto dan Angelina Widiyanti Purwoko, Tante Agustina Sri Kadaryanti, Mbah Kakung Ign.

  Darso Roesyanto dan Mbah Putri M. M. Sukeni Wotowiharjo yang telah memberikan semangat, perhatian dan doa sehingga penulis dapat menyelesaikan tugas akhir ini.

  6. Kekasih tercinta, Antonius Hari Widiatmoko yang selalu menyemangati dan menghibur ketika dalam kesulitan, dan juga terimakasih untuk doanya.

  7. Sahabat dan teman-teman, Fabian Fransiskus Paranso, S.T. , Gregorius Arief Sudarmo Wicaksono, S.T. , Sari Indah Anatta, Arum Citra Dewi, Ni Made Kristianingsih Kuatra, Ana Suryaningsih, Leonardus Ardyandita, M. Bangkit Widyatmoko dan teman-teman seperjuangan dalam menyelesaikan tugas akhir ini.

8. Semua pihak yang berperan baik secara langsung maupun tidak langsung sehingga penulis dapat menyelesaikan tugas akhir ini.

  

Penulis menyadari bahwa masih banyak kekurangan yang terdapat pada laporan

tugas akhir ini. Saran dan kritik penulis harapkan untuk perbaikan-perbaikan pada

masa yang akan dating dan penulis berharap semoga skripsi ini dapat bermanfaat

bagi pembaca.

  Yogyakarta, 24 Juli 2011 Penulis (Florensia Dwinta Parmeska Kustanto)

  

DAFTAR ISI

  

  

  

  

  

  

  

  

  

BAB II

  

  

  

  

  

  

  

  

  

BAB III

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  BAB IV

  

  

  

  

  

  

  

  

  

  

  

BAB V126

  

  

  

  

  

  

  

BAB VI

  

  

  

  

  

DAFTAR PUSTAKA ..........................................................................................136

LAMPIRAN .........................................................................................................139

  

  

DAFTAR GAMBAR

Gambar 2.1 Data Mining dan teknologi basis data lainnya .....................................8Gambar 2.2 Proses Data Mining ............................................................................11 Gambar 2. 3 Proses Klasifikasi dan kaitannya dengan prediksi ............................13Gambar 2.4 Gambaran Pohon Keputusan ..............................................................14Gambar 2.5 Pohon Keputusan Untuk Node 1 ........................................................22Gambar 2.6 Pohon Keputusan Untuk Node 1.1 .....................................................23Gambar 2.7 Pohon Keputusan Untuk Node 1.1.1 ..................................................25 Gambar 2. 8 Pohon Keputusan Untuk Node 1.1.1.1 ..............................................26

  

Gambar 3.8 DiagramUse Case ...............................................................................58 Gambar 3. 9 Diagran Aktivitas Login ....................................................................69

  

  

  

DAFTAR TABEL

Tabel 3.1 Tabel Data PMB jalur prestasi ...............................................................34Tabel 3.2 Tabel Data Nilai Mahasiswa jalur prestasi per Matakuliah ...................35Tabel 3.3 Tabel Data SKS Matakuliah per Program Studi ....................................36Tabel 3.4 Tabel data PMB .....................................................................................42 Tabel 3. 5 Tabel Aturan Pengkategorisasian Nilai Rapor dan IPK........................43Tabel 3.6 Hasil Transformasi untuk nilai rapor angkatan 2005 .............................44Tabel 3.7 Tabel Data Pelatihan PMB Jalur Prestasi ..............................................49Tabel 3.8 Tabel Data Uji PMB Jalur Prestasi ........................................................52Tabel 3.9 Tabel Visualisasi Penyimpanan Pohon ..................................................57Tabel 3.10 Deskripsi Use Case ..............................................................................59 Tabel 3. 11 Kelas Interface LoginSPPA ................................................................77

  

  

BAB I PENDAHULUAN

1.1. Latar Belakang Masalah

  Seiring dengan perkembangan teknologi, semakin berkembang pula

kemampuan kita dalam mengumpulkan dan mengolah data. Data dikumpulkan

dan disimpan bisa dalam bentuk softcopy maupun hardcopy. Data-data yang

terkumpul ini merupakan suatu tambang emas yang dapat digunakan sebagai

informasi apabila diolah terlebih dahulu agar dapat diutarakan secara jelas dan

tepat sehingga dapat dimengerti oleh orang lain yang tidak langsung

mengalaminya sendiri.

  Universitas Sanata Dharma (USD) merupakan salah satu instansi akademik

yang memiliki banyak data. Tidak hanya data akademik saja tetapi masih banyak

lagi data yang tersimpan, salah satunya adalah data Penerimaan Mahasiswa Baru

(PMB). Setiap tahunnya Universitas Sanata Dharma membuka pendaftaran untuk

penerimaan mahasiswa baru. Seleksi penerimaan mahasiswa baru dilakukan

dalam berbagai cara, antara lain penerimaan mahasiswa baru melalui jalur

prestasi, melalui jalur reguler dan melalui jalur kerja sama. Setiap dibuka

pendaftaran maka akan ada banyak data yang terkumpul dari pendaftar sebagai

syarat untuk pendaftaran. Data tersebut seiring berjalannya waktu akan semakin

bertambah dan potensial menjadi kuburan data karena tidak dimanfaatkan.

  Dalam hal seleksi penerimaan mahasiswa baru melalui jalur prestasi,

Universitas Sanata Dharma memberikan syarat utama untuk mendaftar yaitu

dengan melampirkan hasil belajar siswa SMA / sederajat saat kelas XI semester 1

dan semester 2 dan kelas XII semester 1. Syarat kedua adalah nilai rata-rata

kognitif sejumlah mata pelajaran minimal 67. Untuk siswa jurusan IPA, nilai

tersebut meliputi mata pelajaran Bahasa Indonesia, Bahasa Inggris, Matematika,

Fisika, Kimia dan Biologi, sedangkan untuk siswa jurusan IPS meliputi Bahasa

Indonesia, Sejarah, Bahasa Inggris, Matematika, dan Ekonomi. Selain itu terdapat

  2 SMA jurusan IPA/SMF sedangkan khusus pendaftar program studi Pendidikan

Bahasa Inggris dan Sastra Inggris harus memiliki nilai mata pelajaran Bahasa

Inggris pada rapor kelas XI semester 1 dan 2 minimal 8. Tujuan dari beberapa

syarat tersebut agar Universitas Sanata Dharma mampu menyaring calon

mahasiswa yang unggul. Diharapkan mereka nantinya saat kuliah akan

mendapatkan Indeks Prestasi (IP) yang baik di setiap semesternya dan lulus

dengan Indeks Prestasi Kumulatif (IPK) yang baik pula.

  Calon mahasiswa yang berhasil lolos seleksi PMB Jalur Prestasi di

Universitas Sanata Dharma merupakan orang-orang yang memenuhi kategori

sebagai mahasiswa yang diterima secara khusus, karena prestasi akademik pada

saat SMA. Setelah calon mahasiswa dinyatakan lolos seleksi dan diterima sebagai

mahasiswa di Universitas Sanata Dharma karena prestasi akademik saat SMA,

muncul sebuah pertanyaan yaitu bagaimana prestasi akademik mahasiswa tersebut

pada saat kuliah, yang tercermin dalam IPK mahasiswa yang bersangkutan?

Jawaban dari pertanyaan itu bisa didapatkan dengan menggali informasi dari data

mahasiswa jalur prestasi tersebut. Informasi yang ingin didapat dari data tersebut

adalah latar belakang mahasiswa dari jalur prestasi yang seperti apakah yang pada

saat kuliah akan mendapatkan prestasi akademik Dengan Pujian dengan kategori

“A”, Sangat Memuaskan dengan kategori “B”, Memuaskan dengan kategori “C”

dan kurang memuaskan dengan kategori “D”. Selanjutnya klasifikasi tersebut

akan dimanfaatkan untuk melakukan prediksi prestasi akademik mahasiswa yang

mendaftar melalui jalur prestasi.

  Penelitian Tugas Akhir ini menerapkan teknik klasifikasi melalui pendekatan

pohon keputusan pada penambangan data. Data mahasiswa yang akan diteliti dan

diolah merupakan data PMB Jalur Prestasi dan data akademik seluruh Program

Studi di Universitas Sanata Dharma. Data diperoleh dari Biro Administrasi

Perencanaan dan Sistem Informasi (BAPSI) Universitas Sanata Dharma. Data

tersebut akan diolah dengan algoritma J48 untuk menemukan pola dari klasifikasi

latar belakang mahasiswa berdasarkan prestasi akademik mahasiswa sesuai

kategori IPK. Data latar belakang mahasiswa meliputi nilai rapor kelas XI

semester 1 dan 2, kelas XII semester 1, mata pelajaran untuk siswa jurusan IPA,

  3

nilai tersebut meliputi mata pelajaran Bahasa Indonesia, Bahasa Inggris,

Matematika, Fisika, Kimia dan Biologi, sedangkan untuk siswa jurusan IPS

meliputi Bahasa Indonesia, Sejarah, Bahasa Inggris, Matematika, dan Ekonomi,

asal sekolah, daerah asal sekolah, jurusan saat sekolah, dan jenis kelamin.

Berdasarkan pola klasifikasi tersebut, diharapkan akan dapat dilakukan prediksi

prestasi akademik mahasiswa berdasarkan hasil seleksi penerimaan mahasiswa

baru jalur prestasi dengan metode pohon keputusan menggunakan algoritma J48.

1.2. Perumusan Masalah

  

Berdasarkan latar belakang masalah diatas, rumusan masalah yang diidentifikasi

adalah:

  1. Bagaimana cara mengklasifikasikan latar belakang mahasiswa dari jalur prestasi yang meliputi nilai rapor, asal sekolah, daerah asal sekolah, jurusan saat sekolah, dan jenis kelamin berdasarkan prestasi akademiknya menurut kategori IPK Dengan Pujian dengan kategori “A”, Sangat Memuaskan dengan kategori “B”, Memuaskan dengan

kategori “C” dan kurang memuaskan dengan kategori “D”?

  2. Bagaimana memprediksi prestasi akademik mahasiswa berdasarkan hasil seleksi penerimaan mahasiswa baru jalur prestasi dengan metode pohon keputusan menggunakan algoritma J48? 1.3.

   Batasan Masalah Dalam tugas akhir ini batasan masalah yang akan diambil dalam pembahasan adalah sebagai berikut:

1. Penelitian ini hanya menerapkan metode pohon keputusan dengan menggunakan algoritma J48.

  2. Data mahasiswa diambil dari data PMB Jalur Prestasi dan data akademik mahasiswa seluruh Program Studi di Universitas Sanata Dharma tahun angkatan 2005-2006 karena mahasiswa pada tahun angkatan tersebut

  4 sudah menempuh perkuliahan lebih dari 8 semester sehingga diharapkan ketika proses pengolahan data akan didapatkan pola yang menarik. Dan untuk data angkatan 2007 akan dijadikan data testing yang akan digunakan untuk menguji pola yang terbentuk. Data PMB dan data akademik yang didapat meliputi nomor alias, jenis kelamin, daerah asal, alamat asal, nama sekolah, jurusan saat SMA / sederajat, nilai rapor kelas XI semester 1 dan 2, kelas XII semester 1, mata pelajaran (untuk IPA: Bahasa Indonesia, Bahasa Inggris, Matematika, Fisika, Kimia dan Biologi. Untuk IPS: Bahasa Indonesia, Sejarah, Bahasa Inggris, Matematika, dan Ekonomi.), program studi, sks yang telah ditempuh, nilai per semester, Indeks Prestasi Kumulatif(IPK), ketua program studi, dan dosen pembimbing akademik yang diperoleh dari Biro Administrasi Perencanaan dan Sistem Informasi (BAPSI) Universitas Sanata Dharma.

  • 3. Data akademik yang akan diolah adalah IPK mahasiswa dari semester 1

    semester 8 karena diasumsikan bahwa lama studi yang ideal adalah 4 tahun atau 8 semester.

1.4. Tujuan

  Tujuan dari penelitian ini adalah :

  1. Mencari pola klasifikasi dari latar belakang mahasiswa PMB jalur prestasi berdasarkan prestasi akademiknya.

  2. Memprediksi prestasi akademik mahasiswa.

1.5. Luaran

  Sebuah sistem berbasis teknologi informasi yang mampu mengenali pola dan

memprediksi prestasi akademik mahasiswa berdasarkan masukan latar belakang

mahasiswa (nilai rapor, asal sekolah, daerah asal sekolah, jurusan saat sekolah,

kabupaten asal, kabupaten sekolah dan jenis kelamin).

  5

1.6. Kegunaan

  Hasil prediksi tersebut dapat digunakan oleh:

  1. Dosen Pembimbing Akademik Sebagai bahan konseling mahasiswa bimbingannya.

  2. Ketua Program Studi Sebagai alat bantu dalam seleksi PMB jalur prestasi.

1.7. Metodologi Penelitian

  Metodologi yang digunakan untuk menyelesaikan masalah pada tugas akhir ini menurut Jiawei Han dan Kamber [1]:

  1. Pembersihan Data ( Data Cleaning ) Pada tahap ini dilakukan proses membuang data yang tidak konsisten dan noise. Contohnya: data yang kadaluarsa, salah pengetikan maupun data yang kosong.

  2. Penggabungan Data ( Data Integration ) Penggabungan data dari beberapa sumber agar seluruh data terangkum dalam satu table yang utuh. (denormalisasi)

  3. Seleksi Data ( Data Selection ) Menyeleksi data dimana data yang relevan diambil dari database.

  4. Transformasi Data ( Data Transformation ) Mentranformasikan atau merubah data kedalam bentuk yang sesuai untuk ditambang.

  5. Penambangan Data ( Data Mining ) Penerapan teknik penambangan data untuk mengekstrak pola.

  6 Dalam penilitian Tugas Akhir ini, teknik yang digunakan adalah teknik klasifikasi dengan membuat pohon keputusan. Algoritma yang digunakan untuk membuat pohon keputusan adalah algoritma J48.

  6. Evaluasi Pola ( Pattern Evaluation ) Untuk mengidentifikasikan pola yang menarik untuk merepresentasikan sebuah pengetahuan.

  7. Presentasi Pengetahuan ( Knowledge Presentation ) Pada tahap ini pola yang didapat direpresentasikan kepada pengguna akhir kedalam bentuk yang dapat dipahami,

  7

1.8. Sistematika Penulisan

  Adapun sistematika penulisan tugas akhir ini adalah sebagai berikut: Halaman Judul Abstrak , berisi tentang rangkuman Tugas Akhir. Daftar Isi

  Bab I Pendahuluan Pendahuluan berisi tentang latar belakang masalah, perumusan masalah, batasan masalah, tujuan, luaran, kegunaan, metodologi penelitian dan sistematika penulisan.

  Bab II Landasan Teori Landasan Teori di dalam bab II ini berisi tentang teori yang digunakan dalam penulisan Tugas Akhir

  , meliputi: pengertian penambangan data, proses penambangan data, teknik klasifikasi, pengertian pohon keputusan, manfaat pohon keputusan, kelebihan pohon keputusan, kekurangan pohon keputusan, dan algoritma J48.

  Bab III Analisis dan Perancangan Sistem Analisis dan Perancangan Sistem berisi tentang identifikasi sistem, pemrosesan data awal, Input, Proses dan Output , dan perancangan sistem. Bab IV Implementasi Program Implementasi Program berisi implementasi dari program yang dibuat. Bab V Analisis Hasi Analisis Hasil berisi tentang pembahasan hasil yang terbentuk dari program, baik akurasi ataupun pola klasifikasinya. Bab VI Kesimpulan dan Saran Kesimpulan dan saran berisi tentang kesimpulan penelitian dan saran untuk pengembangan penelitian selanjutnya. Daftar Pustaka

BAB II LANDASAN TEORI

2.1. Pengertian Penambangan Data (Data Mining)

  Definisi umum dari penambangan data itu sendiri adalah “serangkaian proses

untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui

secara manual dari suatu kumpulan data

  ” [2]. Penambangan data juga dikenal dengan nama Knowledge Discovery in Databases (KDD). Kehadiran penambangan data dilatar belakangi problema explosion data yang

dialami akhir-akhir ini dimana banyak organisasi telah mengumpulkan data sekian

tahun lamanya (data pembelian, data penjualan, data nasabah, data transaksi dsb)

dan yang terjadi adalah banyak data tapi miskin informasi. Hampir semua data

tersebut dimasukkan dengan menggunakan aplikasi komputer yang digunakan

untuk menangani transaksi sehari-hari. Pada Gambar 2.1 di bawah ini

menunjukkan posisi masing-masing teknologi:

Gambar 2.1 Data Mining dan teknologi basis data lainnya[3]

  9 Perbedaan penambangan data dengan gudang data adalah pada bagian

pengolahannya. Pada penambangan data terjadi On-line Transaction Processing

  

(OLTP), sedangkan pada gudang data terjadi On-line Analytical Processing

(OLAP). Gambar 2.1 di atas terlihat bahwa teknologi data warehouse digunakan

untuk melakukan OLAP, sedangkan penambangan data digunakan untuk

melakukan information discovery yang informasinya lebih ditujukan untuk

seorang Data Analyst dan Business Analyst dengan ditambah visualisasi tentunya.

Dalam prakteknya, penambangan data juga mengambil data dari data warehouse,

hanya saja aplikasi dari penambangan data lebih spesifik dibandingkan OLAP

mengingat database bukan satu-satunya bidang ilmu yang mempengaruhi

penambangan data. Banyak lagi bidang ilmu yang turut memperkaya

penambangan data seperti: information science (ilmu informasi), high

performance computing

  , visualisasi, machine learning, statistik, neural networks

(jaringan syaraf tiruan), pemodelan matematika, information retrieval

(pemerolehan informasi) dan information extraction serta pengenalan pola.

Pengolahan citra (image processing) juga digunakan dalam rangka melakukan

penambangan data terhadap data image atau spatial.

2.2. Proses Penambangan Data

  Proses penambangan data menurut Jiawei Han dan Kamber [1] terdiri dari beberapa tahap, yaitu:

  1. Pembersihan Data ( Data Cleaning ) Pada tahap ini dilakukan proses membuang data yang tidak konsisten dan noise. Contohnya: data yang kadaluarsa, salah pengetikan maupun data yang kosong.

  2. Penggabungan Data ( Data Integration ) Penggabungan data dari beberapa sumber agar seluruh data terangkum dalam satu tabel yang utuh.

  10

  3. Seleksi Data ( Data Selection ) Menyeleksi data dimana data yang relevan diambil dari database.

  4. Transformasi Data ( Data Transformation ) Mentranformasikan atau merubah data kedalam bentuk yang sesuai untuk ditambang.

  5. Penambangan Data ( Data Mining )

Penerapan teknik penambangan data untuk mengekstrak pola.

  6. Evaluasi Pola ( Pattern Evaluation ) Pola yang didapat dari proses penambangan data akan dievaluasi dengan hipotesa yang telah dibentuk sebelumnya.

  Akhir dari tahap ini adalah diperolehnya persentase akurasi data.

  7. Presentasi Pengetahuan ( Knowledge Presentation ) Pada tahap ini pola yang didapat direpresentasikan kepada pengguna akhir kedalam bentuk yang dapat dipahami, misalnya melalui tahap visualisasi.

  11 Dapat diilustrasikan tahapan penambangan data melalui gambar 2.2 berikut ini:

Gambar 2.2 Proses Data Mining[1]

2.3. Teknik Klasifikasi

  Didalam penambangan data terdapat beberapa teknik untuk mendapatkan

informasi dari data. Teknik Asosiasi, Teknik Klastering dan Teknik Klasifikasi

dapat digunakan untuk melakukan penambangan data. Teknik Klasifikasi

merupakan salah satu teknik dalam penambangan data dengan melihat pada

kelakuan dan atribut dari kelompok yang telah didefinisikan. Teknik ini dapat

memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang

telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah

aturan. Aturan-aturan tersebut digunakan pada data-data baru untuk diklasifikasi.

  12 Proses teknik klasifikasi terdiri dari dua tahap utama, yaitu [4]:

  1. Membangun model Tujuan dari tahap ini adalah menggambarkan satu set dari kelas-kelas yang ditentukan sebelumnya. Sampel diasumsikan merupakan kepunyaan suatu kelas yang sudah diketahui berdasarkan pada nilai- nilai atributnya. Kelas ditentukan oleh atribut label kelas. Sampel yang digunakan untuk membangun model disebut himpunan data pelatihan. Model direpresentasikan sebagai pola klasifikasi, atau formula matematis.

  2. Penggunaan Model Tahap ini bertujuan untuk mengklasifikasikan objek yang baru akan didapatkan atau belum dikenal. Penilaian keakuratan dari model dapat dilakukan dengan menggunakan suatu himpunana tes. Label yang sudah diketahui dari contoh himpunan tes akan dibandingkan dengan hasil klasifikasi dari model. Tingkat keakuratan sendiri berupa persentase dari contoh himpunan tes yang diklasifikasikan secara benar oleh model.

  13 Kaitan klasifikasi dengan prediksi akan dijelaskan dengan ilustrasi dari gambar berikut:

  Membangun model Algoritma Klasifikasi Data Pelatihan menghasilkan Penggunaan model

  Klasifikasi Data Uji (Aturan) Prediksi

  Data Baru Aturan menghasilkan

  Hasil klasifikasi (hasil prediksi)

Gambar 2. 3 Proses Klasifikasi dan kaitannya dengan prediksi [5]

2.4.

   Pengertian Pohon Keputusan Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat

dan terkenal. Metode pohon keputusan mengubah fakta menjadi pohon keputusan

yang merepresentasikan aturan.

  Sebuah pohon keputusan adalah “sebuah struktur yang dapat digunakan

untuk membagi kumpulan data yang besar menjadi himpunan record yang lebih

kecil dengan menerapkan serangkaian aturan keputusan, dengan masing-masing

rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang

lain” [6].

  Banyak algoritma yang dapat dipakai dalam pembentukan pohon

  14 keputusan, antara lain: ID3, CART, J48 (C4.5).

  Pada pohon keputusan, setiap titik (node) di bagian dalam merupakan

sebuah atribut, setiap cabang (branch) menggambarkan keluaran dari logical tes

dan leaf node atau titik daun memnggambarkan kelas-kelas atau suatu kelas

distribusi. Titik yang terletak di paling atas merupakan akar (root node). Gambar

2.4 di bawah ini akan menjelaskan bentuk dari pohon keputusan.

  Akar (root node) cabang (branches)

  Daun Daun (leaf node) (leaf node)

  Kemungkinan kejadian Kemungkinan kejadian

Gambar 2.4 Gambaran Pohon Keputusan 2.5. Manfaat Pohon Keputusan

  Manfaat utama dari penggunaan pohon keputusan adalah “kemampuannya

untuk memecah proses pengambilan keputusan yang kompleks menjadi lebih

simpel sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari

permasalahan

  ” [7]. Pohon Keputusan juga berguna untuk mengeksplorasi data,

menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan

sebuah variabel target. Pohon keputusan memadukan antara eksplorasi data dan

pemodelan, sehingga sangat bagus sebagai langkah awal dalam proses pemodelan

bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain.

  15

2.6. Kelebihan Pohon Keputusan

  Kelebihan dari metode pohon keputusan adalah [7]:

  1. Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat global, dapat diubah menjadi lebih simpel dan spesifik.

  2. Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena ketika menggunakan metode pohon keputusan maka contoh diuji hanya berdasarkan kriteria atau kelas tertentu.

  3. Fleksibel untuk memilih fitur dari internal node yang berbeda, fitur yang terpilih akan membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang sama. Kefleksibelan metode pohon keputusan ini meningkatkan kualitas keputusan yang dihasilkan jika dibandingkan ketika menggunakan metode penghitungan satu tahap yang lebih konvensional

  4. Dalam analisis multivariat, dengan kriteria dan kelas yang jumlahnya sangat banyak, seorang penguji biasanya perlu untuk mengestimasikan baik itu distribusi dimensi tinggi ataupun parameter tertentu dari distribusi kelas tersebut. Metode pohon keputusan dapat menghindari munculnya permasalahan ini dengan menggunakan kriteria yang jumlahnya lebih sedikit pada setiap node internal tanpa banyak mengurangi

kualitas keputusan yang dihasilkan.

  16

2.7. Kekurangan Pohon Keputusan

  Kekurangan dari metode pohon keputusan adalah [7]:

  1. Terjadi overlap, terutama ketika kelas-kelas dan kriteria yang digunakan jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan meningkatnya waktu pengambilan keputusan dan jumlah memori yang diperlukan.

  2. Pengakumulasian jumlah kesalahan dari setiap tingkat dalam sebuah pohon keputusan yang besar.

  3. Kesulitan dalam mendesain pohon keputusan yang optimal.

  4. Hasil kualitas keputusan yang didapatkan dari metode pohon keputusan sangat tergantung pada bagaimana pohon tersebut didesain.

2.8. Algoritma J48

  P ada penelitian Tugas Akhir ini akan menggunakan algoritma J48. “J48 (also

known as C4.5) is an algorithm introduced by Ross Quinlan (1993) for inducing

Classification Models, also called Decision Trees

  ” dikemukakan oleh Witten[8],

maka prinsip kerja algoritma J48 sama dengan C4.5 dalam proses belajar yaitu

membaca seluruh sampel atau kasus dari tempat penyimpanan dan memuatnya ke

memori, kemudian melakukan komputasi dengan membaca sampel-sampel di

memori untuk membangun pohon yang juga disimpan di memori.

  Dalam algoritma J48 atau yang biasa dikenal dengan algoritma C4.5, pohon

dibangun dengan cara membagi data secara rekursif hingga tiap bagian terdiri dari

data yang berasal dari kelas yang sama.

Bentuk pembagian(split) yang digunakan untuk membagi data itu tergantung dari

jenis atribut yang digunakan. Algoritma J48 dapat menangani data numerik

(kontinyu) dan diskret. Split untuk atribut numerik yaitu mengurutkan contoh

  17

berdasarkan atribut kontiyu A, kemudian membentuk minimum permulaan

(threshold ) M dari contoh-contoh yang ada dari kelas mayoritas pada setiap partisi

yang bersebelahan, lalu menggabungkan partisi-partisi yang bersebelahan tersebut

dengan kelas mayoritas yang sama. Split untuk atribut diskret A mempunyai

bentuk value (A) ε X dimana X domain(A).

  Jika suatu himpunan data mempunyai beberapa pengamatan dengan record

dengan beberapa nilai variabel tidak ada (missing value) dan jika jumlah

pengamatan terbatas maka atribut dengan missing value dapat diganti dengan nilai

rata-rata dari variabel yang bersangkutan.

  Untuk melakukan pemisahan obyek (split) dilakukan uji terhadap atribut

dengan mengukur tingkat ketidakmurnian pada sebuah simpul (node). Pada

algoritma J48 menggunakan rasio perolehan (gain ratio). Sebelum menghitung

rasio perolehan, perlu menghitung dulu nilai informasi dalam satuan bits dari

suatu kumpulan objek. Cara menghitungnya dilakukan dengan menggunakan

konsep entropi. Entropi adalah pengukuran ketidakpastian rata-rata pengumpulan

data. Untuk menghitung Entropi menggunakan rumus (2.1).

  Entropi S ( )  ( p p )  ( p p )    (2.1)

    log2 log2 ……. Keterangan: S = ruang (data) sampel yang digunakan untuk pelatihan. p+

  = jumlah kejadian yang bersolusi positif atau mendukung pada data sampel untuk kriteria tertentu. p- = adalah jumlah kejadian yang bersolusi negatif atau tidak mendukung pada data sampel untuk kriteria tertentu.

  18 Catatan: 1. Entropi(S) = 0, jika semua contoh pada S berada dalam kelas yang sama.

2. Entropi(S) = 1, jika jumlah contoh positif dan negatif dalam S adalah sama.

  3. 0 > Entropi(S) < 1, jika jumlah contoh positif dan negatif dalam S tidak sama

Kemudian menghitung perolehan informasi dari output data atau variabel

dependent S yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain

(S,A). Perolehan informasi, gain (S,A), dari atribut A relative terhadap output data