Pengenalan pola klasifikasi status registrasi calon mahasiswa baru Universitas Sanata Dharma dengan algoritma Reduct Based Decision Tree (RDT) - USD Repository
PENGENALAN POLA KLASIFIKASI STATUS REGISTRASI CALON MAHASISWA BARU UNIVERSITAS SANATA DHARMA DENGAN ALGORITMA REDUCT BASED DECISION TREE (RDT) Skripsi
Oleh : Nama : A.Tendy
NIM : 075314014
PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2012
i
PATTERN RECOGNITION FOR CLASSIFICATION SANATA DHARMA
UNIVERSITY ’S NEW STUDENT REGISTRATION STATE
USING REDUCT BASED DECISION TREE (RDT) ALGORITHM
A Thesis
By : A.Tendy
Student Number : 07 5314 014
INFORMATICS ENGINEERING STUDY PROGRAM
DEPARTMENT OF INFORMATION TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2012
HALAMAN PERSEMBAHAN
Road To Microsoft Skripsi ini saya persembahkan untuk : Yesus Kristus & Bunda Maria, Keluarga, Sahabat dan Teman-Teman
Terimakasih
ABSTRAK
Pendaftaran mahasiswa baru adalah salah satu kegiatan yang dilakukan setiap tahun oleh setiap universitas termasuk Universitas Sanata Dharma. Dalam kegiatan registrasi tersebut, ada banyak kasus dimana tidak semua mahasiswa melakukan registrasi kembali setelah diterima di Universitas Sanata Dharma. Untuk mengenali mengapa kasus tersebut terjadi, perlu dilakukan kajian terhadap pola klasifikasi status daftar ulang calon mahasiswa baru berdasarkan data pendaftaran mahasiswa baru. Kajian tersebut dapat dilakukan dengan menerapkan teknik penambangan data (data mining).
Tujuan penelitian ini adalah melakukan pengenalan pola klasifikasi status daftar ulang calon mahasiswa baru Universitas Sanata Dharma dengan menerapkan algoritma Reduct Based Decision Tree (RDT). Data yang digunakan dalam penelitian adalah data pendaftaran mahasiswa baru tahun 2007-2010 sebanyak 5251 record. Penelitian ini menghasilkan 679 pola klasifikasi. Dari pola yang dihasilkan ternyata letak kabupaten sekolah menentukan status registrasi calon mahasiswa baru. Sistem yang dibangun telah diuji dengan menggunakan teknik 5-fold cross validation dan menghasilkan akurasi sebesar 41, 5159 %.
Kata kunci : Daftar Ulang Mahasiswa, Penambangan data, Reduct Based DecisionTree .
ABSTRACT Admission is one of the annual activity that was held by every universities,
including Sanata Dharma University. In the process of admission, not all
admitted students resgister as new students after they were accepted in Sanata
Dharma University. To find out about those cases, a study toward the
classification pattern of re-registration status of admitted students, based on the
admissi on’s data, was needed. The study can be done by applying data mining technique.The objective of the study is to indentify the classification pattern of re- registration status of University Sanata Dharma ’s admitted students by applying
Reduct Based Decision Tree (RDT) algorithm. The data that was used in the
research is the admission ’s data of 2007-2010 that amounted to 5251 record.
The result from the research is 679 classification patterns. From the pattern that
was resulted, it turns out that the location of school regency determines the
registration status of the admitted students. The system that was constructed has
been tested by using 5-fold cross validation technique the accuracy of the system
is 41, 5159 %.Key word : University Student Admission, Data Mining, Reduct Based Decision
Tree.KATA PENGANTAR
Puji dan syukur kehadirat Tuhan Yang Maha Esa, karena pada akhirnya penulis dapat menyelesaikan penelitian tugas akhir ini yang berjudul “Pengenalan
Pola Klasifikasi Daftar Ulang Calon Mahasiswa Baru Universitas Sanata Dharma dengan Algoritma Reduct Based Decision Tree (RDT) ”.
Penelitian ini tidak akan selesai dengan baik tanpa adanya dukungan, semangat, dan motivasi yang telah diberikan oleh banyak pihak. Untuk itu, penulis ingin mengucapkan terima kasih kepada:
1. Ibu Ridowati Gunawan, S.Kom., M.T. selaku ketua program studi Teknik Informatika.
2. Ibu P.H. Prima Rosa, S.Si., M.Sc. selaku dosen pembimbing atas kesabaran, waktu, dan kebaikan yang telah diberikan.
3. Ibu Sri Hartati Wijono, S.Si., M.Kom. selaku dosen penguji atas kritik dan saran yang telah diberikan.
4. Pihak sekretariat dan laboran Fakultas Sains dan Teknologi yang turut membantu penulis dalam menyelesaikan tugas akhir ini.
5. Kedua orang tua, bapak Thomas Suwarto S.Pak dan ibu Impala Mumpun atas kasih sayang, semangat, dan dukungan yang tak henti-hentinya diberikan kepada penulis.
6. Susteran PI Eduard Michelis, atas beasiswa dan bantuan selama studi penulis di Universitas Sanata Dharma.
7. Arum Citra Dewi A, Terimakasih atas bantuannya yang tak terhingga, sehingga penulis mampu menyelesaikan semua ini. Terimakasih juga atas doa dan dukungannya. Semoga Tuhan Memberkati
8. Maya Endah Megawati, terimakasih telah datang dan mewarnai hari-hari serta merubah segalanya menjadi lebih indah.
9. Teman-teman RPL, M. Vindy, Sinta, Beta, Obi. Terimakasih atas banyak pengalaman yang didapat dalam setiap diskusi
10. Seluruh Teman-teman TI 2007 lainnya atas segala kebersamaan dan dukungan yang selalu diberikan kepada penulis.
11. Rekan Kerja DSSystem, Vika, Kiki, Koco, Wina, Arum dll.
12. Pihak-pihak lain yang turut membantu penulis dalam menyelesaikan tugas akhir ini, yang tidak dapat disebutkan satu per satu.
Penelitian tugas akhir ini masih memiliki banyak kekurangan. Untuk itu, penulis sangat membutuhkan saran dan kritik untuk perbaikan di masa yang akan datang. Semoga penelitian tugas akhir ini dapat membawa manfaat bagi semua pihak.
Yogyakarta, 28 Agustus 2012 Penulis
DAFTAR ISI
HALAMAN JUDUL ...............................................................................................i HALAMAN JUDUL (INGGRIS) .......................................................................... ii HALAMAN PERSETUJUAN .............................................................................. iii HALAMAN PENGESAHAN ..............................................................................iv HALAMAN PERSEMBAHAN .............................................................................v PERNYATAAN KEASLIAN KARYA .................................................................vi ABSTRAK ........................................................................................................... vii
ABSTRACT .......................................................................................................... viii
LEMBAR PERSETUJUAN PUBLIKASI ............................................................ix KATA PENGANTAR ...........................................................................................x DAFTAR ISI ........................................................................................................ xii DAFTAR TABEL .................................................................................................xv DAFTAR GAMBAR ......................................................................................... xvii
BAB I PENDAHULUAN ......................................................................................1
1.1 Latar Belakang Masalah .................................................................................1
1.2 Rumusan Masalah ..........................................................................................2
1.3 Tujuan Penelitian............................................................................................3
1.4 Batasan Masalah .............................................................................................3
1.5 Metodologi Penelitian ....................................................................................3
1.6 Sistematika Penulisan .....................................................................................5
BAB II TINJAUAN PUSTAKA ...........................................................................6
2.1 Penambangan Data .........................................................................................6
2.1 Proses Penambangan Data..............................................................................6
2.3 Himpunan dan Himpunan Kasar ....................................................................8
2.3.2 Relasi Ekivalensi .....................................................................................8
2.3.3 Kelas Ekivalensi ......................................................................................9
2.3.4 Pengetahuan Dasar Himpunan Kasar ....................................................10
2.3.5 Ruang Hampiran atau Perkiraan (Set Approximation) ..........................11
2.4 Reduct dan Core ...........................................................................................13
2.5 Discernibility Matrix dan Boolean Matrix. ..................................................14
2.6 Reduct Based Decision Tree.........................................................................16
2.6.1 Reduct Computation Algorithm (RCA)..................................................18
2.6.1 Pohon Keputusan (Decision Tree).........................................................18
2.7 Contoh Penerapan Algortima .......................................................................21
2.8 Cross Validation...........................................................................................29
BAB III ANALISIS Dan DESAIN......................................................................30
3.1 Identifikasi Sistem ........................................................................................30
3.2 Analisis Sistem .............................................................................................31
3.2.1 Analisis Data Awal ................................................................................31
3.2.2 Pemrosesan Awal ..................................................................................32
3.2.2.1 Pembersihan Data (Data Cleaning) ...............................................32
3.2.2.2 Integrasi Data (Data Integration) ...................................................32
3.2.2.3 Seleksi Data (Data Selection).........................................................33
3.2.2.4 Transformasi ..................................................................................33
3.3 Analisis Kebutuhan Sistem ..........................................................................35
3.3.1 Diagram Use Case .................................................................................35
3.3.2 Diagram Konteks ...................................................................................38
3.4 Perancangan Umum Sistem..........................................................................38
3.4.1 Masukan Sistem.....................................................................................38
3.4.2 Proses Sistem .........................................................................................41
3.4.2.1 Proses Transformasi .......................................................................43
3.4.2.2 Proses Reduct .................................................................................44
3.4.2.3 Proses Reduce Data Pelatihan ........................................................45
3.4.2.5 Proses Simpan Aturan ....................................................................48
3.4.2.6 Proses Prediksi ...............................................................................48
3.4.2.7 Proses Pengukuran Tingkat Akurasi ..............................................50
3.4.3 Keluaran Sistem.....................................................................................52
3.4.4 Diagram Kelas Analisis .........................................................................52
3.4.4.1 Diagram Kelas dan Fungsinya .......................................................55
3.4.5 Perancangan Basis Data ........................................................................58
3.4.5.1 Perancangan Konseptual ................................................................58
3.4.5.2 Perancangan Logical ......................................................................59
3.4.5.3 Perancangan Fisikal .......................................................................59
3.4.6 Perancangan Struktur Data ....................................................................62
3.4.7 Perancangan Antarmuka Sistem ............................................................64
3.4.7.1 Halaman Utama .............................................................................64
3.4.7.2 Halaman Input Data .......................................................................65
3.4.7.3 Hasil Reduct Atribut ......................................................................66
3.4.7.4 Lihat Pohon Keputusan ..................................................................67
3.4.7.5 Halaman Prediksi ...........................................................................68
3.4.7.6 Halaman Lihat Jumlah Daftar Ulang .............................................69
BAB IV IMPLEMENTASI PROGRAM ...........................................................70
4.1 Spesifikasi Perangkat Lunak dan Perangkat Keras ......................................70
4.2 Implementasi Use Case ................................................................................70
BAB V ANALISIS SISTEM ...............................................................................81
5.1 Analisis Hasil Program.................................................................................81
5.2 Evaluasi Pola Data Pendaftaran Mahasiswa Baru........................................83
5.3 Presentasi Pengetahuan ................................................................................94
BAB VI PENUTUP ..............................................................................................95
6.1 Kesimpulan...................................................................................................95
6.2 Saran .............................................................................................................95
DAFTAR PUSTAKA ...........................................................................................97
DAFTAR TABEL
Tabel 2.1 Contoh tabel kelas ekivalensi .................................................................9Tabel 2.2 Contoh Database ..................................................................................14Tabel 2.3 Discernibility matrix untuk data pada Tabel 2.2....................................15Tabel 2.4 Matriks Boolean untuk data pada Tabel 2.3 ..........................................15Tabel 2.5 Algoritma dan varian RDT ....................................................................16Tabel 2.6 Contoh data tabel T1 .............................................................................21Tabel 2.7 Atribut data diurutkan berdasarkan keputusan .....................................22Tabel 2.8 Dircernibility matrix .............................................................................22Tabel 2.9 Boolean matriks dengan maksimal b dan c atribut ...............................23Tabel 2.10 Boolean matrix yang nilai atribut b dan c adalah 1 maka dihapus .....23Tabel 2.11 Boolean matriks hasil penghapusan ....................................................24Tabel 2.12 Boolean matriks hapus nilai atribut d adalah 1 ....................................25Tabel 2.13 Boolean matriks hasil penghapusan dan maksimal nya menjadi 2 ......25Tabel 2.14 Boolean matriks hapus yang nilai b adalah 1.......................................25Tabel 3.1 Data Awal .............................................................................................31Tabel 3.2 Aturan Transformasi Data Nilai Tes Masuk .........................................34Tabel 3.3 Deskripsi Use Case ................................................................................36Tabel 3.4 Atribut Input Sistem...............................................................................38Tabel 3.5 Atribut Input Sistem Data Uji ................................................................39Tabel 3.6 Fungsi kelas dalam program ..................................................................55Tabel 3.7 Struktur data tabel pola klasifikasi.........................................................59Tabel 3.8 Struktur data tabel standar deviasi .........................................................61Tabel 3.9 Bentuk penyimpanan dalam Arraylist ...................................................63Tabel 5.1 Daftar Pola Tidak Registrasi dengan Jumlah Frekuensi >= 7 ...............83Tabel 5.2 Daftar Pola Registrasi dengan Jumlah Frekuensi >= 7 ..........................86Tabel 5.3 Akurasi Pola Per Prodi...........................................................................92Tabel 5.4 Hasil Pengukuran Akurasi dengan Menggunakan 5-fold Cross
Validation ...............................................................................................................93
DAFTAR GAMBAR
Gambar 2.1 Proses Penambangan Data ...................................................................7Gambar 2.2 Himpunan kasar A dengan hampiran bawah K ( A) dan hampiran atasK ( A) dalam ruang hampiran K ( X , R)
.........................................13
Gambar 2.3 Pohon Keputusan...............................................................................19Gambar 2.4 Contoh Pohon Keputusan ..................................................................19Gambar 2.5 Algoritma C4.5 ..................................................................................26Gambar 3.1 Diagram Use Case..............................................................................35Gambar 3.2 Diagram Konteks................................................................................38Gambar 3.3 Alur proses pembentukan pola ..........................................................42Gambar 3.4 Alur proses prediksi data ....................................................................43Gambar 3.5 Alur kelas untuk use case input data pelatihan ..................................52Gambar 3.6 Alur kelas untuk use case transformasi data ......................................53Gambar 3.7 Alur kelas untuk use case reduct ........................................................53Gambar 3.8 Alur kelas pembentukan pohon keputusan.........................................54Gambar 3.9 Alur kelas pembentukan pohon keputusan.........................................54Gambar 3.10 ER Diagram......................................................................................58Gambar 3.11 Contoh Pohon Keputusan ................................................................62Gambar 3.12 Tampilan Halaman Utama ...............................................................64Gambar 3.13 Tampilan Halaman Input Data .........................................................65Gambar 3.14 Tampilan Halaman Hasil Reduct......................................................66Gambar 3.15 Tampilan Halaman Lihat Pohon Keputusan....................................67Gambar 3.16 Tampilan Halaman Lihat Pohon Keputusan....................................68Gambar 3.17 Tampilan halaman lihat alokasi kuota.............................................69Gambar 4.1 Halaman Utama..................................................................................71Gambar 4.2 Konfirmasi keluar dari sistem ...........................................................72Gambar 4.3 Halaman Input Data ..........................................................................72Gambar 4.4 File Chooser ......................................................................................74Gambar 4.5 Halaman tampilkan data ....................................................................75Gambar 4.7 Halaman hasil reduct .........................................................................76Gambar 4.8 Peringatan bahwa pohon sudah terbentuk .........................................76Gambar 4.9 Halaman pohon keputusan ................................................................77Gambar 4.10 Konfirmasi keluar dari sistem .........................................................77Gambar 4.11 Konfirmasi bahwa aturan berhasil disimpan ...................................78Gambar 4.12 Halaman prediksi data .....................................................................79Gambar 4.13 Halaman hasil prediksi ....................................................................80Gambar 4.14 Halaman alokasi kuota ....................................................................80BAB I PENDAHULUAN
1.1 Latar Belakang
Masalah Dalam proses Penerimaan Mahasiswa Baru (PMB) melalui jalur non prestasi, seorang calon mahasiswa harus melakukan serangkaian tes tertulis sebelum mereka dinyatakan diterima sebagai mahasiswa Universitas Sanata Dharma. Selanjutnya setelah mengikuti serangkaian tes dan dinyatakan lulus maka semua data calon mahasiswa yang diterima ini disimpan dalam basisdata tersendiri. Untuk melengkapi persyaratan dan bukti bahwa calon mahasiswa yang dinyatakan lulus tersebut benar-benar terdaftar sebagai mahasiswa Universitas Sanata Dharma, maka para calon mahasiswa diwajibkan melakukan daftar ulang kembali. Setelah melakukan daftar ulang, maka seorang calon mahasiswa telah dinyatakan secara resmi menjadi mahasiswa di Universitas Sanata Dharma.
Pada kenyataannya setiap kali pendaftaran calon mahasiswa baru dilakukan, semua mahasiswa yang diterima belum tentu melakukan daftar ulang kembali. Diduga ada berbagai faktor yang menyebabkan calon mahasiswa baru tidak melakukan daftar ulang. Sehingga masalah yang dihadapi adalah bagaimana mengenali pola klasifikasi status registrasi atau status daftar ulang calon mahasiswa, serta melakukan prediksi untuk mengetahui jumlah mahasiswa yang melakukan registrasi maupun menetapkan kebijakan-kebijakan lain terkait dengan PMB.
Ada berbagai macam cara untuk menyelesaikan permasalahan diatas, salah satunya adalah dengan penambangan data (data mining). Penambangan data adalah teknik untuk mengekstraksi informasi atau menemukan pola yang penting atau pola data unik dari basisdata yang besar. Salah satu pendekatan yang dilakukan adalah menggunakan konsep himpunan kasar seperti yang terdapat dalam algoritma Reduct Based Decision Tree (RDT). Algoritma RDT dapat dipergunakan untuk melakukan eliminasi atribut data yang tidak penting dan kemudian membentuk pohon keputusan dengan menggunakan salah satu algoritma pohon keputusan seperti ID3, C4.5, CART, J.48 dan lain-lain.
Penelitian serupa juga pernah dilakukan oleh penulis lain dalam skripsi (Haryanto,2006) . Studi kasus yang digunakan oleh penulis tersebut adalah data pendaftaran Universitas Sanata Dharma tahun 2005-2006 sebanyak 1400 record, dan tingkat akurasi presdiksinya mencapai 61,64%. Beberapa saran yang menjadi masukan dari penelitian sebelumnya adalah : a. Proses pembentukan pohon yang sangat lama, dan aturan yang diperoleh tidak disimpan kedalam bentuk file atau basisdata. Sehingga setiap melakukan prediksi harus mengulangi dari tahap pembentukan pohon.
b. Pemilihan atribut dilakukan secara manual, tanpa algoritma tertentu.
c. Program belum mampu menangani data bertipe numerik secara langsung, tetapi data harus dikonversi menjadi bertipe string. Sehingga disarankan untuk menggunakan algoritma C4.5 yang bisa menangani data bertipe numerik secara langsung.
Dalam penelitian ini akan digunakan semua saran diatas untuk pengembangan program, baik dari performansi, efektifitas dan tingkat keakurasian. Terutama pada saran nomor dua, pemilihan atribut dalam penelitian ini tidak lagi dilakukan secara intuitif tetapi dipilih menggunakan proses reduct dalam algoritma Reduct Based Decision Tree (RDT). Pohon keputusan akan dibangun menggunakan algoritma C4.5.
Dengan menggunakan penambangan data ini, maka diharapkan pola klasifikasi status daftar ulang mahasiswa dapat dikenali sehingga dan digunakan untuk proses penentuan kuota maupun pengambilan keputusan-keputusan lain terkait PMB.
1.2 Rumusan Masalah
Berdasarkan latar belakang masalah diatas, maka rumusan masalah dalam penelitian ini yang pertama adalah bagaimana mengenali pola klasifikasi status menggunakan algoritma Reduct Based Decision Tree (RDT) pada basisdata Penerimaan Mahasiswa Baru (PMB). Kedua, bagaimana melakukan prediksi status registrasi calon mahasiswa yang telah diterima dan menghitung jumlah calon mahasiswa yang diprediksi akan mendaftar ulang.
1.3 Tujuan Penelitian
Tujuan dari penelitian ini adalah mengenali pola klasifikasi status daftar ulang mahasiswa, sehingga dapat dimanfaatkan untuk prediksi status registrasi calon mahasiswa yang telah diterima dan menghitung jumlah calon mahasiswa yang diprediksi akan mendaftar ulang.
1.4 Batasan Masalah
Agar penelitian ini terfokus ke inti permalasahan berdasarkan rumusan masalah diatas, maka penulis memberi batasan-batasan sebagai berikut: a. Pendekatan yang digunakan adalah dengan menggunakan algorima RDT
b. Pohon keputusan dibentuk dengan algoritma C45
c. Data mahasiswa yang digunakan adalah data mahasiswa dengan status telah diterima melalui jalur test.
d. Input adalah data PMB yang diperoleh Biro Administrasi dan Perencanaan Sistem Informasi (BAPSI) Universitas Sanat Dharma Yogyakarta tahun 2007-2010 dengan atribut gelombang, pilihan1, pilihan2, pilihan3, jenis kelamin, kabupaten asal, kabupaten sekolah, jenis SMU, nilai penalaran verbal, nilai kemampuan numerik, kemampuan nilai mekanik, nilai hubungan ruang, nilai bahasa inggris dan status registrasi mahasiswa.
e. Penelitian ini tidak menerapkan teknik pruning dalam pembentukan pohon keputusan.
1.5 Metodologi Penelitian
Metodologi yang digunakan dalam penelitian ini adalah
A. Studi Pustaka
B. Pengumpulan data PMB Universitas Sanata Dharma dari tahun 2007
C. Knowledge discovery in database (KDD) yang terdiri dari :
a. Pembersihan Data (Data Cleaning) Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data yang tidak relevan.
b. Integrasi Data (Data Integration) Integrasi data merupakan proses penggabungan data dari berbagai sumber.
c. Seleksi Data (Data Selection) Seleksi data merupakan proses menyeleksi data dimana data yang relevan diambil dari database.
d. Transformasi Data (Data Transformation) Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam penambangan data.
e. Penambangan Data (Data Mining) Penambangan data merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data. Dalam penelitian ini algoritma yang digunakan adalah Reduct Based Decision Tree (RDT).
f. Evaluasi Pola (Pattern Evaluation) Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan.
g. Presentasi Pengetahuan (Knowledge Presentation) Merupakan visualisasi dan teknik representasi pengetahuan untuk menyajikan pengetahuan yang ditambang kepada pengguna.
D. Implementasi dengan algoritma Reduct Based Decision Tree (RDT)
E. Uji coba program
1.6 Sistematika Penulisan
Sistematika penulisan tugas akhir ini adalah sebagai berikut :
BAB I : PENDAHULUAN Bab ini berisi latar belakang masalah, rumusan masalah, tujuan
penelitian, batasan masalah, metodologi penelitian, dan sistematika penulisan.
BAB II : TINJAUAN PUSTAKA Bab ini berisi dasar-dasar teori yang digunakan dalam
penyusunan tugas akhir meliputi penambangan data, himpunan kasar, RDT, pohon keputusan dan algoritma C4.5
BAB III : ANALISIS DAN DISAIN Bab ini berisi tentang analisis serta perancangan aplikasi penambangan data. BAB IV : IMPLEMENTASI PROGRAM Bab ini berisi implementasi penerapan teknik penambangan data dalam aplikasi. BAB V : ANALISIS HASIL Bab Analisis berisi tentang hasil analisis dari hasil output yang
diperoleh
BAB VI : PENUTUP Bab ini berisi tentang kesimpulan dari hasil pembuatan aplikasi
penambangan data dan saran-saran yang ditujukan kepada semua pihak yang bersangkutan.
BAB II TINJAUAN PUSTAKA
2.1 Penambangan Data
Pengertian penambangan data (data mining) sangat beragam, beberapa penulis diantaranya mendefinisikan sebagai berikut :
1. Ekstraksi atau penambangan pengetahuan dari sejumlah besar data (Han dan Kamber ,2006)
2. Data mining adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola dan hubungan dalam set data berukuran besar (Santosa , 2007)
3. Data mining adalah metode yang digunakan untuk mengektraksi informasi prediktif tersembunyi dalam database (Lee dan Santana, 2010)
Jadi dapat diambil kesimpulan bahwa, data mining atau penambangan data adalah proses atau kegiatan mengektraksi data untuk mencari pola, keteraturan dan informasi yang tersembunyi dalam data yang besar atau basis data. Dengan diperolehnya informasi-informasi yang berguna dari data-data yang ada, hubungan antara item dalam transaksi, maupun informasi-informasi yang potensial, selanjutnya dapat diekstrak dan dianalisa serta diteliti lebih lanjut dari berbagai sudut pandang. Informasi yang ditemukan ini selanjutnya dapat diaplikasikan untuk aplikasi manajemen, melakukan pengambilan keputusan dan lain sebagainya. Dengan semakin berkembangnya kebutuhan akan informasi- informasi, semakin banyak pula bidang-bidang yang rnenerapkan konsep data
mining .
2.2 Proses Penambangan Data Data mining juga dikenal dengan istilah lain Knowledge Discovery in
Database (KDD), dimana tahapan-tahapan untuk memperoleh knowledge tersebut
dibagi menjadi beberapa tahap seperti diilustrasikan dalam gambar 2.1
Gambar 2.1 Langkah-langkah dalam Penambangan DataSumber : Han & Kamber (2006) Berikut ini adalah penjelasan tahapan-tahapan KDD dari gambar 2.1 diatas :
a. Pembersihan dan Penggabungan Data (Data Cleaning and Integration) Pada tahap ini data-data yang tidak konsisten dan tidak sempurna seperti salah ketik, duplikasi data ataupun atribut-atribut yang tidak relevan dibersihkan (dibuang), karena data yang tidak relevan tersebut akan mengurangi akurasi data yang akan di-mining nantinya. Kemudian setelah itu data-data dari database di integrasikan (digabungkan) yang bertujuan untuk mendapatkan data yang lebih banyak lagi dan hasil yang lebih akurat.
b. Pemilihan dan Transformasi Data (Selection and Transformation) Pada tahap ini merupakan tahap pemilihan atribut-atribut mana dari
Dikatakan juga oleh Liu (1995), suatu relasi R pada himpunan S dikatakan ekuivalen jika memenuhi ketiga hal berikut ini :
3. Transitif, Jika xRy dan yRz maka xRz Misalkan Diberikan himpunan S={1,2,3....,20}dan relasi R pada S didefinisikan 4|( x
diubah bentuk sesuai dengan jenis dan data yang akan dicari dalam
database . Tranformasi data juga akan berpengaruh untuk menentukan kualitas data mining.
c. Penambangan Data (Data Mining) Penambangan data merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data.
d. Evaluasi dan Presentasi Pola (Evaluation and Presentation) Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dan presentasi merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna.
2.3 Himpunan dan Himpunan Kasar
2.3.1 Relasi
Relasi atau hubungan antara himpunan A dan B adalah pemasangan anggota-anggota himpunan A dengan anggota-anggota himpunan B dengan aturan tertentu (Liu,1995).
2.3.2 Relasi Ekivalensi
1. Refleksif , xRx
2. Simetri, jika xRy maka yRx
- – y ). Akan ditunjukan R merupakan relasi ekivalensi ( a | b artinya a membagi b ).
1. Refleksif. Untuk sebarang
x S
diperoleh x
- – x = 0, Jelas s | 0 , terbukti R bersifat Refleksif
2. Simetri. Diketahui xRy maka 4 | ( x – y ), yang artinya x – y = 4n.
3. Transitif. Diketaui xRy dan yRz yang artinya x – y = 4n dan y– z = 4m Diperoleh x – ( z + 4m ) = 4n kemudian x – z = 4n + 4m = 4( n + m ). Itu artinya xRz. Maka terbukti bahwa R Transitive.
2.3.3 Kelas Ekivalensi
a
E3={P3,P13,P18} ↓ ↑ no {C,L}
No {C}
E8={P14} ↑ ↑
↓ ↓ ↑ No {C,L}
E6={P9} ↑ yes {C} E7={P10,P16}
↓ ↑ No {C}
↓ yes {L} E5={P7,P8,P15}
E4={P5,P11,P12,P17 }
E2={P2,P4} Ye s {L}
S |
Dalam relasi ekuivalensi pasti terdapat kelas ekivalensi. Misalkan diberikan R relasi ekuivalen pada S maka untuk semua a S terdapat suatu himpunan yang berisikan semua anggota S yang berelasi ke a , dinotasikan [ a ] = {
3 sm Site of Origin (Decision)
1 Gene2 Gene
Equivalence classes Gene
Tabel 2.1 Contoh tabel kelas ekivalensi↓down-regulated, ↑ up-regulated) serta dilihat penderita smoking yes or no.
adalah kelas ekivalensi. Tabel dibawah ini adalah contoh data dari 18 pasien penderita kanker berdasarkan lokasi asal tumor, lung (L), colon (L). Empat atribut yang dicatat dari pasien-pasien tersebut adalah level ekspresi atau perubahan bentuk dari ketiga gen dalam metastatic tumor dan dibandingkan dengan kesehatan penderita. (0: unchanged,
a R x }. Tabel 2.1 berikut ini merupakan contoh sebuah tabel dengan objeknya
E1={P1,P6} ↓ ↓ yes { L}
2.3.4 Pengetahuan Dasar Himpunan Kasar
Himpunan kasar (rough sets) pertama kali diperkenalkan oleh Zdzislaw Pawlak dari Warsaw University of Technology di Polandia pada tahun 1982 sebagai suatu metode matematis untuk mendeskripsikan himpunan tidak tegas, dalam arti bahwa elemen-elemen tertentu dalam semestanya tidak dapat ditentukan secara tegas apakah merupakan anggota himpunan itu atau tidak, karena elemen-elemen itu tidak dapat dibedakan satu sama lain akibat keterbatasan atau ketidaklengkapan pengetahuan atau informasi yang tersedia mengenai elemen-elemen itu (Susilo, 2006) . Pada awalnya himpunan kasar dikembangkan untuk menangani ketidakpastian dan ketidaktegasan (Pawlak, 2003) dalam bidang analisis data. Dasar pengembangan teori himpunan kasar adalah asumsi bahwa setiap elemen dalam semesta wacananya terkait dengan informasi mengenai elemen itu, dan bahwa elemen-elemen dengan informasi yang sama adalah elemen-elemen yang takterbedakan (Indiscernibility). Pada dasarnya pendekatan terhadap himpunan kasar adalah suatu hampiran terhadap himpunan taktegas itu dengan menggunakan sepasang himpunan tegas yang dikonstruksikan berdasarkan suatu partisi pada semesta himpunan itu. Sebagai partisi bisaanya diambil partisi yang terimbas oleh relasi ekivalensi
“takterbedakan” antara elemen-elemen dalam semesta itu. Dengan demikian kelas-kelas ekivalensi dalam partisi itu memuat elemen-elemen semesta yang takterbedakan satu sama lain. Relasi ekivalensi adalah model matematik paling sederhana yang dapat dipergunakan untuk merepresentasikan keadaan di mana elemen-elemen tertentu dalam suatu semesta tidak dapat dibedakan satu sama lain, dengan mengingat bahwa relasi
“takterbedakan” itu pada dasarnya adalah suatu relasi ekivalensi, yaitu bersifat refleksif, simetrik, dan transitif. Konsep himpunan kasar adalah perampatan konsep himpunan tegas, dalam arti bahwa himpunan tegas adalah kejadian khusus dari himpunan kasar.
Dalam konsep rough set ini, data atau tabel keputusan dinotasikan dengan T = (U,A,C,D) (Yellasiri, 2008), dimana U adalah semesta, A adalah himpunan atribut-atribut primitif, dan C, D
⊂ A (himpunan bagian dari A) adalah dua subset dari atribut A yang disebut atribut kondisi dan atribut keputusan. Dengan istilah lain bisa disebutkan bahwa Rough Set dibagi atau direpresentasikan kedalam dua bentuk yaitu : a. IS (Information System)
IS ini hanya memiliki objek dan atribut kondisi saja, tetapi tidak memiliki atribut keputusan.
b. DS (Decision System) DS memiliki semunya, yaitu objek, atribut kondisi dan atribut keputusan
2.3.5 Ruang Hampiran atau Perkiraan (Set Approximation)
Menurut Pawlak (1821) , Misalkan X adalah suatu semesta yang [x] takkosong, R adalah suatu relasi ekivalensi pada X, {y X | (x, y) R} R
X / R {[x] | x X }
adalah kelas ekivalensi yang memuat x X , dan adalah R himpunan hasil-bagi pada X yang terimbas oleh relasi ekivalensi R, yaitu keluarga
K
semua kelas ekivalensi yang terimbas oleh R pada X. Pasangan ( X , R) disebut
ruang hampiran , masing-masing kelas ekivalensi dalam X/R disebut himpunan
elementer atau atom dalam K, dan elemen-elemen dalam suatu himpunan
elementer disebut elemen-elemen yang takterbedakan dalam K. Dalam setiap ruang hampiran K, himpunan kosong juga dianggap sebagai himpunan elementer. Setiap gabungan berhingga banyak himpunan elementer dalam K disebut himpunan tersusun dalam K.
Jika A adalah suatu himpunan bagian dari semesta X, maka hampiran
bawah dari A dalam K, dengan lambang K ( A), adalah
K ( A) {[x] X / R | [ x] A}
R R x X {x X | [ x] A} R ……….. 2.1 yaitu gabungan semua himpunan elementer yang termuat dalam A. Beberapa sumber menyebut istilah lain untuk hampiran bawah dengan istilah
“lower approximation atau positif re gion” (YELLASIRI, 2008), Sedangkan hampiran atas dari A dalam K (upper approximation atau negative region), dengan lambang
K ( A), adalah
K ( A) {[x] X / R | [ x] A }
R R x X {x X | [ x] A } R ……….. 2.2 yaitu gabungan semua himpunan elementer yang beririsan dengan A.
Hampiran bawah dari A menyajikan himpunan elemen-elemen semesta yang pasti merupakan anggota himpunan A, sedangkan hampiran atas dari A menyajikan himpunan elemen-elemen semesta yang mungkin merupakan anggota himpunan
A . Perhatikan bahwa K ( A) A K ( A). Elemen-elemen semesta yang tidak
berada dalam hampiran atas dari A adalah elemen-elemen yang pasti tidak merupakan anggota A.
Selisih hampiran atas dan hampiran bawah dari himpunan A dalam K, yaitu B disebut daerah batas (boundary) dari himpunan A K ( A) K ( A) K ( A),
B ( A) ,
dalam K. Jika yaitu K ( A) K ( A) A , maka A merupakan gabungan K himpunan elementer dalam K dan disebut himpunan yang dapat dideskripsikan
secara tepat dalam K (atau himpunan tegas dalam K). Jika B ( A) , maka A
Ktidak dapat dideskripsikan secara tepat dalam K dan disebut himpunan kasar dalam K. Dengan perkataan lain, himpunan kasar adalah himpunan bagian dari semesta yang mempunyai daerah batas yang takkosong.
Suatu ilustrasi himpunan kasar A dengan hampiran bawah dan hampiran
K ( X , R) atasnya dalam suatu ruang hampiran disajikan dalam Gambar 2.2.
K (A) A K
( A) B K
(A)
K = (X,R) X/R
Gambar 2.2 Himpunan kasar A dengan hampiran bawah K ( A) dan dalam ruang hampiran K ( X , R)hampiran atas K ( A)
(Susilo, 2006) Kualitas hampiran dalam suatu ruang hampiran dinyatakan dengan suatu
K ( X , R)
ukuran ketepatan. Bila adalah suatu ruang hampiran dan A suatu himpunan bagian dari X, maka banyaknya atom dalam K ( A) dan K yang
( A),
disajikan dengan ( A) dan ( A), berturut-turut disebut ukuran dalam dan
ukuran luar dari A dalam K. Jika ( A) ( A), maka A dikatakan terukur dalam
K . Ketepatan hampiran dari A dalam K didefinisikan sebagai bilangan real
( A)
( A) K
( A)
di mana Jelas bahwa 0 ( A) 1 dan ( A) 1 jika A ( A) 0. K K terukur dalam K.
2.4 Reduct dan Core
Atribut dalam sistem informasi yang penting untuk mendapatkan