Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi akademik mahasiswa Jurusan Teknik Informatika Universitas Sanata Dharma dengan menggunakan algoritma naive bayesian - USD Repository
Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik
Mahasiswa Jurusan Teknik Informatika Universitas Sanata Dharma
dengan Menggunakan Algoritma Naive Bayesian
Skripsi
Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Teknik Jurusan Informatika
Oleh :
Asteria Indharlina
065314052
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
Classification of Student Admission Data and Academic Data
of Informatics Engineering Student of Sanata Dharma University
Using Naive Bayesian Algorithm
A Thesis
Presented as Partial Fullfillment of the Requirements
To Obtain the Sarjana Teknik Degree
In Study Program of Informatics Engineering
By :
Asteria Indharlina
Student Number : 065314052
INFORMATICS ENGINEERING STUDY PROGRAM
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
HALAMAN PERSETUJUAN SKRIPSI Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik Mahasiswa Jurusan Teknik Informatika Universitas Sanata Dharma dengan Menggunakan Algoritma Naive Bayesian Disusun Oleh : Asteria Indharlina
065314052 Telah Disetujui Oleh : Pembimbing
P. H. Prima Rosa, S.Si., M.Sc. Tanggal September 2010
SKRIPSI
Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik
Mahasiswa Jurusan Teknik Informatika Universitas Sanata Dharma
dengan Menggunakan Algoritma Naive Bayesian
Yang Dipersiapkan dan Disusun Oleh :
Asteria Indharlina
NIM : 065314052
Telah dipertahankan di depan Tim Penguji
Pada tanggal 3 September 2010
Dan dinyatakan memenuhi syarat
Susunan Tim Penguji
Tanda Tangan
Ketua : P. H. Prima Rosa, S.Si., M.Sc. ---------------------------------
--------------------------------- Sekretaris : Eko Hari Parmadi, S.Si., M.Kom.- Anggota : Alb. Agung Hadhiatma, S.T., M.T. Yogyakarta, September 2010 Fakultas Sains dan Teknologi Universitas Sanata Dharma Dekan, (Yosef Agung Cahyanta, S.T., M.T.)
“Orang yang banyak perjalannya, banyak pula pengetahuannya, dan yang banyak pengalamannya mengucapkan pengertian.
Orang yang tidak berpengalaman hanya mengetahui sedikit, Sedangkan orang yang banyak perjalannya mengumpulkan kecerdikan besar” Sirakh 34: 9-10
Kupersembahkan Untuk : Tuhan Yesus Kristus Keluarga Tercinta
Sahabat Terkasih
PERNYATAAN KEASLIAN KARYA
Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka, sebagaimana layaknya karya ilimiah.
Yogyakarta, 27 September 2010
Penulis Asteria IndharlinaABSTRAK Ada beberapa faktor kunci keberhasilan seorang mahasiswa dalam menempuh studi, diantaranya adalah potensi akademik, motivasi, dan latar belakang mahasiswa tersebut. Potensi akademik bisa tercermin dalam nilai tes masuk, motivasi bisa tercermin dalam gelombang tes masuk dan prioritas pilihan prodi. Sedangkan latar belakang akademik bisa tercermin dari jurusan ketika di SMA.
Universitas Sanata Dharma sudah mempunyai data-data kemahasiswaan yang mencakup data penerimaan mahasiswa baru (PMB) dan data prestasi akademik mahasiswa dalam bentuk digital. Dalam skripsi ini, data digital tersebut bisa dimanfaatkan untuk diolah menggunakan
teknik data mining dengan algoritma naïve Bayesian untuk mengklasifikasikan mahasiswa
dengan karakteristik seperti apa yang mempunyai prestasi akademik yang
kurang/memuaskan/sangat memuaskan/dengan pujian. Pengujian dilakukan pada 431 record data dengan tenfold cross-validation dan menghasilkan tingkat keakuratan sebesar 49, 65 %.
ABSTRACT
There are several key success factors for student in their study, such us there academicpotential, their motivations, as well as their backgrounds. Academic potentials could be reflected
in the admission test score, motivations could be reflected in the period of the admision test and
their priority of choice. While the academic background could be reflected in the major program
while they were in the Senior High School.Sanata Dharma university has store student data which includes student admission data as
well as student academic achievement data in digital form. In this thesis, the data utilized using
data mining technique by appliying naïve Bayesian algorithm in order to classify student who
have particular academic achievement, namely poor / satisfied / very satisfied / cumlaude. The
data mining was implemented on 431 data record using ten fold cross-validation method. The
accuracy of the program is 49,65%.LEMBAR PERNYATAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dharma : Nama : Asteria Indharlina NIM : 0653114052
Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan
Universitas Sanata Dharma karya ilmiah saya yang berjudul :
“Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik
Mahasiswa Teknik Informatika Universitas Sanata Dharma dengan
Menggunakan Algoritma Naive Bayesian”Berserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan
kepada Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam
bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikannya
secara terbatas, dan mempublikasikannya di internet atau media lain untuk
kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalti
kepada saya selama tetap mencatumkan nama saya sebagai penulis.Demikian pernyataan ini saya buat dengan sebenarnya. Dibuat di Yogyakarta Pada tanggal 15 September 2010 Yang menyatakan
KATA PENGANTAR
Dalam nama Bapa, Putra, dan Roh Kudus, penulis selalu diberi kekuatan untuk
berkembang dan menjadi lebih. Puji syukur penulis panjatkan atas Kehadirat Tuhan Yang Maha
Esa, yang telah melimpahkan rahmat dan berkatNya sehingga penulis dapat menyelesaikan tugas
akhir yang berjudul “Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik
Mahasiswa Teknik Informatika Universitas Sanata Dharma dengan Menggunakan
Algoritma Naive Bayesian” . Tugas akhir ini ditulis sebagai salah satu syarat memperoleh gelar
sarjana program studi Teknik Informatika, Fakultas Sains dan Teknologi Universitas Sanata
Dharma.Dalam kesempatan ini, penulis mengucapkan terimakasih yang sebesar-besarnya kepada : 1. Ibu P.H. Prima Rosa, S.Si., M.Sc., selaku dosen pembimbing, terimakasih atas segala bimbingan dan kesabaran dalam mengarahkan dan membimbing penulis dalam menyelesaikan tugas akhir ini.
2. Bapak Puspaningtyas Sanjoyo Adi, S.T., M.T., selaku kaprodi Teknik Informatika.
3. Bapak Eko Hari Parmadi, S.Si., M.Kom. dan Bapak Alb. Agung Hadhiatma, S.T., M.T. selaku dosen penguji.
4. Seluruh staff pengajar Prodi Teknik Informatika Fakultas Sains dan Teknologi Universitas Sanata Dharma.
5. Bapak, Mama, Tiberius Tomo N.S., Paskalia dan semua keluarga yang telah memberikan semangat serta doa yang tulus.
6. Alim Untung Widodo, yang selalu menghibur dan memberikan semangat dalam pengerjaan tugas akhir ini serta membantu dalam bertukar pikiran dan memberikan solusi. Terimakasih juga karena selalu menemani dan rela menunggu untuk waktu yang tidak ditentukan selama bimbingan.
7. Teman-teman seperjuangan, Robin Steven, Cresensia Devi, Hertartik Clarasita Devy, Tulus Wardoyo, Yustinus Prima, Widyo Sutoto, terimakasih atas segala bantuan, dukungan serta kesediaan dalam menciptakan hubungan simbiosis mutualisme dan mampu menerapkan prinsip win-win solution.
8. Teman-teman prodi Teknik Informatika angkatan 2006, atas kebersamaanya selama penulis menjalani masa studi.
9. Serta semua pihak yang tidak dapat disebutkan satu-persatu yang telah membantu penulis dalam menyelesaikan tugas akhir ini.
Penulis menyadari bahwa tugas akhir ini jauh dari sempurna, oleh karena itu kritik dan saran yang sifatnya membangun sangat penulis harapkan.
Akhir kata, penulis berharap semoga skripsi ini dapat bermanfaat bagi pembaca dan pihak lain yang membutuhkannya.
Penulis Asteria Indharlina
DAFTAR ISI
Halaman Judul ……………………………………………………..…………………… i Halaman Judul (Inggris) ………………………………………………………………… ii Halaman Persetujuan …………………………………………………………………… iii Halaman Pengesahan …………………………………………………………………… iv Halaman Persembahan ……………….………………………………………………… v Halaman Pernyataan Keaslian Karya …………..……………………………………… vi
Abstrak …………………….……………………………………………………………. vii
Abstract …………………………………………………………………………………. viii
Lembar Pernyataan Persetujuan ………….……………………………………………. ix Kata Pengantar ……………….………………………………………………………… x Daftar Isi …………………….…………………………………………………………. xii Daftar Tabel ………………..…………………………………………………………… xv Daftar Gambar ………….………………………………………………………………. xvii BAB I. Pendahuluan ……………………………..…………………………………..1 A. Latar Belakang …………………………….…………………………………
1 B. Rumusan Masalah …………………………………………………………….
2 C. Tujuan ……………………………………..…………………………………..
3 D. Batasan Masalah ………………..………….…………………………………
3 E. Metodologi Penelitian …………………….…………………………………..
5 F. Sistematika Penulisan …………..……………………………………………
6 BAB II. Landasan Teori ………………………....……………………………………
8 A. Penambangan Data …………………….……………………………………..
8
B. Teorima Bayesian …………………….….….……………………………….
13 C. Klasifikasi Naïve Bayesian …………………………………………………..
16 D. k-Fold Cross Validation ……………….……………………………………..
23 E. Mengukur Tingkat Keakuratan Penggolong(Classifier) …….………………
23 F. Analisis Korelasi ………….………………………………………………….
25 BAB III. Analisis dan Perancangan Sistem ………..………………..…………………
28 A. Identifikasi Sistem ……………….………………………..…………………..
28 B. Analisis Data Awal ……………….…………………………………………..
29
1. Pembersihan Data ……………….……………………………….………
32
2. Integrasi Data ………………………..………………………………….
32
3. Seleksi Data ………..……………………………………………………
32
4. Transformasi Data …….…………………………………………………
36 C. Perancangan Umum Sistem ………………………………………………….
37
1. Masukan Sistem ………….……………………………………………..
37 1.1. Perancangan Struktur Data …….………………………………..
39
2. Proses Sistem …………………………………………..……………….
40
3. Keluaran Sistem ……………………………………….………………..
42
4. Diagram Model Use Case ……………………………….……………….
43
4.1. Narasi Use Case ………..……………………………………….
44
5. Diagram Konteks ……………………………..…………………………
50
6. Diagram Aktivitas ………………………………………….…………….
51
6.1. Diagram Aktivitas Input Data …………………………………..
51
6.2. Diagram Aktivitas Detail Atribut ……………………………….
51
6.3. Diagram Aktivitas Input Fold …………………………………..
52 6.4. Diagram Aktivitas Hitung Posterior ……………………………..
52
6.5. Diagram Aktivitas Simpan File Hasil Klasifikasi ………………
53
7. Diagram Kelas …….……………………………………………………..
54
8. Diagram Sekuensial ………..…………………………………………….
55
8.1. Diagram Sekuensial Input Data …………………………………..
55 8.2. Diagram Sekuensial Detail Atribut ………………………………...
55
8.3. Diagram Sekuensial Input Fold …………………………………..
56 8.4. Diagram Sekuensial Hitung Posterior ……………………………..
56
8.5. Diagram Sekuensial Simpan File Hasil Klasifikasi ………………
57
9. Perancangan Antar Muka ………………………….………………….
57 BAB IV Implementasi Sistem …………………………………………………………..
64 A.
64 Spesifikasi Software dan Hardware ………………..…………………………..
B.
64 Implementasi Use Case ………………………….……………………………..
C.
68 Implementasi Diagram Kelas ………………………………………………….
BAB V Analisis Hasil ………………………………………………………………..
93 A.
93 Analisis Hasil Program ………………………………………………………… B. 108 Kelebihan dan Kekurangan Program ……………………………………………
BAB VI Penutup ……………………………………………………………………… 110 A. Kesimpulan …………………..………………………………………………… 110 B. Saran …………………….……………………………………………………… 110 Daftar Pustaka Lampiran
DAFTAR TABEL
Tabel 2.1 Ilustrasi Penggunaan Teorema Bayesian ………...................................16 Tabel 2.2 Sekumpulan Data Pelatihan………………………………………………..
20 Tabel 2.3 Confusion Matrix………..............................................................................
24 Tabel 2.4 Tabel Interprestasi Besarnya Nilai Koresi ………………………………
26 Tabel 2.5 Tabel Contoh Hasil Analisis Korelasi di SPSS ………………………..
26 Tabel 3.1 Tabel Output analisis korelasi dengan menggunakan SPSS …………….
34 Tabel 3.2 Tabel rangkuman analisis korelasi ………………………………………..
35 Tabel 3.3 Transformasi Data IPK ………………………………………………….
36 Tabel 3.4 Deskripsi Masukan untuk Data Pelatihan…………………………………
37 Tabel 3.5 Deskripsi Masukan untuk Data Uji……………………………………….
38 Tabel 3.6 Tabel List Data Mahasiswa ……………………………………………….
39 Tabel 5.1 Tabel Confusion Matrix untuk Pengujian pada Fold 1……………………
95 Tabel 5.2 Tabel Confusion Matrix untuk Pengujian pada Fold 2 ……………………
96 Tabel 5.3 Tabel Confusion Matrix untuk Pengujian pada Fold 3 ………………….
97 Tabel 5.4 Tabel Confusion Matrix untuk Pengujian pada Fold 4 ………………….
98 Tabel 5.5 Tabel Confusion Matrix untuk Pengujian pada Fold 5 ………………….
99 Tabel 5.6 Tabel Confusion Matrix untuk Pengujian pada Fold 6 …………………. 100
Tabel 5.7 Tabel Confusion Matrix untuk Pengujian pada Fold 7 …………………. 101Tabel 5.8 Tabel Confusion Matrix untuk Pengujian pada Fold 8 …………………. 102Tabel 5.9 Tabel Confusion Matrix untuk Pengujian pada Fold 9 …………………. 103Tabel 5.10 Tabel Confusion Matrix untuk Pengujian pada Fold 10 …………………. 104Tabel 5.11 Tabel Confusion Matrix untuk Semua Iterasi ………………………….. 105Tabel 5.12 Tabel Pengujian Menggunakan tenfold Cross-Validation ……………… 106Tabel 5.13 Tabel Pengujian Cross-validation dengan k bervariasi ……………….. 107
DAFTAR GAMBAR
56 Gambar 3.13 Diagram Sekuensial Simpan File Hasil Klasifikasi ………………………
61 Gambar 3.20 Halaman Bantuan ………………………………………………………….
61 Gambar 3.19 Halaman Proses Lanjutan ………………………………………………..
60 Gambar 3.18 Halaman Proses ……………………………………………………………
59 Gambar 3.17 Jendela Pilih File Masukan ………………………………………………..
58 Gambar 3.16 Halaman Input Data ………………………………………………………
58 Gambar 3.15 Halaman Awal dengan Submenu …………………………………………
57 Gambar 3.14 Halaman Awal ……………………………………………………………..
55 Gambar 3.11 Diagram Sekuensial Input Fold …………………………………………. 56 Gambar 3.12 Diagram Sekuensial Hitung Posterior …………………………………….
Gambar 2.1 Langkah Penambangan Data………………………………………………. 1155 Gambar 3.10 Diagram Sekuensial Detail Atribut ……………………………………….
54 Gambar 3.9 Diagram Sekuensial Input Data ………………………………………….
53 Gambar 3.8 Diagram Kelas …………………………………………………………..
52 Gambar 3.7 Diagram Aktivitas Simpan File Hasil Klasifikasi ……………………….
51 Gambar 3.5 Diagram Aktivitas Input Fold ………………………………………….. 52 Gambar 3.6 Diagram Aktivitas Hitung Posterior……………………………………….
51 Gambar 3.4 Diagram Aktivitas Detail Atribut …………………………………………
50 Gambar 3.3 Diagram Aktivitas Input Data …………………………………………….
Gambar 3.1 Use Case ………………………………………………………………... 43 Gambar 3.2 Diagram Konteks ………………………………………………………….62
Gambar 3.21 Halaman Tentang ………………………………………………………….63 Gambar 3.22 Jendela Pertanyaan Konfirmasi Keluar …………………………………..
63 Gambar 4.1 Halaman Input Data ………………………………………………………
65 Gambar 4.2 Proses Input Data Berhasil………………………………………………… 66
Gambar 4.3 Lihat Detail Atribut ………………………………………………………67 Gambar 4.4 Halaman Proses …………………………………………………………..
67
BAB I PENDAHULUAN A. Latar Belakang Salah satu faktor penentu kesuksesan seorang mahasiswa dalam
menempuh studi di perguruan tinggi adalah potensi akademik. Potensi akademik bisa terlihat dalam nilai tes masuk akademik. Semakin bagus potensi akademik seorang mahasiswa mestinya akan semakin sukses ia menempuh studi di perguruan tinggi. Kesuksesan ini bisa direpresentasikan dengan indeks prestasi kumulatif. Namun pada kenyataannya tidak semua mahasiswa yang mempunyai potensi akademik yang bagus mempunyai nilai IPK yang bagus pula. Hal ini memunculkan dugaan bahwa ada faktor lain yang mempengaruhi kesuksesan seorang mahasiswa dalam menempuh studi. Faktor lain tersebut bisa berupa motivasi dan latar belakang mahasiswa. Motivasi bisa tercermin dalam gelombang test masuk dan prioritas pilihan prodi sedangkan latar belakang mahasiswa bisa terlihat pada jurusan ketika di SMA.
Maka perlu dijajaki apakah betul faktor yang berhubungan dengan motivasi dan latar belakang seorang mahasiswa tersebut benar-benar mempengaruhi keberhasilan studi seorang mahasiswa?
Universitas Sanata Dharma sudah mempunyai data-data kemahasiswaan yang mencakup data penerimaan mahasiswa baru (PMB) dan data prestasi akademik mahasiswa dalam bentuk digital. Data digital tersebut bisa dimanfaatkan untuk diolah menggunakan teknik penambangan data dengan menggunakan algoritma naïve Bayesian sehingga bisa diklasifikasikan data mahasiswa yang mempunyai prestasi akademik yang kurang/memuaskan/sangat memuaskan/dengan pujian.
Naïve Bayesian merupakan salah satu metode penambangan data yang
digunakan pada persoalan klasifikasi. Algoritma naïve Bayesian akan menghitung probabilitas posterior untuk setiap nilai kejadian dari atribut target pada setiap kasus (sampel data). Selanjutnya, naïve Bayesian akan mengklasifikasikan sampel data tersebut ke kelas yang mempunyai nilai probabilitas posterior tertinggi. Maka hal yang akan dilakukan dengan algoritma naïve Bayesian adalah menghitung probabilitas posterior pada setiap sampel data untuk kelas IPK kurang, IPK memuaskan, IPK sangat memuaskan, dan IPK dengan pujian.
Pada skripsi ini, penulis akan mengklasifikasikan data mahasiswa yang mempunyai prestasi akademik kurang/memuaskan/sangat memuaskan/dengan pujian berdasarkan data penerimaan mahasiswa baru (PMB) dan data prestasi akademik mahasiswa.
B. Rumusan Masalah
Dari latar belakang di atas, terdapat masalah yaitu : Bagaimana mengklasifikasikan data mahasiswa yang mempunyai prestasi kurang/memuaskan/sangat memuaskan/dengan pujian berdasarkan data penerimaan mahasiswa baru (PMB) dan data prestasi akademik mahasiswa dengan menggunakan algoritma naïve Bayesian.
C. Tujuan
Tujuan pembuatan aplikasi ini adalah untuk : Mengklasifikasikan data mahasiswa yang mempunyai prestasi kurang/memuaskan/sangat memuaskan/dengan pujian berdasarkan data penerimaan mahasiswa baru (PMB) dan data prestasi akademik mahasiswa dengan menggunakan algoritma naïve Bayesian.
D. Batasan Masalah
Dalam membangun sistem ini terdapat batasan-batasan antara lain : 1.
Klasifikasi prestasi mahasiswa hanya berdasarkan data gelombang tes masuk, pilihan prodi, prioritas pilihan prodi, jurusan di SMA dan nilai final tes masuk lima komponen : nilai tes penalaran verbal, nilai tes kemampuan numerik, nilai tes penalaran mekanik, nilai tes hubungan ruang, nilai tes bahasa Inggris.
2. Data kemahasiswaan yang digunakan adalah data PMB (Penerimaan
Mahasiswa Baru) dan data akademik mahasiswa Teknik Informatika Fakultas Sains dan Teknologi Universitas Sanata Dharma yang mengikuti tes melalui jalur reguler dan jalur kerjasama yakni data gelombang tes masuk mahasiswa, pilihan prodi, prioritas pilihan prodi, jurusan di SMA dan nilai final tes masuk lima komponen yang terdiri dari nilai tes penalaran verbal, nilai tes kemampuan numerik, nilai tes penalaran mekanik, nilai tes hubungan ruang, nilai tes bahasa Inggris .
Data kemahasiswaan yang digunakan tersebut adalah data tahun 2000,
2001, 2002, 2003, 2004, 2005, 2006, 2007.
3. Data IPK yang digunakan adalah data IPK sampai semester 4 dengan alasan bahwa pada akhir semester 4 terdapat evaluasi sisip program yang menentukan apakah mahasiswa yang bersangkutan boleh melanjutkan studi atau harus meninggalkan Program Studi yang bersangkutan. Mahasiswa boleh melanjutkan studi di Program studi yang bersangkutan apabila pada akhir semester 4 dapat mengumpulkan sekurang-kurangnya 40 SKS dengan IPK sekurang-kurangnya 2.00. Sistem yang dibuat ini dapat digunakan oleh Ketua Prodi Teknik Informatika atau dosen pembimbing akademik untuk memprediksi apakah pada evaluasi sisip program seorang mahasiswa boleh melanjutkan studi atau harus meninggalkan Program studi. Dengan adanya sistem ini baik Ketua Prodi maupun dosen pembimbing akademik bisa lebih peka dan kritis terhadap mahasiswa-mahasiswa yang diprediksikan tidak bisa melanjutkan studi dengan membuat kebijakan tentang bagaimana langkah yang harus diambil untuk mengupayakan agar mahasiswa-mahasiswa yang diprediksikan tidak bisa melanjutkan studinya tersebut bisa melanjutkan studi di Program Studi Teknik Informatika.
4. Data IPK dikategorikan menjadi IPK memuaskan/sangat memuaskan/dengan pujian sesuai dengan buku panduan akademik mahasiswa Teknik Informatika dan dengan tambahan kategori kurang untuk mahasiswa yang memiliki IPK kurang dari 2, 00.
5. Perangkat lunak yang digunakan untuk membangun sistem ini adalah adalah : sistem operasi Microsoft Windows XP profesional SP, bahasa pemrograman Java.
E. Metodologi Penelitian Metodologi penelitian dilakukan dengan teknik penambangan data.
Langkah-langkahnya adalah sebagai berikut : 1.
Pembersihan data yaitu menghilangkan noice dan menghilangkan data yang tidak konsisten.
2. Integrasi data yaitu menggabungkan data dari bermacam-macam tempat penyimpanan data ke dalam satu tempat penyimpanan data yang koheren.
3. Seleksi data yaitu data yang relevan diambil dari basis data. Pada langkah ini akan dilakukan analisis korelasi dengan SPSS untuk analisis fitur. Atribut-atribut data akan dicek apakah relevan untuk dilakukan penambangan data. Atribut yang tidak relevan ataupun atribut yang mengalami redundansi akan dibuang. Atribut yang diharapkan adalah atribut yang bersifat independen.
4. Transformasi data yaitu data ditransformasikan ke dalam bentuk yang tepat untuk ditambang dengan menampilkan kesimpulan operasi.
5. Penambangan data yaitu mengaplikasikan metode yang tepat untuk mengekstrak pola data, yaitu dengan menggunakan metode naïve
Bayesian. Metode naïve Bayesian didasarkan pada asumsi bahwa kehadiran/keberadaan fitur tertentu dari sebuah kelas tidak berhubungan dengan kehadiran/keberadaan fitur lainnya. Artinya, efek yang ditimbulkan dari sebuah nilai atribut dari sebuah kelas adalah independen dengan nilai atribut lainnya.
6. Evaluasi pola yaitu mengidentifikasi pola yang benar berdasarkan beberapa pengukuran yang penting.
7. Presentasi pengetahuan yaitu mempresentasikan informasi yang sudah ditambang kepada pengguna.
F. Sistematika Penulisan
BAB I PENDAHULUAN Bab ini berisi tentang latar belakang masalah, batasan
masalah, tujuan, batasan masalah, dan metodologi penelitian.
BAB II LANDASAN TEORI Bab ini berisi tentang dasar teori yang yang berkaitan
dengan judul/masalah di tugas akhir yaitu teori tentang penambangan data dan algoritma naive bayesian.
BAB III ANALISIS DAN PERANCANGAN SISTEM Bab ini berisi tentang cara penerapan konsep dasar yang
telah diuraikan pada bab sebelumnya yaitu pada bab 2 untuk menganalisa dan merancang tentang sistem yang dibuat.
BAB IV IMPLEMENTASI SISTEM Bab ini berisi tentang implementasi ke program komputer berdasarkan hasil perancangan yang telah dibuat. BAB V ANALISIS HASIL Bab ini berisi tentang analisis perangkat lunak yang sudah dibuat, beserta kelebihan dan kekurangan pada sistem. BAB VI PENUTUP Bab ini berisi tentang kesimpulan dan saran dari penulisan tugas akhir.
BAB II LANDASAN TEORI A. Penambangan Data Sebuah organisasi pasti mempunyai sekumpulan data dengan jumlah yang
besar. Untuk bisa berkompetisi dengan efektif dan bisa mendapatkan banyak keuntungan dari setiap kesempatan, pengambil keputusan perlu mengidentifikasi dan menggunakan informasi yang ada dari sekumpulan data tadi. Maka dari itu diperlukanlah penambangan data .
Penambangan data ( data mining) berkenaan dengan mengekstrak atau menambang informasi/pengetahuan dari sekumpulan data dengan jumlah yang sangat besar. Secara fungsional, penambangan data adalah proses dari pengumpulan informasi penting dari sejumlah data yang besar yang tersimpan di basis data, gudang data, atau tempat penyimpanan informasi lainnya (Han&Kamber, 2006).
Secara sederhana, penambangan data adalah langkah-langkah dalam mendapatkan/menemukan pengetahuan (Han&Kamber, 2006). Penemuan pengetahuan ini merupakan sebuah proses seperti ditunjukkan pada gambar 2.1 dan terdiri dari urutan-urutan sebagai berikut :
1. Pembersihan data (data cleaning) Pada langkah ini noice dan data yang tidak konsisten akan dihapus.
Langkah pertama yang dilakukan dalam proses pembersihan data ( data cleaning atau disebut juga data cleansing) adalah deteksi ketidakcocokan.
Ketidakcocokan tersebut dapat disebabkan oleh beberapa faktor antara lain desain form masukan data yang kurang baik sehingga menyebabkan munculnya banyak field, adanya kesalahan petugas ketika memasukkan data, adanya kesalahan yang disengaja dan adanya data yang busuk.
2. Integrasi data (data integration) Pada langkah ini akan dilakukan penggabungan data. Data dari bermacam- macam tempat penyimpanan data akan digabungkan ke dalam satu tempat penyimpanan data yang koheren. Macam-macam tempat penyimpanan data tersebut termasuk
multiple database, data cube, atau file flat. Pada
langkah ini, ada beberapa hal yang perlu diperhatikan yaitu integrasi skema dan pencocokan objek, redundansi data, deteksi dan resolusi konflik nilai data. Selama melakukan integrasi data, hal yang perlu dipertimbangkan secara khusus adalah masalah struktur data. Struktur data perlu diperhatikan ketika mencocokkan atribut dari satu basis data ke basis data lain.
3. Seleksi data (data selection) Data yang relevan akan diambil dari basis data untuk dianalisis. Pada langkah ini akan dilakukan analisis korelasi untuk analisi fitur. Atribut- atribut data akan dicek apakah relevan untuk dilakukan penambangan data. Atribut yang tidak relevan ataupun atribut yang mengalami redundansi tidak akan digunakan. Atribut yang diharapkan adalah atribut yang bersifat independen. Artinya, antara atribut satu dengan atribut yang lain tidak saling mempengaruhi.
4. Transformasi data (data transformation) Data ditransformasikan ke dalam bentuk yang tepat untuk ditambang.
Yang termasuk dalam langkah transformasi data adalah penghalusan ( smooting) yaitu menghilangkan noise yang ada pada data, pengumpulan
(aggregation) yaitu mengaplikasikan kesimpulan pada data, generalisasi (generalization) yaitu mengganti data primitif/data level rendah menjadi
data level tinggi
), normalisasi (normalization) yaitu mengemas data atribut
ke dalam skala yang kecil, sebagai contoh -1.0 sampai 1.0
, dan konstruksi
atribut/fitur
(attribute construction/feature construction) yaitu
mengkonstruksi dan menambahkan atribut baru untuk membantu proses penambangan.
5. Penambangan data (data mining) Langkah ini adalah langkah yang penting di mana akan diaplikasikan metode yang tepat untuk mengekstrak pola data.
6. Evaluasi pola (pattern evaluation) Langkah ini berguna untuk mengidentifikasi pola yang benar dan menarik.
Pola tersebut akan direpresentasikan dalam bentuk pengetahuan berdasarkan beberapa pengukuran yang penting.
7. Presentasi pengetahuan (knowledge presentation) Pada langkah ini informasi yang sudah ditambang akan divisualisasikan dan direpresentasikan kepada pengguna.
Langkah 1 sampai dengan langkah 4 merupakan langkah praproses data di mana data akan disiapkan terlebih dahulu selanjutnya dilakukan penambangan. Pada langkah penambangan data, pengguna atau basis pengetahuan bisa dilibatkan. Kemudian pola yang menarik akan direpresentasikan kepada pengguna dan akan disimpan sebagai pengetahuan yang baru. Sebagai catatan, dalam urutan proses di atas, penambangan data hanya terdapat pada satu langkah. Walaupun penambangan data hanya terdapat dalam satu langkah, penambangan data merupakan langkah yang penting karena bisa menemukan pola tersembunyi yang nantinya akan dievaluasi.