Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi akademik mahasiswa Jurusan Teknik Informatika Universitas Sanata Dharma dengan menggunakan algoritma naive bayesian - USD Repository

  

Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik

Mahasiswa Jurusan Teknik Informatika Universitas Sanata Dharma

dengan Menggunakan Algoritma Naive Bayesian

Skripsi

  

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Teknik Jurusan Informatika

Oleh :

Asteria Indharlina

  

065314052

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

  

Classification of Student Admission Data and Academic Data

of Informatics Engineering Student of Sanata Dharma University

Using Naive Bayesian Algorithm

A Thesis

  

Presented as Partial Fullfillment of the Requirements

To Obtain the Sarjana Teknik Degree

In Study Program of Informatics Engineering

  

By :

Asteria Indharlina

Student Number : 065314052

  

INFORMATICS ENGINEERING STUDY PROGRAM

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

  HALAMAN PERSETUJUAN SKRIPSI Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik Mahasiswa Jurusan Teknik Informatika Universitas Sanata Dharma dengan Menggunakan Algoritma Naive Bayesian Disusun Oleh : Asteria Indharlina

  065314052 Telah Disetujui Oleh : Pembimbing

  P. H. Prima Rosa, S.Si., M.Sc. Tanggal September 2010

  

SKRIPSI

Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik

Mahasiswa Jurusan Teknik Informatika Universitas Sanata Dharma

dengan Menggunakan Algoritma Naive Bayesian

  

Yang Dipersiapkan dan Disusun Oleh :

Asteria Indharlina

NIM : 065314052

Telah dipertahankan di depan Tim Penguji

  

Pada tanggal 3 September 2010

Dan dinyatakan memenuhi syarat

Susunan Tim Penguji

Tanda Tangan

  

Ketua : P. H. Prima Rosa, S.Si., M.Sc. ---------------------------------

--------------------------------- Sekretaris : Eko Hari Parmadi, S.Si., M.Kom.

  • Anggota : Alb. Agung Hadhiatma, S.T., M.T. Yogyakarta, September 2010 Fakultas Sains dan Teknologi Universitas Sanata Dharma Dekan, (Yosef Agung Cahyanta, S.T., M.T.)

  “Orang yang banyak perjalannya, banyak pula pengetahuannya, dan yang banyak pengalamannya mengucapkan pengertian.

  Orang yang tidak berpengalaman hanya mengetahui sedikit, Sedangkan orang yang banyak perjalannya mengumpulkan kecerdikan besar” Sirakh 34: 9-10

  Kupersembahkan Untuk : Tuhan Yesus Kristus Keluarga Tercinta

  Sahabat Terkasih

PERNYATAAN KEASLIAN KARYA

  Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka, sebagaimana layaknya karya ilimiah.

  

Yogyakarta, 27 September 2010

Penulis Asteria Indharlina

  ABSTRAK Ada beberapa faktor kunci keberhasilan seorang mahasiswa dalam menempuh studi, diantaranya adalah potensi akademik, motivasi, dan latar belakang mahasiswa tersebut. Potensi akademik bisa tercermin dalam nilai tes masuk, motivasi bisa tercermin dalam gelombang tes masuk dan prioritas pilihan prodi. Sedangkan latar belakang akademik bisa tercermin dari jurusan ketika di SMA.

  Universitas Sanata Dharma sudah mempunyai data-data kemahasiswaan yang mencakup data penerimaan mahasiswa baru (PMB) dan data prestasi akademik mahasiswa dalam bentuk digital. Dalam skripsi ini, data digital tersebut bisa dimanfaatkan untuk diolah menggunakan

teknik data mining dengan algoritma naïve Bayesian untuk mengklasifikasikan mahasiswa

dengan karakteristik seperti apa yang mempunyai prestasi akademik yang

kurang/memuaskan/sangat memuaskan/dengan pujian. Pengujian dilakukan pada 431 record data dengan tenfold cross-validation dan menghasilkan tingkat keakuratan sebesar 49, 65 %.

  

ABSTRACT

There are several key success factors for student in their study, such us there academic

potential, their motivations, as well as their backgrounds. Academic potentials could be reflected

in the admission test score, motivations could be reflected in the period of the admision test and

their priority of choice. While the academic background could be reflected in the major program

while they were in the Senior High School.

  Sanata Dharma university has store student data which includes student admission data as

well as student academic achievement data in digital form. In this thesis, the data utilized using

data mining technique by appliying naïve Bayesian algorithm in order to classify student who

have particular academic achievement, namely poor / satisfied / very satisfied / cumlaude. The

data mining was implemented on 431 data record using ten fold cross-validation method. The

accuracy of the program is 49,65%.

LEMBAR PERNYATAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

  Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dharma : Nama : Asteria Indharlina NIM : 0653114052

Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan

Universitas Sanata Dharma karya ilmiah saya yang berjudul :

  

“Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik

Mahasiswa Teknik Informatika Universitas Sanata Dharma dengan

Menggunakan Algoritma Naive Bayesian”

Berserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan

kepada Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam

bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikannya

secara terbatas, dan mempublikasikannya di internet atau media lain untuk

kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalti

kepada saya selama tetap mencatumkan nama saya sebagai penulis.

  Demikian pernyataan ini saya buat dengan sebenarnya. Dibuat di Yogyakarta Pada tanggal 15 September 2010 Yang menyatakan

KATA PENGANTAR

  Dalam nama Bapa, Putra, dan Roh Kudus, penulis selalu diberi kekuatan untuk

berkembang dan menjadi lebih. Puji syukur penulis panjatkan atas Kehadirat Tuhan Yang Maha

Esa, yang telah melimpahkan rahmat dan berkatNya sehingga penulis dapat menyelesaikan tugas

akhir yang berjudul “Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik

Mahasiswa Teknik Informatika Universitas Sanata Dharma dengan Menggunakan

Algoritma Naive Bayesian” . Tugas akhir ini ditulis sebagai salah satu syarat memperoleh gelar

sarjana program studi Teknik Informatika, Fakultas Sains dan Teknologi Universitas Sanata

Dharma.

  Dalam kesempatan ini, penulis mengucapkan terimakasih yang sebesar-besarnya kepada : 1. Ibu P.H. Prima Rosa, S.Si., M.Sc., selaku dosen pembimbing, terimakasih atas segala bimbingan dan kesabaran dalam mengarahkan dan membimbing penulis dalam menyelesaikan tugas akhir ini.

  2. Bapak Puspaningtyas Sanjoyo Adi, S.T., M.T., selaku kaprodi Teknik Informatika.

  3. Bapak Eko Hari Parmadi, S.Si., M.Kom. dan Bapak Alb. Agung Hadhiatma, S.T., M.T. selaku dosen penguji.

  4. Seluruh staff pengajar Prodi Teknik Informatika Fakultas Sains dan Teknologi Universitas Sanata Dharma.

  5. Bapak, Mama, Tiberius Tomo N.S., Paskalia dan semua keluarga yang telah memberikan semangat serta doa yang tulus.

  6. Alim Untung Widodo, yang selalu menghibur dan memberikan semangat dalam pengerjaan tugas akhir ini serta membantu dalam bertukar pikiran dan memberikan solusi. Terimakasih juga karena selalu menemani dan rela menunggu untuk waktu yang tidak ditentukan selama bimbingan.

  7. Teman-teman seperjuangan, Robin Steven, Cresensia Devi, Hertartik Clarasita Devy, Tulus Wardoyo, Yustinus Prima, Widyo Sutoto, terimakasih atas segala bantuan, dukungan serta kesediaan dalam menciptakan hubungan simbiosis mutualisme dan mampu menerapkan prinsip win-win solution.

  8. Teman-teman prodi Teknik Informatika angkatan 2006, atas kebersamaanya selama penulis menjalani masa studi.

  9. Serta semua pihak yang tidak dapat disebutkan satu-persatu yang telah membantu penulis dalam menyelesaikan tugas akhir ini.

  Penulis menyadari bahwa tugas akhir ini jauh dari sempurna, oleh karena itu kritik dan saran yang sifatnya membangun sangat penulis harapkan.

  Akhir kata, penulis berharap semoga skripsi ini dapat bermanfaat bagi pembaca dan pihak lain yang membutuhkannya.

  Penulis Asteria Indharlina

DAFTAR ISI

  Halaman Judul ……………………………………………………..…………………… i Halaman Judul (Inggris) ………………………………………………………………… ii Halaman Persetujuan …………………………………………………………………… iii Halaman Pengesahan …………………………………………………………………… iv Halaman Persembahan ……………….………………………………………………… v Halaman Pernyataan Keaslian Karya …………..……………………………………… vi

Abstrak …………………….……………………………………………………………. vii

Abstract …………………………………………………………………………………. viii

Lembar Pernyataan Persetujuan ………….……………………………………………. ix Kata Pengantar ……………….………………………………………………………… x Daftar Isi …………………….…………………………………………………………. xii Daftar Tabel ………………..…………………………………………………………… xv Daftar Gambar ………….………………………………………………………………. xvii BAB I. Pendahuluan ……………………………..…………………………………..

  1 A. Latar Belakang …………………………….…………………………………

  1 B. Rumusan Masalah …………………………………………………………….

  2 C. Tujuan ……………………………………..…………………………………..

  3 D. Batasan Masalah ………………..………….…………………………………

  3 E. Metodologi Penelitian …………………….…………………………………..

  5 F. Sistematika Penulisan …………..……………………………………………

  6 BAB II. Landasan Teori ………………………....……………………………………

  8 A. Penambangan Data …………………….……………………………………..

  8

B. Teorima Bayesian …………………….….….……………………………….

  13 C. Klasifikasi Naïve Bayesian …………………………………………………..

  16 D. k-Fold Cross Validation ……………….……………………………………..

  23 E. Mengukur Tingkat Keakuratan Penggolong(Classifier) …….………………

  23 F. Analisis Korelasi ………….………………………………………………….

  25 BAB III. Analisis dan Perancangan Sistem ………..………………..…………………

  28 A. Identifikasi Sistem ……………….………………………..…………………..

  28 B. Analisis Data Awal ……………….…………………………………………..

  29

  

1. Pembersihan Data ……………….……………………………….………

  32

2. Integrasi Data ………………………..………………………………….

  32

  

3. Seleksi Data ………..……………………………………………………

  32

  

4. Transformasi Data …….…………………………………………………

  36 C. Perancangan Umum Sistem ………………………………………………….

  37

1. Masukan Sistem ………….……………………………………………..

  37 1.1. Perancangan Struktur Data …….………………………………..

  39

2. Proses Sistem …………………………………………..……………….

  40

3. Keluaran Sistem ……………………………………….………………..

  42

4. Diagram Model Use Case ……………………………….……………….

  43

4.1. Narasi Use Case ………..……………………………………….

  44

  

5. Diagram Konteks ……………………………..…………………………

  50

6. Diagram Aktivitas ………………………………………….…………….

  51

6.1. Diagram Aktivitas Input Data …………………………………..

  51

6.2. Diagram Aktivitas Detail Atribut ……………………………….

  51

6.3. Diagram Aktivitas Input Fold …………………………………..

  52 6.4. Diagram Aktivitas Hitung Posterior ……………………………..

  52

  6.5. Diagram Aktivitas Simpan File Hasil Klasifikasi ………………

  53

7. Diagram Kelas …….……………………………………………………..

  54

8. Diagram Sekuensial ………..…………………………………………….

  55

8.1. Diagram Sekuensial Input Data …………………………………..

  55 8.2. Diagram Sekuensial Detail Atribut ………………………………...

  55

8.3. Diagram Sekuensial Input Fold …………………………………..

  56 8.4. Diagram Sekuensial Hitung Posterior ……………………………..

  56

  8.5. Diagram Sekuensial Simpan File Hasil Klasifikasi ………………

  57

9. Perancangan Antar Muka ………………………….………………….

  57 BAB IV Implementasi Sistem …………………………………………………………..

  64 A.

  64 Spesifikasi Software dan Hardware ………………..…………………………..

  B.

  64 Implementasi Use Case ………………………….……………………………..

  C.

  68 Implementasi Diagram Kelas ………………………………………………….

  BAB V Analisis Hasil ………………………………………………………………..

  93 A.

  93 Analisis Hasil Program ………………………………………………………… B. 108 Kelebihan dan Kekurangan Program ……………………………………………

  BAB VI Penutup ……………………………………………………………………… 110 A. Kesimpulan …………………..………………………………………………… 110 B. Saran …………………….……………………………………………………… 110 Daftar Pustaka Lampiran

  

DAFTAR TABEL

Tabel 2.1 Ilustrasi Penggunaan Teorema Bayesian ………...................................

  16 Tabel 2.2 Sekumpulan Data Pelatihan………………………………………………..

  20 Tabel 2.3 Confusion Matrix………..............................................................................

  24 Tabel 2.4 Tabel Interprestasi Besarnya Nilai Koresi ………………………………

  26 Tabel 2.5 Tabel Contoh Hasil Analisis Korelasi di SPSS ………………………..

  26 Tabel 3.1 Tabel Output analisis korelasi dengan menggunakan SPSS …………….

  34 Tabel 3.2 Tabel rangkuman analisis korelasi ………………………………………..

  35 Tabel 3.3 Transformasi Data IPK ………………………………………………….

  36 Tabel 3.4 Deskripsi Masukan untuk Data Pelatihan…………………………………

  37 Tabel 3.5 Deskripsi Masukan untuk Data Uji……………………………………….

  38 Tabel 3.6 Tabel List Data Mahasiswa ……………………………………………….

  39 Tabel 5.1 Tabel Confusion Matrix untuk Pengujian pada Fold 1……………………

  95 Tabel 5.2 Tabel Confusion Matrix untuk Pengujian pada Fold 2 ……………………

  96 Tabel 5.3 Tabel Confusion Matrix untuk Pengujian pada Fold 3 ………………….

  97 Tabel 5.4 Tabel Confusion Matrix untuk Pengujian pada Fold 4 ………………….

  98 Tabel 5.5 Tabel Confusion Matrix untuk Pengujian pada Fold 5 ………………….

  99 Tabel 5.6 Tabel Confusion Matrix untuk Pengujian pada Fold 6 …………………. 100

Tabel 5.7 Tabel Confusion Matrix untuk Pengujian pada Fold 7 …………………. 101Tabel 5.8 Tabel Confusion Matrix untuk Pengujian pada Fold 8 …………………. 102Tabel 5.9 Tabel Confusion Matrix untuk Pengujian pada Fold 9 …………………. 103Tabel 5.10 Tabel Confusion Matrix untuk Pengujian pada Fold 10 …………………. 104Tabel 5.11 Tabel Confusion Matrix untuk Semua Iterasi ………………………….. 105Tabel 5.12 Tabel Pengujian Menggunakan tenfold Cross-Validation ……………… 106Tabel 5.13 Tabel Pengujian Cross-validation dengan k bervariasi ……………….. 107

  

DAFTAR GAMBAR

  56 Gambar 3.13 Diagram Sekuensial Simpan File Hasil Klasifikasi ………………………

  61 Gambar 3.20 Halaman Bantuan ………………………………………………………….

  61 Gambar 3.19 Halaman Proses Lanjutan ………………………………………………..

  60 Gambar 3.18 Halaman Proses ……………………………………………………………

  59 Gambar 3.17 Jendela Pilih File Masukan ………………………………………………..

  58 Gambar 3.16 Halaman Input Data ………………………………………………………

  58 Gambar 3.15 Halaman Awal dengan Submenu …………………………………………

  57 Gambar 3.14 Halaman Awal ……………………………………………………………..

  55 Gambar 3.11 Diagram Sekuensial Input Fold …………………………………………. 56 Gambar 3.12 Diagram Sekuensial Hitung Posterior …………………………………….

Gambar 2.1 Langkah Penambangan Data………………………………………………. 11

  55 Gambar 3.10 Diagram Sekuensial Detail Atribut ……………………………………….

  54 Gambar 3.9 Diagram Sekuensial Input Data ………………………………………….

  53 Gambar 3.8 Diagram Kelas …………………………………………………………..

  52 Gambar 3.7 Diagram Aktivitas Simpan File Hasil Klasifikasi ……………………….

  51 Gambar 3.5 Diagram Aktivitas Input Fold ………………………………………….. 52 Gambar 3.6 Diagram Aktivitas Hitung Posterior……………………………………….

  51 Gambar 3.4 Diagram Aktivitas Detail Atribut …………………………………………

  50 Gambar 3.3 Diagram Aktivitas Input Data …………………………………………….

Gambar 3.1 Use Case ………………………………………………………………... 43 Gambar 3.2 Diagram Konteks ………………………………………………………….

  62

Gambar 3.21 Halaman Tentang ………………………………………………………….

  63 Gambar 3.22 Jendela Pertanyaan Konfirmasi Keluar …………………………………..

  63 Gambar 4.1 Halaman Input Data ………………………………………………………

  65 Gambar 4.2 Proses Input Data Berhasil………………………………………………… 66

Gambar 4.3 Lihat Detail Atribut ………………………………………………………

  67 Gambar 4.4 Halaman Proses …………………………………………………………..

  67

BAB I PENDAHULUAN A. Latar Belakang Salah satu faktor penentu kesuksesan seorang mahasiswa dalam

  menempuh studi di perguruan tinggi adalah potensi akademik. Potensi akademik bisa terlihat dalam nilai tes masuk akademik. Semakin bagus potensi akademik seorang mahasiswa mestinya akan semakin sukses ia menempuh studi di perguruan tinggi. Kesuksesan ini bisa direpresentasikan dengan indeks prestasi kumulatif. Namun pada kenyataannya tidak semua mahasiswa yang mempunyai potensi akademik yang bagus mempunyai nilai IPK yang bagus pula. Hal ini memunculkan dugaan bahwa ada faktor lain yang mempengaruhi kesuksesan seorang mahasiswa dalam menempuh studi. Faktor lain tersebut bisa berupa motivasi dan latar belakang mahasiswa. Motivasi bisa tercermin dalam gelombang test masuk dan prioritas pilihan prodi sedangkan latar belakang mahasiswa bisa terlihat pada jurusan ketika di SMA.

  Maka perlu dijajaki apakah betul faktor yang berhubungan dengan motivasi dan latar belakang seorang mahasiswa tersebut benar-benar mempengaruhi keberhasilan studi seorang mahasiswa?

  Universitas Sanata Dharma sudah mempunyai data-data kemahasiswaan yang mencakup data penerimaan mahasiswa baru (PMB) dan data prestasi akademik mahasiswa dalam bentuk digital. Data digital tersebut bisa dimanfaatkan untuk diolah menggunakan teknik penambangan data dengan menggunakan algoritma naïve Bayesian sehingga bisa diklasifikasikan data mahasiswa yang mempunyai prestasi akademik yang kurang/memuaskan/sangat memuaskan/dengan pujian.

  Naïve Bayesian merupakan salah satu metode penambangan data yang

  digunakan pada persoalan klasifikasi. Algoritma naïve Bayesian akan menghitung probabilitas posterior untuk setiap nilai kejadian dari atribut target pada setiap kasus (sampel data). Selanjutnya, naïve Bayesian akan mengklasifikasikan sampel data tersebut ke kelas yang mempunyai nilai probabilitas posterior tertinggi. Maka hal yang akan dilakukan dengan algoritma naïve Bayesian adalah menghitung probabilitas posterior pada setiap sampel data untuk kelas IPK kurang, IPK memuaskan, IPK sangat memuaskan, dan IPK dengan pujian.

  Pada skripsi ini, penulis akan mengklasifikasikan data mahasiswa yang mempunyai prestasi akademik kurang/memuaskan/sangat memuaskan/dengan pujian berdasarkan data penerimaan mahasiswa baru (PMB) dan data prestasi akademik mahasiswa.

B. Rumusan Masalah

  Dari latar belakang di atas, terdapat masalah yaitu : Bagaimana mengklasifikasikan data mahasiswa yang mempunyai prestasi kurang/memuaskan/sangat memuaskan/dengan pujian berdasarkan data penerimaan mahasiswa baru (PMB) dan data prestasi akademik mahasiswa dengan menggunakan algoritma naïve Bayesian.

  C. Tujuan

  Tujuan pembuatan aplikasi ini adalah untuk : Mengklasifikasikan data mahasiswa yang mempunyai prestasi kurang/memuaskan/sangat memuaskan/dengan pujian berdasarkan data penerimaan mahasiswa baru (PMB) dan data prestasi akademik mahasiswa dengan menggunakan algoritma naïve Bayesian.

  D. Batasan Masalah

  Dalam membangun sistem ini terdapat batasan-batasan antara lain : 1.

  Klasifikasi prestasi mahasiswa hanya berdasarkan data gelombang tes masuk, pilihan prodi, prioritas pilihan prodi, jurusan di SMA dan nilai final tes masuk lima komponen : nilai tes penalaran verbal, nilai tes kemampuan numerik, nilai tes penalaran mekanik, nilai tes hubungan ruang, nilai tes bahasa Inggris.

2. Data kemahasiswaan yang digunakan adalah data PMB (Penerimaan

  Mahasiswa Baru) dan data akademik mahasiswa Teknik Informatika Fakultas Sains dan Teknologi Universitas Sanata Dharma yang mengikuti tes melalui jalur reguler dan jalur kerjasama yakni data gelombang tes masuk mahasiswa, pilihan prodi, prioritas pilihan prodi, jurusan di SMA dan nilai final tes masuk lima komponen yang terdiri dari nilai tes penalaran verbal, nilai tes kemampuan numerik, nilai tes penalaran mekanik, nilai tes hubungan ruang, nilai tes bahasa Inggris .

  Data kemahasiswaan yang digunakan tersebut adalah data tahun 2000,

  2001, 2002, 2003, 2004, 2005, 2006, 2007.

  3. Data IPK yang digunakan adalah data IPK sampai semester 4 dengan alasan bahwa pada akhir semester 4 terdapat evaluasi sisip program yang menentukan apakah mahasiswa yang bersangkutan boleh melanjutkan studi atau harus meninggalkan Program Studi yang bersangkutan. Mahasiswa boleh melanjutkan studi di Program studi yang bersangkutan apabila pada akhir semester 4 dapat mengumpulkan sekurang-kurangnya 40 SKS dengan IPK sekurang-kurangnya 2.00. Sistem yang dibuat ini dapat digunakan oleh Ketua Prodi Teknik Informatika atau dosen pembimbing akademik untuk memprediksi apakah pada evaluasi sisip program seorang mahasiswa boleh melanjutkan studi atau harus meninggalkan Program studi. Dengan adanya sistem ini baik Ketua Prodi maupun dosen pembimbing akademik bisa lebih peka dan kritis terhadap mahasiswa-mahasiswa yang diprediksikan tidak bisa melanjutkan studi dengan membuat kebijakan tentang bagaimana langkah yang harus diambil untuk mengupayakan agar mahasiswa-mahasiswa yang diprediksikan tidak bisa melanjutkan studinya tersebut bisa melanjutkan studi di Program Studi Teknik Informatika.

  4. Data IPK dikategorikan menjadi IPK memuaskan/sangat memuaskan/dengan pujian sesuai dengan buku panduan akademik mahasiswa Teknik Informatika dan dengan tambahan kategori kurang untuk mahasiswa yang memiliki IPK kurang dari 2, 00.

  5. Perangkat lunak yang digunakan untuk membangun sistem ini adalah adalah : sistem operasi Microsoft Windows XP profesional SP, bahasa pemrograman Java.

E. Metodologi Penelitian Metodologi penelitian dilakukan dengan teknik penambangan data.

  Langkah-langkahnya adalah sebagai berikut : 1.

  Pembersihan data yaitu menghilangkan noice dan menghilangkan data yang tidak konsisten.

  2. Integrasi data yaitu menggabungkan data dari bermacam-macam tempat penyimpanan data ke dalam satu tempat penyimpanan data yang koheren.

  3. Seleksi data yaitu data yang relevan diambil dari basis data. Pada langkah ini akan dilakukan analisis korelasi dengan SPSS untuk analisis fitur. Atribut-atribut data akan dicek apakah relevan untuk dilakukan penambangan data. Atribut yang tidak relevan ataupun atribut yang mengalami redundansi akan dibuang. Atribut yang diharapkan adalah atribut yang bersifat independen.

4. Transformasi data yaitu data ditransformasikan ke dalam bentuk yang tepat untuk ditambang dengan menampilkan kesimpulan operasi.

  5. Penambangan data yaitu mengaplikasikan metode yang tepat untuk mengekstrak pola data, yaitu dengan menggunakan metode naïve

  Bayesian. Metode naïve Bayesian didasarkan pada asumsi bahwa kehadiran/keberadaan fitur tertentu dari sebuah kelas tidak berhubungan dengan kehadiran/keberadaan fitur lainnya. Artinya, efek yang ditimbulkan dari sebuah nilai atribut dari sebuah kelas adalah independen dengan nilai atribut lainnya.

  6. Evaluasi pola yaitu mengidentifikasi pola yang benar berdasarkan beberapa pengukuran yang penting.

  7. Presentasi pengetahuan yaitu mempresentasikan informasi yang sudah ditambang kepada pengguna.

F. Sistematika Penulisan

  BAB I PENDAHULUAN Bab ini berisi tentang latar belakang masalah, batasan

  masalah, tujuan, batasan masalah, dan metodologi penelitian.

  BAB II LANDASAN TEORI Bab ini berisi tentang dasar teori yang yang berkaitan

  dengan judul/masalah di tugas akhir yaitu teori tentang penambangan data dan algoritma naive bayesian.

  BAB III ANALISIS DAN PERANCANGAN SISTEM Bab ini berisi tentang cara penerapan konsep dasar yang

  telah diuraikan pada bab sebelumnya yaitu pada bab 2 untuk menganalisa dan merancang tentang sistem yang dibuat.

BAB IV IMPLEMENTASI SISTEM Bab ini berisi tentang implementasi ke program komputer berdasarkan hasil perancangan yang telah dibuat. BAB V ANALISIS HASIL Bab ini berisi tentang analisis perangkat lunak yang sudah dibuat, beserta kelebihan dan kekurangan pada sistem. BAB VI PENUTUP Bab ini berisi tentang kesimpulan dan saran dari penulisan tugas akhir.

BAB II LANDASAN TEORI A. Penambangan Data Sebuah organisasi pasti mempunyai sekumpulan data dengan jumlah yang

  besar. Untuk bisa berkompetisi dengan efektif dan bisa mendapatkan banyak keuntungan dari setiap kesempatan, pengambil keputusan perlu mengidentifikasi dan menggunakan informasi yang ada dari sekumpulan data tadi. Maka dari itu diperlukanlah penambangan data .

  Penambangan data ( data mining) berkenaan dengan mengekstrak atau menambang informasi/pengetahuan dari sekumpulan data dengan jumlah yang sangat besar. Secara fungsional, penambangan data adalah proses dari pengumpulan informasi penting dari sejumlah data yang besar yang tersimpan di basis data, gudang data, atau tempat penyimpanan informasi lainnya (Han&Kamber, 2006).

  Secara sederhana, penambangan data adalah langkah-langkah dalam mendapatkan/menemukan pengetahuan (Han&Kamber, 2006). Penemuan pengetahuan ini merupakan sebuah proses seperti ditunjukkan pada gambar 2.1 dan terdiri dari urutan-urutan sebagai berikut :

1. Pembersihan data (data cleaning) Pada langkah ini noice dan data yang tidak konsisten akan dihapus.

  Langkah pertama yang dilakukan dalam proses pembersihan data ( data cleaning atau disebut juga data cleansing) adalah deteksi ketidakcocokan.

  Ketidakcocokan tersebut dapat disebabkan oleh beberapa faktor antara lain desain form masukan data yang kurang baik sehingga menyebabkan munculnya banyak field, adanya kesalahan petugas ketika memasukkan data, adanya kesalahan yang disengaja dan adanya data yang busuk.

  2. Integrasi data (data integration) Pada langkah ini akan dilakukan penggabungan data. Data dari bermacam- macam tempat penyimpanan data akan digabungkan ke dalam satu tempat penyimpanan data yang koheren. Macam-macam tempat penyimpanan data tersebut termasuk

  multiple database, data cube, atau file flat. Pada

  langkah ini, ada beberapa hal yang perlu diperhatikan yaitu integrasi skema dan pencocokan objek, redundansi data, deteksi dan resolusi konflik nilai data. Selama melakukan integrasi data, hal yang perlu dipertimbangkan secara khusus adalah masalah struktur data. Struktur data perlu diperhatikan ketika mencocokkan atribut dari satu basis data ke basis data lain.

  3. Seleksi data (data selection) Data yang relevan akan diambil dari basis data untuk dianalisis. Pada langkah ini akan dilakukan analisis korelasi untuk analisi fitur. Atribut- atribut data akan dicek apakah relevan untuk dilakukan penambangan data. Atribut yang tidak relevan ataupun atribut yang mengalami redundansi tidak akan digunakan. Atribut yang diharapkan adalah atribut yang bersifat independen. Artinya, antara atribut satu dengan atribut yang lain tidak saling mempengaruhi.

  4. Transformasi data (data transformation) Data ditransformasikan ke dalam bentuk yang tepat untuk ditambang.

  Yang termasuk dalam langkah transformasi data adalah penghalusan ( smooting) yaitu menghilangkan noise yang ada pada data, pengumpulan

  (aggregation) yaitu mengaplikasikan kesimpulan pada data, generalisasi (generalization) yaitu mengganti data primitif/data level rendah menjadi

  data level tinggi

  ), normalisasi (normalization) yaitu mengemas data atribut

  ke dalam skala yang kecil, sebagai contoh -1.0 sampai 1.0

  , dan konstruksi

  atribut/fitur

   (attribute construction/feature construction) yaitu

  mengkonstruksi dan menambahkan atribut baru untuk membantu proses penambangan.

  5. Penambangan data (data mining) Langkah ini adalah langkah yang penting di mana akan diaplikasikan metode yang tepat untuk mengekstrak pola data.

  6. Evaluasi pola (pattern evaluation) Langkah ini berguna untuk mengidentifikasi pola yang benar dan menarik.

  Pola tersebut akan direpresentasikan dalam bentuk pengetahuan berdasarkan beberapa pengukuran yang penting.

  7. Presentasi pengetahuan (knowledge presentation) Pada langkah ini informasi yang sudah ditambang akan divisualisasikan dan direpresentasikan kepada pengguna.

  Langkah 1 sampai dengan langkah 4 merupakan langkah praproses data di mana data akan disiapkan terlebih dahulu selanjutnya dilakukan penambangan. Pada langkah penambangan data, pengguna atau basis pengetahuan bisa dilibatkan. Kemudian pola yang menarik akan direpresentasikan kepada pengguna dan akan disimpan sebagai pengetahuan yang baru. Sebagai catatan, dalam urutan proses di atas, penambangan data hanya terdapat pada satu langkah. Walaupun penambangan data hanya terdapat dalam satu langkah, penambangan data merupakan langkah yang penting karena bisa menemukan pola tersembunyi yang nantinya akan dievaluasi.

Dokumen yang terkait

Deteksi Outlier menggunakan algoritma Block-Based Nested-Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma.

0 2 202

Deteksi outlier menggunakan Algoritma Connectivity Based Outlier Factor studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma

1 8 250

Deteksi outlier menggunakan Algoritma Local Outlier Probability studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma

1 9 263

Deteksi Outlier menggunakan algoritma Block Based Nested Loop studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma

0 1 200

Deteksi outlier menggunakan Algoritma Local Correlation Integral (LOCI) studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma

0 4 256

Simulasi sistem pengarsipan [dokumentasi skripsi] di Teknik Informatika Universitas Sanata Dharma - USD Repository

0 1 126

Implementasi algoritma K-Means untuk memprediksi nilai mahasiswa : studi kasus mahasiswa Teknik Informatika Universitas Sanata Dharma - USD Repository

0 1 76

Pencarian karakteristik calon mahasiswa baru Universitas Sanata Dharma yang tidak mendaftar ulang dengan menggunakan algoritma pohon - USD Repository

0 0 123

Pendaftaran kerja praktek menggunakan JSP dengan Framework Apache Struts : studi kasus Teknik Informatika Universitas Sanata Dharma - USD Repository

0 0 186

SPPK penjadwalan kuliah dengan algoritma genetika : studi kasus Jurusan Teknik Informatika Universitas Sanata Dharma Yogyakarta - USD Repository

0 0 101