Perbandingan Kinerja Algoritma Decision Tree ID3 Dan CART Pada Penjurusan Siswa SMA Berdasarkan Nilai Ujian SMP Dan Nilai Rapor Kelas X (Studi Kasus Pada SMA Kristen Bentara Wacana Muntilan) Skripsi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Perbandingan Kinerja Algoritma Decision Tree ID3 Dan CART Pada Penjurusan Siswa SMA Berdasarkan Nilai Ujian SMP Dan Nilai Rapor Kelas X (Studi Kasus Pada SMA Kristen Bentara Wacana Muntilan) Skripsi

Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer

Oleh : Maria Anindita Febri Apsari

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Comparison Performance of Decision Tree Algorithm ID3 and CART at

Field of Study Senior High School Based on Examination Value Junior

High School and Report Value in Ten Class

(Case Study at Bentara Wacana Christian Senior High School Muntilan)

A Thesis

Presented as Partial Fullfillment of the Requirements To Obtain the Sarjana Teknik Degree

In Study Program of Informatics Engineering

By :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

HALAMAN PERSEMBAHAN

Se g al a pe r kar a d apat

ku t an g g u n g d i d al am Di a y an g

me mb e r i ke ku at an ke pad aku

(Fi l i pi 4 : 13 )

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PERBANDINGAN KINERJA ALGORITMA DECISION TREE ID3 DAN CART PADA PENJURUSAN SISWA SMA BERDASARKAN NILAI UJIAN SMP DAN NILAI RAPOR KELAS X

Studi Kasus SMA Kristen Bentara Wacana Muntilan

Maria Anindita Febri Apsari ABSTRAK

Penelitian ini bertujuan untuk membandingkan kinerja dua algoritma

decision tree yaitu algoritma ID3 dan CART yang diterapkan pada kasus

penentuan jurusan SMA. Adapun jurusan yang dihasilkan adalah jurusan IPA dan

IPS. Data yang digunakan adalah data nilai ujian SMP dan nilai rapor kelas X SMA Kristen Bentara Wacana tahun ajaran 2005/2006-2008/2009. Sistem yang dibangun diuji menggunakan tiga macam kriteria pengujian yaitu 3-fold

validation, 5-fold validation dan perbandingan jumlah data. Pengujian dengan k- fold validation menggunakan tiga macam cara pembagian data yaitu indeks,

random dan per jurusan. Dari hasil pengujian yang telah dilakukan dapat disimpulkan bahwa algoritma CART lebih baik daripada algoritma ID3 pada kasus penentuan jurusan siswa dengan jumlah data training 229 record. Prosentase hasil akurasi dari tiga macam pengujian menunjukkan angka yang

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

COMPARISON PERFORMANCE OF DECISION TREE ALGORITHM

ID3 AND CART AT FIELD OF STUDY SENIOR HIGH SCHOOL

BASED ON EXAMINATION VALUE JUNIOR HIGH SCHOOL AND

REPORT VALUE IN TEN CLASS

Case Study Bentara Wacana Christian Senior High School

Maria Anindita Febri Apsari

ABSTRACT

This study aims to compare the performance of two decision tree algorithms ID3 and CART algorithms are applied to the case of the determination of high school majors. The majors that are generated are science and social studies majors. The data used is the junior high school exam value and value class X 2005/2006-2008/2009 academic year. The system built was tested using three different testing criteria that is 3-fold validation, 5-fold validation and comparison of the amount of data. Testing with the k-fold validation using three different ways of data sharing is an index, random and major. From the results of the testing that has been done can be concluded that the CART algorithm is better than ID3 algorithm in the case of students majoring in the determination of the amount of training data 229 record. Percentage accuracy of the

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

KATA PENGANTAR

Puji dan syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa atas segala limpahan berkat dan penyertaan sehingga penulis bisa menyelesaikan tugas akhir yang berjudul “Perbandingan Kinerja Algoritma Decision Tree ID3 dan

CART Pada Penjurusan Siswa SMA Berdasarkan Nilai Ujian SMP dan Nilai

Rapor Kelas X (Studi Kasus SMA Kristen Bentara Wacana)”. Tugas akhir

ini ditulis sebagai salah satu syarat memperoleh gelar sarjana program studi Teknik Informatika, Fakultas Sains dan Teknologi Universitas Sanata Dharma.

Terima kasih sebesar-besarnya kepada semua pihak yang turut memberikan dukungan, semangat dan bantuan sehingga terselesaikannya skripsi ini : kaprodi Teknik Informatika yang sudah membantu dan membimbing saya dalam menyelesaikan tugas akhir ini.

2. Ibu P.H. Prima Rosa, S.Si, M.Sc, dan Romo Dr. C. Kuntoro Adi, S.J, M.A, M.Sc sebagai dosen penguji atas kritik dan saran yang telah diberikan.

3. Seluruh staff pengajar dan laboran serta pihak sekretariat Prodi Teknik Informatika Fakultas Sains dan Teknologi Universitas Sanata Dharma.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI DAFTAR ISI

HALAMAN JUDUL……………………………………………………………… i HALAMAN JUDUL (INGGRIS)……………………………….……………… ii HALAMAN PERSETUJUAN………………………………………………….. iii HALAMAN PENGESAHAN ............................... Error! Bookmark not defined.

HALAMAN PERSEMBAHAN ............................ Error! Bookmark not defined. HALAMAN KEASLIAN KARYA ....................... Error! Bookmark not defined. ABSTRAK ............................................................. Error! Bookmark not defined. ABSTRACT ........................................................... Error! Bookmark not defined. LEMBAR PERSETUJUAN PUBLIKASI…………………………………………………………….……….. ix KATA PENGANTAR ........................................... Error! Bookmark not defined.

BAB I ..................................................................... Error! Bookmark not defined.

PENDAHULUAN ................................................. Error! Bookmark not defined.

1.1 Latar Belakang ............................................ Error! Bookmark not defined.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 2.2 Teknik Data Mining ..................................... Error! Bookmark not defined.

2.2.1 Klasifikasi .............................................. Error! Bookmark not defined.

2.3 Pohon Keputusan (Decision Tree) ............... Error! Bookmark not defined.

2.4 Pohon Keputusan Induksi ............................. Error! Bookmark not defined.

2.4.1 ID3 (Iterative Dichotomiser) ................. Error! Bookmark not defined.

2.4.2 CART (Classification and Regression Tree) ........Error! Bookmark not defined.

2.5 Attribute Selection Measures ....................... Error! Bookmark not defined.

2.5.1 Information Gain ................................... Error! Bookmark not defined.

2.5.2 Gain Ratio .............................................. Error! Bookmark not defined.

2.5.3 Gini Index .............................................. Error! Bookmark not defined.

2.6 Korelasi dan Regresi .................................... Error! Bookmark not defined.

2.7 Perbandingan Performasi Algoritma ............ Error! Bookmark not defined.

Error! Bookmark not

2.7.1 Pengukuran Kinerja Berdasarkan Komposisi Data defined.

2.7.2 Pengukuran Kinerja Berdasarkan Jumlah Data ....Error! Bookmark not defined.

BAB III .................................................................. Error! Bookmark not defined. ANALISIS DAN PERANCANGAN SISTEM ..... Error! Bookmark not defined.

3.1 Identifikasi Sistem ........................................ Error! Bookmark not defined.

3.2 Sumber Data ................................................. Error! Bookmark not defined.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 3.4.4 Diagram Aktivitas .................................. Error! Bookmark not defined.

3.4.5 Diagram Kelas Desain ........................... Error! Bookmark not defined.

3.4.6 Algoritma dan Method .......................... Error! Bookmark not defined.

3.4.7 Desain Basis Data .................................. Error! Bookmark not defined.

3.4.8 Diagram Analisis dan Sekuensial .......... Error! Bookmark not defined.

3.4.9 Perancangan Struktur Data .................... Error! Bookmark not defined.

3.4.10 Desain Antarmuka ............................... Error! Bookmark not defined.

BAB IV .................................................................. Error! Bookmark not defined. IMPLEMENTASI SISTEM ................................... Error! Bookmark not defined.

4.1 Spesifikasi Software dan Hardware ............ Error! Bookmark not defined.

4.2 Implementasi ................................................ Error! Bookmark not defined.

4.2.1 Implementasi Data ................................. Error! Bookmark not defined.

4.2.2 Implementasi Use Case ......................... Error! Bookmark not defined.

4.2.3 Implementasi Diagram Kelas ................ Error! Bookmark not defined.

5.1 Penyelesaian Rumusan Masalah .................. Error! Bookmark not defined.

5.2 Pengukuran Kinerja Sistem .......................... Error! Bookmark not defined.

5.2.1 Pengukuran Kinerja 3-Fold Validation .. Error! Bookmark not defined.

5.2.2 Pengukuran Kinerja 5-Fold Validation .. Error! Bookmark not defined.

5.2.4 Evaluasi Pengukuran Kinerja Sistem ..... Error! Bookmark not defined.

5.2.5 Analisis Bentuk Pohon Keputusan ... Error! Bookmark not defined.

DAFTAR TABEL

Tabel 3.1 Jumlah Record Data dengan Missing Value…………………

26 Tabel 3.2 Jumlah Record Data Integrasi……………………………..

26 Tabel 3.3 Atribut yang Relevan dalam Penelitian……………………

27 Tabel 3.4 Perhitungan Rata-Rata Nilai Rapor Semester 1 dan

28 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Tabel 3.9 Narasi Use Case Input Data Nilai Siswa………………….

37 Tabel 3.10 Narasi Use Case Preprocessing……………………………

38 Tabel 3.11 Narasi Use Case Pembentukan Pohon Keputusan….…….

39 Tabel 3.12 Narasi Use Case Pengujian Algoritma……………………

40 Tabel 3.13 Kelas Analisis Diagram Sekuensial Input Nilai Siswa……

56 Tabel 3.14 Kelas Analisis Diagram Sekuensial Preprocessing……….

57 Tabel 3.15 Kelas Analisis Diagram Sekuensial Pembentukan Pohon

59 Keputusan………………………………………………… Tabel 3.16 Kelas Analisis Diagram Sekuensial Pengujian Algoritma..

60 Tabel 3.17 Struktur Data………………………………………………

61 Tabel 5.1 Tabel Data dan Pola Pohon Keputusan…………………… 163

Tabel 5.2 Hasil Uji Korelasi…………………………………………. 164

Tabel Pengujian menggunakan ID3 3-Fold Validation

Tabel 5.3 167 Berdasarkan Indeks…………………………………………..

Tabel Pengujian menggunakan CART 3-Fold Validation

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Berdasarkan Indeks ……………………………………………..

Tabel Pengujian menggunakan CART 5-Fold Validation

Tabel 5.9 170

Berdasarkan Indeks…………………………………………

Tabel 5.10 Tabel Pengujian 5-Fold Validation Secara Random……… 171Tabel 5.11 Tabel Pengujian 5-Fold Validation Per Jurusan………….. 171 Hasil Pengujian Kinerja Sistem 5-Fold Validation…………..

Tabel 5.12 172

Tabel Pengujian Algoritma ID3 Berdasarkan Jumlah Data

Tabel 5.13 172

Uji 1………………………………………………………… Tabel Pengujian Algoritma CART Berdasarkan Jumlah Data

Tabel 5.14 173 Uji 1………………………………………………………….

Hasil Pengujian Kinerja Berdasarkan Jumlah Data Uji 1…….

Tabel 5.15 173

Tabel Pengujian Algoritma ID3 Berdasarkan Jumlah Data

Tabel 5.16 174

Uji 2………………………………………………………… Tabel Pengujian Algoritma CART Berdasarkan Jumlah Data

Tabel 5.17 174 Uji 2…………………………………………………………..

Hasil Pengujian Kinerja Berdasarkan Jumlah Data Uji 2…….

Tabel 5.18 175

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Tabel 5.23 Pengujian Kinerja Sistem Berdasarkan Komposisi Data 178 dan Perbandingan Jumlah Data……………………………Tabel 5.24 Hasil Pengujian Akurasi Algoritma Decision Tree ………. 181Tabel 5.25 Perbandingan Hasil k-Fold Validation dengan Weka…….. 181Tabel 5.26 Penyebaran Node Pohon Keputusan………………………. 184

DAFTAR GAMBAR

Gambar 2.1 Tahap-tahap Data Mining………………………………………

8 Gambar 2.2 Contoh Pohon Keputusan..……………………………………..

11 Gambar 2.3 Jika Atribut A di Simpul Uji Bernilai Diskrit….…………………

14 Gambar 2.4 Jika Atribut A di Simpul Uji Bernilai Kontinu…………………

14 Gambar 2.5 Jika Atribut A di Simpul Uji Bernilai Diskrit dan Pohon Keputusan yang Dihasilkan Harus Biner……………………….

15 Gambar 3.1 Contoh Pembagian Data Algoritma ID3……………………….

33 Gambar 3.2 Contoh Pembagian Data Algoritma CART…………………….

33 Gambar 3.3 Pengelompokan Data Untuk Proses Evaluasi Komposisi Data..

34 Gambar 3.4 Pengelompokan Data Untuk Proses Evaluasi Komposisi Data..

35 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 3.10 Diagram Aktivitas Pengujian Algoritma..……………………..

43 Gambar 3.11 Diagram Kelas Keseluruhan……………………………………

44 Gambar 3.12 Diagram Kelas Input Data Nilai Siswa………………………..

45 Gambar 3.13 Diagram Kelas Preprocessing………………………………………..

46 Gambar 3.14 Diagram Kelas Pembentukan Pohon Keputusan………………...

47 Gambar 3.15(a) Diagram Kelas Pengujian Algoritma…………………………….

48 Gambat 3.15(b)

Diagram Kelas Pengujian Algoritma……………………………

49 Gambar 3.16 Desain Fisik Basis Data………………………………………….

56 Gambar 3.17 Diagram Sekuensial Input Nilai Siswa………………………….

57 Gambar 3.18 Diagram Sekuensial Preprocessing……..………………………….

58 Gambar 3.19 Diagram Sekuensial Pohon Keputusan………………………….

59 Gambar 3.20 Diagram Sekuensial Pengujian Algoritma………………………

61 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 3.26 Pesan Belum Pilih Pengujian…………………………………….

64 Gambar 3.27 Desain Antarmuka Halaman Lihat Pohon Keputusan………….

65 Gambar 3.28 Desain Antarmuka Halaman Hasil Pengujian…………………..

65 Gambar 3.29 Desain Antarmuka Halaman Bantuan…………………………..

66 Gambar 3.30 Desain Antarmuka Halaman Tentang Kami…………………….

66 Gambar 4.1 Tampilan Halaman Utama………………………………………

68 Gambar 4.2 Tampilan Halaman Input Nilai Siswa………………………….

69 Gambar 4.3 Tampilan Jika Menekan Tombol Browse……………………..

69 Gambar 4.4 Tampilan Hasil Input Nilai Siswa……………………………….

70 Gambar 4.5 Pesan Nilai Asli Tersimpan di Database………………………

70 Gambar 4.6 Tampilan Hasil Preprocessing…………………………………..

71 Gambar 4.7 Tampilan Halaman Lihat Pohon Keputusan……………………

72 Gambar 4.8 Pesan Belum Input Data Siswa…………………………………

73 Gambar 4.9 Pesan Belum Tranformasi………………………………………

73 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 4.15 Tampilan Halaman Tentang Kami………………………………

77 Gambar 5.1 Hasil Penentuan Jurusan dengan Pohon Keputusan ID3 dan CART………………………………………………………... 165

Gambar 5.2 Hasil Pengujian Berdasarkan Perbandingan Jumlah Data Uji 1 173Gambar 5.3 Hasil Pengujian Berdasarkan Perbandingan Jumlah Data Uji 2 176Gambar 5.4 Hasil Pengujian Berdasarkan Perbandingan Jumlah Data Uji 3 177Gambar 5.5 Grafik Akurasi Pengujian Berdasarkan Komposisi Data…….. 179Gambar 5.6 Grafik Kecepatan Komputasi Pengujian Berdasarkan Komposisi

Data……………………………………………………………… 180

Gambar 5.7 Hasil Pohon Keputusan ID3 dan CART……………………….. 182

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB I PENDAHULUAN

1.1 Latar Belakang

Salah satu cara untuk mencerdaskan kehidupan bangsa yaitu dengan cara memberikan pendidikan yang baik bagi para penerus bangsa. Mengenai arti dari pendidikan itu sendiri, Kustejo (2010) menyatakan bahwa pendidikan merupakan usaha sadar dan terencana untuk mewujudkan suasana belajar dan proses pembelajaran agar peserta didik secara aktif mengembangkan potensi dirinya untuk memiliki kekuatan spiritual keagamaan, pengendalian diri, kepribadian, kecerdasan, akhlak mulia, serta ketrampilan yang diperlukan dirinya, masyarakat, bangsa dan negara.

Untuk mendapatkan pendidikan yang baik salah satu cara yang bisa ditempuh yaitu dengan bersekolah. Menurut Ramli (2008) bersekolah merupakan kebutuhan setiap manusia dalam upaya menambah kualitas hidupnya. Dengan bersekolah maka akan didapatkan suatu ilmu pengetahuan yang nantinya bisa menjadi bekal

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

bagi seorang siswa pun bukan merupakan hal yang mudah bagi pihak sekolah karena banyak faktor harus dipertimbangkan sesuai dengan kemampuan akademis yang dimiliki seorang siswa. Kemampuan akademis seorang siswa yang menonjol di bidangnya dapat diukur dengan melihat nilai rapor. Padahal setiap tahunnya ada puluhan siswa yang harus ditentukan jurusan yang tepat untuknya. Kesalahan dalam perhitungan bisa menyebabkan siswa tersebut terjebak dalam penjurusan yang tidak sesuai dengan kemampuan akademisnya sehingga mempengaruhi siswa dalam menentukan masa depannya kelak.

Dengan melihat masalah yang ada, maka dilakukan suatu penelitian untuk mengelompokkan penjurusan siswa SMA berdasarkan nilai ujian SMP dan nilai rapor kelas X. Nilai rapor digunakan karena menyatakan hasil belajar siswa, sedangkan nilai ujian SMP digunakan karena latar belakang pendidikan ketika di SMP juga bisa berpengaruh terhadap penjurusan SMA.

Nilai ujian SMP yang digunakan hanyalah nilai ujian yang berpengaruh terhadap penjurusan SMA yaitu nilai Matematika, IPA dan IPS. Nilai rapor yang digunakan juga yang mempengaruhi penjurusan yaitu nilai Matematika, Sejarah, Ekonomi, Geografi, Sosiologi, Fisika, Kimia dan Biologi. Penelitian ini mengambil objek SMA Kristen Bentara Wacana Muntilan yang setiap tahunnya memberikan rekomendasi penjurusan kepada siswa-siswinya sehingga dari

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

kedua algoritma ini memberikan visualisasi pohon yang berbeda. Dengan model yang berbeda dapat memberikan keakuratan yang berbeda juga. Untuk itu akan dilakukan penelitian Perbandingan Kinerja Algoritma Decision Tree ID3 dan CART pada Penjurusan SMA Berdasarkan Nilai Ujian SMP dan Nilai Kelas X.

1.2 Rumusan Masalah

Permasalahan yang akan dirumuskan dalam penelitian ini adalah :

1. Bagaimanakah menentukan jurusan bagi siswa SMA dengan menerapkan algoritma ID3 dan CART?

2. Bagaimana membangun suatu sistem untuk menentukan jurusan bagi siswa SMA dengan menerapkan algoritma ID3 dan CART?

3. Bagaimanakah perbandingan kinerja algoritma ID3 dengan CART?

1.3 Tujuan

Tujuan dari penelitian ini yaitu membangun suatu sistem yang dapat membandingkan kinerja algoritma ID3 dan CART pada kasus penentuan penjurusan siswa SMA berdasarkan pada nilai ujian SMP dan nilai rapor kelas X untuk melihat akurasi dan kecepatan komputasi dengan membandingkan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

3. Sistem ini hanya digunakan untuk membandingkan akurasi dan kecepatan komputasi sistem berdasarkan komposisi dan perbandingan jumlah data.

4. Data yang digunakan berasal dari nilai ujian SMP dan nilai rapor kelas X siswa tahun ajaran 2005/2006 – 2008/2009

1.5 Metodologi Penelitian

Metode yang digunakan dalam penelitian ini adalah :

1. Studi Pustaka Mempelajari bahan-bahan tertulis seperti buku cetak, makalah dan tutorial yang ada kaitannya dengan pengembangan sistem.

2. Wawancara Melakukan studi dengan metode wawancara kepada dosen, kepala sekolah, guru ataupun pihak-pihak yang berhubungan dengan permasalahan yang dibahas dalam penelitian ini.

3. Pengumpulan data Mengumpulkan data-data yang berkaitan dengan sistem yang dikerjakan.

4. Perancangan Model Decision Tree Perancangan model Decision Tree menggunakan Metode KDD (Knowledge Discovery in Database) meliputi :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

d. Data Transformation

Pada tahap ini akan dilakukan pemilihan data untuk menentukan kualitas data mining, sehingga data dapat diubah menjadi bentuk yang sesuai untuk di-Mining.

Data Mining e.

Proses esensial untuk mengekstrak pola dari data dengan metode data mining.

Pattern Evaluation f.

Pada tahap ini, knowledge atau pola yang didapat dari proses penambangan data akan dievaluasi dengan hipotesa yang telah dibentuk sebelumnya.

Penyajian pengetahuan yang digali kepada pengguna dengan menggunakan visualisasi dan teknik representasi pengetahuan.

1.6 Sistematika Penulisan

Penulisan penelitian ini tersusun dari 5 (lima) bab dengan sistematika

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB III ANALISA DAN PERANCANGAN SISTEM Bab ini berisi tentang identifikasi sistem, tahap-tahap KDD (Knowledge Discovery in Database), perancangan umum sistem, perancangan basis data dan perancangan antar muka.

BAB IV IMPLEMENTASI SISTEM Bab ini berisi tentang spesifikasi software dan hardware, implementasi

sistem yang meliputi implementasi data, implementasi use case dan implementasi diagram kelas.

BAB V ANALISIS SISTEM Bab ini berisi tentang pembahasan program yang telah dibangun. BAB VI PENUTUP Bab ini berisi tentang kesimpulan dan saran.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB II LANDASAN TEORI Pada bab ini akan dipaparkan teori-teori yang menjadi landasan proses

pengerjaan penelitian ini. Penelitian ini bertujuan untuk membandingkan kinerja algoritma data mining. Dalam hal ini akan dibandingkan dua algoritma decision

tree yaitu algoritma ID3 (Iterative Dichotomiser) dan CART (Classification and

Regression Tree). Dengan dua model algoritma yang berbeda akan memberikan

keakuratan yang berbeda pula. Kinerja kedua algoritma tersebut akan diukur berdasarkan komposisi data dan jumlah data sehingga akan didapatkan akurasi dan kecepatan sistem untuk masing-masing algoritma.

2.1 Data Mining

Menurut Kusnawi (2007) pengertian dari data mining adalah sebagai berikut “data mining merupakan salah satu bidang yang berkembang pesat karena adanya kebutuhan akan nilai tambah dari database skala besar yang makin banyak terakumulasi sejalan dengan berkembangnya teknologi informasi”. Pertumbuhan akumulasi data menciptakan suatu kondisi yang sering disebut “rich of data but

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi keputusan yang bermanfaat.

Data mining seharusnya dipahami sebagai suatu proses yang memiliki

tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya. Tahap-tahap data mining menurut Han, Kamber (2006 ) dipaparkan pada gambar 2.1 berikut ini :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

1. Data Cleaning / Pembersihan data Digunakan untuk pengisian data yang kosong dan membuang data yang tidak konsisten.

2. Data Integration / Intergrasi Data Data yang diperlukan untuk data mining tidak hanya berasal dari satu

database tetapi juga berasal dari beberapa database atau file teks. Hasil

integrasi data sering diwujudkan dalam sebuah data warehouse karena dengan data warehouse, data dikonsolidasikan dengan struktur khusus yang efisien. Selain itu data warehouse juga memungkinkan tipe analisa seperti OLAP.

3. Data Transformation / Transformasi data Transformasi dan pemilihan data ini untuk menentukan kualitas dari hasil data mining, sehingga data diubah menjadi bentuk sesuai untuk di-Mining.

4. Data Mining / Aplikasi Teknik Data Mining Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai yaitu klasifikasi, clustering dan asosiasi.

5. Pattern Evaluation / Evaluasi pola yang ditemukan Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.2.1 Klasifikasi

Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah didefinisikan.Teknik ini dapat memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah aturan. Aturan-aturan tersebut digunakan pada data-data baru untuk diklasifikasi. Teknik ini menggunakan supervised induction, yang memanfaatkan kumpulan pengujian dari

record yang terklasifikasi untuk menentukan kelas-kelas tambahan. Salah satu

contoh yang mudah dan popular adalah dengan decision tree.

2.3 Pohon Keputusan (Decision Tree)

Tentang pohon keputusan Kusrini (2009) menyatakan bahwa “pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan ini mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan”.

Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

menginterpretasikan solusi dari permasalahan, bisa dijadikan tool pengambilan keputusan terakhir dan dapat mengubah keputusan yang kompleks menjadi lebih

simple, spesifik dan mudah.

Adapun kekurangan pohon keputusan diantaranya kesulitan dalam mendesain pohon keputusan yang optimal, hasil keputusan yang didapat dari metode pohon keputusan sangat tergantung pada bagaimana pohon keputusan tersebut didesain, terjadi overlap terutama kelas-kelas dan kriteria yang digunakan jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan meningkatnya waktu pengambilan keputusan dan jumlah memori yang diperlukan. Tetapi ketika kriterianya lebih simple tentu saja pengambilan keputusannya menjadi lebih cepat serta pengakumulasian jumlah error dari setiap tingkat dalam sebuah pohon keputusan yang besar. Gambar 2.2 merupakan salah satu contoh pohon keputusan untuk menentukan bermain tenis atau tidaknya seseorang dengan mempertimbangkan kelembapan (humidity), cuaca (outlook) dan berangin (windy). _Humidity ₁ _1.1 High Normal

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.4 Pohon Keputusan Induksi

Sejak akhir tahun 1970 sampai awal tahun 1980, J.RossQuinlan, peneliti mesin pembelajaran, mengembangkan algoritma pohon keputusan yang dikenal dengan nama ID3 (Iterative Dichotomiser). Quinlan kemudian memperkenalkan C4.5 (pengganti ID3) yang menjadi tolak ukur pembanding supervised learning

algorithm. Pada tahun 1984 kelompok ahli statistic (L. Breiman, J.Friedman, R.

Olshen, and C. Stone) menerbitkan buku Classification and Regression Trees (CART), dideskripsikan sebagai generasi pohon keputusan biner.

Menurut Han,J., Kamber,M (2006) ID3, C45 dan CART memiliki karakteristik yang sama dalam membangun pohon keputusan, yaitu top-down dan

divide-conquer. Top-down artinya pohon keputusan dibangun dari simpul akar ke

simpul daun. Divide-conquer artinya training data secara rekursif dipartisi ke dalam bagian-bagian yang lebih kecil saat pembangunan pohon. Biner tidaknya pohon keputusan ditentukan oleh attribbute selection measures atau algoritma yang digunakan. Secara umum algoritma dasar dalam pembangunan pohon keputusan adalah sebagai berikut.

Algoritma dasar untuk pohon keputusan menurut Han,J., Kamber,M (2006) :

Algorithm : Generate_decision_tree.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

information gain; (7) label node N with test-attribute; _i (8) for each known value a of test-attribute; _i (9) grow a branch from node N for the condition test-attribute = a ; _i _i (10) let s be the set of samples in samples for which test-attribute = a ; // a partition _i (11) if s is empty then (12) attach a leaf labeled with the most common class in samples; _i (13) else attach the node returned by Generate_decision_tree (s , attribute-listtest- attribute);

Algoritma di atas dapat dijelaskan sebagai berikut. Awalnya pohon hanya memiliki sebuah simpul, N, yang mewakili seluruh training data di D. Jika seluruh tuples di D memiliki kelas yang sama, maka simpul N diubah menjadi daun dan dilabeli dengan nama kelas tersebut. Sebaliknya, jika tuple-tuple di D memiliki kelas yang berbeda-beda, maka dipanggil attribute_selection_method untuk menentukan kriteria terbaik dalam mempartisi data dengan menggunakan

attribute selection measures. Kemudian, simpul N dilabeli dengan splitting

attribute yang diperoleh dari Attribute_selection_method dan sebuah

cabang akan dibangkitkan untuk setiap hasil pengujian pada simpul N. Selanjutnya, tuple-tuple di D akan dipartisi sesuai dengan hasil pengujian tersebut. Terdapat tiga skenario yang mungkin dalam mempartisi D. Misalkan A adalah

14 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI _{green orange} Color ? red purple blue

Gambar 2.3 Jika atribut A di simpul uji bernilai diskrit

(Sumber : Han,J., Kamber,M (2006)) ii. Jika A memiliki nilai-nilai yang kontinu, maka hasil pengujian pada simpul N akan menghasilkan dua cabang, yaitu untuk A ≤ split point dan A > split

point. Split point merupakan keluaran dari attribute_selection_method

sebagai bagian dari kriteria untuk melakukan partisi. Selanjutnya, D dipartisi sehingga D1 terdiri dari tuple-tuple di mana A ≤ split point dan D2 adalah sisanya. Gambar 2.4 memperlihatkan pembagian atribut A yang bernilai kontinu. _Income?

<=42000 >42000

Gambar 2.4 Jika atribut A di simpul uji bernilai kontinu

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

color ε {red,green}?

_{yes no}

Gambar 2.5 Jika atribut A di simpul uji bernilai diskrit dan pohon keputusan yang dihasilkan harus biner

(Sumber : Han,J., Kamber,M (2006)) Algoritma akan melakukan proses yang sama secara rekursif terhadap setiap partisi yang dihasilkan. Proses ini berakhir hanya jika salah satu dari kondisi berikut dipenuhi.

(i) Seluruh tuples di D memiliki kelas yang sama. (ii) Tidak ada lagi atribut yang tersisa di attribute_list . Pada kasus ini, simpul N akan diubah menjadi daun dan dilabeli dengan mayoritas kelas di

D. (iii) Tidak terdapat tuple di suatu cabang (Di kosong). Pada kasus ini, sebuah daun dibuat dan dilabeli dengan mayoritas kelas di D.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

dua langkah penting yang harus diikuti untuk mendapatkan tree dengan performansi yang optimal. Yang pertama adalah pemecahan obyek secara berulang berdasarkan atribut tertentu. Yang kedua, pruning (pemangkasan) dengan menggunakan data validasi. Misalkan kita mempunyai variabel independent x , x , x , ... , x dan variabel dependent atau output y.

2 3 n

Pemecahan secara berulang berarti membagi obyek ke dalam kotak-kotak bernilai variabel x

1 , x 2 atau x p. Cara ini diulang sehingga dalam suatu kotak

sebisa mungkin berisi observasi dari kelompok / kelas yang sama. Misalkan untuk pemecahan pertama, kita buat kotak yang memuat semua observasi dengan x

i ≤ s i,

sementara kotak lain berisi observasi dengan nilai x i > s i. Selanjutnya satu kotak dipecah lagi menjadi dua kotak dengan cara yang sama dengan menggunakan variabel x yang sama atau variabel yang lain. Proses ini dilanjutkan hingga

memperoleh kotak yang semakin kecil ukurannya. Idenya adalah membuat kotak yang isinya seseragam mungkin atau ’pure’. Yang dimaksud pure adalah bila satu kotak hanya berisi observasi dari satu kelas.

Langkah berikutnya sesudah dilakukan pemecahan obyek/data secara berulang adalah melakukan pruning. Pruning dilakukan untuk memangkas tree yang mungkin terlalu besar dan terjadi fenomena overfitting. Overfitting merupakan noise yang ada di dalam data training, bukan pola yang termasuk ke dalam data testing atau data validasi. Pruning terdiri dari beberapa langkah

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Kriteria kompleksitas ongkos yang digunakan dalam CART adalah jumlah antara kesalahan klasifikasi untuk data validasi dengan faktor pinalti yang berhubungan dengan ukuran tree. Faktor pinalti ini didasarkan pada suatu parameter, α, yaitu pinalti untuk setiap simpul. Semakin besar ukuran tree, semakin banyak jumlah simpul, semakin tinggi pinalti yang dikenakan. Sehingga kriteria kompleksitas ongkos untuk suatu tree adalah seperti persamaan 2.1 berikut.

C = Err(T) + α|L(T)|.........................................2.1

dimana Err(T) adalah kesalahan klasifikasi pada data validasi yang dihasilkan tree T, L(T) adalah jumlah daun (leaf ) dan α adalah ongkos tiap simpul. Nilai α ini bervariasi mulai dari nol. Jika α = 0 maka tidak ada pinalti untuk tree yang dihasilkan dan tidak perlu ada pemangkasan. Jika nilai α lebih besar maka komponen ongkos dari pinalti akan mendominasi kompleksitas ongkos dan tree terbaik adalah tree dengan satu simpul. Jadi akan dicari kombinasi terbaik antara besarnya tingkat kesalahan klasifikasi dengan jumlah daun.

2.5 Attribute Selection Measures

Attribute selection measures menurut Han,J., Kamber,M (2006)

merupakan ”sebuah pendekatan heuristik untuk memilih kriteria terbaik dalam

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

selection measures yang banyak digunakan, yaitu information gain, gain ratio,

dan gini index.

Notasi yang digunakan adalah sebagai berikut. D merupakan partisi yang berisi training data. Sebuah atribut yang menyatakan kelas memiliki sejumlah m nilai berbeda, yang berarti bahwa terdapat sebanyak m kelas yang terdefinisi, Ci (i = 1, …, m). Ci,D menyatakan tuples di D yang memiliki kelas Ci.

2.5.1 Information Gain ID3 menggunakan information gain sebagai attribute selection measure.

Simpul N mewakili tuples di dalam D. Atribut dengan information gain tertinggi dipilih sebagai splitting attribute pada simpul N. Atribut seperti ini diharapkan mampu meminimalkan informasi yang dibutuhkan untuk mengklasifikasi seluruh

tuples di D serta mencerminkan tingkat impurity yang rendah pada partisi-partisi

yang dihasilkan. Dengan kata lain, jumlah pengujian yang dibutuhkan untuk mengklasifikasi sebuah tuple menjadi berkurang dan pohon keputusan yang dihasilkan pun menjadi lebih sederhana. Informasi yang dibutuhkan untuk mengklasifikasi sebuah tuple didefinisikan pada persamaan 2.2 sebagai berikut :

( ) ( ) = − ∑

………………..2.2 Dimana p(i) adalah peluang sebuah tuple D memiliki kelas C . Nilai peluang ini

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

| |

( ) ……………….2.3

) = ∑ (

=1 | |

InfoA(D) adalah informasi yang dibutuhkan untuk mengklasifikasi sebuah

tuple di D berdasarkan hasil partisi di A. Semakin kecil jumlah informasi yang

dibutuhkan ini, semakin tinggi tingkat purity dari partisi yang dihasilkan.

Information gain merupakan selisih antara kebutuhan informasi awal

(yang hanya bergantung pada jumlah dan proporsi tiap kelas di dalam D) dan kebutuhan informasi baru (yang diperoleh setelah melakukan partisi terhadap atribut A). Adapun rumus information gain didefinisikan pada rumus 2.4 berikut.

Gain ( A ) = Info ( D ) − ( D ) Info _A

……………………..2.4

Gain(A) akan menginformasikan seberapa banyak informasi yang didapat

dengan melakukan pembagian di A. Atribut dengan Gain(A) terbesar dipilih sebagai splitting attribute di simpul N. Dengan kata lain, atribut yang terbaik adalah yang meminimalkan jumlah informasi yang dibutuhkan untuk menyelesaikan klasifikasi dari seluruh tuple di D.

2.5.2 Gain Ratio

Pada uraian di atas, dapat dilihat bahwa information gain lebih mengutamakan pengujian yang menghasilkan banyak keluaran. Dengan kata lain,

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

pada information gain dengan menggunakan apa yang disebut sebagai split information seperti terlihat pada rumus 2.5.

| | | |

Perbandingan Kinerja Algoritma Decision Tree ID3 Dan CART Pada Penjurusan Siswa SMA Berdasarkan Nilai Ujian SMP Dan Nilai Rapor Kelas X (Studi Kasus Pada SMA Kristen Bentara Wacana Muntilan) Skripsi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

HALAMAN PERSEMBAHAN

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB I PENDAHULUAN

1.1 Latar Belakang

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

1.5 Metodologi Penelitian

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

1.6 Sistematika Penulisan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB II LANDASAN TEORI Pada bab ini akan dipaparkan teori-teori yang menjadi landasan proses

2.1 Data Mining

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.3 Pohon Keputusan (Decision Tree)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.4 Pohon Keputusan Induksi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.5 Attribute Selection Measures

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Dokumen yang terkait

Perbandingan Nilai Ujian Nasional dan Nilai Ujian Sekolah Pada Mata Pelajaran Ekonomi Antara Nilai Siswa di MAN 11 Jakarta dan SMAN 66 Jakarta

Sistem Informasi Pengolahan Nilai Dan Absensi Siswa Pada SMA Negeri 1 Margahayu Berbasis Web

Sistem Informasi Pendaftaran, Pembagian Kelas Dan Nilai Siswa Pada SMP Negeri 22 Bandung

Penerapan Teknik Klasifikasi Menggunakan Metode Fuzzy Decision Tree Dengan Algoritma ID3 Pada Data Diabetes

Perbandingan Algoritme Pruning pada Decision Tree yang Dikembangkan dengan Algoritme CART

Decision Tree dengan Algoritma ID3 untuk Melakukan Deteksi Penyakit Kanker Payudara.

BAB 1 Perbandingan Algoritma Decision Tree (C4.5) Dan Naïve Bayes Pada Data Mining Untuk Identifikasi Tumbuh Kembang Anak Balita (Studi Kasus Puskesmas Kartasura).

Nilai Rapor Siswa Harus Stabil.

5 Nilai Ujian Skripsi

20 Siswa SMA dengan Nilai Ujian Nasional

Dokumen yang Anda mencari sudah siap untuk unduhkan