Perbandingan Kinerja Algoritma Decision Tree ID3 Dan CART Pada Penjurusan Siswa SMA Berdasarkan Nilai Ujian SMP Dan Nilai Rapor Kelas X (Studi Kasus Pada SMA Kristen Bentara Wacana Muntilan) Skripsi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Perbandingan Kinerja Algoritma Decision Tree ID3 Dan CART Pada Penjurusan Siswa SMA Berdasarkan Nilai Ujian SMP Dan Nilai Rapor Kelas X (Studi Kasus Pada SMA Kristen Bentara Wacana Muntilan) Skripsi

  Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer

  Oleh : Maria Anindita Febri Apsari

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

Comparison Performance of Decision Tree Algorithm ID3 and CART at

Field of Study Senior High School Based on Examination Value Junior

High School and Report Value in Ten Class

(Case Study at Bentara Wacana Christian Senior High School Muntilan)

  

A Thesis

  Presented as Partial Fullfillment of the Requirements To Obtain the Sarjana Teknik Degree

  In Study Program of Informatics Engineering

  

By :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

HALAMAN PERSEMBAHAN

  

Se g al a pe r kar a d apat

ku t an g g u n g d i d al am Di a y an g

me mb e r i ke ku at an ke pad aku

(Fi l i pi 4 : 13 )

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PERBANDINGAN KINERJA ALGORITMA DECISION TREE ID3 DAN CART PADA PENJURUSAN SISWA SMA BERDASARKAN NILAI UJIAN SMP DAN NILAI RAPOR KELAS X

  Studi Kasus SMA Kristen Bentara Wacana Muntilan

  Maria Anindita Febri Apsari ABSTRAK

  Penelitian ini bertujuan untuk membandingkan kinerja dua algoritma

  decision tree yaitu algoritma ID3 dan CART yang diterapkan pada kasus

  penentuan jurusan SMA. Adapun jurusan yang dihasilkan adalah jurusan IPA dan

  IPS. Data yang digunakan adalah data nilai ujian SMP dan nilai rapor kelas X SMA Kristen Bentara Wacana tahun ajaran 2005/2006-2008/2009. Sistem yang dibangun diuji menggunakan tiga macam kriteria pengujian yaitu 3-fold

  validation, 5-fold validation dan perbandingan jumlah data. Pengujian dengan k- fold validation menggunakan tiga macam cara pembagian data yaitu indeks,

  random dan per jurusan. Dari hasil pengujian yang telah dilakukan dapat disimpulkan bahwa algoritma CART lebih baik daripada algoritma ID3 pada kasus penentuan jurusan siswa dengan jumlah data training 229 record. Prosentase hasil akurasi dari tiga macam pengujian menunjukkan angka yang

  PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

COMPARISON PERFORMANCE OF DECISION TREE ALGORITHM

  

ID3 AND CART AT FIELD OF STUDY SENIOR HIGH SCHOOL

BASED ON EXAMINATION VALUE JUNIOR HIGH SCHOOL AND

REPORT VALUE IN TEN CLASS

  Case Study Bentara Wacana Christian Senior High School

  

Maria Anindita Febri Apsari

ABSTRACT

  This study aims to compare the performance of two decision tree algorithms ID3 and CART algorithms are applied to the case of the determination of high school majors. The majors that are generated are science and social studies majors. The data used is the junior high school exam value and value class X 2005/2006-2008/2009 academic year. The system built was tested using three different testing criteria that is 3-fold validation, 5-fold validation and comparison of the amount of data. Testing with the k-fold validation using three different ways of data sharing is an index, random and major. From the results of the testing that has been done can be concluded that the CART algorithm is better than ID3 algorithm in the case of students majoring in the determination of the amount of training data 229 record. Percentage accuracy of the

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

KATA PENGANTAR

  Puji dan syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa atas segala limpahan berkat dan penyertaan sehingga penulis bisa menyelesaikan tugas akhir yang berjudul “Perbandingan Kinerja Algoritma Decision Tree ID3 dan

  

CART Pada Penjurusan Siswa SMA Berdasarkan Nilai Ujian SMP dan Nilai

Rapor Kelas X (Studi Kasus SMA Kristen Bentara Wacana)”. Tugas akhir

  ini ditulis sebagai salah satu syarat memperoleh gelar sarjana program studi Teknik Informatika, Fakultas Sains dan Teknologi Universitas Sanata Dharma.

  Terima kasih sebesar-besarnya kepada semua pihak yang turut memberikan dukungan, semangat dan bantuan sehingga terselesaikannya skripsi ini : kaprodi Teknik Informatika yang sudah membantu dan membimbing saya dalam menyelesaikan tugas akhir ini.

  2. Ibu P.H. Prima Rosa, S.Si, M.Sc, dan Romo Dr. C. Kuntoro Adi, S.J, M.A, M.Sc sebagai dosen penguji atas kritik dan saran yang telah diberikan.

  3. Seluruh staff pengajar dan laboran serta pihak sekretariat Prodi Teknik Informatika Fakultas Sains dan Teknologi Universitas Sanata Dharma.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI DAFTAR ISI

  HALAMAN JUDUL……………………………………………………………… i HALAMAN JUDUL (INGGRIS)……………………………….……………… ii HALAMAN PERSETUJUAN………………………………………………….. iii HALAMAN PENGESAHAN ............................... Error! Bookmark not defined.

  HALAMAN PERSEMBAHAN ............................ Error! Bookmark not defined. HALAMAN KEASLIAN KARYA ....................... Error! Bookmark not defined. ABSTRAK ............................................................. Error! Bookmark not defined. ABSTRACT ........................................................... Error! Bookmark not defined. LEMBAR PERSETUJUAN PUBLIKASI…………………………………………………………….……….. ix KATA PENGANTAR ........................................... Error! Bookmark not defined.

   BAB I ..................................................................... Error! Bookmark not defined.

  PENDAHULUAN ................................................. Error! Bookmark not defined.

  1.1 Latar Belakang ............................................ Error! Bookmark not defined.

  PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 2.2 Teknik Data Mining ..................................... Error! Bookmark not defined.

  2.2.1 Klasifikasi .............................................. Error! Bookmark not defined.

  2.3 Pohon Keputusan (Decision Tree) ............... Error! Bookmark not defined.

  2.4 Pohon Keputusan Induksi ............................. Error! Bookmark not defined.

  2.4.1 ID3 (Iterative Dichotomiser) ................. Error! Bookmark not defined.

  2.4.2 CART (Classification and Regression Tree) ........Error! Bookmark not defined.

  2.5 Attribute Selection Measures ....................... Error! Bookmark not defined.

  2.5.1 Information Gain ................................... Error! Bookmark not defined.

  2.5.2 Gain Ratio .............................................. Error! Bookmark not defined.

  2.5.3 Gini Index .............................................. Error! Bookmark not defined.

  2.6 Korelasi dan Regresi .................................... Error! Bookmark not defined.

  2.7 Perbandingan Performasi Algoritma ............ Error! Bookmark not defined.

  Error! Bookmark not

  2.7.1 Pengukuran Kinerja Berdasarkan Komposisi Data defined.

  2.7.2 Pengukuran Kinerja Berdasarkan Jumlah Data ....Error! Bookmark not defined.

  BAB III .................................................................. Error! Bookmark not defined. ANALISIS DAN PERANCANGAN SISTEM ..... Error! Bookmark not defined.

  3.1 Identifikasi Sistem ........................................ Error! Bookmark not defined.

  3.2 Sumber Data ................................................. Error! Bookmark not defined.

  PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 3.4.4 Diagram Aktivitas .................................. Error! Bookmark not defined.

  3.4.5 Diagram Kelas Desain ........................... Error! Bookmark not defined.

  3.4.6 Algoritma dan Method .......................... Error! Bookmark not defined.

  3.4.7 Desain Basis Data .................................. Error! Bookmark not defined.

  3.4.8 Diagram Analisis dan Sekuensial .......... Error! Bookmark not defined.

  3.4.9 Perancangan Struktur Data .................... Error! Bookmark not defined.

  3.4.10 Desain Antarmuka ............................... Error! Bookmark not defined.

  BAB IV .................................................................. Error! Bookmark not defined. IMPLEMENTASI SISTEM ................................... Error! Bookmark not defined.

  4.1 Spesifikasi Software dan Hardware ............ Error! Bookmark not defined.

  4.2 Implementasi ................................................ Error! Bookmark not defined.

  4.2.1 Implementasi Data ................................. Error! Bookmark not defined.

  4.2.2 Implementasi Use Case ......................... Error! Bookmark not defined.

  4.2.3 Implementasi Diagram Kelas ................ Error! Bookmark not defined.

  5.1 Penyelesaian Rumusan Masalah .................. Error! Bookmark not defined.

  5.2 Pengukuran Kinerja Sistem .......................... Error! Bookmark not defined.

  5.2.1 Pengukuran Kinerja 3-Fold Validation .. Error! Bookmark not defined.

  5.2.2 Pengukuran Kinerja 5-Fold Validation .. Error! Bookmark not defined.

  5.2.4 Evaluasi Pengukuran Kinerja Sistem ..... Error! Bookmark not defined.

  5.2.5 Analisis Bentuk Pohon Keputusan ... Error! Bookmark not defined.

  DAFTAR TABEL

Tabel 3.1 Jumlah Record Data dengan Missing Value…………………

  26 Tabel 3.2 Jumlah Record Data Integrasi……………………………..

  26 Tabel 3.3 Atribut yang Relevan dalam Penelitian……………………

  27 Tabel 3.4 Perhitungan Rata-Rata Nilai Rapor Semester 1 dan

  28 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Tabel 3.9 Narasi Use Case Input Data Nilai Siswa………………….

  37 Tabel 3.10 Narasi Use Case Preprocessing……………………………

  38 Tabel 3.11 Narasi Use Case Pembentukan Pohon Keputusan….…….

  39 Tabel 3.12 Narasi Use Case Pengujian Algoritma……………………

  40 Tabel 3.13 Kelas Analisis Diagram Sekuensial Input Nilai Siswa……

  56 Tabel 3.14 Kelas Analisis Diagram Sekuensial Preprocessing……….

  57 Tabel 3.15 Kelas Analisis Diagram Sekuensial Pembentukan Pohon

  59 Keputusan………………………………………………… Tabel 3.16 Kelas Analisis Diagram Sekuensial Pengujian Algoritma..

  60 Tabel 3.17 Struktur Data………………………………………………

  61 Tabel 5.1 Tabel Data dan Pola Pohon Keputusan…………………… 163

Tabel 5.2 Hasil Uji Korelasi…………………………………………. 164

  Tabel Pengujian menggunakan ID3 3-Fold Validation

  Tabel 5.3 167 Berdasarkan Indeks…………………………………………..

  Tabel Pengujian menggunakan CART 3-Fold Validation

  

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Berdasarkan Indeks ……………………………………………..

  Tabel Pengujian menggunakan CART 5-Fold Validation

  Tabel 5.9 170

  Berdasarkan Indeks…………………………………………

Tabel 5.10 Tabel Pengujian 5-Fold Validation Secara Random……… 171Tabel 5.11 Tabel Pengujian 5-Fold Validation Per Jurusan………….. 171 Hasil Pengujian Kinerja Sistem 5-Fold Validation…………..

  Tabel 5.12 172

  Tabel Pengujian Algoritma ID3 Berdasarkan Jumlah Data

  Tabel 5.13 172

  Uji 1………………………………………………………… Tabel Pengujian Algoritma CART Berdasarkan Jumlah Data

  Tabel 5.14 173 Uji 1………………………………………………………….

  Hasil Pengujian Kinerja Berdasarkan Jumlah Data Uji 1…….

  Tabel 5.15 173

  Tabel Pengujian Algoritma ID3 Berdasarkan Jumlah Data

  Tabel 5.16 174

  Uji 2………………………………………………………… Tabel Pengujian Algoritma CART Berdasarkan Jumlah Data

  Tabel 5.17 174 Uji 2…………………………………………………………..

  Hasil Pengujian Kinerja Berdasarkan Jumlah Data Uji 2…….

  Tabel 5.18 175

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Tabel 5.23 Pengujian Kinerja Sistem Berdasarkan Komposisi Data 178 dan Perbandingan Jumlah Data……………………………Tabel 5.24 Hasil Pengujian Akurasi Algoritma Decision Tree ………. 181Tabel 5.25 Perbandingan Hasil k-Fold Validation dengan Weka…….. 181Tabel 5.26 Penyebaran Node Pohon Keputusan………………………. 184

  

DAFTAR GAMBAR

Gambar 2.1 Tahap-tahap Data Mining………………………………………

  8 Gambar 2.2 Contoh Pohon Keputusan..……………………………………..

  11 Gambar 2.3 Jika Atribut A di Simpul Uji Bernilai Diskrit….…………………

  14 Gambar 2.4 Jika Atribut A di Simpul Uji Bernilai Kontinu…………………

  14 Gambar 2.5 Jika Atribut A di Simpul Uji Bernilai Diskrit dan Pohon Keputusan yang Dihasilkan Harus Biner……………………….

  15 Gambar 3.1 Contoh Pembagian Data Algoritma ID3……………………….

  33 Gambar 3.2 Contoh Pembagian Data Algoritma CART…………………….

  33 Gambar 3.3 Pengelompokan Data Untuk Proses Evaluasi Komposisi Data..

  34 Gambar 3.4 Pengelompokan Data Untuk Proses Evaluasi Komposisi Data..

  35 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 3.10 Diagram Aktivitas Pengujian Algoritma..……………………..

  43 Gambar 3.11 Diagram Kelas Keseluruhan……………………………………

  44 Gambar 3.12 Diagram Kelas Input Data Nilai Siswa………………………..

  45 Gambar 3.13 Diagram Kelas Preprocessing………………………………………..

  46 Gambar 3.14 Diagram Kelas Pembentukan Pohon Keputusan………………...

  47 Gambar 3.15(a) Diagram Kelas Pengujian Algoritma…………………………….

  48 Gambat 3.15(b)

  Diagram Kelas Pengujian Algoritma……………………………

  49 Gambar 3.16 Desain Fisik Basis Data………………………………………….

  56 Gambar 3.17 Diagram Sekuensial Input Nilai Siswa………………………….

  57 Gambar 3.18 Diagram Sekuensial Preprocessing……..………………………….

  58 Gambar 3.19 Diagram Sekuensial Pohon Keputusan………………………….

  59 Gambar 3.20 Diagram Sekuensial Pengujian Algoritma………………………

  61 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 3.26 Pesan Belum Pilih Pengujian…………………………………….

  64 Gambar 3.27 Desain Antarmuka Halaman Lihat Pohon Keputusan………….

  65 Gambar 3.28 Desain Antarmuka Halaman Hasil Pengujian…………………..

  65 Gambar 3.29 Desain Antarmuka Halaman Bantuan…………………………..

  66 Gambar 3.30 Desain Antarmuka Halaman Tentang Kami…………………….

  66 Gambar 4.1 Tampilan Halaman Utama………………………………………

  68 Gambar 4.2 Tampilan Halaman Input Nilai Siswa………………………….

  69 Gambar 4.3 Tampilan Jika Menekan Tombol Browse……………………..

  69 Gambar 4.4 Tampilan Hasil Input Nilai Siswa……………………………….

  70 Gambar 4.5 Pesan Nilai Asli Tersimpan di Database………………………

  70 Gambar 4.6 Tampilan Hasil Preprocessing…………………………………..

  71 Gambar 4.7 Tampilan Halaman Lihat Pohon Keputusan……………………

  72 Gambar 4.8 Pesan Belum Input Data Siswa…………………………………

  73 Gambar 4.9 Pesan Belum Tranformasi………………………………………

  73 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 4.15 Tampilan Halaman Tentang Kami………………………………

  77 Gambar 5.1 Hasil Penentuan Jurusan dengan Pohon Keputusan ID3 dan CART………………………………………………………... 165

Gambar 5.2 Hasil Pengujian Berdasarkan Perbandingan Jumlah Data Uji 1 173Gambar 5.3 Hasil Pengujian Berdasarkan Perbandingan Jumlah Data Uji 2 176Gambar 5.4 Hasil Pengujian Berdasarkan Perbandingan Jumlah Data Uji 3 177Gambar 5.5 Grafik Akurasi Pengujian Berdasarkan Komposisi Data…….. 179Gambar 5.6 Grafik Kecepatan Komputasi Pengujian Berdasarkan Komposisi

  Data……………………………………………………………… 180

Gambar 5.7 Hasil Pohon Keputusan ID3 dan CART……………………….. 182

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB I PENDAHULUAN

1.1 Latar Belakang

  Salah satu cara untuk mencerdaskan kehidupan bangsa yaitu dengan cara memberikan pendidikan yang baik bagi para penerus bangsa. Mengenai arti dari pendidikan itu sendiri, Kustejo (2010) menyatakan bahwa pendidikan merupakan usaha sadar dan terencana untuk mewujudkan suasana belajar dan proses pembelajaran agar peserta didik secara aktif mengembangkan potensi dirinya untuk memiliki kekuatan spiritual keagamaan, pengendalian diri, kepribadian, kecerdasan, akhlak mulia, serta ketrampilan yang diperlukan dirinya, masyarakat, bangsa dan negara.

  Untuk mendapatkan pendidikan yang baik salah satu cara yang bisa ditempuh yaitu dengan bersekolah. Menurut Ramli (2008) bersekolah merupakan kebutuhan setiap manusia dalam upaya menambah kualitas hidupnya. Dengan bersekolah maka akan didapatkan suatu ilmu pengetahuan yang nantinya bisa menjadi bekal

  2

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  bagi seorang siswa pun bukan merupakan hal yang mudah bagi pihak sekolah karena banyak faktor harus dipertimbangkan sesuai dengan kemampuan akademis yang dimiliki seorang siswa. Kemampuan akademis seorang siswa yang menonjol di bidangnya dapat diukur dengan melihat nilai rapor. Padahal setiap tahunnya ada puluhan siswa yang harus ditentukan jurusan yang tepat untuknya. Kesalahan dalam perhitungan bisa menyebabkan siswa tersebut terjebak dalam penjurusan yang tidak sesuai dengan kemampuan akademisnya sehingga mempengaruhi siswa dalam menentukan masa depannya kelak.

  Dengan melihat masalah yang ada, maka dilakukan suatu penelitian untuk mengelompokkan penjurusan siswa SMA berdasarkan nilai ujian SMP dan nilai rapor kelas X. Nilai rapor digunakan karena menyatakan hasil belajar siswa, sedangkan nilai ujian SMP digunakan karena latar belakang pendidikan ketika di SMP juga bisa berpengaruh terhadap penjurusan SMA.

  Nilai ujian SMP yang digunakan hanyalah nilai ujian yang berpengaruh terhadap penjurusan SMA yaitu nilai Matematika, IPA dan IPS. Nilai rapor yang digunakan juga yang mempengaruhi penjurusan yaitu nilai Matematika, Sejarah, Ekonomi, Geografi, Sosiologi, Fisika, Kimia dan Biologi. Penelitian ini mengambil objek SMA Kristen Bentara Wacana Muntilan yang setiap tahunnya memberikan rekomendasi penjurusan kepada siswa-siswinya sehingga dari

  3

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  kedua algoritma ini memberikan visualisasi pohon yang berbeda. Dengan model yang berbeda dapat memberikan keakuratan yang berbeda juga. Untuk itu akan dilakukan penelitian Perbandingan Kinerja Algoritma Decision Tree ID3 dan CART pada Penjurusan SMA Berdasarkan Nilai Ujian SMP dan Nilai Kelas X.

  1.2 Rumusan Masalah

  Permasalahan yang akan dirumuskan dalam penelitian ini adalah :

  1. Bagaimanakah menentukan jurusan bagi siswa SMA dengan menerapkan algoritma ID3 dan CART?

  2. Bagaimana membangun suatu sistem untuk menentukan jurusan bagi siswa SMA dengan menerapkan algoritma ID3 dan CART?

  3. Bagaimanakah perbandingan kinerja algoritma ID3 dengan CART?

  1.3 Tujuan

  Tujuan dari penelitian ini yaitu membangun suatu sistem yang dapat membandingkan kinerja algoritma ID3 dan CART pada kasus penentuan penjurusan siswa SMA berdasarkan pada nilai ujian SMP dan nilai rapor kelas X untuk melihat akurasi dan kecepatan komputasi dengan membandingkan

  4

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  3. Sistem ini hanya digunakan untuk membandingkan akurasi dan kecepatan komputasi sistem berdasarkan komposisi dan perbandingan jumlah data.

  4. Data yang digunakan berasal dari nilai ujian SMP dan nilai rapor kelas X siswa tahun ajaran 2005/2006 – 2008/2009

1.5 Metodologi Penelitian

  Metode yang digunakan dalam penelitian ini adalah :

  1. Studi Pustaka Mempelajari bahan-bahan tertulis seperti buku cetak, makalah dan tutorial yang ada kaitannya dengan pengembangan sistem.

  2. Wawancara Melakukan studi dengan metode wawancara kepada dosen, kepala sekolah, guru ataupun pihak-pihak yang berhubungan dengan permasalahan yang dibahas dalam penelitian ini.

  3. Pengumpulan data Mengumpulkan data-data yang berkaitan dengan sistem yang dikerjakan.

  4. Perancangan Model Decision Tree Perancangan model Decision Tree menggunakan Metode KDD (Knowledge Discovery in Database) meliputi :

  5

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

d. Data Transformation

  Pada tahap ini akan dilakukan pemilihan data untuk menentukan kualitas data mining, sehingga data dapat diubah menjadi bentuk yang sesuai untuk di-Mining.

  Data Mining e.

  Proses esensial untuk mengekstrak pola dari data dengan metode data mining.

  Pattern Evaluation f.

  Pada tahap ini, knowledge atau pola yang didapat dari proses penambangan data akan dievaluasi dengan hipotesa yang telah dibentuk sebelumnya.

  g.

  Penyajian pengetahuan yang digali kepada pengguna dengan menggunakan visualisasi dan teknik representasi pengetahuan.

1.6 Sistematika Penulisan

  Penulisan penelitian ini tersusun dari 5 (lima) bab dengan sistematika

  6

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  BAB III ANALISA DAN PERANCANGAN SISTEM Bab ini berisi tentang identifikasi sistem, tahap-tahap KDD (Knowledge Discovery in Database), perancangan umum sistem, perancangan basis data dan perancangan antar muka.

  BAB IV IMPLEMENTASI SISTEM Bab ini berisi tentang spesifikasi software dan hardware, implementasi

  sistem yang meliputi implementasi data, implementasi use case dan implementasi diagram kelas.

  BAB V ANALISIS SISTEM Bab ini berisi tentang pembahasan program yang telah dibangun. BAB VI PENUTUP Bab ini berisi tentang kesimpulan dan saran.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB II LANDASAN TEORI Pada bab ini akan dipaparkan teori-teori yang menjadi landasan proses

  pengerjaan penelitian ini. Penelitian ini bertujuan untuk membandingkan kinerja algoritma data mining. Dalam hal ini akan dibandingkan dua algoritma decision

  

tree yaitu algoritma ID3 (Iterative Dichotomiser) dan CART (Classification and

Regression Tree). Dengan dua model algoritma yang berbeda akan memberikan

  keakuratan yang berbeda pula. Kinerja kedua algoritma tersebut akan diukur berdasarkan komposisi data dan jumlah data sehingga akan didapatkan akurasi dan kecepatan sistem untuk masing-masing algoritma.

2.1 Data Mining

  Menurut Kusnawi (2007) pengertian dari data mining adalah sebagai berikut “data mining merupakan salah satu bidang yang berkembang pesat karena adanya kebutuhan akan nilai tambah dari database skala besar yang makin banyak terakumulasi sejalan dengan berkembangnya teknologi informasi”. Pertumbuhan akumulasi data menciptakan suatu kondisi yang sering disebut “rich of data but

  8

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi keputusan yang bermanfaat.

  Data mining seharusnya dipahami sebagai suatu proses yang memiliki

  tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya. Tahap-tahap data mining menurut Han, Kamber (2006 ) dipaparkan pada gambar 2.1 berikut ini :

  9

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  1. Data Cleaning / Pembersihan data Digunakan untuk pengisian data yang kosong dan membuang data yang tidak konsisten.

  2. Data Integration / Intergrasi Data Data yang diperlukan untuk data mining tidak hanya berasal dari satu

  database tetapi juga berasal dari beberapa database atau file teks. Hasil

  integrasi data sering diwujudkan dalam sebuah data warehouse karena dengan data warehouse, data dikonsolidasikan dengan struktur khusus yang efisien. Selain itu data warehouse juga memungkinkan tipe analisa seperti OLAP.

  3. Data Transformation / Transformasi data Transformasi dan pemilihan data ini untuk menentukan kualitas dari hasil data mining, sehingga data diubah menjadi bentuk sesuai untuk di-Mining.

  4. Data Mining / Aplikasi Teknik Data Mining Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai yaitu klasifikasi, clustering dan asosiasi.

  5. Pattern Evaluation / Evaluasi pola yang ditemukan Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai.

  10

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.2.1 Klasifikasi

  Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah didefinisikan.Teknik ini dapat memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah aturan. Aturan-aturan tersebut digunakan pada data-data baru untuk diklasifikasi. Teknik ini menggunakan supervised induction, yang memanfaatkan kumpulan pengujian dari

  

record yang terklasifikasi untuk menentukan kelas-kelas tambahan. Salah satu

contoh yang mudah dan popular adalah dengan decision tree.

2.3 Pohon Keputusan (Decision Tree)

  Tentang pohon keputusan Kusrini (2009) menyatakan bahwa “pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan ini mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan”.

  Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu

  11

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  menginterpretasikan solusi dari permasalahan, bisa dijadikan tool pengambilan keputusan terakhir dan dapat mengubah keputusan yang kompleks menjadi lebih

  simple, spesifik dan mudah.

  Adapun kekurangan pohon keputusan diantaranya kesulitan dalam mendesain pohon keputusan yang optimal, hasil keputusan yang didapat dari metode pohon keputusan sangat tergantung pada bagaimana pohon keputusan tersebut didesain, terjadi overlap terutama kelas-kelas dan kriteria yang digunakan jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan meningkatnya waktu pengambilan keputusan dan jumlah memori yang diperlukan. Tetapi ketika kriterianya lebih simple tentu saja pengambilan keputusannya menjadi lebih cepat serta pengakumulasian jumlah error dari setiap tingkat dalam sebuah pohon keputusan yang besar. Gambar 2.2 merupakan salah satu contoh pohon keputusan untuk menentukan bermain tenis atau tidaknya seseorang dengan mempertimbangkan kelembapan (humidity), cuaca (outlook) dan berangin (windy). Humidity 1 1.1 High Normal

  12

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.4 Pohon Keputusan Induksi

  Sejak akhir tahun 1970 sampai awal tahun 1980, J.RossQuinlan, peneliti mesin pembelajaran, mengembangkan algoritma pohon keputusan yang dikenal dengan nama ID3 (Iterative Dichotomiser). Quinlan kemudian memperkenalkan C4.5 (pengganti ID3) yang menjadi tolak ukur pembanding supervised learning

algorithm. Pada tahun 1984 kelompok ahli statistic (L. Breiman, J.Friedman, R.

Olshen, and C. Stone) menerbitkan buku Classification and Regression Trees (CART), dideskripsikan sebagai generasi pohon keputusan biner.

  Menurut Han,J., Kamber,M (2006) ID3, C45 dan CART memiliki karakteristik yang sama dalam membangun pohon keputusan, yaitu top-down dan

  

divide-conquer. Top-down artinya pohon keputusan dibangun dari simpul akar ke

  simpul daun. Divide-conquer artinya training data secara rekursif dipartisi ke dalam bagian-bagian yang lebih kecil saat pembangunan pohon. Biner tidaknya pohon keputusan ditentukan oleh attribbute selection measures atau algoritma yang digunakan. Secara umum algoritma dasar dalam pembangunan pohon keputusan adalah sebagai berikut.

  Algoritma dasar untuk pohon keputusan menurut Han,J., Kamber,M (2006) :

  Algorithm : Generate_decision_tree.

  13

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  information gain; (7) label node N with test-attribute; i (8) for each known value a of test-attribute; i (9) grow a branch from node N for the condition test-attribute = a ; i i (10) let s be the set of samples in samples for which test-attribute = a ; // a partition i (11) if s is empty then (12) attach a leaf labeled with the most common class in samples; i (13) else attach the node returned by Generate_decision_tree (s , attribute-listtest- attribute);

  Algoritma di atas dapat dijelaskan sebagai berikut. Awalnya pohon hanya memiliki sebuah simpul, N, yang mewakili seluruh training data di D. Jika seluruh tuples di D memiliki kelas yang sama, maka simpul N diubah menjadi daun dan dilabeli dengan nama kelas tersebut. Sebaliknya, jika tuple-tuple di D memiliki kelas yang berbeda-beda, maka dipanggil attribute_selection_method untuk menentukan kriteria terbaik dalam mempartisi data dengan menggunakan

  

attribute selection measures. Kemudian, simpul N dilabeli dengan splitting

attribute yang diperoleh dari Attribute_selection_method dan sebuah

  cabang akan dibangkitkan untuk setiap hasil pengujian pada simpul N. Selanjutnya, tuple-tuple di D akan dipartisi sesuai dengan hasil pengujian tersebut. Terdapat tiga skenario yang mungkin dalam mempartisi D. Misalkan A adalah

  14 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI green orange Color ? red purple blue

Gambar 2.3 Jika atribut A di simpul uji bernilai diskrit

  (Sumber : Han,J., Kamber,M (2006)) ii. Jika A memiliki nilai-nilai yang kontinu, maka hasil pengujian pada simpul N akan menghasilkan dua cabang, yaitu untuk A ≤ split point dan A > split

  point. Split point merupakan keluaran dari attribute_selection_method

  sebagai bagian dari kriteria untuk melakukan partisi. Selanjutnya, D dipartisi sehingga D1 terdiri dari tuple-tuple di mana A ≤ split point dan D2 adalah sisanya. Gambar 2.4 memperlihatkan pembagian atribut A yang bernilai kontinu. Income?

  <=42000 >42000

Gambar 2.4 Jika atribut A di simpul uji bernilai kontinu

  15

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

color ε {red,green}?

yes no

Gambar 2.5 Jika atribut A di simpul uji bernilai diskrit dan pohon keputusan yang dihasilkan harus biner

  (Sumber : Han,J., Kamber,M (2006)) Algoritma akan melakukan proses yang sama secara rekursif terhadap setiap partisi yang dihasilkan. Proses ini berakhir hanya jika salah satu dari kondisi berikut dipenuhi.

  (i) Seluruh tuples di D memiliki kelas yang sama. (ii) Tidak ada lagi atribut yang tersisa di attribute_list . Pada kasus ini, simpul N akan diubah menjadi daun dan dilabeli dengan mayoritas kelas di

  D. (iii) Tidak terdapat tuple di suatu cabang (Di kosong). Pada kasus ini, sebuah daun dibuat dan dilabeli dengan mayoritas kelas di D.

  16

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  dua langkah penting yang harus diikuti untuk mendapatkan tree dengan performansi yang optimal. Yang pertama adalah pemecahan obyek secara berulang berdasarkan atribut tertentu. Yang kedua, pruning (pemangkasan) dengan menggunakan data validasi. Misalkan kita mempunyai variabel independent x , x , x , ... , x dan variabel dependent atau output y.

  1

  2 3 n

  Pemecahan secara berulang berarti membagi obyek ke dalam kotak-kotak bernilai variabel x

  1 , x 2 atau x p. Cara ini diulang sehingga dalam suatu kotak

  sebisa mungkin berisi observasi dari kelompok / kelas yang sama. Misalkan untuk pemecahan pertama, kita buat kotak yang memuat semua observasi dengan x

  i ≤ s i,

  sementara kotak lain berisi observasi dengan nilai x i > s i. Selanjutnya satu kotak dipecah lagi menjadi dua kotak dengan cara yang sama dengan menggunakan variabel x yang sama atau variabel yang lain. Proses ini dilanjutkan hingga

  i

  memperoleh kotak yang semakin kecil ukurannya. Idenya adalah membuat kotak yang isinya seseragam mungkin atau ’pure’. Yang dimaksud pure adalah bila satu kotak hanya berisi observasi dari satu kelas.

  Langkah berikutnya sesudah dilakukan pemecahan obyek/data secara berulang adalah melakukan pruning. Pruning dilakukan untuk memangkas tree yang mungkin terlalu besar dan terjadi fenomena overfitting. Overfitting merupakan noise yang ada di dalam data training, bukan pola yang termasuk ke dalam data testing atau data validasi. Pruning terdiri dari beberapa langkah

  17

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Kriteria kompleksitas ongkos yang digunakan dalam CART adalah jumlah antara kesalahan klasifikasi untuk data validasi dengan faktor pinalti yang berhubungan dengan ukuran tree. Faktor pinalti ini didasarkan pada suatu parameter, α, yaitu pinalti untuk setiap simpul. Semakin besar ukuran tree, semakin banyak jumlah simpul, semakin tinggi pinalti yang dikenakan. Sehingga kriteria kompleksitas ongkos untuk suatu tree adalah seperti persamaan 2.1 berikut.

  

C = Err(T) + α|L(T)|.........................................2.1

  dimana Err(T) adalah kesalahan klasifikasi pada data validasi yang dihasilkan tree T, L(T) adalah jumlah daun (leaf ) dan α adalah ongkos tiap simpul. Nilai α ini bervariasi mulai dari nol. Jika α = 0 maka tidak ada pinalti untuk tree yang dihasilkan dan tidak perlu ada pemangkasan. Jika nilai α lebih besar maka komponen ongkos dari pinalti akan mendominasi kompleksitas ongkos dan tree terbaik adalah tree dengan satu simpul. Jadi akan dicari kombinasi terbaik antara besarnya tingkat kesalahan klasifikasi dengan jumlah daun.

2.5 Attribute Selection Measures

  Attribute selection measures menurut Han,J., Kamber,M (2006)

  merupakan ”sebuah pendekatan heuristik untuk memilih kriteria terbaik dalam

  18

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

selection measures yang banyak digunakan, yaitu information gain, gain ratio,

dan gini index.

  Notasi yang digunakan adalah sebagai berikut. D merupakan partisi yang berisi training data. Sebuah atribut yang menyatakan kelas memiliki sejumlah m nilai berbeda, yang berarti bahwa terdapat sebanyak m kelas yang terdefinisi, Ci (i = 1, …, m). Ci,D menyatakan tuples di D yang memiliki kelas Ci.

2.5.1 Information Gain ID3 menggunakan information gain sebagai attribute selection measure.

  Simpul N mewakili tuples di dalam D. Atribut dengan information gain tertinggi dipilih sebagai splitting attribute pada simpul N. Atribut seperti ini diharapkan mampu meminimalkan informasi yang dibutuhkan untuk mengklasifikasi seluruh

  

tuples di D serta mencerminkan tingkat impurity yang rendah pada partisi-partisi

  yang dihasilkan. Dengan kata lain, jumlah pengujian yang dibutuhkan untuk mengklasifikasi sebuah tuple menjadi berkurang dan pohon keputusan yang dihasilkan pun menjadi lebih sederhana. Informasi yang dibutuhkan untuk mengklasifikasi sebuah tuple didefinisikan pada persamaan 2.2 sebagai berikut :

  ( ) ( ) = − ∑

  

2

=1

  ………………..2.2 Dimana p(i) adalah peluang sebuah tuple D memiliki kelas C . Nilai peluang ini

  19

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  | |

  ( ) ……………….2.3

  ) = ∑ (

  =1 | |

  InfoA(D) adalah informasi yang dibutuhkan untuk mengklasifikasi sebuah

tuple di D berdasarkan hasil partisi di A. Semakin kecil jumlah informasi yang

  dibutuhkan ini, semakin tinggi tingkat purity dari partisi yang dihasilkan.

  Information gain merupakan selisih antara kebutuhan informasi awal

  (yang hanya bergantung pada jumlah dan proporsi tiap kelas di dalam D) dan kebutuhan informasi baru (yang diperoleh setelah melakukan partisi terhadap atribut A). Adapun rumus information gain didefinisikan pada rumus 2.4 berikut.

  Gain ( A ) = Info ( D ) − ( D ) Info A

  ……………………..2.4

  Gain(A) akan menginformasikan seberapa banyak informasi yang didapat

  dengan melakukan pembagian di A. Atribut dengan Gain(A) terbesar dipilih sebagai splitting attribute di simpul N. Dengan kata lain, atribut yang terbaik adalah yang meminimalkan jumlah informasi yang dibutuhkan untuk menyelesaikan klasifikasi dari seluruh tuple di D.

2.5.2 Gain Ratio

  Pada uraian di atas, dapat dilihat bahwa information gain lebih mengutamakan pengujian yang menghasilkan banyak keluaran. Dengan kata lain,

  20

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  pada information gain dengan menggunakan apa yang disebut sebagai split information seperti terlihat pada rumus 2.5.

  | | | |