Analisis Akurasi Algoritma Pohon Keputusan Dan K-Nearest Neighbor (k-NN)

  ANALISIS AKURASI ALGORITMA POHON KEPUTUSAN DAN K-NEAREST NEIGHBOR (k-NN) TESIS HULIMAN 117038025 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN

  2013

  ANALISIS AKURASI ALGORITMA POHON KEPUTUSAN DAN K-NEAREST NEIGHBOR (k-NN) TESIS

  Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika

  HULIMAN 117038025

  PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2013

  

PERSETUJUAN

  Judul : ANALISIS AKURASI ALGORITMA POHON

   KEPUTUSAN DAN K-NEAREST NEIGHBOR (k-NN)

  Kategori : - Nama : Huliman Nomor Induk Mahasiswa : 117038025 Program Studi : S2 Teknik Informatika Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

  UNIVERSITAS SUMATERA UTARA Komisi Pembimbing : Pembimbing 2 Pembimbing 1

  

Dr. Erna Budhiarti Nababan, M.IT Prof. Dr. Herman Mawengkang

  Diketahui/disetujui oleh Program Studi S2 Teknik Informatika Ketua,

  Prof. Dr. Muhammad Zarlis

  NIP. 19570701 198601 1 003

  

PERNYATAAN ORISINALITAS

ANALISIS AKURASI ALGORITMA POHON KEPUTUSAN

DAN K-NEAREST NEIGHBOR (k-NN)

TESIS

  Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

  Medan, 25 Juli 2013

  Huliman

  117038025

  

PERNYATAAN PERSETUJUAN PUBLIKASI

KARYA ILMIAH UNTUK KEPENTINGAN

AKADEMIS

  Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini: Nama : Huliman NIM : 117038025 Program Studi : S2 Teknik Informatika Jenis Karya Ilmiah : Tesis

  Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas tesis saya yang berjudul:

  

ANALISIS AKURASI ALGORITMA POHON KEPUTUSAN

DAN K-NEAREST NEIGHBOR (k-NN)

  Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non- Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat, dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.

  Demikian pernyataan ini dibuat dengan sebenarnya.

  Medan, 25 Juli 2013

  Huliman

  117038025 Telah diuji pada Tanggal: 15 Agustus 2013

PANITIA PENGUJI TESIS

  Ketua : Prof. Dr. Herman Mawengkang Anggota : 1. Dr. Erna Budhiarti Nababan, M.IT

  2. Prof. Dr. Muhammad Zarlis

  3. Prof. Dr. Tulus

  4. Prof. Dr. Drs. Iryanto, M.Si

  

RIWAYAT HIDUP

DATA PRIBADI

  Nama Lengkap (berikut gelar) : Huliman, S.Kom Tempat dan Tanggal Lahir : Medan, 15 Desember 1985 Alamat Rumah : Jl. Platina Raya Komplek The Ivory

  Blok E-17 Kel. Titipapan Kec. Medan Deli

  Telepon/Faks/HP : (061) 77053205 / 0852 7515 0011 E-mail : [email protected] Instansi Tempat Bekerja : 1) SMA Dr. Wahidin Sudirohusodo

  2) STMIK TIME Medan Alamat Kantor : 1) Jl. K.L. Yos Sudarso Km. 16,5

  Pajak Rambe Kel. Martubung Kec. Medan Labuhan 2) Jl. Merbabu No. 32 AA-BB Medan

DATA PENDIDIKAN

  SD : SD Dr. Wahidin Sudirohusodo TAMAT: 1997 SLTP : SLTP Dr. Wahidin Sudirohusodo TAMAT: 2000 SLTA : SMU Dr. Wahidin Sudirohusodo TAMAT: 2003 S1 : Sistem Informasi STMIK IBBI TAMAT: 2007 S2 : Teknik Informatika USU TAMAT: 2013

UCAPAN TERIMA KASIH

  Pertama-tama penulis memanjatkan puji syukur kehadirat Tuhan Yang Maha Esa atas segala limpahan rahmat dan karunia-Nya, sehingga penulis dapat menyelesaikan tesis ini dengan baik dan tepat waktu.

  Tesis ini disusun sebagai salah satu syarat untuk memperoleh ijazah Magister Teknik Informatika pada Program Studi S2 Teknik Informatika, Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara (Fasilkom TI USU).

  Dalam kesempatan ini, penulis hendak memberikan penghargaan dan mengucapkan terima kasih yang sebesar-besarnya kepada:

  1. Bapak Prof. Dr. dr. Syahril Pasaribu, D.T.M.&H., M.Sc. (C.T.M.), Sp.A.(K.) selaku Rektor Universitas Sumatera Utara, atas kesempatan yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan Pasca Sarjana.

  2. Bapak Prof. Dr. Muhammad Zarlis, selaku Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara, sekaligus Ketua Program Studi S2 Teknik Informatika dan penguji tesis yang telah memberikan masukan dan motivasi yang tidak ternilai harganya kepada penulis.

  3. Bapak Prof. Dr. Herman Mawengkang, selaku pembimbing utama yang senantiasa memberikan arahan kepada penulis hingga selesainya tesis ini.

  4. Ibu Dr. Erna Budhiarti Nababan, M.IT, selaku pembimbing kedua yang telah meluangkan waktu, tenaga, dan pikiran, serta kesabaran dalam menuntun dan mengarahkan penulis menjadi seorang peneliti sejati.

  5. Bapak Prof. Dr. Tulus, selaku penguji tesis yang benar-benar memberikan masukan dan arahan yang berarti bagi penulis.

  6. Bapak Prof. Dr. Drs. Iryanto, M.Si, selaku penguji tesis yang telah memberikan arahan dan motivasi yang luar biasa kepada penulis dalam penelitian ini.

  7. Bapak M. Andri Budiman, ST, M.Comp.Sc, MEM, selaku Sekretaris Program Studi S2 Teknik Informatika yang telah memberikan perhatian dan masukan dalam pengerjaan tesis ini.

  8. Seluruh dosen Program Studi S2 Teknik Informatika, Fasilkom TI USU yang telah memberikan bekal pengetahuan kepada penulis.

  9. Ibu P.W. Wijaya, M.Pd, selaku Kepala SMA Dr. Wahidin Sudirohusodo, Medan Labuhan yang telah memberikan izin studi, membagi pengalaman beliau di bidang pendidikan, dan juga memberikan spirit (semangat) yang

  “hebat dan dahsyat ” kepada penulis.

  10. Ibu Madjakani Widjaja, yang senantiasa menjadi inspirator dan motivator bagi penulis serta memberikan doa sehingga penulis dapat menyelesaikan studi ini dengan baik dan tepat waktu.

  11. Kedua orang tuaku, saudara, dan istri tercinta, Cristiena yang telah memberikan kasih sayang dan dengan penuh ketulusan mendoakan penulis agar selalu diberikan kekuatan lahir dan batin dalam menyelesaikan studi ini.

  12. Perg. Dr. Wahidin Sudirohusodo, Medan Labuhan, tempat penulis mengabdikan diri sebagai Guru Bidang Studi Teknologi Informasi dan Komunikasi (TIK).

  13. STMIK TIME Medan, tempat penulis mengabdikan diri sebagai Dosen Mata Kuliah Algoritma dan Pemrograman sejak tahun 2007.

  14. Rekan mahasiswa Program Studi S2 Teknik Informatika, Fasilkom TI USU Angkatan 2011 atas kerja sama dan kekompakan selama studi dan penelitian.

  15. Seluruh staf/pegawai dan sivitas akademika Program Studi S2 Teknik Informatika, Fasilkom TI USU atas kerja sama-nya selama studi dan penelitian.

  Penulis menyadari sepenuhnya bahwa masih adanya kekurangan dalam penyajian tesis ini. Oleh karena itu, penulis mengharapkan masukan dan saran yang bersifat membangun demi penyempurnaan tesis ini di masa mendatang. Akhir kata, penulis berharap tesis ini dapat bermanfaat bagi para pembaca yang memiliki minat di bidang ilmu komputer dan teknologi informasi.

  Medan, 25 Juli 2013

  Huliman

  117038025

  

ABSTRAK

  Perkembangan teknologi basis data modern telah memungkinkan ruang penyimpanan yang besar dan hal ini menjadi latar belakang dikembangkannya konsep data mining. Salah satu fungsi utama data mining adalah fungsi klasifikasi yang digunakan untuk memprediksi kelas dan menghasilkan informasi berdasarkan data historis. Pada fungsi klasifikasi, terdapat banyak algoritma yang dapat digunakan untuk mengolah input menjadi output yang diinginkan, sehingga harus diperhatikan aspek performance dari masing-masing algoritma tersebut. Tujuan penelitian ini adalah untuk menganalisis dan membandingkan performance algoritma klasifikasi pohon keputusan (C4.5) dan

  

k-Nearest Neighbor (k-NN) dari sudut pandang akurasi. Data sets penelitian berasal

  dari UCI data sets, yaitu BreastCancer, Car, Diabetes, Ionosphere, dan Iris. Adapun metode evaluasi yang digunakan pada kedua macam algoritma adalah 10-fold cross

  

validation . Hasil evaluasi berupa confusion matrix untuk penilaian precision, recall,

F-measure , dan success rate. Hasil analisis perbandingan akurasi menunjukkan bahwa

  nilai keakuratan algoritma pohon keputusan lebih baik dengan variasi 2.28% - 2.5% dibandingkan algoritma k-NN pada implementasi terhadap 5 data sets penelitian.

  

Kata Kunci: Klasifikasi, Pohon Keputusan, k-NN, 10-fold Cross Validation,

Confusion Matrix, Akurasi.

  

ACCURACY ANALYSIS OF DECISION TREE AND

K-NEAREST NEIGHBOR (k-NN) ALGORITHM

ABSTRACT

  The development of modern database technology has enabled large space of storage and this concept has become the background of the data mining applications. One of the main functions of data mining is the classification that is used to predict the class and generate information based on historical data. In the classification, there is a lot of algorithms that can be used to process the input into the desired output, thus it is very important to observe and measure the performance of each algorithm. The purpose of this research is to analyze and compare the performance of decision tree (C4.5) and k- Nearest Neighbor (k-NN) algorithm from the point of view of accuracy. Data sets are derived from UCI data sets, namely BreastCancer, Car, Diabetes, Ionosphere, and Iris. The evaluation method used in both kinds of algorithms is 10-fold cross validation. Evaluation result for each algorithm is a confusion matrix for measuring the precision, recall, F-measure, and success rate. Comparative analysis of the accuracy showed that the accuracy of the decision tree algorithm is better by variation of 2.28% - 2.5% compared to k-NN algorithm in the implementation for 5 research data sets.

  

Keywords: Classification, Decision Tree, k-NN, 10-fold Cross Validation, Confusion Matrix, Accuracy. xi

DAFTAR ISI

  Hal

HALAMAN JUDUL

  i PERSETUJUAN ii iiiiiiii PERNYATAAN ORISINALITAS iii PERSETUJUAN PUBLIKASI iv PANITIA PENGUJI v RIWAYAT HIDUP vi UCAPAN TERIMA KASIH vii ABSTRAK ix ABSRACT x DAFTAR ISI xi DAFTAR TABEL xiv DAFTAR GAMBAR xxxxxxxxxxx xv

BAB 1 : PENDAHULUAN

  1.1. Latar Belakang

  1

  1.2. Perumusan Masalah

  3

  1.3. Batasan Masalah

  3

  1.4. Tujuan Penelitian

  4

  1.5. Manfaat Penelitian

  4 BAB 2 : TINJAUAN PUSTAKA

  2.1. Algoritma Pohon Keputusan

  5

  2.1.1. Pohon Keputusan ID3

  7

  2.1.2. Pohon Keputusan C4.5

  9

  2.2. Algoritma k-Nearest Neighbor (k-NN)

  11

  2.3. Data Mining

  13

  2.4. Jenis Data dalam Data Mining

  20

  2.5. Teknik Klasifikasi

  24

  2.6. Pengukuran Akurasi

  26 xii

  2.7. Riset Terkait

  4.4. Data Set Ionosphere

  40

  3.4.1. Aplikasi Training Sets dan Testing Sets

  42

  3.4.2. Aplikasi Perhitungan Akurasi

  44 BAB 4 : HASIL DAN PEMBAHASAN

  4.1. Data Set BreastCancer

  46

  4.2. Data Set Car

  48

  4.3. Data Set Diabetes

  50

  52

  38

  4.5. Data Set Iris

  54

  4.6. Analisis Perbandingan Akurasi

  57

  4.6.1. Penilaian Precision

  57

  4.6.2. Penilaian Recall

  58

  4.6.3. Penilaian F-measure

  60

  4.6.4. Penilaian Success Rate

  3.4. Desain Sistem

  3.3.4. Confusion Matrix

  29

  32

  2.8. Perbedaan dengan Riset yang Lain

  30

  2.9. Kontribusi Riset

  30 BAB 3 : METODOLOGI PENELITIAN

  3.1. Pendahuluan

  31

  3.2. Data yang Digunakan

  31

  3.2.1. Data Set BreastCancer

  32

  3.2.2. Data Set Car

  3.2.3. Data Set Diabetes

  38

  33

  3.2.4. Data Set Ionosphere

  33

  3.2.5. Data Set Iris

  33

  3.3. Analisis Sistem

  34

  3.3.1. Pohon Keputusan

  34 3.3.2. k-Nearest Neighbor (k-NN)

  36

  3.3.3. Metode 10-fold Cross Validation

  61 xiii

BAB 5 : KESIMPULAN DAN SARAN

  5.1. Kesimpulan

  63

  5.2. Saran

  64 DAFTAR PUSTAKA

  65 LAMPIRAN

  67 xiv

  

DAFTAR TABEL

  4.9. Nilai Akurasi Pohon Keputusan terhadap Iris.arff

  50

  4.5. Nilai Akurasi Pohon Keputusan terhadap Diabetes.arff

  51

  4.6. Nilai Akurasi k-NN terhadap Diabetes.arff

  52

  4.7. Nilai Akurasi Pohon Keputusan terhadap Ionosphere.arff

  53

  4.8. Nilai Akurasi k-NN terhadap Ionosphere.arff

  54

  55

  49

  4.10. Nilai Akurasi k-NN terhadap Iris.arff

  56

  4.11. Perbandingan Precision Pohon Keputusan dan k-NN

  57

  4.12. Perbandingan Recall Pohon Keputusan dan k-NN

  59

  4.13. Perbandingan F-Measure Pohon Keputusan dan k-NN

  60

  4.14. Perbandingan Success Rate Pohon Keputusan dan k-NN

  4.4. Nilai Akurasi k-NN terhadap Car.arff

  4.3. Nilai Akurasi Pohon Keputusan terhadap Car.arff

  Nomor Keterangan Hal

  32

  2.1. Confusion Matrix

  28

  2.2. Table of Confusion

  28

  3.1. Data Sets Penelitian

  31

  3.2. Informasi Atribut Data Set BreastCancer

  32

  3.3. Informasi Atribut Data Set Car

  3.4. Informasi Atribut Data Set Diabetes

  48

  33

  3.5. Informasi Atribut Data Set Iris

  34 3.6. Table of Confusion Kelas “tested_negative”

  39 3.7. Table of Confusion Kelas “tested_positive”

  39

  3.8. Nilai Akurasi berdasarkan Confusion Matrix Diabetes.arff

  40

  4.1. Nilai Akurasi Pohon Keputusan terhadap BreastCancer.arff

  47

  4.2. Nilai Akurasi k-NN terhadap BreastCancer.arff

  61 xv

  DAFTAR GAMBAR

  4.6. Perhitungan Akurasi k-NN terhadap Diabetes.arff

  3.7. Tahapan Classify

  44

  3.8. Interface Confusion Matrix for Accuracy

  44

  4.1. Perhitungan Akurasi Pohon Keputusan terhadap BreastCancer.arff

  46

  4.2. Perhitungan Akurasi k-NN terhadap BreastCancer.arff

  47

  4.3. Perhitungan Akurasi Pohon Keputusan terhadap Car.arff

  48

  4.4. Perhitungan Akurasi k-NN terhadap Car.arff

  49

  4.5. Perhitungan Akurasi Pohon Keputusan terhadap Diabetes.arff

  51

  52

  3.6. Tahapan Preprocess

  4.11. Grafik Perbandingan Precision

  4.14. Grafik Perbandingan Success Rate

  60

  4.13. Grafik Perbandingan F-measure

  59

  4.12. Grafik Perbandingan Recall

  58

  56

  4.7. Perhitungan Akurasi Pohon Keputusan terhadap Ionosphere.arff

  4.10. Perhitungan Akurasi k-NN terhadap Iris.arff

  55

  4.9. Perhitungan Akurasi Pohon Keputusan terhadap Iris.arff

  54

  4.8. Perhitungan Akurasi k-NN terhadap Ionosphere.arff

  53

  43

  42

  Nomor Keterangan Hal

  12

  17

  2.7. Tingkatan Pemanfaatan Data untuk Pengambilan Keputusan

  16

  2.6. Peranan Bidang Ilmu Lain terhadap Data Mining

  16

  2.5. Ilmu Data Mining

  2.4. Ilustrasi Kedekatan Kasus Pasien

  Data Cube

  11

  2.3. Pohon Keputusan Sebelum dan Setelah Dipangkas

  6

  2.2. Struktur Pohon Keputusan

  5

  2.1. Konsep Pohon Keputusan

  2.8. Tahapan KDD pada Data Mining 18 2.9.

  pada Data Warehouse

  3.5. Interface WEKA 3.7.8

  35

  39

  3.4. Confusion Matrix Diabetes.arff

  38

  3.3. Metode 10-fold Cross Validation

  37

  3.2. Diagram Alir Perhitungan Akurasi k-NN pada Diabetes.arff

  3.1. Diagram Alir Perhitungan Akurasi Pohon Keputusan pada Diabetes.arff

  22

  27

  2.12. Hasil Prediksi Kelas

  26

  2.11. Prosedur 5-fold Cross Validation

  24

  2.10. Contoh Model Klasifikasi

  62