ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA TESIS SAIFULLAH 117038036

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA TESIS SAIFULLAH 117038036

  PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2013

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA TESIS

  Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika

  SAIFULLAH 117038036 PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2013

  PERSETUJUAN Judul : ANALISIS PERBANDINGAN ALGORITMA DECESION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA Nama Mahasiswa : SAIFULLAH Nomor Induk Mahasiswa : 117038036 Program Studi : MAGISTER TEKNIK INFORMATIKA

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA Komisi Pembimbing : Pembimbing 2 Pembimbing 1 Dr. Zakarias Situmorang Prof. Dr. Muhammad Zarlis Diketahui/disetujui oleh Magister Teknik Informatika Ketua, Prof. Dr. Muhammad Zarlis NIP : 195707011986011003

  

PERNYATAAN

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE

DENGAN ALGORITMA RANDOM TREE UNTUK

PROSES PRE PROCESSING DATA

TESIS

  Saya mengakui semua karya tesis ini adalah hasil kerja saya sendiri kecuali kutipan dan ringkasan yang tiap bagiannya telah dijelaskan sumbernya.

  Medan, 19 Desember 2013

  SAIFULLAH NIM : 117038036

PERNYATAAN PERSETUJUAN PUBLIKASI

  Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini: Nama : SAIFULLAH NIM : 117038036 Program Studi : Magister (S2) Teknik Informatika Jenis Karya Ilmiah : TESIS

  Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive

  Royalty free Right) atas Tesis saya yang berjudul:

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE

  

DENGAN ALGORITMA RANDOM TREE UNTUK

PROSES PRE PROCESSING DATA

  Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non- Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.

  Demikian pernyataan ini dibuat dengan sebenarnya.

  Medan, 19 Desember 2013

  SAIFULLAH NIM : 117038036

  Telah diuji pada Tanggal : 19 Desember 2013 PANITIA PENGUJI TESIS Ketua : Prof. Dr. Muhammad Zarlis Anggota :

  1. Dr. Zakarias Situmorang

  2. Prof. Dr. Herman Mawengkang

  3. Prof. Dr. Tulus

  

4. Dr. Erna Budhiarti Nababan, M.IT

RIWAYAT HIDUP DATA PRIBADI

  Nama lengkap (berikut gelar) : Saifullah, S.Kom Tempat dan Tanggal Lahir : Kota Pari, 07 Mei 1979 Alamat Rumah : Jl. Tanah Jawa No. 42 Pematangsiantar Telepon / HP : 085296690027 Email Instansi Tempat Bekerja : AMIK Tunas Bangsa Alamat Kantor : Jl. Jendral Sudirman Blok A No. 1,2,3

  Pematangsiantar Telepon : (0622) 22431

DATA PENDIDIKAN

  SD : SD NEGERI Kota Pari Tamat : 1992 SLTP : SMP NEGERI 1 Pantai Cermin Tamat : 1995 SLTA : SMA NEGERI 1 Perbaungan Tamat : 1998 D3 : AMIK Tunas Bangsa Pematangsiantar Tamat : 2006 Strata-1 : STMIK TIME Medan Tamat : 2010 Strata-2 : TEKNIK INFORMATIKA USU Tamat : 2013

KATA PENGANTAR

  Puji syukur kehadirat Allah SWT Tuhan Yang Maha Esa atas segala limpahan rakhmad dan karunia-Nya sehingga Tesis ini dapat diselesaikan melalui bimbingan, arahan dan bantuan yang diberikan berbagai pihak khususnya pembimbing, pembanding, para dosen, rekan-rekan mahasiswa/i, khususnya mahasiswa/i Program Studi Magister (S2) Teknik Informatika di FASILKOM Universitas Sumatera Utara.

  Tesis dengan judul: “Analisis Perbandingan Algoritma Decision Tree Dengan Algoritma Random Tree Untuk Proses Pre Processing Data” adalah merupakan Tesis dan syarat untuk memperoleh gelar Magister Komputer dalam Program Studi Magister (S2) Teknik Informatika pada Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara.

  Dengan selesainya tesis ini, perkenankanlah penulis mengucapkan terima kasih yang sebesar-besarnya kepada: Ketua Yayasan Muhammad Nasir AMIK Tunas Bangsa Pematangsiantar

  H. Maulia Ahmad Ridwan Syah yang telah memberikan izin, bantuan moril dan materil dan kesempatan kepada penulis untuk mengikuti pendidikan lanjutan pada Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara.

  Direktur AMIK Tunas Bangsa Pematangsiantar Rahmat Widia Sembiring SE, Msc.IT dan Plt. Direktur Dedy Hartma, ST, M.Kom yang telah memberikan izin, bantuan moril dan materil dan motivasi dalam penyelesaikan pendidikan Program Magister (S2).

  Rektor Universitas Sumatera Utara, Prof. Dr. dr. Syahril Pasaribu, DTM&H, M,Sc (CTM), Sp. A(K) atas kesempatan yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan Program Magister (S2).

  Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara, Prof. Dr. Muhammad Zarlis atas kesempatan yang diberikan kepada penulis menjadi mahasiswa Program Magister (S2) pada Program Pascasarjana Fasilkom Universitas Sumatera Utara.

  Ketua Program Studi Magister (S2) Teknik Informatika, Prof. Dr. Muhammad Zarlis, Sekretaris Program Studi Magister (S2) Teknik Informatika M. Andri Budiman, ST, M. Comp. Sc, M.EM beserta seluruh Staff dan Staff Pengajar pada Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara, yang telah bersedia membimbing penulis, sehingga dapat menyelesaikan pendidika Pascasarjana.

  Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Prof. Dr. Muhammad Zarlis selaku Pembimbing Utama dan Dr. Zakarias Situmorang selaku Pembimbing Anggota yang dengan penuh kesabaran membimbing, memotivasi, memberikan dukungan moril, kritik dan saran serta memberikan bahan-bahan yang berkaitan dengan penyusunan tesis ini sehingga penulis dapat menyelesaikan tesis ini dengan baik.

  Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Prof. Dr. Herman Mawengkang, Prof. Dr. Tulus, dan Dr. Erna Budhiarti Nababan, M.IT sebagai pembanding, yang telah memberikan saran, masukan dan arahan yang baik demi penyelesaian tesis ini.

  Seluruh Staf Pengajar dan Administrasi, Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara yang telah memberikan bantuan dan pelayanan yang baik kepada penulis selama mengikuti perkuliahan.

  Orangtua tercinta Ayahanda dan Ibunda, serta Ibu Mertua serta semua keluarga yang senantiasa mendoakan, dan memberikan dorongan kepada penulis. Anak tercinta, Inda Ramadhani yang selalu mendoakan, memberikan semangat, serta kesabarannya untuk menanti penulis pulang dalam masa pendidikan, budi baik ini tidak dapat dibalas hanya diserahkan kepada Allah SWT, Tuhan Yang maha Esa.

  Rekan Mahasiswa baik yang senior maupun Angkatan ke Tiga Program Studi Magister (S2) Fasilkom-TI Universitas Sumatera Utara dan Rekan Sejawat di AMIK Tunas Bangsa Pematangsiantar yang telah banyak membantu penulis selama mengikuti perkuliahan.

  Kepada semua pihak yang tidak dapat penulis sebutkan satu persatu dalam tesis ini, terima kasih atas segala bantuan yang diberikan. Sekecil apapun yang Anda berikan untuk penulis turut menghantarkan penulis untuk menyelesaikan pendidikan yang ditempuh selama ini. Dengan segala kekurangan dan kerendahan hati, semoga kiranya Allah SWT Tuhan Yang Maha Kuasa membalas segala bantuan, kebaikan yang telah diberikan.

  Medan, 19 Desember 2013 Penulis, Saifullah

  

ABSTRAK

  Pemrosesan data sangatlah dibutuhkan beberapa metode untuk mendapatkan hasil yang lebih baik. Perbandingan-perbandingan dari metode tersebut sangat dibutuhkan untuk pengolahan data yang lebih baik. Penelitian ini ditujukan dataset sebagai inputan preprocessing, dan selanjutnya digunakan pada aplikasi model aturan algoritma decision tree, random tree dan random forest, menggunakan software rapidminer. Pohon Keputusan digunakan untuk membuat model aturan yang akan dipilih dalam mengambil keputusan. Dari pendekatan preprocessing data dan model aturan yang didapat, dapat menjadi perhatian bagi pengambil keputusan untuk melihat dan mengambil keputusan variabel mana yang harus diperhatikan untuk mendukung peningkatan kinerja karyawan.

  

KataKunci : Pre-processing Data, Decision Tree, Random Tree, Random

Forest.

  

ANALYSIS OF THE COMPARISON OF ALGORITHM

DECISION TREE WITH ALGORITHM RANDOM TREE

FOR DATA PRE-PROCESSING PROCESS

ABSTRACT

  Data processing is needed several methods to get better results. Comparisons of these methods are needed to get better data processing. This research shows that a dataset as input preprocessing, and subsequently used in the application of the model rules of decision tree algorithm, random tree and random forest algorithm using the software RapidMiner. Decision trees are used to make the model rules to be selected in making decisions. From the data preprocessing approach and the model rules obtained can be a concern for decision makers to see and make decisions, which variables must be considered to support the improvement of employee performance.

  Keywords : Pre-processing Data, Decision Tree, Random Tree, Random Forest.

  DAFTAR ISI Halaman

  KATA PENGANTAR i

  ABSTRAK iv

  ABSTRACT v

  DAFTAR ISI vi

  DAFTAR TABEL viii

  DAFTAR GAMBAR ix

  DAFTAR LAMPIRAN

BAB I PENDAHULUAN

  1

  1.1 Latar Belakang

  1

  1.2 Perumusan Masalah

  2

  1.3. Batasan Masalah

  2

  1.4 Tujuan Penelitian

  2

  1.5 Manfaat Penelitian

  3 BAB II LANDASAN TEORI

   4

  2.1 Pendahuluan

  4

  2.2 Data Mining

  4

  2.3 Decision Tree

  9

  2.4 Random Tree

  12

  2.5 Random Forest

  13

  2.6 Preprocessing data

  14

  2.6.1 Jenis-Jenis Metode Preprocessing Data

  14 BAB III METODE PENELITIAN

  16

  3.1. Pendahuluan

  16

  3.2 Rancangan Penelitian

  16

  3.3 Pelaksanaan Penelitian

  18

  3.4 Perancangan Model Analisis

  18

  3.5 Kontribusi Penelitian

  19

BAB IV HASIL DAN PEMBAHASAN

   20

  4.1. Pendahuluan

  20

  4.2 Hasil Percobaan

  20

  4.2.1 Diskripsi Sampel Data

  21

  4.2.2 Hasil Processing

  22

  4.2.2.1 Decision Tree

  22

  4.2.2.2 Random Tree

  23

  4.2.2.3 Random Forest

  26

  4.2.3 Preprocessing dengan Missing Value

  39

  4.2.3.1 Decision Tree

  39

  4.2.3.2 Random Tree

  41

  4.2.3.3 Random Forest

  43 BAB V KESIMPULAN DAN SARAN

   56

  5.1. Kesimpulan

  56

  5.2. Saran

  56 DAFTAR PUSTAKA

   57 LAMPIRAN

  

DAFTAR TABEL

Hal.

  38 Tabel 4.14. Keterangan Rule Grafik Decision Tree

  53 Tabel 4.25. Keterangan Rule Grafik Random forest Model 10

  52 Tabel 4.24. Keterangan Rule Grafik Random forest Model 9

  51 Tabel 4.23. Keterangan Rule Grafik Random forest Model 8

  50 Tabel 4.22. Keterangan Rule Grafik Random forest Model 7

  49 Tabel 4.21. Keterangan Rule Grafik Random forest Model 6

  47 Tabel 4.20. Keterangan Rule Grafik Random forest Model 5

  46 Tabel 4.19. Keterangan Rule Grafik Random forest Model 4

  45 Tabel 4.18. Keterangan Rule Grafik Random forest Model 3

  44 Tabel 4.17. Keterangan Rule Grafik Random forest Model 2

  42 Tabel 4.16. Keterangan Rule Grafik Random forest Model 1

  40 Tabel 4.15. Keterangan Rule Grafik Random Tree

  36 Tabel 4.13. Keterangan Rule Grafik Random forest Model 10

Tabel 4.1. Deskripsi Data

  35 Tabel 4.12. Keterangan Rule Grafik Random forest Model 9

  34 Tabel 4.11. Keterangan Rule Grafik Random forest Model 8

  32 Tabel 4.10. Keterangan Rule Grafik Random forest Model 7

  31 Tabel 4.9. Keterangan Rule Grafik Random forest Model 6

  30 Tabel 4.8. Keterangan Rule Grafik Random forest Model 5

  29 Tabel 4.7. Keterangan Rule Grafik Random forest Model 4

  27 Tabel 4.6. Keterangan Rule Grafik Random forest Model 3

  26 Tabel 4.5. Keterangan Rule Grafik Random forest Model 2

  25 Tabel 4.4. Keterangan Rule Grafik Random forest Model 1

  23 Tabel 4.3. Keterangan Rule Grafik Random Tree

  21 Tabel 4.2. Keterangan Rule Grafik Decision Tree

  55

  

DAFTAR GAMBAR

Hal.

  25 Gambar 4.7. Model 1 preprocessing handle missing value as category dengan implementasi random forest

  handle missing value as category

  28 Gambar 4.13. Teks model 3 rule random forest dengan implementasi

  28 Gambar 4.12. Model 3 handle missing value as category dengan implementasi random forest

  handle missing value as category

  27 Gambar 4.11. Teks model 2 rule random forest dengan implementasi

  implementasi random forest

  27 Gambar 4.10. Model 2 handle missing value as category dengan

  handle missing value as category

  26 Gambar 4.9. Teks model 1 rule random forest dengan implentasi

  26 Gambar 4.8. Model 1 handle missing value as category dengan implementasi random forest

  value as category

Gambar 2.1. Bidang Ilmu Data Mining

  24 Gambar 4.6. Rule random tree dengan implementasi handle missing

  category

  24 Gambar 4.5. Hasil random tree implentasi handle missing value as

  23 Gambar 4.4. Model Preprocessing handle missing value as category dengan implementasi random tree

  value category

  22 Gambar 4.3. Rule decision tree dengan implentasi handle missing

  22 Gambar 4.2. Hasil decision tree

  17 Gambar 4.1. Model Preprocessing Handle missing value as category dengan implentasi decision tree

  7 Gambar 3.1. Alur Pre Processing data

  5 Gambar 2.2. Proses dari Data Mining

  29

Gambar 4.14. Model 4 handle missing value as category dengan implementasi random forest

  35 Gambar 4.23. Teks Model 8 rule random forest dengan implementasi

  38 Gambar 4.28. Model preprocessingnya missing value replenishment dengan implementasi decission tree

  handle missing value as category

  37 Gambar 4.27. Teks Model 10 rule random forest dengan implementasi

  37 Gambar 4.26. Model 10 handle missing value as category dengan implementasi random forest

  hiandle missing value as category

  36 Gambar 4.25. Teks Model 9 rule random forest dengan implementasi

  implementasi random forest

  35 Gambar 4.24. Model 9 handle missing value as category dengan

  handle missing value as category

  34 Gambar 4.22. Model 8 handle missing value as category dengan implementasi random forest

  29 Gambar 4.15. Teks Model 4 rule random forest dengan implementasi

  handle missing value as category

  33 Gambar 4.21. Teks Model 7 rule random forest dengan implementasi

  33 Gambar 4.20. Model 7 handle missing value as category dengan implementasi random forest

  handle missing value category

  32 Gambar 4.19. Teks model 6 rule random forest dengan implementasi

  31 Gambar 4.18. Model 6 handle missing value as category dengan implementasi random forest

  handle missing value as category

  30 Gambar 4.17. Teks Model 5 rule random forest dengan implementasi

  30 Gambar 4.16. Model 5 handle missing value as category dengan implementasi random forest

  handle missing value as category

  39

Gambar 4.29. Hasil decission tree implementasi missing value

  44 Gambar 4.37. Model 2 Missing value replenishment dengan implementasi random forest

  48 Gambar 4.43. Model 5 Missing value replenishment dengan implementasi random forest

  missing value replenishment

  47 Gambar 4.42. Teks Model 4 rule random forest dengan implementasi

  47 Gambar 4.41. Model 4 Missing value replenishment dengan implementasi random forest

  missing value replenishment

  46 Gambar 4.40. Teks Model 3 rule random forest dengan implementasi

  45 Gambar 4.39. Model 3 Missing value replenishment dengan implementasi random forest

  missing value replenishment

  44 Gambar 4.38. Teks Model 2 rule random forest dengan implementasi

  missing value replenishment

  replenishment

  43 Gambar 4.36. Teks Model 1 rule random forest dengan implementasi

  43 Gambar 4.35. Model 1 Missing value replenishment dengan implementasi random forest

  42 Gambar 4.34. Model Preprocessingnya Missing value replenisment dengan implementasi random tree

  value replenishment

  41 Gambar 4.33. Rule random tree dengan implementasi missing

  replenishment

  41 Gambar 4.32. Hasil random tree implementasi missing value

  40 Gambar 4.31. Model Preprocessing missing value replenishment dengan implementasi random tree

  value replenishment

  39 Gambar 4.30. Rule decision tree dengan implementasi missing

  48

Gambar 4.44. Teks Model 5 rule random forest dengan implementasi

  missing value replenishment

  missing value replenishment

  54 Gambar 4.54. Teks Model 10 rule random forest dengan implementasi

  54 Gambar 4.53. Model 10 Missing value replenishment dengan implementasi random forest

  missing value replenishment

  53 Gambar 4.52. Teks Model 9 rule random forest dengan implementasi

  53 Gambar 4.51. Model 9 Missing value replenishment dengan implementasi random forest

  52 Gambar 4.50. Teks Model 8 rule random forest dengan implementasi

  missing value replenishment

  51 Gambar 4.49. Model 8 Missing value replenishment dengan implementasi random forest

  missing value replenishment

  51 Gambar 4.48. Teks Model 7 rule random forest dengan implementasi

  50 Gambar 4.47. Model 7 Missing value replenishment dengan implementasi random forest

  missing value replenishment

  49 Gambar 4.46. Teks Model 6 rule random forest dengan implementasi

  49 Gambar 4.45. Model 6 Missing value replenishment dengan implementasi random forest

  55