ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA TESIS SAIFULLAH 117038036
ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA TESIS SAIFULLAH 117038036
PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2013
ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika
SAIFULLAH 117038036 PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2013
PERSETUJUAN Judul : ANALISIS PERBANDINGAN ALGORITMA DECESION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA Nama Mahasiswa : SAIFULLAH Nomor Induk Mahasiswa : 117038036 Program Studi : MAGISTER TEKNIK INFORMATIKA
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA Komisi Pembimbing : Pembimbing 2 Pembimbing 1 Dr. Zakarias Situmorang Prof. Dr. Muhammad Zarlis Diketahui/disetujui oleh Magister Teknik Informatika Ketua, Prof. Dr. Muhammad Zarlis NIP : 195707011986011003
PERNYATAAN
ANALISIS PERBANDINGAN ALGORITMA DECISION TREEDENGAN ALGORITMA RANDOM TREE UNTUK
PROSES PRE PROCESSING DATA
TESIS
Saya mengakui semua karya tesis ini adalah hasil kerja saya sendiri kecuali kutipan dan ringkasan yang tiap bagiannya telah dijelaskan sumbernya.
Medan, 19 Desember 2013
SAIFULLAH NIM : 117038036
PERNYATAAN PERSETUJUAN PUBLIKASI
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini: Nama : SAIFULLAH NIM : 117038036 Program Studi : Magister (S2) Teknik Informatika Jenis Karya Ilmiah : TESIS
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive
Royalty free Right) atas Tesis saya yang berjudul:
ANALISIS PERBANDINGAN ALGORITMA DECISION TREE
DENGAN ALGORITMA RANDOM TREE UNTUK
PROSES PRE PROCESSING DATA
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non- Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, 19 Desember 2013
SAIFULLAH NIM : 117038036
Telah diuji pada Tanggal : 19 Desember 2013 PANITIA PENGUJI TESIS Ketua : Prof. Dr. Muhammad Zarlis Anggota :
1. Dr. Zakarias Situmorang
2. Prof. Dr. Herman Mawengkang
3. Prof. Dr. Tulus
4. Dr. Erna Budhiarti Nababan, M.IT
RIWAYAT HIDUP DATA PRIBADI
Nama lengkap (berikut gelar) : Saifullah, S.Kom Tempat dan Tanggal Lahir : Kota Pari, 07 Mei 1979 Alamat Rumah : Jl. Tanah Jawa No. 42 Pematangsiantar Telepon / HP : 085296690027 Email Instansi Tempat Bekerja : AMIK Tunas Bangsa Alamat Kantor : Jl. Jendral Sudirman Blok A No. 1,2,3
Pematangsiantar Telepon : (0622) 22431
DATA PENDIDIKAN
SD : SD NEGERI Kota Pari Tamat : 1992 SLTP : SMP NEGERI 1 Pantai Cermin Tamat : 1995 SLTA : SMA NEGERI 1 Perbaungan Tamat : 1998 D3 : AMIK Tunas Bangsa Pematangsiantar Tamat : 2006 Strata-1 : STMIK TIME Medan Tamat : 2010 Strata-2 : TEKNIK INFORMATIKA USU Tamat : 2013
KATA PENGANTAR
Puji syukur kehadirat Allah SWT Tuhan Yang Maha Esa atas segala limpahan rakhmad dan karunia-Nya sehingga Tesis ini dapat diselesaikan melalui bimbingan, arahan dan bantuan yang diberikan berbagai pihak khususnya pembimbing, pembanding, para dosen, rekan-rekan mahasiswa/i, khususnya mahasiswa/i Program Studi Magister (S2) Teknik Informatika di FASILKOM Universitas Sumatera Utara.
Tesis dengan judul: “Analisis Perbandingan Algoritma Decision Tree Dengan Algoritma Random Tree Untuk Proses Pre Processing Data” adalah merupakan Tesis dan syarat untuk memperoleh gelar Magister Komputer dalam Program Studi Magister (S2) Teknik Informatika pada Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara.
Dengan selesainya tesis ini, perkenankanlah penulis mengucapkan terima kasih yang sebesar-besarnya kepada: Ketua Yayasan Muhammad Nasir AMIK Tunas Bangsa Pematangsiantar
H. Maulia Ahmad Ridwan Syah yang telah memberikan izin, bantuan moril dan materil dan kesempatan kepada penulis untuk mengikuti pendidikan lanjutan pada Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara.
Direktur AMIK Tunas Bangsa Pematangsiantar Rahmat Widia Sembiring SE, Msc.IT dan Plt. Direktur Dedy Hartma, ST, M.Kom yang telah memberikan izin, bantuan moril dan materil dan motivasi dalam penyelesaikan pendidikan Program Magister (S2).
Rektor Universitas Sumatera Utara, Prof. Dr. dr. Syahril Pasaribu, DTM&H, M,Sc (CTM), Sp. A(K) atas kesempatan yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan Program Magister (S2).
Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara, Prof. Dr. Muhammad Zarlis atas kesempatan yang diberikan kepada penulis menjadi mahasiswa Program Magister (S2) pada Program Pascasarjana Fasilkom Universitas Sumatera Utara.
Ketua Program Studi Magister (S2) Teknik Informatika, Prof. Dr. Muhammad Zarlis, Sekretaris Program Studi Magister (S2) Teknik Informatika M. Andri Budiman, ST, M. Comp. Sc, M.EM beserta seluruh Staff dan Staff Pengajar pada Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara, yang telah bersedia membimbing penulis, sehingga dapat menyelesaikan pendidika Pascasarjana.
Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Prof. Dr. Muhammad Zarlis selaku Pembimbing Utama dan Dr. Zakarias Situmorang selaku Pembimbing Anggota yang dengan penuh kesabaran membimbing, memotivasi, memberikan dukungan moril, kritik dan saran serta memberikan bahan-bahan yang berkaitan dengan penyusunan tesis ini sehingga penulis dapat menyelesaikan tesis ini dengan baik.
Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Prof. Dr. Herman Mawengkang, Prof. Dr. Tulus, dan Dr. Erna Budhiarti Nababan, M.IT sebagai pembanding, yang telah memberikan saran, masukan dan arahan yang baik demi penyelesaian tesis ini.
Seluruh Staf Pengajar dan Administrasi, Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara yang telah memberikan bantuan dan pelayanan yang baik kepada penulis selama mengikuti perkuliahan.
Orangtua tercinta Ayahanda dan Ibunda, serta Ibu Mertua serta semua keluarga yang senantiasa mendoakan, dan memberikan dorongan kepada penulis. Anak tercinta, Inda Ramadhani yang selalu mendoakan, memberikan semangat, serta kesabarannya untuk menanti penulis pulang dalam masa pendidikan, budi baik ini tidak dapat dibalas hanya diserahkan kepada Allah SWT, Tuhan Yang maha Esa.
Rekan Mahasiswa baik yang senior maupun Angkatan ke Tiga Program Studi Magister (S2) Fasilkom-TI Universitas Sumatera Utara dan Rekan Sejawat di AMIK Tunas Bangsa Pematangsiantar yang telah banyak membantu penulis selama mengikuti perkuliahan.
Kepada semua pihak yang tidak dapat penulis sebutkan satu persatu dalam tesis ini, terima kasih atas segala bantuan yang diberikan. Sekecil apapun yang Anda berikan untuk penulis turut menghantarkan penulis untuk menyelesaikan pendidikan yang ditempuh selama ini. Dengan segala kekurangan dan kerendahan hati, semoga kiranya Allah SWT Tuhan Yang Maha Kuasa membalas segala bantuan, kebaikan yang telah diberikan.
Medan, 19 Desember 2013 Penulis, Saifullah
ABSTRAK
Pemrosesan data sangatlah dibutuhkan beberapa metode untuk mendapatkan hasil yang lebih baik. Perbandingan-perbandingan dari metode tersebut sangat dibutuhkan untuk pengolahan data yang lebih baik. Penelitian ini ditujukan dataset sebagai inputan preprocessing, dan selanjutnya digunakan pada aplikasi model aturan algoritma decision tree, random tree dan random forest, menggunakan software rapidminer. Pohon Keputusan digunakan untuk membuat model aturan yang akan dipilih dalam mengambil keputusan. Dari pendekatan preprocessing data dan model aturan yang didapat, dapat menjadi perhatian bagi pengambil keputusan untuk melihat dan mengambil keputusan variabel mana yang harus diperhatikan untuk mendukung peningkatan kinerja karyawan.
KataKunci : Pre-processing Data, Decision Tree, Random Tree, Random
Forest.
ANALYSIS OF THE COMPARISON OF ALGORITHM
DECISION TREE WITH ALGORITHM RANDOM TREE
FOR DATA PRE-PROCESSING PROCESS
ABSTRACTData processing is needed several methods to get better results. Comparisons of these methods are needed to get better data processing. This research shows that a dataset as input preprocessing, and subsequently used in the application of the model rules of decision tree algorithm, random tree and random forest algorithm using the software RapidMiner. Decision trees are used to make the model rules to be selected in making decisions. From the data preprocessing approach and the model rules obtained can be a concern for decision makers to see and make decisions, which variables must be considered to support the improvement of employee performance.
Keywords : Pre-processing Data, Decision Tree, Random Tree, Random Forest.
DAFTAR ISI Halaman
KATA PENGANTAR i
ABSTRAK iv
ABSTRACT v
DAFTAR ISI vi
DAFTAR TABEL viii
DAFTAR GAMBAR ix
DAFTAR LAMPIRAN
BAB I PENDAHULUAN
1
1.1 Latar Belakang
1
1.2 Perumusan Masalah
2
1.3. Batasan Masalah
2
1.4 Tujuan Penelitian
2
1.5 Manfaat Penelitian
3 BAB II LANDASAN TEORI
4
2.1 Pendahuluan
4
2.2 Data Mining
4
2.3 Decision Tree
9
2.4 Random Tree
12
2.5 Random Forest
13
2.6 Preprocessing data
14
2.6.1 Jenis-Jenis Metode Preprocessing Data
14 BAB III METODE PENELITIAN
16
3.1. Pendahuluan
16
3.2 Rancangan Penelitian
16
3.3 Pelaksanaan Penelitian
18
3.4 Perancangan Model Analisis
18
3.5 Kontribusi Penelitian
19
BAB IV HASIL DAN PEMBAHASAN
20
4.1. Pendahuluan
20
4.2 Hasil Percobaan
20
4.2.1 Diskripsi Sampel Data
21
4.2.2 Hasil Processing
22
4.2.2.1 Decision Tree
22
4.2.2.2 Random Tree
23
4.2.2.3 Random Forest
26
4.2.3 Preprocessing dengan Missing Value
39
4.2.3.1 Decision Tree
39
4.2.3.2 Random Tree
41
4.2.3.3 Random Forest
43 BAB V KESIMPULAN DAN SARAN
56
5.1. Kesimpulan
56
5.2. Saran
56 DAFTAR PUSTAKA
57 LAMPIRAN
DAFTAR TABEL
Hal.38 Tabel 4.14. Keterangan Rule Grafik Decision Tree
53 Tabel 4.25. Keterangan Rule Grafik Random forest Model 10
52 Tabel 4.24. Keterangan Rule Grafik Random forest Model 9
51 Tabel 4.23. Keterangan Rule Grafik Random forest Model 8
50 Tabel 4.22. Keterangan Rule Grafik Random forest Model 7
49 Tabel 4.21. Keterangan Rule Grafik Random forest Model 6
47 Tabel 4.20. Keterangan Rule Grafik Random forest Model 5
46 Tabel 4.19. Keterangan Rule Grafik Random forest Model 4
45 Tabel 4.18. Keterangan Rule Grafik Random forest Model 3
44 Tabel 4.17. Keterangan Rule Grafik Random forest Model 2
42 Tabel 4.16. Keterangan Rule Grafik Random forest Model 1
40 Tabel 4.15. Keterangan Rule Grafik Random Tree
36 Tabel 4.13. Keterangan Rule Grafik Random forest Model 10
Tabel 4.1. Deskripsi Data35 Tabel 4.12. Keterangan Rule Grafik Random forest Model 9
34 Tabel 4.11. Keterangan Rule Grafik Random forest Model 8
32 Tabel 4.10. Keterangan Rule Grafik Random forest Model 7
31 Tabel 4.9. Keterangan Rule Grafik Random forest Model 6
30 Tabel 4.8. Keterangan Rule Grafik Random forest Model 5
29 Tabel 4.7. Keterangan Rule Grafik Random forest Model 4
27 Tabel 4.6. Keterangan Rule Grafik Random forest Model 3
26 Tabel 4.5. Keterangan Rule Grafik Random forest Model 2
25 Tabel 4.4. Keterangan Rule Grafik Random forest Model 1
23 Tabel 4.3. Keterangan Rule Grafik Random Tree
21 Tabel 4.2. Keterangan Rule Grafik Decision Tree
55
DAFTAR GAMBAR
Hal.25 Gambar 4.7. Model 1 preprocessing handle missing value as category dengan implementasi random forest
handle missing value as category
28 Gambar 4.13. Teks model 3 rule random forest dengan implementasi
28 Gambar 4.12. Model 3 handle missing value as category dengan implementasi random forest
handle missing value as category
27 Gambar 4.11. Teks model 2 rule random forest dengan implementasi
implementasi random forest
27 Gambar 4.10. Model 2 handle missing value as category dengan
handle missing value as category
26 Gambar 4.9. Teks model 1 rule random forest dengan implentasi
26 Gambar 4.8. Model 1 handle missing value as category dengan implementasi random forest
value as category
Gambar 2.1. Bidang Ilmu Data Mining24 Gambar 4.6. Rule random tree dengan implementasi handle missing
category
24 Gambar 4.5. Hasil random tree implentasi handle missing value as
23 Gambar 4.4. Model Preprocessing handle missing value as category dengan implementasi random tree
value category
22 Gambar 4.3. Rule decision tree dengan implentasi handle missing
22 Gambar 4.2. Hasil decision tree
17 Gambar 4.1. Model Preprocessing Handle missing value as category dengan implentasi decision tree
7 Gambar 3.1. Alur Pre Processing data
5 Gambar 2.2. Proses dari Data Mining
29
Gambar 4.14. Model 4 handle missing value as category dengan implementasi random forest35 Gambar 4.23. Teks Model 8 rule random forest dengan implementasi
38 Gambar 4.28. Model preprocessingnya missing value replenishment dengan implementasi decission tree
handle missing value as category
37 Gambar 4.27. Teks Model 10 rule random forest dengan implementasi
37 Gambar 4.26. Model 10 handle missing value as category dengan implementasi random forest
hiandle missing value as category
36 Gambar 4.25. Teks Model 9 rule random forest dengan implementasi
implementasi random forest
35 Gambar 4.24. Model 9 handle missing value as category dengan
handle missing value as category
34 Gambar 4.22. Model 8 handle missing value as category dengan implementasi random forest
29 Gambar 4.15. Teks Model 4 rule random forest dengan implementasi
handle missing value as category
33 Gambar 4.21. Teks Model 7 rule random forest dengan implementasi
33 Gambar 4.20. Model 7 handle missing value as category dengan implementasi random forest
handle missing value category
32 Gambar 4.19. Teks model 6 rule random forest dengan implementasi
31 Gambar 4.18. Model 6 handle missing value as category dengan implementasi random forest
handle missing value as category
30 Gambar 4.17. Teks Model 5 rule random forest dengan implementasi
30 Gambar 4.16. Model 5 handle missing value as category dengan implementasi random forest
handle missing value as category
39
Gambar 4.29. Hasil decission tree implementasi missing value44 Gambar 4.37. Model 2 Missing value replenishment dengan implementasi random forest
48 Gambar 4.43. Model 5 Missing value replenishment dengan implementasi random forest
missing value replenishment
47 Gambar 4.42. Teks Model 4 rule random forest dengan implementasi
47 Gambar 4.41. Model 4 Missing value replenishment dengan implementasi random forest
missing value replenishment
46 Gambar 4.40. Teks Model 3 rule random forest dengan implementasi
45 Gambar 4.39. Model 3 Missing value replenishment dengan implementasi random forest
missing value replenishment
44 Gambar 4.38. Teks Model 2 rule random forest dengan implementasi
missing value replenishment
replenishment
43 Gambar 4.36. Teks Model 1 rule random forest dengan implementasi
43 Gambar 4.35. Model 1 Missing value replenishment dengan implementasi random forest
42 Gambar 4.34. Model Preprocessingnya Missing value replenisment dengan implementasi random tree
value replenishment
41 Gambar 4.33. Rule random tree dengan implementasi missing
replenishment
41 Gambar 4.32. Hasil random tree implementasi missing value
40 Gambar 4.31. Model Preprocessing missing value replenishment dengan implementasi random tree
value replenishment
39 Gambar 4.30. Rule decision tree dengan implementasi missing
48
Gambar 4.44. Teks Model 5 rule random forest dengan implementasimissing value replenishment
missing value replenishment
54 Gambar 4.54. Teks Model 10 rule random forest dengan implementasi
54 Gambar 4.53. Model 10 Missing value replenishment dengan implementasi random forest
missing value replenishment
53 Gambar 4.52. Teks Model 9 rule random forest dengan implementasi
53 Gambar 4.51. Model 9 Missing value replenishment dengan implementasi random forest
52 Gambar 4.50. Teks Model 8 rule random forest dengan implementasi
missing value replenishment
51 Gambar 4.49. Model 8 Missing value replenishment dengan implementasi random forest
missing value replenishment
51 Gambar 4.48. Teks Model 7 rule random forest dengan implementasi
50 Gambar 4.47. Model 7 Missing value replenishment dengan implementasi random forest
missing value replenishment
49 Gambar 4.46. Teks Model 6 rule random forest dengan implementasi
49 Gambar 4.45. Model 6 Missing value replenishment dengan implementasi random forest
55