Analisis Perbandingan Algoritma Decision Tree Dengan Algoritma Random Tree Untuk Proses Pre Processing Data

(1)

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK

PROSES PRE PROCESSING DATA

TESIS

SAIFULLAH 117038036

PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA MEDAN


(2)

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK

PROSES PRE PROCESSING DATA

TESIS

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika

SAIFULLAH 117038036

PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA MEDAN


(3)

PERSETUJUAN

Judul : ANALISIS PERBANDINGAN ALGORITMA

DECESION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA

Nama Mahasiswa : SAIFULLAH Nomor Induk Mahasiswa : 117038036

Program Studi : MAGISTER TEKNIK INFORMATIKA

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Dr. Zakarias Situmorang Prof. Dr. Muhammad Zarlis

Diketahui/disetujui oleh Magister Teknik Informatika Ketua,

Prof. Dr. Muhammad Zarlis NIP : 195707011986011003


(4)

PERNYATAAN

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK

PROSES PRE PROCESSING DATA

TESIS

Saya mengakui semua karya tesis ini adalah hasil kerja saya sendiri kecuali kutipan dan ringkasan yang tiap bagiannya telah dijelaskan sumbernya.

Medan, 19 Desember 2013

SAIFULLAH NIM : 117038036


(5)

PERNYATAAN PERSETUJUAN PUBLIKASI

Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini:

Nama : SAIFULLAH

NIM : 117038036

Program Studi : Magister (S2) Teknik Informatika Jenis Karya Ilmiah : TESIS

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty free Right) atas Tesis saya yang berjudul:

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK

PROSES PRE PROCESSING DATA

Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.

Demikian pernyataan ini dibuat dengan sebenarnya.

Medan, 19 Desember 2013

SAIFULLAH NIM : 117038036


(6)

Telah diuji pada

Tanggal : 19 Desember 2013

PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Muhammad Zarlis Anggota : 1. Dr. Zakarias Situmorang

2. Prof. Dr. Herman Mawengkang 3. Prof. Dr. Tulus


(7)

RIWAYAT HIDUP

DATA PRIBADI

Nama lengkap (berikut gelar) : Saifullah, S.Kom Tempat dan Tanggal Lahir : Kota Pari, 07 Mei 1979

Alamat Rumah : Jl. Tanah Jawa No. 42 Pematangsiantar Telepon / HP : 085296690027

Email

Instansi Tempat Bekerja : AMIK Tunas Bangsa

Alamat Kantor : Jl. Jendral Sudirman Blok A No. 1,2,3 Pematangsiantar

Telepon : (0622) 22431

DATA PENDIDIKAN

SD : SD NEGERI Kota Pari Tamat : 1992 SLTP : SMP NEGERI 1 Pantai Cermin Tamat : 1995 SLTA : SMA NEGERI 1 Perbaungan Tamat : 1998 D3 : AMIK Tunas Bangsa Pematangsiantar Tamat : 2006 Strata-1 : STMIK TIME Medan Tamat : 2010 Strata-2 : TEKNIK INFORMATIKA USU Tamat : 2013


(8)

KATA PENGANTAR

Puji syukur kehadirat Allah SWT Tuhan Yang Maha Esa atas segala limpahan rakhmad dan karunia-Nya sehingga Tesis ini dapat diselesaikan melalui bimbingan, arahan dan bantuan yang diberikan berbagai pihak khususnya pembimbing, pembanding, para dosen, rekan-rekan mahasiswa/i, khususnya mahasiswa/i Program Studi Magister (S2) Teknik Informatika di FASILKOM Universitas Sumatera Utara.

Tesis dengan judul: “Analisis Perbandingan Algoritma Decision Tree Dengan Algoritma Random Tree Untuk Proses Pre Processing Data” adalah merupakan Tesis dan syarat untuk memperoleh gelar Magister Komputer dalam Program Studi Magister (S2) Teknik Informatika pada Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara.

Dengan selesainya tesis ini, perkenankanlah penulis mengucapkan terima kasih yang sebesar-besarnya kepada:

Ketua Yayasan Muhammad Nasir AMIK Tunas Bangsa Pematangsiantar H. Maulia Ahmad Ridwan Syah yang telah memberikan izin, bantuan moril dan materil dan kesempatan kepada penulis untuk mengikuti pendidikan lanjutan pada Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara.

Direktur AMIK Tunas Bangsa Pematangsiantar Rahmat Widia Sembiring SE, Msc.IT dan Plt. Direktur Dedy Hartma, ST, M.Kom yang telah memberikan izin, bantuan moril dan materil dan motivasi dalam penyelesaikan pendidikan Program Magister (S2).

Rektor Universitas Sumatera Utara, Prof. Dr. dr. Syahril Pasaribu, DTM&H, M,Sc (CTM), Sp. A(K) atas kesempatan yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan Program Magister (S2).

Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara, Prof. Dr. Muhammad Zarlis atas kesempatan yang diberikan kepada penulis menjadi mahasiswa Program Magister (S2) pada Program Pascasarjana Fasilkom Universitas Sumatera Utara.


(9)

Muhammad Zarlis, Sekretaris Program Studi Magister (S2) Teknik Informatika M. Andri Budiman, ST, M. Comp. Sc, M.EM beserta seluruh Staff dan Staff Pengajar pada Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara, yang telah bersedia membimbing penulis, sehingga dapat menyelesaikan pendidika Pascasarjana.

Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Prof. Dr. Muhammad Zarlis selaku Pembimbing Utama dan Dr. Zakarias Situmorang selaku Pembimbing Anggota yang dengan penuh kesabaran membimbing, memotivasi, memberikan dukungan moril, kritik dan saran serta memberikan bahan-bahan yang berkaitan dengan penyusunan tesis ini sehingga penulis dapat menyelesaikan tesis ini dengan baik.

Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Prof. Dr. Herman Mawengkang, Prof. Dr. Tulus, dan Dr. Erna Budhiarti Nababan, M.IT sebagai pembanding, yang telah memberikan saran, masukan dan arahan yang baik demi penyelesaian tesis ini.

Seluruh Staf Pengajar dan Administrasi, Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara yang telah memberikan bantuan dan pelayanan yang baik kepada penulis selama mengikuti perkuliahan.

Orangtua tercinta Ayahanda dan Ibunda, serta Ibu Mertua serta semua keluarga yang senantiasa mendoakan, dan memberikan dorongan kepada penulis.

Anak tercinta, Inda Ramadhani yang selalu mendoakan, memberikan semangat, serta kesabarannya untuk menanti penulis pulang dalam masa pendidikan, budi baik ini tidak dapat dibalas hanya diserahkan kepada Allah SWT, Tuhan Yang maha Esa.

Rekan Mahasiswa baik yang senior maupun Angkatan ke Tiga Program Studi Magister (S2) Fasilkom-TI Universitas Sumatera Utara dan Rekan Sejawat di AMIK Tunas Bangsa Pematangsiantar yang telah banyak membantu penulis selama mengikuti perkuliahan.

Kepada semua pihak yang tidak dapat penulis sebutkan satu persatu dalam tesis ini, terima kasih atas segala bantuan yang diberikan. Sekecil apapun yang


(10)

Anda berikan untuk penulis turut menghantarkan penulis untuk menyelesaikan pendidikan yang ditempuh selama ini. Dengan segala kekurangan dan kerendahan hati, semoga kiranya Allah SWT Tuhan Yang Maha Kuasa membalas segala bantuan, kebaikan yang telah diberikan.

Medan, 19 Desember 2013 Penulis,


(11)

ABSTRAK

Pemrosesan data sangatlah dibutuhkan beberapa metode untuk mendapatkan hasil yang lebih baik. Perbandingan-perbandingan dari metode tersebut sangat dibutuhkan untuk pengolahan data yang lebih baik. Penelitian ini ditujukan dataset sebagai inputan preprocessing, dan selanjutnya digunakan pada aplikasi model aturan algoritma decision tree, random tree dan random forest, menggunakan software rapidminer. Pohon Keputusan digunakan untuk membuat model aturan yang akan dipilih dalam mengambil keputusan. Dari pendekatan preprocessing data dan model aturan yang didapat, dapat menjadi perhatian bagi pengambil keputusan untuk melihat dan mengambil keputusan variabel mana yang harus diperhatikan untuk mendukung peningkatan kinerja karyawan.

KataKunci : Pre-processing Data, Decision Tree, Random Tree, Random Forest.


(12)

ANALYSIS OF THE COMPARISON OF ALGORITHM DECISION TREE WITH ALGORITHM RANDOM TREE

FOR DATA PRE-PROCESSING PROCESS

ABSTRACT

Data processing is needed several methods to get better results. Comparisons of these methods are needed to get better data processing. This research shows that a dataset as input preprocessing, and subsequently used in the application of the model rules of decision tree algorithm, random tree and random forest algorithm using the software RapidMiner. Decision trees are used to make the model rules to be selected in making decisions. From the data preprocessing approach and the model rules obtained can be a concern for decision makers to see and make decisions, which variables must be considered to support the improvement of employee performance.


(13)

DAFTAR ISI

Halaman

KATA PENGANTAR i

ABSTRAK iv

ABSTRACT v

DAFTAR ISI vi

DAFTAR TABEL viii

DAFTAR GAMBAR ix

DAFTAR LAMPIRAN

BAB I PENDAHULUAN 1

1.1 Latar Belakang 1

1.2 Perumusan Masalah 2

1.3. Batasan Masalah 2

1.4 Tujuan Penelitian 2

1.5 Manfaat Penelitian 3

BAB II LANDASAN TEORI 4

2.1 Pendahuluan 4

2.2 Data Mining 4

2.3 Decision Tree 9

2.4 Random Tree 12

2.5 Random Forest 13

2.6 Preprocessing data 14

2.6.1 Jenis-Jenis Metode Preprocessing Data 14

BAB III METODE PENELITIAN 16

3.1. Pendahuluan 16

3.2 Rancangan Penelitian 16 3.3 Pelaksanaan Penelitian 18 3.4 Perancangan Model Analisis 18 3.5 Kontribusi Penelitian 19


(14)

BAB IV HASIL DAN PEMBAHASAN 20

4.1. Pendahuluan 20

4.2 Hasil Percobaan 20

4.2.1 Diskripsi Sampel Data 21 4.2.2 Hasil Processing 22 4.2.2.1 Decision Tree 22 4.2.2.2 Random Tree 23 4.2.2.3 Random Forest 26 4.2.3 Preprocessing dengan Missing Value 39 4.2.3.1 Decision Tree 39 4.2.3.2 Random Tree 41 4.2.3.3 Random Forest 43

BAB V KESIMPULAN DAN SARAN 56

5.1. Kesimpulan 56

5.2. Saran 56

DAFTAR PUSTAKA 57


(15)

DAFTAR TABEL

Hal.

Tabel 4.1. Deskripsi Data 21

Tabel 4.2. Keterangan Rule Grafik Decision Tree 23 Tabel 4.3. Keterangan Rule Grafik Random Tree 25 Tabel 4.4. Keterangan Rule Grafik Random forest Model 1 26 Tabel 4.5. Keterangan Rule Grafik Random forest Model 2 27 Tabel 4.6. Keterangan Rule Grafik Random forest Model 3 29 Tabel 4.7. Keterangan Rule Grafik Random forest Model 4 30 Tabel 4.8. Keterangan Rule Grafik Random forest Model 5 31 Tabel 4.9. Keterangan Rule Grafik Random forest Model 6 32 Tabel 4.10. Keterangan Rule Grafik Random forest Model 7 34 Tabel 4.11. Keterangan Rule Grafik Random forest Model 8 35 Tabel 4.12. Keterangan Rule Grafik Random forest Model 9 36 Tabel 4.13. Keterangan Rule Grafik Random forest Model 10 38 Tabel 4.14. Keterangan Rule Grafik Decision Tree 40 Tabel 4.15. Keterangan Rule Grafik Random Tree 42 Tabel 4.16. Keterangan Rule Grafik Random forest Model 1 44 Tabel 4.17. Keterangan Rule Grafik Random forest Model 2 45 Tabel 4.18. Keterangan Rule Grafik Random forest Model 3 46 Tabel 4.19. Keterangan Rule Grafik Random forest Model 4 47 Tabel 4.20. Keterangan Rule Grafik Random forest Model 5 49 Tabel 4.21. Keterangan Rule Grafik Random forest Model 6 50 Tabel 4.22. Keterangan Rule Grafik Random forest Model 7 51 Tabel 4.23. Keterangan Rule Grafik Random forest Model 8 52 Tabel 4.24. Keterangan Rule Grafik Random forest Model 9 53 Tabel 4.25. Keterangan Rule Grafik Random forest Model 10 55


(16)

DAFTAR GAMBAR

Hal. Gambar 2.1. Bidang Ilmu Data Mining 5 Gambar 2.2. Proses dari Data Mining 7 Gambar 3.1. Alur Pre Processing data 17 Gambar 4.1. Model Preprocessing Handle missing value ascategory

dengan implentasi decision tree 22 Gambar 4.2. Hasil decision tree 22 Gambar 4.3. Rule decision tree dengan implentasi handle missing

value category 23

Gambar 4.4. Model Preprocessing handle missing value as category

dengan implementasi random tree 24 Gambar 4.5. Hasil random tree implentasi handle missing value as

category 24

Gambar 4.6. Rule random tree dengan implementasi handle missing

value as category 25

Gambar 4.7. Model 1 preprocessing handle missing value as category

dengan implementasi random forest 26 Gambar 4.8. Model 1 handle missing value as category dengan

implementasi random forest 26 Gambar 4.9. Teks model 1 rule random forest dengan implentasi

handle missing value as category 27

Gambar 4.10. Model 2 handle missing value as category dengan

implementasi random forest 27

Gambar 4.11. Teks model 2 rule random forest dengan implementasi

handle missing value as category 28

Gambar 4.12. Model 3 handle missing value as category dengan

implementasi random forest 28 Gambar 4.13. Teks model 3 rule random forest dengan implementasi


(17)

Gambar 4.14. Model 4 handle missing value as category dengan

implementasi random forest 29 Gambar 4.15. Teks Model 4 rule random forest dengan implementasi

handle missing value as category 30

Gambar 4.16. Model 5 handle missing value as category dengan

implementasi random forest 30 Gambar 4.17. Teks Model 5 rule random forest dengan implementasi

handle missing value as category 31

Gambar 4.18. Model 6 handle missing value as category dengan

implementasi random forest 32 Gambar 4.19. Teks model 6 rule random forest dengan implementasi

handle missing value category 33

Gambar 4.20. Model 7 handle missing value as category dengan

implementasi random forest 33 Gambar 4.21. Teks Model 7 rule random forest dengan implementasi

handle missing value as category 34

Gambar 4.22. Model 8 handle missing value as category dengan

implementasi random forest 35 Gambar 4.23. Teks Model 8 rule random forest dengan implementasi

handle missing value as category 35

Gambar 4.24. Model 9 handle missing value as category dengan

implementasirandom forest 36

Gambar 4.25. Teks Model 9 rule random forest dengan implementasi

hiandlemissing value as category 37 Gambar 4.26. Model 10 handle missing value as category dengan

implementasi random forest 37 Gambar 4.27. Teks Model 10 rule random forest dengan implementasi

handle missing value as category 38

Gambar 4.28. Model preprocessingnya missing value replenishment


(18)

Gambar 4.29. Hasil decission tree implementasi missing value

replenishment 39

Gambar 4.30. Rule decision tree dengan implementasi missing

valuereplenishment 40

Gambar 4.31. Model Preprocessingmissingvaluereplenishment

dengan implementasi random tree 41 Gambar 4.32. Hasil random tree implementasi missing value

replenishment 41

Gambar 4.33. Rule random tree dengan implementasi missing

value replenishment 42

Gambar 4.34. Model Preprocessingnya Missing value replenisment

dengan implementasi random tree 43 Gambar 4.35. Model 1 Missing value replenishment dengan

implementasi random forest 43 Gambar 4.36. Teks Model 1 rule random forest dengan implementasi

missing value replenishment 44

Gambar 4.37. Model 2 Missing value replenishment dengan

implementasi random forest 44 Gambar 4.38. Teks Model 2 rule random forest dengan implementasi

missing value replenishment 45

Gambar 4.39. Model 3 Missing value replenishment dengan

implementasi random forest 46 Gambar 4.40. Teks Model 3 rule random forest dengan implementasi

missing value replenishment 47

Gambar 4.41. Model 4 Missing value replenishment dengan

implementasi random forest 47 Gambar 4.42. Teks Model 4 rule random forest dengan implementasi

missing value replenishment 48

Gambar 4.43. Model 5 Missing value replenishment dengan


(19)

Gambar 4.44. Teks Model 5 rule random forest dengan implementasi

missing value replenishment 49

Gambar 4.45. Model 6 Missing value replenishment dengan

implementasi random forest 49 Gambar 4.46. Teks Model 6 rule random forest dengan implementasi

missing value replenishment 50

Gambar 4.47. Model 7 Missing value replenishment dengan

implementasi random forest 51 Gambar 4.48. Teks Model 7 rule random forest dengan implementasi

missing value replenishment 51

Gambar 4.49. Model 8 Missing value replenishment dengan

implementasi random forest 52 Gambar 4.50. Teks Model 8 rule random forest dengan implementasi

missing value replenishment 53

Gambar 4.51. Model 9 Missing value replenishment dengan

implementasi random forest 53 Gambar 4.52. Teks Model 9 rule random forest dengan implementasi

missing value replenishment 54

Gambar 4.53. Model 10 Missing value replenishment dengan

implementasi random forest 54 Gambar 4.54. Teks Model 10 rule random forest dengan implementasi


(20)

ABSTRAK

Pemrosesan data sangatlah dibutuhkan beberapa metode untuk mendapatkan hasil yang lebih baik. Perbandingan-perbandingan dari metode tersebut sangat dibutuhkan untuk pengolahan data yang lebih baik. Penelitian ini ditujukan dataset sebagai inputan preprocessing, dan selanjutnya digunakan pada aplikasi model aturan algoritma decision tree, random tree dan random forest, menggunakan software rapidminer. Pohon Keputusan digunakan untuk membuat model aturan yang akan dipilih dalam mengambil keputusan. Dari pendekatan preprocessing data dan model aturan yang didapat, dapat menjadi perhatian bagi pengambil keputusan untuk melihat dan mengambil keputusan variabel mana yang harus diperhatikan untuk mendukung peningkatan kinerja karyawan.

KataKunci : Pre-processing Data, Decision Tree, Random Tree, Random Forest.


(21)

ANALYSIS OF THE COMPARISON OF ALGORITHM DECISION TREE WITH ALGORITHM RANDOM TREE

FOR DATA PRE-PROCESSING PROCESS

ABSTRACT

Data processing is needed several methods to get better results. Comparisons of these methods are needed to get better data processing. This research shows that a dataset as input preprocessing, and subsequently used in the application of the model rules of decision tree algorithm, random tree and random forest algorithm using the software RapidMiner. Decision trees are used to make the model rules to be selected in making decisions. From the data preprocessing approach and the model rules obtained can be a concern for decision makers to see and make decisions, which variables must be considered to support the improvement of employee performance.


(22)

BAB I PENDAHULUAN

1.1 Latar Belakang

Dalam pemrosesan data pada masa sekarang sangat di butuhkan beberapa metode agar mempermudah pengguna dalam mendapatkan akurasi yang lebih baik. Dengan meningkatnya teknologi informasi (TI) jumlah data semakin tinggi yang akan diproses dan disimpan dalam database, sehingga tingkat kesulitannya dalam memprosesan cukup tinggi.

Untuk pengolahan data yang cukup banyak digunakanlah beberapa metode untuk mempermudah dalam mendapatkan solusinya. Para peneliti banyak menggunakan data mining untuk mengatasi masalah pengelompokan dan pengolahan database yang sangat besar.

Data mining adalah bagian dari proses KDD (Knowledge Discovery in Database) yang terdiri dari beberapa tahapan seperti pemilihan data, pra pengolahan, transformasi, data mining dan evaluasi hasil (Maimun dan Last, 2000).

Teknik data mining secara garis besar dapat dibagi dalam dua kelompok: verifikasi dan discovery. Metode verifikasi umumnya meliputi teknik-teknik statistik seperti goodness of fit, dan analisis variansi. Metode discovery lebih lanjut dapat dibagi atas model prediktif dan model deskriptif. Teknik prediktif melakukan prediksi terhadap data dengan menggunakan hasil-hasil yang telah diketahui dari data yang berbeda. Model ini dapat dibuat berdasarkan penggunaan data historis lain. Sementara itu, model deskriptif bertujuan mengidentifikasi pola-pola atau hubungan antar data dan memberikan cara untuk mengeksplorasi karakteristik data yang diselidiki (Dunham, 2003).

Dalam pengolahan data, penulis ingin membuat perbandingan metode dalam memprosesnya, diantaranya menggunakan model preproceesing data

Handle missing value as category dan Missing value replenishment yang dipaplikasikan pada pohon keputusan decision tree, random tree dan random forest.


(23)

Seperti diketahui bahwa pohon keputusan memainkan peran penting dalam berbagai bidang seperti pengenalan pola dan klasifikasi, hal ini karena memiliki kesederhanaan, jelas dan cepat proses penalaran. (Han P. H, dan Chao C. L., 1998).

Dengan menggunakan perbandingan model ini, penelitian tesis ini akan memberikan aturan preprocessing mana yang paling efisien untuk diaplikaksikan pada decision tree, random tree dan random forest.

1.2.Perumusan masalah

Yang menjadi rumusan masalah pada penelitian ini adalah terjadinya kesalahan pengolahan data dalam algoritma decision tree, random tree dan random forest, sehingga perlu menerapkan model preprocessing data pada decision tree, random tree dan random forest.

1.3.Batasan Masalah

Dari rumusan masalah di atas, penulis mengambil beberapa batasan masalah sebagai berikut:

a. Percobaan terhadap kasus yang dilakukan hanya model preproceesing Handle missing value as category dan Missing value replenishment saja. b. Algoritma pohon keputusan yang digunakan hanya decision tree, random

tree dan random forest.

1.4. Tujuan Penelitian

Tujuan yang ingin dicapai pada penelitian tesis ini yaitu:

a. Menerapkan model preproceesing data Handle missing value as category

dan Missing value replenishment.

b. Bagaimana data hasil preprocessing diaplikasikan pada pohon keputusan


(24)

1.5.Manfaat Penelitian

Manfaat dari penelitian ini adalah sebagai berikut:

a. Memperkaya literatur dan referensi tentang model preproceesing data

Handle missing value as category dan Missing value replenishment.

b. Memberikan konstribusi bagi ilmu pengetahuan khususnya pada pengolahan data dengan menggunakan pohon keputusan decision tree,


(25)

BAB II

LANDASAN TEORI

2.1. Pendahuluan

Didalam bab ini menceritakan semua teori-teori yang digunakan didalam proses algoritma decision tree, algoritma Random tree dan Random Florest serta teori-teori dan metode yang berhubungan dalam pembahasan tesis ini.

2.2. Data Mining

Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan

machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di dalam database besar. (Turban et al, 2005). Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika (Larose, 2006).

Selain definisi di atas beberapa definisi juga diberikan seperti, “data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.” (Pramudiono, 2006). “Data mining adalah analisis otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya.” (Pramudiono, 2006).

Sehingga data mining dapat didefenisikan sebagai analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik data. (Larose, 2006). “Data mining merupakan bidang dari beberapa keilmuan yang menyatukan teknik dari pembelajaran mesin,


(26)

pengenalan pola, statistik, database, dan visualisasi untuk penanganan permasalahan pengambilan informasi dari database yang besar.” (Larose, 2006).

Tiga tahun kemudian, dalam buku Mastering Data Mining mereka memberikan definisi ulang terhadap pengertian data mining dan memberikan pernyataan bahwa “jika ada yang kami sesalkan adalah frasa secara otomatis maupun semi otomatis, karena kami merasa hal tersebut memberikan fokus berlebih pada teknik otomatis dan kurang pada eksplorasi dan analisis”. Hal tersebut memberikan pemahaman yang salah bahwa data mining merupakan

produk yang dapat dibeli dibandingkan keilmuan yang harus dikuasai (Larose, 2006).

Pernyataan tersebut menegaskan bahwa dalam data mining otomatisasi tidak menggantikan campur tangan manusia. Manusia harus ikut aktif dalam setiap fase dalam proses data mining. Kehebatan kemampuan algoritma data mining yang terdapat dalam perangkat lunak analisis yang terdapat saat ini memungkinkan terjadinya kesalahan penggunaan yang berakibat fatal. Pengguna mungkin menerapkan analisis yang tidak tepat terhadap kumpulan data dengan menggunakan pendekatan yang berbeda. Oleh karenanya, dibutuhkan pemahaman tentang statistik dan struktur model matematika yang mendasari kerja perangkat lunak (Larose, 2006).

Gambar 2.1 Bidang Ilmu Data Mining

Pencarian I f i

Database

Artificial Intelligent

Statistik Data Mining

Ekstraksi data (bahasa alami, web)

Dasar

(Seleksi presentase Data yang besar

(Normalisasi data Pembelajaran


(27)

Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining

mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dahulu. Gambar 2.1 menunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent),

machine learning, statistik, database, dan juga information retrieval

(Pramudiono, 2006).

Istilah data mining dan Knowledge Discovery in Database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut (Fayyad, 1996).

1. Data Selection

Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining,

disimpan dalam suatu berkas, terpisah dari basis data operasional. 2. Pre-processing/Cleaning

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses

cleaning pada data yang menjadi fokus KDD. Proses cleaning

mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

3. Transformation

Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding


(28)

dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.

4. Data mining

Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode dan algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5. Interpretation/Evalution

Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya. Penjelasan di atas dapat direfresentasikan pada Gambar 2.2

Gambar 2.2 Proses dari Data Mining


(29)

Enam fase CRISP-DM ( Cross Industry Standard Process for Data Mining) (Larose, 2006).

1. Fase Pemahaman Bisnis ( Business Understanding Phase )

a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian secara keseluruhan.

b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan

data mining.

c. Menyiapkan strategi awal untuk mencapai tujuan. 2. Fase Pemahaman Data ( Data Understanding Phase )

a. Mengumpulkan data.

b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal.

c. Mengevaluasi kualitas data.

d. Jika diinginkan, pilih sebagian kecil kelompok data yang mungkin mengandung pola dari permasalahan

3. Fase Pengolahan Data ( Data Preparation Phase )

a. Siapkan dari data awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif.

b. Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan.

c. Lakukan perubahan pada beberapa variabel jika dibutuhkan. d. Siapkan data awal sehingga siap untuk perangkat pemodelan. 4. Fase Pemodelan ( Modeling Phase )

a. Pilih dan aplikasikan teknik pemodelan yang sesuai. b. Kalibrasi aturan model untuk mengoptimalkan hasil.

c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama.

d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu.


(30)

5. Fase Evaluasi ( Evaluation Phase )

a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektivitas sebelum disebarkan untuk digunakan.

b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal. c. Menentukan apakah terdapat permasalahan penting dari bisnis atau

penelitian yang tidak tertangani dengan baik.

d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining.

6. Fase Penyebaran (Deployment Phase)

a. Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek.

b. Contoh sederhana penyebaran: Pembuatan laporan.

c. Contoh kompleks Penyebaran: Penerapan proses data mining secara paralel pada departemen lain. Informasi lebih lanjut mengenai CRISP-DM dapat dilihat di

2.3. Decision Tree

Decision tree merupakan salah satu metode klasifikasi yang menggunakan representasi struktur pohon (tree) di mana setiap node merepresentasikan atribut, dimana cabangnya merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas. Node yang paling atas dari decision tree disebut sebagai

root. Decision tree merupakan metode klasifikasi yang paling populer digunakan. Selain karena pembangunannya relatif cepat, hasil dari model yang dibangun mudah untuk dipahami.

Pada decision tree terdapat 3 jenis node, yaitu:

a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu.

b. Internal Node, merupakan node percabangan, pada node ini hanya terdapat satu input dan mempunyai output minimal dua.


(31)

c. Leaf node atau terminal node, merupakan node akhir, pada node ini hanya terdapat satu input dan tidak mempunyai output.

Menghasilkan Pohon Keputusan untuk klasifikasi dari kedua data nominal dan numerik. Sebuah pohon keputusan adalah seperti grafik atau model. Hal ini lebih seperti pohon terbalik karena memiliki akarnya di atas dan tumbuh ke bawah. Ini representasi dari data memiliki keuntungan dibandingkan dengan pendekatan lain menjadi bermakna dan mudah untuk menafsirkan. Tujuannya adalah untuk menciptakan sebuah model klasifikasi yang memprediksi nilai dari atribut target (sering disebut kelas atau label) berdasarkan beberapa atribut masukan dari ExampleSet.

Dalam RapidMiner atribut dengan peran label diprediksi oleh operator Pohon Keputusan. Setiap node interior pohon sesuai dengan salah satu atribut masukan. Jumlah tepi interior simpul nominal sama dengan jumlah nilai yang mungkin dari atribut input yang sesuai. Tepi luar dari atribut numerik diberi label dengan rentang disjoint. Setiap node daun mewakili nilai atribut label yang diberikan nilai-nilai input atribut diwakili oleh jalan dari akar ke daun. Deskripsi ini dapat dengan mudah dipahami dengan mempelajari terpasang Contoh Proses. Pohon Keputusan yang dihasilkan oleh partisi rekursif. Partisi Rekursif berarti berulang kali membelah pada nilai-nilai atribut. Dalam setiap rekursi algoritma mengikuti langkah-langkah berikut:

− Sebuah atribut A dipilih untuk membagi. Membuat pilihan yang baik atribut untuk membagi pada setiap tahap sangat penting untuk generasi pohon yang berguna. Atribut dipilih tergantung pada kriteria seleksi yang dapat dipilih oleh parameter kriteria.

− Contoh di ExampleSet diurutkan ke dalam subset, satu untuk setiap nilai atribut A dalam kasus atribut nominal. Dalam kasus atribut numerik, subset dibentuk untuk rentang menguraikan nilai atribut.

− Sebuah pohon dikembalikan dengan satu tepi atau cabang untuk masing-masing bagian. Setiap cabang memiliki keturunan subtree atau nilai label yang diproduksi dengan menerapkan algoritma yang sama secara rekursif.


(32)

Secara umum, rekursi berhenti ketika semua contoh atau contoh memiliki nilai label yang sama. Contohnya: subset murni. Atau rekursi mungkin berhenti jika sebagian besar contoh adalah nilai label yang sama. Ini adalah generalisasi dari pendekatan pertama; dengan beberapa ambang kesalahan. Namun ada kondisi halting lain seperti :

− Kurang dari jumlah tertentu dari kasus atau contoh dalam subtree saat ini. − Tidak ada atribut mencapai batas tertentu. Hal ini dapat disesuaikan

menggunakan parameter perolehan minimum.

− Kedalaman maksimal tercapai. Hal ini dapat disesuaikan menggunakan parameter kedalaman maksimal.

Pemangkasan adalah teknik di mana node daun yang tidak menambah kekuatan diskriminatif dari pohon keputusan dikeluarkan. Hal ini dilakukan untuk mengubah sebuah pohon lebih spesifik atau lebih pas untuk bentuk yang lebih umum dalam rangka meningkatkan daya prediksi pada dataset yang tak terlihat. Pra-Pemangkasan adalah jenis pemangkasan paralel dilakukan untuk proses pembuatan pohon. Pasca-pemangkasan, di sisi lain, dilakukan setelah proses pembuatan pohon selesai.

Sebuah pohon keputusan adalah keputusan dukungan alat yang menggunakan grafik seperti pohon atau model keputusan dan konsekuensi yang mungkin mereka, termasuk hasil kebetulan acara, biaya sumber daya, dan utilitas. Ini adalah salah satu cara untuk menampilkan sebuah algoritma.

Pohon keputusan biasanya digunakan dalam riset operasi, khususnya dalam analisis keputusan, untuk membantu mengidentifikasi strategi yang paling mungkin untuk mencapai tujuan. Sebuah pohon keputusan adalah struktur flowchart seperti di mana simpul internal merupakan tes pada atribut, setiap cabang merupakan hasil pengujian dan setiap simpul daun mewakili label kelas (keputusan yang diambil setelah komputasi semua atribut). Sebuah jalan dari akar ke daun merupakan aturan klasifikasi.

Dalam analisis keputusan pohon keputusan dan diagram pengaruh terkait erat digunakan sebagai alat pendukung keputusan visual dan analitis, di mana nilai-nilai yang diharapkan (atau utilitas yang diharapkan) alternatif bersaing


(33)

dihitung.

Pohon keputusan biasanya digunakan dalam riset operasi, khususnya dalam analisis keputusan, untuk membantu mengidentifikasi strategi yang paling mungkin untuk mencapai tujuan. Jika dalam prakteknya keputusan harus diambil secara online tanpa ingat dalam pengetahuan yang tidak lengkap, pohon keputusan harus disejajarkan dengan model probabilitas sebagai model pilihan terbaik atau algoritma pemilihan model online. Penggunaan lain dari pohon keputusan adalah sebagai sarana deskriptif untuk menghitung probabilitas bersyarat.

Pohon keputusan, diagram pengaruh, fungsi utilitas, dan alat-alat analisis keputusan lainnya dan metode yang diajarkan kepada mahasiswa di sekolah-sekolah bisnis, ekonomi kesehatan, dan kesehatan masyarakat, dan merupakan contoh operasi metode penelitian atau ilmu manajemen.

2.4. Random Tree

Operator ini mempelajari tentang sebuah pohon keputusan. Operator ini hanya menggunakan subset acak atribut untuk setiap perpecahan.

Random Operator Pohon bekerja sama persis seperti operator Pohon Keputusan dengan satu pengecualian: untuk setiap perpecahan hanya subset acak atribut tersedia. Dianjurkan agar Anda mempelajari dokumentasi dari operator Pohon Keputusan untuk pemahaman dasar tentang pohon keputusan.

Operator ini mempelajari tentng pohon keputusan yakni data nominal dan numerik. Pohon keputusan adalah metode klasifikasi yang kuat yang dapat dengan mudah dipahami. Operator pohon Random bekerja sama dengan Quinlan C4.5 atau CART memilih subset acak atribut sebelum diterapkan. Ukuran subset ditentukan oleh parameter rasio bagian.

Representasi data sebagai Pohon memiliki keunggulan dibandingkan dengan pendekatan lain menjadi bermakna dan mudah untuk menafsirkan. Tujuannya adalah untuk menciptakan sebuah model klasifikasi yang memprediksi nilai label berdasarkan beberapa masukan atribut ExampleSet tersebut. Setiap node interior pohon sesuai dengan salah satu atribut masukan. Jumlah tepi node interior adalah sama dengan jumlah nilai yang mungkin dari atribut input yang


(34)

sesuai. Setiap node daun mewakili nilai dari label yang diberikan nilai-nilai atribut masukan diwakili oleh jalan dari akar ke daun. Deskripsi ini dapat dengan mudah dipahami dengan mempelajari Contoh Proses operator Pohon Keputusan.

Pemangkasan adalah teknik di mana node daun yang tidak menambah kekuatan diskriminatif dari pohon keputusan dikeluarkan. Hal ini dilakukan untuk mengubah sebuah pohon lebih spesifik atau lebih pas untuk bentuk yang lebih umum dalam rangka meningkatkan daya prediksi pada dataset yang tak terlihat. Pra pemangkasan adalah jenis pemangkasan paralel dilakukan untuk proses pembuatan pohon. Pasca-pemangkasan, di sisi lain, dilakukan setelah proses pembuatan pohon selesai.

2.5. Random Forest

Operator ini menghasilkan satu set sejumlah tertentu pohon random yaitu menghasilkan forest (hutan;kumpulan pohon) acak. Model yang dihasilkan adalah model suara pilihan dari semua pohon.

Operator Random Forest menghasilkan satu set pohon acak. Pohon-pohon acak yang dihasilkan dengan cara yang persis sama seperti operator Acak Pohon menghasilkan pohon. Model hutan yang dihasilkan mengandung sejumlah tertentu dari model pohon acak. Jumlah pohon parameter menentukan jumlah yang diperlukan pohon. Model yang dihasilkan adalah model suara pilihan dari semua pohon acak. Untuk informasi lebih lanjut tentang pohon acak silakan mempelajari operator random Tree.

Representasi data dalam bentuk pohon memiliki keunggulan dibandingkan dengan pendekatan lain menjadi bermakna dan mudah untuk ditafsirkan. Tujuannya adalah untuk menciptakan sebuah model klasifikasi yang memprediksi nilai dari atribut target (sering disebut kelas atau label) berdasarkan beberapa atribut masukan dari ExampleSet. Setiap node interior pohon sesuai dengan salah satu atribut input. Jumlah tepi interior simpul nominal sama dengan jumlah nilai yang mungkin dari atribut input yang sesuai. Tepi luar dari atribut numerik diberi label dengan rentang disjoint. Setiap node daun mewakili nilai atribut label yang diberikan nilai-nilai input atribut diwakili oleh jalan dari akar ke daun. Untuk


(35)

pemahaman yang lebih baik dari struktur pohon silahkan mempelajari Proses Contoh operator Decision Tree

Pemangkasan adalah teknik di mana node daun yang tidak menambah kekuatan diskriminatif pohon akan dihapus. Hal ini dilakukan untuk mengubah sebuah pohon lebih spesifik atau lebih pas untuk bentuk yang lebih umum dalam rangka meningkatkan daya prediksi pada dataset yang tak terlihat. Hal ini dilakukan untuk mengubah sebuah pohon lebih spesifik atau lebih pas untuk bentuk yang lebih umum dalam rangka meningkatkan daya prediksi pada dataset yang tak terlihat. Pasca-pemangkasan, di sisi lain, dilakukan setelah proses pembuatan pohon selesai.

2.6. Preprocessing data

Pre-processing data adalah proses mengubah data ke dalam format yang sederhana, lebih efektif, dan sesuai dengan kebutuhan pengguna. Indikator yang dapat digunakan sebagai referensi adalah hasil lebih akurat, waktu komputasi yang lebih pendek, juga data menjadi lebih kecil tanpa mengubah informasi di dalamnya. Beberapa metode pre-processing adalah memilih sample subset dari populasi data yang besar, juga denoising iaitu menghapus noisy dari data. Selain itu dapat juga transformasi, normalisasi, dan ekstraksi fitur. Dalam paper ini akan dilakukan pembersihan data, transformasi, denoising, kemudian diikuti ekstraksi fitur.(Sembiring, R. dan Zain, J, 2010)

2.6.1. Jenis-Jenis metode Preprecessing data

Ekstraksi fitur adalah perubahan dari data dimensi tinggi ke dimensi rendah. Transformasi data dapat linier dan nonlinier dimensi data, tujuannya adalah pemetaan data ke dimensi yang lebih rendah. Beberapa algoritma telah lakukan, untuk supervised learning: LDA, CCA, PLS, LSI, SVD, dan unsupervised learning: PCA, ICA, FastICA. .(Sembiring, R. dan Zain, J, 2010)


(36)

2.6.1.1. Handle Missing Value as Category

Operator ini memetakan nilai-nilai tertentu dari atribut yang dipilih ke nilai baru. Operator ini dapat diterapkan pada kedua atribut numerik dan nominal.

Operator ini dapat digunakan untuk menggantikan nilai nominal (misalnya mengganti nilai 'hijau' dengan nilai ‘warna_hijau’) serta nilai-nilai numeric.

Tapi, salah satu penggunaan operator ini dapat melakukan pemetaan untuk atribut hanya satu jenis. Sebuah pemetaan tunggal dapat ditentukan dengan menggunakan parameter menggantikan what dan replace by seperti dalam operator replace.

Selain itu, operator memungkinkan mendefinisikan pemetaan default.

Operator ini memungkinkan Anda untuk memilih atribut untuk membuat pemetaan. Operator ini memungkinkan Anda untuk menentukan ekspresi reguler. Nilai atribut dari atribut yang dipilih yang mencocokkan ekspresi reguler ini dipetakan oleh pemetaan nilai tertentu.

2.6.1.2. Missing Value Replenishment

Operator ini menggantikan nilai-nilai yang hilang dalam contoh atribut yang dipilih oleh pengganti yang ditentukan.

Operator ini menggantikan nilai-nilai yang hilang dalam contoh atribut yang dipilih oleh pengganti yang ditentukan. Nilai-nilai yang hilang dapat diganti dengan nilai minimum, maksimum atau rata-rata atribut tersebut. Nol juga dapat ditempatkan di tempat nilai-nilai yang hilang. Setiap nilai pengisian juga dapat ditentukan sebagai pengganti nilai-nilai yang hilang.


(37)

BAB III

METODOLOGI PENELITIAN

3.1 Pendahuluan

Tujuan dari tesis ini adalah untuk membuat model analisis efisiensi preprocessing data yang dapat digunakan untuk aturan pohon keputusan, model ini dapat digunakan untuk menganalisa berbagai jenis data, pada penelitian ini digunakan pekerja.

Penelitian ini dimulai dengan menggambarkan jenis preprocessing data pada data mining, dengan preprocessing data diharapkan data yang diolah menjadi lebih sempurna untuk diolah.

Data yang digunakan adalah Labor Relations Data Set yang diambil dari dari UCI Machine Learning Repository (http://archive.ics.uci.edu). Secara terperinci, data ini berisikan persetujuan tenaga kerja pada bisnis dan layanan sector personal, yang terdiri dari guru, perawat, staf universitas, polisi, dsb. Dengan data ini dapat digunakan untuk proses data mining.

3.2 Rancangan Penelitian

Rancangan penelitian ini pertama kali dilakukan dengan memahami data

(observasi) untuk mempelajari klasifikasi data yang di gunakan untuk proses preprocessing data. Hasil pengamatan kemudian dibuat menjadi scenario implementasi pohon keputusan yang mendukung, kemudian mendapatkan aturan yang sesuai untuk digunakan. Data yang sudah diolah merupakan data input pada proses pohon keputusan. Selanjutnya data input diproses dengan menggunakan

Decision Tree, Random Tree dan Random Forest. Alur dari preprocessing data dapat dilihat pada gambar 3.1.


(38)

Gambar 3.1. Alur Pre Processing data Data Set

Handle Mising Value as Category

Decesion Tree Random Tree Random Forest

Hasil Tree Hasil Tree Hasil Tree

Hasil

Mising Value Replenishment

Decesion Tree Random Tree Random Forest

Hasil Tree Hasil Tree Hasil Tree


(39)

3.3 Pelaksanaan Penelitian

Pada pelaksanaan penelitian ini terdiri dari beberapa kegiatan. Diantaranya Kegiatan-kegiatan yang terdapat dalam penelitian, yaitu observasi lapangan, pengumpulan data dan analisa data.

3.3.1 Observasi

Di dalam penelitian ini observasi merupakan suatu hal yang terpenting, dimana penulis dapat mengetahui tingkat visibilitas yang digunakan. Data relasi tenaga kerja yang digunakan bisa juga menggambarkan kasus yang umum terjadi di berbagai tempat, sehingga tepat menjadi titik pantauan didalam proses observasi penelitian ini.

3.3.2 Pengumpulan Data

Dalam studi kasus ini, untuk data set, penulis mencari beberapa alternatif data yang bisa digunakan, ada 40 data untuk kepentingan klasifikasi yang dapat digunakan dari portal UCI Machine Learning Repository, baik yang bersifat

multivariate, univariate, sekuensial, time series, teks, domain theory maupun lainnya.

Penulis mengelompokkan data berdasarkan kompleksitas dan sifatnya yang bersifat universal, sehingga bisa digunakan untuk berbagai kepentingan.

3.3.3 Analisa Data

Setelah tahap pengumpulan data, tahap penelitian selanjutnya adalah analisa data. Data-data maupun informasi yang telah diperoleh, selanjutnya dianalisa. Dataset yang digunakan memiliki karakteristik multivariate, dengan atribut berjenis kategori, integer dan real.

3.4 Perancangan Model Analisis Preprocessing Data Pada Implementasi Pohon Keputusan

Model merupakan langkah-langkah yang logis, yang dilakukan untuk memecahkan suatu masalah. Model dapat disajikan dengan beberapa bentuk,


(40)

misalnya flowchart, pseudocode dan bahasa algoritma. Pada penelitian ini, penulisan membuat model analisis terhadap preprocessing data yang menggunakan aturan pohon keputusan.

Terhadap data tersebut dilakukan 2 preproceesing data, yakni dengan

Handle missing value as category dan Missing value replenishment. Hasil preprocessing data diolah kembali dengan pohon keputusan decision tree, random tree dan random forest.

3.5 Kontribusi Penelitian

Penelitian ini memberikan kontribusi pada pemahaman kita manfaat preprocessing data, dan mengetahui model mana yang paling efisien untuk diterapakan pada algoritma pohon keputusan.

Beberapa kemungkinan lain dianggap penting adalah pimpinan organisasi dapat menggunakan informasi yang diberikan dalam mengambil beberapa tindakan untuk meningkatkan kualitas relasi tenaga kerja.

Pembuat keputusan bisa menggunakan model prediksi seberapa besar pemberian liburan ataupun jumlah upah dapat mempengaruhi kualitas relasi tenaga kerja Penelitian ini memperkenalkan model preproceesing data Handle missing value as category dan Missing value replenishment, yang diaplikasikan pada keputusan decision tree, random tree dan random forest.


(41)

BAB IV

HASIL DAN PEMBAHASAN

4.1. Pendahuluan

Bab ini menyajikan hasil penelitian sesuai dengan pertanyaan-pertanyaan yang diajukan pada permulaan. Penelitian dilaksanakan pada satu data set, yaitu Labor Relations Data Set yang diambil dari dari UCI Machine Learning Repository (http://archive.ics.uci.edu). Secara terperinci, data ini terdiri dari 40 record berisikan persetujuan tenaga kerja pada bisnis dan layanan sektor personal, seperti guru, perawat, staf universitas, polisi, dan sebagainya. Dengan data ini dapat digunakan untuk proses data mining.

Dataset digunakan sebagai inputan preprocessing, dan selanjutnya digunakan pada aplikasi model aturan algoritma decision tree, random tree dan

random forest, menggunakan software rapidminer. Pohon Keputusan digunakan untuk membuat model aturan yang akan dipilih dalam mengambil keputusan.

4.2 Hasil Percobaan

Adapun hasil percobaan training dan testing data dapat dilihat pada bagian berikut ini.


(42)

4.2.1. Deskripsi Sampel Data

Dalam pengujian data set pada tesis ini yang terdiri dari 40 data dengan rincian sebagai berikut: Tabel 4.1 Deskripsi data

Tipe Nama Tipe data Deskripsi Uraian Missing value

label Class nominal mode = good (26), least = bad (14) bad (14), good (26) 0

regular Duration integer avg = 2.103 +/- 0.754 [1.000 ; 3.000] 1

regular wage-inc-1st real avg = 3.621 +/- 1.331 [2.000 ; 6.900] 1

regular wage-inc-2nd real avg = 3.913 +/- 1.281 [2.000 ; 7.000] 10

regular wage-inc-3rd real avg = 3.767 +/- 1.415 [2.000 ; 5.100] 28

regular col-adj nominal mode = none (14), least = tcf (4) tcf (4), none (14), tc (6) 16

regular working-hours integer avg = 37.811 +/- 2.717 [27.000 ; 40.000] 3

regular Pension nominal mode = none (8), least = ret_allw (3) none (8), empl_contr (7), ret_allw (3) 22

regular standby-pay integer avg = 6.143 +/- 4.845 [2.000 ; 13.000] 33

regular shift-differential integer avg = 4.583 +/- 4.754 [0.000 ; 25.000] 16

regular education-allowance nominal mode = no (11), least = yes (7) no (11), yes (7) 22

regular statutory-holidays integer avg = 11.105 +/- 1.371 [9.000 ; 15.000] 2

regular Vacation nominal mode = below-average (14), least = average (11) generous (12), below-average (14), average (11) 3

regular longterm-disability-assistance nominal mode = yes (11), least = no (5) no (5), yes (11) 24

regular contrib-to-dental-plan nominal mode = half (11), least = none (6) none (6), half (11), full (8) 15

regular bereavement-assistance nominal mode = yes (18), least = no (2) no (2), yes (18) 20


(43)

4.2.2 Hasil Preprocessing dengan Handle missing value as category 4.2.2.1DecisionTree

Model preprocessing dengan grafik dari software rapidminer yang akan digunakan dapat dilihat pada gambar 4.1

Gambar 4.1 Model Preprocessingnya Handle missing value as category

dengan implementasi decision tree

Dari Gambar 4.1 dapat dihasilkan pohon seperti pada Gambar 4.2, dimana bahwa wage_inc_1st memiliki pengaruh paling besar dalam data penelitian tesis ini, setelah dilakukan percobaan dengan menggunakan rapidminer bahwa variabel

wage_inc_1st berada pada node paling atas, kemudian dibandingkan dengan rata-rata nilai dari wage_in_1st untuk mendapatkan statutory_holiday dan

working_hours.


(44)

Jika rule grafik diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.2.

Tabel 4.2. Keterangan Rule Grafik Decision Tree

Rule Keterangan Rule Predikat

Bad Good

1

Wage-inc-1st > 2.650

Statutory-holidays > 10.500 : good statutory-holidays ≤ 10.500

0 22

2 wage-inc-1st > 4.250: good

wage-inc-1st ≤ 4.250: bad

0 4

3 0

3

wage-inc-1st ≤ 2.650

working-hours > 36: bad working-hours ≤ 36: good

9 1

0 1

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.3.

wage-inc-1st > 2.650

| statutory-holidays > 10.500: good {bad=0, good=22} | statutory-holidays ≤ 10.500

| | wage-inc-1st > 4.250: good {bad=0, good=3} | | wage-inc-1st ≤ 4.250: bad {bad=4, good=0} wage-inc-1st ≤ 2.650

| working-hours > 36: bad {bad=9, good=0} | working-hours ≤ 36: good {bad=1, good=1}

Gambar 4.3 Rule decision tree dengan implementasi handle missing value as category

4.2.2.2Random Tree

Model preprocessing dengan grafik dari software rapidminer yang akan digunakan dapat dilihat pada gambar 4.4.


(45)

Gambar 4.4 Model Preprocessingnya Handle missing value as category

dengan implementasi random tree

Gambar 4.5 memperlihatkan bahwa dengan random treepension memiliki pengaruh paling besar dalam data penelitian tesis ini, setelah dilakukan percobaan dengan menggunakan rapidminer bahwa variabel pension berada pada node paling atas, untuk mendapatkan wage_ind_2nd dan statutory_holiday.

Gambar 4.5 Hasil random tree implementasi handle missing value as category


(46)

Jika rule grafik Gambar 4.5 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.3.

Tabel 4.3. Keterangan Rule Grafik Random Tree

Rule Keterangan Rule Predikat

Bad Good

1

pension = empl_contr

wage-inc-2nd > 3.207: good wage-inc-2nd ≤ 3.207: bad

1 2

4 0

2

pension = missing

statutory-holidays > 10.500: good statutory-holidays ≤ 10.500

vacation = below-average: bad vacation = generous: good

0 1 0 18 1 2 3 pension = none: bad

pension = ret_allw: bad

8 2

0 1

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.6.

pension = empl_contr

| wage-inc-2nd > 3.207: good {bad=1, good=4} | wage-inc-2nd ≤ 3.207: bad {bad=2, good=0} pension = missing

| statutory-holidays > 10.500: good {bad=0, good=18} | statutory-holidays ≤ 10.500

| | vacation = below-average: bad {bad=1, good=1} | | vacation = generous: good {bad=0, good=2} pension = none: bad {bad=8, good=0}

pension = ret_allw: bad {bad=2, good=1}

Gambar 4.6 Rule random tree dengan implementasi handle missing value as category


(47)

4.2.2.3Random Forest

Model preprocessing dengan grafik dari software rapidminer yang akan digunakan dapat dilihat pada gambar 4.7.

Gambar 4.7 Model Preprocessingnya Handle missing value as category dengan implementasi random forest

Model preprocessing ini memperlihatkan bahwa dengan random forest

ada 10 (sepuluh) model yang dihasilkandalam data penelitian tesis ini.

Gambar 4.8 Model 1 handle missing value as category dengan implementasi

random forest

Jika rule grafik Gambar 4.8 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.4.

Tabel 4.4. Keterangan Rule Grafik Random Forest Model 1

Rule Keterangan Rule Predikat

Bad Good

1 wage-inc-3rd > 2.200: good

wage-inc-3rd ≤ 2.200: bad

9 3

28 0


(48)

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.9.

wage-inc-3rd > 2.200: good {bad=9, good=28} wage-inc-3rd ≤ 2.200: bad {bad=3, good=0}

Gambar 4.9 Teks Model 1 Rule random forest dengan implementasi handle missing value as category

Model 2 :

Gambar 4.10 Model 2 handle missing value as category dengan implementasi

random forest

Jika rule grafik Gambar 4.10 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.5.

Tabel 4.5. Keterangan Rule Grafik Random Forest Model 2

Rule Keterangan Rule Predikat

Bad Good

1 standby-pay > 5: good

standby-pay ≤ 5: bad

7 5

28 0

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.11.


(49)

standby-pay > 5: good {bad=7, good=28} standby-pay ≤ 5: bad {bad=5, good=0}

Gambar 4.11 Teks Model 2 Rule random forest dengan implementasi handle missing value as category

Model 3 :

Gambar 4.12 Model 3 handle missing value as category dengan implementasi

random forest

Jika rule grafik Gambar 4.12 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.6.


(50)

Tabel 4.6. Keterangan Rule Grafik Random Forest Model 3

Rule Keterangan Rule Predikat

Bad Good

1

wage-inc-1st > 2.750 working-hours > 39

wage-inc-1st > 4.250: good wage-inc-1st ≤ 4.250: bad

0 3

10 0

2 working-hours ≤ 39: good 0 19

3 wage-inc-1st ≤ 2.750: bad 8 0

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.13.

wage-inc-1st > 2.750 | working-hours > 39

| | wage-inc-1st > 4.250: good {bad=0, good=10} | | wage-inc-1st ≤ 4.250: bad {bad=3, good=0} | working-hours ≤ 39: good {bad=0, good=19} wage-inc-1st ≤ 2.750: bad {bad=8, good=0}

Gambar 4.13 Teks Model 3 Rule random forest dengan implementasi handle missing value as category

Model 4 :

Gambar 4.14 Model 4 handle missing value as category dengan implementasi


(51)

Jika rule grafik Gambar 4.14 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.7.

Tabel 4.7. Keterangan Rule Grafik Random Forest Model 4

Rule Keterangan Rule Predikat

Bad Good

1 wage-inc-1st > 2.900: good

wage-inc-1st ≤ 2.900: bad

3 10

26 1

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.15.

wage-inc-1st > 2.900: good {bad=3, good=26} wage-inc-1st ≤ 2.900: bad {bad=10, good=1}

Gambar 4.15 Teks Model 4 Rule random forest dengan implementasi handle missing value as category

Model 5 :

Gambar 4.16 Model 5 handle missing value as category dengan implementasi


(52)

Jika rule grafik Gambar 4.16 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.8.

Tabel 4.8. Keterangan Rule Grafik Random Forest Model 5

Rule Keterangan Rule Predikat

Bad Good

1 statutory-holidays > 10.500: good

statutory-holidays ≤ 10.500

2 27

2

shift-differential > 4

longterm-disability-assistance = missing: bad

longterm-disability-assistance = yes: good

3 1

0 1

3 shift-differential ≤ 4: bad 6 0

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.17.

statutory-holidays > 10.500: good {bad=2, good=27} statutory-holidays ≤ 10.500

| shift-differential > 4

| | longterm-disability-assistance = missing: bad {bad=3, good=0} | | longterm-disability-assistance = yes: good {bad=1, good=1} | shift-differential ≤ 4: bad {bad=6, good=0}

Gambar 4.17 Teks Model 5 Rule random forest dengan implementasi handle missing value as category


(53)

Model 6 :

Gambar 4.18 Model 6 handle missing value as category dengan implementasi

random forest

Jika rule grafik Gambar 4.18 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.9.

Tabel 4.9. Keterangan Rule Grafik Random Forest Model 6

Rule Keterangan Rule Predikat

Bad Good

1 statutory-holidays > 11.500: good

statutory-holidays ≤ 11.500

0 15

2 wage-inc-2nd > 3.957: good

wage-inc-2nd ≤ 3.957: bad

2 14

8 1

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.19.


(54)

statutory-holidays > 11.500: good {bad=0, good=15} statutory-holidays ≤ 11.500

| wage-inc-2nd > 3.957: good {bad=2, good=8} | wage-inc-2nd ≤ 3.957: bad {bad=14, good=1}

Gambar 4.19 Teks Model 6 Rule random forest dengan implementasi handle missing value as category

Model 7 :

Gambar 4.20 Model 7 handle missing value as category dengan implementasi

random forest

Jika rule grafik Gambar 4.20 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.10.


(55)

Tabel 4.10. Keterangan Rule Grafik Random Forest Model 7

Rule Keterangan Rule Predikat

Bad Good

1

wage-inc-1st > 2.900

statutory-holidays > 10.500: good statutory-holidays ≤ 10.500

0 22

2 working-hours > 39: bad

working-hours ≤ 39: good

4 0

0 2

3

wage-inc-1st ≤ 2.900

statutory-holidays > 11.500: good statutory-holidays ≤ 11.500:

0 10

2 0

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.21.

wage-inc-1st > 2.900

| statutory-holidays > 10.500: good {bad=0, good=22} | statutory-holidays ≤ 10.500

| | working-hours > 39: bad {bad=4, good=0} | | working-hours ≤ 39: good {bad=0, good=2} wage-inc-1st ≤ 2.900

| statutory-holidays > 11.500: good {bad=0, good=2} | statutory-holidays ≤ 11.500: bad {bad=10, good=0}

Gambar 4.21 Teks Model 7 Rule random forest dengan implementasi handle missing value as category


(56)

Model 8 :

Gambar 4.22 Model 8 handle missing value as category dengan implementasi

random forest

Jika rule grafik Gambar 4.22 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.11.

Tabel 4.11. Keterangan Rule Grafik Random Forest Model 8

Rule Keterangan Rule Predikat

Bad Good

1 statutory-holidays > 10.500: good

statutory-holidays ≤ 10.500: bad

2 10

27 1 Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.23.

statutory-holidays > 10.500: good {bad=2, good=27} statutory-holidays ≤ 10.500: bad {bad=10, good=1}

Gambar 4.23 Teks Model 8 Rule random forest dengan implementasi handle missing value as category


(57)

Model 9 :

Gambar 4.24 Model 9 handle missing value as category dengan implementasi

random forest

Jika rule grafik Gambar 4.24 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.12.

Tabel 4.12. Keterangan Rule Grafik Random Forest Model 9

Rule Keterangan Rule Predikat

Bad Good

1

wage-inc-1st > 2.900

statutory-holidays > 10.500: good statutory-holidays ≤ 10.500

0 16

2 wage-inc-1st > 4.250: good

wage-inc-1st ≤ 4.250: bad

0 2

5 0


(58)

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.25.

wage-inc-1st > 2.900

| statutory-holidays > 10.500: good {bad=0, good=16} | statutory-holidays ≤ 10.500

| | wage-inc-1st > 4.250: good {bad=0, good=5} | | wage-inc-1st ≤ 4.250: bad {bad=2, good=0} wage-inc-1st ≤ 2.900: bad {bad=17, good=0}

Gambar 4.25 Teks Model 9 Rule random forest dengan implementasi handle missing value as category

Model 10 :

Gambar 4.26 Model 10 handle missing value as category dengan implementasi random forest


(59)

Jika rule grafik Gambar 4.26 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.13.

Tabel 4.13. Keterangan Rule Grafik Random Forest Model 10

Rule Keterangan Rule Predikat

Bad Good

1

wage-inc-2nd > 2.750

contrib-to-health-plan = full: good contrib-to-health-plan = half

0 10

2 bereavement-assistance = missing: bad

bereavement-assistance = yes: good

1 0

1 2 3 contrib-to-health-plan = missing: good

contrib-to-health-plan = none: bad

1 3

17 0

4 wage-inc-2nd ≤ 2.750: bad 5 0

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.27.

wage-inc-2nd > 2.750

| contrib-to-health-plan = full: good {bad=0, good=10} | contrib-to-health-plan = half

| | bereavement-assistance = missing: bad {bad=1, good=1} | | bereavement-assistance = yes: good {bad=0, good=2} | contrib-to-health-plan = missing: good {bad=1, good=17} | contrib-to-health-plan = none: bad {bad=3, good=0} wage-inc-2nd ≤ 2.750: bad {bad=5, good=0}

Gambar 4.27 Teks Model 10 Rule random forest dengan implementasi handle missing value as category


(60)

4.2.3 Preprocessing dengan Missing value replenishment 4.2.3.1DecisionTree

Model preprocessing dengan grafik dari software rapidminer yang akan digunakan dapat dilihat pada gambar 4.28

Gambar 4.28 Model Preprocessingnya Missing value replenishment dengan implementasi decision tree

Dari Gambar 4.28 dapat dihasilkan pohon seperti pada Gambar 4.30, dimana bahwa longterm_dissability_assistance memiliki pengaruh paling besar dalam wage_inc_2nd berada pada node paling atas.


(61)

Jika rule grafik Gambar 4.29 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.14.

Tabel 4.14. Keterangan Rule Grafik Decision Tree

Rule Keterangan Rule Predikat

Bad Good

1 longterm-disability-assistance = no: bad

longterm-disability-assistance = yes

5 0

2

wage-inc-2nd > 2.250

wage-inc-1st > 2.900: good wage-inc-1st ≤ 2.900

0 23

3 statutory-holidays > 11.500: good

statutory-holidays ≤ 11.500

0 2

4 statutory-holidays > 10.500: good

statutory-holidays ≤ 10.500: bad

1 5

1 0

5 wage-inc-2nd ≤ 2.250: bad 3 0

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.30.

longterm-disability-assistance = no: bad {bad=5, good=0} longterm-disability-assistance = yes

| wage-inc-2nd > 2.250

| | wage-inc-1st > 2.900: good {bad=0, good=23} | | wage-inc-1st ≤ 2.900

| | | statutory-holidays > 11.500: good {bad=0, good=2} | | | statutory-holidays ≤ 11.500

| | | | statutory-holidays > 10.500: good {bad=1, good=1} | | | | statutory-holidays ≤ 10.500: bad {bad=5, good=0} | wage-inc-2nd ≤ 2.250: bad {bad=3, good=0}

Gambar 4.30 Rule decision tree dengan implementasi Missing value replenishment


(62)

4.2.3.2Random Tree

Model preprocessing dengan grafik dari software rapidminer yang akan digunakan dapat dilihat pada gambar 4.31.

Gambar 4.31. Model Preprocessingnya Missing value replenishment dengan implementasi random tree

Gambar 4.32 memperlihatkan bahwa dengan random tree longterm_dissability_assistance juga memiliki pengaruh paling besar dalam menentukan hasil wage_ind_3nd.


(63)

Jika rule grafik Gambar 4.32 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.15.

Tabel 4.15. Keterangan Rule Grafik Random Tree

Rule Keterangan Rule Predikat

Bad Good

1 longterm-disability-assistance = no: bad

longterm-disability-assistance = yes

5 0

2

wage-inc-3rd > 2.150

contrib-to-health-plan = full: good contrib-to-health-plan = half: good contrib-to-health-plan = none: bad

5 0 2

21 5 0

3 wage-inc-3rd ≤ 2.150: bad 2 0

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.33.

longterm-disability-assistance = no: bad {bad=5, good=0} longterm-disability-assistance = yes

| wage-inc-3rd > 2.150

| | contrib-to-health-plan = full: good {bad=5, good=21} | | contrib-to-health-plan = half: good {bad=0, good=5} | | contrib-to-health-plan = none: bad {bad=2, good=0} | wage-inc-3rd ≤ 2.150: bad {bad=2, good=0}

Gambar 4.33 Rule random tree dengan implementasi Missing value replenishment


(64)

4.2.3.3Random Forest

Model preprocessing dengan grafik dari software rapidminer yang akan digunakan dapat dilihat pada gambar 4.34.

Gambar 4.34. Model Preprocessingnya Missing value replenishment dengan implementasi random tree

Model preprocessing ini memperlihatkan bahwa dengan random forest

ada 10 (sepuluh) model yang dihasilkan dengan implementasi Missing value replenishment.

Model 1 :

Gambar 4.35 Model 1 Missing value replenishment dengan implementasi


(65)

Jika rule grafik Gambar 4.35 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.16.

Tabel 4.16. Keterangan Rule Grafik Random Forest Model 1

Rule Keterangan Rule Predikat

Bad Good

1 bereavement-assistance = no: bad bereavement-assistance = yes: good

2 10

0 28

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.36.

bereavement-assistance = no: bad {bad=2, good=0} bereavement-assistance = yes: good {bad=10, good=28}

Gambar 4.36 Teks Model 1 Rule random forest dengan implementasi

Missing value replenishment

Model 2 :

Gambar 4.37 Model 2 Missing value replenishment dengan implementasi


(66)

Jika rule grafik Gambar 4.37 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.17.

Tabel 4.17. Keterangan Rule Grafik Random Forest Model 2

Rule Keterangan Rule Predikat

Bad Good

1 bereavement-assistance = no: bad

bereavement-assistance = yes

2 0

2

contrib-to-health-plan = full: good contrib-to-health-plan = half: good contrib-to-health-plan = none: bad

5 1 4

25 3 0

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.38.

bereavement-assistance = no: bad {bad=2, good=0} bereavement-assistance = yes

| contrib-to-health-plan = full: good {bad=5, good=25} | contrib-to-health-plan = half: good {bad=1, good=3} | contrib-to-health-plan = none: bad {bad=4, good=0}

Gambar 4.38 Teks Model 2 Rule random forest dengan implementasi


(67)

Model 3 :

Gambar 4.39 Model 3 Missing value replenishment dengan implementasi

random forest

Jika rule grafik Gambar 4.39 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.18.

Tabel 4.18. Keterangan Rule Grafik Random Forest Model 3

Rule Keterangan Rule Predikat

Bad Good

1

wage-inc-2nd > 3.207

duration > 1.500: good duration ≤ 1.500

2 23

2 col-adj = none: good

col-adj = tc: bad

1 3

3 0

3 wage-inc-2nd ≤ 3.207: bad 8 0

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.40.


(68)

wage-inc-2nd > 3.207

| duration > 1.500: good {bad=2, good=23} | duration ≤ 1.500

| | col-adj = none: good {bad=1, good=3} | | col-adj = tc: bad {bad=3, good=0} wage-inc-2nd ≤ 3.207: bad {bad=8, good=0}

Gambar 4.40 Teks Model 3 Rule random forest dengan implementasi

Missing value replenishment

Model 4 :

Gambar 4.41 Model 4 Missing value replenishment dengan implementasi

random forest

Jika rule grafik Gambar 4.41 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.19.

Tabel 4.19. Keterangan Rule Grafik Random Forest Model 4

Rule Keterangan Rule Predikat

Bad Good

1 longterm-disability-assistance = no: bad

longterm-disability-assistance = yes

5 0

2 wage-inc-1st > 2.900: good

wage-inc-1st ≤ 2.900: bad

1 7

25 2


(69)

Untuk lebih jelasnya dapat dilihat pada model aturan berbentuk teks seperti pada Gambar 4.42.

longterm-disability-assistance = no: bad {bad=5, good=0} longterm-disability-assistance = yes

| wage-inc-1st > 2.900: good {bad=1, good=25} | wage-inc-1st ≤ 2.900: bad {bad=7, good=2}

Gambar 4.42 Teks Model 4 Rule random forest dengan implementasi

Missing value replenishment

Model 5 :

Gambar 4.43 Model 5 Missing value replenishment dengan implementasi

random forest

Jika rule grafik Gambar 4.43 diterjemahkan kedalam rule bahasa sederhana dapat dilihat pada Tabel 4.20.


(1)

DAFTAR PUSTAKA

Adeyemo B. A. dan Kuye G, 2006, Mining Students’ Academic Performace

Using Decision Tree Algoritma, Journal of Information Technology

Impact.

Al-Radaedeh Q.A, Al-Shawakfa E.M. dan Al-Najjar I. M, 2006, Mining Student

Data Using Decision Trees, International Arab Conference on Information

Tecnology (ACIT’2006)

Braha D dan Shmilovici A, 2003, On the Use of Decision Tree Induction for

Discovery of Interactions in a Photolithographic Process, IEEE

Transaction on Semiconductor Manufacturing.

Berry, M. J. A. dan Linoff G. S, 2004. Data Mining Techniques For Marketing,

Sales, Customer Relationship Management, Second Edition, Wiley Publishing, Inc.

Bhargavi P, Jyothi B, Jyothi S and Sekar K, 2008, Knowledge Extraction Using

Rule Based Decision Tree Apprroach, IJCSNS International Journal of

Computer Science and Network Security.

Basuki A dan Syrif I, 2003. Decision Tree. Politeknik Elektronika Negeri Surabaya (PENS) – ITS.

Chengmig Q, 2007, A New Partition Criterion for Fuzzy Decision Tree Algorithm,

IEEE Conference Publications Intellegent Information Technology Application, Workshop on Digital Object Identifeir.

Cao W, Zhao J. N, (2007), The Power Customers Mining Mining Based on Fuzzy

Decision Tree Analysis, Proceedings of 2007 IEEE International Conference on Grey Systems and Intellent Services.

Dunham, M.H.2003. Data Mining Introductory and advanced topics. News Jersey: Prentice Hall.

Fa-Chao L, Juan S, dan Xi-Zhao W, 2003, Analysis on the Fuzzy Filter in Fuzzy

Decision Trees, IEEE Proceeding of the Second International Conference


(2)

Fayyad, U. M, 1996, Advances in Knowledge Discovery and Data Mining.

Camberidge, MA: The MIT Press.

Han P. H, Chao C. L, 1998, A Learning Fuzzy Decision Tree and its Application

to Tactile Image. Intelligent Robots and System, Proceedings IEEE/RSJ International Conference on Volume : 3.

Jichao H, Sufang A, dan Jinshan W, 2011, Fuzzy Decision Tree Algorithm For

Customer Knowledge Management of PLM. IEEE Conference Publications.

Juan S, Xi-Zhao W., (2005), An Initial Comparison on Noise Resisting Between

Crisp and Fuzzy Decision Trees, IEEE 2005 Proceeding of the Fourth International Conference on Machine Learning and Cybernetics.

Larose D, T., 2006, Data Mining Methods and Models, Jhon Wiley & Sons, Inc.

Hoboken New Jersey.

Koen M. (1999), A Fuzzy Decision Tree Induction Method for Fuzzy Data, IEEE

1999 International Fuzzy System Conference Proceedings.

Maimon, O. dan Last, M.2000. Knowledge Discovery and Data Mining, The Info-Fuzzy Nerwork (IFN) Methodology. Dordrecht: Kluwer Academik.

Mierswa, I., Wurst, M., Klinkenberg, R., Scholz, M. and Euler, T., 2006, Yale

Rapid Prototyping for Complex Data Mining Tasks. Proceedings of the

ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.

Nogroho F.S, D, 2008, Implementasi Decision Tree Berbasis Analisis Teknikal untuk pembelian dan Penjualan Saham.

Pramudiono, I, 2006, Apa itu Data Mining ? dalam

Quadri N.M and Kalyankar N.V, 2010, Drop Out Feature of Student Data For

Academic Performace Using Decision Tree Tecniques, Global Journal of

Computer Science and Tecnology.

Sembering S, Embong A, Mohammad, M. A, Furqan M, “Improving Student

Academic Performace by An Application of Data Mining Techniques”,


(3)

Proceeding The 5th

Sembiring R dan Zain J, 2010, Rancangan Pre-Processing Data Multidimensi

Berdasarkan Analisa Komponen, Proceeding The 5

IMT-GT International Conference on Mathematics, Statistic, and Their Application (ICMSA 2009).

th

Sanz J., 2011, On the Cooperation of Interval-Valued Fuzzy sets and Genetic

Tuning to Improve the performance of Fuzzy Decision Trees. IEEE International Conference on Digital Object Identifier.

IMT-GT International Conference on Mathematics, Statistic, and Their Application.

Sushil K. P, Raj S, Yanqing Z, (2004), A Web-Based Game-Oriented College

Selection System Employing Fuzzy Rule Trees, IEEE 2004 Proceeding of the 37th

Turban, E., Aronson, J. E. & Liang, T., 2005, Decision Support Sistems and Intellegent Sistems (Sistem Pendukung Keputusan dan Sistem Cerdas)


(4)

Lampiran : Dataset class d u ratio n wag e_ in c_ 1 st wag e_ in c_ 2 wag e_ in c_ 3 rd nd co l_ ad j w or ki ng_h our pe ns ion st andby _pa y sh if t_ d if fer en tial ed u catio n _ allo wan ce st at ut or y_hol ida ys v acatio n lo n ter m _ d is ab ility _ as sis tan ce co n tr ib u tio n _ to _ d en tal_ p lan b er eav em en t_ as sis tan ce co n tr ib u tio n _ to _ h ealth

good 1 5 ? ? ? 40 ? ? 2 ? 11 average ? ? yes ? good 2 4.5 5.8 ? ? 35 ret_allw ? ? yes 11

below-average ? full ? full good ? ? ? ? ? 38 empl_contr ? 5 ? 11 generous yes half yes half good 3 3.7 4 5 tc ? ? ? ? yes ? ? ? ? yes ? good 3 4.5 4.5 5 ? 40 ? ? ? ? 12 average ? half yes half good 2 2 2.5 ? ? 35 ? ? 6 yes 12 average ? ? ? ? good 3 4 5 5 tc ? empl_contr ? ? ? 12 generous yes none yes half good 3 6.9 4.8 2.3 ? 40 ? ? 3 ? 12

below-average ? ? ? ? good 2 3 7 ? ? 38 ? 12 25 yes 11

below-average yes half yes ? good 1 5.7 ? ? none 40 empl_contr ? 4 ? 11 generous yes full ? ? good 3 3.5 4 4.6 none 36 ? ? 3 ? 13 generous ? ? yes full good 2 6.4 6.4 ? ? 38 ? ? 4 ? 15 ? ? full ? ?

bad 2 3.5 4 ? none 40 ? ? 2 no 10

below-average no half ? half good 3 3.5 4 5.1 tcf 37 ? ? 4 ? 13 generous ? full yes full good 1 3 ? ? none 36 ? ? 10 no 11 generous ? ? ? ? good 2 4.5 4 ? none 37 empl_contr ? ? ? 11 average ? full yes ? good 1 2.8 ? ? ? 35 ? ? 2 ? 12

below-average ? ? ? ? bad 1 2.1 ? ? tc 40 ret_allw 2 3 no 9

below-average yes half ? none bad 1 2 ? ? none 38 none ? ? yes 11 average no none no none good 2 4 5 ? tcf 35 ? 13 5 ? 15 generous ? ? ? ? good 2 4.3 4.4 ? ? 38 ? ? 4 ? 12 generous ? full ? full

bad 2 2.5 3 ? ? 40 none ? ? ? 11

below-average ? ? ? ? good 3 3.5 4 4.6 tcf 27 ? ? ? ? ? ? ? ? ? ? good 2 4.5 4 ? ? 40 ? ? 4 ? 10 generous ? half ? full good 1 6 ? ? ? 38 ? 8 3 ? 9 generous ? ? ? ?

bad 3 2 2 2 none 40 none ? ? ? 10

below-average ? half yes full good 2 4.5 4.5 ? tcf ? ? ? ? yes 10

below-average yes none ? half good 2 3 3 ? none 33 ? ? ? yes 12 generous ? ? yes full good 2 5 4 ? none 37 ? ? 5 no 11

below-average yes full yes full bad 3 2 2.5 ? ? 35 none ? ? ? 10 average ? ? yes full


(5)

class d u ratio n wag e_ in c_ 1 st wag e_ in c_ 2 wag e_ in c_ 3 rd nd co l_ ad j w or ki ng_h our pe ns ion st andby _pa y sh if t_ d if fer en tial ed u catio n _ allo wan ce st at ut or y_hol ida ys v acatio n lo n ter m _ d is ab ility _ as sis tan ce co n tr ib u tio n _ to _ d en tal_ p lan b er eav em en t_ as sis tan ce co n tr ib u tio n _ to _ h ealth

good 3 4.5 4.5 5 none 40 ? ? ? no 11 average ? half ? ? bad 3 3 2 2.5 tc 40 none ? 5 no 10

below-average yes half yes full bad 2 2.5 2.5 ? ? 38 empl_contr ? ? ? 10 average ? ? ? ? bad 2 4 5 ? none 40 none ? 3 no 10

below-average no none ? none bad 3 2 2.5 2.1 tc 40 none 2 1 no 10

below-average no half yes full bad 2 2 2 ? none 40 none ? ? no 11 average yes none yes full bad 1 2 ? ? tc 40 ret_allw 4 0 no 11 generous no none no none bad 1 2.8 ? ? none 38 empl_contr 2 3 no 9

below-average yes half ? none bad 3 2 2.5 2 ? 37 empl_contr ? ? ? 10 average ? ? yes none good 2 4.5 4 ? none 40 ? ? 4 ? 12 average yes full yes half


(6)