BAB III METODOLOGI PENELITIAN
3.1 Pendahuluan
Tujuan dari tesis ini adalah untuk membuat model analisis efisiensi preprocessing data yang dapat digunakan untuk aturan pohon keputusan, model ini dapat
digunakan untuk menganalisa berbagai jenis data, pada penelitian ini digunakan pekerja.
Penelitian ini dimulai dengan menggambarkan jenis preprocessing data pada data mining, dengan preprocessing data diharapkan data yang diolah menjadi
lebih sempurna untuk diolah. Data yang digunakan adalah Labor Relations Data Set yang diambil dari
dari UCI Machine Learning Repository
http:archive.ics.uci.edu
. Secara terperinci, data ini berisikan persetujuan tenaga kerja pada bisnis dan layanan
sector personal, yang terdiri dari guru, perawat, staf universitas, polisi, dsb. Dengan data ini dapat digunakan untuk proses data mining.
3.2 Rancangan Penelitian
Rancangan penelitian ini pertama kali dilakukan dengan memahami data observasi untuk mempelajari klasifikasi data yang di gunakan untuk proses
preprocessing data. Hasil pengamatan kemudian dibuat menjadi scenario implementasi pohon keputusan yang mendukung, kemudian mendapatkan aturan
yang sesuai untuk digunakan. Data yang sudah diolah merupakan data input pada proses pohon keputusan. Selanjutnya data input diproses dengan menggunakan
Decision Tree, Random Tree dan Random Forest. Alur dari preprocessing data dapat dilihat pada gambar 3.1.
Universitas Sumatera Utara
Gambar 3.1. Alur Pre Processing data
Data Set
Handle Mising Value as Category
Decesion Tree Random Tree
Random Forest
Hasil Tree Hasil Tree
Hasil Tree
Hasil Mising Value Replenishment
Decesion Tree Random Tree
Random Forest
Hasil Tree Hasil Tree
Hasil Tree
Hasil
17
Universitas Sumatera Utara
3.3 Pelaksanaan Penelitian
Pada pelaksanaan penelitian ini terdiri dari beberapa kegiatan. Diantaranya Kegiatan-kegiatan yang terdapat dalam penelitian, yaitu observasi lapangan,
pengumpulan data dan analisa data.
3.3.1 Observasi
Di dalam penelitian ini observasi merupakan suatu hal yang terpenting, dimana penulis dapat mengetahui tingkat visibilitas yang digunakan. Data relasi
tenaga kerja yang digunakan bisa juga menggambarkan kasus yang umum terjadi di berbagai tempat, sehingga tepat menjadi titik pantauan didalam proses
observasi penelitian ini.
3.3.2 Pengumpulan Data
Dalam studi kasus ini, untuk data set, penulis mencari beberapa alternatif data yang bisa digunakan, ada 40 data untuk kepentingan klasifikasi yang dapat
digunakan dari portal UCI Machine Learning Repository, baik yang bersifat multivariate, univariate, sekuensial, time series, teks, domain theory maupun
lainnya. Penulis mengelompokkan data berdasarkan kompleksitas dan sifatnya
yang bersifat universal, sehingga bisa digunakan untuk berbagai kepentingan.
3.3.3 Analisa Data
Setelah tahap pengumpulan data, tahap penelitian selanjutnya adalah analisa data. Data-data maupun informasi yang telah diperoleh, selanjutnya
dianalisa. Dataset yang digunakan memiliki karakteristik multivariate, dengan atribut berjenis kategori, integer dan real.
3.4 Perancangan Model Analisis Preprocessing Data Pada Implementasi Pohon Keputusan
Model merupakan langkah-langkah yang logis, yang dilakukan untuk memecahkan suatu masalah. Model dapat disajikan dengan beberapa bentuk,
Universitas Sumatera Utara
misalnya flowchart, pseudocode dan bahasa algoritma. Pada penelitian ini, penulisan membuat model analisis terhadap preprocessing data yang
menggunakan aturan pohon keputusan. Terhadap data tersebut dilakukan 2 preproceesing data, yakni dengan
Handle missing value as category dan Missing value replenishment. Hasil preprocessing data diolah kembali dengan pohon keputusan decision tree, random
tree dan random forest.
3.5 Kontribusi Penelitian