57149 ID imputasi missing data dengan k nearest n
ISSN: 2088-687X
77
IMPUTASI MISSING DATA DENGAN K-NEAREST NEIGHBOR
DANALGORITMA GENETIKA
Ucik Mawarsari
Badan Pusat Statistik
Jl. Dr. Sutomo 6-8 Jakarta, [email protected]
ABSTRAK
Permasalahan yang sering muncul pada suatu data adalah adanya ketidaklengkapan data
pada suatu variabel atau sering disebut dengan missing data . Untuk menangani missing data , salah
satu cara yang dapat digunakan adalah dengan melakukan imputasi. Salah satu metode imputasi
yang cukup sederhana adalah k-Nearest Neighbor (kNN). Namun salah satu kelemahan metode
kNN adalah permasalahan dalam pemilihan nilai k karena pemilihan nilai k yang kurang tepat dapat
menurunkan kinerja kNN. Penelitian ini mengkaji metode gabungan k-Nearest Neighbor dan
Algoritma Genetika (kNN-GA) yang digunakan untuk mengestimasi nilai missing. Algoritma
genetika digunakan untuk melakukan optimasi nilai k dan untuk melakukan seleksi variabel yang
digunakan untuk estimasi nilai missingsehingga dapat menghasilkan nilai estimasi yang baik
dengan Root Mean Square Error (RMSE) minimum. Hasil yang diperoleh menunjukkan bahwa
metode imputasi kNN-GA dapat membantu dalam memperoleh nilai k optimum dan dapat
melakukan seleksi variabel dengan baik sehingga dapat meningkatkan akurasi kNN.
Kata Kunci :Algoritma Genetika, Imputasi, kNN, kNN-GA.
ABSTRACT
Problems often arise in a data is incompleteness on a variable of the data or often called
with missing data. Imputation is a method that can be used to handle missing data. One of simple
imputation methods are k-Nearest Neighbor (kNN). However, the weakness of kNN method is the
problem in selecting the value of k, because a mistake in selecting the value of k can degrade
performance of kNN. This study examines the combined method k-Nearest Neighbor and Genetic
Algorithm (kNN-GA) that are used to estimate missing values. Genetic algorithm is used to
optimize the value of k and for selecting the variables used to estimate missing values in order to
produce a good estimation with minimum Root Mean Square Error (RMSE). The results show that
the imputation method of kNN-GA can assist in obtaining the optimum value of k and can do a
good selection of variables so it can improve the accuracy of kNN.
Keywords :Genetic Algorithm, Imputation, kNN, kNN-GA.
analisis terhadap data tersebut karena
Pendahuluan
Permasalahan yang sering muncul
pada
suatu
data
adalah
adanya
analisis statistik hanya dapat diterapkan
pada data yang lengkap.
suatu
Untuk menangani missing data ,
variabel atau sering disebut dengan
salah satu metode yang dapat digunakan
ketidaklengkapan
missing
data
pada
data . Adanya missing
data
menyebabkan kesulitan dalam melakukan
AdMathEdu | Vol.6 No.1 | Juni 2016
adalah
dengan
mengestimasi
nilai
missing dengan suatu nilai tertentu yang
Imputasi … (Ucik Mawarsari)
78
ISSN: 2088-687X
dianggap sesuai, atau sering disebut
nilai Mean Square Error yang paling
dengan imputasi. Salah satu metode
kecil”.
imputasi
adalah
metode
k-Nearest
Dalam
beberapa
penelitian,
Neighbor (kNN). “Metode ini merupakan
sebuah metode sering dikombinasikan
metode yang sederhana dan fleksibel
dengan
karena
pada
memperoleh hasil yang lebih optimal.
variabel dengan data kontinu maupun
“Salah satunya adalah penelitian Patil dan
data diskrit (Batista dan Monard 2003)”.
Bichkar (2010) yang mengintegrasikan
“Pada penelitian yang dilakukan oleh
decision tree learning dan algoritma
Batista
yang
genetika untuk menyusun decision tree
menganalisa penggunaan kNN sebagai
yang optimal untuk mengestimasi nilai
sebuah
missing.
dapat
dan
digunakan
Monard
metode
melakukan
baik
(2003)
imputasi,
simulasi
dengan
missing
data
teknik
optimasi
Hasil
untuk
penelitiannya
menunjukkan bahwa algoritma
yang
sebanyak 10 hingga 60 persen dari total
diusulkan dapat meningkatkan akurasi
data
metode
estimasi nilai missing”. “Siedlecky dan
imputasi kNN memberikan hasil yang
Sklansky (1989) juga mengkombinasikan
sangat baik, bahkan pada saat data
K-Nearest
memiliki jumlah missing yang besar”.
Genetika, dimana algoritma genetika
“Jerez
digunakan
menunjukkan
dan
bahwa
Molina
(2010)
juga
Neighbor
untuk
dan
Algoritma
melakukan
seleksi
membandingkan metode imputasi yang
variabel yang digunakan pada klasifikasi.
berbasiskan teknik statistik, yaitu mean,
Hasil penelitiannya menunjukkan bahwa
hot deck, multiple imputation dengan
metode tersebut dapat meningkatkan
metode
teknik
ketepatan klasifikasi. Selain itu, dalam
Multilayer
penelitiannya juga menyatakan bahwa
Perceptron (MLP), Self Organizing Map
algoritma genetika merupakan alat yang
(SOM), dan kNN pada data breast
powerfull
cancer . Hasilnya menunjukkan metode
variabel terutama ketika demensi variabel
imputasi
yang digunakan cukup besar”.
machine
imputasi
learning,
berbasis
berbasiskan
yaitu
machine
learning
memiliki tingkat akurasi yang lebih tinggi
dalam
Salah
satu
melakukan
kelemahan
seleksi
pada
daripada metode berbasis teknik statistik.
metode kNN adalah permasalahan dalam
Dan dari ketiga metode imputasi berbasis
pemilihan nilai k karena pemilihan nilai k
digunakan,
yang kurang tepat dapat menurunkan
metode kNN memberikan nilai prediksi
kinerja kNN. Penelitian ini bertujuan
yang paling baik karena menghasilkan
untuk mengatasi permasalahan missing
machine
learning
yang
Imputasi … (Ucik Mawarsari)
AdMathEdu | Vol.6 No.1 | Juni 2016
ISSN: 2088-687X
79
dengan
data
menggunakan
teknik
gabungan
imputasi
kNN
dan
1. Menentukan nilai k, yaitu jumlah
observasi terdekat yang diinginkan.
Algoritma Genetika (kNN-GA) dimana
2. Menghitung jarak euclidian antara
Algoritma Genetika digunakan untuk
observasi target dengan observasi
optimasi nilai k pada kNN dan untuk
yang tidak memuat nilai missing,
melakukan
dengan formula:
digunakan
seleksi
untuk
variabel
yang
mengestimasi
nilai
,
missing.
�
=
(
=1
dimana:
Metode Penelitian
telah
banyak
variabel sebanyak s variabel,
k-Nearest
Neighbor
digunakan
untuk
diiplementasikan dalam imputasi missing
data terutama dalam dataset dengan
missing
pada lebih dari satu
data
variabel.
Algoritma
menggunakan
mirip/serupa
kNN
observasi
dengan
yang
observasi
yang
memiliki nilai missing. Sebuah observasi
yang memuat satu atau lebih nilai missing
yang akan diimputasi disebut sebagai
observasi target. Berdasarkan pendekatan
ini,
ukuran
observasi
observasi
jarak
target
)2
(1)
= vektor observasi target dengan
k-Nearest Neighbor (kNN)
Algoritma
−
dihitung
dengan
lainnya.
antara
tiap-tiap
Jika
k
merepresentasikan jumlah observasi yang
1, 2, … , �
= vektor
memiliki jarak minimum dari observasi
target.
Algoritma imputasi kNN adalah
sebagai berikut :
AdMathEdu | Vol.6 No.1 | Juni 2016
yang
tidak
memuat nilai missing dengan variabel
sebanyak
variabel,
s
1, 2, … , �
,
= jarak antara
=
dan
=nilai variabel ke-j pada
=nilai variabel ke-j pada
j = 1,2, ..., s.
3. Mencari k observasi yang memiliki
nilai
,
minimum.
4. Melakukan imputasi missing data
dengan
menggunakan
prosedur
weighted mean imputation, dengan
formula:
mirip/serupa dengan observasi target,
maka kemudian dipilih k observasi yang
observasi
=
=
dimana:
1
�
�
(2)
=1
=nilai imputasi
=nilai variabel ke-j pada observasi
ke-k, k = 1,2, …, K
Imputasi … (Ucik Mawarsari)
80
ISSN: 2088-687X
=
=bobot observasi ke-k,
probabilitas
(� )
mutasi
sehingga
1
,
menghasilkan
�=
�
=1
keturunan ini kemudian dievaluasi untuk
Keturunan-
membentuk populasi baru yang memiliki
kriteria
Algoritma Genetika
Algoritma genetika merupakan
algoritma
keturunan.
untuk
memecahkan
suatu
yang
lebih
“Setelah
baik.
beberapa generasi terbentuk, algoritma
akan konvergen pada individu terbaik
pencarian nilai dalam masalah optimasi
yang
dengan meniru proses genetik pada
solusi optimal dari permasalahan yang
makhluk
dihadapi (Gen dan Cheng 1999)”.
hidup.
Algoritma
genetika
diharapkan
merepresentasikan
bekerja dengan mempertahankan sebuah
populasi yang terdiri dari individuindividu,
dimana
tiap
kNN-GA
Metode
individu
kNN-GA
merepresentasikan sebuah solusi pada
metode
permasalahan yang dihadapi. Individu
Algoritma Genetika. Algoritma imputasi
dikodekan dalam bentuk kromosom yang
missing
terdiri dari komponen genetik terkecil,
GAadalah sebagai berikut:
yaitu gen. Dari individu yang ada,
1. Menentukan inisial populasi, meliputi
dihitung nilai fitness yang digunakan
jumlah gen dalam kromosom dan
sebagai kriteria solusi terbaik.
jumlah kromosom dalam individu.
Evaluasi
Fitness
Populasi
Awal
Seleksi
Individu
gabungan
data
antara
merupakan
kNN
dan
dengan metode kNN-
2. Melakukan proses algoritma kNN
untuk
setiap
kromosom
dalam
populasi. Setiap kromosom dikodekan
Reproduksi:
Crossover
dan Mutasi
Populasi
Baru
menjadi nilai k dan
representasi
variabel yang digunakan oleh kNN
dalam melakukan imputasi. Kemudian
menghitung RMSE dengan formula:
Gambar 1.Siklus Algoritma Genetika
Individu-individu
proses
seleksi
yang
kemudian
lolos
melakukan
reproduksi dengan perkawinan silang
(crossover )
probabilitas
dan
mutasi
crossover (� )
Imputasi … (Ucik Mawarsari)
dengan
dan
� �=
1
=1
−
2
(3)
dimana:
= jumlah observasi
= nilai aktual pada observasi ke-i
= nilai estimasi pada observasi ke-i
AdMathEdu | Vol.6 No.1 | Juni 2016
ISSN: 2088-687X
81
3. Menghitung nilai fitness dari tiap
Penelitian ini menggunakan data
kromosom dalam populasi dengan
lengkap karena data aktual dan data hasil
formula:
imputasi
dimana:
�=
1
( � � + ℎ)
(4)
mengukur
akan
dibandingkan
kinerja
Langkah
metode
untuk
kNN-GA.
berikutnya
adalah
menghilangkan secara random beberapa
h=nilai yang kecil (0 ≤ h ≤ 1)
nilai pada salah satu variabel pada
4. Memilih kromosom berdasarkan nilai
fitness.
masing-masing
dataset
untuk
mendapatkan nilai missing sebanyak 10%
5. Melakukan
perkawinan
(crossover )
dan
mutasi
silang
dan 20% dari jumlah data. Kemudian
untuk
dilakukan imputasi missing data dengan
mendapatkan keturunan (offspring)
6. Melakukan elitism dan replacement
sehingga diperoleh populasi baru.
kNN-GA. Untuk mencari nilai k optimum
pada
metode
kNN-GA,
nilai
k
direpresentasikan dalam 4 gen biner.
7. Kembali ke tahap nomor 2 hingga
kriteria yang ditentukan terpenuhi.
Sebagai contoh kromosom individu yang
terbentuk untuk nilai k = 10 adalah:
1
0
1
0
Metodologi
Data
yang
penelitian ini
digunakan
pada
Gambar 2. Kromosom Individu untuk
Nilai k
adalah data vertebral
String
column, seeds, dan computer hardware
yang diambil dari UCI Machine Learning
Repository yang merupakan data lengkap
atau tidak terdapat nilai missing. Jumlah
data dan jumlah variabel dari masingmasing dataset dapat dilihat pada Tabel 1.
Tabel 1. Jumlah Data dan Jumlah
Vertebral column
Seeds
Computer
hardware
Jumlah
data
310
210
209
merepresentasikan
selanjutnya
kromosom
untuk
seleksi variabel. Misalkan terdapat 5
variabel dalam dataset, maka sebuah
vektor biner berukuran 5 × 1 yang
berunsurkan nilai 1 dan 0 diartikan
sebagai
vektor
indikator
yang
menunjukkan kode seleksi variabel, kode
Variabel pada Dataset
Dataset
biner
Jumlah
variabel
6
7
8
1 menunjukkan variabel yang terpilih.
Sebagai contoh kromosom individu yang
terbentuk adalah:
1
1
0
1
1
Gambar 3. Kromosom Individu untuk
Variabel
AdMathEdu | Vol.6 No.1 | Juni 2016
Imputasi … (Ucik Mawarsari)
82
ISSN: 2088-687X
String tersebut akan dikodekan ke
yang digunakan adalah missing data
dalam metode kNN menjadi, variabel
univariat atau missing data hanya terjadi
yang terpilih dalam proses imputasi
pada satu variabel, yaitu variabel yang
dengan kNN adalah variabel ke-1, ke-2,
menempati urutan terakhir pada masing-
ke-4, dan ke-5. Variabel ke-3 tidak
masing dataset. Statistik deskriptif dari
terpilih karena berkode 0.
variabel yang mengandung nilai missing
Langkah-langkah metode kNNGA selanjutnya adalah sebagai berikut:
1. Membangkitkan
secara
dapat dilihat pada Tabel 2.
Tabel 2. Statistik Deskriptif dari Variabel
random
sebanyak 50 individu dalam populasi.
2. Menghitung nilai fitness untuk setiap
individu dalam populasi sesuai dengan
persamaan (4).
yang mengandung Nilai Missing
Dataset
Vertebral
column
Seeds
Computer
hardware
Urutan
Variabel
Mean
Min
Maks
Ke-6
26.30
-11.06
418.54
Ke-7
5.41
4.52
6.55
Ke-8
99.3
15.0
1238.0
3. Membentuk individu baru dengan
Untuk melakukan analisa hasil
melakukan seleksi roullete wheel,
dengan
seleksi variabel pada metode kNN-GA,
probabilitas (� ) sebesar 0,8 dan
maka perlu dilihat korelasi antar variabel
mutasi
pada
satu
crossover
dengan
titik
probabilitas
(� )
sebesar 0,2. Kemudian melakukan
elitism
dan
replacement
sehingga
masing-masing
4. Memilih individu terbaik dari populasi
mengetahui apakah hasil seleksi variabel
pada metode kNN-GA dipengaruhi oleh
korelasi
dari
masing-masing
yang merupakan solusi terbaik setelah
adalah sebagai berikut:
kriteria yang ditentukan terpenuhi,
Vertebral column
ketika
mencapai
generasi
maksimum 50 generasi atau selisih
nilai fitness terbaik dalam 5 generasi
−8
terakhir tidak lebih dari 1 × 10 .
Hasil dan Pembahasan
Sebelum
imputasi,
terlebih
eksplorasi
data
melakukan
dahulu
untuk
untuk
korelasi antar variabel atau tidak. Matriks
diperoleh populasi baru.
yaitu
dataset
proses
dilakukan
1
0.63
� = 0.72
0.82
−0.25
0.64
dataset
1
0.43
1
0.06 0.59
1
0.03 −0.08 −0.34
1
0.39 0.53
0.52 −0.03
1
Dari matriks korelasi tersebut
diketahui bahwa terdapat tiga variabel
yang mempunyai korelasi kuat dengan
variabel
ke-6
atau
variabel
yang
mengetahui
mengandung nilai missing, yaitu variabel
gambaran awal dari data yang digunakan.
ke-1 (�16 = 0.64), variabel ke-3 (�36 =
Pada penelitian ini, pola missing data
Imputasi … (Ucik Mawarsari)
AdMathEdu | Vol.6 No.1 | Juni 2016
ISSN: 2088-687X
83
0.53), dan variabel ke-4 (�46 = 0.52).
(�48 = 0.65), variabel ke-5 (�58 = 0.61),
Sedangkan variabel ke-2 dan ke-5 tidak
variabel ke-6 (�68 = 0.59), dan variabel
mempunyai korelasi yang kuat dengan
ke-7(�78 = 0.97). Hanya variabel-ke-1
variabel ke-6 karena memiliki nilai
yang tidak mempunyai korelasi yang kuat
korelasi kurang dari 0.5.
dengan variabel ke-8 (�18 = -0.29).
Seeds
Langkah
�
selanjutnya
adalah
melakukan imputasi missing data . Hasil
1
0.99
1
0.61
0.53
1
= 0.95
0.97
0.34
1
0.97
0.94
0.76
0.86
1
−0.23 −0.22 −0.33 −0.17 −0.26
1
0.86
0.89
0.23
0.93
0.75 −0.01
imputasi missing data dengan kNN-GA
pada data vertebral column, seeds, dan
1
Pada data seeds, sebagian besar
computer hardware dapat dilihat pada
Tabel 3.
variabel memiliki korelasi yang kuat
Tabel 3. Hasil Imputasi Missing Data
dengan variabel-ke-7 atau variabel yang
dengan metode kNN-GA
mengandung nilai missing, yaitu variabel
ke-1 (�17 = 0.86), variabel ke-2 (�27 =
Dataset
0.86), variabel ke-4 (�47 = 0.93), dan
Vertebral
column
variabel ke-5 (�57 = 0.75). Sedangkan
Seeds
variabel-ke-3 dan variabel ke-6 tidak
Computer
hardware
%
Mising
Data
10%
20%
10%
20%
10%
20%
Seleksi
Variabel
Nilai
01101
11001
000110
011110
0111110
0111000
2
9
3
15
2
10
RMSE
13.762
15.220
0.130
0.157
4.389
10.598
mempunyai korelasi yang kuat dengan
variabel ke-7.
Pada
proporsi
missing
data
sebesar 10%, nilai k optimum yang
diperoleh pada data vertebral column
adalah k = 2 dengan hasil seleksi variabel
Computer hardware
1
−0.34
−0.38
� = −0.32
−0.30
−0.25
−0.31
−0.29
1
0.76
0.54
0.52
0.27
0.79
0.82
ke-2, ke-3 dan ke-5 yang terpilih dalam
proses imputasi kNN-GA. Pada data
1
0.54
0.56
0.53
0.86
0.90
1
0.58
0.49
0.66
0.65
1
0.55
0.61
0.61
seeds nilai k optimum yang diperoleh
1
0.61
1
0.59 0.97
adalah k = 3 dengan hasil seleksi variabel
1
Hampir semua variabel pada data
ke-4 dan ke-5 yang terpilih dalam proses
computer hardware juga mempunyai
imputasi kNN-GA. Sedangkan pada data
korelasi yang kuat dengan variabel ke-8
computer hardware nilai k optimumnya
atau variabel yang mengandung nilai
adalah k = 2 dengan hasil seleksi variabel
missing, yaitu variabel ke-2 (�28 = 0.82),
ke-2, ke-3, ke-4, ke-5 dan ke-6.
variabel ke-3 (�38 = 0.90), variabel ke-4
Perbedaaan proporsi missing data
sebesar 10% dan 20% memberikan hasil
AdMathEdu | Vol.6 No.1 | Juni 2016
Imputasi … (Ucik Mawarsari)
84
ISSN: 2088-687X
yang cukup bervariasi pada masing-
ke-6, akan tetapi variabel ke-2 dan ke-5
masing
penelitian
tidak mempunyai korelasi yang kuat
menunjukkan bahwa nilai k optimum
dengan variabel ke-6. Selain variabel ke-
yang diperoleh berbanding lurus dengan
3,
proporsi missing data , yang artinya
mempunyai korelasi yang kuat dengan
semakin banyak jumlah missing data
variabel ke-6, akan tetapi tidak terpilih
maka nilai k optimum yang dihasilkan
dalam hasil seleksi variabel dengan
juga semakin besar. Hasil seleksi variabel
metode kNN-GA.
juga
dataset.
menunjukkan
Hasil
perbedaan
antara
proporsi missing data 10% dan 20%.
Pada
proporsi
variabel
ke-1
dan
ke-4
juga
Sedangkan pada data seeds, hasil
seleksi variabel dengan metode kNN-GA
data
adalah variabel ke-4 dan ke-5. Jika dilihat
sebesar 20%, nilai k optimum yang
dari nilai korelasinya, kedua variabel
diperoleh pada data vertebral column
tersebut mempunyai korelasi yang kuat
adalah k = 9 dengan hasil seleksi variabel
dengan variabel ke-7. Selain variabel ke-
ke-1, ke-2 dan ke-5 yang terpilih dalam
4 dan ke-5, variabel ke-1 dan ke-2 juga
proses imputasi kNN-GA. Pada data
mempunyai korelasi yang kuat dengan
seeds nilai k optimum yang diperoleh
variabel ke-7, akan tetapi tidak terpilih
adalah k = 15 dengan hasil seleksi
dalam hasil seleksi variabel dengan
variabel ke-2, ke-3, ke-4 dan ke-5 yang
metode kNN-GA.
missing
terpilih dalam proses imputasi kNN-GA.
Pada data computer hardware,
Sedangkan pada data computer hardware
hasil seleksi variabel adalah variabel ke
nilai k optimumnya adalah k = 10 dengan
2, ke-3, ke-4, ke-5, dan ke-6. Jika dilihat
hasil seleksi variabel ke-2, ke-3, dan ke-
nilai korelasinya, semua variabel hasil
4.
seleksi tersebut mempunyai korelasi yang
Berdasarkan
matriks
korelasi,
kuat
dengan
variabel
ke-8,
namun
variabel yang memiliki korelasi kuat
variabel ke-7 yang juga mempunyai
dengan variabel ke-6 atau variabel yang
korelasi yang kuat dengan variabel ke-8
mengandung nilai missing pada data
tidak terpilih dalam hasil seleksi variabel
vertebral column adalah variabel ke-1,
dengan metode kNN-GA.
ke-3, dan ke-4. Pada proporsi missing
Hasil
seleksi
variabel
pada
20%
juga
data 10%, hasil seleksi variabel adalah
proporsi
variabel ke-2, ke-3, dan ke-5. Jika dilihat
menunjukkan hasil yang random jika
nilai
ke-3
dilihat hubungannya dengan nilai korelasi
mempunyai korelasi kuat dengan variabel
variabel. Hal ini menunjukkan bahwa
korelasinya,
variabel
Imputasi … (Ucik Mawarsari)
missing
data
AdMathEdu | Vol.6 No.1 | Juni 2016
ISSN: 2088-687X
85
hasil seleksi variabel dengan metode
kNN-GA tidak sepenuhnya dipengaruhi
oleh besarnya nilai korelasi antar variabel
dari dataset tersebut.
Nilai
metode
RMSE
kNN-GA
yang dihasilkan
pada
Tabel
3
menunjukkan nilai yang relatif kecil. Hal
ini menjelaskan bahwa teknik optimasi
Gambar6. Perbandingan Nilai Aktual
dan Nilai Hasil Imputasi pada Data
Algoritma Genetika pada kNN-GA dapat
meningkatkan
kinerja
metode
Computer Hardware
kNN
dengan melakukan seleksi variabel dan
optimasi
nilai
k
dalam
Gambar
melakukan
imputasi missing data . Nilai k optimum
dan seleksi variabel dapat dihasilkan
secara otomatis tanpa harus melakukan
uji coba secara manual satu persatu.
4,
Gambar
5,
dan
Gambar 6 menunjukkan perbandingan
nilai aktual dan nilai hasil imputasi pada
data
vertebral
computer
column,
hardware
seeds,
dengan
dan
proporsi
missing data 10%. Dari gambar tersebut
dapat dilihat bahwa secara umum metode
kNN-GA
dapat
menghasilkan
nilai
imputasi yang mendekati nilai aktual.
Kesimpulan
Berdasarkan hasil penelitian yang
Gambar 4. Perbandingan Nilai Aktual
dan Nilai Hasil Imputasi pada Data
Vertebral Column
telah
dilakukan,
dapat
diambil
kesimpulan sebagai berikut:
1.
Metode imputasi kNN-GA dapat
membantu dalam memperoleh nilai k
optimum. Hasil penelitian pada data
vertebral
column,
seeds,
computer
hardware
menunjukkan
bahwa
nilai
k
optimum
dan
yang
diperoleh berbanding lurus dengan
Gambar 5. Perbandingan Nilai Aktual
jumlah missing data .
dan Nilai Hasil Imputasi pada Data Seeds
AdMathEdu | Vol.6 No.1 | Juni 2016
Imputasi … (Ucik Mawarsari)
86
2.
ISSN: 2088-687X
Metode imputasi kNN-GA dapat
Jerez, J.M., dan Molina, I., 2010,
melakukan seleksi variabel dengan
"Missing Data Imputation Using
baik sehingga dapat meningkatkan
Statistical And Machine Learning
akurasi kNN. Hasil seleksi variabel
Methods In A Real Breast Cancer
yang diperoleh dengan metode kNN-
Problem", Artificial Intelligence
GA tidak sepenuhnya dipengaruhi
in Medicine50, 105-115.
oleh besarnya nilai korelasi antar
variabel pada dataset.
Little, R.J., dan Rubin, D.B., 1987,
Statistical Analysis with Missing
Data, John Wiley & Sons, Inc,
New York.
Pustaka
Analoui, M. dan Amiri, M.F., 2006,
Patil, D.V. dan Bichkar, R.S., 2010,
"Feature Reduction of Nearest
"Multiple Imputation of Missing
Neigbor Classifier using Genetic
Data with Genetic Algorithm
Algorithm", World Academy of
based Techniques", Evolutionary
Science,
Computation
Engineering
and
Technology17, 36-39.
for
Optimization
Techniques, hal. 74-78.
Batista G. dan Monard M.C., 2003, A
Siedlecki,W. dan Sklansky, J., 1989, "A
Study of K-Nearest Neighbour as
Note on Genetic Algorithms for
an Imputation Method, Working
Large-Scale Feature Selection",
Paper,
Pattern
University Sao
Paulo,
Brazil.
Letters10,
335-347.
Gen, M. dan Cheng, R., 1999, Genetic
Algorithm
Recognition
and
Optimization
Wasito, I. dan Mirkin, B., 2005, "Nearest
Neighbor Approach in the Least
Engineering, John Wiley & Sons,
Square
Inc, Japan.
Algorithms",
Data
Imputation
Information
Sciences169, 1-25.
Imputasi … (Ucik Mawarsari)
AdMathEdu | Vol.6 No.1 | Juni 2016
77
IMPUTASI MISSING DATA DENGAN K-NEAREST NEIGHBOR
DANALGORITMA GENETIKA
Ucik Mawarsari
Badan Pusat Statistik
Jl. Dr. Sutomo 6-8 Jakarta, [email protected]
ABSTRAK
Permasalahan yang sering muncul pada suatu data adalah adanya ketidaklengkapan data
pada suatu variabel atau sering disebut dengan missing data . Untuk menangani missing data , salah
satu cara yang dapat digunakan adalah dengan melakukan imputasi. Salah satu metode imputasi
yang cukup sederhana adalah k-Nearest Neighbor (kNN). Namun salah satu kelemahan metode
kNN adalah permasalahan dalam pemilihan nilai k karena pemilihan nilai k yang kurang tepat dapat
menurunkan kinerja kNN. Penelitian ini mengkaji metode gabungan k-Nearest Neighbor dan
Algoritma Genetika (kNN-GA) yang digunakan untuk mengestimasi nilai missing. Algoritma
genetika digunakan untuk melakukan optimasi nilai k dan untuk melakukan seleksi variabel yang
digunakan untuk estimasi nilai missingsehingga dapat menghasilkan nilai estimasi yang baik
dengan Root Mean Square Error (RMSE) minimum. Hasil yang diperoleh menunjukkan bahwa
metode imputasi kNN-GA dapat membantu dalam memperoleh nilai k optimum dan dapat
melakukan seleksi variabel dengan baik sehingga dapat meningkatkan akurasi kNN.
Kata Kunci :Algoritma Genetika, Imputasi, kNN, kNN-GA.
ABSTRACT
Problems often arise in a data is incompleteness on a variable of the data or often called
with missing data. Imputation is a method that can be used to handle missing data. One of simple
imputation methods are k-Nearest Neighbor (kNN). However, the weakness of kNN method is the
problem in selecting the value of k, because a mistake in selecting the value of k can degrade
performance of kNN. This study examines the combined method k-Nearest Neighbor and Genetic
Algorithm (kNN-GA) that are used to estimate missing values. Genetic algorithm is used to
optimize the value of k and for selecting the variables used to estimate missing values in order to
produce a good estimation with minimum Root Mean Square Error (RMSE). The results show that
the imputation method of kNN-GA can assist in obtaining the optimum value of k and can do a
good selection of variables so it can improve the accuracy of kNN.
Keywords :Genetic Algorithm, Imputation, kNN, kNN-GA.
analisis terhadap data tersebut karena
Pendahuluan
Permasalahan yang sering muncul
pada
suatu
data
adalah
adanya
analisis statistik hanya dapat diterapkan
pada data yang lengkap.
suatu
Untuk menangani missing data ,
variabel atau sering disebut dengan
salah satu metode yang dapat digunakan
ketidaklengkapan
missing
data
pada
data . Adanya missing
data
menyebabkan kesulitan dalam melakukan
AdMathEdu | Vol.6 No.1 | Juni 2016
adalah
dengan
mengestimasi
nilai
missing dengan suatu nilai tertentu yang
Imputasi … (Ucik Mawarsari)
78
ISSN: 2088-687X
dianggap sesuai, atau sering disebut
nilai Mean Square Error yang paling
dengan imputasi. Salah satu metode
kecil”.
imputasi
adalah
metode
k-Nearest
Dalam
beberapa
penelitian,
Neighbor (kNN). “Metode ini merupakan
sebuah metode sering dikombinasikan
metode yang sederhana dan fleksibel
dengan
karena
pada
memperoleh hasil yang lebih optimal.
variabel dengan data kontinu maupun
“Salah satunya adalah penelitian Patil dan
data diskrit (Batista dan Monard 2003)”.
Bichkar (2010) yang mengintegrasikan
“Pada penelitian yang dilakukan oleh
decision tree learning dan algoritma
Batista
yang
genetika untuk menyusun decision tree
menganalisa penggunaan kNN sebagai
yang optimal untuk mengestimasi nilai
sebuah
missing.
dapat
dan
digunakan
Monard
metode
melakukan
baik
(2003)
imputasi,
simulasi
dengan
missing
data
teknik
optimasi
Hasil
untuk
penelitiannya
menunjukkan bahwa algoritma
yang
sebanyak 10 hingga 60 persen dari total
diusulkan dapat meningkatkan akurasi
data
metode
estimasi nilai missing”. “Siedlecky dan
imputasi kNN memberikan hasil yang
Sklansky (1989) juga mengkombinasikan
sangat baik, bahkan pada saat data
K-Nearest
memiliki jumlah missing yang besar”.
Genetika, dimana algoritma genetika
“Jerez
digunakan
menunjukkan
dan
bahwa
Molina
(2010)
juga
Neighbor
untuk
dan
Algoritma
melakukan
seleksi
membandingkan metode imputasi yang
variabel yang digunakan pada klasifikasi.
berbasiskan teknik statistik, yaitu mean,
Hasil penelitiannya menunjukkan bahwa
hot deck, multiple imputation dengan
metode tersebut dapat meningkatkan
metode
teknik
ketepatan klasifikasi. Selain itu, dalam
Multilayer
penelitiannya juga menyatakan bahwa
Perceptron (MLP), Self Organizing Map
algoritma genetika merupakan alat yang
(SOM), dan kNN pada data breast
powerfull
cancer . Hasilnya menunjukkan metode
variabel terutama ketika demensi variabel
imputasi
yang digunakan cukup besar”.
machine
imputasi
learning,
berbasis
berbasiskan
yaitu
machine
learning
memiliki tingkat akurasi yang lebih tinggi
dalam
Salah
satu
melakukan
kelemahan
seleksi
pada
daripada metode berbasis teknik statistik.
metode kNN adalah permasalahan dalam
Dan dari ketiga metode imputasi berbasis
pemilihan nilai k karena pemilihan nilai k
digunakan,
yang kurang tepat dapat menurunkan
metode kNN memberikan nilai prediksi
kinerja kNN. Penelitian ini bertujuan
yang paling baik karena menghasilkan
untuk mengatasi permasalahan missing
machine
learning
yang
Imputasi … (Ucik Mawarsari)
AdMathEdu | Vol.6 No.1 | Juni 2016
ISSN: 2088-687X
79
dengan
data
menggunakan
teknik
gabungan
imputasi
kNN
dan
1. Menentukan nilai k, yaitu jumlah
observasi terdekat yang diinginkan.
Algoritma Genetika (kNN-GA) dimana
2. Menghitung jarak euclidian antara
Algoritma Genetika digunakan untuk
observasi target dengan observasi
optimasi nilai k pada kNN dan untuk
yang tidak memuat nilai missing,
melakukan
dengan formula:
digunakan
seleksi
untuk
variabel
yang
mengestimasi
nilai
,
missing.
�
=
(
=1
dimana:
Metode Penelitian
telah
banyak
variabel sebanyak s variabel,
k-Nearest
Neighbor
digunakan
untuk
diiplementasikan dalam imputasi missing
data terutama dalam dataset dengan
missing
pada lebih dari satu
data
variabel.
Algoritma
menggunakan
mirip/serupa
kNN
observasi
dengan
yang
observasi
yang
memiliki nilai missing. Sebuah observasi
yang memuat satu atau lebih nilai missing
yang akan diimputasi disebut sebagai
observasi target. Berdasarkan pendekatan
ini,
ukuran
observasi
observasi
jarak
target
)2
(1)
= vektor observasi target dengan
k-Nearest Neighbor (kNN)
Algoritma
−
dihitung
dengan
lainnya.
antara
tiap-tiap
Jika
k
merepresentasikan jumlah observasi yang
1, 2, … , �
= vektor
memiliki jarak minimum dari observasi
target.
Algoritma imputasi kNN adalah
sebagai berikut :
AdMathEdu | Vol.6 No.1 | Juni 2016
yang
tidak
memuat nilai missing dengan variabel
sebanyak
variabel,
s
1, 2, … , �
,
= jarak antara
=
dan
=nilai variabel ke-j pada
=nilai variabel ke-j pada
j = 1,2, ..., s.
3. Mencari k observasi yang memiliki
nilai
,
minimum.
4. Melakukan imputasi missing data
dengan
menggunakan
prosedur
weighted mean imputation, dengan
formula:
mirip/serupa dengan observasi target,
maka kemudian dipilih k observasi yang
observasi
=
=
dimana:
1
�
�
(2)
=1
=nilai imputasi
=nilai variabel ke-j pada observasi
ke-k, k = 1,2, …, K
Imputasi … (Ucik Mawarsari)
80
ISSN: 2088-687X
=
=bobot observasi ke-k,
probabilitas
(� )
mutasi
sehingga
1
,
menghasilkan
�=
�
=1
keturunan ini kemudian dievaluasi untuk
Keturunan-
membentuk populasi baru yang memiliki
kriteria
Algoritma Genetika
Algoritma genetika merupakan
algoritma
keturunan.
untuk
memecahkan
suatu
yang
lebih
“Setelah
baik.
beberapa generasi terbentuk, algoritma
akan konvergen pada individu terbaik
pencarian nilai dalam masalah optimasi
yang
dengan meniru proses genetik pada
solusi optimal dari permasalahan yang
makhluk
dihadapi (Gen dan Cheng 1999)”.
hidup.
Algoritma
genetika
diharapkan
merepresentasikan
bekerja dengan mempertahankan sebuah
populasi yang terdiri dari individuindividu,
dimana
tiap
kNN-GA
Metode
individu
kNN-GA
merepresentasikan sebuah solusi pada
metode
permasalahan yang dihadapi. Individu
Algoritma Genetika. Algoritma imputasi
dikodekan dalam bentuk kromosom yang
missing
terdiri dari komponen genetik terkecil,
GAadalah sebagai berikut:
yaitu gen. Dari individu yang ada,
1. Menentukan inisial populasi, meliputi
dihitung nilai fitness yang digunakan
jumlah gen dalam kromosom dan
sebagai kriteria solusi terbaik.
jumlah kromosom dalam individu.
Evaluasi
Fitness
Populasi
Awal
Seleksi
Individu
gabungan
data
antara
merupakan
kNN
dan
dengan metode kNN-
2. Melakukan proses algoritma kNN
untuk
setiap
kromosom
dalam
populasi. Setiap kromosom dikodekan
Reproduksi:
Crossover
dan Mutasi
Populasi
Baru
menjadi nilai k dan
representasi
variabel yang digunakan oleh kNN
dalam melakukan imputasi. Kemudian
menghitung RMSE dengan formula:
Gambar 1.Siklus Algoritma Genetika
Individu-individu
proses
seleksi
yang
kemudian
lolos
melakukan
reproduksi dengan perkawinan silang
(crossover )
probabilitas
dan
mutasi
crossover (� )
Imputasi … (Ucik Mawarsari)
dengan
dan
� �=
1
=1
−
2
(3)
dimana:
= jumlah observasi
= nilai aktual pada observasi ke-i
= nilai estimasi pada observasi ke-i
AdMathEdu | Vol.6 No.1 | Juni 2016
ISSN: 2088-687X
81
3. Menghitung nilai fitness dari tiap
Penelitian ini menggunakan data
kromosom dalam populasi dengan
lengkap karena data aktual dan data hasil
formula:
imputasi
dimana:
�=
1
( � � + ℎ)
(4)
mengukur
akan
dibandingkan
kinerja
Langkah
metode
untuk
kNN-GA.
berikutnya
adalah
menghilangkan secara random beberapa
h=nilai yang kecil (0 ≤ h ≤ 1)
nilai pada salah satu variabel pada
4. Memilih kromosom berdasarkan nilai
fitness.
masing-masing
dataset
untuk
mendapatkan nilai missing sebanyak 10%
5. Melakukan
perkawinan
(crossover )
dan
mutasi
silang
dan 20% dari jumlah data. Kemudian
untuk
dilakukan imputasi missing data dengan
mendapatkan keturunan (offspring)
6. Melakukan elitism dan replacement
sehingga diperoleh populasi baru.
kNN-GA. Untuk mencari nilai k optimum
pada
metode
kNN-GA,
nilai
k
direpresentasikan dalam 4 gen biner.
7. Kembali ke tahap nomor 2 hingga
kriteria yang ditentukan terpenuhi.
Sebagai contoh kromosom individu yang
terbentuk untuk nilai k = 10 adalah:
1
0
1
0
Metodologi
Data
yang
penelitian ini
digunakan
pada
Gambar 2. Kromosom Individu untuk
Nilai k
adalah data vertebral
String
column, seeds, dan computer hardware
yang diambil dari UCI Machine Learning
Repository yang merupakan data lengkap
atau tidak terdapat nilai missing. Jumlah
data dan jumlah variabel dari masingmasing dataset dapat dilihat pada Tabel 1.
Tabel 1. Jumlah Data dan Jumlah
Vertebral column
Seeds
Computer
hardware
Jumlah
data
310
210
209
merepresentasikan
selanjutnya
kromosom
untuk
seleksi variabel. Misalkan terdapat 5
variabel dalam dataset, maka sebuah
vektor biner berukuran 5 × 1 yang
berunsurkan nilai 1 dan 0 diartikan
sebagai
vektor
indikator
yang
menunjukkan kode seleksi variabel, kode
Variabel pada Dataset
Dataset
biner
Jumlah
variabel
6
7
8
1 menunjukkan variabel yang terpilih.
Sebagai contoh kromosom individu yang
terbentuk adalah:
1
1
0
1
1
Gambar 3. Kromosom Individu untuk
Variabel
AdMathEdu | Vol.6 No.1 | Juni 2016
Imputasi … (Ucik Mawarsari)
82
ISSN: 2088-687X
String tersebut akan dikodekan ke
yang digunakan adalah missing data
dalam metode kNN menjadi, variabel
univariat atau missing data hanya terjadi
yang terpilih dalam proses imputasi
pada satu variabel, yaitu variabel yang
dengan kNN adalah variabel ke-1, ke-2,
menempati urutan terakhir pada masing-
ke-4, dan ke-5. Variabel ke-3 tidak
masing dataset. Statistik deskriptif dari
terpilih karena berkode 0.
variabel yang mengandung nilai missing
Langkah-langkah metode kNNGA selanjutnya adalah sebagai berikut:
1. Membangkitkan
secara
dapat dilihat pada Tabel 2.
Tabel 2. Statistik Deskriptif dari Variabel
random
sebanyak 50 individu dalam populasi.
2. Menghitung nilai fitness untuk setiap
individu dalam populasi sesuai dengan
persamaan (4).
yang mengandung Nilai Missing
Dataset
Vertebral
column
Seeds
Computer
hardware
Urutan
Variabel
Mean
Min
Maks
Ke-6
26.30
-11.06
418.54
Ke-7
5.41
4.52
6.55
Ke-8
99.3
15.0
1238.0
3. Membentuk individu baru dengan
Untuk melakukan analisa hasil
melakukan seleksi roullete wheel,
dengan
seleksi variabel pada metode kNN-GA,
probabilitas (� ) sebesar 0,8 dan
maka perlu dilihat korelasi antar variabel
mutasi
pada
satu
crossover
dengan
titik
probabilitas
(� )
sebesar 0,2. Kemudian melakukan
elitism
dan
replacement
sehingga
masing-masing
4. Memilih individu terbaik dari populasi
mengetahui apakah hasil seleksi variabel
pada metode kNN-GA dipengaruhi oleh
korelasi
dari
masing-masing
yang merupakan solusi terbaik setelah
adalah sebagai berikut:
kriteria yang ditentukan terpenuhi,
Vertebral column
ketika
mencapai
generasi
maksimum 50 generasi atau selisih
nilai fitness terbaik dalam 5 generasi
−8
terakhir tidak lebih dari 1 × 10 .
Hasil dan Pembahasan
Sebelum
imputasi,
terlebih
eksplorasi
data
melakukan
dahulu
untuk
untuk
korelasi antar variabel atau tidak. Matriks
diperoleh populasi baru.
yaitu
dataset
proses
dilakukan
1
0.63
� = 0.72
0.82
−0.25
0.64
dataset
1
0.43
1
0.06 0.59
1
0.03 −0.08 −0.34
1
0.39 0.53
0.52 −0.03
1
Dari matriks korelasi tersebut
diketahui bahwa terdapat tiga variabel
yang mempunyai korelasi kuat dengan
variabel
ke-6
atau
variabel
yang
mengetahui
mengandung nilai missing, yaitu variabel
gambaran awal dari data yang digunakan.
ke-1 (�16 = 0.64), variabel ke-3 (�36 =
Pada penelitian ini, pola missing data
Imputasi … (Ucik Mawarsari)
AdMathEdu | Vol.6 No.1 | Juni 2016
ISSN: 2088-687X
83
0.53), dan variabel ke-4 (�46 = 0.52).
(�48 = 0.65), variabel ke-5 (�58 = 0.61),
Sedangkan variabel ke-2 dan ke-5 tidak
variabel ke-6 (�68 = 0.59), dan variabel
mempunyai korelasi yang kuat dengan
ke-7(�78 = 0.97). Hanya variabel-ke-1
variabel ke-6 karena memiliki nilai
yang tidak mempunyai korelasi yang kuat
korelasi kurang dari 0.5.
dengan variabel ke-8 (�18 = -0.29).
Seeds
Langkah
�
selanjutnya
adalah
melakukan imputasi missing data . Hasil
1
0.99
1
0.61
0.53
1
= 0.95
0.97
0.34
1
0.97
0.94
0.76
0.86
1
−0.23 −0.22 −0.33 −0.17 −0.26
1
0.86
0.89
0.23
0.93
0.75 −0.01
imputasi missing data dengan kNN-GA
pada data vertebral column, seeds, dan
1
Pada data seeds, sebagian besar
computer hardware dapat dilihat pada
Tabel 3.
variabel memiliki korelasi yang kuat
Tabel 3. Hasil Imputasi Missing Data
dengan variabel-ke-7 atau variabel yang
dengan metode kNN-GA
mengandung nilai missing, yaitu variabel
ke-1 (�17 = 0.86), variabel ke-2 (�27 =
Dataset
0.86), variabel ke-4 (�47 = 0.93), dan
Vertebral
column
variabel ke-5 (�57 = 0.75). Sedangkan
Seeds
variabel-ke-3 dan variabel ke-6 tidak
Computer
hardware
%
Mising
Data
10%
20%
10%
20%
10%
20%
Seleksi
Variabel
Nilai
01101
11001
000110
011110
0111110
0111000
2
9
3
15
2
10
RMSE
13.762
15.220
0.130
0.157
4.389
10.598
mempunyai korelasi yang kuat dengan
variabel ke-7.
Pada
proporsi
missing
data
sebesar 10%, nilai k optimum yang
diperoleh pada data vertebral column
adalah k = 2 dengan hasil seleksi variabel
Computer hardware
1
−0.34
−0.38
� = −0.32
−0.30
−0.25
−0.31
−0.29
1
0.76
0.54
0.52
0.27
0.79
0.82
ke-2, ke-3 dan ke-5 yang terpilih dalam
proses imputasi kNN-GA. Pada data
1
0.54
0.56
0.53
0.86
0.90
1
0.58
0.49
0.66
0.65
1
0.55
0.61
0.61
seeds nilai k optimum yang diperoleh
1
0.61
1
0.59 0.97
adalah k = 3 dengan hasil seleksi variabel
1
Hampir semua variabel pada data
ke-4 dan ke-5 yang terpilih dalam proses
computer hardware juga mempunyai
imputasi kNN-GA. Sedangkan pada data
korelasi yang kuat dengan variabel ke-8
computer hardware nilai k optimumnya
atau variabel yang mengandung nilai
adalah k = 2 dengan hasil seleksi variabel
missing, yaitu variabel ke-2 (�28 = 0.82),
ke-2, ke-3, ke-4, ke-5 dan ke-6.
variabel ke-3 (�38 = 0.90), variabel ke-4
Perbedaaan proporsi missing data
sebesar 10% dan 20% memberikan hasil
AdMathEdu | Vol.6 No.1 | Juni 2016
Imputasi … (Ucik Mawarsari)
84
ISSN: 2088-687X
yang cukup bervariasi pada masing-
ke-6, akan tetapi variabel ke-2 dan ke-5
masing
penelitian
tidak mempunyai korelasi yang kuat
menunjukkan bahwa nilai k optimum
dengan variabel ke-6. Selain variabel ke-
yang diperoleh berbanding lurus dengan
3,
proporsi missing data , yang artinya
mempunyai korelasi yang kuat dengan
semakin banyak jumlah missing data
variabel ke-6, akan tetapi tidak terpilih
maka nilai k optimum yang dihasilkan
dalam hasil seleksi variabel dengan
juga semakin besar. Hasil seleksi variabel
metode kNN-GA.
juga
dataset.
menunjukkan
Hasil
perbedaan
antara
proporsi missing data 10% dan 20%.
Pada
proporsi
variabel
ke-1
dan
ke-4
juga
Sedangkan pada data seeds, hasil
seleksi variabel dengan metode kNN-GA
data
adalah variabel ke-4 dan ke-5. Jika dilihat
sebesar 20%, nilai k optimum yang
dari nilai korelasinya, kedua variabel
diperoleh pada data vertebral column
tersebut mempunyai korelasi yang kuat
adalah k = 9 dengan hasil seleksi variabel
dengan variabel ke-7. Selain variabel ke-
ke-1, ke-2 dan ke-5 yang terpilih dalam
4 dan ke-5, variabel ke-1 dan ke-2 juga
proses imputasi kNN-GA. Pada data
mempunyai korelasi yang kuat dengan
seeds nilai k optimum yang diperoleh
variabel ke-7, akan tetapi tidak terpilih
adalah k = 15 dengan hasil seleksi
dalam hasil seleksi variabel dengan
variabel ke-2, ke-3, ke-4 dan ke-5 yang
metode kNN-GA.
missing
terpilih dalam proses imputasi kNN-GA.
Pada data computer hardware,
Sedangkan pada data computer hardware
hasil seleksi variabel adalah variabel ke
nilai k optimumnya adalah k = 10 dengan
2, ke-3, ke-4, ke-5, dan ke-6. Jika dilihat
hasil seleksi variabel ke-2, ke-3, dan ke-
nilai korelasinya, semua variabel hasil
4.
seleksi tersebut mempunyai korelasi yang
Berdasarkan
matriks
korelasi,
kuat
dengan
variabel
ke-8,
namun
variabel yang memiliki korelasi kuat
variabel ke-7 yang juga mempunyai
dengan variabel ke-6 atau variabel yang
korelasi yang kuat dengan variabel ke-8
mengandung nilai missing pada data
tidak terpilih dalam hasil seleksi variabel
vertebral column adalah variabel ke-1,
dengan metode kNN-GA.
ke-3, dan ke-4. Pada proporsi missing
Hasil
seleksi
variabel
pada
20%
juga
data 10%, hasil seleksi variabel adalah
proporsi
variabel ke-2, ke-3, dan ke-5. Jika dilihat
menunjukkan hasil yang random jika
nilai
ke-3
dilihat hubungannya dengan nilai korelasi
mempunyai korelasi kuat dengan variabel
variabel. Hal ini menunjukkan bahwa
korelasinya,
variabel
Imputasi … (Ucik Mawarsari)
missing
data
AdMathEdu | Vol.6 No.1 | Juni 2016
ISSN: 2088-687X
85
hasil seleksi variabel dengan metode
kNN-GA tidak sepenuhnya dipengaruhi
oleh besarnya nilai korelasi antar variabel
dari dataset tersebut.
Nilai
metode
RMSE
kNN-GA
yang dihasilkan
pada
Tabel
3
menunjukkan nilai yang relatif kecil. Hal
ini menjelaskan bahwa teknik optimasi
Gambar6. Perbandingan Nilai Aktual
dan Nilai Hasil Imputasi pada Data
Algoritma Genetika pada kNN-GA dapat
meningkatkan
kinerja
metode
Computer Hardware
kNN
dengan melakukan seleksi variabel dan
optimasi
nilai
k
dalam
Gambar
melakukan
imputasi missing data . Nilai k optimum
dan seleksi variabel dapat dihasilkan
secara otomatis tanpa harus melakukan
uji coba secara manual satu persatu.
4,
Gambar
5,
dan
Gambar 6 menunjukkan perbandingan
nilai aktual dan nilai hasil imputasi pada
data
vertebral
computer
column,
hardware
seeds,
dengan
dan
proporsi
missing data 10%. Dari gambar tersebut
dapat dilihat bahwa secara umum metode
kNN-GA
dapat
menghasilkan
nilai
imputasi yang mendekati nilai aktual.
Kesimpulan
Berdasarkan hasil penelitian yang
Gambar 4. Perbandingan Nilai Aktual
dan Nilai Hasil Imputasi pada Data
Vertebral Column
telah
dilakukan,
dapat
diambil
kesimpulan sebagai berikut:
1.
Metode imputasi kNN-GA dapat
membantu dalam memperoleh nilai k
optimum. Hasil penelitian pada data
vertebral
column,
seeds,
computer
hardware
menunjukkan
bahwa
nilai
k
optimum
dan
yang
diperoleh berbanding lurus dengan
Gambar 5. Perbandingan Nilai Aktual
jumlah missing data .
dan Nilai Hasil Imputasi pada Data Seeds
AdMathEdu | Vol.6 No.1 | Juni 2016
Imputasi … (Ucik Mawarsari)
86
2.
ISSN: 2088-687X
Metode imputasi kNN-GA dapat
Jerez, J.M., dan Molina, I., 2010,
melakukan seleksi variabel dengan
"Missing Data Imputation Using
baik sehingga dapat meningkatkan
Statistical And Machine Learning
akurasi kNN. Hasil seleksi variabel
Methods In A Real Breast Cancer
yang diperoleh dengan metode kNN-
Problem", Artificial Intelligence
GA tidak sepenuhnya dipengaruhi
in Medicine50, 105-115.
oleh besarnya nilai korelasi antar
variabel pada dataset.
Little, R.J., dan Rubin, D.B., 1987,
Statistical Analysis with Missing
Data, John Wiley & Sons, Inc,
New York.
Pustaka
Analoui, M. dan Amiri, M.F., 2006,
Patil, D.V. dan Bichkar, R.S., 2010,
"Feature Reduction of Nearest
"Multiple Imputation of Missing
Neigbor Classifier using Genetic
Data with Genetic Algorithm
Algorithm", World Academy of
based Techniques", Evolutionary
Science,
Computation
Engineering
and
Technology17, 36-39.
for
Optimization
Techniques, hal. 74-78.
Batista G. dan Monard M.C., 2003, A
Siedlecki,W. dan Sklansky, J., 1989, "A
Study of K-Nearest Neighbour as
Note on Genetic Algorithms for
an Imputation Method, Working
Large-Scale Feature Selection",
Paper,
Pattern
University Sao
Paulo,
Brazil.
Letters10,
335-347.
Gen, M. dan Cheng, R., 1999, Genetic
Algorithm
Recognition
and
Optimization
Wasito, I. dan Mirkin, B., 2005, "Nearest
Neighbor Approach in the Least
Engineering, John Wiley & Sons,
Square
Inc, Japan.
Algorithms",
Data
Imputation
Information
Sciences169, 1-25.
Imputasi … (Ucik Mawarsari)
AdMathEdu | Vol.6 No.1 | Juni 2016