57149 ID imputasi missing data dengan k nearest n

ISSN: 2088-687X

77

IMPUTASI MISSING DATA DENGAN K-NEAREST NEIGHBOR
DANALGORITMA GENETIKA
Ucik Mawarsari
Badan Pusat Statistik
Jl. Dr. Sutomo 6-8 Jakarta, [email protected]

ABSTRAK
Permasalahan yang sering muncul pada suatu data adalah adanya ketidaklengkapan data
pada suatu variabel atau sering disebut dengan missing data . Untuk menangani missing data , salah
satu cara yang dapat digunakan adalah dengan melakukan imputasi. Salah satu metode imputasi
yang cukup sederhana adalah k-Nearest Neighbor (kNN). Namun salah satu kelemahan metode
kNN adalah permasalahan dalam pemilihan nilai k karena pemilihan nilai k yang kurang tepat dapat
menurunkan kinerja kNN. Penelitian ini mengkaji metode gabungan k-Nearest Neighbor dan
Algoritma Genetika (kNN-GA) yang digunakan untuk mengestimasi nilai missing. Algoritma
genetika digunakan untuk melakukan optimasi nilai k dan untuk melakukan seleksi variabel yang
digunakan untuk estimasi nilai missingsehingga dapat menghasilkan nilai estimasi yang baik
dengan Root Mean Square Error (RMSE) minimum. Hasil yang diperoleh menunjukkan bahwa

metode imputasi kNN-GA dapat membantu dalam memperoleh nilai k optimum dan dapat
melakukan seleksi variabel dengan baik sehingga dapat meningkatkan akurasi kNN.
Kata Kunci :Algoritma Genetika, Imputasi, kNN, kNN-GA.

ABSTRACT
Problems often arise in a data is incompleteness on a variable of the data or often called
with missing data. Imputation is a method that can be used to handle missing data. One of simple
imputation methods are k-Nearest Neighbor (kNN). However, the weakness of kNN method is the
problem in selecting the value of k, because a mistake in selecting the value of k can degrade
performance of kNN. This study examines the combined method k-Nearest Neighbor and Genetic
Algorithm (kNN-GA) that are used to estimate missing values. Genetic algorithm is used to
optimize the value of k and for selecting the variables used to estimate missing values in order to
produce a good estimation with minimum Root Mean Square Error (RMSE). The results show that
the imputation method of kNN-GA can assist in obtaining the optimum value of k and can do a
good selection of variables so it can improve the accuracy of kNN.
Keywords :Genetic Algorithm, Imputation, kNN, kNN-GA.

analisis terhadap data tersebut karena

Pendahuluan

Permasalahan yang sering muncul
pada

suatu

data

adalah

adanya

analisis statistik hanya dapat diterapkan
pada data yang lengkap.

suatu

Untuk menangani missing data ,

variabel atau sering disebut dengan


salah satu metode yang dapat digunakan

ketidaklengkapan

missing

data

pada

data . Adanya missing

data

menyebabkan kesulitan dalam melakukan
AdMathEdu | Vol.6 No.1 | Juni 2016

adalah

dengan


mengestimasi

nilai

missing dengan suatu nilai tertentu yang

Imputasi … (Ucik Mawarsari)

78

ISSN: 2088-687X

dianggap sesuai, atau sering disebut

nilai Mean Square Error yang paling

dengan imputasi. Salah satu metode

kecil”.


imputasi

adalah

metode

k-Nearest

Dalam

beberapa

penelitian,

Neighbor (kNN). “Metode ini merupakan

sebuah metode sering dikombinasikan

metode yang sederhana dan fleksibel


dengan

karena

pada

memperoleh hasil yang lebih optimal.

variabel dengan data kontinu maupun

“Salah satunya adalah penelitian Patil dan

data diskrit (Batista dan Monard 2003)”.

Bichkar (2010) yang mengintegrasikan

“Pada penelitian yang dilakukan oleh

decision tree learning dan algoritma


Batista

yang

genetika untuk menyusun decision tree

menganalisa penggunaan kNN sebagai

yang optimal untuk mengestimasi nilai

sebuah

missing.

dapat

dan

digunakan


Monard

metode

melakukan

baik

(2003)

imputasi,

simulasi

dengan

missing

data


teknik

optimasi

Hasil

untuk

penelitiannya

menunjukkan bahwa algoritma

yang

sebanyak 10 hingga 60 persen dari total

diusulkan dapat meningkatkan akurasi

data


metode

estimasi nilai missing”. “Siedlecky dan

imputasi kNN memberikan hasil yang

Sklansky (1989) juga mengkombinasikan

sangat baik, bahkan pada saat data

K-Nearest

memiliki jumlah missing yang besar”.

Genetika, dimana algoritma genetika

“Jerez

digunakan


menunjukkan

dan

bahwa

Molina

(2010)

juga

Neighbor

untuk

dan

Algoritma

melakukan

seleksi

membandingkan metode imputasi yang

variabel yang digunakan pada klasifikasi.

berbasiskan teknik statistik, yaitu mean,

Hasil penelitiannya menunjukkan bahwa

hot deck, multiple imputation dengan

metode tersebut dapat meningkatkan

metode

teknik

ketepatan klasifikasi. Selain itu, dalam

Multilayer

penelitiannya juga menyatakan bahwa

Perceptron (MLP), Self Organizing Map

algoritma genetika merupakan alat yang

(SOM), dan kNN pada data breast

powerfull

cancer . Hasilnya menunjukkan metode

variabel terutama ketika demensi variabel

imputasi

yang digunakan cukup besar”.

machine

imputasi
learning,

berbasis

berbasiskan
yaitu

machine

learning

memiliki tingkat akurasi yang lebih tinggi

dalam

Salah

satu

melakukan

kelemahan

seleksi

pada

daripada metode berbasis teknik statistik.

metode kNN adalah permasalahan dalam

Dan dari ketiga metode imputasi berbasis

pemilihan nilai k karena pemilihan nilai k

digunakan,

yang kurang tepat dapat menurunkan

metode kNN memberikan nilai prediksi

kinerja kNN. Penelitian ini bertujuan

yang paling baik karena menghasilkan

untuk mengatasi permasalahan missing

machine

learning

yang

Imputasi … (Ucik Mawarsari)

AdMathEdu | Vol.6 No.1 | Juni 2016

ISSN: 2088-687X

79

dengan

data

menggunakan

teknik
gabungan

imputasi
kNN

dan

1. Menentukan nilai k, yaitu jumlah
observasi terdekat yang diinginkan.

Algoritma Genetika (kNN-GA) dimana

2. Menghitung jarak euclidian antara

Algoritma Genetika digunakan untuk

observasi target dengan observasi

optimasi nilai k pada kNN dan untuk

yang tidak memuat nilai missing,

melakukan

dengan formula:

digunakan

seleksi
untuk

variabel

yang

mengestimasi

nilai
,

missing.



=

(
=1

dimana:
Metode Penelitian

telah

banyak

variabel sebanyak s variabel,

k-Nearest

Neighbor

digunakan

untuk

diiplementasikan dalam imputasi missing
data terutama dalam dataset dengan
missing

pada lebih dari satu

data

variabel.

Algoritma

menggunakan
mirip/serupa

kNN

observasi
dengan

yang

observasi

yang

memiliki nilai missing. Sebuah observasi
yang memuat satu atau lebih nilai missing
yang akan diimputasi disebut sebagai
observasi target. Berdasarkan pendekatan
ini,

ukuran

observasi
observasi

jarak

target

)2

(1)

= vektor observasi target dengan

k-Nearest Neighbor (kNN)

Algoritma



dihitung
dengan

lainnya.

antara
tiap-tiap

Jika

k

merepresentasikan jumlah observasi yang

1, 2, … , �

= vektor

memiliki jarak minimum dari observasi
target.
Algoritma imputasi kNN adalah
sebagai berikut :

AdMathEdu | Vol.6 No.1 | Juni 2016

yang

tidak

memuat nilai missing dengan variabel
sebanyak

variabel,

s

1, 2, … , �

,

= jarak antara

=

dan

=nilai variabel ke-j pada
=nilai variabel ke-j pada
j = 1,2, ..., s.

3. Mencari k observasi yang memiliki
nilai

,

minimum.

4. Melakukan imputasi missing data
dengan

menggunakan

prosedur

weighted mean imputation, dengan

formula:

mirip/serupa dengan observasi target,
maka kemudian dipilih k observasi yang

observasi

=

=
dimana:

1




(2)

=1

=nilai imputasi
=nilai variabel ke-j pada observasi
ke-k, k = 1,2, …, K

Imputasi … (Ucik Mawarsari)

80

ISSN: 2088-687X
=

=bobot observasi ke-k,

probabilitas

(� )

mutasi

sehingga

1

,

menghasilkan

�=


=1

keturunan ini kemudian dievaluasi untuk

Keturunan-

membentuk populasi baru yang memiliki
kriteria

Algoritma Genetika
Algoritma genetika merupakan
algoritma

keturunan.

untuk

memecahkan

suatu

yang

lebih

“Setelah

baik.

beberapa generasi terbentuk, algoritma
akan konvergen pada individu terbaik

pencarian nilai dalam masalah optimasi

yang

dengan meniru proses genetik pada

solusi optimal dari permasalahan yang

makhluk

dihadapi (Gen dan Cheng 1999)”.

hidup.

Algoritma

genetika

diharapkan

merepresentasikan

bekerja dengan mempertahankan sebuah
populasi yang terdiri dari individuindividu,

dimana

tiap

kNN-GA
Metode

individu

kNN-GA

merepresentasikan sebuah solusi pada

metode

permasalahan yang dihadapi. Individu

Algoritma Genetika. Algoritma imputasi

dikodekan dalam bentuk kromosom yang

missing

terdiri dari komponen genetik terkecil,

GAadalah sebagai berikut:

yaitu gen. Dari individu yang ada,

1. Menentukan inisial populasi, meliputi

dihitung nilai fitness yang digunakan

jumlah gen dalam kromosom dan

sebagai kriteria solusi terbaik.

jumlah kromosom dalam individu.

Evaluasi
Fitness

Populasi
Awal

Seleksi
Individu

gabungan

data

antara

merupakan
kNN

dan

dengan metode kNN-

2. Melakukan proses algoritma kNN
untuk

setiap

kromosom

dalam

populasi. Setiap kromosom dikodekan
Reproduksi:
Crossover
dan Mutasi

Populasi
Baru

menjadi nilai k dan

representasi

variabel yang digunakan oleh kNN
dalam melakukan imputasi. Kemudian
menghitung RMSE dengan formula:

Gambar 1.Siklus Algoritma Genetika

Individu-individu
proses

seleksi

yang

kemudian

lolos

melakukan

reproduksi dengan perkawinan silang
(crossover )
probabilitas

dan

mutasi

crossover (� )

Imputasi … (Ucik Mawarsari)

dengan
dan

� �=

1
=1



2

(3)

dimana:
= jumlah observasi
= nilai aktual pada observasi ke-i
= nilai estimasi pada observasi ke-i
AdMathEdu | Vol.6 No.1 | Juni 2016

ISSN: 2088-687X

81

3. Menghitung nilai fitness dari tiap

Penelitian ini menggunakan data

kromosom dalam populasi dengan

lengkap karena data aktual dan data hasil

formula:

imputasi

dimana:

�=

1
( � � + ℎ)

(4)

mengukur

akan

dibandingkan

kinerja

Langkah

metode

untuk

kNN-GA.

berikutnya

adalah

menghilangkan secara random beberapa

h=nilai yang kecil (0 ≤ h ≤ 1)

nilai pada salah satu variabel pada

4. Memilih kromosom berdasarkan nilai
fitness.

masing-masing

dataset

untuk

mendapatkan nilai missing sebanyak 10%

5. Melakukan

perkawinan

(crossover )

dan

mutasi

silang

dan 20% dari jumlah data. Kemudian

untuk

dilakukan imputasi missing data dengan

mendapatkan keturunan (offspring)
6. Melakukan elitism dan replacement
sehingga diperoleh populasi baru.

kNN-GA. Untuk mencari nilai k optimum
pada

metode

kNN-GA,

nilai

k

direpresentasikan dalam 4 gen biner.

7. Kembali ke tahap nomor 2 hingga
kriteria yang ditentukan terpenuhi.

Sebagai contoh kromosom individu yang
terbentuk untuk nilai k = 10 adalah:
1

0

1

0

Metodologi
Data

yang

penelitian ini

digunakan

pada

Gambar 2. Kromosom Individu untuk
Nilai k

adalah data vertebral
String

column, seeds, dan computer hardware
yang diambil dari UCI Machine Learning
Repository yang merupakan data lengkap

atau tidak terdapat nilai missing. Jumlah
data dan jumlah variabel dari masingmasing dataset dapat dilihat pada Tabel 1.
Tabel 1. Jumlah Data dan Jumlah

Vertebral column
Seeds
Computer
hardware

Jumlah
data
310
210
209

merepresentasikan

selanjutnya

kromosom

untuk

seleksi variabel. Misalkan terdapat 5
variabel dalam dataset, maka sebuah
vektor biner berukuran 5 × 1 yang
berunsurkan nilai 1 dan 0 diartikan
sebagai

vektor

indikator

yang

menunjukkan kode seleksi variabel, kode

Variabel pada Dataset
Dataset

biner

Jumlah
variabel
6
7
8

1 menunjukkan variabel yang terpilih.
Sebagai contoh kromosom individu yang
terbentuk adalah:
1

1

0

1

1

Gambar 3. Kromosom Individu untuk
Variabel

AdMathEdu | Vol.6 No.1 | Juni 2016

Imputasi … (Ucik Mawarsari)

82

ISSN: 2088-687X
String tersebut akan dikodekan ke

yang digunakan adalah missing data

dalam metode kNN menjadi, variabel

univariat atau missing data hanya terjadi

yang terpilih dalam proses imputasi

pada satu variabel, yaitu variabel yang

dengan kNN adalah variabel ke-1, ke-2,

menempati urutan terakhir pada masing-

ke-4, dan ke-5. Variabel ke-3 tidak

masing dataset. Statistik deskriptif dari

terpilih karena berkode 0.

variabel yang mengandung nilai missing

Langkah-langkah metode kNNGA selanjutnya adalah sebagai berikut:
1. Membangkitkan

secara

dapat dilihat pada Tabel 2.
Tabel 2. Statistik Deskriptif dari Variabel

random

sebanyak 50 individu dalam populasi.
2. Menghitung nilai fitness untuk setiap
individu dalam populasi sesuai dengan
persamaan (4).

yang mengandung Nilai Missing
Dataset
Vertebral
column
Seeds
Computer
hardware

Urutan
Variabel

Mean

Min

Maks

Ke-6

26.30

-11.06

418.54

Ke-7

5.41

4.52

6.55

Ke-8

99.3

15.0

1238.0

3. Membentuk individu baru dengan
Untuk melakukan analisa hasil

melakukan seleksi roullete wheel,
dengan

seleksi variabel pada metode kNN-GA,

probabilitas (� ) sebesar 0,8 dan

maka perlu dilihat korelasi antar variabel

mutasi

pada

satu

crossover

dengan

titik

probabilitas

(� )

sebesar 0,2. Kemudian melakukan
elitism

dan

replacement

sehingga

masing-masing

4. Memilih individu terbaik dari populasi

mengetahui apakah hasil seleksi variabel
pada metode kNN-GA dipengaruhi oleh

korelasi

dari

masing-masing

yang merupakan solusi terbaik setelah

adalah sebagai berikut:

kriteria yang ditentukan terpenuhi,

Vertebral column

ketika

mencapai

generasi

maksimum 50 generasi atau selisih
nilai fitness terbaik dalam 5 generasi
−8

terakhir tidak lebih dari 1 × 10 .
Hasil dan Pembahasan
Sebelum
imputasi,

terlebih

eksplorasi

data

melakukan
dahulu
untuk

untuk

korelasi antar variabel atau tidak. Matriks

diperoleh populasi baru.

yaitu

dataset

proses
dilakukan

1
0.63
� = 0.72
0.82
−0.25
0.64

dataset

1
0.43
1
0.06 0.59
1
0.03 −0.08 −0.34
1
0.39 0.53
0.52 −0.03

1

Dari matriks korelasi tersebut

diketahui bahwa terdapat tiga variabel
yang mempunyai korelasi kuat dengan
variabel

ke-6

atau

variabel

yang

mengetahui

mengandung nilai missing, yaitu variabel

gambaran awal dari data yang digunakan.

ke-1 (�16 = 0.64), variabel ke-3 (�36 =

Pada penelitian ini, pola missing data
Imputasi … (Ucik Mawarsari)

AdMathEdu | Vol.6 No.1 | Juni 2016

ISSN: 2088-687X

83

0.53), dan variabel ke-4 (�46 = 0.52).

(�48 = 0.65), variabel ke-5 (�58 = 0.61),

Sedangkan variabel ke-2 dan ke-5 tidak

variabel ke-6 (�68 = 0.59), dan variabel

mempunyai korelasi yang kuat dengan

ke-7(�78 = 0.97). Hanya variabel-ke-1

variabel ke-6 karena memiliki nilai

yang tidak mempunyai korelasi yang kuat

korelasi kurang dari 0.5.

dengan variabel ke-8 (�18 = -0.29).

Seeds

Langkah



selanjutnya

adalah

melakukan imputasi missing data . Hasil

1
0.99
1
0.61
0.53
1
= 0.95
0.97
0.34
1
0.97
0.94
0.76
0.86
1
−0.23 −0.22 −0.33 −0.17 −0.26
1
0.86
0.89
0.23
0.93
0.75 −0.01

imputasi missing data dengan kNN-GA
pada data vertebral column, seeds, dan
1

Pada data seeds, sebagian besar

computer hardware dapat dilihat pada
Tabel 3.

variabel memiliki korelasi yang kuat

Tabel 3. Hasil Imputasi Missing Data

dengan variabel-ke-7 atau variabel yang

dengan metode kNN-GA

mengandung nilai missing, yaitu variabel
ke-1 (�17 = 0.86), variabel ke-2 (�27 =

Dataset

0.86), variabel ke-4 (�47 = 0.93), dan

Vertebral
column

variabel ke-5 (�57 = 0.75). Sedangkan

Seeds

variabel-ke-3 dan variabel ke-6 tidak

Computer
hardware

%
Mising
Data
10%
20%
10%
20%
10%
20%

Seleksi
Variabel

Nilai

01101
11001
000110
011110
0111110
0111000

2
9
3
15
2
10

RMSE
13.762
15.220
0.130
0.157
4.389
10.598

mempunyai korelasi yang kuat dengan
variabel ke-7.

Pada

proporsi

missing

data

sebesar 10%, nilai k optimum yang
diperoleh pada data vertebral column
adalah k = 2 dengan hasil seleksi variabel
Computer hardware
1
−0.34
−0.38
� = −0.32
−0.30
−0.25
−0.31
−0.29

1
0.76
0.54
0.52
0.27
0.79
0.82

ke-2, ke-3 dan ke-5 yang terpilih dalam
proses imputasi kNN-GA. Pada data

1
0.54
0.56
0.53
0.86
0.90

1
0.58
0.49
0.66
0.65

1
0.55
0.61
0.61

seeds nilai k optimum yang diperoleh
1
0.61
1
0.59 0.97

adalah k = 3 dengan hasil seleksi variabel
1

Hampir semua variabel pada data

ke-4 dan ke-5 yang terpilih dalam proses

computer hardware juga mempunyai

imputasi kNN-GA. Sedangkan pada data

korelasi yang kuat dengan variabel ke-8

computer hardware nilai k optimumnya

atau variabel yang mengandung nilai

adalah k = 2 dengan hasil seleksi variabel

missing, yaitu variabel ke-2 (�28 = 0.82),

ke-2, ke-3, ke-4, ke-5 dan ke-6.

variabel ke-3 (�38 = 0.90), variabel ke-4

Perbedaaan proporsi missing data
sebesar 10% dan 20% memberikan hasil

AdMathEdu | Vol.6 No.1 | Juni 2016

Imputasi … (Ucik Mawarsari)

84

ISSN: 2088-687X

yang cukup bervariasi pada masing-

ke-6, akan tetapi variabel ke-2 dan ke-5

masing

penelitian

tidak mempunyai korelasi yang kuat

menunjukkan bahwa nilai k optimum

dengan variabel ke-6. Selain variabel ke-

yang diperoleh berbanding lurus dengan

3,

proporsi missing data , yang artinya

mempunyai korelasi yang kuat dengan

semakin banyak jumlah missing data

variabel ke-6, akan tetapi tidak terpilih

maka nilai k optimum yang dihasilkan

dalam hasil seleksi variabel dengan

juga semakin besar. Hasil seleksi variabel

metode kNN-GA.

juga

dataset.

menunjukkan

Hasil

perbedaan

antara

proporsi missing data 10% dan 20%.
Pada

proporsi

variabel

ke-1

dan

ke-4

juga

Sedangkan pada data seeds, hasil
seleksi variabel dengan metode kNN-GA

data

adalah variabel ke-4 dan ke-5. Jika dilihat

sebesar 20%, nilai k optimum yang

dari nilai korelasinya, kedua variabel

diperoleh pada data vertebral column

tersebut mempunyai korelasi yang kuat

adalah k = 9 dengan hasil seleksi variabel

dengan variabel ke-7. Selain variabel ke-

ke-1, ke-2 dan ke-5 yang terpilih dalam

4 dan ke-5, variabel ke-1 dan ke-2 juga

proses imputasi kNN-GA. Pada data

mempunyai korelasi yang kuat dengan

seeds nilai k optimum yang diperoleh

variabel ke-7, akan tetapi tidak terpilih

adalah k = 15 dengan hasil seleksi

dalam hasil seleksi variabel dengan

variabel ke-2, ke-3, ke-4 dan ke-5 yang

metode kNN-GA.

missing

terpilih dalam proses imputasi kNN-GA.

Pada data computer hardware,

Sedangkan pada data computer hardware

hasil seleksi variabel adalah variabel ke

nilai k optimumnya adalah k = 10 dengan

2, ke-3, ke-4, ke-5, dan ke-6. Jika dilihat

hasil seleksi variabel ke-2, ke-3, dan ke-

nilai korelasinya, semua variabel hasil

4.

seleksi tersebut mempunyai korelasi yang
Berdasarkan

matriks

korelasi,

kuat

dengan

variabel

ke-8,

namun

variabel yang memiliki korelasi kuat

variabel ke-7 yang juga mempunyai

dengan variabel ke-6 atau variabel yang

korelasi yang kuat dengan variabel ke-8

mengandung nilai missing pada data

tidak terpilih dalam hasil seleksi variabel

vertebral column adalah variabel ke-1,

dengan metode kNN-GA.

ke-3, dan ke-4. Pada proporsi missing

Hasil

seleksi

variabel

pada

20%

juga

data 10%, hasil seleksi variabel adalah

proporsi

variabel ke-2, ke-3, dan ke-5. Jika dilihat

menunjukkan hasil yang random jika

nilai

ke-3

dilihat hubungannya dengan nilai korelasi

mempunyai korelasi kuat dengan variabel

variabel. Hal ini menunjukkan bahwa

korelasinya,

variabel

Imputasi … (Ucik Mawarsari)

missing

data

AdMathEdu | Vol.6 No.1 | Juni 2016

ISSN: 2088-687X

85

hasil seleksi variabel dengan metode
kNN-GA tidak sepenuhnya dipengaruhi
oleh besarnya nilai korelasi antar variabel
dari dataset tersebut.
Nilai
metode

RMSE

kNN-GA

yang dihasilkan
pada

Tabel

3

menunjukkan nilai yang relatif kecil. Hal
ini menjelaskan bahwa teknik optimasi

Gambar6. Perbandingan Nilai Aktual
dan Nilai Hasil Imputasi pada Data

Algoritma Genetika pada kNN-GA dapat
meningkatkan

kinerja

metode

Computer Hardware

kNN

dengan melakukan seleksi variabel dan
optimasi

nilai

k

dalam

Gambar

melakukan

imputasi missing data . Nilai k optimum
dan seleksi variabel dapat dihasilkan
secara otomatis tanpa harus melakukan
uji coba secara manual satu persatu.

4,

Gambar

5,

dan

Gambar 6 menunjukkan perbandingan
nilai aktual dan nilai hasil imputasi pada
data

vertebral

computer

column,

hardware

seeds,

dengan

dan

proporsi

missing data 10%. Dari gambar tersebut

dapat dilihat bahwa secara umum metode
kNN-GA

dapat

menghasilkan

nilai

imputasi yang mendekati nilai aktual.

Kesimpulan
Berdasarkan hasil penelitian yang

Gambar 4. Perbandingan Nilai Aktual
dan Nilai Hasil Imputasi pada Data
Vertebral Column

telah

dilakukan,

dapat

diambil

kesimpulan sebagai berikut:
1.

Metode imputasi kNN-GA dapat
membantu dalam memperoleh nilai k
optimum. Hasil penelitian pada data
vertebral

column,

seeds,

computer

hardware

menunjukkan

bahwa

nilai

k

optimum

dan

yang

diperoleh berbanding lurus dengan
Gambar 5. Perbandingan Nilai Aktual

jumlah missing data .

dan Nilai Hasil Imputasi pada Data Seeds

AdMathEdu | Vol.6 No.1 | Juni 2016

Imputasi … (Ucik Mawarsari)

86
2.

ISSN: 2088-687X
Metode imputasi kNN-GA dapat

Jerez, J.M., dan Molina, I., 2010,

melakukan seleksi variabel dengan

"Missing Data Imputation Using

baik sehingga dapat meningkatkan

Statistical And Machine Learning

akurasi kNN. Hasil seleksi variabel

Methods In A Real Breast Cancer

yang diperoleh dengan metode kNN-

Problem", Artificial Intelligence

GA tidak sepenuhnya dipengaruhi

in Medicine50, 105-115.

oleh besarnya nilai korelasi antar
variabel pada dataset.

Little, R.J., dan Rubin, D.B., 1987,
Statistical Analysis with Missing
Data, John Wiley & Sons, Inc,

New York.

Pustaka
Analoui, M. dan Amiri, M.F., 2006,

Patil, D.V. dan Bichkar, R.S., 2010,

"Feature Reduction of Nearest

"Multiple Imputation of Missing

Neigbor Classifier using Genetic

Data with Genetic Algorithm

Algorithm", World Academy of

based Techniques", Evolutionary

Science,

Computation

Engineering

and

Technology17, 36-39.

for

Optimization

Techniques, hal. 74-78.

Batista G. dan Monard M.C., 2003, A

Siedlecki,W. dan Sklansky, J., 1989, "A

Study of K-Nearest Neighbour as

Note on Genetic Algorithms for

an Imputation Method, Working

Large-Scale Feature Selection",

Paper,

Pattern

University Sao

Paulo,

Brazil.

Letters10,

335-347.

Gen, M. dan Cheng, R., 1999, Genetic
Algorithm

Recognition

and

Optimization

Wasito, I. dan Mirkin, B., 2005, "Nearest
Neighbor Approach in the Least

Engineering, John Wiley & Sons,

Square

Inc, Japan.

Algorithms",

Data

Imputation
Information

Sciences169, 1-25.

Imputasi … (Ucik Mawarsari)

AdMathEdu | Vol.6 No.1 | Juni 2016