Perbandingan Algoritme Feature Selection Information Gain dan Symmetrical Uncertainty pada Data Ketahanan Pangan

PERBANDINGAN ALGORITME FEATURE SELECTION
INFORMATION GAIN DAN SYMMETRICAL
UNCERTAINTY PADA DATA KETAHANAN PANGAN

DELKI ABADI

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa skripsi berjudul Perbandingan
Algoritme Feature Selection Information Gain dan Symmetrical Uncertainty pada
Data Ketahanan Pangan adalah benar karya saya dengan arahan dari komisi
pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi
mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan
maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan
dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Mei 2013

Delki Abadi
NIM G64104024

ABSTRAK
DELKI ABADI. Perbandingan Algoritme Feature Selection Information Gain
dan Symmetrical Uncertainty pada Data Ketahanan Pangan. Dibimbing oleh
Annisa.
Pengelompokan daerah berdasarkan indikator ketahanan pangan sangat
penting dilakukan untuk mengambil kebijakan yang tepat dalam hal penentuan
sasaran dan pemberian rekomendasi untuk mengatasi masalah kerawanan pangan.
Salah satu metode yang dapat digunakan untuk mengelompokkan objek ke dalam
kelas-kelas adalah algoritme decision tree. Pada penelitian ini, akan dibangun dua
model decision tree. Decision tree pertama menggunakan algoritme seleksi fitur
information gain, sedangkan decision tree kedua menggunakan algoritme seleksi
fitur symmetrical uncertainty. Kedua metode ini digunakan untuk
mengklasifikasikan data indikator ketahanan pangan untuk seluruh kabupaten di

Indonesia yang diperoleh dari United Nations World Food Programme dan
Dewan Ketahanan Pangan. Kemudian, akurasi kedua metode dibandingkan satu
sama lain. Hasil yang diperoleh menunjukkan bahwa akurasi decision tree
pertama lebih baik dibandingkan decision tree kedua. Rata-rata akurasi decision
tree pertama yaitu 52.02%, sedangkan rata-rata akurasi decision tree kedua yaitu
49.84%.
Kata Kunci: decision tree, information gain, symmetrical uncertainty

ABSTRACT
DELKI ABADI. Comparison of Information Gain and Symmetrical Uncertainty
Feature Selection Algorithm in Food security Data. Supervised by ANNISA.
Regional grouping based on indicators of food security is very important to
take the proper policy in terms of deciding the targets and providing
recommendations for tackling food insecurity. One method that can be used to
classify objects into classes is decision tree algorithm. In this research, two
decision tree models are constructed. The first decision tree utilizes information
gain feature selection algorithm, whereas the second decision tree uses
symmetrical uncertainty feature selection algorithm. These methods are used to
classify the indicator of food security data from all districts in the provinces of
Indonesia, obtained from the United Nations World Food Programme and Food

Security Council. Then, the accuracy of both methods are compared. The result
showed that the first decision tree is better than the second decision tree. The
average accuracy of the first decision tree is 52.02%, while the average accuracy
of second decision tree is 49.84%.
Keywords: decision tree, information gain, symmetrical uncertainty

PERBANDINGAN ALGORITME FEATURE SELECTION
INFORMATION GAIN DAN SYMMETRICAL
UNCERTAINTY PADA DATA KETAHANAN PANGAN

DELKI ABADI
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Ilmu Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR

BOGOR
2013

Judul Skripsi : Perbandingan Algoritme Feature Selection Information Gain dan
Symmetrical Uncertainty pada Data Ketahanan Pangan
Nama
: Delki Abadi
NIM
: G64104024

Disetujui oleh

Annisa, SKom, MKom
Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi, MKom
Ketua Departemen Ilmu Komputer


Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wata’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Maret 2012 ini ialah
seleksi fitur, dengan judul Perbandingan Algoritme Feature Selection Information
Gain dan Symmetrical Uncertainty pada Data ketahanan Pangan.
Terima kasih penulis ucapkan kepada Ibu Annisa, SKom, MKom selaku
pembimbing yang telah memberikan arahan dan saran selama penelitian ini
berlangsung. Ungkapan terima kasih juga disampaikan kepada orangtua, kakak,
serta seluruh keluarga atas segala doa dan kasih sayangnya. Ucapan terima kasih
juga penulis sampaikan kepada seluruh teman-teman satu bimbingan yang telah
membantu dalam penyelesaian penelitian ini.
Penulis menyadari bahwa masih terdapat kekurangan dalam penulisan
skripsi ini. Semoga karya ilmiah ini bermanfaat.

Bogor, Mei 2013

Delki Abadi


DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

PENDAHULUAN

1

Latar Belakang


1

Tujuan Penelitian

2

Batasan Penelitian

2

TINJAUAN PUSTAKA

2

Decision Tree

2

Algoritme ID3


2

Seleksi Fitur

3

Entropy, Information Gain, dan Symmetrical Uncertainty

3

K-Fold Cross Validation

4

Overfitting

5

Pruning


5

METODE PENELITIAN

5

Data Indikator Ketahanan Pangan

5

Pembersihan Data

5

Transformasi Data

6

Data Latih dan Data Uji


6

Klasifikasi

8

Pruning

9

Perhitungan Akurasi

9

Lingkungan Pengembangan

10

HASIL DAN PEMBAHASAN


10

Data Indikator Ketahanan Pangan

10

Pembersihan Data

10

Transformasi Data

10

Data Latih dan Data Uji

11

Klasifikasi

11

Pruning

14

Perbandingan Akurasi Model 1 dan Model 2

16

KESIMPULAN DAN SARAN

17

Kesimpulan

17

Saran

18

DAFTAR PUSTAKA

18

RIWAYAT HIDUP

23

DAFTAR TABEL
1
2
3
4
5
6
7
8
9
10
11
12

Contoh data latih
Urutan fitur berdasarkan nilai information gain
Urutan fitur berdasarkan nilai symmetrical uncertainty
Pembagian data ketahanan pangan
Pola percobaan
Akurasi pengujian model 1
Confusion matrix iterasi kesepuluh pada model 1
Akurasi pengujian model 2
Confusion matrix iterasi pertama pada model 2
Akurasi pengujian setelah dilakukan pruning pada model 1
Akurasi pengujian setelah dilakukan pruning pada model 2
Perbandingan akurasi model 1 dan model 2 sebelum dan sesudah
dilakukan pruning

7
8
8
11
11
12
12
13
14
15
16
16

DAFTAR GAMBAR
1
2
3
4
5

Tahapan penelitian
Decision tree model 1
Decision tree model 2
Contoh aturan hasil iterasi kesepuluh pada model 1
Contoh aturan hasil iterasi pertama pada model 2

6
9
9
13
14

DAFTAR LAMPIRAN
1
2
3

Contoh data sebelum transformasi data
Interval indikator-indikator data ketahanan pangan
Contoh data hasil transformasi data

19
20
22

PENDAHULUAN
Latar Belakang
Algoritme ID3 merupakan algoritme klasifikasi yang banyak digunakan
dalam machine learning. Algoritme ID3 merupakan sebuah metode yang
digunakan untuk konstruksi decision tree. Algoritme ID3 menggunakan algoritme
seleksi fitur information gain untuk memilih fitur terbaik yang akan digunakan
pada decision tree.
Algoritme seleksi fitur information gain yang digunakan pada ID3
menghasilkan pemilihan fitur yang dapat menentukan akurasi dari hasil
klasifikasi. Selain information gain, terdapat beberapa algoritme lain yang dapat
digunakan untuk memilih fitur terbaik yang akan digunakan pada decision tree
seperti symmetrical uncertainty.
Pada penelitian yang dilakukan oleh Hall (1999) dijelaskan bahwa
symmetrical uncertainty merupakan bentuk turunan dari information gain.
Symmetrical uncertainty digunakan untuk menghilangkan bias pada information
gain. Bias pada information gain terjadi karena information gain mendukung fitur
dengan kemungkinan nilai yang banyak sehingga fitur dengan kemungkinan nilai
yang banyak akan memiliki ukuran information gain yang lebih besar dibanding
fitur yang memiliki kemungkinan nilai yang lebih sedikit, bahkan ketika fitur
tersebut tidak lebih baik dari fitur lainnya. Untuk itu, symmetrical uncertainty
digunakan untuk menormalisasi information gain untuk memastikan semua fitur
sebanding atau memiliki efek yang sama.
Hasil dari klasifikasi dapat dilihat dari tingkat akurasi yang dihasilkan.
Sering kali model decision tree mengalami masalah overfitting. Overfitting di
dalam decision tree menghasilkan suatu keadaan yang lebih kompleks daripada
yang dibutuhkan. Hal ini juga membuat tingkat akurasi tidak cukup baik untuk
mengklasifikasikan data baru. Oleh karena itu, diperlukan cara untuk
meningkatkan akurasi dari model tree yang dihasilkan.
Salah satu metode yang bisa digunakan untuk meningkatkan akurasi dari
tree ialah pruning. Pruning bekerja dengan memotong atau memangkas tree.
Pruning diharapkan dapat meningkatkan akurasi yang dihasilkan dalam proses
klasifikasi.
Penelitian ini mencoba untuk membandingkan tingkat akurasi model
decision tree yang dibangun menggunakan algoritme ID3 yang melakukan
pemilihan fitur berdasarkan information gain dan algoritme decision tree dengan
menggunakan symmetrical uncertainty untuk pemilihan fitur. Untuk
meningkatkan akurasi dalam proses klasifikasi, diterapkan juga metode pruning.
Dari penelitian ini diharapkan algoritme seleksi fitur yang paling baik digunakan
untuk membangun model decision tree pada suatu data dapat diketahui.

2
Tujuan Penelitian

1

2

3

Tujuan dari penelitian ini ialah:
Menerapkan model klasifikasi decision tree menggunakan algoritme ID3
yang melakukan pemilihan fitur berdasarkan information gain dan algoritme
decision tree dengan menggunakan symmetrical uncertainty untuk
pemilihan fitur.
Membandingkan tingkat akurasi decision tree yang dibangun menggunakan
algoritme ID3 dan algoritme decision tree dengan menggunakan
symmetrical uncertainty untuk pemilihan fitur.
Menerapkan pruning pada decision tree.

Batasan Penelitian
Penelitian ini dibatasi pada pembangunan model decision tree pada data
ketahanan pangan menggunakan algoritme ID3 yang melakukan pemilihan fitur
berdasarkan information gain dan algoritme decision tree dengan menggunakan
symmetrical uncertainty untuk pemilihan fitur, serta penerapan metode pruning
untuk meningkatkan akurasi dari model decision tree yang dibangun. Data
ketahanan pangan yang digunakan adalah data sekunder berupa indikatorindikator ketahanan pangan untuk seluruh wilayah di Indonesia.

TINJAUAN PUSTAKA
Decision Tree
Decision tree merupakan salah satu metode klasifikasi yang menggunakan
representasi struktur pohon. Setiap node pada decision tree merepresentasikan
atribut, cabangnya merepresentasikan nilai dari atribut dan daun
merepresentasikan kelas. Node paling atas dari decision tree disebut sebagai node
akar (Han & Kamber 2001).
Pembentukan decision tree terdiri atas tahap-tahap berikut:
1
Konstruksi tree, yaitu membuat tree yang diawali dengan pembentukan
bagian akar, kemudian data terbagi berdasarkan atribut-atribut yang cocok
untuk dijadikan node akar.
2
Pemangkasan tree (pruning), yaitu mengidentifikasi dan membuang cabang
yang tidak diperlukan pada tree yang telah terbentuk.
3
Pembentukan aturan keputusan, yaitu membuat aturan keputusan dari tree
yang telah dibentuk.
Algoritme ID3
Algoritme ID3 atau Iterative Dichotomiser 3 (ID3) merupakan sebuah
metode yang digunakan untuk membuat decision tree. Algoritme pada metode ini
menggunakan konsep entropi informasi.

3
Strategi pembentukan decision tree dengan algoritme ID3 yaitu (Tan et al.
2006):
1
Tree dimulai sebagai node tunggal (akar) yang merepresentasikan semua
data.
2
Sesudah node akar dibentuk, data pada node akar akan diukur dengan
information gain untuk memilih atribut yang akan dijadikan atribut
pembaginya.
3
Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data
akan didistribusikan ke dalam cabang masing-masing.
4
Algoritme ini akan terus menggunakan proses yang sama atau bersifat
rekursif untuk dapat membentuk sebuah decision tree. Ketika sebuah atribut
telah dipilih menjadi node pembagi atau cabang, atribut tersebut tidak
diikutkan lagi dalam penghitungan nilai information gain.
5
Proses pembagian rekursif akan berhenti jika salah satu dari kondisi berikut
terpenuhi:
a
Semua data dari anak cabang telah termasuk dalam kelas yang sama.
b
Semua atribut telah dipakai, tetapi masih tersisa data dalam kelas yang
berbeda. Dalam kasus ini, data yang mewakili kelas terbanyak untuk
dijadikan label kelas diambil.
c
Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini,
node daun akan dipilih pada cabang sebelumnya dan diambil data
yang mewakili kelas terbanyak untuk dijadikan label kelas.

Seleksi Fitur
Menurut Ramaswami dan Bhaskaran (2009), tujuan utama dari seleksi fitur
ialah memilih fitur terbaik dari suatu kumpulan fitur data. Pada decision tree,
algoritme seleksi fitur yang digunakan untuk konstruksi decision tree menentukan
tingkat akurasi dari decision tree yang dihasilkan. Fitur-fitur yang digunakan pada
decision tree merupakan fitur-fitur yang dianggap relevan dalam menentukan
kelas target dari suatu objek data.

Entropy, Information Gain, dan Symmetrical Uncertainty
Information gain dan symmetrical uncertainty adalah suatu nilai statistik
untuk memilih fitur yang akan mengekspansi tree. Suatu entropy dipergunakan
untuk mendefinisikan nilai information gain dan symmetrical uncertainty.
Entropy menggambarkan banyaknya informasi yang dibutuhkan untuk
mengkodekan suatu kelas. Entropy dirumuskan sebagai berikut (Han & Kamber
2001):

4
m

Info D = -

pi log2 pi
i

Info(D) adalah entropi dari D dan pi adalah rasio dari kelas Ci pada
himpunan data contoh D.
pi =

| Ci,D |
|D|

Misalkan himpunan data contoh D dipartisi berdasarkan atribut A yang
mempunyai v kemungkinan nilai, { �1 , �2 , … , �� }. Atribut A dapat digunakan
untuk mempartisi himpunan data contoh D menjadi v partisi atau
subset,{ �1 , �2 ,…, �� }, dengan �� merupakan himpunan data contoh D yang
memiliki atribut A dengan nilai �� . Banyaknya informasi yang dibutuhkan untuk
mempartisi himpunan data contoh D berdasarkan atribut A dirumuskan sebagai
berikut (Han & Kamber 2001):
v

infoA D =
j=1
|Dj |
|D|

|Dj |
x info(Dj )
|D|

merupakan rasio dari data dengan atribut j pada himpunan data contoh D.

infoA (D) menggambarkan banyaknya informasi yang dibutuhkan untuk
mempartisi himpunan data contoh D berdasarkan atribut A. Information gain
dirumuskan sebagai berikut (Han & Kamber 2001):
Gain A = info D - infoA (D)
Symmetrical uncertainty didapatkan dengan membagi information gain
atribut A dengan jumlah dari entropi himpunan data contoh D ditambah dengan
entropi dari atribut A (Novakovic et al. 2011).
SU A =

Gain (A)
info D + info(A)

K-Fold Cross Validation
K-Fold Cross Validation (Fu 1994) adalah sebuah metode yang membagi
himpunan contoh secara acak menjadi k himpunan bagian (subset). Pada metode
ini dilakukan pengulangan sebanyak k kali untuk data pelatihan dan pengujian.
Pada setiap pengulangan, satu subset digunakan untuk pengujian, sedangkan
subset sisanya digunakan untuk pelatihan.

5
Overfitting
Overfitting merupakan masalah yang sering muncul di dalam upaya
klasifikasi. Overfitting di dalam decision tree menghasilkan tree yang lebih
kompleks daripada yang dibutuhkan. Gejala yang ditunjukkan di dalam overfitting
yaitu memberikan akurasi yang baik pada data latih, namun memberikan akurasi
yang buruk pada data uji. Di samping itu, overfitting mengakibatkan semakin
besar ukuran dari tree (ditinjau dari jumlah node-nya), justru memberi nilai
akurasi yang rendah dalam proses klasifikasi. Pruning merupakan cara yang baik
untuk menghindari atau mengatasi overfitting. Setelah pruning, tingkat akurasi
dalam proses klasifikasi bisa meningkat (Tan et al. 2006).

Pruning
Pruning (pemangkasan tree) merupakan bagian dari proses pembentukan
decision tree. Saat pembentukan decision tree, beberapa node merupakan outlier
atau noise. Penerapan pruning pada decision tree dapat mengurangi outlier
maupun noise data pada decision tree awal sehingga dapat meningkatkan akurasi
pada klasifikasi data (Han & Kamber 2001).
Prinsip pruning terbagi menjadi dua: pre-pruning dan post pruning. Prepruning merupakan proses pemangkasan saat tree belum terbentuk secara
sempurna, sedangkan post pruning bekerja setelah tree terbentuk dengan
sempurna.

METODE PENELITIAN
Penelitian ini akan dilakukan dalam beberapa tahap. Tahapan dalam
penelitian ini dapat dilihat pada Gambar 1.

Data Indikator Ketahanan Pangan
Data yang akan digunakan pada penelitian ini adalah data indikator
ketahanan pangan yang dikumpulkan oleh DKP dan WFP (2009). Pada penelitian
ini, data ketahanan pangan untuk seluruh kabupaten di Indonesia digunakan.

Pembersihan Data
Pembersihan data dilakukan jika terdapat noise, nilai kosong, atau duplikasi
data. Pada penelitian ini jika terdapat data yang kosong, data tersebut dihilangkan.

6
Mulai

Pengumpulan
Data

Data Latih

Transformasi
Data

Pembersihan
Data

Pembagian
Data

Data Uji

Klasifikasi

Akurasi

Decision Tree
Perbandingan
Akurasi
Pruning
Selesai

Gambar 1 Tahapan penelitian
Transformasi Data
Data yang sudah dibersihkan kemudian diubah menjadi bentuk yang tepat
untuk di-mining. Information gain dan symmetrical uncertainty merupakan teknik
seleksi fitur yang memakai metode scoring untuk nominal ataupun pembobotan
atribut kontinu yang didiskretkan menggunakan maksimal entropy sehingga
indikator data ketahanan dan kerentanan pangan harus ditransformasikan ke dalam
bentuk atribut kategorik. Hal ini merupakan salah satu syarat yang harus dipenuhi
dalam penerapan algoritme seleksi fitur information gain dan symmetrical
uncertainty. Pada penelitian ini akan dilakukan diskretisasi data menggunakan
interval yang sudah ada.

Data Latih dan Data Uji
Setelah tahap transformasi data dilakukan, tahap selanjutnya yaitu
pembagian data. Pada tahap ini, data dibagi menjadi data latih dan data uji. Pada
penelitian ini digunakan k-fold cross validation untuk menentukan data latih dan
data uji.
Pada penelitian ini menggunakan metode 10-fold cross validation. Oleh
karena itu, data yang digunakan dibagi menjadi 10 subset secara acak yang

7
masing-masing subset memiliki jumlah instances yang hampir sama. Pembagian
data untuk setiap subset dipilih secara acak.
Pembagian data ini digunakan pada proses iterasi klasifikasi. Iterasi
dilakukan sebanyak 10 kali karena penelitian ini menggunakan metode 10-fold
cross validation. Pada setiap iterasi, satu subset digunakan untuk pengujian,
sedangkan sembilan subset lainnya digunakan untuk pelatihan.
Seleksi Fitur
Penelitian ini menggunakan dua algoritme seleksi fitur dasar yaitu algoritme
seleksi fitur information gain dan symmetrical uncertainty. Kedua algoritme ini
digunakan untuk mengekspansi tree pada algoritme decision tree. Decision tree
hasil kedua algoritme seleksi fitur ini akan dibandingkan akurasinya untuk
menentukan algoritme seleksi fitur yang lebih baik. Contoh data latih ditampilkan
pada Tabel 1.
Tabel 1 Contoh data latih
Fitur 1
Surplus
Tinggi
Surplus
Sedang
Defisit
Tinggi
Defisit
Sedang
Surplus
Sedang
Surplus
Tinggi
Surplus
Tinggi
Surplus
Rendah
Surplus
Tinggi
Surplus
Tinggi
Surplus
Tinggi
Surplus
Tinggi

Fitur 2
Hampir Sangat
Miskin
Hampir Sangat
Miskin
Sangat Miskin
Hampir Sangat
Miskin
Mendekati
Miskin
Hampir Sangat
Miskin
Miskin
Hampir
Mendekati
Sangat Miskin
Hampir
Mendekati
Sangat Miskin
Hampir
Mendekati
Sangat Miskin
Hampir Sangat
Miskin
Hampir Sangat
Miskin

Fitur 3
Agak
Sedikit
Banyak
Sangat
Banyak
Sangat
Sedikit
Sangat
Sedikit
Sangat
Sedikit
Sangat
Sedikit
Sedikit

Fitur 4
Kecil
Sangat
Banyak
Banyak
Kecil
Sangat
Kecil
Sangat
Kecil
Sangat
Kecil
Sangat
Kecil

Fitur 5
Sangat
Rendah
Agak
Rendah
Sangat
Rendah
Agak
Tinggi
Rendah

Kelas
prioritas 2

Rendah

prioritas 5

Agak
Rendah
Rendah

prioritas 6

prioritas 1
prioritas 1
prioritas 2
prioritas 6

prioritas 5

Sedikit

Sangat
Kecil

Agak
Rendah

prioritas 4

Sedikit

Sangat
Kecil

Rendah

prioritas 4

Sedikit

Sangat
Kecil
Sangat
Kecil

Rendah

prioritas 3

Agak
Rendah

prioritas 3

Sedikit

8
Seleksi Fitur Menggunakan Information Gain (IG)
Information gain dihitung untuk setiap fitur dalam data latih. Kemudian,
fitur diurutkan berdasarkan nilai information gain dari yang terbesar ke yang
terkecil. Fitur yang memiliki nilai information gain tertinggi pada suatu data akan
dijadikan node parent untuk node-node selanjutnya pada decision tree. Hasil
penghitungan nilai information gain dari setiap fitur berdasarkan data pada Tabel
1 dapat dilihat pada Tabel 2.
Tabel 2 Urutan fitur berdasarkan nilai information gain
Urutan
Atribut
IG

1
Fitur 3
1.451

2
Fitur 2
1.396

3
Fitur 4
1.252

4
Fitur 1
1.114

5
Fitur 5
0.951

Tabel 2 menunjukkan bahwa fitur yang memiliki nilai information gain
tertinggi ialah fitur 3 dengan nilai information gain 1.451.
Seleksi Fitur Menggunakan Symmetrical Uncertainty (SU)
Symmetrical uncertainty dihitung untuk setiap fitur dalam data latih.
Kemudian, fitur diurutkan berdasarkan nilai symmetrical uncertainty dari yang
terbesar ke yang terkecil. Fitur yang memiliki nilai symmetrical uncertainty
tertinggi pada suatu data akan dijadikan node parent untuk node-node selanjutnya
pada decision tree.
Hasil penghitungan nilai symmetrical uncertainty dari setiap fitur
berdasarkan data pada Tabel 1 dapat dilihat pada Tabel 3. Dari Tabel 3 dapat
dijelaskan bahwa fitur dengan nilai symmetrical uncertainty tertinggi ialah fitur 3
dengan nilai symmetrical uncertainty 0.640.
Tabel 3 Urutan fitur berdasarkan nilai symmetrical uncertainty
Urutan
Atribut
IG

1
Fitur 3
0.640

2
Fitur 2
0.625

3
Fitur 4
0.623

4
Fitur 1
0.510

5
Fitur 5
0.435

Klasifikasi
Pada tahap ini akan dibangun dua model decision tree. Model 1 dibangun
menggunakan algoritme decision tree ID3 yang melakukan pemilihan fitur
menggunakan algoritme seleksi fitur information gain. Model 2 dibangun
menggunakan algoritme decision tree dengan menggunakan algoritme seleksi
fitur symmetrical uncertainty untuk pemilihan fitur. Hasil dari tahapan ini berupa
aturan klasifikasi yang diperoleh dari decision tree.
Decision tree model 1 dan model 2 berdasarkan data pada Tabel 1 dapat
dilihat pada Gambar 2 dan Gambar 3. Dari Gambar 2 dan Gambar 3 dapat dilihat
bahwa decision tree yang dihasilkan memiliki perbedaan. Hal ini menunjukkan
bahwa algoritme seleksi fitur yang digunakan untuk memilih fitur pada decision
tree mempengaruhi tree yang dihasilkan.

9

Gambar 2 Decision tree model 1

Gambar 3 Decision tree model 2
Pruning
Pada tahap ini, decision tree yang dihasilkan pada tahap klasifikasi akan
dipangkas. Decision tree yang dihasilkan setelah pemangkasan tree akan
dilakukan pengujian kembali dengan menggunakan data uji yang sama sebelum
dilakukan pemangkasan tree.

Perhitungan Akurasi
Akurasi menunjukkan tingkat kebenaran klasifikasi data terhadap kelas yang
sebenarnya. Semakin rendah nilai akurasi, semakin tinggi kesalahan klasifikasi.
Tingkat akurasi yang baik adalah tingkat akurasi yang mendekati nilai 100%.
Menurut Han dan Kamber (2001), pengukuran akurasi atau ketepatan model
dapat dilakukan dengan menghitung perbandingan jumlah prediksi benar terhadap
total seluruh record yang dapat diprediksi (persentase dari data uji yang diprediksi
dengan benar oleh model).
Tingkat akurasi dihitung untuk setiap model decision tree yaitu model 1 dan
model 2. Akurasi decision tree model 1 dan model 2 dibandingkan untuk
mengetahui algoritme seleksi fitur terbaik dalam membangun decision tree pada
data ketahanan pangan.

10
Lingkungan Pengembangan
Penelitian ini menggunakan perangkat keras dan perangkat lunak dengan
spesifikasi sebagai berikut:
1

Perangkat keras:

Intel(R) Core(TM) i3 CPU M 330 @2.13 GHz 2.13 GHz.

Memori 2 GB.

Harddisk kapasitas 320 GB.

2

Perangkat lunak:

Windows 7 Ultimate.

XAMPP 1.7.0.

PHP 5.3.8.

HASIL DAN PEMBAHASAN
Data Indikator Ketahanan Pangan
Data sumber yang digunakan pada penelitian ini adalah data indikator
ketahanan pangan untuk seluruh kabupaten di Indonesia dengan jumlah record
sebanyak 348 baris dan 9 atribut. Atribut-atribut tersebut adalah rasio konsumsi
normatif terhadap produksi bersih per kapita, penduduk di bawah garis
kemiskinan, desa tanpa akses ke jalan, rumah tangga tanpa akses ke listrik, angka
harapan hidup, berat badan balita di bawah standar, perempuan buta huruf, rumah
tangga tanpa akses ke air bersih, dan rumah tangga dengan jarak 5 km dari
fasilitas kesehatan. Data ini dikelompokkan kedalam enam kelas, yaitu prioritas 1,
prioritas 2, prioritas 3, prioritas 4, prioritas 5, dan prioritas 6 (DKP dan WFP
2009). Contoh data dapat dilihat pada Lampiran 1.

Pembersihan Data
Dalam data ketahanan pangan terdapat dua data kabupaten yang tidak
lengkap, yaitu Kabupaten Puncak Jaya dan Kabupaten Pegunungan Bintang
sehingga data kedua kabupaten tersebut tidak digunakan dalam pembuatan model
decision tree. Setelah dilakukan pembersihan data, jumlah data yang digunakan
ialah sebanyak 346 record data.

Transformasi Data
Proses diskretisasi dilakukan karena data yang digunakan memiliki tipe data
yang kontinu. Diskretisasi merupakan proses mengubah sebuah atribut kontinu
menjadi atribut kategorik. Proses mengubah artibut kontinu menjadi atribut
kategorik menggunakan interval tertentu yang sudah ada pada data ketahanan

11
pangan. Interval indikator-indikator ketahanan pangan dapat dilihat pada
Lampiran 2 dan contoh data hasil transformasi data dapat dilihat pada Lampiran 3.

Data Latih dan Data Uji
Setelah tahap transformasi data dilakukan, tahap selanjutnya ialah membagi
data menjadi 10 subset. Subset-subset inilah yang akan digunakan pada tahap
klasifikasi sebagai data pelatihan dan pengujian. Subset yang terbentuk memiliki
jumlah instance yang hampir sama dengan mengabaikan proporsi perbandingan
antar kelas. Pembagian data secara keseluruhan dari kesepuluh subset data
tersebut disajikan pada Tabel 4.
Tabel 4 Pembagian data ketahanan pangan
Subset

S1

S2

S3

S4

S5

S6

S7

S8

S9

S10

Total

Jumlah
Instance

35

35

35

35

35

35

35

35

35

31

346

Klasifikasi
Berdasakan penjelasan pada tahapan penelitian, pada tahap ini akan
dibangun 2 model decision tree, yaitu model 1 dan model 2. Setiap model akan
dilakukan percobaan sebanyak 10 kali percobaan. Pola percobaan disajikan pada
Tabel 5.
Tabel 5 Pola percobaan
Iterasi
1
2
3
4
5
6
7
8
9
10

Data Latih
S2, S3, S4, S5, S6, S7, S8, S9, S10
S1, S3, S4, S5, S6, S7, S8, S9, S10
S1, S2, S4, S5, S6, S7, S8, S9, S10
S1, S2, S3, S5, S6, S7, S8, S9, S10
S1, S2, S3, S4, S6, S7, S8 ,S9, S10
S1, S2, S3, S4, S5, S7, S8, S9, S10
S1, S2, S3, S4, S5, S6, S8, S9, S10
S1, S2, S3, S4, S5, S6, S7, S9, S10
S1, S2, S3, S4, S5, S6, S7, S8, S10
S1, S2, S3, S4, S5, S6, S7, S8, S9

Data UJi
S1
S2
S3
S4
S5
S6
S7
S8
S9
S10

Model 1
Model 1 merupakan model decision tree yang dibangun menggunakan
algoritme decision tree ID3 yang melakukan pemilihan fitur menggunakan
algoritme seleksi fitur information gain. Hasil pengujian model 1 dapat dilihat
pada Tabel 6.

12
Tabel 6 Akurasi pengujian model 1
Iterasi
1
2
3
4
5
6
7
8
9
10
Rata-rata

Akurasi (%)
48.57
40.00
45.71
45.71
40.00
42.86
28.57
42.86
54.29
64.52
45.31

Dari Tabel 6 terlihat bahwa akurasi tertinggi diperoleh pada iterasi
kesepuluh dengan nilai akurasi 64.52% dan iterasi terkecil diperoleh pada iterasi
ketujuh dengan nilai akurasi 28.57%. Hal ini menunjukkan bahwa tingkat
kesalahan pada iterasi ketujuh paling besar dibandingkan iterasi yang lainnya. Hal
ini dapat disebabkan instance-instance data yang ada pada subset data uji iterasi
ketujuh belum dapat mewakili setiap fitur untuk dapat diklasifikasikan pada kelas
tertentu. Kelas-kelas yang salah diklasifikasikan pada iterasi kesepuluh dapat
dilihat pada Tabel 7 dan contoh aturan hasil iterasi kesepuluh dapat dilihat pada
Gambar 4.
Tabel 7 Confusion matrix iterasi kesepuluh pada model 1
Kelas
Prioritas 1 Prioritas 2 Prioritas 3 Prioritas 4 Prioritas 5 Prioritas 6
Prioritas 1
4
0
0
0
0
0
Prioritas 2
0
2
0
0
0
0
Prioritas 3
0
1
3
0
0
0
Prioritas 4
0
0
1
3
1
0
Prioritas 5
0
0
0
1
3
1
Prioritas 6
0
0
0
0
0
5
Dari Gambar 4 dapat dijelaskan bahwa untuk menentukan kelas target dari
suatu data, yang pertama kali diperiksa ialah fitur rumah tangga tanpa akses ke
listrik. Tahap selanjutnya ialah memeriksa fitur rumah tangga tanpa akses ke air
bersih. Misalnya nilai fitur rumah tangga tanpa akses ke air bersih ialah sangat
besar (>= 70) maka data dimasukkan ke dalam prioritas 1.

13

Gambar 4 Contoh aturan hasil iterasi kesepuluh pada model 1
Model 2
Model 2 merupakan model decision tree yang dibangun menggunakan
algoritme decision tree dengan menggunakan algoritme seleksi fitur symmetrical
uncertainty untuk pemilihan fitur. Hasil pengujian model 2 dapat dilihat pada
Tabel 8.
Tabel 8 Akurasi pengujian model 2
Iterasi
1
2
3
4
5
6
7
8
9
10
Rata-rata

Akurasi (%)
54.29
42.86
48.57
42.86
37.14
42.86
28.57
40.00
45.71
51.61
43.45

Tabel 8 menunjukkan bahwa akurasi terkecil terdapat pada iterasi ketujuh
dengan nilai akurasi 28.57% dan akurasi terbesar terdapat pada iterasi pertama
dengan nilai akurasi 54.29%. Kelas-kelas yang salah diklasifikasikan pada iterasi
pertama dapat dilihat pada Tabel 9 dan contoh aturan hasil iterasi pertama
disajikan pada Gambar 5.

14
Tabel 9 Confusion matrix iterasi pertama pada model 2
Kelas
Prioritas 1 Prioritas 2 Prioritas 3 Prioritas 4 Prioritas 5 Prioritas 6
Prioritas 1
1
0
1
0
0
0
Prioritas 2
0
1
0
1
0
0
Prioritas 3
0
0
0
0
0
0
Prioritas 4
1
0
0
4
2
1
Prioritas 5
0
0
1
4
5
1
Prioritas 6
0
0
0
0
0
8

Gambar 5 Contoh aturan hasil iterasi pertama pada model 2
Dari Gambar 5 dapat dijelaskan bahwa untuk menentukan kelas target dari
suatu data, yang pertama kali diperiksa ialah fitur rumah tangga tanpa akses ke
listrik. Tahap selanjutnya ialah memeriksa fitur rumah tangga tanpa akses ke air
bersih. Misalnya nilai fitur rumah tangga tanpa akses ke air bersih ialah agak
besar (50-60) maka data dimasukkan ke dalam prioritas 1.

Pruning
Perlakuan selanjutnya adalah proses pemangkasan tree. Pemangkasan ini
bertujuan menyederhanakan struktur tree yang dihasilkan namun dengan tidak
mengurangi tingkat akurasi dalam proses klasifikasi.
Pada penelitian ini, dipilih metode post pruning. Sebelum memasuki
pruning dengan metode ini, perlu disiapkan validation set. Validation set
merupakan bagian dari data latih yang digunakan sebagai evaluasi awal terhadap
tree yang terbentuk sebelum diujikan terhadap data uji. Pada penelitian ini,
digunakan 60 record validation set.
Pada metode post pruning, model tree dipotong dari bagian bawah tree.
Subtree yang dipotong akan diganti dengan sebuah node akar. Node akar akan
diberi label dengan kelas yang sering muncul. Setelah dilakukan pemotongan

15
sebuah subtree, tree akan diujikan terhadap validation set. Jika tree yang
dihasilkan meningkatkan akurasi pada validation set, tree tersebut akan digunakan
dan jika tidak, tree tersebut tidak digunakan. Proses ini akan terus dilakukan
sampai tidak ada lagi tree yang dapat meningkatkan akurasi pada validation set.
Pruning pada Model 1
Pada tahap ini, pruning dilakukan terhadap decision tree yang dihasilkan
pada model 1. Akurasi setelah dilakukan pruning pada model 1 disajikan pada
Tabel 10.
Tabel 10 Akurasi pengujian setelah
dilakukan pruning pada
model 1
Iterasi
1
2
3
4
5
6
7
8
9
10
Rata-rata

Akurasi (%)
48.57
42.86
57.14
60.00
48.57
45.71
40.00
52.43
57.14
67.74
52.02

Setelah dilakukan pruning pada model 1, akurasi mengalami kenaikan
cukup baik. Dari Tabel 10 terlihat bahwa umumnya akurasi pada setiap iterasi
mengalami kenaikan. Akurasi tertinggi didapat pada iterasi kesepuluh dengan
nilai akurasi 67.74% dan iterasi terkecil didapat pada iterasi ketujuh dengan nilai
akurasi 40.00%. Rata-rata akurasi sebelum dan sesudah dilakukan pruning pada
model 1 secara berurutan ialah 45.31% dan 52.02%.
Pruning pada Model 2
Pada tahap ini, pruning dilakukan terhadap decision tree yang dihasilkan
pada model 2. Akurasi setelah dilakukan pruning pada model 2 disajikan pada
Tabel 11.
Setelah dilakukan pruning pada model 2, akurasi juga mengalami kenaikan
cukup baik. Dari Tabel 11 terlihat bahwa akurasi pada setiap iterasi mengalami
kenaikan. Akurasi tertinggi didapat pada iterasi kesepuluh dengan nilai akurasi
61.29% dan iterasi terkecil didapat pada iterasi ketujuh dengan nilai akurasi
37.14%. Rata-rata akurasi sebelum dan sesudah dilakukan pruning pada model 2
secara berurutan ialah 43.45% dan 49.84%.

16
Tabel 11 Akurasi pengujian setelah
dilakukan pruning pada
model 2
Iterasi
1
2
3
4
5
6
7
8
9
10
Rata-rata

Akurasi (%)
57.14
42.86
60.00
57.14
45.71
45.71
37.14
42.86
48.57
61.29
49.84

Perbandingan Akurasi Model 1 dan Model 2
Tujuan dilakukan perbandingan akurasi model 1 dan model 2 ialah untuk
menentukan algoritme seleksi fitur yang paling baik digunakan dalam
membangun decision tree untuk menentukan daerah yang tahan atau rawan
pangan. Perbandingan akurasi model 1 dan model 2 sebelum dan sesudah
dilakukan pruning dapat dilihat pada Tabel 12.
Tabel 12 Perbandingan akurasi model 1 dan model 2 sebelum dan sesudah
dilakukan pruning
Model 1

Model 2

Iterasi

Sebelum
pruning

Sesudah
pruning

Sebelum
pruning

Sesudah
pruning

1
2
3
4
5
6
7
8
9
10
Rata-rata

48.57
40.00
45.71
45.71
40.00
42.86
28.57
42.86
54.29
64.52
45.31

48.57
42.86
57.14
60.00
48.57
45.71
40.00
52.43
57.14
67.74
52.016

54.29
42.86
48.57
42.86
37.14
42.86
28.57
40.00
45.71
51.61
43.45

57.14
42.86
60.00
57.14
45.71
45.71
37.14
42.86
48.57
61.29
49.842

17
Tabel 12 menunjukkan bahwa sebelum dilakukan pruning rata-rata akurasi
model 1 lebih tinggi dibandingkan rata-rata akurasi model 2. Rata-rata akurasi
model 1 dan model 2 sebelum dilakukan pruning ialah 45.31% dan 43.45%.
Model 1 mencapai akurasi maksimal dengan nilai akurasi 64.52%, sedangkan
akurasi maksimal yang dicapai pada model 2 ialah 54.29%. Berdasarkan rata-rata
akurasi dan nilai akurasi maksimal yang didapatkan pada model 1 dan model 2
sebelum dilakukan pruning, dapat dijelaskan bahwa model 1 lebih baik
dibandingkan model 2.
Secara keseluruhan, kedua model decision tree mengalami peningkatan
akurasi setelah dilakukan pruning. Rata-rata akurasi model 1 dan model 2 sesudah
dilakukan pruning secara berurutan ialah 52.02% dan 49.84%. Hal ini
menunjukkan bahwa decision tree yang terbentuk sebelum dilakukan pruning
mengalami suatu gejala overfitting. Hal ini terbukti dengan meningkatnya akurasi
pada kedua model decision tree sesudah dilakukan pruning. Oleh karena itu, tree
yang mengalami overfitting perlu dipangkas. Dari hasil penelitian, dapat diketahui
bahwa proses pruning bisa meningkatkan hasil akurasi.
Sesudah dilakukan pruning, model 1 mencapai akurasi maksimal dengan
nilai akurasi 67.74%. Jumlah node dan aturan yang dibutuhkan model 1 untuk
mencapai akurasi maksimal ialah 119 node dan 102 aturan, sedangkan model 2
membutuhkan 129 node dan 110 aturan untuk mencapai akurasi maksimal yaitu
61.29%. Berdasarkan jumlah node dan aturan yang dibutuhkan untuk mencapai
akurasi maksimal terlihat bahwa model 1 lebik baik dibandingkan dengan model 2.
Model 1 dan model 2 membutuhkan 8 fitur untuk mencapai akurasi
maksimal. Fitur yang tidak digunakan model 1 dan model 2 untuk mencapai nilai
maksimal adalah fitur rumah tangga dengan jarak 5 km dari fasilitas kesehatan.

KESIMPULAN DAN SARAN
Kesimpulan
Algoritme ID3 merupakan sebuah metode yang digunakan untuk konstruksi
decision tree. Algoritme ID3 mengkonstruksi decision tree berdasarkan ukuran
information gain. Information gain merupakan salah satu algoritme seleksi fitur
yang digunakan untuk memilih fitur terbaik. Selain information gain, terdapat
beberapa algoritme lain yang dapat digunakan untuk memilih fitur terbaik yang
akan digunakan pada decision tree seperti symmetrical uncertainty. Algoritme
seleksi fitur yang digunakan pada decision tree dapat menentukan akurasi dari
decision tree yang dibangun.
Rata-rata akurasi decision tree yang dibangun menggunakan algoritme ID3
sebelum dan sesudah dilakukan pruning ialah 45.31% dan 52.08%, sedangkan
rata-rata akurasi decision tree yang dibangun menggunakan algoritme decision
tree dengan menggunakan ukuran symmetrical uncertainty untuk pemilihan fitur
ialah 43.45% dan 49.84%. Berdasarkan rata-rata akurasi sebelum dan sesudah
dilakukan pruning maka dapat disimpulkan bahwa decision tree yang dibangun

18
menggunakan algoritme ID3 lebih baik dalam menentukan daerah yang tahan atau
rawan pangan di Indonesia jika dibandingkan dengan algoritme decision tree
menggunakan ukuran symmetrical uncertainty untuk pemilihan fitur.
Hal ini menunjukkan bahwa bias pada information gain tidak terjadi pada
data yang memiliki perbedaan kemungkinan nilai pada setiap fiturnya tidak terlalu
besar. Dengan demikian, information gain tidak perlu dinormalisasi menggunakan
symmetrical uncertainty. Maksimal kemungkinan nilai pada fitur data ketahanan
pangan ialah 6 kemungkinan, sedangkan minimal kemungkinan nilai fitur ialah 4
kemungkinan.
Saran
Penelitian ini masih memiliki beberapa kekurangan yang dapat diperbaiki
pada penelitian selanjutnya. Beberapa saran tersebut di antaranya:
1
Menggunakan algoritme seleksi fitur yang lain sehingga bisa dibandingkan
algoritme seleksi fitur yang paling baik.
2
Menggunakan data yang memiliki perbedaan kemungkinan nilai fitur yang
besar agar perbedaan akurasi dapat dilihat perbedaanya.
3
Menggunakan algoritme klasifikasi yang lain agar perbedaan akurasi dari
kedua algoritme seleksi fitur dapat dilihat perbedaannya.

DAFTAR PUSTAKA
[DKP dan WFP] Dewan Ketahanan Pangan dan World Food Programme. 2009.
Peta Ketahanan dan Kerawanan Pangan Indonesia. Jakarta: Dewan
Ketahanan Pangan, Departemen Pertanian RI.
Fu L. 1994. Neural Network in Computers Intelligence. Singapura: McGraw-Hill.
Hall MA. 1999. Feature selection for discrete and numeric class machine learning
[internet]. [diacu 2013 April 7]. Tersedia dari: http: //www.cs.waikato.ac.nz/
ml/publications/1999/99MH-Feature-Select.pdf.
Han J, Kamber M. 2001. Data Mining Concepts & Techniques. San Fransisco:
Morgan Kaufman.
Novakovic J, Strbac P, Bulatovic D. 2011. Toward optimal feature selection using
rangking methods and classification algorithms. Yugoslav Journal of
Operations Research. 21(1):119-135.
Ramaswami M, Bhaskaran R. 2009. A study on feature selection techniques in
educational data mining. Journal of Computing. 1(1):7-11.
Tan S, Kumar P, Steinbach M. 2006. Introduction To Data Mining. Minneapolis:
Addison-Wesley

Lampiran 1 Contoh data sebelum transformasi data
Rasio
Konsumsi
Normatif

Penduduk
dibawah garis
kemiskinan

Simeulue

0.35

32.26

Rumah
tangga tanpa
akses ke
listrik
27.32

62.75

Berat badan
balita
dibawah
standar
39.6

Rumah tangga
dengan jarak 5
km dari fasilitas
kesehatan
6.9

Rumah
tangga tanpa
akses ke air
bersih
76.11

prioritas 2

Aceh Singkil

1.27

28.54

22.15

64.27

21

14.1

52.8

prioritas 2

Aceh Selatan

0.48

4.03

17.95

66.61

24.9

12.3

38.12

Prioritas 4

Aceh Tenggara

10.92

2.34

8.61

69.11

48.8

0.9

23.13

Prioritas 4

28.15

14.75

12.11

10.05

69.41

21.8

13.9

52.04

Prioritas 4

0.98

24.41

14.35

8.12

5.73

69.31

15.1

11.2

46.5

Prioritas 5

Aceh Barat

0.62

32.63

28.14

18.13

15.04

69.69

29.9

3.7

35.02

Prioritas 4

Aceh Besar

0.41

26.69

9.13

5.13

8.05

70.42

20.1

19.1

19.51

Prioritas 5

Pidie

0.45

33.74

17.62

6.3

20.54

68.94

23.7

3.1

18.11

Prioritas 4

Bireuen

0.45

27.18

10.5

5.76

6.65

72.22

32.8

7.2

14.94

Prioritas 3

Aceh Utara

0.44

33.16

18.56

7.51

12.89

69.41

35.5

22.5

39.66

Prioritas 3

Aceh Barat Daya

0.43

28.63

20.12

1.52

14.03

66.3

39.1

0.7

31.23

Prioritas 4

Gayo Lues

0.3

32.31

30.2

11.81

29.15

66.73

19.5

16.9

52.35

Prioritas 2

Aceh Tamiang

0.53

22.19

5.14

7.04

6.31

68.09

21.4

7.9

34.6

Prioritas 5

Nagan Raya

0.26

33.61

21.86

6.28

18.63

69.31

36

22.6

41.07

Prioritas 2

Aceh Jaya

0.90

29.28

40.17

10.53

12.98

67.84

29

20.2

28.4

Prioritas 3

Desa tanpa
akses ke
jalan

Perempuan
buta huruf

Angka
harapan
hidup

13.04

4.59

9.3

13.68

24.72

18.92

0.15

21.6

Aceh Timur

0.43

Aceh Tengah

Nama kabupaten

Kelas

19

20
Lampiran 2 Interval indikator-indikator data ketahanan pangan
Indikator

Nilai awal
< 0.50
0.50 - 0.75
Rasio Konsumsi Normatif Per
0.75 - 1.00
Kapita terhadap Produksi
1.00 - 1.25
Bersih Serealia
1.25 - 1.50
>= 1.50
0 - 10
10.00 - 15.00
15 - 20
Penduduk Hidup di Bawah
Garis Kemiskinan
20 - 25

Rumah Tangga tanpa Akses
ke Listrik

Desa tanpa Akses ke Jalan

Perempuan Buta Huruf

Angka Harapan Hidup

25 - 35
>= 35
< 10
10 - 20
20 - 30
30 - 40
40 - 50
>= 50
0 - 10
10 - 15
15 - 20
20 - 25
25 - 30
>= 30
= 40
< 58
58 - 61
61 - 64
64 - 67
67 - 70
>= 70

Kelas
Surplus Tinggi
Surplus Sedang
Surplus Rendah
Defisit Rendah
Defisit Sedang
Defisit Tinggi
Hampir Mendekati Miskin
Hampir Miskin
Miskin
Hampir Mendekati Sangat
Miskin
Hampir Sangat Miskin
Sangat Miskin
Sangat Sedikit
Sedikit
Agak Sedikit
Agak Banyak
Banyak
Sangat Banyak
Sangat Kecil
Kecil
Agak Kecil
Agak Tinggi
Tinggi
Sangat Tinggi
Sangat Rendah
Rendah
Agak Rendah
Agak Tinggi
Tinggi
Sangat Tinggi
Sangat Pendek
Pendek
Agak Pendek
Kurang Panjang
Cukup Panjang
Panjang

21
Lampiran 2 Lanjutan
Indikator
Berat Badan Balita di Bawah
Standar

Rumah Tangga dengan Jarak 5
KM dari Fasilitas Kesehatan

Rumah Tangga tanpa Akses ke
Air Bersih

Nilai awal
< 10
10 - 20
20 - 30
>= 30
< 20
20 - 30
30 - 40
40 - 50
50 - 60
>= 60
< 30
30 - 40
40 - 50
50 - 60
60 - 70
>= 70

Kelas
Baik
Kurang
Buruk
Sangat Buruk
Sangat Kecil
Kecil
Agak Kecil
Agak Tinggi
Tinggi
Sangat Tinggi
Sangat Sedikit
Sedikit
Agak Sedikit
Agak Besar
Besar
Sangat Besar

22

Lampiran 3 Contoh data hasil transformasi data

id

Rasio
Konsumsi
Normatif

1

Surplus Tinggi

2

Defisit Sedang

3

Surplus Tinggi

4

Surplus Tinggi

5

Surplus Tinggi

6

Surplus
Rendah

7

Surplus
Sedang

8

Surplus Tinggi

Penduduk
dibawah garis
kemiskinan
Hampir Sangat
Miskin
Hampir Sangat
Miskin
Hampir
Mendekati
Sangat Miskin
Hampir
Mendekati
Sangat Miskin
Hampir Sangat
Miskin
Hampir
Mendekati
Sangat Miskin
Hampir Sangat
Miskin
Hampir Sangat
Miskin

Rumah
tangga tanpa
akses ke
listrik

Desa
tanpa
akses ke
jalan

Agak Sedikit

Kecil

Sangat
Sedikit

Kecil

Sedikit

Perempuan
buta huruf

Angka
harapan
hidup

Sangat
Rendah
Agak
Tinggi

Agak
Buruk
Agak
Bagus

Sangat
Kecil

Agak
Rendah

Sedikit

Sangat
Kecil

Sedikit
Sedikit
Agak Sedikit
Sangat
Sedikit

Berat badan
balita
dibawah
standar
Sangat
Buruk

Rumah tangga
dengan jarak 5
km dari fasilitas
kesehatan

Rumah
tangga tanpa
akses ke air
bersih

Kelas

Sangat Kecil

Sangat Besar

prioritas 2

Buruk

Sangat Kecil

Agak Besar

prioritas 2

Agak
Bagus

Buruk

Sangat Kecil

Sedikit

prioritas 4

Rendah

Bagus

Sangat
Buruk

Sangat Kecil

Sangat
Sedikit

prioritas 4

Kecil

Agak
Rendah

Bagus

Buruk

Sangat Kecil

Agak Besar

prioritas 4

Sangat
Kecil

Rendah

Bagus

Kurang

Sangat Kecil

Agak Sedikit

prioritas 5

Agak
Rendah

Bagus

Buruk

Sangat Kecil

Sedikit

prioritas 4

Rendah

Sangat
Bagus

Buruk

Sangat Kecil

Sangat
Sedikit

prioritas 5

Agak
Kecil
Sangat
Kecil

23

RIWAYAT HIDUP
Penulis dilahirkan di Kenagarian Simpang Kapuk, Kec. Mungka, Kab. Lima
Puluh Kota, Sumatra Barat pada Tanggal 7 Desember 1987 dari pasangan Ayah
Lukman dan Ibu Nurhayati. Penulis merupakan anak bungsu dari lima bersaudara.
Penulis melanjutkan pendidikan di Sekolah Menengah Atas Negeri 1
Payakumbuh dan lulus pada Tahun 2007. Setelah lulus dari SMA, penulis
diterima sebagai mahasiswa Direktorat Program Diploma (DPD) Institut Pertanian
Bogor (IPB) pada Tahun 2007 melalui jalur Undangan Seleksi Masuk IPB
(USMI) pada Program Keahlian Teknik Komputer. Pada tahun 2010, penulis lulus
dari Diploma IPB dan pada tahun yang sama penulis melanjutkan pendidikan di
Program Alih Jenis Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan
Alam, IPB.