Training Data Selection for Improving Performance of Voting Feature Interval 5 (VFI 5).

PEMILIHAN DATA TRAINING UNTUK MENINGKATKAN KINERJA
VOTING FEATURE INTERVAL 5 (VFI 5)

DAVID AULIA AKBAR ADHIEPUTRA

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2010

PEMILIHAN DATA TRAINING UNTUK MENINGKATKAN KINERJA
VOTING FEATURE INTERVAL 5 (VFI 5)

DAVID AULIA AKBAR ADHIEPUTRA

Skripsi

Sebagai salah satu syarat untuk memperoleh
Gelar Sarjana Komputer pada
Departemen Ilmu Komputer


DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2010

ABSTRACT
DAVID AULIA AKBAR ADHIEPUTRA. Training Data Selection for Improving Performance of
Voting Feature Interval 5 (VFI 5). Supervised by SRI NURDIATI and AZIZ KUSTIYO.
Voting Feature Interval 5 (VFI 5) is a supervised algorithm and an inductive learning algorithm
for inducing knowledge classification from training information. VFI 5 algorithm is capable of
classifying sample very well and can provide an explanation why and how the class groups of new
samples from the classification can be predicted in the individual vote that each feature has been
assigned to the class. VFI 5 algorithm determines the point interval for the classification process.
Point interval is obtained by taking the lowest and the highest value of the sample in each class. In the
testing process, if the test data are outside the sample interval they will have zero voting value and
will reduce the accuracy of the classification results.
The selection of training data with non-random sampling method uses the purposive sampling
technique. The selection process is done by taking a few of the lowest and the highest feature values

from each feature data to be training data. The remaining data which are not used as training data will
be used as testing data. The propotion of training and testing data is 2:1.
Among the three data used in the VFI 5 algorithm with the selection training data using the lowest
and highest feature values, the iris data produced an accuracy of 98.04%, the accuracy of wines data
is 96.56% and the acuracy of gender koi data is very high reaching 100%. The result of this study
shows that the algorithm VFI 5 data selection method using the lowest and the highest feature values
can improve the performance of the algorithm VFI 5.

Keywords: non probability sampling, purposive sampling, voting feature interval.

ii

Judul
Nama
NRP

: Pemilihan Data Training untuk Meningkatkan Kinerja Voting Feature Interval 5 (VFI 5)
: David Aulia Akbar Adhieputra
: G64104105


Menyetujui:
Pembimbing I,

Pembimbing II,

Dr. Ir. Sri Nurdiati, M.Sc.
NIP. 19601126 198601 2 001

Aziz Kustiyo, S.Si., M.Kom.
NIP. 19700719 199802 1 001

Mengetahui:
Ketua Departemen,

Dr. Ir. Sri Nurdiati, M.Sc.
NIP. 19601126 198601 2 001

Tanggal Lulus :

iii


RIWAYAT HIDUP
Penulis lahir di kota Purworejo, 12 Oktober 1985, anak terakhir dari tiga bersaudara dari
pasangan Drs. Muji Hadiwiyono dan Suyatmi, ST. Pada tahun 1998 penulis lulus dari SD Negeri
Kliwonan Purworejo, dan pada tahun 2001 lulus dari SMP Negeri 2 Purworejo. Tahun 2004 penulis
lulus dari SMA Negeri 2 Purworejo, dan pada tahun yang sama melanjutkan pendidikan tinggi di
Institut Pertanian Bogor (IPB), Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu
Pengetahuan Alam melalui jalur Seleksi Penerimaan Mahasiswa Baru (SPMB). Selama masa kuliah
penulis pernah menjadi asisten dosen untuk Mata Kuliah Pola Pengenalan Citra Digital (PPCD). Pada
tahun 2007, penulis mengikuti Praktek Kerja Lapang selama 1 bulan di Balai Besar Penelitian dan
Pengembangan Sumberdaya Lahan Pertanian (BBSDLP) wilayah Bogor.

iv

PRAKATA
Alhamdulillahi Rabbil ‘alamin, puji dan syukur penulis panjatkan kepada Allah SWT karena
hanya dengan rahmat dan karunia-Nya penulis dapat menyelesaikan tugas akhir ini yang merupakan
salah satu persyaratan kelulusan pada Program Sarjana Ilmu Komputer, Fakultas Matematika dan
Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Tugas akhir ini mengambil judul Pemilihan Data
Training untuk Meningkatkan Kinerja Voting Feature Interval 5 (VFI 5).

Pada kesempatan ini, penulis ingin menyampaikan rasa terima kasih yang sebesar-besarnya
kepada senua pihak yang telah membantu kelancaran penelitian ini, anatara lain kepada:
1.

Orangtua tercinta, Ayahanda Muji Hadiwiyono dan Ibunda Suyatmi atas segala doa, kasih
sayang, dan dukungan baik moral maupun spiritual yang telah diberikan selama ini, serta kepada
kedua kakak, Didit dan Dewi yang selalu memberi semangat.

2.

Ibu Dr. Ir. Sri Nurdiati M.Sc dan Bapak Aziz Kustiyo, S.Si, M.Kom yang senantiasa dengan
penuh ketekunan dan kesabaran membimbing penulis hingga selesainya penulisan karya ilmiah
ini.

3.

Bapak Firman Ardiansyah, S.Kom, M.Si, terima kasih atas kesediaan beliau menjadi moderator
pada seminar dan penguji pada sidang tugas akhir.

4.


Edho, Yohan, Didit, Indri Puspita, Tresna, Ganang, Reza, Geti, Maul, Lutfi, Onong, Ahyar, anakanak kos Cemara, dan teman-teman Passing Out lainnya yang selalu memberi dukungan dan
mendampingi penulis selama penelitian ini.

5.

Intan Dyah, Yuli Fitriyani, Khodijah, Bayu Mahardhika, Rista, dan Radi yang telah menjadi
sahabat baik penulis selama ini.

6.

Mi-Chan, Oreo, Maze, Onji, Titin, Mong-Mong, Lala, Tete, Bon-Bon, Oski, Candy, Edu, Momo,
Plato, Oin, dan Oscar yang selalu menemani penulis selama ini.

7.

Pak Soleh, Pak Pendi, Mbak Rahma, Mas Irfan, dan seluruh keluarga besar Ilmu Komputer,
FMIPA IPB umumnya, Ilkomers ’39, ’40, ’42, dan ‘41 khususnya.

8.


Serta kepada semua pihak yang telah memberikan kontribusi besar selama pengerjaan penelitian
ini yang tidak dapat penulis sebutkan satu-persatu.

Sebagaimana manusia yang tidak luput dari kesalahan, penulis menyadari bahwa karya ilmiah
ini jauh dari kesempurnaan. Akan tetapi, penulis berharap semoga karya ilmiah ini dapat bermanfaat
bagi semua pihak, baik secara langsung maupun tidak langsung termasuk penulis pribadi.
Jazakumullah khairan katsiira.

:
Bogor, Januari 2010

David Aulia Akbar Adhieputra

DAFTAR ISI
Halaman
DAFTAR TABEL ................................................................................................................................... vii
DAFTAR GAMBAR .............................................................................................................................. vii
DAFTAR LAMPIRAN ........................................................................................................................... vii
PENDAHULUAN 

Latar Belakang ..................................................................................................................................... 1 
Tujuan ................................................................................................................................................... 1 
TINJAUAN PUSTAKA
Pengambilan Sampel ............................................................................................................................ 1 
Teknik Pengambilan Sampel .............................................................................................................. 1 
Metode k-Fold Cross Validation ......................................................................................................... 2 
Algoritme Voting Feature Interval 5 ................................................................................................... 2 
METODE PENELITIAN 
Studi Pustaka ........................................................................................................................................ 4 
Data ....................................................................................................................................................... 4 
Klasifikasi Algoritme VFI 5 ................................................................................................................ 4 
Data Pelatihan dan Data Pengujian ...................................................................................................... 4 
Pelatihan ............................................................................................................................................... 4 
Klasifikasi (Pengujian) ......................................................................................................................... 4 
Akurasi.................................................................................................................................................. 5 
Lingkungan Pengembangan ................................................................................................................. 5 
HASIL DAN PEMBAHASAN 
Pemilihan Data Latih dan Data Uji ...................................................................................................... 5 
Pengolahan dan Tingkat Akurasi VFI 5 dengan Data Iris .................................................................. 5 
Pengolahan dan Tingkat Akurasi VFI5 dengan Data Wine................................................................. 8 

Pengolahan dan Tingkat Akurasi VFI5 dengan Data Ikan Koi......................................................... 11 
KESIMPULAN DAN SARAN 
Kesimpulan ......................................................................................................................................... 13 
Saran ................................................................................................................................................... 13 
DAFTAR PUSTAKA .............................................................................................................................. 14 
LAMPIRAN ............................................................................................................................................. 15 

vi

DAFTAR TABEL
Halaman
1 Spesifikasi Data yang Digunakan ..................................................................................................... 4
2 Pembagian Data Iris dengan Nilai Fitur Terendah dan Tertinggi .................................................... 6
3 Hasil Akurasi dengan Nilai Fitur Terendah dan Tertinggi Data Iris................................................ 6
4 Hasil Pembagian Acak Data Iris ....................................................................................................... 6
5 Susunan Data Pelatihan dan Data Pengujian Data Iris ..................................................................... 6
6 Hasil Akurasi dengan Nilai Acak Data Iris ...................................................................................... 7
7 Pembagian Data Iris dengan Nilai Fitur Terendah ........................................................................... 7
8 Pembagian Data Iris dengan Nilai Fitur Tertinggi ........................................................................... 7
9 Pembagian Data Iris Tanpa Nilai Fitur Terendah dan Tertinggi...................................................... 7

10 Perbandingan Akurasi pada Data Iris ............................................................................................. 8
11 Pembagian Data Wine dengan Nilai Fitur Terendah dan Tertinggi ............................................... 8
12 Hasil Akurasi dengan Nilai Fitur Terendah dan Tertinggi Data Wine........................................... 9
13 Hasil Pembagian Acak Data Wine .................................................................................................. 9
14 Susunan Data Pelatihan dan Data Pengujian Data Wine ................................................................ 9
15 Hasil Akurasi dengan Nilai Acak Data Wine ................................................................................. 9
16 Pembagian Data Wine dengan Nilai Fitur Terendah ...................................................................... 9
17 Pembagian Data Wine dengan Nilai Fitur Tertinggi .................................................................... 10
18 Pembagian Data Wine Tanpa Nilai Fitur Terendah dan Tertinggi............................................... 10
19 Perbandingan Akurasi pada Data Wine ........................................................................................ 10
20 Pembagian Data Ikan Koi dengan Nilai Fitur Terendah dan Tertinggi ....................................... 11
21 Hasil Akurasi dengan Nilai Fiture Terendah dan Tertinggi Data Ikan Koi ................................. 11
22 Hasil Pembagian Acak Data ........................................................................................................ 11
23 Susunan Data Pelatihan dan Data Pengujian Data Koi ................................................................ 12
24 Hasil Akurasi dengan Nilai Acak Data Ikan Koi ......................................................................... 12
25 Pembagian Data Ikan Koi dengan Nilai Fitur Terendah .............................................................. 12
26 Pembagian Data Ikan Koi dengan Nilai Fitur Tertinggi .............................................................. 12
27 Pembagian Data Ikan Koi Tanpa Nilai Fitur Terendah dan Tertinggi......................................... 12
28 Perbandingan Akurasi pada Data Ikan Koi .................................................................................. 13


DAFTAR GAMBAR
Halaman
1 Diagram Metode Penelitian .............................................................................................................. 3
2 Perbandingan Akurasi pada Data Iris ............................................................................................... 8
3 Perbandingan Akurasi pada Data Wine .......................................................................................... 11
4 Perbandingan Akurasi pada Data Ikan Koi .................................................................................... 13

DAFTAR LAMPIRAN
Halaman
1 Contoh Pelatihan ............................................................................................................................. 16
2 Contoh Klasifikasi ........................................................................................................................... 17
3 Normalisasi Akhir Data Latih dengan Nilai Fitur Terendah dan Tertinggi Data Iris (Iterasi 1) ... 17
4 Normalisasi Akhir Data Latih dengan Nilai Fitur Terendah dan Tertinggi Data Iris (Iterasi 2) ... 17
5 Normalisasi Akhir dengan Data Latih Acak pada Data Iris (Iterasi 1) .......................................... 18
6 Normalisasi Akhir dengan Data Latih Acak pada Data Iris (Iterasi 2) .......................................... 18
7 Normalisasi Akhir dengan Data Latih Acak pada Data Iris (Iterasi 3) .......................................... 19
8 Normalisasi Akhir Data Latih dengan Nilai Fitur Terendah Data Iris........................................... 19
9 Normalisasi Akhir Data Latih dengan Nilai Fitur Tertinggi Data Iris ........................................... 19

vii

Halaman
10 Normalisasi Akhir Data Latih Tanpa Nilai Fitur Terendah dan Tertinggi Data Iris ................... 20
11 Normalisasi Akhir Data Latih dengan Nilai Fitur Terendah dan Tertinggi Data Wine
(Iterasi 1) ......................................................................................................................................... 20
12 Normalisasi Akhir Data Latih dengan Nilai Fitur Terendah dan Tertinggi Data Wine
(Iterasi 2) ......................................................................................................................................... 21
13 Normalisasi Akhir dengan Data Latih Acak pada Data Wine (Iterasi 1) ..................................... 22
14 Normalisasi Akhir dengan Data Latih Acak pada Data Wine (Iterasi 2) ..................................... 23
15 Normalisasi Akhir dengan Data Latih Acak pada Data Wine (Iterasi 3) ..................................... 25
16 Normalisasi Akhir Data Latih dengan Nilai Fitur Terendah Data Wine...................................... 26
17 Normalisasi Akhir Data Latih dengan Nilai Fitur Tertinggi Data Wine ...................................... 27
18 Normalisasi Akhir Data Latih Tanpa Nilai Fitur Terendah dan Tertinggi Data Wine ................ 28
19 Normalisasi Akhir Data Latih dengan Nilai Fitur Terendah dan Tertinggi Data Koi (Iterasi 1) 30
20 Normalisasi Akhir Data Latih dengan Nilai Fitur Terendah dan Tertinggi Data Koi (Iterasi 2) 30
21 Normalisasi Akhir dengan Data Latih Acak pada Data Koi (Iterasi 1) ....................................... 31
22 Normalisasi Akhir dengan Data Latih Acak pada Data Koi (Iterasi 2) ....................................... 32
23 Normalisasi Akhir dengan Data Latih Acak pada Data Koi (Iterasi 3) ....................................... 33
24 Normalisasi Akhir Data Latih dengan Nilai Fitur Terendah Data Koi ........................................ 34
25 Normalisasi Akhir Data Latih dengan Nilai Fitur Tertinggi Data Koi ........................................ 35
26 Normalisasi Akhir Data Latih Tanpa Nilai Fitur Terendah dan Tertinggi Data Koi .................. 36
27 Normalisasi Akhir Data Latih dengan Nilai Fitur Terendah Data Iris......................................... 36
28 Normalisasi Akhir Data Latih dengan Nilai Fitur Tertinggi Data Iris ......................................... 38
29 Normalisasi Akhir Data Latih Tanpa Nilai Fitur Terendah dan Tertinggi Data Iris ................... 43

viii

PENDAHULUAN

TINJAUAN PUSTAKA

Latar Belakang

Pengambilan Sampel

Voting Feature Interval 5 (VFI 5) adalah
sebuah supervised algorithm dan algoritme
pembelajaran secara induktif
untuk
menginduksi klasifikasi pengetahuan dari
informasi suatu pelatihan. Algoritme VFI 5
mampu melakukan proses klasifikasi dengan
sangat baik. Algoritme ini dapat memberikan
penjelasan mengapa dan bagaimana contoh
baru dari klasifikasinya dapat diprediksi
golongan kelasnya dalam individual vote yang
masing-masing fiturnya telah diberikan ke
dalam kelas tersebut.

Dalam rangka pengambilan sampel
menurut Nasution (2003) ada beberapa
pengertian yang perlu diketahui agar sampel
yang diambil mewakili
sehingga dapat
diperoleh informasi yang cukup , yaitu:

Setiap contoh training direpresentasikan
sebagai sebuah nominal vektor (dengan fungsi
diskret) atau linear (dengan fungsi continous)
pada nilai fiturnya, ditambah label yang
merepresentasikan
kelas
dari
setiap
contohnya. Contoh pelatihan menunjukkan
bahwa algoritme VFI 5 membangun interval
untuk masing-masing fitur berupa range atau
point interval. Range interval didefinisikan
pada sebuah kumpulan nilai yang berurutan
yang diberikan oleh data fitur pelatihan,
sedangkan point interval didefinisikan pada
sebuah nilai tunggal dari fiturnya (Demiröz
1997).
Algoritme VFI 5 menentukan point
interval untuk proses klasifikasi. Point
interval didapat dari pengambilan nilai fitur
terendah dan tertinggi contoh pada masingmasing kelas. Pada proses uji, jika data uji
berada di luar interval contoh akan mendapat
nilai voting nol dan akan mengurangi akurasi
dari hasil klasifikasinya.
Dalam penelitian ini data pelatihan
dengan menggunakan nilai fitur terendah dan
tertinggi akan dibandingkan dengan beberapa
data pelatihan yang dipilih dengan cara lain,
dengan pembandingan tersebut diharapkan
data pelatihan yang menggunakan nilai fitur
terendah dan tertinggi akan mendapatkan
akurasi yang lebih baik.
Tujuan
Tujuan dari penelitian ini adalah
melakukan pemilihan data training untuk
meningkatkan kinerja dari algoritme VFI 5
agar mendapatkan nilai akurasi yang lebih
baik dengan menggunakan nilai fitur terendah
dan tertinggi, serta menggunakan bobot yang
sama pada algoritme VFI 5.

1.

2.

3.

4.

5.

Populasi sasaran
Yaitu populasi yang menjadi sasaran
pengamatan atau populasi di mana
keterangan dapat diperoleh.
Kerangka sampel
Yaitu suatu daftar unit-unit yang ada pada
populasi yang akan diambil sampelnya.
Unit sampel
Yaitu unit terkecil pada populasi yang
akan diambil sebagai sampel.
Rancangan sampel
Yaitu rancangan yang meliputi cara
pengambilan sampel dan penentuan besar
sampel.
Random
Yaitu salah satu cara pengambilan
sampel, di mana setiap unit dalam
populasi mempunyai kesempatan yang
sama untuk dipilih untuk mejadi anggota
sampel.

Teknik Pengambilan Sampel
Pemilihan teknik pengambilan sampel
merupakan upaya penelitian untuk mendapat
sampel yang representatif yang dapat
menggambarkan
populasinya.
Teknik
pengambilan sampel tersebut dibagi atas dua
kelompok besar (McLennan 1998), yaitu
probability sampling (random sampling) dan
non probability sampling (non random
sampling).
Probability sampling
Pada pengambilan sampel secara acak,
setiap unit populasi mempunyai kesempatan
yang sama untuk diambil sebagai sampel. Hal
ini dapat menghindarkan peneliti dari memilih
data sesuai keinginannya yang akan
mengakibatkan bias pada kasus tertentu yaitu
hasil yang diperoleh tidak sesuai dengan
kenyataan. Dengan cara acak bias pemilihan
dapat diperkecil sehingga diperoleh sampel
yang representatif. Keuntungan pengambilan
sampel secara acak adalah sebagai berikut:



Derajat kepercayaan terhadap sampel
dapat ditentukan.
Beda penaksiran parameter populasi
dengan
statistik
sampel
dapat
diperkirakan.

1



Besar sampel yang dapat diambil dapat
dihitung.

Non probability sampling (selected sample)
Pemilihan sampel dengan cara ini tidak
menghiraukan prinsip-prinsip
probability.
Pemilihan sampel secara tidak acak, hasil
yang diharapkan adalah gambaran kasar dari
suatu keadaan, dan biasanya pengambilan
sampel dengan cara ini digunakan jika biaya
sangat sediki, hasil yang diminta segera, dan
tidak memerlukan ketepatan yang tinggi
karena hanya gambaran umumnya saja.
Pada penelitian kali ini, pengambilan
sampel pada sampel data pelatihan
menggunakan metode non probability
sampling. Teknik pengambilan sampel yang
digunakan adalah pengambilan sampel dengan
maksud (purposive sampling) di mana teknik
ini
merupakan
bagian
dari
metode
pengambilan sampel secara tidak acak dengan
cara
mengambil
unsur-unsur
yang
dikehendaki untuk pertimbangan penelitian.
Dalam hal ini unsur- unsur yang diambil
adalah nilai terendah dan tertinggi dari atribut
data atau pada algoritme ini biasa disebut
minimum fitur dan maksimum fitur.
Keduanya digunakan sebagai sampel data
pelatihan dengan harapan dapat meningkatkan
kinerja algoritme VFI 5.
Metode k-Fold Cross Validation
Validasi
silang
(cross-validation)
merupakan metode untuk memerkirakan error
generalisasi berdasarkan “resampling” (Weiss
& Kulikowski 1991; Efron & Tibshirani 1993;
Hjorth 1994; Plutowski et al. 1994; Shao &
Tu 1995, diacu dalam Sarle 2004). Dalam kfold cross validation, data dibagi secara acak
menjadi k himpunan bagian yang ukurannya
hampir sama satu sama lain. Himpunan bagian
yang dihasilkan yaitu S1,S2,...,Sk digunakan
sebagai pelatihan dan pengujian.
Pengulangan dilakukan sebanyak k kali
dan pada setiap ulangan disisakan satu subset
untuk pengujian dan subset lainnya untuk
pelatihan. Pada iterasi ke-i, subset Si
diperlakukan sebagai data pengujian, dan
subset lainnya diperlakukan sebagai data
pelatihan. Pada iterasi pertama
S2,...Sk
menjadi data pelatihan dan S1 menjadi data
pengujian. Selanjutnya pada iterasi kedua
S1,S3,...,Sk menjadi data pelatihan dan S2
menjadi data pengujian, dan seterusnya.

Algoritme Voting Feature Interval 5
Voting Feature Intervals 5 (VFI 5)
merupakan algoritme klasifikasi yang
dikembangkan oleh Demiröz dan Güvenir
(Demiröz, 1997). Semua instance pelatihan
diproses bersamaan. Algoritme VFI 5 terdiri
atas dua tahap, yaitu tahap pelatihan dan
klasifikasi.
Pelatihan
Pada tahap pelatihan, awalnya dicari nilai
end point suatu feature f pada kelas data c.
End point adalah nilai minimum dan nilai
maksimum setiap kelas c pada feature f. Nilai
end points tersebut kemudian diurutkan
menjadi interval untuk feature f. Terdapat
dua jenis interval, yaitu point interval dan
range interval. Point interval dibentuk dari
setiap nilai yang berbeda dari end points.
Range interval dibentuk dari dua nilai end
points yang berdekatan tetapi tidak termasuk
end points tersebut (Güvenir 1997).
Tahap selanjutnya ialah menghitung
jumlah instance pelatihan setiap kelas c
dengan feature f yang nilainya jatuh pada
interval
i,
direpresentasikan
sebagai
interval_class_count [f,i,c]. Untuk setiap
instance pelatihan, dicari interval i di mana
nilai feature f dari instance pelatihan e (ef)
tersebut jatuh. Jika interval i merupakan point
interval dan nilai ef sama dengan nilai pada
batas bawah atau batas atas maka jumlah kelas
instance tersebut (ef) pada interval i ditambah
1. Jika interval i merupakan range interval
dan nilai ef jatuh pada interval tersebut, maka
jumlah kelas instance ef pada interval i
ditambah 1. Hasil dari proses tersebut
merupakan jumlah vote kelas c pada interval i.
Jumlah vote kelas c untuk feature f pada
interval i dibagi dengan jumlah instance pada
kelas c (class_count[c]) untuk menghilangkan
perbedaan distribusi setiap kelas. Hasil
normalisasi
direpresentasikan
dalam
interval_class_vote [f,i,c]. Nilai-nilai pada
interval_class_vote
[f,i,c]
dinormalisasi
sehingga jumlah vote dari beberapa kelas pada
setiap feature sama dengan 1. Berikut ini
adalah pseudocode oleh Güvenir (1997) tahap
pelatihan dari algoritme VFI 5.
train (TrainingSet);
begin
for each feature f
if f is linear
for each class c

2

EndPoints[f] = EndPoints[f]U
find_end_points(TrainingSet,f,
c);
sort (EndPoints[f]);
for each end point p in
EndPoints[f]
form a point interval from end
point p
form a range interval between p
and the next endpoint ≠ p

memberikan vote yang sama dengan
interval_class_vote[f,i,c]. Notasi tersebut
merepresentasikan vote feature f yang
diberikan untuk kelas c.
Setiap feature f mengumpulkan nilai vote
kemudian dijumlahkan untuk memeroleh total
vote. Kelas c yang memiliki nilai vote
tertinggi diprediksi sebagai kelas dari instance
tes e. Pseudocode oleh Güvenir (1997) untuk
tahap klasifikasi dapat dilihat di bawah ini.

else /*if f is nominal*/
form a point interval for each
value of f
for each interval i on feature f

classify (e)
begin
for each class c

for each class c
interval_class_count[f,i,c]=0;

vote[c] = 0
for each feature f

count_instances(f,TrainingSet);
for each interval i on feature f
for each class c

for each class c
feature_vote[f,c] = 0; /*vote
of feature f for class c*/
if ef value is known
i = find_interval(f,ef)

normalize
interval_class_vote[f,i,c];

feature_vote[f,c] =
interval_class_vote [f,i,c]

/* such that



c

for each class c
vote[c] = vote[c] +
feature_vote[f,c]*weight[f];

interval_class_vote[f,i,c] = 1

*/
End

return class c with highes vote[c];
end

Klasifikasi
Klasifikasi
merupakan
proses
menemukan sekumpulan model (atau fungsi)
yang menggambarkan dan membedakan
konsep-konsep kelas data. Tujuannya adalah
agar model tersebut dapat digunakan untuk
memprediksi kelas dari suatu objek atau data
yang lebel kelasnya tidak diketahui (Han &
Kamber 2001).

METODE PENELITIAN
Metode penelitian diawali dengan
pengumpulan
bahan-bahan
penunjang
penelitian, pengumpulan data, dan pengolahan
data. Metode penelitian yang digunakan
disajikan dalam diagram metode penelitian
pada Gambar 1.

Pada tahap awal klasifikasi, dilakukan
proses inisialisasi awal nilai vote masingmasing kelas dengan nilai 0. Untuk setiap
feature f dicari nilai interval i di mana ef
jatuh, ef adalah nilai feature f dari instance tes
e. Jika ef tidak diketahui, maka feature
tersebut tidak disertakan dalam voting
(memberi nilai vote 0 untuk masing-masing
kelas). Feature yang nilainya tidak diketahui
diabaikan.
Jika ef diketahui maka interval tersebut
ditemukan. Interval tersebut dapat menyimpan
instances pelatihan dari beberapa kelas. Kelaskelas dalam sebuah interval direpresentasikan
oleh vote kelas-kelas tersebut pada interval
itu. Untuk setiap kelas c, feature f

Gambar 1 Diagram Metode Penelitian.

3

Studi Pustaka
Melakukan
studi
pustaka
yang
berhubungan dengan penelitian yang akan
dilakukan. Dalam hal ini, studi pustaka
mengenai penerapan algoritme VFI 5.
Data
Penelitian ini menggunakan minimal tiga
buah data. Data yang digunakan harus
memiliki atribut yang memiliki nilai kontinyu
agar dapat dibuat range interval. Data yang
digunakan pada penelitian ini adalah data iris,
data wine, dan data jenis kelamin ikan koi
yang masing-masing data memiliki jumlah
atribut yang berbeda dan atribut yang
memiliki nilai kontinyu jumlahnya juga
berbeda. Data bunga iris dan wine diambil
dari UCI repository of machine learning
database
(http://archive.ics.uci.edu/ml/datasets),
sedangkan data jenis kelamin ikan koi diambil
dari penelitian sebelumnya.
Data yang diambil dari sumber tersebut
untuk penelitian ini, memiliki nilai kontinu
dan digunakan untuk penggunaan klasifikasi.
Contoh data dapat dilihat pada Lampiran 27,
Lampiran 28, dan Lampiran 29. Adapun
spesifikasi data, disajikan pada Tabel 1.

Nama
data

1

Pelatihan dan pengujian pada pemilihan
data pelatihan secara acak menggunakan
metode k-fold cross validation. Pada metode
ini digunakan 3-fold cross validation. Oleh
karena itu, data yang digunakan dibagi
menjadi tiga subset secara acak yang masingmasing subset memiliki jumlah instance dan
perbandingan jumlah kelas yang hampir sama.
Pembagian data ini digunakan pada proses
iterasi klasifikasi. Iterasi dilakukan sebanyak
tiga kali. Setiap iterasi, satu subset digunakan
untuk pengujian sedangkan subset-subset
lainnya digunakan untuk pelatihan.
Data pelatihan dibagi menjadi lima
macam pemilihan yaitu :
1.
2.
3.
4.

Tabel 1 Spesifikasi Data yang Digunakan
No

yang terendah dan tertinggi (minimum dan
maksimum fitur) dari setiap fitur data untuk
dijadikan data latih dan menggunakan sisa
data yang belum digunakan sebagai data uji.
Perbandingan yang digunakan adalah 2:1,
yaitu dua untuk data latih dan satu untuk data
uji.

Pemilihan data pelatihan menggunakan
nilai fitur terendah dan tertinggi.
Pemilihan data pelatihan dilakukan secara
acak.
Pemilihan
data
pelatihan
hanya
menggunakan nilai fitur terendah.
Pemilihan
data
pelatihan
hanya
menggunakan fitur tertinggi.
Pemilihan
data
pelatihan
tanpa
menggunakan nilai fitur terendah dan
tertinggi.

Jumlah
instance

Jumlah
fitur

Jumlah
kelas

Iris

150

4

3

2

Wine

178

13

3

Pelatihan

3

Ikan Koi

119

13

2

Subset data pelatihan digunakan sebagai
input bagi algoritme Voting Feature Intervals
5 pada tahapan pelatihan. Langkah pertama
yang dilakukan pada tahapan pelatihan yaitu
membuat interval dari masing-masing fitur
berdasarkan nilai end point masing-masing
fitur untuk setiap kelasnya. Setelah end point
masing-masing
fitur
terbentuk
maka
dimulailah proses voting pada algoritme.
Voting yang dilakukan yaitu menghitung
jumlah data untuk setiap kelas pada interval
tertentu. Masing-masing kelas pada rentang
interval tertentu memiliki nilai vote yang
berbeda-beda. Nilai vote tersebut akan
dinormalisasi untuk mendapatkan nilai vote
akhir pada masing-masing fitur. Contoh
pelatihan dapat dilihat pada Lmpiran1

Klasifikasi Algoritme VFI 5
Tahapan klasifikasi Voting Feature
Intervals 5 terdiri atas dua proses yaitu proses
pelatihan dan proses klasifikasi (pengujian).
Data yang digunakan pada tahapan ini juga
dibagi menjadi dua bagian yaitu data pelatihan
dan data pengujian. Proses pelatihan akan
menghasilkan
model
klasifikasi
yang
diturunkan dari data pelatihan. Model ini akan
digunakan dalam data pengujian dalam proses
klasifikasi.
Data Pelatihan dan Data Pengujian
Pada pemilihan data pelatihan dengan
metode non random sampling, teknik yang
digunakan adalah purposive sampling. Teknik
tersebut dilakukan melalui pemilihan data
latih dengan hanya mengambil beberapa nilai

5.

Klasifikasi (Pengujian)
Pada tahapan pengujian atau klasifikasi,
setiap nilai fitur dari data pengujian akan

4

diperiksa letaknya pada interval. Nilai Vote
setiap kelas untuk setiap fitur pada interval
yang bersesuaian diambil nilainya dan
kemudian dijumlahkan. Kelas dengan nilai
vote tertinggi menjadi kelas prediksi dari data
pengujian tersebut.
Tahapan pengujian menggunakan data uji
yang telah ditentukan sebelumnya dalam
proses iterasi. Data uji yang digunakan
disesuaikan dengan subset data pelatihan yang
digunakan. Contoh pengujian dapat dilihat
pada Lampiran2.
Akurasi
Akurasi adalah adalah derajat kedekatan
pengukuran terhadap nilai sebenarnya. Pada
penelitian ini akan diketahui akurasi yang
dicapai algoritme VFI5. Tingkat akurasi
dihitung dengan cara :
Tingkat akurasi =

∑ Data uji benar diklasifikasi
X 100%
∑ Total data uji

Tingkat akurasi menunjukkan tingkat
kebenaran penglasifikasian data terhadap
kelas sebenarnya. Semakin rendah nilai
akurasi maka semakin tinggi kesalahan
klasifikasi. Tingkat akurasi yang baik adalah
tingkat akurasi yang mendekati nilai 100%.
Lingkungan Pengembangan
Aplikasi yang digunakan pada penelitian
ini dibangun dengan menggunakan perangkat
keras dan perangkat lunak dengan spesifikasi
sebagai berikut:
Perangkat keras berupa computer mobile:
1. Processor AMD Sempron M 1,86
GHz
2. RAM kapasitas 512 MB
3. Harddisk kapasitas 40 GB
4. Monitor pada resolusi 1024×768
pixels
5. Keyboard dan Mouse
Perangkat lunak:
1.
2.

Sistem Operasi : Microsoft Windows
XP Proffesional Edition
Visual Basic 6.0
HASIL DAN PEMBAHASAN

Pada bab ini akan dipaparkan proses
peningkatan kinerja algoritme VFI5 untuk
mendapatkan nilai akurasi yang lebih baik
dengan menggunakan nilai fitur terendah dan
tertinggi, serta menggunakan bobot yang sama
pada algoritme VFI 5.

Pemilihan Data Latih dan Data Uji
Penelitian ini bertujuan untuk melakukan
pemilihan data latih guna meningkatkan
kinerja dari algoritme VFI 5. Pemilihan data
dalam penelitian ini dibagi ke dalam 5
kategori seperti yang sudah dipaparkan pada
bagian metode penelitian.
Hasil dari kelima kategori akan
dbandingkan satu sama lainnya untuk
menunjukkan tingkat akurasi masing-masing.
Kategori utama adalah pemilihan data
pelatihan menggunakan nilai fitur terendah
dan tertinggi. Kategori pemilihan
data
pelatihan secara acak merupakan pembanding,
sedangkan sisanya digunakan sebagai
pembanding tambahan. Pemilihan data secara
acak dilakukan dengan mengacak suatu
kelompok data kemudian diambil proporsi
data latih dan data uji sebesar 2:1 pada tiaptiap kelas.
Pemilihan data dengan menggunakan nilai
fitur terendah dan tertinggi dilakukan dengan
membagi data latih dan data uji dengan
proporsi 2:1. Misal data ikan koi yang
memiliki 119 data jika dibagi dengan proporsi
2:1 akan menghasilkan 80 data latih dan 39
data uji serta nilai terendah dan tetinggi setiap
fitur terdapat di dalam data latih pada masingmasing fitur pada tiap kelas. Tiap fitur
diurutkan berdasarkan nilai fitur terendah dan
tertingginya kemudian data tersebut dijadikan
data latih.
Pemilihan data dengan tanpa nilai fitur
terendah dan tertinggi, data latihnya adalah
data yang bukan merupakan nilai fitur terndah
dan tertinggi. Dalam hal ini data ujinya
menggunakan data yang telah dikelompokkan
berdasarkan nilai terendah dan tertinggi pada
tiap fitur.
Pemilihan data dengan nilai fitur
terendah, data latihnya menggunakan nilai
terendah pada masing-masing fitur, sedangkan
data ujinya memakai nilai tertinggi pada fitur.
Pada pemilihan data dengan nilai fitur
tertinggi, digunakan nilai tertinggi pada
masing-masing fitur sebagai data latih dan
nilai terendah pada fitur digunakan sebagai
data uji.
Pengolahan dan Tingkat Akurasi VFI 5
dengan Data Iris
Kelompok data iris ini terdiri atas 150
kasus dengan 4 fitur dan mempunyai 3 kelas
data.

5

1.

Pengolahan Data Pelatihan Menggunakan
Nilai Fitur Terendah dan Tertinggi

a.

Pemilihan Data

Proses
ini
dilakukan
dengan
menggunakan metode non random sampling
dengan teknik purposive sampling. Teknik ini
berupa pemilihan data latih dengan hanya
mengambil beberapa nilai yang terendah dan
tertinggi (minimum dan maksimum fitur) dari
setiap fitur data untuk dijadikan data latih dan
menggunakan sisa data yang belum digunakan
sebagai data uji. Perbandingan yang
digunakan adalah mendekati 2:1, yaitu dua
untuk data latih dan satu untuk data uji.
Data iris dibagi menjadi tiga kelas yang tiap
kelasnya terdiri atas 50 kasus dengan 4 fitur.
Tiap-tiap kelas masing-masing fiturnya
diambil 2 nilai terndah dan 2 nilai tertinggi
sehingga diperoleh 8 nilai terendah dan 8 nilai
tertinggi pada tiap kelasnya. Pembagian
tersebut menghasilkan 24 nilai terendah dan
24 nilai tertinggi atau total 48 data yang
memiliki nilai nilai fitur terendah dan tertinggi
pada keseluruhan data iris. Data tersebut
digunakan untuk proses pelatihan pada iterasi
pertama. Sisanya adalah 102 data yang
sebagian diikutkan sebagai data pelatihan
dengan jumlah 51 data dan sebagian lagi
sebagai data uji dengan jumlah 51 data. Secara
keseluruhan data iris pada iterasi pertama
terdiri atas 99 data pelatihan dan 51 data uji.
Iterasi kedua dilakukan dengan menukar data
pelatihan pada iterasi pertama yang tidak
mengandung nilai fitur terendah dan tertinggi
dengan data uji pada iterasi pertama.
Pembagian data dapat dilihat pada Tabel 2.
Tabel 2 Pembagian Data Iris dengan Nilai
Fitur Terendah dan Tertinggi
Keterangan

Iterasi 1

Iterasi 2

b.

Kelas 1
Kelas 2
Kelas 3
Total
Kelas 1
Kelas 2
Kelas 3
Total

Data
Latih
33
33
33
99
33
33
33
99

Data
Uji
17
17
17
51
17
17
17
51

Proses Pelatihan dan Klasifikasi

Hasil pelatihan menggunakan nilai fitur
terendah
dan
tertinggi
menghasilkan
normalisasi akhir yang dapat dilihat pada

Lampiran 3 dan Lampiran 4. Proses pengujian
menghasilkan akurasi pada iterasi pertama
sebesar 96,08% dan pada iterasi kedua sebesar
100%. Rata-rata tingkat akurasi adalah sebesar
98,04%. Hasil akurasi ditunjukkan dalam
Tabel 3.
Tabel 3 Hasil Akurasi dengan Nilai Fitur
Terendah dan Tertinggi Data Iris
Keterangan
Iterasi 1
Iterasi 2
Rata-rata

Nilai Akurasi
96,08%
100%
98,04%

2.

Pengolahan Data Pelatihan Secara Acak

a.

Pemilihan Data

Proses
ini
dilakukan
dengan
menggunakan metode 3-fold cross validation
dengan jumlah data keseluruhan 150 kasus.
Terlebih dahulu data dibagi menjadi tiga
himpunan. Jumlah masing-masing bagiannya
hampir sama satu dengan lainnya. Pembagian
tersebut menghasilkan bagian S1, S2, dan S3.
Hasil pembagian data himpunan secara
keseluruhan disajikan dalam Tabel 4.
Tabel 4 Hasil Pembagian Acak Data Iris
Himpunan
Bagian
Kelas 1
Kelas 2
Kelas 3
Total

S1

S2

S3

17
17
17
51

17
17
17
51

16
16
16
48

Penelitian ini dilakukan dengan pelatihan
dan pengujian data sebanyak tiga kali.
Susunan data pelatihan dan data pengujian
disajikan dalam Tabel 5.
Tabel 5 Susunan Data Pelatihan dan Data
Pengujian Data Iris
Iterasi
1
2
3
b.

Pelatihan
S2 dan S3
S1 dan S3
S1 dan S2

Pengujian
S1
S2
S3

Proses Pelatihan dan Klasifikasi

Hasil pelatihan secara acak menghasilkan
normalisasi akhir yang dapat dilihat pada
Lampiran 5, Lampiran 6, dan Lampiran 7.
Proses pengujian menghasilkan akurasi pada
iterasi pertama sebesar 86,28%, pada iterasi
kedua sebesar 96,08%, dan pada iterasi ketiga
sebesar 97,92%. Rata-rata tingkat akurasi

6

adalah sebesar 93,43%.
ditunjukkan dalam Tabel 6.

akurasi

data uji. Hasil pembagian data dapat dilihat
pada Tabel 8.

Tabel 6 Hasil Akurasi dengan Nilai Acak Data
Iris

Tabel 8 Pembagian Iris dengan Nilai Fitur
Tertinggi

Keterangan
Iterasi 1
Iterasi 2
Iterasi 3
Rata-rata
3.
a.

Hasil

Nilai Akurasi
86,28%
96,08%
97,92%
93,43%

Pengolahan Data Pelatihan Menggunakan
Nilai Fitur Terendah.
Pemilihan Data

Data yang hanya memiliki nilai fitur
terendah ditambah dengan data yang tidak
memiliki nilai fitur terendah dan tertinggi
dijadikan data latih, sedangkan data ujinya
adalah data yang memiliki nilai fitur tertinggi
ditambah sisa data yang tidak memiliki nilai
fitur nilai fitur terendah dan tertinggi. Data
yang dijadikan data latih dan data uji memiliki
rasio 2:1, sehingga diperoleh 99 data latih dan
51 data uji. Hasil pembagian data dapat dilihat
pada Tabel 7.
Tabel 7 Pembagian Data Iris dengan Nilai
Fitur Terendah
Kelas
Kelas 1
Kelas 2
Kelas 3
Total
b.

Data Latih
33
33
33
99

Data Uji
17
17
17
51

Proses Pelatihan dan Klasifikasi

Hasil pelatihan menggunakan nilai fitur
terendah menghasilkan normalisasi akhir yang
dapat dilihat pada Lampiran 8. Proses
pengujian menghasilkan akurasi sebesar
72,55%.

Kelas
Kelas 1
Kelas 2
Kelas 3
Total
b.

Data Latih
33
33
33
99

Data Uji
17
17
17
51

Proses Pelatihan dan Klasifikasi

Hasil pelatihan menggunakan nilai fitur
tertinggi menghasilkan normalisasi akhir yang
dapat dilihat pada Lampiran 9. Proses
pengujian menghasilkan akurasi sebesar
70,59%.
5.

Pemilihan
Data
Pelatihan
Tanpa
Menggunakan Nilai Fitur Terendah dan
Tertinggi.

a.

Pemilihan Data

Data yang tidak memiliki nilai fitur
terendah dan tertinggi sejumlah 102 kasus
digunakan sebagai data latih sedangan data uji
adalah data yang memiliki nilai terendah dan
tertinggi sebanyak 48. Pembagian data ini
dapat dilihat pada Tabel 9.
Tabel 9 Pembagian Data Iris Tanpa Nilai Fitur
Terendah dan Tertinggi
Kelas
Kelas 1
Kelas 2
Kelas 3
Total
b.

Data Latih
34
34
34
102

Data Uji
16
16
16
48

Proses Pelatihan dan Klasifikasi

4.

Pemilihan Data Pelatihan Menggunakan
Nilai Fitur Tertinggi.

Hasil pelatihan tanpa menggunakan nilai
fitur terendah dan tertinggi menghasilkan
normalisasi akhir yang dapat dilihat pada
Lampiran 10. Proses pengujian menghasilkan
akurasi sebesar 72,92%.

a.

Pemilihan Data

6.

Data yang hanya memiliki nilai fitur
tertinggi ditambah dengan data yang tidak
memiliki nilai fitur terendah dan tertinggi
dijadikan data latih, sedangkan data ujinya
adalah data yang memiliki fitur terndah
ditambah sisa data yang tidak memiliki nilai
fitur terendah dan tertinggi. Data yang
dijadikan data latih dan data uji memiliki rasio
2:1, sehingga diperoleh 99 data latih dan 51

Analisis dan Perbandingan Akurasi pada
Data Iris

Pelatihan dan Pengujian data iris
menunjukkan tingkat akurasi yang bervariasi.
Hal ini disebabkan karena cara pemilihan data
latih dan data uji yang berbeda-beda.
Perbedaan tingkat akurasi masing-masing
ditunjukkan pada Tabel 10.

7

Tabel 10 Perbandingan Akurasi pada Data Iris
Percobaan
1
2
3
4
5

Kelompok Data
Latih
dengan nilai fitur
terendah dan
tertinggi
secara acak
dengan nilai
fitur terendah
dengan nilai fitur
tertinggi
tanpa nilai fitur
terendah dan
tertinggi

Akurasi
98,04%

Pengolahan dan Tingkat Akurasi VFI5
dengan Data Wine
Kelompok data wine ini terdiri atas 178
kasus dengan 13 fitur dan mempunyai 3 kelas
data.
1.

Pengolahan Data Pelatihan Menggunakan
Minimum dan Maksimum Fitur

72,55%

a.

Pemilihan Data

70,59%

Proses ini dilakukan dengan metode yang
sama seperti pada data iris yaitu menggunakan
metode non random sampling dengan teknik
purposive sampling. Perbandingan yang
digunakan adalah 2:1 yaitu dua untuk data
latih dan satu untuk data uji. Data wine dibagi
menjadi tiga kelas dengan kelas 1 berjumlah
59, kelas 2 berjumlah 71, dan kelas 3
berjumlah 48. Tiap kelas memiliki 13 fitur.
Tiap-tiap kelas masing-masing fiturnya
diambil 1 nilai terendah dan 1 nilai tertinggi
sehingga diperoleh 13 nilai terendah dan 13
nilai tertinggi pada tiap kelasnya. Pembagian
tersebut menghasilkan 39 nilai terendah dan
39 nilai tertinggi atau total 78 data yang
memiliki nilai terendah dan tertinggi pada
keseluruhan data wine. Data tersebut
digunakan untuk proses pelatihan pada iterasi
pertama. Sisanya adalah 100 data yang
sebagian diikutkan sebagai data pelatihan
dengan jumlah 42 data dan sebagian lagi
sebagai data uji dengan jumlah 58 data. Secara
keseluruhan data wine pada iterasi pertama
terdiri dari 120 data pelatihan dan 58 data uji.
Iterasi kedua dilakukan dengan menukar data
pelatihan pada iterasi pertama yang tidak
mengandung nilai fitur terendah dan tertinggi
dengan data uji pada iterasi pertama.
Pembagian data dapat dilihat pada Tabel 11.

93,43%

72,92%

Tabel 10 menunjukkan rata-rata akurasi
menggunakan nilai fitur terendah dan tertinggi
adalah yang tertinggi di antara lainnya yaitu
sebesar 98,04%. Hal ini disebabkan oleh data
uji tidak berada ujung selang yang bernilai nol
(vote tidak sama dengan nol) sehingga
didapatkan tingkat akurasi yang tinggi. Hasil
ini berbeda jauh dengan pelatihan data iris
secara acak yaitu sebesar 93,43%. Sebagai
pembanding tambahan yaitu pelatihan dengan
nilai fitur terendah, dengan nilai fitur tertinggi
fitur, dan tanpa nilai fitur terendah dan
tertinggi menunjukkan tingkat akurasi yang
berbeda jauh yaitu masing-masing sebesar
72,55%, 70,59%, dan 72,92%. Hal ini
disebabkan oleh adanya kasus-kasus yang
berada pada ujung selang yang bernilai nol
pada ketiga percobaan tersebut.
Pada penelitian data iris ini, perbandingan
tingkat akurasi rata-rata dari hasil kelima
percobaan digambarkan dalam Gambar 2.

Tabel 11 Pembagian Data Wine dengan Nilai
Fitur Terendah dan Tertinggi
Keterangan

Iterasi 1

Iterasi 2
Gambar 2 Perbandingan Akurasi pada Data
Iris.

Kelas 1
Kelas 2
Kelas 3
Total
Kelas 1
Kelas 2
Kelas 3
Total

Data
Latih
40
48
32
120
40
48
32
120

Data
Uji
19
23
16
58
19
23
16
58

8

b.

Proses Pelatihan dan Klasifikasi

Hasil pelatihan menggunakan nilai fitur
terendah
dan
tertinggi
menghasilkan
normalisasi akhir yang dapat dilihat pada
Lampiran 11 dan Lampiran 12. Proses
pengujian menghasilkan akurasi pada iterasi
pertama sebesar 94,83% dan pada iterasi
kedua sebesar 98,28%. Rata-rata tingkat
akurasi adalah sebesar 96,56%. Hasil akurasi
ditunjukkan dalam Tabel 12.
Tabel 12 Hasil Akurasi dengan Nilai Fitur
Minimum dan Maksimum Data Wine
Nilai Akurasi
94,83%
98,28%
96,56%

Keterangan
Iterasi 1
Iterasi 2
Rata-rata
2.

Pengolahan Data Pelatihan Secara Acak

a.

Pemilihan Data

Proses
ini
dilakukan
dengan
menggunakan metode 3-fold cross validation
dengan jumlah data keseluruhan 178 kasus.
Terlebih dahulu data dibagi menjadi tiga
himpunan. Jumlah masing-masing bagiannya
hampir sama satu dengan lainnya. Pembagian
tersebut menghasilkan bagian S1, S2, dan S3.
Hasil pembagian data himpunan secara
keseluruhan disajikan dalam Tabel 13.
Tabel 13 Hasil Pembagian Acak Data Wine
Himpunan
Bagian
Kelas 1
Kelas 2
Kelas 3
Total

S1

S2

S3

20
24
16
60

20
24
16
60

19
23
16
58

Proses pengujian menghasilkan akurasi pada
iterasi pertama sebesar 94.83%, pada iterasi
kedua sebesar 93.33%, dan pada iterasi ketiga
sebesar 95%. Rata-rata tingkat akurasi adalah
sebesar 94,39%. Hasil akurasi ditunjukkan
dalam Tabel 15.
Tabel 15 Hasil Akurasi dengan Nilai Acak
Data Wine
Keterangan
Iterasi 1
Iterasi 2
Iterasi 3
Rata-rata
3.

Pengolahan Data Pelatihan Menggunakan
Nilai Fitur Terendah.

a.

Pemilihan Data

Data yang hanya memiliki nilai fitur
terendah ditambah dengan data yang tidak
memiliki nilai fitur terendah dan tertinggi
dijadikan data latih, sedangkan data ujinya
adalah data yang memiliki nilai fitur tertinggi
ditambah sisa data yang tidak memiliki nilai
fitur terendah dan tertinggi. Data yang
dijadikan data latih dan data uji memiliki rasio
2:1, sehingga diperoleh 119 data latih dan 59
data uji. Hasil pembagian data dapat dilihat
pada Tabel 16.
Tabel 16 Pembagian Data Wine dengan Nilai
Fitur Terendah
Kelas
Kelas 1
Kelas 2
Kelas 3
Total
b.

Penelitian ini dilakukan dengan pelatihan
dan pengujian data sebanyak tiga kali.
Susunan data pelatihan dan data pengujian
disajikan dalam Tabel 14.
Tabel 14 Susunan Data Pelatihan dan Data
Pengujian Data Wine
Iterasi
1
2
3
b.

Pelatihan
S2 dan S3
S1 dan S3
S1 dan S2

Pengujian
S1
S2
S3

Proses Pelatihan dan Klasifikasi

Hasil pelatihan secara acak menghasilkan
normalisasi akhir yang dapat dilihat pada
Lampiran 13, Lampiran 14, dan Lampiran 15.

Nilai Akurasi
94.83%
93.33%
95%
94,39%

Data Latih
40
47
32
119

Data Uji
19
24
16
59

Proses Pelatihan dan Klasifikasi

Hasil pelatihan menggunakan nilai fitur
terendah menghasilkan normalisasi akhir yang
dapat dilihat pada Lampiran 16. Proses
pengujian menghasilkan akurasi sebesar
89,83%.
4.

Pemilihan Data Pelatihan Menggunakan
Nilai Fitur Tertinggi

a.

Pemilihan Data

Data yang hanya memiliki nilai fitur
tertinggi ditambah dengan data yang tidak
memiliki nilai fitur terendah dan maksimum
dijadikan data latih, sedangkan data ujinya
adalah data yang memiliki nilai fitur terendah
dan tertinggi ditambah sisa data yang tidak
memiliki nilai fitur terendah dan tertinggi.

9

Data yang dijadikan data latih dan data uji
memiliki rasio 2:1, sehingga diperoleh 119
data latih dan 59 data uji. Hasil pembagian
data dapat dilihat pada Tabel 17.
Tabel 17 Pembagian Data Wine dengan Nilai
Fitur Tertinggi
Kelas
Kelas 1
Kelas 2
Kelas 3
Total
b.

Data Latih
40
47
32
119

Data Uji
19
24
16
59

Proses Pelatihan dan Klasifikasi

Hasil pelatihan menggunakan nilai fitur
tertinggi menghasilkan normalisasi akhir yang
dapat dilihat pada Lampiran 17. Proses
pengujian menghasilkan akurasi sebesar
88,14%.
5.

Pemilihan
Data
Pelatihan
Tanpa
Menggunakan Nilai Fitur Terendah dan
Tertinggi

a.

Pemilihan Data

Data yang tidak memiliki nilai fitur
terendah dan tertinggi sejumlah 100 kasus
digunakan sebagai data latih sedangan data uji
adalah data yang memiliki nilai fitur terendah
dan tertinggi sebanyak 78. Pembagian data ini
dapat dilihat pada Tabel 18.
Tabel 18 Pembagian Data Wine dengan Tanpa
Menggunakan Nilai Fitur Terendah dan
Tertinggi
Kelas
Kelas 1
Kelas 2
Kelas 3
Total
b.

Data Latih
33
45
22
100

Data Uji
26
26
26
78

Proses Pelatihan dan Klasifikasi

Hasil pelatihan tanpa menggunakan nilai
fitur terendah dan tertinggi menghasilkan
normalisasi akhir yang dapat dilihat pada
Lampiran 18. Proses pengujian menghasilkan
akurasi sebesar 89,74%.
6.

Tabel 19 Perbandingan Akurasi pada Data
Wine
Percobaan
1
2
3
4
5

Kelompok Data
Latih
dengan nilai fitur
terendah dan
tertinggi
secara acak
dengan nilai
fitur terendah
dengan nilai fitur
tertinggi
tanpa nilai fitur
terendah dan
tertinggi

Akurasi
96,56%
94,39%
89,83%
88,14%
89,74%

Tabel 19 menunjukkan rata-rata akurasi
menggunakan nilai fitur terendah dan tertinggi
adalah yang tertinggi di antara lainnya yaitu
sebesar 96,56%. Hal ini disebabkan oleh data
uji yang tidak berada di ujung selang yang
bernilai nol (vote tidak sama dengan nol).
Hasil ini tidak berbeda jauh dengan tingkat
akurasi pada pelatihan data wine secara acak
y