BENCHMARKING ALGORITMA PEMILIHAN ATRIBUT. pdf
SNASTIA 2013
ISSN 1979-3960
BENCHMARKING ALGORITMA PEMILIHAN ATRIBUT PADA
KLASIFIKASI DATA MINING
Intan Yuniar Purbasari1, Budi Nugroho2
Jurusan Teknik Informatika, Fakultas Teknologi Industri, UPN “Veteran” Jatim
Jl. Rungkut Madya, Surabaya
email : [email protected], [email protected], [email protected]
1,2
Abstract: In data mining, the process of information retrieval success is influenced by several factors. One key
factor is the quality of the data. If the data has too much noise, or a lot of data is redundant and irrelevant, the
training process of information discovery will be troublesome. Attribute selection technique is one technique for
selecting data attributes to identify and eliminate irrelevant and redundant information. This study compared the
performance of six attribute selection algorithms available in Weka to classify 25 datasets, using two
classification algorithms: Naïve Bayes and C4.5. From the test results, it obtained Wrapper technique which has
the best performance on both types of classification algorithms, which provides improved correct datasets
classification on 13 and 8, respectively.
Keywords: benchmarking, attribute selection algorithms, data mining, classification
1. PENDAHULUAN
Di dalam data mining, kesuksesan proses penemuan informasi dipengaruhi oleh beberapa faktor. Salah satu
faktor kuncinya adalah kualitas data. Jika data memiliki terlalu banyak noise, atau banyak data yang redundant
dan tidak relevan, proses pelatihan penemuan informasi akan mengalami kesulitan.
Teknik pemilihan atribut adalah salah satu teknik untuk menseleksi atribut data dengan mengidentifikasi dan
menghilangkan informasi yang tidak relevan dan redundan. Dengan mengurangi dimensi data, ruang hipotesis
akan mengecil dan algoritma learning akan berjalan lebih cepat. Dengan demikian, pemilihan teknik seleksi
atribut yang tepat akan mempercepat proses pembelajaran pada klasifikasi data pada data mining. Banyak
algoritma pemilihan atribut yang menggunakan pendekatan permasalahan searching dimana setiap subset dari
solusi permasalahan merupakan kelompok atribut yang terpilih [1]. Ukuran ruang hipotesis yang eksponensial
menjadikan diperlukannya pencarian heuristik untuk seluruh dataset. Dalam prosesnya, setelah sejumlah atribut
terpilih menjadi kandidat, diperlukan evaluator tingkat utilitas atribut untuk menilai kelayakan terpilihnya
kandidat atribut tersebut. Ini menyebabkan terbentuknya permutasi yang sangat besar sehingga proses penilaian
atribut ini akan memakan waktu yang cukup lama. Hal inilah yang menyebabkan tidak banyaknya studi yang
dilakukan tentang benchmarking algoritma pemilihan atribut pada dataset nontrivial.
Beberapa studi yang telah dilakukan antara lain di [1], [2], dan [3]. Di [2], dataset yang digunakan adalah
dataset artifisial yang berukuran kecil dan beberapa algoritma pemilihan atribut dinilai kekurangan dan
kelebihannya terhadap noise, perbedaan tipe atribut, dataset multiclass, dan kompleksitas waktu komputasi. Pada
[3], percobaan dilakukan pada 25 dataset UCI1 yang sering digunakan pada proses klasifikasi dan
mengujicobanya dengan menggunakan algoritma klasifikasi Naïve-Bayes dan C45.
Penelitian ini membandingkan kinerja enam algoritma seleksi atribut dalam meningkatkan kesuksesan hasil
klasifikasi dengan menggunakan algoritma klasifikasi Naïve-Bayes dan C4.5. Penelitian ini banyak mengacu
pada tahapan-tahapan yang dilakukan di [3], dalam hal dataset yang digunakan, algoritma pemilihan atribut, dan
algoritma klasifikasi yang digunakan dengan penambahan 10 dataset baru untuk memberikan referensi yang
lebih lengkap tentang performa setiap algoritma pemilihan atribut yang ada terhadap dataset yang lebih banyak.
2. MODEL, ANALISIS, DESAIN, DAN IMPLEMENTASI
Penelitian ini menggunakan software tool untuk data mining Weka2 versi 3.6.6, yang merupakan software
gratis yang memiliki fitur lengkap untuk machine learning dan data mining.
Berikut dibahas secara singkat tentang dataset yang digunakan serta masing-masing algoritma pemilihan
atribut yang digunakan dalam penelitian ini.
Teknik Informatika / Universitas Surabaya
Halaman C-47
SNASTIA 2013
ISSN 1979-3960
2.1. Dataset
Penelitian sebelumnya menggunakan dataset UCI 1, namun dataset tersedia dalam beberapa versi dan
dalam format C4.5 (dengan ekstensi .data dan .names). Karena Weka paling baik bekerja pada dataset
berekstensi .arff, beberapa dataset mengalami kesulitan ketika di-load ke dalam Weka, walaupun telah
menggunakan converter yang disediakan. Oleh karena itu, dataset yang sama dengan ekstensi .arff telah
diperoleh dari [4] sebanyak 25 dataset seperti pada tabel 1.
2.2. Tahap pra-pemrosesan
Tiga dari enam teknik pemilihan atribut pada tabel 1 hanya beroperasi pada atribut yang bertipe diskrit.
Oleh karena itu, agar teknik tersebut dapat dioperasikan pada atribut bertipe numerik, perlu dilakukan tahap
diskretisasi sebagai tahap pra-pemrosesan. Penelitian ini menggunakan teknik supervised discretization yang
digagas oleh Fayyad dan Irani [5] yang telah tersedia di dalam Weka pada class
weka.filters.supervised.attribute.Discretize sebagai teknik diskretisasi default.
Data Set
anneal
audiology
autos
breast-c
car
credit-g (German credit data)
dermatology
diabetes
glass-2
horse colic
heart-c(cleve)
heart-stat
hepatitis
ionosphere
iris
labor-neg
lymph
segment
sonar
soybean
tic-tac-toe
train
vote
vowel
zoo
Tabel 1. Dataset
Train size Test size
898
CV
226
CV
205
CV
286
CV
1728
CV
1000
CV
366
CV
768
CV
214
CV
300
CV
303
CV
270
CV
155
CV
351
CV
150
CV
57
CV
148
CV
2310
CV
208
CV
683
CV
958
CV
10
CV
435
CV
990
CV
101
CV
Num.
6
0
16
0
0
7
1
8
9
7
6
13
6
34
4
8
3
19
60
0
0
0
0
6
1
Nom.
32
70
10
9
7
13
33
0
0
15
7
0
13
0
0
8
15
0
0
35
9
32
16
3
16
Classes
5
24
2
2
4
2
6
2
7
2
2
2
2
2
3
2
4
7
2
19
2
2
2
11
7
2.3. Teknik Seleksi Atribut
Menurut [3], ada dua kategori utama pada teknik seleksi atribut: filter dan wrapper . Teknik filter
menggunakan karakteristik umum dari data untuk mengevaluasi atribut dan beroperasi secara independen
terhadap sembarang algoritma pembelajaran. Teknik wrapper mengevaluasi atribut dengan menggunakan
estimasi akurasi dari algoritma pembelajaran target.
Jenis kategori yang lain membagi teknik seleksi atribut menjadi kategori teknik yang mengevaluasi atribut
secara individual dan kategori yang mengevaluasi subset atribut sekaligus.
Weka menyediakan beberapa evaluator atribut dan metode pencarian yang digunakan. Metode pencarian
BestFirst merupakan metode pencarian hill climbing dengan opsi backtracking. Metode GreedyStepwise
melakukan teknik greedy dengan menambahkan satu-persatu atribut ke dalam subset solusi dan berhenti ketika
penambahan atribut baru menyebabkan penurunan pada penilaian evaluasi atribut. Metode
Teknik Informatika / Universitas Surabaya
Halaman C-48
SNASTIA 2013
ISSN 1979-3960
LinearFor wardSelection merupakan modifikasi dari BestFirst dengan penambahan sejumlah k atribut ke dalam
penilaian. Metode RankSearch melakukan perangkingan atribut dengan menggunakan evaluator atribut/subset.
2.3.1 Teknik Information Gain (IG)
Teknik ini merangking atribut dengan menghitung entropi dari sebuah kelas C sebelum dan setelah
mengamati sebuah atribut A. Nilai penurunan entropi disebut information gain. Persamaan (1) dan (2)
menghitung entropi kelas sebelum dan sesudah pengamatan terhadap atribut A. Setiap atribut diberikan sebuah
skor berdasarkan information gain-nya. Rumus perhitungan information gain terdapat pada persamaan (3).
(1)
(2)
(3)
Teknik ini mengharuskan data numerik didiskritkan terlebih dahulu. Pada Weka, fungsi ini tersedia dalam class
weka.attributeSelection.InfoGainAttributeEval dan dipasangkan dengan metode pencarian
Ranker .
2.3.2 Relief (RLF)
Relief adalah metode perangkingan atribut berbasis instance yang secara acak mengambil sampel sebuah
instance data dan mencari nearest neighbor pada class yang sama dan berlawanan. Pada awalnya, metode ini
digunakan pada permasalahan klasifikasi 2 class. Nilai atribut dari nearest neighbor dibandingkan dengan
sampel instance data dan digunakan untuk menghasilkan skor untuk setiap atribut. Proses ini diulangi untuk m
instance, dimana nilai m dapat ditentukan oleh user .
Versi pengembangan dari Relief adalah ReliefF dan dapat digunakan untuk menangani noise dan dataset
dengan banyak class. Noise data dihaluskan dengan merata-rata kontribusi dari k nearest neighbors dari class
yang sama dan berlawanan dari setiap sampel instance. Pada Weka, teknik ini tersedia dalam class
weka.attributeSelection.ReliefFAttributeEval dan dipasangkan dengan metode pencarian
Ranker . Gambar 1 merupakan algoritma dari ReliefF.
Gambar 1. Algoritma ReliefF
2.3.3 Principal Component (PC)
Analisis Principal Component menggunakan perhitungan statistik untuk mengurangi dimensionalitas data
dengan menghasilkan eigenvector dari atribut. Eigenvector tersebut lalu dirangking berdasarkan jumlah variasi
dalam data asli yang mereka wakili. Hanya sedikit dari beberapa atribut pertama yang berkontribusi terhadap
variasi data yang akan diambil.
Pada
Weka,
teknik
ini
terdapat
dalam
class
weka.attributeSelection.PrincipalComponents dan dipasangkan dengan metode pencarian
Ranker.
Teknik Informatika / Universitas Surabaya
Halaman C-49
SNASTIA 2013
ISSN 1979-3960
2.3.4 Correlation-Based Feature Selection (CFS)
Teknik ini termasuk ke dalam kategori seleksi fitur yang mengevaluasi subset dari atribut. Teknik ini
mempertimbangkan kegunaan atribut individual untuk memprediksi class dan juga level inter-korelasi di antara
mereka. Sebuah fungsi heuristik (4) memberikan skor tinggi kepada subset yang berisi atribut-atribut yang
berkorelasi tinggi dengan class-nya dan memiliki inter-korelasi rendah dengan satu sama lain.
(4)
CFS mengharuskan atribut numerik didiskritkan terlebih dahulu sebelum menggunakan symmetrical
uncertainty untuk mengestimasi derajat asosiasi antara dua fitur diskrit. Pada Weka, teknik ini tersedia dalam
class weka.attributeSelection.CfsSubsetEval dan dipasangkan dengan metode pencarian
ForwardSelection.
2.3.5 Consistency-Based Subset Evaluation (CNS)
Teknik ini menggunakan konsistensi class sebagai metrik evaluasi (5) yang mencari kombinasi atribut
yang nilainya membagi data ke dalam subset yang berisi class mayoritas tunggal yang kuat.
(5)
Teknik ini juga mengharuskan atribut numerik didiskritkan terlebih dahulu sebelum diproses. Dalam
Weka, fitur ini tersedia dalam class weka.attributeSelection.ConsistencySubsetEval dan
dipasangkan dengan metode pencarian ForwardSelection.
2.3.6 Wrapper Subset Evaluation (WRP)
Pada implementasi teknik ini di Weka, dilakukan 5-fold cross validation untuk estimasi akurasi. Cross
validation diulangi selama standar deviasi yang didapat lebih besar dari 1% dari rata-rata akurasi atau hingga
lima
repetisi
telah
dilakukan.
Pada
Weka,
teknik
ini
tersedia
di
class
weka.attributeSelection.WrapperSubsetEval dan dipasangkan dengan metode pencarian
ForwardSelection.
2.4. Reduksi Dimensionalitas
Sebelum dataset diberikan kepada algoritma learning, setiap selektor atribut mengurangi dimensionalitas
berdasarkan ranking atribut. Karena metode 10-fold cross validation digunakan, setiap training set dari
pemisahan set train-test digunakan untuk mengestimasi kelayakan dari n rangking atribut tertinggi untuk dipilih
sebagai subset atribut terbaik. Nilai n didapat dengan menggunakan forward selection hill climbing search untuk
mencari subset atribut terbaik.
2.5. Algoritma Klasifikasi C4.5 dan Naïve-Bayes
Mengikuti teknik yang diterapkan pada [3], digunakan 2 jenis algoritma klasifikasi, yakni C4.5 dan
Naïve-Bayes. Alasan digunakan 2 jenis ini adalah karena keduanya menggunakan pendekatan yang berbeda dan
memiliki waktu running yang relatif cepat, serta keduanya telah tersedia di dalam Weka.
Algoritma Naïve-Bayes menghitung probabilitas nilai atribut secara independen di dalam setiap class dari
training instance. Ketika sebuah training instance datang, probabilitas posterior dari setiap class dihitung
menggunakan nilai atribut dari instance tersebut dan instance akan dimasukkan ke dalam class yang memiliki
probabilitas tertinggi.
Sementara itu, algoritma C4.5 secara rekursif mempartisi training data berdasarkan tes yang dilakukan
pada nilai atribut untuk memisahkan class. Tes atribut ini dipilih satu-persatu dengan pendekatan greedy dan
bergantung pada hasil yang didapat dari tes sebelumnya.
2.6. Metodologi
Seluruh 25 dataset diberikan perlakuan yang sama dengan menerapkan 6 teknik pemilihan atribut untuk
masing-masing dataset. Setelah atribut diseleksi, dataset diproses dengan 2 algoritma learning, yakni Naïve-
Teknik Informatika / Universitas Surabaya
Halaman C-50
SNASTIA 2013
ISSN 1979-3960
Bayes dan C4.5. Dataset ini bervariasi dari segi ukuran, mulai puluhan hingga ribuan, yang masing-masingnya
memiliki kurang dari 100 atribut.
Untuk membandingkan hasil klasifikasi, digunakan mode Weka Experimenter pada Weka. Persentase
kebenaran klasifikasi dirata-rata dari 10 kali 10-fold cross validation dan untuk setiap tekniknya, dibandingkan
antara hasil sebelum dan sesudah dilakukan pemilihan atribut. Weka memiliki class
weka.classifiers.meta.AttributeSelectedClassifier
yang
memungkinkan
untuk
menerapkan teknik pemilihan atribut dan mengurangi dimensi data sebelum dilewatkan pada sebuah algoritma
classifier . Setting parameter yang akan digunakan pada penelitian ini adalah setting default dari Weka.
3. HASIL DAN PEMBAHASAN
Seperti yang telah dijelaskan pada subbab metodologi, penerapan teknik pemilihan atribut dan hasil
klasifikasi dilakukan dalam mode Weka Experimenter. Untuk keduapuluhlima dataset, persentase kebenaran
klasifikasi dari masing-masing algoritma learning dirata-rata dari 10 kali 10-fold cross validation. Tabel 2
menunjukkan hasil benchmark dari 6 algoritma terhadap 25 dataset dengan menggunakan algoritma klasifikasi
Naïve-Bayes dan Tabel 4 menunjukkan hasil benchmark dengan menggunakan algoritma klasifikasi C4.5.
Tabel 2. Hasil untuk Seleksi Atribut dengan Naïve Bayes
No
(1)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Dataset
(2)
NB
IG
RLF
PC
(3)
(4)
(5)
(6)
anneal
86.59 96.13 v 96.13 v 93.73
audiology
72.64 72.64
72.64
54.01
autos
57.41 70.59 v 70.59 v 72.75
breast-cancer
72.70 72.70
72.70
68.17
car
85.46 85.46
85.46
85.72
horse-colic
78.70 79.68
79.68
78.89
german_credit
75.16 75.43
75.43
71.04
dermatology
97.43 97.93
97.93
95.36
pima_diabetes
75.75 77.85 v 77.85 v 76.83
Glass
49.45 74.39 v 74.39 v 71.63
cleve-heart-disease
83.34 83.97
83.97
81.44
heart-statlog
83.59 83.74
83.74
81.78
hepatitis
83.81 85.12 v 85.12 v 84.63
ionosphere
82.17 90.77 v 90.77 v 88.64
iris
95.53 94.47 * 94.47 * 94.67
labor
93.57 92.53 * 92.53 * 89.27
lymphography
83.13 84.97 v 84.97 v 80.99
segment
80.17 91.71 v 91.71
84.56
sonar
67.71 85.16 v 85.16 v 82.47
soybean
92.94 92.94
92.94
91.83
tic-tac-toe
69.62 69.64
69.64
74.54
trains
70.00 70.00
70.00
40.00
vote
90.02 90.02
90.02
90.09
vowel
62.90 65.23 v 65.23 v 65.00
zoo
94.97 93.21 * 93.21 * 68.05
v=menaik secara signifikan, *=menurun secara signifikan
*
*
v
*
*
*
v
v
*
v
*
*
*
v
*
v
*
v
*
CNS
(7)
97.02
72.29
77.43
73.04
85.46
83.46
73.74
98.09
79.41
73.19
83.24
83.3
85.36
91.65
95.27
84.1
81.01
93.67
82.28
92.15
71.84
60.00
94.57
66.07
92.49
v
v
v
*
v
v
v
v
*
*
v
v
v
*
v
v
*
CFS
(8)
97.70
69.36
76.74
71.74
85.46
82.72
74.37
95.05
77.85
74.12
83.67
83.74
84.92
91.29
94.80
87.87
80.77
93.43
81.46
83.15
72.34
40.00
91.98
64.14
40.61
v
*
v
v
*
v
v
v
v
*
*
v
v
*
v
*
v
v
*
WRP
(9)
98.30
74.00
77.71
72.40
85.26
83.18
73.88
97.73
78.27
75.04
80.93
82.78
86.39
92.00
93.53
85.03
81.74
94.37
77.90
92.65
71.26
70.00
95.29
68.64
92.12
v
v
v
v
*
v
v
*
v
v
*
*
*
v
v
v
v
v
*
Tabel 2 menunjukkan perbandingan performa masing-masing algoritma (kolom 4-9) terhadap tiap dataset
dalam melakukan klasifikasi dengan Naïve Bayes dibandingkan dengan yang tanpa menggunakan seleksi fitur
sama sekali (kolom 3). Keterangan “*” dan “v” menunjukkan selisih yang signifikan secara statistik (lebih dari
1%), sesuai hasil uji-t 2 pasang. Dari tabel 2, dapat dilihat bahwa hasil terbaik dilakukan oleh Wrapper yang
memberikan peningkatan kebenaran klasifikasi pada 13 dataset dan penurunan pada 6 dataset. CNS berada pada
peringkat kedua, dengan kenaikan pada 12 dataset dan penurunan pada 5 dataset. Peringkat ketiga adalah CFS
dengan kenaikan pada 12 dataset dan penurunan pada 7 dataset. Metode Information Gain (IG) memberikan
kenaikan pada 10 dataset dan penurunan pada 3 dataset sedangkan RLF naik untuk 9 dataset dan turun untuk 3
Teknik Informatika / Universitas Surabaya
Halaman C-51
SNASTIA 2013
ISSN 1979-3960
dataset. Yang terburuk adalah Principal Component (PC) dengan kenaikan pada 7 dataset dan penurunan pada 12
dataset.
Tabel 3 menggambarkan ranking dari seluruh teknik seleksi atribut terhadap keakuratan kebenaran
klasifikasi dengan algoritma Naïve Bayes pada 25 dataset. Beberapa teknik seleksi atribut memiliki kebenaran
klasifikasi yang sama dan tertinggi di antara yang lain, sehingga teknik-teknik seleksi tersebut dihitung bersamasama sebagai pemenang. Dari tabel 3, terlihat bahwa Wrapper tetap yang paling unggul dibandingkan metode
lainnya dengan 10 kemenangan, sedangkan CFS secara mengejutkan berada pada posisi terakhir dengan hanya
menang di 1 dataset saja (dataset 12) bersama-sama dengan IG dan RLF.
Tabel 3. Ranking Teknik Seleksi Atribut pada algoritma Naïve Bayes
Teknik
WRP
IG
RLF
NB
CNS
PC
CFS
Menang
10
8
8
6
3
2
1
Tabel 4 menunjukkan hasil benchmark dari 6 teknik seleksi atribut dan tanpa seleksi atribut dengan
menggunakan algoritma klasifikasi C4.5 terhadap 25 dataset.
Tabel 4. Hasil untuk Seleksi Atribut dengan C4.5
No
(1)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Dataset
(2)
NB
IG
RLF
(3)
(4)
(5)
anneal
98.57 98.75
98.75
audiology
77.26 77.36
77.35
autos
81.77 82.29
82.53
breast-cancer
74.28 74.28
74.28
car
92.22 92.22
92.22
horse-colic
85.16 85.13
85.13
german_credit
71.25 72.16
72.19
dermatology
94.10 94.26
94.26
pima_diabetes
74.49 77.34 v 77.34 v
Glass
67.63 75.23 v 75.23 v
cleve-heart-disease
76.94 77.66
77.92
heart-statlog
78.15 82.19 v 82.22 v
hepatitis
79.22 82.15 v 82.15 v
ionosphere
89.74 89.43
89.43
iris
94.73 93.87
94.80
labor
78.60 87.90 v 87.90 v
lymphography
75.84 76.71
76.51
segment
96.79 95.20 * 95.19 *
sonar
73.61 80.74 v 80.55 v
soybean
91.78 91.77
91.77
tic-tac-toe
85.28 85.35
85.35
trains
90.00 90.00
90.00
vote
96.57 96.57
96.57
vowel
80.20 79.24
79.31
zoo
92.61 91.11 * 91.11 *
v=menaik secara signifikan, *=menurun secara signifikan
PC
(6)
96.54
58.89
76.27
67.94
88.33
72.53
68.49
94.29
77.08
75.68
78.97
82.48
82.13
88.38
93.13
89.07
75.16
88.76
78.28
86.76
85.08
40.00
90.27
72.37
81.39
*
*
*
*
*
*
*
v
v
v
v
v
*
*
v
*
v
*
*
*
*
*
CNS
(7)
97.33
76.86
75.05
73.08
92.22
81.77
73.20
93.66
79.09
73.84
79.50
82.89
82.87
90.63
93.87
84.63
73.99
95.58
79.02
90.20
77.43
90.00
95.63
72.45
93.28
*
*
*
*
v
v
v
v
v
v
v
*
*
v
*
*
*
CFS
(8)
98.41
73.76
76.30
72.59
92.22
85.13
72.46
91.64
77.34
74.63
78.15
82.26
82.83
90.51
93.87
81.17
73.89
95.66
77.89
83.53
83.62
0.00
96.32
79.72
40.61
*
*
*
v
*
v
v
v
v
v
v
*
*
v
*
*
*
*
WRP
(9)
98.80
76.99
75.56
75.11
92.67
84.37
70.51
93.77
77.28
71.35
77.59
82.52
82.70
91.45
93.67
82.33
77.75
95.71
75.57
91.74
85.19
82.00
95.40
80.30
91.47
Tabel 4 menunjukkan perbandingan performa masing-masing algoritma (kolom 4-9) terhadap tiap dataset
dalam melakukan klasifikasi dengan C4.5 dibandingkan dengan yang tanpa menggunakan seleksi atribut sama
sekali (kolom 3). Wrapper masih merupakan teknik seleksi atribut yang terunggul dibandingkan yang lainnya
Teknik Informatika / Universitas Surabaya
Halaman C-52
*
v
v
v
v
v
v
v
*
v
*
*
*
SNASTIA 2013
ISSN 1979-3960
dengan memberikan kenaikan kebenaran klasifikasi pada 8 dataset dan penurunan pada 5 dataset. CNS menjadi
yang terbaik kedua dengan memberikan kenaikan pada 8 dataset dan penurunan pada 9 dataset, sedangkan CFS
berada sedikit di bawah CNS dengan kenaikan pada 8 dataset dan penurunan pada 10 dataset. Dua teknik
memiliki posisi yang sama, yakni IG dan RLF, yang sama-sama memiliki kenaikan pada 6 dataset dan
penurunan pada 2 dataset. Di posisi terbawah adalah PC dengan kenaikan pada 7 dataset dan penurunan pada 15
dataset.
Walaupun IG dan RLF sama-sama memiliki nilai kenaikan dataset yang lebih rendah dibandingkan
Wrapper, namun keduanya memiliki selisih naik-turun yang terbesar (yakni 4) dibandingkan dengan Wrapper
yang sebesar 3.
Tabel 5 menggambarkan ranking dari seluruh teknik seleksi atribut terhadap keakuratan kebenaran
klasifikasi dengan algoritma C4.5 pada 25 dataset. Beberapa teknik seleksi atribut memiliki kebenaran klasifikasi
yang sama dan tertinggi di antara yang lain, sehingga teknik-teknik seleksi tersebut dihitung bersama-sama
sebagai pemenang.
Tabel 5. Ranking Teknik Seleksi Atribut pada algoritma C4.5
Teknik
WRP
CNS
RLF
C4.5
PC
IG
CFS
Menang
7
6
5
4
3
1
1
Dari tabel 5, dapat dilihat bahwa Wrapper masih lebih unggul dari teknik lainnya dengan menang pada 7
dataset, sedangkan CFS kembali menempati posisi terakhir dengan unggul hanya pada 1 dataset saja (dataset 7).
Hasil ini sedikit berbeda dengan [3] dimana yang menjadi pemenang adalah RLF. Hal ini dimungkinkan
karena adanya perbedaan pada jumlah dataset yang dijadikan ujicoba. Setiap dataset memiliki karakteristik
tersendiri yang dapat mempengaruhi baik tidaknya kinerja teknik seleksi atribut yang diterapkan. Kemungkinan
penyebab lain adalah penggunaan metode pencarian yang berbeda. Pada penelitian ini, untuk IG, RLF, dan PC
digunakan metode pencarian Ranker, karena metode tersebut adalah satu-satunya metode pencarian pada Weka
yang dapat dipasangkan dengan ketiganya. Sedangkan untuk CFS, CNS, dan WRP digunakan metode pencarian
Linear Forward Selection sesuai dengan metode yang digunakan pada [3] dan merupakan pendekatan greedy
sederhana yang secara sekuensial menambahkan sebuah atribut yang memiliki nilai tertinggi ketika
dikombinasikan dengan sejumlah atribut lain yang sudah terpilih.
Sebagai perbandingan pula dari segi running time, percobaan pertama dengan 25 dataset, 6 algoritma
seleksi atribut dan menggunakan algoritma klasifikasi Naïve Bayes, dibutuhkan waktu 2 jam dan 37 menit.
Sedangkan percobaan kedua dengan jumlah dataset dan algoritma seleksi atribut yang sama dan menggunakan
algoritma klasifikasi C4.5, dibutuhkan waktu 4 jam dan 56 menit. Proses dengan algoritma C4.5 membutuhkan
waktu lebih lama karena algoritma tersebut membangun model tree terlebih dahulu dari dataset yang ada, baru
kemudian melakukan proses klasifikasi. Semakin banyak jumlah atribut dari sebuah dataset, semakin lama
proses menghasilkan model tree-nya. Lingkungan ujicoba penelitian ini menggunakan prosesor Intel 1.8GHz
dengan memori 4GB.
4. KESIMPULAN
Penelitian ini telah melakukan studi perbandingan terhadap kinerja 6 teknik seleksi atribut pada 25
dataset. Berdasarkan hasil ujicoba yang telah dilakukan, diperoleh kesimpulan bahwa teknik seleksi atribut
Wrapper adalah yang terbaik dari 5 teknik lainnya, sekaligus merupakan teknik yang membutuhkan waktu paling
lama, baik dengan algoritma klasifikasi Naïve Bayes maupun C4.5.
Hasil yang diperoleh tidak menjustifikasi bahwa teknik Wrapper adalah yang paling baik digunakan pada
dataset apapun, namun hanya memberikan rujukan umum bagi peneliti yang akan menerapkan teknik seleksi
atribut pada datasetnya.
Teknik Informatika / Universitas Surabaya
Halaman C-53
SNASTIA 2013
ISSN 1979-3960
5. SARAN
Proses ujicoba yang cukup memakan waktu merupakan salah satu kendala yang menyebabkan kurang
menyeluruhnya pembandingan faktor-faktor lainnya untuk dilakukan, selain ketepatan hasil klasifikasi, seperti
sensitivitas masing-masing teknik terhadap missing data serta noise, juga jumlah tree yang dihasilkan oleh tiap
teknik pada penggunaan algoritma klasifikasi C4.5. Untuk selanjutnya, peneliti akan memasukkan faktor-faktor
tersebut sebagai kinerja yang diukur pada penelitian berikutnya.
6. Daftar Pustaka
[1] A. Blum and P. Langley, “Selection of Relevant Features and Examples in Machine Learning,” Artificial
Intelligence, vol. 97, nos. 1-2, pp. 245-271, 1997.
[2] M. Dash and H. Liu, “Feature Selection for Classification,” Intelligent Data Analysis, vol. 1, no. 3, 1997.
[3] Hall and Holmes, “Benchmarking Attribute Selection Techniques for Discrete Class Data Mining”, IEEE
Transactions on Knowledge and Data Engineering, Vol. 15, No. 6, IEEE Computer Society, 2003.
[4] Repository of Software Environment for the Advancement of Scholarly Research (SEASR). [Online].
Available: http://repository.seasr.org/Datasets/UCI/arff/.
[5] U.M. Fayyad and K.B. Irani, Multiinterval Discretisation of Continuous-Valued Attributes, Proc. 13th Int’l
Joint Conf. Artificial Intelligence, pp. 1022-1027, 1993.
, E., Brohee, S. & van Helden, J., "Regulatory Sequence Analysis Tools (RSAT) Nucleic Acids Res.,” 2008.
Available: http://rsat.ulb.ac.be/.
Acids Res.," 2008. Available: http://rsat.ulb.ac.be/.
Teknik Informatika / Universitas Surabaya
Halaman C-54
ISSN 1979-3960
BENCHMARKING ALGORITMA PEMILIHAN ATRIBUT PADA
KLASIFIKASI DATA MINING
Intan Yuniar Purbasari1, Budi Nugroho2
Jurusan Teknik Informatika, Fakultas Teknologi Industri, UPN “Veteran” Jatim
Jl. Rungkut Madya, Surabaya
email : [email protected], [email protected], [email protected]
1,2
Abstract: In data mining, the process of information retrieval success is influenced by several factors. One key
factor is the quality of the data. If the data has too much noise, or a lot of data is redundant and irrelevant, the
training process of information discovery will be troublesome. Attribute selection technique is one technique for
selecting data attributes to identify and eliminate irrelevant and redundant information. This study compared the
performance of six attribute selection algorithms available in Weka to classify 25 datasets, using two
classification algorithms: Naïve Bayes and C4.5. From the test results, it obtained Wrapper technique which has
the best performance on both types of classification algorithms, which provides improved correct datasets
classification on 13 and 8, respectively.
Keywords: benchmarking, attribute selection algorithms, data mining, classification
1. PENDAHULUAN
Di dalam data mining, kesuksesan proses penemuan informasi dipengaruhi oleh beberapa faktor. Salah satu
faktor kuncinya adalah kualitas data. Jika data memiliki terlalu banyak noise, atau banyak data yang redundant
dan tidak relevan, proses pelatihan penemuan informasi akan mengalami kesulitan.
Teknik pemilihan atribut adalah salah satu teknik untuk menseleksi atribut data dengan mengidentifikasi dan
menghilangkan informasi yang tidak relevan dan redundan. Dengan mengurangi dimensi data, ruang hipotesis
akan mengecil dan algoritma learning akan berjalan lebih cepat. Dengan demikian, pemilihan teknik seleksi
atribut yang tepat akan mempercepat proses pembelajaran pada klasifikasi data pada data mining. Banyak
algoritma pemilihan atribut yang menggunakan pendekatan permasalahan searching dimana setiap subset dari
solusi permasalahan merupakan kelompok atribut yang terpilih [1]. Ukuran ruang hipotesis yang eksponensial
menjadikan diperlukannya pencarian heuristik untuk seluruh dataset. Dalam prosesnya, setelah sejumlah atribut
terpilih menjadi kandidat, diperlukan evaluator tingkat utilitas atribut untuk menilai kelayakan terpilihnya
kandidat atribut tersebut. Ini menyebabkan terbentuknya permutasi yang sangat besar sehingga proses penilaian
atribut ini akan memakan waktu yang cukup lama. Hal inilah yang menyebabkan tidak banyaknya studi yang
dilakukan tentang benchmarking algoritma pemilihan atribut pada dataset nontrivial.
Beberapa studi yang telah dilakukan antara lain di [1], [2], dan [3]. Di [2], dataset yang digunakan adalah
dataset artifisial yang berukuran kecil dan beberapa algoritma pemilihan atribut dinilai kekurangan dan
kelebihannya terhadap noise, perbedaan tipe atribut, dataset multiclass, dan kompleksitas waktu komputasi. Pada
[3], percobaan dilakukan pada 25 dataset UCI1 yang sering digunakan pada proses klasifikasi dan
mengujicobanya dengan menggunakan algoritma klasifikasi Naïve-Bayes dan C45.
Penelitian ini membandingkan kinerja enam algoritma seleksi atribut dalam meningkatkan kesuksesan hasil
klasifikasi dengan menggunakan algoritma klasifikasi Naïve-Bayes dan C4.5. Penelitian ini banyak mengacu
pada tahapan-tahapan yang dilakukan di [3], dalam hal dataset yang digunakan, algoritma pemilihan atribut, dan
algoritma klasifikasi yang digunakan dengan penambahan 10 dataset baru untuk memberikan referensi yang
lebih lengkap tentang performa setiap algoritma pemilihan atribut yang ada terhadap dataset yang lebih banyak.
2. MODEL, ANALISIS, DESAIN, DAN IMPLEMENTASI
Penelitian ini menggunakan software tool untuk data mining Weka2 versi 3.6.6, yang merupakan software
gratis yang memiliki fitur lengkap untuk machine learning dan data mining.
Berikut dibahas secara singkat tentang dataset yang digunakan serta masing-masing algoritma pemilihan
atribut yang digunakan dalam penelitian ini.
Teknik Informatika / Universitas Surabaya
Halaman C-47
SNASTIA 2013
ISSN 1979-3960
2.1. Dataset
Penelitian sebelumnya menggunakan dataset UCI 1, namun dataset tersedia dalam beberapa versi dan
dalam format C4.5 (dengan ekstensi .data dan .names). Karena Weka paling baik bekerja pada dataset
berekstensi .arff, beberapa dataset mengalami kesulitan ketika di-load ke dalam Weka, walaupun telah
menggunakan converter yang disediakan. Oleh karena itu, dataset yang sama dengan ekstensi .arff telah
diperoleh dari [4] sebanyak 25 dataset seperti pada tabel 1.
2.2. Tahap pra-pemrosesan
Tiga dari enam teknik pemilihan atribut pada tabel 1 hanya beroperasi pada atribut yang bertipe diskrit.
Oleh karena itu, agar teknik tersebut dapat dioperasikan pada atribut bertipe numerik, perlu dilakukan tahap
diskretisasi sebagai tahap pra-pemrosesan. Penelitian ini menggunakan teknik supervised discretization yang
digagas oleh Fayyad dan Irani [5] yang telah tersedia di dalam Weka pada class
weka.filters.supervised.attribute.Discretize sebagai teknik diskretisasi default.
Data Set
anneal
audiology
autos
breast-c
car
credit-g (German credit data)
dermatology
diabetes
glass-2
horse colic
heart-c(cleve)
heart-stat
hepatitis
ionosphere
iris
labor-neg
lymph
segment
sonar
soybean
tic-tac-toe
train
vote
vowel
zoo
Tabel 1. Dataset
Train size Test size
898
CV
226
CV
205
CV
286
CV
1728
CV
1000
CV
366
CV
768
CV
214
CV
300
CV
303
CV
270
CV
155
CV
351
CV
150
CV
57
CV
148
CV
2310
CV
208
CV
683
CV
958
CV
10
CV
435
CV
990
CV
101
CV
Num.
6
0
16
0
0
7
1
8
9
7
6
13
6
34
4
8
3
19
60
0
0
0
0
6
1
Nom.
32
70
10
9
7
13
33
0
0
15
7
0
13
0
0
8
15
0
0
35
9
32
16
3
16
Classes
5
24
2
2
4
2
6
2
7
2
2
2
2
2
3
2
4
7
2
19
2
2
2
11
7
2.3. Teknik Seleksi Atribut
Menurut [3], ada dua kategori utama pada teknik seleksi atribut: filter dan wrapper . Teknik filter
menggunakan karakteristik umum dari data untuk mengevaluasi atribut dan beroperasi secara independen
terhadap sembarang algoritma pembelajaran. Teknik wrapper mengevaluasi atribut dengan menggunakan
estimasi akurasi dari algoritma pembelajaran target.
Jenis kategori yang lain membagi teknik seleksi atribut menjadi kategori teknik yang mengevaluasi atribut
secara individual dan kategori yang mengevaluasi subset atribut sekaligus.
Weka menyediakan beberapa evaluator atribut dan metode pencarian yang digunakan. Metode pencarian
BestFirst merupakan metode pencarian hill climbing dengan opsi backtracking. Metode GreedyStepwise
melakukan teknik greedy dengan menambahkan satu-persatu atribut ke dalam subset solusi dan berhenti ketika
penambahan atribut baru menyebabkan penurunan pada penilaian evaluasi atribut. Metode
Teknik Informatika / Universitas Surabaya
Halaman C-48
SNASTIA 2013
ISSN 1979-3960
LinearFor wardSelection merupakan modifikasi dari BestFirst dengan penambahan sejumlah k atribut ke dalam
penilaian. Metode RankSearch melakukan perangkingan atribut dengan menggunakan evaluator atribut/subset.
2.3.1 Teknik Information Gain (IG)
Teknik ini merangking atribut dengan menghitung entropi dari sebuah kelas C sebelum dan setelah
mengamati sebuah atribut A. Nilai penurunan entropi disebut information gain. Persamaan (1) dan (2)
menghitung entropi kelas sebelum dan sesudah pengamatan terhadap atribut A. Setiap atribut diberikan sebuah
skor berdasarkan information gain-nya. Rumus perhitungan information gain terdapat pada persamaan (3).
(1)
(2)
(3)
Teknik ini mengharuskan data numerik didiskritkan terlebih dahulu. Pada Weka, fungsi ini tersedia dalam class
weka.attributeSelection.InfoGainAttributeEval dan dipasangkan dengan metode pencarian
Ranker .
2.3.2 Relief (RLF)
Relief adalah metode perangkingan atribut berbasis instance yang secara acak mengambil sampel sebuah
instance data dan mencari nearest neighbor pada class yang sama dan berlawanan. Pada awalnya, metode ini
digunakan pada permasalahan klasifikasi 2 class. Nilai atribut dari nearest neighbor dibandingkan dengan
sampel instance data dan digunakan untuk menghasilkan skor untuk setiap atribut. Proses ini diulangi untuk m
instance, dimana nilai m dapat ditentukan oleh user .
Versi pengembangan dari Relief adalah ReliefF dan dapat digunakan untuk menangani noise dan dataset
dengan banyak class. Noise data dihaluskan dengan merata-rata kontribusi dari k nearest neighbors dari class
yang sama dan berlawanan dari setiap sampel instance. Pada Weka, teknik ini tersedia dalam class
weka.attributeSelection.ReliefFAttributeEval dan dipasangkan dengan metode pencarian
Ranker . Gambar 1 merupakan algoritma dari ReliefF.
Gambar 1. Algoritma ReliefF
2.3.3 Principal Component (PC)
Analisis Principal Component menggunakan perhitungan statistik untuk mengurangi dimensionalitas data
dengan menghasilkan eigenvector dari atribut. Eigenvector tersebut lalu dirangking berdasarkan jumlah variasi
dalam data asli yang mereka wakili. Hanya sedikit dari beberapa atribut pertama yang berkontribusi terhadap
variasi data yang akan diambil.
Pada
Weka,
teknik
ini
terdapat
dalam
class
weka.attributeSelection.PrincipalComponents dan dipasangkan dengan metode pencarian
Ranker.
Teknik Informatika / Universitas Surabaya
Halaman C-49
SNASTIA 2013
ISSN 1979-3960
2.3.4 Correlation-Based Feature Selection (CFS)
Teknik ini termasuk ke dalam kategori seleksi fitur yang mengevaluasi subset dari atribut. Teknik ini
mempertimbangkan kegunaan atribut individual untuk memprediksi class dan juga level inter-korelasi di antara
mereka. Sebuah fungsi heuristik (4) memberikan skor tinggi kepada subset yang berisi atribut-atribut yang
berkorelasi tinggi dengan class-nya dan memiliki inter-korelasi rendah dengan satu sama lain.
(4)
CFS mengharuskan atribut numerik didiskritkan terlebih dahulu sebelum menggunakan symmetrical
uncertainty untuk mengestimasi derajat asosiasi antara dua fitur diskrit. Pada Weka, teknik ini tersedia dalam
class weka.attributeSelection.CfsSubsetEval dan dipasangkan dengan metode pencarian
ForwardSelection.
2.3.5 Consistency-Based Subset Evaluation (CNS)
Teknik ini menggunakan konsistensi class sebagai metrik evaluasi (5) yang mencari kombinasi atribut
yang nilainya membagi data ke dalam subset yang berisi class mayoritas tunggal yang kuat.
(5)
Teknik ini juga mengharuskan atribut numerik didiskritkan terlebih dahulu sebelum diproses. Dalam
Weka, fitur ini tersedia dalam class weka.attributeSelection.ConsistencySubsetEval dan
dipasangkan dengan metode pencarian ForwardSelection.
2.3.6 Wrapper Subset Evaluation (WRP)
Pada implementasi teknik ini di Weka, dilakukan 5-fold cross validation untuk estimasi akurasi. Cross
validation diulangi selama standar deviasi yang didapat lebih besar dari 1% dari rata-rata akurasi atau hingga
lima
repetisi
telah
dilakukan.
Pada
Weka,
teknik
ini
tersedia
di
class
weka.attributeSelection.WrapperSubsetEval dan dipasangkan dengan metode pencarian
ForwardSelection.
2.4. Reduksi Dimensionalitas
Sebelum dataset diberikan kepada algoritma learning, setiap selektor atribut mengurangi dimensionalitas
berdasarkan ranking atribut. Karena metode 10-fold cross validation digunakan, setiap training set dari
pemisahan set train-test digunakan untuk mengestimasi kelayakan dari n rangking atribut tertinggi untuk dipilih
sebagai subset atribut terbaik. Nilai n didapat dengan menggunakan forward selection hill climbing search untuk
mencari subset atribut terbaik.
2.5. Algoritma Klasifikasi C4.5 dan Naïve-Bayes
Mengikuti teknik yang diterapkan pada [3], digunakan 2 jenis algoritma klasifikasi, yakni C4.5 dan
Naïve-Bayes. Alasan digunakan 2 jenis ini adalah karena keduanya menggunakan pendekatan yang berbeda dan
memiliki waktu running yang relatif cepat, serta keduanya telah tersedia di dalam Weka.
Algoritma Naïve-Bayes menghitung probabilitas nilai atribut secara independen di dalam setiap class dari
training instance. Ketika sebuah training instance datang, probabilitas posterior dari setiap class dihitung
menggunakan nilai atribut dari instance tersebut dan instance akan dimasukkan ke dalam class yang memiliki
probabilitas tertinggi.
Sementara itu, algoritma C4.5 secara rekursif mempartisi training data berdasarkan tes yang dilakukan
pada nilai atribut untuk memisahkan class. Tes atribut ini dipilih satu-persatu dengan pendekatan greedy dan
bergantung pada hasil yang didapat dari tes sebelumnya.
2.6. Metodologi
Seluruh 25 dataset diberikan perlakuan yang sama dengan menerapkan 6 teknik pemilihan atribut untuk
masing-masing dataset. Setelah atribut diseleksi, dataset diproses dengan 2 algoritma learning, yakni Naïve-
Teknik Informatika / Universitas Surabaya
Halaman C-50
SNASTIA 2013
ISSN 1979-3960
Bayes dan C4.5. Dataset ini bervariasi dari segi ukuran, mulai puluhan hingga ribuan, yang masing-masingnya
memiliki kurang dari 100 atribut.
Untuk membandingkan hasil klasifikasi, digunakan mode Weka Experimenter pada Weka. Persentase
kebenaran klasifikasi dirata-rata dari 10 kali 10-fold cross validation dan untuk setiap tekniknya, dibandingkan
antara hasil sebelum dan sesudah dilakukan pemilihan atribut. Weka memiliki class
weka.classifiers.meta.AttributeSelectedClassifier
yang
memungkinkan
untuk
menerapkan teknik pemilihan atribut dan mengurangi dimensi data sebelum dilewatkan pada sebuah algoritma
classifier . Setting parameter yang akan digunakan pada penelitian ini adalah setting default dari Weka.
3. HASIL DAN PEMBAHASAN
Seperti yang telah dijelaskan pada subbab metodologi, penerapan teknik pemilihan atribut dan hasil
klasifikasi dilakukan dalam mode Weka Experimenter. Untuk keduapuluhlima dataset, persentase kebenaran
klasifikasi dari masing-masing algoritma learning dirata-rata dari 10 kali 10-fold cross validation. Tabel 2
menunjukkan hasil benchmark dari 6 algoritma terhadap 25 dataset dengan menggunakan algoritma klasifikasi
Naïve-Bayes dan Tabel 4 menunjukkan hasil benchmark dengan menggunakan algoritma klasifikasi C4.5.
Tabel 2. Hasil untuk Seleksi Atribut dengan Naïve Bayes
No
(1)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Dataset
(2)
NB
IG
RLF
PC
(3)
(4)
(5)
(6)
anneal
86.59 96.13 v 96.13 v 93.73
audiology
72.64 72.64
72.64
54.01
autos
57.41 70.59 v 70.59 v 72.75
breast-cancer
72.70 72.70
72.70
68.17
car
85.46 85.46
85.46
85.72
horse-colic
78.70 79.68
79.68
78.89
german_credit
75.16 75.43
75.43
71.04
dermatology
97.43 97.93
97.93
95.36
pima_diabetes
75.75 77.85 v 77.85 v 76.83
Glass
49.45 74.39 v 74.39 v 71.63
cleve-heart-disease
83.34 83.97
83.97
81.44
heart-statlog
83.59 83.74
83.74
81.78
hepatitis
83.81 85.12 v 85.12 v 84.63
ionosphere
82.17 90.77 v 90.77 v 88.64
iris
95.53 94.47 * 94.47 * 94.67
labor
93.57 92.53 * 92.53 * 89.27
lymphography
83.13 84.97 v 84.97 v 80.99
segment
80.17 91.71 v 91.71
84.56
sonar
67.71 85.16 v 85.16 v 82.47
soybean
92.94 92.94
92.94
91.83
tic-tac-toe
69.62 69.64
69.64
74.54
trains
70.00 70.00
70.00
40.00
vote
90.02 90.02
90.02
90.09
vowel
62.90 65.23 v 65.23 v 65.00
zoo
94.97 93.21 * 93.21 * 68.05
v=menaik secara signifikan, *=menurun secara signifikan
*
*
v
*
*
*
v
v
*
v
*
*
*
v
*
v
*
v
*
CNS
(7)
97.02
72.29
77.43
73.04
85.46
83.46
73.74
98.09
79.41
73.19
83.24
83.3
85.36
91.65
95.27
84.1
81.01
93.67
82.28
92.15
71.84
60.00
94.57
66.07
92.49
v
v
v
*
v
v
v
v
*
*
v
v
v
*
v
v
*
CFS
(8)
97.70
69.36
76.74
71.74
85.46
82.72
74.37
95.05
77.85
74.12
83.67
83.74
84.92
91.29
94.80
87.87
80.77
93.43
81.46
83.15
72.34
40.00
91.98
64.14
40.61
v
*
v
v
*
v
v
v
v
*
*
v
v
*
v
*
v
v
*
WRP
(9)
98.30
74.00
77.71
72.40
85.26
83.18
73.88
97.73
78.27
75.04
80.93
82.78
86.39
92.00
93.53
85.03
81.74
94.37
77.90
92.65
71.26
70.00
95.29
68.64
92.12
v
v
v
v
*
v
v
*
v
v
*
*
*
v
v
v
v
v
*
Tabel 2 menunjukkan perbandingan performa masing-masing algoritma (kolom 4-9) terhadap tiap dataset
dalam melakukan klasifikasi dengan Naïve Bayes dibandingkan dengan yang tanpa menggunakan seleksi fitur
sama sekali (kolom 3). Keterangan “*” dan “v” menunjukkan selisih yang signifikan secara statistik (lebih dari
1%), sesuai hasil uji-t 2 pasang. Dari tabel 2, dapat dilihat bahwa hasil terbaik dilakukan oleh Wrapper yang
memberikan peningkatan kebenaran klasifikasi pada 13 dataset dan penurunan pada 6 dataset. CNS berada pada
peringkat kedua, dengan kenaikan pada 12 dataset dan penurunan pada 5 dataset. Peringkat ketiga adalah CFS
dengan kenaikan pada 12 dataset dan penurunan pada 7 dataset. Metode Information Gain (IG) memberikan
kenaikan pada 10 dataset dan penurunan pada 3 dataset sedangkan RLF naik untuk 9 dataset dan turun untuk 3
Teknik Informatika / Universitas Surabaya
Halaman C-51
SNASTIA 2013
ISSN 1979-3960
dataset. Yang terburuk adalah Principal Component (PC) dengan kenaikan pada 7 dataset dan penurunan pada 12
dataset.
Tabel 3 menggambarkan ranking dari seluruh teknik seleksi atribut terhadap keakuratan kebenaran
klasifikasi dengan algoritma Naïve Bayes pada 25 dataset. Beberapa teknik seleksi atribut memiliki kebenaran
klasifikasi yang sama dan tertinggi di antara yang lain, sehingga teknik-teknik seleksi tersebut dihitung bersamasama sebagai pemenang. Dari tabel 3, terlihat bahwa Wrapper tetap yang paling unggul dibandingkan metode
lainnya dengan 10 kemenangan, sedangkan CFS secara mengejutkan berada pada posisi terakhir dengan hanya
menang di 1 dataset saja (dataset 12) bersama-sama dengan IG dan RLF.
Tabel 3. Ranking Teknik Seleksi Atribut pada algoritma Naïve Bayes
Teknik
WRP
IG
RLF
NB
CNS
PC
CFS
Menang
10
8
8
6
3
2
1
Tabel 4 menunjukkan hasil benchmark dari 6 teknik seleksi atribut dan tanpa seleksi atribut dengan
menggunakan algoritma klasifikasi C4.5 terhadap 25 dataset.
Tabel 4. Hasil untuk Seleksi Atribut dengan C4.5
No
(1)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Dataset
(2)
NB
IG
RLF
(3)
(4)
(5)
anneal
98.57 98.75
98.75
audiology
77.26 77.36
77.35
autos
81.77 82.29
82.53
breast-cancer
74.28 74.28
74.28
car
92.22 92.22
92.22
horse-colic
85.16 85.13
85.13
german_credit
71.25 72.16
72.19
dermatology
94.10 94.26
94.26
pima_diabetes
74.49 77.34 v 77.34 v
Glass
67.63 75.23 v 75.23 v
cleve-heart-disease
76.94 77.66
77.92
heart-statlog
78.15 82.19 v 82.22 v
hepatitis
79.22 82.15 v 82.15 v
ionosphere
89.74 89.43
89.43
iris
94.73 93.87
94.80
labor
78.60 87.90 v 87.90 v
lymphography
75.84 76.71
76.51
segment
96.79 95.20 * 95.19 *
sonar
73.61 80.74 v 80.55 v
soybean
91.78 91.77
91.77
tic-tac-toe
85.28 85.35
85.35
trains
90.00 90.00
90.00
vote
96.57 96.57
96.57
vowel
80.20 79.24
79.31
zoo
92.61 91.11 * 91.11 *
v=menaik secara signifikan, *=menurun secara signifikan
PC
(6)
96.54
58.89
76.27
67.94
88.33
72.53
68.49
94.29
77.08
75.68
78.97
82.48
82.13
88.38
93.13
89.07
75.16
88.76
78.28
86.76
85.08
40.00
90.27
72.37
81.39
*
*
*
*
*
*
*
v
v
v
v
v
*
*
v
*
v
*
*
*
*
*
CNS
(7)
97.33
76.86
75.05
73.08
92.22
81.77
73.20
93.66
79.09
73.84
79.50
82.89
82.87
90.63
93.87
84.63
73.99
95.58
79.02
90.20
77.43
90.00
95.63
72.45
93.28
*
*
*
*
v
v
v
v
v
v
v
*
*
v
*
*
*
CFS
(8)
98.41
73.76
76.30
72.59
92.22
85.13
72.46
91.64
77.34
74.63
78.15
82.26
82.83
90.51
93.87
81.17
73.89
95.66
77.89
83.53
83.62
0.00
96.32
79.72
40.61
*
*
*
v
*
v
v
v
v
v
v
*
*
v
*
*
*
*
WRP
(9)
98.80
76.99
75.56
75.11
92.67
84.37
70.51
93.77
77.28
71.35
77.59
82.52
82.70
91.45
93.67
82.33
77.75
95.71
75.57
91.74
85.19
82.00
95.40
80.30
91.47
Tabel 4 menunjukkan perbandingan performa masing-masing algoritma (kolom 4-9) terhadap tiap dataset
dalam melakukan klasifikasi dengan C4.5 dibandingkan dengan yang tanpa menggunakan seleksi atribut sama
sekali (kolom 3). Wrapper masih merupakan teknik seleksi atribut yang terunggul dibandingkan yang lainnya
Teknik Informatika / Universitas Surabaya
Halaman C-52
*
v
v
v
v
v
v
v
*
v
*
*
*
SNASTIA 2013
ISSN 1979-3960
dengan memberikan kenaikan kebenaran klasifikasi pada 8 dataset dan penurunan pada 5 dataset. CNS menjadi
yang terbaik kedua dengan memberikan kenaikan pada 8 dataset dan penurunan pada 9 dataset, sedangkan CFS
berada sedikit di bawah CNS dengan kenaikan pada 8 dataset dan penurunan pada 10 dataset. Dua teknik
memiliki posisi yang sama, yakni IG dan RLF, yang sama-sama memiliki kenaikan pada 6 dataset dan
penurunan pada 2 dataset. Di posisi terbawah adalah PC dengan kenaikan pada 7 dataset dan penurunan pada 15
dataset.
Walaupun IG dan RLF sama-sama memiliki nilai kenaikan dataset yang lebih rendah dibandingkan
Wrapper, namun keduanya memiliki selisih naik-turun yang terbesar (yakni 4) dibandingkan dengan Wrapper
yang sebesar 3.
Tabel 5 menggambarkan ranking dari seluruh teknik seleksi atribut terhadap keakuratan kebenaran
klasifikasi dengan algoritma C4.5 pada 25 dataset. Beberapa teknik seleksi atribut memiliki kebenaran klasifikasi
yang sama dan tertinggi di antara yang lain, sehingga teknik-teknik seleksi tersebut dihitung bersama-sama
sebagai pemenang.
Tabel 5. Ranking Teknik Seleksi Atribut pada algoritma C4.5
Teknik
WRP
CNS
RLF
C4.5
PC
IG
CFS
Menang
7
6
5
4
3
1
1
Dari tabel 5, dapat dilihat bahwa Wrapper masih lebih unggul dari teknik lainnya dengan menang pada 7
dataset, sedangkan CFS kembali menempati posisi terakhir dengan unggul hanya pada 1 dataset saja (dataset 7).
Hasil ini sedikit berbeda dengan [3] dimana yang menjadi pemenang adalah RLF. Hal ini dimungkinkan
karena adanya perbedaan pada jumlah dataset yang dijadikan ujicoba. Setiap dataset memiliki karakteristik
tersendiri yang dapat mempengaruhi baik tidaknya kinerja teknik seleksi atribut yang diterapkan. Kemungkinan
penyebab lain adalah penggunaan metode pencarian yang berbeda. Pada penelitian ini, untuk IG, RLF, dan PC
digunakan metode pencarian Ranker, karena metode tersebut adalah satu-satunya metode pencarian pada Weka
yang dapat dipasangkan dengan ketiganya. Sedangkan untuk CFS, CNS, dan WRP digunakan metode pencarian
Linear Forward Selection sesuai dengan metode yang digunakan pada [3] dan merupakan pendekatan greedy
sederhana yang secara sekuensial menambahkan sebuah atribut yang memiliki nilai tertinggi ketika
dikombinasikan dengan sejumlah atribut lain yang sudah terpilih.
Sebagai perbandingan pula dari segi running time, percobaan pertama dengan 25 dataset, 6 algoritma
seleksi atribut dan menggunakan algoritma klasifikasi Naïve Bayes, dibutuhkan waktu 2 jam dan 37 menit.
Sedangkan percobaan kedua dengan jumlah dataset dan algoritma seleksi atribut yang sama dan menggunakan
algoritma klasifikasi C4.5, dibutuhkan waktu 4 jam dan 56 menit. Proses dengan algoritma C4.5 membutuhkan
waktu lebih lama karena algoritma tersebut membangun model tree terlebih dahulu dari dataset yang ada, baru
kemudian melakukan proses klasifikasi. Semakin banyak jumlah atribut dari sebuah dataset, semakin lama
proses menghasilkan model tree-nya. Lingkungan ujicoba penelitian ini menggunakan prosesor Intel 1.8GHz
dengan memori 4GB.
4. KESIMPULAN
Penelitian ini telah melakukan studi perbandingan terhadap kinerja 6 teknik seleksi atribut pada 25
dataset. Berdasarkan hasil ujicoba yang telah dilakukan, diperoleh kesimpulan bahwa teknik seleksi atribut
Wrapper adalah yang terbaik dari 5 teknik lainnya, sekaligus merupakan teknik yang membutuhkan waktu paling
lama, baik dengan algoritma klasifikasi Naïve Bayes maupun C4.5.
Hasil yang diperoleh tidak menjustifikasi bahwa teknik Wrapper adalah yang paling baik digunakan pada
dataset apapun, namun hanya memberikan rujukan umum bagi peneliti yang akan menerapkan teknik seleksi
atribut pada datasetnya.
Teknik Informatika / Universitas Surabaya
Halaman C-53
SNASTIA 2013
ISSN 1979-3960
5. SARAN
Proses ujicoba yang cukup memakan waktu merupakan salah satu kendala yang menyebabkan kurang
menyeluruhnya pembandingan faktor-faktor lainnya untuk dilakukan, selain ketepatan hasil klasifikasi, seperti
sensitivitas masing-masing teknik terhadap missing data serta noise, juga jumlah tree yang dihasilkan oleh tiap
teknik pada penggunaan algoritma klasifikasi C4.5. Untuk selanjutnya, peneliti akan memasukkan faktor-faktor
tersebut sebagai kinerja yang diukur pada penelitian berikutnya.
6. Daftar Pustaka
[1] A. Blum and P. Langley, “Selection of Relevant Features and Examples in Machine Learning,” Artificial
Intelligence, vol. 97, nos. 1-2, pp. 245-271, 1997.
[2] M. Dash and H. Liu, “Feature Selection for Classification,” Intelligent Data Analysis, vol. 1, no. 3, 1997.
[3] Hall and Holmes, “Benchmarking Attribute Selection Techniques for Discrete Class Data Mining”, IEEE
Transactions on Knowledge and Data Engineering, Vol. 15, No. 6, IEEE Computer Society, 2003.
[4] Repository of Software Environment for the Advancement of Scholarly Research (SEASR). [Online].
Available: http://repository.seasr.org/Datasets/UCI/arff/.
[5] U.M. Fayyad and K.B. Irani, Multiinterval Discretisation of Continuous-Valued Attributes, Proc. 13th Int’l
Joint Conf. Artificial Intelligence, pp. 1022-1027, 1993.
, E., Brohee, S. & van Helden, J., "Regulatory Sequence Analysis Tools (RSAT) Nucleic Acids Res.,” 2008.
Available: http://rsat.ulb.ac.be/.
Acids Res.," 2008. Available: http://rsat.ulb.ac.be/.
Teknik Informatika / Universitas Surabaya
Halaman C-54