BAB 3 METODOLOGI PENELITIAN
3.1. Pendahuluan
Metodologi penelitian merupakan sekumpulan proses terstruktur mengenai peraturan, kegiatan, dan prosedur yang digunakan oleh pelaku suatu disiplin ilmu dalam
melaksanakan penelitian. Zarlis, et al., 2013 Pada algoritma klasifikasi data mining, aspek akurasi berdasarkan confusion
matrix untuk penilaian precision, recall, F-measure, dan success rate merupakan dasar pengukuran performance algoritma melalui sejumlah metode seperti Use
Training Set, k-Fold Cross Validation, dan Percentage Split. Berdasarkan uraian di atas, maka dalam penelitian ini dilakukan analisis perbandingan akurasi algoritma
klasifikasi pohon keputusan dan k-Nearest Neighbor k-NN berdasarkan confusion matrix menggunakan metode 10-fold cross validation.
Pada penelitian ini, penulis menggunakan metode penelitian berupa studi literatur riset pustaka. Historical research sama dengan riset pustaka. Historical
research dilakukan dengan membaca buku-buku dan literatur serta mengikuti pola dari literatur maupun buku yang dibaca. Hasibuan, 2007
3.2. Data yang Digunakan
Data sets untuk pelatihan dan pengujian training sets dan testing sets berasal dari UC Irvine Machine Learning Repository UCI Machine Learning Repository, berupa
BreastCancer, Car, Diabetes, Ionosphere, dan Iris. Rincian masing-masing data set dapat dilihat pada Tabel 3.1 berikut.
Tabel 3.1. Data Sets Penelitian No.
Data Sets Instances
Attributes Classes
1 BreastCancer
286 10
2 2
Car 1.728
7 4
3 Diabetes
768 9
2 4
Ionosphere 351
35 2
5 Iris
150 5
3
Universita Sumatera Utara
32
3.2.1. Data Set BreastCancer
Data set BreastCancer memiliki 286 instances, 10 atribut, dan 2 kelas. Distribusi kelas berupa no-recurrence-events 201 instances dan recurrence-events 85
instances. Tabel 3.2. menunjukkan informasi atribut data set BreastCancer. Tabel 3.2. Informasi Atribut Data Set BreastCancer
No. Atribut
Nilai 1
Age 10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89, 90-99
2 Menopause
lt40, ge40, premeno 3
Tumor-size 0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44,
45-49, 50-54, 55-59 4
Inv-nodes 0-2, 3-5, 6-8, 9-11, 12-14, 15-17, 18-20, 21-23, 24-26, 27-29,
30-32, 33-35, 36-39 5
Node-caps yes, no
6 Deg-malig
1, 2, 3 7
Breast left, right
8 Breast-quad
left-up, left-low, right-up, right-low, central 9
Irradiat yes, no
10 Class no-recurrence-events, recurrence-events
3.2.2. Data Set Car
Data set Car Evaluation memiliki 1.728 instances, 7 atribut, dan 4 kelas. Distribusi kelas berupa unacc 1.210 instances, acc 384 instances, good 69 instances, dan v-
good 65 instances. Tabel 3.3 menunjukkan informasi atribut data set Car. Tabel 3.3. Informasi Atribut Data Set Car
No. Atribut
Nilai 1
Buying v-high, high, med, low
2 Maint
v-high, high, med, low 3
Doors 2, 3, 4, 5-more
4 Persons
2, 4, more 5
Lug_boot small, med, big
6 Safety
low, med, high 7
Class unacc, acc, good, v-good
Universita Sumatera Utara
33
3.2.3. Data Set Diabetes
Data set Pima Indians Diabetes memiliki 768 instances, 9 atribut, dan 2 kelas. Distribusi kelas berupa tested_negative 500 instances dan tested_positive 268
instances. Tabel 3.4 menunjukkan informasi atribut data set Diabetes. Tabel 3.4. Informasi Atribut Data Set Diabetes
No. Atribut
Nilai 1
Number of times pregnant 0.0
– 17.0 2
Plasma glucose concentration a 2 hours in an oral glucose tolerance test
0.0 – 199.0
3 Diastolic blood pressure mm Hg
0.0 – 122.0
4 Triceps skin fold thickness mm
0.0 – 99.0
5 2-Hour serum insulin mu Uml
0.0 – 846.0
6 Body mass index weight in kg
height in m 2 0.0
– 67.1 7
Diabetes pedigree function 0.078
– 2.42 8
Age years 21.0
– 81.0 9
Class tested_negative, tested_positive
3.2.4. Data Set Ionosphere
Data set Ionosphere memiliki 351 instances, 35 atribut, dan 2 kelas. Distribusi kelas berupa bad 126 instances dan good 225 instances. Data set ini terdiri dari 1 atribut
kelas dan 34 atribut yang mempengaruhi nilai dua tipe sinyal radar untuk mengenali elektron pada ionosphere. Sinyal good menunjukkan radar mengenali struktur tertentu
pada ionosphere dan sinyal bad menunjukkan radar tidak menunjukkan struktur tertentu pada ionosphere.
3.2.5. Data Set Iris
Data set Iris memiliki 150 instances, 5 atribut, dan 3 kelas. Distribusi kelas berupa Iris-setosa 50 instances, Iris-versicolor 50 instances, dan Iris-virginica 50
instances. Tabel 3.5 menunjukkan informasi atribut data set Iris.
Universita Sumatera Utara
34
Tabel 3.5. Informasi Atribut Data Set Iris No.
Atribut Nilai
1 Sepal-length cm
4.3 – 7.9
2 Sepal-width cm
2.0 – 4.4
3 Petal-length cm
1.0 – 6.9
4 Petal-width cm
0.1 – 2.5
5 Class
Iris-setosa, Iris-versicolor, Iris-virginica
3.3. Analisis Sistem
3.3.1. Pohon Keputusan
Dalam memperoleh model dengan algoritma pohon keputusan, digunakan langkah- langkah sebagai berikut.
1. Pemilihan salah satu data set penelitian.
2. Pemilihan classifier dengan menggunakan algoritma pohon keputusan C4.5
J4.8 pada WEKA. 3.
Melakukan pelatihan dan pengujianevaluasi terhadap model pohon keputusan dengan metode 10-fold cross validation pada WEKA.
4. Memperoleh confusion matrix.
5. Mengubah confusion matrix ke dalam table of confusion matriks 2 x 2 untuk
setiap kelas yang ada. 6.
Menghitung akurasi dalam bentuk penilaian precision, recall, F-measure, dan success rate dengan persamaan 2.6, 2.7, 2.8, 2.9, dan 2.10 untuk setiap
kelas berdasarkan table of confusion. 7.
Menghitung weighted average dari precision, recall, F-measure, dan success rate untuk setiap data set penelitian.
Adapun langkah-langkah pengukuran akurasi dengan algoritma pohon keputusan digambarkan dalam bentuk diagram alir pada Gambar 3.1 berikut ini.
Misalnya, data set yang digunakan adalah diabetes.arff.
Universita Sumatera Utara
35
Gambar 3.1. Diagram Alir Perhitungan Akurasi Pohon Keputusan pada Diabetes.arff
MULAI
DIABETES.ARFF
SELESAI CONFUSION MATRIX
PERHITUNGAN AKURASI DENGAN PERSAMAAN 2.6, 2.7, 2.8, 2.9, DAN 2.10 PER KELAS
PEMROSESAN PADA WEKA 3.7.8 PEMILIHAN CLASSIFIER POHON
KEPUTUSAN PELATIHAN TRAINING DATA SETS
UNTUK MEMPEROLEH MODEL PENGUJIAN MODEL DENGAN METODE
10-FOLD CROSS VALIDATION
KONVERSI CONFUSION MATRIX BERDASARKAN JUMLAH KELAS
TABLE OF CONFUSION
PRECISION, RECALL, F-MEASURE, SUCCESS RATE
PERHITUNGAN WEIGHTED AVERAGE AKURASI
WEIGHTED AVERAGE
Universita Sumatera Utara
36
3.3.2. k-Nearest Neighbor k-NN
Dalam memperoleh model dengan algoritma k-NN, digunakan langkah-langkah sebagai berikut.
1. Pemilihan salah satu data sets penelitian.
2. Pemilihan classifier dengan menggunakan algoritma k-NN IBk pada WEKA
dengan prinsip Nearest Neighbor. 3.
Melakukan pelatihan dan pengujianevaluasi model dengan metode 10-fold cross validation pada WEKA.
4. Memperoleh confusion matrix.
5. Mengubah confusion matrix ke dalam table of confusion matriks 2 x 2 untuk
setiap kelas yang ada. 6.
Menghitung akurasi dalam bentuk penilaian precision, recall, F-measure, dan success rate dengan persamaan 2.6, 2.7, 2.8, 2.9, dan 2.10 untuk setiap
kelas berdasarkan table of confusion. 7.
Menghitung weighted average dari precision, recall, F-measure, dan success rate untuk setiap data set penelitian.
Adapun langkah-langkah pengukuran akurasi dengan algoritma k-NN digambarkan dalam bentuk diagram alir pada Gambar 3.2 berikut ini. Misalnya, data
set yang digunakan adalah diabetes.arff.
Universita Sumatera Utara
37
Gambar 3.2. Diagram Alir Perhitungan Akurasi k-NN pada Diabetes.arff
MULAI
DIABETES.ARFF
SELESAI CONFUSION MATRIX
PERHITUNGAN AKURASI DENGAN PERSAMAAN 2.6, 2.7, 2.8, 2.9, DAN 2.10 PER KELAS
PEMROSESAN PADA WEKA 3.7.8 PEMILIHAN CLASSIFIER k-NN
PELATIHAN TRAINING DATA SETS UNTUK MEMPEROLEH MODEL
PENGUJIAN MODEL DENGAN METODE 10-FOLD CROSS VALIDATION
KONVERSI CONFUSION MATRIX BERDASARKAN JUMLAH KELAS
TABLE OF CONFUSION
PRECISION, RECALL, F-MEASURE, SUCCESS RATE
PERHITUNGAN WEIGHTED AVERAGE AKURASI
WEIGHTED AVERAGE
Universita Sumatera Utara
38
3.3.3. Metode 10-fold Cross Validation
Pada tahap pengujian, metode yang digunakan dapat berupa Use Training Set, k-Fold Cross Validation, dan Percentage Split. Pada metode k-fold cross validation, dibentuk
k subset dari data sets yang ada. Misalnya, metode 3-fold cross validation berarti 2 subsets digunakan sebagai training sets dan 1 subset digunakan sebagai testing set,
dengan 3 kali iterasi. Hasil pengukuran adalah nilai rata-rata dari 3 kali pengujian. Pada penelitian ini, penulis menggunakan metode 10-fold cross validation.
Pada metode ini, dibentuk 10 subsets dari data set yang ada. Ini berarti 9 subsets digunakan sebagai training sets dan 1 subset digunakan sebagai testing set, dengan 10
kali iterasi. Hasil pengukuran adalah nilai rata-rata dari 10 kali pengujian. Adapun metode 10-fold cross validation ditunjukkan melalui Gambar 3.3 berikut.
Gambar 3.3. Metode 10-fold Cross Validation
3.3.4. Confusion Matrix
Menurut Han, et al. 2006, confusion matrix adalah tool yang berguna untuk menganalisa tingkat efektivitas classifier dalam mengenali tuples dari kelas yang
berbeda. Jika terdapat sejumlah kelas m, maka confusion matrix merupakan matriks
DATA SETS BreastCancer
9 SUBSETS 1 SUBSET
Car 9 SUBSETS
1 SUBSET
Diabetes 9 SUBSETS
1 SUBSET
Ionosphere 9 SUBSETS
1 SUBSET
Iris 9 SUBSETS
1 SUBSET CONFUSION
MATRIX
Universita Sumatera Utara
39
m x m dimana entry c
i,j
menunjukkan menunjukkan jumlah tuple dari data sets yang dimasukkan ke kelas C
j
, padahal kelas sebenarnya adalah C
i
. Gambar 3.4 menunjukkan confusion matrix sebagai hasil pengujian terhadap
diabetes.arff yang memiliki 768 instances dan 2 classes kelas dengan menggunakan
teknik klasifikasi pohon keputusan pada WEKA 3.7.8.
Gambar 3.4. Confusion Matrix Diabetes.arff Adapun langkah berikutnya adalah confusion matrix akan dibentuk ke dalam
table of confusion seperti ditunjukkan pada Tabel 2.2. Adapun table of confusion dari
diabetes.arff ditunjukkan oleh Tabel 3.6 dan Tabel 3.7 berikut.
Tabel 3.6. Table of Confusion K elas “tested_negative”
407 TP 93 FN
108 FP 160 TN
Tabel 3.7. Table of Confusion K elas “tested_positive”
160 TP 108 FN
93 FP 407 TN
Dengan menggunakan persamaan 2.6, 2,7, 2.8, 2.9, dan 2.10, dilakukan perhitungan sebagai berikut.
Kelas “tested_negative” : �
� � =
+ = .
� = +
= .
� − �
= ∗ .
∗ . .
+ . = .
Universita Sumatera Utara
40
Kelas “tested_positive” : �
� � =
+ = .
� = +
= .
� − � � =
∗ . ∗ .
. + .
= .
Jika A = 407 + 93 = 500 dan B = 108 + 160 = 268, maka nilai Weighted Average
Weighted Avg dari kelas-kelas yang ada, dihitung dengan rumus: � ��ℎ
� � � �
= .
∗ + . ∗
= . � ��ℎ
� � =
. ∗ + .
∗ = .
� ��ℎ � � −
� =
. ∗ + .
∗ = .
Adapun perhitungan Success Rate adalah sebagai berikut. � =
+ = .
= .
Hasil perhitungan akurasi terhadap diabetes.arff dirangkum dalam Tabel 3.8 berikut.
Tabel 3.8. Nilai Akurasi berdasarkan Confusion Matrix Diabetes.arff Class
Precision Recall
F-measure Success Rate
tested_negative 0.790
0.814 0.802
0.738 73.8
tested_positive
0.632 0.597
0.614 Weighted Average
0.735 0.738
0.736
3.4. Desain Sistem
Pada penelitian ini, keperluan hardware dan software sebagai bagian dari desain sistem meliputi:
Universita Sumatera Utara
41
a. Perangkat keras Netbook Acer
1. Processor Intel Atom
TM
N570 1.66 GHz, 1 MB L2 cache 2.
RAM 2 GB DDR3 3.
Harddisk 320 GB 4.
Monitor dengan resolusi 1024 x 600 pixel 32 bit true color 5.
Mouse dan keyboard b.
Perangkat lunak 1.
Sistem Operasi Windows 7 Windows 7 adalah sistem operasi berbasis grafis yang dibuat oleh
Microsoft untuk digunakan pada komputer pribadi, yang mencakup komputer rumah, desktop bisnis, laptop, dan media center. Windows 7
merupakan sistem dasar untuk dapat menjalankan berbagai perangkat lunak yang digunakan pada penelitian ini.
2. Waikato Environment for Knowledge Analysis WEKA
WEKA merupakan software tool data mining yang dibuat oleh tim ahli dari Universitas Waikato, New Zealand. Aplikasi ini telah dibuat sejak
2002 dan dikembangkan sampai saat ini pada versi 3.7.8. WEKA merupakan aplikasi open source berbasis java yang memiliki dua macam
interface, berupa Simple Command Line Interface CLI dan Graphical User Interface GUI dengan 3 pilihan, yaitu Explorer, Experimenter, dan
Knowledge Flow. Pada penelitian ini, penulis menggunakan classifier algoritma pohon keputusan J4.8 dan k-NN IBk pada WEKA versi 3.7.8
dengan pilihan GUI Explorer untuk menghasilkan confusion matrix dari setiap data set yang digunakan dalam penelitian. Pada penelitian ini,
penulispeneliti menggunakan aplikasi WEKA versi 3.7.8 untuk melakukan pelatihan dan pengujian data training and testing sets, hingga
menghasilkan confusion matrix.
3. Visual Studio 2010 VS 2010
Visual Studio 2010 merupakan software tool bahasa pemrograman tingkat tinggi yang berbasiskan Microsoft .NET Framework 4.0.
Universita Sumatera Utara
42
Bahasa .NET meliputi Visual Basic, Visual C++, Visual C, dan F. Pada penelitian ini, penulis mendesain user interface dan membangun kode
pemrograman C untuk memperoleh nilai akurasi berdasarkan confusion matrix yang diperoleh dari WEKA versi 3.7.8. Pada penelitian ini, penulis
membuat aplikasi menggunakan Visual C dengan nama Confusion Matrix for Accuracy, untuk menganalisis confusion matrix dan melakukan
perhitungan akurasi yang terdiri dari precision, recall, F-measure, dan success rate.
3.4.1. Aplikasi Training Sets dan Testing Sets
WEKA merupakan aplikasi open source berbasis java yang memiliki dua macam interface, berupa Simple Command Line Interface CLI dan Graphical User Interface
GUI dengan 3 pilihan, yaitu Explorer, Experimenter, dan Knowledge Flow. Gambar 3.5 berikut menunjukkan tampilan WEKA 3.7.8.
Gambar 3.5. Interface WEKA 3.7.8
Untuk memperoleh confusion matrix, penulis menggunakan menu Explorer pada WEKA GUI Chooser dan melalui dua tahapan, yaitu Preprocess dan Classify.
Tahapan Preprocess bertujuan untuk memilih data set .arff attribute relation file
format yang digunakan dalam penelitian, misalnya diabetes.arff. Gambar 3.6 menunjukkan tahapan Preprocess pada diabetes.arff. Pada tampilan menu
Universita Sumatera Utara
43
Preprocess, juga terlihat detail atribut dan banyaknya kelas setelah file diabetes.arff dipilih. Jika dipilih atribut kelas, maka menampilkan detail atribut kelas, yaitu kelas
“tested negative” sebanyak 500 instances dan kelas “tested positive” sebanyak 268 instances beserta nilai weight masing-masing kelas.
Gambar 3.6. Tahapan Preprocess Langkah berikutnya adalah tahapan Classify. Pada menu Classify, dilakukan
pemilihan terhadap teknik klasifikasi pohon keputusan dan k-NN. Tahapan ini juga bertujuan menghasilkan confusion matrix berdasarkan metode evaluasi 10-fold cross
validation, dimana data sets dibagi menjadi 10 subsets 9 subsets sebagai training sets dan 1 subset sebagai testing set dengan jumlah 10 kali iterasi. Adapun classifier yang
digunakan adalah J4.8 pohon keputusan dan Ibk k-NN. Gambar 3.7 menunjukkan tahapan Classify untuk menghasilkan confusion
matrix pada data set diabetes.arff menggunakan classifier pohon keputusan.
Universita Sumatera Utara
44
Gambar 3.7. Tahapan Classify
3.4.2. Aplikasi Perhitungan Akurasi
Pada tahap ini, penulis menggunakan aplikasi Confusion Matrix for Accuracy yang dibangun sendiri menggunakan Visual C versi 2010. Gambar 3.8 menunjukkan
tampilan interface aplikasi perhitungan akurasi algoritma pohon keputusan dan k-NN.
Gambar 3.8. Interface Confusion Matrix for Accuracy Confusion Matrix
Universita Sumatera Utara
45
Pada Gambar 3.8 terdapat pilihan [1] TEKNIK KLASIFIKASI dan [2] DATA SETS. Teknik Klasifikasi yang dapat dipilih adalah Decision Tree Pohon Keputusan
dan k-NN. Untuk data sets, terdapat 5 pilihan berupa BreastCancer, Car, Diabetes, Ionosphere, dan Iris.
Tombol “Tampilkan” digunakan untuk menampilkan confusion matrix
dan tombol “Kalkulasi” digunakan untuk melakukan perhitungan precision, recall, F-measure, dan success rate
. Tombol “Detail” digunakan untuk menampilkan dan menyembunyikan table of confusion untuk setiap kelas yang ada, berdasarkan
confusion matrix yang diperoleh.
Universita Sumatera Utara
BAB 4 HASIL DAN PEMBAHASAN
Pada bagian ini, penulis menyajikan hasil dan pembahasan penelitian mengenai analisis akurasi algoritma klasifikasi pohon keputusan dan k-NN terhadap 5 data sets,
yaitu BreastCancer, Car, Diabetes, Ionosphere, dan Iris berdasarkan confusion matrix. Penulis juga melakukan perbandingan terhadap kedua macam teknik
klasifikasi tersebut melalui pengukuran performance dari sudut pandang akurasi Precision, Recall, F-measure, dan Success Rate.
4.1. Data Set BreastCancer
Data Set BreastCancer terdiri dari 286 instances, 10 atributtes, dan 2 classes
no-recurrence-events dan recurrence-events.
Gambar 4.1 berikut ini menunjukkan hasil perhitungan akurasi algoritma pohon keputusan terhadap data set BreastCancer.
Gambar 4.1. Perhitungan Akurasi Pohon Keputusan terhadap BreastCancer.arff
Universita Sumatera Utara
47
Pada Gambar 4.1, terlihat confusion matrix dan table of confusion dari pengujian pohon keputusan dengan metode 10-fold cross validation. Berdasarkan
gambar tersebut, dapat dijelaskan bahwa dari total 286 data, sebanyak 216 data 75.52 dapat diklasifikasikan dengan benar, sedangkan 70 data 24.48 salah
diklasifikasikan. Dengan menggunakan persamaan 2.6, 2.7, 2.8, 2.9, dan 2.10, dihitung
nilai precision, recall, dan F-measure. Tabel 4.1 menunjukkan hasil pengukuran
akurasi algoritma pohon keputusan pada BreastCancer.arff.
Tabel 4.1. Nilai Akurasi Pohon Keputusan terhadap BreastCancer.arff
Class Precision
Recall F-measure
Success Rate
no-recurrence-events 0.757