30
Othman Yau 2007 melakukan penelitian berjudul “Comparison of
Different Classification Techniques using WEKA for Breast Cancer ”. Metode
pengujian yang digunakan berupa percentage split sebesar 75, artinya 75 data digunakan sebagai data training dan 25 sisanya sebagai data testing. Pengujian
akurasi berdasarkan kepada Correctly Classified Instances, Incorrectly Classified Instances, dan Time Taken. Hasilnya, algoritma Naive Bayes memiliki tingkat akurasi
tertinggi dan waktu pembangunan model tercepat dibandingkan dengan Radial Basis Function, Decision Tree and Pruning, Single Conjunctive Rule Learner, dan Nearest
Neighbors Algorithm. Pada penelitian ini, hanya digunakan satu macam data set berupa breast cancer dan belum menggunakan metode k-fold Cross Validation.
2.8. Perbedaan dengan Riset yang Lain
Dalam penelitian ini, dilakukan pelatihan training dan pengujian testing terhadap 5 UCI data sets menggunakan algoritma klasifikasi pohon keputusan dan k-NN dan
menghasilkan confusion matrix untuk penilaian precision, recall, F-measure, dan success rate. Adapun metode pengujianevaluasi yang digunakan adalah 10-fold cross
validation.
2.9. Kontribusi Riset
Aspek akurasi yang dihasilkan dalam penelitian ini meliputi confusion matrix untuk penilaian precision, recall, F-measure, dan success rate persentase correctly
classified instances. Dengan demikian, diharapkan dapat diketahui aspek pengukuran performance suatu algoritma klasifikasi dari sudut pandang akurasi, serta diperoleh
perbandingan akurasi algoritma pohon keputusan dan k-NN pada implementasi
terhadap 5 UCI data sets.
Universita Sumatera Utara
BAB 3 METODOLOGI PENELITIAN
3.1. Pendahuluan
Metodologi penelitian merupakan sekumpulan proses terstruktur mengenai peraturan, kegiatan, dan prosedur yang digunakan oleh pelaku suatu disiplin ilmu dalam
melaksanakan penelitian. Zarlis, et al., 2013 Pada algoritma klasifikasi data mining, aspek akurasi berdasarkan confusion
matrix untuk penilaian precision, recall, F-measure, dan success rate merupakan dasar pengukuran performance algoritma melalui sejumlah metode seperti Use
Training Set, k-Fold Cross Validation, dan Percentage Split. Berdasarkan uraian di atas, maka dalam penelitian ini dilakukan analisis perbandingan akurasi algoritma
klasifikasi pohon keputusan dan k-Nearest Neighbor k-NN berdasarkan confusion matrix menggunakan metode 10-fold cross validation.
Pada penelitian ini, penulis menggunakan metode penelitian berupa studi literatur riset pustaka. Historical research sama dengan riset pustaka. Historical
research dilakukan dengan membaca buku-buku dan literatur serta mengikuti pola dari literatur maupun buku yang dibaca. Hasibuan, 2007
3.2. Data yang Digunakan
Data sets untuk pelatihan dan pengujian training sets dan testing sets berasal dari UC Irvine Machine Learning Repository UCI Machine Learning Repository, berupa
BreastCancer, Car, Diabetes, Ionosphere, dan Iris. Rincian masing-masing data set dapat dilihat pada Tabel 3.1 berikut.
Tabel 3.1. Data Sets Penelitian No.
Data Sets Instances
Attributes Classes
1 BreastCancer
286 10
2 2
Car 1.728
7 4
3 Diabetes
768 9
2 4
Ionosphere 351
35 2
5 Iris
150 5
3
Universita Sumatera Utara