Perbedaan dengan Riset yang Lain Kontribusi Riset

30 Othman Yau 2007 melakukan penelitian berjudul “Comparison of Different Classification Techniques using WEKA for Breast Cancer ”. Metode pengujian yang digunakan berupa percentage split sebesar 75, artinya 75 data digunakan sebagai data training dan 25 sisanya sebagai data testing. Pengujian akurasi berdasarkan kepada Correctly Classified Instances, Incorrectly Classified Instances, dan Time Taken. Hasilnya, algoritma Naive Bayes memiliki tingkat akurasi tertinggi dan waktu pembangunan model tercepat dibandingkan dengan Radial Basis Function, Decision Tree and Pruning, Single Conjunctive Rule Learner, dan Nearest Neighbors Algorithm. Pada penelitian ini, hanya digunakan satu macam data set berupa breast cancer dan belum menggunakan metode k-fold Cross Validation.

2.8. Perbedaan dengan Riset yang Lain

Dalam penelitian ini, dilakukan pelatihan training dan pengujian testing terhadap 5 UCI data sets menggunakan algoritma klasifikasi pohon keputusan dan k-NN dan menghasilkan confusion matrix untuk penilaian precision, recall, F-measure, dan success rate. Adapun metode pengujianevaluasi yang digunakan adalah 10-fold cross validation.

2.9. Kontribusi Riset

Aspek akurasi yang dihasilkan dalam penelitian ini meliputi confusion matrix untuk penilaian precision, recall, F-measure, dan success rate persentase correctly classified instances. Dengan demikian, diharapkan dapat diketahui aspek pengukuran performance suatu algoritma klasifikasi dari sudut pandang akurasi, serta diperoleh perbandingan akurasi algoritma pohon keputusan dan k-NN pada implementasi terhadap 5 UCI data sets. Universita Sumatera Utara

BAB 3 METODOLOGI PENELITIAN

3.1. Pendahuluan

Metodologi penelitian merupakan sekumpulan proses terstruktur mengenai peraturan, kegiatan, dan prosedur yang digunakan oleh pelaku suatu disiplin ilmu dalam melaksanakan penelitian. Zarlis, et al., 2013 Pada algoritma klasifikasi data mining, aspek akurasi berdasarkan confusion matrix untuk penilaian precision, recall, F-measure, dan success rate merupakan dasar pengukuran performance algoritma melalui sejumlah metode seperti Use Training Set, k-Fold Cross Validation, dan Percentage Split. Berdasarkan uraian di atas, maka dalam penelitian ini dilakukan analisis perbandingan akurasi algoritma klasifikasi pohon keputusan dan k-Nearest Neighbor k-NN berdasarkan confusion matrix menggunakan metode 10-fold cross validation. Pada penelitian ini, penulis menggunakan metode penelitian berupa studi literatur riset pustaka. Historical research sama dengan riset pustaka. Historical research dilakukan dengan membaca buku-buku dan literatur serta mengikuti pola dari literatur maupun buku yang dibaca. Hasibuan, 2007

3.2. Data yang Digunakan

Data sets untuk pelatihan dan pengujian training sets dan testing sets berasal dari UC Irvine Machine Learning Repository UCI Machine Learning Repository, berupa BreastCancer, Car, Diabetes, Ionosphere, dan Iris. Rincian masing-masing data set dapat dilihat pada Tabel 3.1 berikut. Tabel 3.1. Data Sets Penelitian No. Data Sets Instances Attributes Classes 1 BreastCancer 286 10 2 2 Car 1.728 7 4 3 Diabetes 768 9 2 4 Ionosphere 351 35 2 5 Iris 150 5 3 Universita Sumatera Utara