Iris-versicolor Iris-versicolor Kesimpulan METODOLOGI PENELITIAN

55 Gambar 4.9 berikut ini menunjukkan hasil perhitungan akurasi algoritma pohon keputusan terhadap data set Iris. Gambar 4.9. Perhitungan Akurasi Pohon Keputusan terhadap Iris.arff Pada Gambar 4.9, terlihat confusion matrix dan table of confusion dari pengujian pohon keputusan dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 150 data, sebanyak 144 data 96 dapat diklasifikasikan dengan benar, sedangkan 6 data 4 salah diklasifikasikan. Dengan menggunakan persamaan 2.6, 2.7, 2.8, 2.9, dan 2.10, dihitung nilai precision, recall, dan F-measure. Tabel 4.9 menunjukkan hasil pengukuran akurasi algoritma pohon keputusan pada Iris.arff. Tabel 4.9. Nilai Akurasi Pohon Keputusan terhadap Iris.arff Class Precision Recall F-measure Success Rate Iris-setosa 1.000 0.980 0.990

96.00 Iris-versicolor

0.940 0.940 0.940 Iris-virginica 0.941 0.960 0.950 Weighted Average 0.960 0.960 0.960 Universita Sumatera Utara 56 Gambar 4.10 berikut ini menunjukkan hasil perhitungan akurasi k-NN terhadap data set Iris. Gambar 4.10. Perhitungan Akurasi k-NN terhadap Iris.arff Pada Gambar 4.10, terlihat confusion matrix dan table of confusion dari pengujian k-NN dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 150 data, sebanyak 143 data 95.33 dapat diklasifikasikan dengan benar, sedangkan 7 data 4.67 salah diklasifikasikan. Dengan menggunakan persamaan 2.6, 2.7, 2.8, 2.9, dan 2.10, dihitung nilai precision, recall, dan F-measure. Tabel 4.10 menunjukkan hasil pengukuran akurasi algoritma k-NN pada Iris.arff. Tabel 4.10. Nilai Akurasi k-NN terhadap Iris.arff Class Precision Recall F-measure Success Rate Iris-setosa 1.000 1.000 1.000

95.33 Iris-versicolor

0.922 0.940 0.931 Iris-virginica 0.939 0.920 0.929 Weighted Average 0.953 0.953 0.953 Universita Sumatera Utara 57

4.6. Analisis Perbandingan Akurasi

Berdasarkan perhitungan sebelumnya, diperoleh informasi tingkat akurasi meliputi precision, recall, F-measure, dan success rate. Berikut ini, disajikan tabel ringkasan dan grafik perbandingan akurasi algoritma pohon keputusan dan k-NN terhadap data sets penelitian, terdiri dari aspek penilaian precision, recall, F-measure, dan success rate. Pada tabel perbandingan, dilakukan perhitungan rata-rata average terhadap aspek precision, recall, F-measure, dan success rate berdasarkan 5 data sets penelitian. Pada grafik perbandingan, garis utuh warna biru menunjukkan tingkat akurasi algoritma pohon keputusan dan garis putus-putus warna merah menunjukkan tingkat akurasi algoritma k-NN.

4.6.1. Penilaian Precision

Menurut Bramer 2007, penilaian precision merupakan penilaian akurasi yang didasarkan kepada positive prediction value berdasarkan table of confusion masing- masing kelas pada confusion matrix yang diperoleh dari hasil pelatihan dan evaluasipengujian. Tabel 4.11 menyajikan informasi tingkat akurasi algoritma pohon keputusan dan k-NN berdasarkan penilaian precision. Tabel 4.11. Perbandingan Precision Pohon Keputusan dan k-NN Data Sets Algoritma Pohon Keputusan k-NN BreastCancer 0.752 0.699 Car 0.924 0.940 Diabetes 0.735 0.696 Ionosphere 0.915 0.871 Iris 0.960 0.953 Precision Average 0.857

85.7 0.832

83.2 Universita Sumatera Utara 58 Gambar 4.11 berikut menunjukkan grafik perbandingan akurasi pohon keputusan dan k-NN dari aspek penilaian precision. Gambar 4.11. Grafik Perbandingan Precision Pada Gambar 4.11, terlihat bahwa nilai precision k-NN lebih rendah dibandingkan nilai precision pohon keputusan, kecuali pada data set Car yang terdiri dari 1.728 instances, 7 atribut, dan 4 kelas. Algoritma k-NN memiliki nilai precision yang lebih baik pada data set dengan jumlah instances dan kelas yang besar. Berdasarkan penilaian precision pada data sets penelitian, diperoleh bahwa algoritma pohon keputusan memiliki nilai rata-rata precision 2.5 lebih baik dibandingkan algoritma k-NN.

4.6.2. Penilaian Recall

Menurut Bramer 2007, penilaian recall merupakan penilaian akurasi yang didasarkan kepada true positive rate berdasarkan table of confusion masing-masing kelas pada confusion matrix yang diperoleh dari hasil pelatihan dan evaluasipengujian. Tabel 4.12 menyajikan informasi tingkat akurasi algoritma pohon keputusan dan k-NN berdasarkan penilaian recall. 0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000 BreastCancer Car Diabetes Ionosphere Iris Pohon Keputusan k-NN Universita Sumatera Utara 59 Tabel 4.12. Perbandingan Recall Pohon Keputusan dan k-NN Data Sets Algoritma Pohon Keputusan k-NN BreastCancer 0.755 0.724 Car 0.924 0.935 Diabetes 0.738 0.702 Ionosphere 0.915 0.863 Iris 0.960 0.953 Recall Average 0.858

85.8 0.835

83.5 Gambar 4.12 berikut menunjukkan grafik perbandingan akurasi pohon keputusan dan k-NN dari aspek penilaian recall. Gambar 4.12. Grafik Perbandingan Recall Pada Gambar 4.12, terlihat bahwa nilai recall k-NN lebih rendah dibandingkan nilai recall pohon keputusan, kecuali pada data set Car yang terdiri dari 1.728 instances, 7 atribut, dan 4 kelas. Algoritma k-NN memiliki nilai recall yang lebih baik pada data set dengan jumlah instances dan kelas yang besar. Berdasarkan penilaian recall pada data sets penelitian, diperoleh bahwa algoritma pohon keputusan memiliki nilai rata-rata recall 2.3 lebih baik dibandingkan algoritma k-NN. 0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000 BreastCancer Car Diabetes Ionosphere Iris Pohon Keputusan k-NN Universita Sumatera Utara 60

4.6.3. Penilaian F-measure

Menurut Bramer 2007, penilaian F-measure merupakan penilaian akurasi yang didasarkan kepada harmonic mean dari precision dan recall berdasarkan table of confusion masing-masing kelas pada confusion matrix yang diperoleh dari hasil pelatihan dan evaluasipengujian. Tabel 4.13 menyajikan informasi tingkat akurasi algoritma pohon keputusan dan k-NN berdasarkan penilaian F-measure. Tabel 4.13. Perbandingan F-measure Pohon Keputusan dan k-NN Data Sets Algoritma Pohon Keputusan k-NN BreastCancer 0.713 0.697 Car 0.924 0.925 Diabetes 0.736 0.698 Ionosphere 0.913 0.857 Iris 0.960 0.953 F-measure Average 0.849

84.9 0.826

82.6 Gambar 4.13 berikut menunjukkan grafik perbandingan akurasi pohon keputusan dan k-NN dari aspek penilaian F-measure. Gambar 4.13. Grafik Perbandingan F-measure 0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000 BreastCancer Car Diabetes Ionosphere Iris Pohon Keputusan k-NN Universita Sumatera Utara 61 Pada Gambar 4.13, terlihat bahwa nilai F-measure k-NN lebih rendah dibandingkan nilai F-measure pohon keputusan, kecuali pada data set Car yang terdiri dari 1.728 instances, 7 atribut, dan 4 kelas. Algoritma k-NN memiliki nilai F-measure yang lebih baik pada data set dengan jumlah instances dan kelas yang besar. Berdasarkan penilaian F-measure pada data sets penelitian, diperoleh bahwa algoritma pohon keputusan memiliki nilai rata-rata F-measure 2.3 lebih baik dibandingkan algoritma k-NN.

4.6.4. Penilaian Success Rate

Penilaian success rate merupakan penilaian yang didasarkan kepada persentase correctly classified instances berdasarkan table of confusion masing-masing kelas pada confusion matrix yang diperoleh dari hasil pelatihan dan evaluasipengujian. Tabel 4.14 menyajikan informasi tingkat akurasi algoritma pohon keputusan dan k-NN berdasarkan penilaian success rate. Tabel 4.14. Perbandingan Success Rate Pohon Keputusan dan k-NN Data Sets Algoritma Pohon Keputusan k-NN BreastCancer 75.52 72.38 Car 92.36 93.52 Diabetes 73.83 70.18 Ionosphere 91.45 86.32 Iris 96.00 95.33 Success Rate Average 85.83 83.55 Gambar 4.14 berikut menunjukkan grafik perbandingan akurasi pohon keputusan dan k-NN dari aspek penilaian success rate. Universita Sumatera Utara 62 Gambar 4.14. Grafik Perbandingan Success Rate Pada Gambar 4.14, terlihat bahwa nilai success rate k-NN lebih rendah dibandingkan nilai success rate pohon keputusan, kecuali pada data set Car yang terdiri dari 1.728 instances, 7 atribut, dan 4 kelas. Algoritma k-NN memiliki nilai success rate yang lebih baik pada data set dengan jumlah instances dan kelas yang besar. Berdasarkan penilaian success rate pada data sets penelitian, diperoleh bahwa algoritma pohon keputusan memiliki nilai rata-rata success rate 2.28 lebih baik dibandingkan algoritma k-NN. 10 20 30 40 50 60 70 80 90 100 BreastCancer Car Diabetes Ionosphere Iris Pohon Keputusan k-NN Universita Sumatera Utara

BAB 5 KESIMPULAN DAN SARAN

5.1. Kesimpulan

Penelitian ini menghasilkan beberapa kesimpulan sebagai berikut. 1. Pengukuran akurasi suatu algoritma klasifikasi dapat dilihat dari confusion matrix untuk penilaian aspek precision, recall, F-measure, dan success rate. 2. Rata-rata keberhasilan algoritma pohon keputusan dan k-NN dalam melakukan klasifikasi data mencapai akurasi di atas 80. 3. Penilaian akurasi akan mencapai 100 terbaik pada confusion matrix jika dan hanya jika terdapat nilai nol di luar diagonal matriks, sedangkan diagonal matriks berisikan total instances yang diklasifikasikan dengan tepat. 4. Dari analisis perbandingan, terbukti bahwa nilai keakuratan klasifikasi algoritma pohon keputusan lebih baik dengan variasi 2.28 - 2.5 dibandingkan algoritma k-NN pada implementasi terhadap 5 data sets. 5. Algoritma k-NN memiliki nilai akurasi precision, recall, F-measure, dan success rate yang lebih baik pada data set penelitian dengan jumlah instances dan kelas yang besar, misalnya data set Car Evaluation yang terdiri dari 1.728 instances dan 4 kelas. Dengan demikian, penulis menarik kesimpulan bahwa pengukuran akurasi melalui confusion matrix dapat menjadi salah satu tolak ukur dalam pengukuran performance suatu algoritma klasifikasi, termasuk dalam melakukan perbandingan performance dari sejumlah algoritma data mining dengan fungsionalitas yang sama, misalnya algoritma pohon keputusan dan k-NN. Universita Sumatera Utara 64

5.2. Saran