55
Gambar 4.9 berikut ini menunjukkan hasil perhitungan akurasi algoritma pohon keputusan terhadap data set Iris.
Gambar 4.9. Perhitungan Akurasi Pohon Keputusan terhadap Iris.arff
Pada Gambar 4.9, terlihat confusion matrix dan table of confusion dari pengujian pohon keputusan dengan metode 10-fold cross validation. Berdasarkan
gambar tersebut, dapat dijelaskan bahwa dari total 150 data, sebanyak 144 data 96 dapat diklasifikasikan dengan benar, sedangkan 6 data 4 salah diklasifikasikan.
Dengan menggunakan persamaan 2.6, 2.7, 2.8, 2.9, dan 2.10, dihitung nilai precision, recall, dan F-measure. Tabel 4.9 menunjukkan hasil pengukuran
akurasi algoritma pohon keputusan pada Iris.arff.
Tabel 4.9. Nilai Akurasi Pohon Keputusan terhadap Iris.arff
Class Precision
Recall F-measure
Success Rate
Iris-setosa
1.000 0.980
0.990
96.00 Iris-versicolor
0.940 0.940
0.940
Iris-virginica 0.941
0.960 0.950
Weighted Average 0.960
0.960 0.960
Universita Sumatera Utara
56
Gambar 4.10 berikut ini menunjukkan hasil perhitungan akurasi k-NN terhadap data set Iris.
Gambar 4.10. Perhitungan Akurasi k-NN terhadap Iris.arff
Pada Gambar 4.10, terlihat confusion matrix dan table of confusion dari pengujian k-NN dengan metode 10-fold cross validation. Berdasarkan gambar
tersebut, dapat dijelaskan bahwa dari total 150 data, sebanyak 143 data 95.33 dapat diklasifikasikan dengan benar, sedangkan 7 data 4.67 salah diklasifikasikan.
Dengan menggunakan persamaan 2.6, 2.7, 2.8, 2.9, dan 2.10, dihitung nilai precision, recall, dan F-measure. Tabel 4.10 menunjukkan hasil pengukuran
akurasi algoritma k-NN pada Iris.arff.
Tabel 4.10. Nilai Akurasi k-NN terhadap Iris.arff
Class Precision
Recall F-measure
Success Rate
Iris-setosa 1.000
1.000 1.000
95.33 Iris-versicolor
0.922 0.940
0.931
Iris-virginica
0.939 0.920
0.929 Weighted Average
0.953 0.953
0.953
Universita Sumatera Utara
57
4.6. Analisis Perbandingan Akurasi
Berdasarkan perhitungan sebelumnya, diperoleh informasi tingkat akurasi meliputi precision, recall, F-measure, dan success rate. Berikut ini, disajikan tabel ringkasan
dan grafik perbandingan akurasi algoritma pohon keputusan dan k-NN terhadap data sets penelitian, terdiri dari aspek penilaian precision, recall, F-measure, dan success
rate. Pada tabel perbandingan, dilakukan perhitungan rata-rata average terhadap
aspek precision, recall, F-measure, dan success rate berdasarkan 5 data sets penelitian. Pada grafik perbandingan, garis utuh warna biru menunjukkan tingkat
akurasi algoritma pohon keputusan dan garis putus-putus warna merah menunjukkan tingkat akurasi algoritma k-NN.
4.6.1. Penilaian Precision
Menurut Bramer 2007, penilaian precision merupakan penilaian akurasi yang didasarkan kepada positive prediction value berdasarkan table of confusion masing-
masing kelas pada confusion matrix yang diperoleh dari hasil pelatihan dan evaluasipengujian.
Tabel 4.11 menyajikan informasi tingkat akurasi algoritma pohon keputusan dan k-NN berdasarkan penilaian precision.
Tabel 4.11. Perbandingan Precision Pohon Keputusan dan k-NN
Data Sets Algoritma
Pohon Keputusan k-NN
BreastCancer 0.752
0.699 Car
0.924 0.940
Diabetes 0.735
0.696 Ionosphere
0.915 0.871
Iris 0.960
0.953
Precision Average 0.857
85.7 0.832
83.2
Universita Sumatera Utara
58
Gambar 4.11 berikut menunjukkan grafik perbandingan akurasi pohon keputusan dan k-NN dari aspek penilaian precision.
Gambar 4.11. Grafik Perbandingan Precision
Pada Gambar 4.11, terlihat bahwa nilai precision k-NN lebih rendah dibandingkan nilai precision pohon keputusan, kecuali pada data set Car yang terdiri
dari 1.728 instances, 7 atribut, dan 4 kelas. Algoritma k-NN memiliki nilai precision yang lebih baik pada data set dengan jumlah instances dan kelas yang besar.
Berdasarkan penilaian precision pada data sets penelitian, diperoleh bahwa algoritma pohon keputusan memiliki nilai rata-rata precision 2.5 lebih baik dibandingkan
algoritma k-NN.
4.6.2. Penilaian Recall
Menurut Bramer 2007, penilaian recall merupakan penilaian akurasi yang didasarkan kepada true positive rate berdasarkan table of confusion masing-masing
kelas pada confusion matrix yang diperoleh dari hasil pelatihan dan evaluasipengujian.
Tabel 4.12 menyajikan informasi tingkat akurasi algoritma pohon keputusan dan k-NN berdasarkan penilaian recall.
0.000 0.100
0.200 0.300
0.400 0.500
0.600 0.700
0.800 0.900
1.000
BreastCancer Car
Diabetes Ionosphere
Iris
Pohon Keputusan k-NN
Universita Sumatera Utara
59
Tabel 4.12. Perbandingan Recall Pohon Keputusan dan k-NN
Data Sets Algoritma
Pohon Keputusan k-NN
BreastCancer 0.755
0.724 Car
0.924 0.935
Diabetes 0.738
0.702 Ionosphere
0.915 0.863
Iris 0.960
0.953
Recall Average 0.858
85.8 0.835
83.5
Gambar 4.12 berikut menunjukkan grafik perbandingan akurasi pohon keputusan dan k-NN dari aspek penilaian recall.
Gambar 4.12. Grafik Perbandingan Recall
Pada Gambar 4.12, terlihat bahwa nilai recall k-NN lebih rendah dibandingkan nilai recall pohon keputusan, kecuali pada data set Car yang terdiri dari
1.728 instances, 7 atribut, dan 4 kelas. Algoritma k-NN memiliki nilai recall yang lebih baik pada data set dengan jumlah instances dan kelas yang besar. Berdasarkan
penilaian recall pada data sets penelitian, diperoleh bahwa algoritma pohon keputusan memiliki nilai rata-rata recall 2.3 lebih baik dibandingkan algoritma k-NN.
0.000 0.100
0.200 0.300
0.400 0.500
0.600 0.700
0.800 0.900
1.000
BreastCancer Car
Diabetes Ionosphere
Iris
Pohon Keputusan k-NN
Universita Sumatera Utara
60
4.6.3. Penilaian F-measure
Menurut Bramer 2007, penilaian F-measure merupakan penilaian akurasi yang didasarkan kepada harmonic mean dari precision dan recall berdasarkan table of
confusion masing-masing kelas pada confusion matrix yang diperoleh dari hasil pelatihan dan evaluasipengujian.
Tabel 4.13 menyajikan informasi tingkat akurasi algoritma pohon keputusan dan k-NN berdasarkan penilaian F-measure.
Tabel 4.13. Perbandingan F-measure Pohon Keputusan dan k-NN
Data Sets Algoritma
Pohon Keputusan k-NN
BreastCancer 0.713
0.697 Car
0.924 0.925
Diabetes 0.736
0.698 Ionosphere
0.913 0.857
Iris 0.960
0.953
F-measure Average 0.849
84.9 0.826
82.6
Gambar 4.13 berikut menunjukkan grafik perbandingan akurasi pohon keputusan dan k-NN dari aspek penilaian F-measure.
Gambar 4.13. Grafik Perbandingan F-measure
0.000 0.100
0.200 0.300
0.400 0.500
0.600 0.700
0.800 0.900
1.000
BreastCancer Car
Diabetes Ionosphere
Iris
Pohon Keputusan k-NN
Universita Sumatera Utara
61
Pada Gambar 4.13, terlihat bahwa nilai F-measure k-NN lebih rendah dibandingkan nilai F-measure pohon keputusan, kecuali pada data set Car yang terdiri
dari 1.728 instances, 7 atribut, dan 4 kelas. Algoritma k-NN memiliki nilai F-measure yang lebih baik pada data set dengan jumlah instances dan kelas yang besar.
Berdasarkan penilaian F-measure pada data sets penelitian, diperoleh bahwa algoritma pohon keputusan memiliki nilai rata-rata F-measure 2.3 lebih baik
dibandingkan algoritma k-NN.
4.6.4. Penilaian Success Rate
Penilaian success rate merupakan penilaian yang didasarkan kepada persentase correctly classified instances berdasarkan table of confusion masing-masing kelas
pada confusion matrix yang diperoleh dari hasil pelatihan dan evaluasipengujian. Tabel 4.14 menyajikan informasi tingkat akurasi algoritma pohon keputusan
dan k-NN berdasarkan penilaian success rate.
Tabel 4.14. Perbandingan Success Rate Pohon Keputusan dan k-NN
Data Sets Algoritma
Pohon Keputusan k-NN
BreastCancer 75.52
72.38 Car
92.36 93.52
Diabetes 73.83
70.18 Ionosphere
91.45 86.32
Iris 96.00
95.33
Success Rate Average 85.83
83.55
Gambar 4.14 berikut menunjukkan grafik perbandingan akurasi pohon keputusan dan k-NN dari aspek penilaian success rate.
Universita Sumatera Utara
62
Gambar 4.14. Grafik Perbandingan Success Rate
Pada Gambar 4.14, terlihat bahwa nilai success rate k-NN lebih rendah dibandingkan nilai success rate pohon keputusan, kecuali pada data set Car yang
terdiri dari 1.728 instances, 7 atribut, dan 4 kelas. Algoritma k-NN memiliki nilai success rate yang lebih baik pada data set dengan jumlah instances dan kelas yang
besar. Berdasarkan penilaian success rate pada data sets penelitian, diperoleh bahwa algoritma pohon keputusan memiliki nilai rata-rata success rate 2.28 lebih baik
dibandingkan algoritma k-NN.
10 20
30 40
50 60
70 80
90 100
BreastCancer Car
Diabetes Ionosphere
Iris
Pohon Keputusan k-NN
Universita Sumatera Utara
BAB 5 KESIMPULAN DAN SARAN
5.1. Kesimpulan
Penelitian ini menghasilkan beberapa kesimpulan sebagai berikut. 1.
Pengukuran akurasi suatu algoritma klasifikasi dapat dilihat dari confusion matrix untuk penilaian aspek precision, recall, F-measure, dan success rate.
2. Rata-rata keberhasilan algoritma pohon keputusan dan k-NN dalam melakukan
klasifikasi data mencapai akurasi di atas 80. 3.
Penilaian akurasi akan mencapai 100 terbaik pada confusion matrix jika dan hanya jika terdapat nilai nol di luar diagonal matriks, sedangkan diagonal
matriks berisikan total instances yang diklasifikasikan dengan tepat. 4.
Dari analisis perbandingan, terbukti bahwa nilai keakuratan klasifikasi algoritma pohon keputusan lebih baik dengan variasi 2.28 - 2.5
dibandingkan algoritma k-NN pada implementasi terhadap 5 data sets. 5.
Algoritma k-NN memiliki nilai akurasi precision, recall, F-measure, dan success rate yang lebih baik pada data set penelitian dengan jumlah instances
dan kelas yang besar, misalnya data set Car Evaluation yang terdiri dari 1.728 instances dan 4 kelas.
Dengan demikian, penulis menarik kesimpulan bahwa pengukuran akurasi melalui confusion matrix dapat menjadi salah satu tolak ukur dalam pengukuran
performance suatu algoritma klasifikasi, termasuk dalam melakukan perbandingan performance dari sejumlah algoritma data mining dengan fungsionalitas yang sama,
misalnya algoritma pohon keputusan dan k-NN.
Universita Sumatera Utara
64
5.2. Saran