0.2 0.4 0.6 0.8 Document Classification Using Background Smoothing

7 Background Smoothing lebih baik daripada NBC. NBC+ Tingkat keakurasian yang paling baik untuk short query diperoleh pada parameter pengontrol koefisien λ=0.3, seperti yang terlihat pada Gambar 5. RataArata nilai recall, precision dan Fmeasure untuk semua kelas atau micro average pada koefisien λ=0.3 adalah 84 dan akurasi yang didapat adalah 89.3 . Hasil penghitungan pada micro average untuk semua nilai koefisien λ dapat dilihat pada Tabel 1. Hasil klasifikasi dokumen untuk semua koefisien λ pada short query dalam bentuk confusion matrix ada pada Lampiran 1. Tabel 1 Micro Average untuk Short Query ≠ rec=recall ; pre=Precision ; FA1= Fmeasure ; acc= Accuracy Pada Gambar 5 terlihat bahwa parameter pengontrol koefisien λ=0.1, 0.4, 0.5, 0.6, 0.7, dan 0.8 memiliki nilai akurasi yang sama, yaitu sebesar 88.4 . Walaupun nilai yang diperoleh adalah sama, namun untuk nilai macro average berbeda. Nilai macro average yang berbeda adalah pada koefisien λ=0.1. Sedangkan untuk koefisien λ= 0.4, 0.5, 0.6, 0.7 dan 0.8 nilainya sama. Hasil pengukuran macro dan micro average untuk semua koefisien pada short query dapat dilihat di Lampiran 2. Perbedaan tersebut nampak pada kelas b Pemuliaan dan Teknologi Benih dan kelas c Proteksi. Sedangkan untuk kelas a Fisiologi dan Agronomi nilai yang diperoleh adalah sama. Pada Koefisien λ=0.1, nilai pada kelas c lebih tinggi dan pada kelas b nilainya lebih rendah. Hal ini disebabkan karena pada kelas c dokumen yang dikenali dengan benar lebih tinggi daripada koefisien λ= 0.4, 0.5, 0.6, 0.7, dan 0.8. Demikian pula sebaliknya yang terjadi pada kelas b, dokumen yang dikenali dengan benar lebih rendah dibandingkan dengan λ= 0.1. Pada Tabel 2 terlihat bahwa total pengujian untuk tiga kelas a, b, dan c yang diklasifikasiA kan benar adalah 555, dan yang diklasifikasi salah adalah sebanyak 120. Sedangkan untuk dokumen yang diklasifikasikan dari total tiga kelas dengan banyaknya koefisien λ yang diujikan, diperoleh nilai sebanyak 1230. Nilai tersebut diperoleh dengan penghitungan sebagai berikut: 75 x 39 A 555+120+120 = 2025 A 796 = 1230 Nilai 75 adalah total dokumen uji dan nilai 3 merupakan jumlah kelas atau kategori. Nilai 555 adalah total dokumen yang diklasifikasikan benar di tiga kelas pada semua koefisien λ, dan 120 adalah total dokumen yang diklasifikasikan salah di tiga kelas pada semua koefisien λ. Tabel 2 Confusion Matrix Short Query TRUE FALSE TRUE 555 120 FALSE 120 1230 parameter pengontrol koefisien λ

0.1 0.2

0.3 0.4

0.5 0.6

0.7 0.8

0.9 rec 82,7 81,3 84,0 82,7 82,7 82,7 82,7 82,7 83,1 pre 82,7 81,3 84,0 82,7 82,7 82,7 82,7 82,7 74,7 F=1 82,7 81,3 84,0 82,7 82,7 82,7 82,7 82,7 78,7 acc 88,4 87,6 89,3 88,4 88,4 88,4 88,4 88,4 85,8 70 72 74 76 78 80 82 84 86 88 90 92 94 96 98 100

0.1 0.2

0.3 0.4

0.5 0.6

0.7 0.8

0.9 T in g k a t A k u r a si Koefisien λ Tingkat Akurasi Parameter Pengontrol Koefisien λ pada Gambar 5 Tingkat Akurasi Koefisien λ pada Short Query 8 70 72 74 76 78 80 82 84 86 88 90 92 94 96 98 100

0.1 0.2