77.26 Klasifikasi Dokumen Menggunakan Metode Rocchio Dengan Pemilihan Fitur Menggunakan Chi-square

pemilihan fitur menggunakan uji � pada taraf nyata 0.05 dan 0.001. Penilaian kinerja klasifikasi dilakukan dengan cara menghitung nilai akurasi, recall, precision, dan F-measure dengan bantuan tabel confusion matrix pada Lampiran 6, 7, dan 8. Proses pemilihan fitur mampu mengurangi jumlah term cukup signifikan, namun tidak membuang informasi penting pada setiap kelasnya. Hal ini ditunjukan dengan nilai akurasi pada setiap taraf nyata tidak memiliki perbedaan yang signifikan. Pada klasifikasi tanpa pemilihan fitur diperoleh nilai akurasi sebesar 83.08, klasifikasi dengan pemilihan fitur pada taraf nyata 0.05 dan 0.001 masing- masing diperoleh nilai akurasi sebesar 83.96 dan 83.67. Nilai akurasi pada setiap taraf nyata tidak banyak mengalami perubahan karena jumlah fitur yang diperoleh pada kedua taraf nyata tersebut tidak jauh berbeda. Gambar 6 Grafik Akurasi pada setiap taraf nyata. Terdapat beberapa term yang menghasilkan nilai perhitungan � yang tidak jauh berbeda pada setiap kelas menyebabkan adanya kemiripan makna isi dokumen pada beberapa kelas yang berbeda, sehingga terjadi kesalahan pelabelan kelas. Misalnya kata ‘saving’ dan ‘loan’ yang menjadi penciri kelas ‘money-supp’ banyak terdapat pada dokumen uji pada kelas ‘acq’, sehingga tidak sedikit dokumen yang tidak relevan yang seharusnya masuk ke dalam kelas ‘acq’ masuk ke dalam kelas ‘money- supp’. Grafik Akurasi pada setiap taraf nyata dapat dilihat pada Gambar 6. Secara umum klasifikasi tanpa pemilihan fitur memiliki nilai recall lebih baik dibandingkan dengan klasifikasi tanpa pemilihan fitur yaitu sebesar 78.57. Taraf nyata 0.001 memiliki nilai recall terendah yaitu sebesar 77.26, dan nilai recall pada taraf nyata 0.05 adalah sebesar 78.55. Tabel 3 Hasil pengukuran recall. Recall Kelas Taraf Nyata � - 0.05 0.001 acq 81.64 86.23 86.23 bop 63.33 66.67 66.67 carcass 76.47 76.47 76.47 cocoa 100.00 100.00 100.00 coffee 92.31 92.31 88.46 corn 72.22 72.22 59.26 cpi 62.50 62.50 62.50 crude 83.52 78.57 81.32 dlr 81.40 81.40 72.09 earn 88.27 88.18 87.90 gnp 94.74 94.74 94.74 gold 86.21 86.21 82.76 grain 71.11 70.00 71.11 interest 66.93 66.93 64.57 money-fx 56.70 56.70 63.92 money-supp 75.86 72.41 65.52 oilseed 83.33 83.33 83.33 ship 69.77 67.44 72.09 sugar 96.00 96.00 96.00 trade 69.05 72.62 70.24 Macro Average 78.57

78.55 77.26

Penurunan nilai recall terjadi karena proses pemilihan fitur telah menghilangkan beberapa term yang memiliki informasi penting pada beberapa kelas, sehingga pengklasifikasi tidak mampu memberi label kelas yang benar untuk beberapa dokumen uji. Hal ini selaras dengan perbedaan jumlah fitur yang dihasilkan oleh kedua taraf nyata yaitu taraf nyata 0.05 menghasilkan fitur lebih banyak dibandingkan dengan jumlah fitur yang dihasilkan pada taraf nyata 0.001. Pada kelas ‘cocoa’ dan ‘sugar’, nilai recall yang diperoleh cenderung lebih tinggi dan tidak terdapat perubahan pada setiap taraf nyata. Hal ini karena term dokumen uji pada kedua kelas tersebut banyak yang tidak dimiliki oleh kelas 70.29 72.42 72.57 10 20 30 40 50 60 70 80 90 100 - 0.05 0.001 A k u r as i Taraf nyata α lain. Misalnya kata ‘arroba’ dan ‘brazilian’ hanya dimiliki oleh kelas ‘cocoa’ sehingga kemiripan fitur dokumen uji dengan fitur dokumen latih pada kelas lain sangat kecil. Selain itu jumlah fitur pada setiap taraf nyata pada dokumen latih kedua kelas tersebut tidak jauh berbeda, sehingga nilai recall pada setiap taraf nyata sama. Hasil pengukuran nilai recall dapat dilihat pada Tabel 3. Dari hasil perhitungan precision, klasifikasi dengan pemilihan fitur pada taraf nyata 0.001 memiliki nilai tertinggi yaitu sebesar 72.81, sedangkan klasifikasi tanpa pemilihan fitur nilai