8
Gambar 3. Diagram Alir Proses K-NN [Sumber: Analisa Penulis]
3. HASIL DAN PEMBAHASAN
Untuk mengetahui nilai akurasi dari penerapan metode k-nn ini, penulis
mencoba melakukan beberapa uji coba dengan enam skenario, yaitu dengan
menggunakan data uji yang sama pada tiap skenario tetapi dengan data training
yang berjumlah berbeda antara skenario satu dengan yang lainnya. Kemudian
menghitung nilai akurasi pada tiap skenario dengan confusion matrix.
Analisa confusion matrix disini penulis menitikberatkan pada nilai
accuracy dan eror rate, semakin besar nilai accuracy maka semakin akurat
klasifikasi dari penerapan metode k-nn ini, sebaliknya semakin tinggi nilai eror
rate maka semakin rendah akurasi dari penerapan metode k-nn ini.
Skenario 1 Uji coba skenario pertama penulis
menggunakan data uji sebanyak 32 dan data training 120 dengan porsi 60
berlabel positif dan 60 berlabel negatif.
Tabel 1. Uji Coba Skenario 1 Nilai
K Confusion matrix
recall precision
accuracy Error
rate 2
0,647 0,647
0,625 0,375
10 0,647
0,765 0,75
0,25 15
0,867 0,867
0,813 0,187
35 0,813
0,765 0,781
0,219 50
0,867 0,765
0,844 0,156
Rata- rata
0,768 0,762
0,763 0,237
[
Sumber: Hasil Analisa
] Dari skenario 1 yang mendapatkan
hasil pada table 4.1 dapat diketahui nilai terendah dari accuracy adalah 0,625
pada k=2 dan nilai tertinggi 0,844 pada k=50. Sedangkan nilai eror rate
terendah adalah 0,156 pada k= 50 dan nilai tertinggi 0,375 pada k=2.
Skenario 2
Pada uji
coba skenario
2 menggunakan data uji yang sama dan
data training sebanyak 180 dengan porsi 90 berlabel positif dan 90 berlabel
negatif.
Pada skenario
2 ini
mendapatkan hasil berikut:
Table 2. Uji Coba Skenario 2 Nilai
K Confusion matrix
recall precision
accuracy Error
rate 2
0,643 0,529
0,594 0,406
10 0,765
0,765 0,75
0,25 15
0,786 0,647
0,719 0,219
35 0,929
0,765 0,843
0,156 50
1 0,722
0,844 0,156
Rata- rata
0,825 0,686
0,75 0,237
[
Sumber: Hasil Analisa
] Hasil dari skenario 2 yang terdapat tabel
pada 2 mempunyai hasil mirip dengan skenario 1, nilai tertinggi accuracy
terdapat pada k= 50 yaitu 0,844 dan nilai terendah pada k= 2 adalah 0,594.
Begitu pula pada nilai error rate, nilai
Input hasil pembobotan
Hitung similarity antar dokumen
Start
Tentukan nilai k Tentukan kategori
dokumen Simpan hasil klasifikasi
Return
9 terendah pada k= 50 dan k= 35 yaitu
0,156 dan nilai tertinggi pada k= 2 adalah 0,406.
Skenario 3
Skenario 3
penulis masih
menggunakan data uji yang sama dan data training sebanyak 210 dengan
porsi 90 berlabel positif dan 120 berlabel
negatif. Skenario
3 ini
mendapatkan hasil berikut:
Tabel 3. Uji Coba Skenario 3 Nilai
K Confusion matrix
recall precision
accuracy Error
rate 2
0,75 0,667
0,688 0,313
10 0,652
0,882 0,688
0,313 15
0,7 0,875
0,75 0,25
35 0,8
0,941 0,844
0,156 50
0,727 0,941
0,781 0,219
Rata- rata
0,726 0,861
0,750 0,25
[
Sumber: Hasil Analisa
] Pada skenario ke 3 ini mendapatkan
hasil yang lebih baik dari sebelumnya yaitu nilai tertinggi 81,579 dan nilai
terendah 55,263 yang mempunyai rata-rata sebanyak 70,526.
Skenario 4
Kemudian pada skenario 4 ini penulis mencoba menggunakan data
training dengan jumlah yang sama dengan skenario 3 tetapi dengan porsi
yang berbeda, yaitu 120 dokumen berlabel positif dan 90 berlabel negatif.
Tabel 4. Uji Coba Skenario 4 Nilai
K Confusion matrix
recall precision
accuracy Error
rate 2
0,692 0,529
0,625 0,375
10 0,818
0,5 0,656
0,344 15
0,889 0,444
0,656 0,344
35 1
0,471 0,719
0,281 50
1 0,412
0,688 0,313
Rata- rata
0,88 0,177
0,669 0,331
[
Sumber: Hasil Analisa
] Walaupun jumlah dokumen training
sama dengan skenario 3, ternyata dalam skenario 4 mendapatkan hasil yang
berbeda. Pada skenario 4 ini nilai tertinggi accuracy mencapai angka
0,719
dan nilai
terendah 0,625.
Sedangkan nilai error rate tertinggi yaitu 0,375 dan nilai terendah 0,281.
Skenario 3 dan 4 ini membuktikan pengaruh dari penentuan jumlah porsi
yang tepat dari setiap label. Skenario 5
Pada skenario 5 ini, penulis menambahkan
jumlah dokumen
training yaitu 240 dokumen dengan porsi seimbang yaitu 120 berlabel
positif dan 120 berlabel negatif. Uji coba skenario 5 ini mendapatkan hasil
seperti pada tabel 5 dibawah ini:
Tabel 5. Uji Coba Skenario 5 Nilai
K Confusion matrix
recall precision
accuracy Error
rate 2
0,706 0,706
0,688 0,313
10 0,789
0,882 0,813
0,188 15
0,813 0,765
0,781 0,219
35 0,933
0,824 0,875
0,125 50
1 0,765
0,875 0,125
Rata- rata
0,848 0,788
0,806 0,150
[
Sumber: Hasil Analisa
] Dapat dilihat dengan menambahkan
jumlah dokumen training ternyata nilai accuracy dan error rate meningkat
dengar rata-rata yang baik. Accuracy tertinggi yaitu 0,875 pada k=35 dan 50,
sedangkan nilai terendahnya adalah 0,688 pada k=2 dengan rata-rata 0,806.
Kemudian error rate tertinggi adalah 0,313 pada k= 2, sedangkan nilai
terendahnya adalah 0,125 pada k= 50 dengan rata-rata 0,150.
Skenario 6
Skenario terakhir penulis mencoba menggunakan data yang sama dengan
skenario 5 yaitu 120 dokumen berlabel
10 positif dan 120 berlabel negatif, yang
membedakan adalah pada skenario 6 ini penulis
mencoba menggunakan
pengujian tanpa stemming.
Tabel 6. Uji Coba Skenario 6 Nilai
K Confusion matrix
recall precision
accuracy Error
rate 2
0,667 0,706
0,656 0,343
10 0,813
0,765 0,781
0,219 15
0,869 0,765
0,813 0,188
35 0,929
0,765 0,844
0,156 50
1 0,765
0,875 0,125
Rata- rata
0,856 0,753
0,794 0,206
[
Sumber: Hasil Analisa
] Dari tabel 4.6 diketahui ternyata
stemming mempunyai peranan dalam akurasi penelitian ini walaupun tidak
terlalu signifikan. Dari skenario 6 didapatkan hasil accuracy tertinggi
adalah 0,875 dan nilai terendahnya 0,656. Sedangkan error rate tertinggi
adalah 0,343 dan nilai terendahnya 0,125.
4. KESIMPULAN DAN SARAN