HASIL DAN PEMBAHASAN KLASIFIKASI DOKUMEN KOMENTAR PADA SITUS YOUTUBE MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBOR (K-NN) - UDiNus Repository

8 Gambar 3. Diagram Alir Proses K-NN [Sumber: Analisa Penulis]

3. HASIL DAN PEMBAHASAN

Untuk mengetahui nilai akurasi dari penerapan metode k-nn ini, penulis mencoba melakukan beberapa uji coba dengan enam skenario, yaitu dengan menggunakan data uji yang sama pada tiap skenario tetapi dengan data training yang berjumlah berbeda antara skenario satu dengan yang lainnya. Kemudian menghitung nilai akurasi pada tiap skenario dengan confusion matrix. Analisa confusion matrix disini penulis menitikberatkan pada nilai accuracy dan eror rate, semakin besar nilai accuracy maka semakin akurat klasifikasi dari penerapan metode k-nn ini, sebaliknya semakin tinggi nilai eror rate maka semakin rendah akurasi dari penerapan metode k-nn ini. Skenario 1 Uji coba skenario pertama penulis menggunakan data uji sebanyak 32 dan data training 120 dengan porsi 60 berlabel positif dan 60 berlabel negatif. Tabel 1. Uji Coba Skenario 1 Nilai K Confusion matrix recall precision accuracy Error rate 2 0,647 0,647 0,625 0,375 10 0,647 0,765 0,75 0,25 15 0,867 0,867 0,813 0,187 35 0,813 0,765 0,781 0,219 50 0,867 0,765 0,844 0,156 Rata- rata 0,768 0,762 0,763 0,237 [ Sumber: Hasil Analisa ] Dari skenario 1 yang mendapatkan hasil pada table 4.1 dapat diketahui nilai terendah dari accuracy adalah 0,625 pada k=2 dan nilai tertinggi 0,844 pada k=50. Sedangkan nilai eror rate terendah adalah 0,156 pada k= 50 dan nilai tertinggi 0,375 pada k=2. Skenario 2 Pada uji coba skenario 2 menggunakan data uji yang sama dan data training sebanyak 180 dengan porsi 90 berlabel positif dan 90 berlabel negatif. Pada skenario 2 ini mendapatkan hasil berikut: Table 2. Uji Coba Skenario 2 Nilai K Confusion matrix recall precision accuracy Error rate 2 0,643 0,529 0,594 0,406 10 0,765 0,765 0,75 0,25 15 0,786 0,647 0,719 0,219 35 0,929 0,765 0,843 0,156 50 1 0,722 0,844 0,156 Rata- rata 0,825 0,686 0,75 0,237 [ Sumber: Hasil Analisa ] Hasil dari skenario 2 yang terdapat tabel pada 2 mempunyai hasil mirip dengan skenario 1, nilai tertinggi accuracy terdapat pada k= 50 yaitu 0,844 dan nilai terendah pada k= 2 adalah 0,594. Begitu pula pada nilai error rate, nilai Input hasil pembobotan Hitung similarity antar dokumen Start Tentukan nilai k Tentukan kategori dokumen Simpan hasil klasifikasi Return 9 terendah pada k= 50 dan k= 35 yaitu 0,156 dan nilai tertinggi pada k= 2 adalah 0,406. Skenario 3 Skenario 3 penulis masih menggunakan data uji yang sama dan data training sebanyak 210 dengan porsi 90 berlabel positif dan 120 berlabel negatif. Skenario 3 ini mendapatkan hasil berikut: Tabel 3. Uji Coba Skenario 3 Nilai K Confusion matrix recall precision accuracy Error rate 2 0,75 0,667 0,688 0,313 10 0,652 0,882 0,688 0,313 15 0,7 0,875 0,75 0,25 35 0,8 0,941 0,844 0,156 50 0,727 0,941 0,781 0,219 Rata- rata 0,726 0,861 0,750 0,25 [ Sumber: Hasil Analisa ] Pada skenario ke 3 ini mendapatkan hasil yang lebih baik dari sebelumnya yaitu nilai tertinggi 81,579 dan nilai terendah 55,263 yang mempunyai rata-rata sebanyak 70,526. Skenario 4 Kemudian pada skenario 4 ini penulis mencoba menggunakan data training dengan jumlah yang sama dengan skenario 3 tetapi dengan porsi yang berbeda, yaitu 120 dokumen berlabel positif dan 90 berlabel negatif. Tabel 4. Uji Coba Skenario 4 Nilai K Confusion matrix recall precision accuracy Error rate 2 0,692 0,529 0,625 0,375 10 0,818 0,5 0,656 0,344 15 0,889 0,444 0,656 0,344 35 1 0,471 0,719 0,281 50 1 0,412 0,688 0,313 Rata- rata 0,88 0,177 0,669 0,331 [ Sumber: Hasil Analisa ] Walaupun jumlah dokumen training sama dengan skenario 3, ternyata dalam skenario 4 mendapatkan hasil yang berbeda. Pada skenario 4 ini nilai tertinggi accuracy mencapai angka 0,719 dan nilai terendah 0,625. Sedangkan nilai error rate tertinggi yaitu 0,375 dan nilai terendah 0,281. Skenario 3 dan 4 ini membuktikan pengaruh dari penentuan jumlah porsi yang tepat dari setiap label. Skenario 5 Pada skenario 5 ini, penulis menambahkan jumlah dokumen training yaitu 240 dokumen dengan porsi seimbang yaitu 120 berlabel positif dan 120 berlabel negatif. Uji coba skenario 5 ini mendapatkan hasil seperti pada tabel 5 dibawah ini: Tabel 5. Uji Coba Skenario 5 Nilai K Confusion matrix recall precision accuracy Error rate 2 0,706 0,706 0,688 0,313 10 0,789 0,882 0,813 0,188 15 0,813 0,765 0,781 0,219 35 0,933 0,824 0,875 0,125 50 1 0,765 0,875 0,125 Rata- rata 0,848 0,788 0,806 0,150 [ Sumber: Hasil Analisa ] Dapat dilihat dengan menambahkan jumlah dokumen training ternyata nilai accuracy dan error rate meningkat dengar rata-rata yang baik. Accuracy tertinggi yaitu 0,875 pada k=35 dan 50, sedangkan nilai terendahnya adalah 0,688 pada k=2 dengan rata-rata 0,806. Kemudian error rate tertinggi adalah 0,313 pada k= 2, sedangkan nilai terendahnya adalah 0,125 pada k= 50 dengan rata-rata 0,150. Skenario 6 Skenario terakhir penulis mencoba menggunakan data yang sama dengan skenario 5 yaitu 120 dokumen berlabel 10 positif dan 120 berlabel negatif, yang membedakan adalah pada skenario 6 ini penulis mencoba menggunakan pengujian tanpa stemming. Tabel 6. Uji Coba Skenario 6 Nilai K Confusion matrix recall precision accuracy Error rate 2 0,667 0,706 0,656 0,343 10 0,813 0,765 0,781 0,219 15 0,869 0,765 0,813 0,188 35 0,929 0,765 0,844 0,156 50 1 0,765 0,875 0,125 Rata- rata 0,856 0,753 0,794 0,206 [ Sumber: Hasil Analisa ] Dari tabel 4.6 diketahui ternyata stemming mempunyai peranan dalam akurasi penelitian ini walaupun tidak terlalu signifikan. Dari skenario 6 didapatkan hasil accuracy tertinggi adalah 0,875 dan nilai terendahnya 0,656. Sedangkan error rate tertinggi adalah 0,343 dan nilai terendahnya 0,125.

4. KESIMPULAN DAN SARAN