4.2.3. Hasil fitness function Hasil untuk fitness function berdasarkan rumus 2.15 dapat dilihat pada gambar 4.8,
dimana hasil fitness function juga merupakan error rata-rata dari setiap node untuk setiap generasi. Fitness function adalah kriteria terminasi utama pada DANGLE. Dapat
dilihat pada gambar 4.8. Generasi keenam dari pelatihan DANGLE memiliki nilai fitness function sebesar 0,009171, karena nilai ini lebih kecil dari nilai kriteria
terminasi DANGLE yang memiliki nilai 0,0099 sesuai tabel 3.8, maka pelatihan dihentikan pada generasi keenam yang merupakan generasi mutasi terakhir pada
proses pelatihan.
Gambar 4.8. Hasil fitness function untuk setiap generasi
4.3. Hasil pengujian
Hasil pengujian menggunakan dataset pelatihan dan hasil pengujian menggunakan data pengujian untuk setiap jenis file dapat dilihat pada tabel 4.7 dan tabel 4.8. Hasil
dari pengujian menggunakan dataset pelatihan disebut juga dengan kemampuan memorisasi dari jaringan saraf tiruan, dimana memorisasi merupakan penilaian
terhadap seberapa besar persen akurasi identifikasi jaringan saraf tiruan terhadap data yang telah dilatih pada jaringan saraf tiruan. Hasil dari pengujian menggunakan
dataset pengujian disebut juga kemampuan generalisasi dari jaringan saraf tiruan,
Universitas Sumatera Utara
dimana generalisasi merupakan penilaian terhadap seberapa besar persen akurasi identifikasi jaringan saraf tiruan terhadap data yang tidak dilatihkan kepada jaringan
saraf tiruan. Hasil memorisasi yang didapatkan adalah sebesar 96,53 dan hasil generalisasi sebesar 94,33, dimana kedua hasil ini merupakan hasil yang cukup baik.
RMSE yang didapatkan untuk pengujian dengan data pelatihan adalah sebesar 0,24012 dan untuk pengujian dengan data pengujian sebesar 0,35233.
Tabel 4.7. Hasil akurasi untuk setiap jenis file pada pengujian menggunakan dataset pelatihan
Jenis file Akurasi
Doc 93,60
Html 97,60
Pdf 96,80
Ppt 97,60
Xls 97,20
Non-dokumen gif, jpg 96,40
Rata-rata 96,53
Tabel 4.8. Hasil akurasi untuk setiap jenis file pada pengujian menggunakan dataset pengujian
Jenis file Akurasi
Doc 94,00
Html 100,00
Pdf 94,00
Ppt 96,00
Xls 92,00
Non-dokumen gif, jpg 90,00
Rata-rata 94,33
Untuk menunjukkan performa dari metode yang diajukan dengan lebih jelas disajikan juga confusion matrix untuk dataset pelatihan pada tabel 4.9 dan confusion
matrix untuk dataset pengujian pada tabel 4.10, dimana setiap kolom menunjukkan
Universitas Sumatera Utara
kelas hasil prediksi dan setiap baris menunjukkan kelas hasil yang diharapkan. Pada confusion matrix untuk dataset pelatihan, dapat dilihat kesalahan identifikasi
terbanyak terjadi pada file dokumen doc dengan kesalahan identifikasi 11 file menjadi file ppt, 2 file menjadi file xls dan 3 file teridentifikasi sebagai non-dokumen. Pada
confusion matrix untuk dataset testing kesalahan identifikasi terbanyak terjadi pada file non-dokumen dengan 5 kesalahan identifikasi menjadi file ppt, dan pada file
dokumen xls dengan 1 kesalahan identifikasi menjadi file dox dan 1 kesalahan menjadi file ppt. Ada beberapa kemungkinan yang menyebabkan terjadinya kesalahan
identifikasi beberapa jenis file tersebut, yakni: 1. Adanya kemiripan fitur yang didapatkan untuk beberapa file.
2. Adanya kemungkinan suatu file non-dokumen ter-embed secara langsung pada file dokumen, sehingga terjadi kesalahan identifikasi.
3. Adanya kemungkinan kemiripan konten pada jenis file dokumen yang berbeda.
Tabel 4.9. Confusion Matrix untuk dataset pelatihan
Doc Html
Pdf Ppt
Xls Non-dokumen
Doc
234 11
2 3
Html
244 6
Pdf
2 1
242 1
4
Ppt
2 244
1 3
Xls
4 1
2 243
Non-dokumen
2 7
241
Tabel 4.10. Confusion Matrix untuk dataset pengujian
Doc Html
Pdf Ppt
Xls Non-dokumen
Doc
47 2
1
Html
50
Pdf
47 1
1 1
Ppt
48 1
1
Xls
3 1
46
Non-dokumen
5 45
Universitas Sumatera Utara
Selain diuji menggunakan dataset pelatihan serta dataset pengujian dengan file-file yang sama sekali tidak dimodifikasi, metode yang dilakukan pada penelitian
ini juga diuji menggunakan file-file yang telah dipalsukan. Hal ini dilakukan untuk menunjukkan kemampuan metode yang diajukan dalam melakukan identifikasi jenis
file terhadap file yang sudah dipalsukan. Ada dua teknik pemalsuan file yang dilakukan untuk menguji metode yang diajukan, yakni pemalsuan file dengan
mengubah ekstensi nama file dan pemalsuan file dengan mengubah magic bytes pada file. File-file yang digunakan pada pengujian ini adalah file-file pada testing dataset,
dimana pada setiap file dilakukan kedua cara pemalsuan file yang telah disebutkan sebelumnya secara acak. Hasil pengujian ini disajikan pada tabel 4.11, dimana dapat
dilihat bahwa hasil yang didapatkan adalah sama dengan hasil pengujian dengan testing dataset tanpa pemalsuan file pada tabel 4.8, sehingga dapat disimpulkan
metode yang diajukan mampu mengatasi pemalsuan file yang dilakukan pada file-file dokumen.
Tabel 4.11. Hasil akurasi untuk setiap jenis file pada pengujian menggunakan file-file yang telah dipalsukan
Jenis file Persentase jenis file yang
teridentifikasi dengan tepat
Persentase file yang teridentifikasi dengan
tidak tepat
Doc 94,00
6,00 Html
100,00 0,00
Pdf 94,00
6,00 Ppt
96,00 4,00
Xls 92,00
8,00 Non-dokumen gif, jpg 90,00
10,00 Rata-rata
94,33 5,67
Universitas Sumatera Utara
BAB 5 KESIMPULAN DAN SARAN