BAB 3 ANALISIS DAN PERANCANGAN
Bab ini membahas tentang implementasi metode Distributed Autonomous Neuro-Gen Learning Engine untuk melakukan identifikasi file dokumen berdasarkan konten. Bab
ini juga membahas tentang data yang digunakan serta pre-processing yang dilakukan terhadap setiap data tersebut.
3.1. Arsitektur Umum
Metode yang diajukan pada penelitian ini dapat dilihat pada gambar 3.1 yang menunjukkan arsitektur umum dari rangkaian langkah yang dilakukan untuk
melakukan identifikasi jenis file dokumen, Rangkaian langkah yang dimaksud adalah sebagai berikut: pengumpulan file-file dokumen dan non-dokumen yang akan
digunakan sebagai data pelatihan serta data pengujian; kalkulasi Byte Frequency Distribution BFD dari setiap file yang ada; normalisasi serta kompresi dan ekspansi
hasil kalkulasi BFD; pengurangan dimensionalitas dari 256 dimensi fitur BFD menjadi k dimensi pada setiap data pelatihan dan data pengujian; partisi data pelatihan
yang telah dikurangi dimensionalitasnya; pelatihan jaringan saraf tiruan pada Distributed Adaptive Neural Network DANN yang diatur oleh Gene Regulatory
Engine GRE menggunakan data pelatihan untuk menghasilkan DANN hasil pelatihan; pengujian DANN hasil pelatihan menggunakan data pengujian untuk
mengetahui akurasi klasifikasi dari DANN, serta error akar kuadrat dari DANN. Setelah rangkaian langkah diatas dilakukan maka DANN hasil pelatihan yang
didapatkan akan mampu mengidentifikasi file dengan jenis yang tidak diketahui. Setiap tahapan yang dilakukan akan dijelaskan dengan lebih terperinci pada bagian-
bagian selanjutnya.
Universitas Sumatera Utara
Gambar 3.1. Arsitektur umum metode yang diajukan
Universitas Sumatera Utara
3.2. Dataset
Data yang digunakan pada penelitian ini merupakan file-file dokumen pemerintahan yang dikumpulkan secara acak dari http:digitalcorpora.orgcorporafiles, serta file-
file non-dokumen yang juga dikumpulkan secara acak. Adapun jenis-jenis file yang digunakan dalam penelitian ini adalah file-file dokumen yang terdiri atas file aplikasi
Microsoft Office Word doc, Powerpoint ppt dan Excel xls, file Adobe Portable Document Format pdf, serta file Hypertext Markup Language html dan file-file
non-dokumen yang terdiri atas file Graphics Interchange Format gif, serta file Joint Photographic Experts Group jpg. Total file yang dikumpulkan seluruhnya berjumlah
1800 file. Spesifikasi seluruh file dokumen serta non-dokumen yang dikumpulkan dapat dilihat pada tabel 3.1.
File-file yang telah dikumpulkan kemudian dibagi menjadi dua dataset, yakni: training dataset atau dataset pelatihan yang akan digunakan untuk melatih DANN dan
testing dataset atau dataset pengujian yang digunakan untuk mengetahui akurasi dan error dari DANN hasil pelatihan. Pembagian seluruh dataset menjadi dataset pelatihan
dan dataset pengujian dilakukan secara acak, detail pembagian dataset dapat dilihat pada tabel 3.2 dan tabel 3.3.
Tabel 3.1. Spesifikasi file-file yang digunakan sebagai data penelitian Jenis file
Banyak file Ukuran file
minimum byte Ukuran file
maksimum byte
Doc 300
17.920 14.170.112
Html 300
237 1.104.452
Pdf 300
6.349 5.582.269
Ppt 300
34.816 38.524.416
Xls 300
7.336 27.972.096
Non-dokumen gif, jpg 300
2.888 14.871.962
Universitas Sumatera Utara
Tabel 3.2. Spesifikasi training dataset
Jenis file Banyak file
Ukuran file minimum byte
Ukuran file maksimum byte
Doc 250
21.504 14.170.112
Html 250
237 1.104.452
Pdf 250
6.506 5.582.269
Ppt 250
34.816 38.524.416
Xls 250
7.336 27.972.096
Non-dokumen gif, jpg 250
2.888 14.871.962
Tabel 3.3. Spesifikasi testing dataset
Jenis file Banyak file
Ukuran file minimum byte
Ukuran file maksimum byte
Doc 50
17.920 7.516.672
Html 50
1.116 1.064.819
Pdf 50
6.349 3.748.578
Ppt 50
38.912 11.466.240
Xls 50
20.480 12.377.088
Non-dokumen gif, jpg 50
3.406 6.437.537
3.3. Pre-process