Arsitektur Umum Dataset ANALISIS DAN PERANCANGAN

BAB 3 ANALISIS DAN PERANCANGAN

Bab ini membahas tentang implementasi metode Distributed Autonomous Neuro-Gen Learning Engine untuk melakukan identifikasi file dokumen berdasarkan konten. Bab ini juga membahas tentang data yang digunakan serta pre-processing yang dilakukan terhadap setiap data tersebut.

3.1. Arsitektur Umum

Metode yang diajukan pada penelitian ini dapat dilihat pada gambar 3.1 yang menunjukkan arsitektur umum dari rangkaian langkah yang dilakukan untuk melakukan identifikasi jenis file dokumen, Rangkaian langkah yang dimaksud adalah sebagai berikut: pengumpulan file-file dokumen dan non-dokumen yang akan digunakan sebagai data pelatihan serta data pengujian; kalkulasi Byte Frequency Distribution BFD dari setiap file yang ada; normalisasi serta kompresi dan ekspansi hasil kalkulasi BFD; pengurangan dimensionalitas dari 256 dimensi fitur BFD menjadi k dimensi pada setiap data pelatihan dan data pengujian; partisi data pelatihan yang telah dikurangi dimensionalitasnya; pelatihan jaringan saraf tiruan pada Distributed Adaptive Neural Network DANN yang diatur oleh Gene Regulatory Engine GRE menggunakan data pelatihan untuk menghasilkan DANN hasil pelatihan; pengujian DANN hasil pelatihan menggunakan data pengujian untuk mengetahui akurasi klasifikasi dari DANN, serta error akar kuadrat dari DANN. Setelah rangkaian langkah diatas dilakukan maka DANN hasil pelatihan yang didapatkan akan mampu mengidentifikasi file dengan jenis yang tidak diketahui. Setiap tahapan yang dilakukan akan dijelaskan dengan lebih terperinci pada bagian- bagian selanjutnya. Universitas Sumatera Utara Gambar 3.1. Arsitektur umum metode yang diajukan Universitas Sumatera Utara

3.2. Dataset

Data yang digunakan pada penelitian ini merupakan file-file dokumen pemerintahan yang dikumpulkan secara acak dari http:digitalcorpora.orgcorporafiles, serta file- file non-dokumen yang juga dikumpulkan secara acak. Adapun jenis-jenis file yang digunakan dalam penelitian ini adalah file-file dokumen yang terdiri atas file aplikasi Microsoft Office Word doc, Powerpoint ppt dan Excel xls, file Adobe Portable Document Format pdf, serta file Hypertext Markup Language html dan file-file non-dokumen yang terdiri atas file Graphics Interchange Format gif, serta file Joint Photographic Experts Group jpg. Total file yang dikumpulkan seluruhnya berjumlah 1800 file. Spesifikasi seluruh file dokumen serta non-dokumen yang dikumpulkan dapat dilihat pada tabel 3.1. File-file yang telah dikumpulkan kemudian dibagi menjadi dua dataset, yakni: training dataset atau dataset pelatihan yang akan digunakan untuk melatih DANN dan testing dataset atau dataset pengujian yang digunakan untuk mengetahui akurasi dan error dari DANN hasil pelatihan. Pembagian seluruh dataset menjadi dataset pelatihan dan dataset pengujian dilakukan secara acak, detail pembagian dataset dapat dilihat pada tabel 3.2 dan tabel 3.3. Tabel 3.1. Spesifikasi file-file yang digunakan sebagai data penelitian Jenis file Banyak file Ukuran file minimum byte Ukuran file maksimum byte Doc 300 17.920 14.170.112 Html 300 237 1.104.452 Pdf 300 6.349 5.582.269 Ppt 300 34.816 38.524.416 Xls 300 7.336 27.972.096 Non-dokumen gif, jpg 300 2.888 14.871.962 Universitas Sumatera Utara Tabel 3.2. Spesifikasi training dataset Jenis file Banyak file Ukuran file minimum byte Ukuran file maksimum byte Doc 250 21.504 14.170.112 Html 250 237 1.104.452 Pdf 250 6.506 5.582.269 Ppt 250 34.816 38.524.416 Xls 250 7.336 27.972.096 Non-dokumen gif, jpg 250 2.888 14.871.962 Tabel 3.3. Spesifikasi testing dataset Jenis file Banyak file Ukuran file minimum byte Ukuran file maksimum byte Doc 50 17.920 7.516.672 Html 50 1.116 1.064.819 Pdf 50 6.349 3.748.578 Ppt 50 38.912 11.466.240 Xls 50 20.480 12.377.088 Non-dokumen gif, jpg 50 3.406 6.437.537

3.3. Pre-process