Pre-process ANALISIS DAN PERANCANGAN

Tabel 3.2. Spesifikasi training dataset Jenis file Banyak file Ukuran file minimum byte Ukuran file maksimum byte Doc 250 21.504 14.170.112 Html 250 237 1.104.452 Pdf 250 6.506 5.582.269 Ppt 250 34.816 38.524.416 Xls 250 7.336 27.972.096 Non-dokumen gif, jpg 250 2.888 14.871.962 Tabel 3.3. Spesifikasi testing dataset Jenis file Banyak file Ukuran file minimum byte Ukuran file maksimum byte Doc 50 17.920 7.516.672 Html 50 1.116 1.064.819 Pdf 50 6.349 3.748.578 Ppt 50 38.912 11.466.240 Xls 50 20.480 12.377.088 Non-dokumen gif, jpg 50 3.406 6.437.537

3.3. Pre-process

Sebelum dataset pelatihan maupun dataset pengujian digunakan, terlebih dahulu harus dilakukan beberapa proses untuk mendapatkan fitur-fitur yang dapat merepresentasikan masing-masing file pada dataset pelatihan dan dataset pengujian. Untuk memperjelas setiap tahapan yang dilakukan, akan disediakan sebuah file sampel dengan jenis file dokumen dengan ekstensi doc sebagai contoh proses yang dilakukan pada setiap tahap. File sampel tersusun atas byte-byte berikut dalam heksadesimal: Universitas Sumatera Utara d0 cf 11 e0 a1 b1 1a e1 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 3e 00 03 00 fe ff 09 00 06 00 00 00 00 00 00 00 00 00 00 00 01 00 00 00 16 00 00 00 00 00 00 00 00 10 00 00 17 00 00 00 01 00 00 00 fe ff ff ff 00 00 00 00 15 00 00 00 ff ff ff ff ff ff ff ... 00 0b 00 00 00 00 00 00 00 0b 00 00 00 00 00 00 00 0c 10 00 00 02 00 00 00 1e 00 00 00 0c 00 00 00 09 41 52 54 49 43 4c 45 20 31 38 00 03 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 3.3.1. Kalkulasi Byte Frequency Distribution Untuk setiap file pada dataset, lakukan kalkulasi Byte Frequency Distribution BFD, dimana BFD merupakan sebuah tabel yang menyimpan frekuensi kemunculan dari setiap byte yang menyusun sebuah file. Apabila byte 00 muncul 2509 kali pada sebuah file, maka nilai 0 pada tabel BFD adalah 2509. Sebagai contoh, BFD dari file sampel yang digunakan dapat dilihat pada tabel 3.4. 3.3.2. Normalisasi Byte Frequency Distribution Variasi ukuran file yang digunakan dalam dataset akan mengakibatkan terjadinya perbedaan nilai frekuensi yang cukup signifikan pada tabel BFD yang dihasilkan, sehingga akan menyebabkan algoritma pelatihan jaringan saraf tiruan yang digunakan tidak mampu mengidentifikasi file-file yang ukurannya berbeda. Untuk mengatasi hal ini, setelah dilakukan kalkulasi BFD, maka dilakukanlah normalisasi pada BFD sehingga setiap nilai pada tabel BFD akan memiliki jangkauan nilai yang sama tanpa membedakan ukuran file. Normalisasi BFD dilakukan menggunakan metode min-max normalization, dengan rumus 2.1, dimana new_min A = 0,0 dan new_max A = 1,0, sehingga BFD hasil normalisasi akan memiliki jangkauan [0,0, 1,0]. Contoh hasil proses normalisasi untuk BFD dari file sampel dapat dilihat pada tabel 3.5. Universitas Sumatera Utara Tabel 3.4. Tabel BFD untuk file sampel Index Nilai byte heksadesimal Nilai byte desimal Frekuensi 00 8078 1 01 1 162 2 02 2 80 3 03 3 67 4 04 4 44 ... 253 FD 253 13 254 FE 254 15 255 FF 255 1467 Tabel 3.5. Tabel BFD hasil normalisasi Index Nilai byte heksadesimal Nilai byte desimal Frekuensi 00 1,0000 1 01 1 0,0200 2 02 2 0,0099 3 03 3 0,0083 4 04 4 0,0054 ... 253 FD 253 0,0016 254 FE 254 0,0019 255 FF 255 0,1816 3.3.3. Kompresi dan Ekspansi Byte Frequency Distribution Beberapa jenis file akan memiliki satu atau beberapa nilai frekuensi byte yang memiliki nilai jauh lebih besar dibandingkan nilai frekuensi byte lainnya. Apabila hal Universitas Sumatera Utara ini terjadi, BFD hasil normalisasi akan mempunyai perbedaan yang cukup signifikan untuk nilai frekuensi setiap byte, dimana satu atau beberapa nilai frekuensi byte akan memiliki nilai yang besar mendekati 1,0 dan nilai frekuensi byte lainnya akan memiliki nilai yang kecil mendekati 0,0. Hal ini dapat dilihat pada gambar 3.2 yang menunjukkan grafik dari tabel BFD file sampel hasil normalisasi. Gambar 3.2. Grafik BFD hasil normalisasi Perbedaan ini menyebabkan kurang detailnya fitur untuk mendapatkan pola yang ada, sehingga tabel BFD hasil normalisasi perlu diproses lagi menggunakan fungsi kompresi dan ekspansi companding function untuk lebih menonjolkan nilai- nilai frekuensi yang rendah. Kompresi dan ekspansi dilakukan menggunakan persamaan 2.4. Hasil pemrosesan tabel BFD file sampel hasil normalisasi dapat dilihat pada tabel 3.6 dan gambar 3.3. Pada gambar 3.3 dapat dilihat perbedaan nilai frekuensi antar byte sebelumnya yang cukup signifikan menjadi lebih berkurang, dimana nilai frekuensi yang sebelumnya rendah menjadi bernilai lebih tinggi. Universitas Sumatera Utara Tabel 3.6. Tabel BFD hasil kompresi dan ekspansi Index Nilai byte heksadesimal Nilai byte desimal Frekuensi 00 1,0000 1 01 1 0,0738 2 02 2 0,0461 3 03 3 0,0410 4 04 4 0,0310 ... 253 FD 253 0,0137 254 FE 254 0,0151 255 FF 255 0,3207 Gambar 3.3. Grafik BFD hasil kompresi dan ekspansi Universitas Sumatera Utara 3.3.4. Principal Component Analysis Setelah proses normalisasi serta proses kompresi dan ekspansi dilakukan pada BFD, dilakukan pengurangan dimensionalitas ekstraksi fitur dari tabel BFD. Pengurangan dimensionalitas dilakukan menggunakan metode Principal Component Analysis PCA sesuai dengan langkah-langkah yang telah dibahas pada bagian 2.6. Contoh hasil pengurangan dimensionalitas untuk tabel BFD file sampel dapat dilihat pada tabel 3.7, dimana dimensi tabel BFD dari 256 dikurangi menjadi 105. Setiap parameter operasi yang dilakukan PCA pada data pelatihan kemudian disimpan, karena operasi yang sama pada data pelatihan juga harus dilakukan pada data pengujian serta data baru. Tabel 3.7. Tabel fitur hasil ekstraksi metode PCA Index Fitur Nilai 1,2639 1 0,4308 2 -0,1385 3 0,1123 4 0,0260 ... 102 -0,0043 103 -0,0027 104 0,0027

3.4. Implementasi Distributed Autonomous Neuro-Gen Learning Engine