Tabel 3.2. Spesifikasi training dataset
Jenis file Banyak file
Ukuran file minimum byte
Ukuran file maksimum byte
Doc 250
21.504 14.170.112
Html 250
237 1.104.452
Pdf 250
6.506 5.582.269
Ppt 250
34.816 38.524.416
Xls 250
7.336 27.972.096
Non-dokumen gif, jpg 250
2.888 14.871.962
Tabel 3.3. Spesifikasi testing dataset
Jenis file Banyak file
Ukuran file minimum byte
Ukuran file maksimum byte
Doc 50
17.920 7.516.672
Html 50
1.116 1.064.819
Pdf 50
6.349 3.748.578
Ppt 50
38.912 11.466.240
Xls 50
20.480 12.377.088
Non-dokumen gif, jpg 50
3.406 6.437.537
3.3. Pre-process
Sebelum dataset pelatihan maupun dataset pengujian digunakan, terlebih dahulu harus dilakukan beberapa
proses untuk mendapatkan fitur-fitur yang dapat
merepresentasikan masing-masing file pada dataset pelatihan dan dataset pengujian. Untuk memperjelas setiap tahapan yang dilakukan, akan disediakan sebuah file
sampel dengan jenis file dokumen dengan ekstensi doc sebagai contoh proses yang dilakukan pada setiap tahap. File sampel tersusun atas byte-byte berikut dalam
heksadesimal:
Universitas Sumatera Utara
d0 cf 11 e0 a1 b1 1a e1 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 3e 00 03 00 fe ff 09 00 06 00 00 00 00 00
00 00 00 00 00 00 01 00 00 00 16 00 00 00 00 00 00 00 00 10 00 00 17 00 00 00 01 00 00 00 fe ff ff ff 00 00 00 00
15 00 00 00 ff ff ff ff ff ff ff ... 00 0b 00 00 00 00 00 00 00 0b 00 00 00 00 00 00 00 0c 10 00 00 02 00 00 00
1e 00 00 00 0c 00 00 00 09 41 52 54 49 43 4c 45 20 31 38 00 03 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
3.3.1. Kalkulasi Byte Frequency Distribution Untuk setiap file pada dataset, lakukan kalkulasi Byte Frequency Distribution BFD,
dimana BFD merupakan sebuah tabel yang menyimpan frekuensi kemunculan dari setiap byte yang menyusun sebuah file. Apabila byte 00 muncul 2509 kali pada
sebuah file, maka nilai 0 pada tabel BFD adalah 2509. Sebagai contoh, BFD dari file sampel yang digunakan dapat dilihat pada tabel 3.4.
3.3.2. Normalisasi Byte Frequency Distribution Variasi ukuran file yang digunakan dalam dataset akan mengakibatkan terjadinya
perbedaan nilai frekuensi yang cukup signifikan pada tabel BFD yang dihasilkan, sehingga akan menyebabkan algoritma pelatihan jaringan saraf tiruan yang digunakan
tidak mampu mengidentifikasi file-file yang ukurannya berbeda. Untuk mengatasi hal ini, setelah dilakukan kalkulasi BFD, maka dilakukanlah normalisasi pada BFD
sehingga setiap nilai pada tabel BFD akan memiliki jangkauan nilai yang sama tanpa membedakan ukuran file. Normalisasi BFD dilakukan menggunakan metode min-max
normalization, dengan rumus 2.1, dimana new_min
A
= 0,0 dan new_max
A
= 1,0, sehingga BFD hasil normalisasi akan memiliki jangkauan [0,0, 1,0]. Contoh hasil
proses normalisasi untuk BFD dari file sampel dapat dilihat pada tabel 3.5.
Universitas Sumatera Utara
Tabel 3.4. Tabel BFD untuk file sampel
Index Nilai byte
heksadesimal Nilai byte
desimal Frekuensi
00 8078
1 01
1 162
2 02
2 80
3 03
3 67
4 04
4 44
... 253
FD 253
13 254
FE 254
15 255
FF 255
1467
Tabel 3.5. Tabel BFD hasil normalisasi
Index Nilai byte
heksadesimal Nilai byte
desimal Frekuensi
00 1,0000
1 01
1 0,0200
2 02
2 0,0099
3 03
3 0,0083
4 04
4 0,0054
... 253
FD 253
0,0016 254
FE 254
0,0019 255
FF 255
0,1816
3.3.3. Kompresi dan Ekspansi Byte Frequency Distribution Beberapa jenis file akan memiliki satu atau beberapa nilai frekuensi byte yang
memiliki nilai jauh lebih besar dibandingkan nilai frekuensi byte lainnya. Apabila hal
Universitas Sumatera Utara
ini terjadi, BFD hasil normalisasi akan mempunyai perbedaan yang cukup signifikan untuk nilai frekuensi setiap byte, dimana satu atau beberapa nilai frekuensi byte akan
memiliki nilai yang besar mendekati 1,0 dan nilai frekuensi byte lainnya akan memiliki nilai yang kecil mendekati 0,0. Hal ini dapat dilihat pada gambar 3.2 yang
menunjukkan grafik dari tabel BFD file sampel hasil normalisasi.
Gambar 3.2. Grafik BFD hasil normalisasi
Perbedaan ini menyebabkan kurang detailnya fitur untuk mendapatkan pola yang ada, sehingga tabel BFD hasil normalisasi perlu diproses lagi menggunakan
fungsi kompresi dan ekspansi companding function untuk lebih menonjolkan nilai- nilai frekuensi yang rendah. Kompresi dan ekspansi dilakukan menggunakan
persamaan 2.4. Hasil pemrosesan tabel BFD file sampel hasil normalisasi dapat dilihat pada tabel 3.6 dan gambar 3.3. Pada gambar 3.3 dapat dilihat perbedaan nilai
frekuensi antar byte sebelumnya yang cukup signifikan menjadi lebih berkurang, dimana nilai frekuensi yang sebelumnya rendah menjadi bernilai lebih tinggi.
Universitas Sumatera Utara
Tabel 3.6. Tabel BFD hasil kompresi dan ekspansi
Index Nilai byte
heksadesimal Nilai byte
desimal Frekuensi
00 1,0000
1 01
1 0,0738
2 02
2 0,0461
3 03
3 0,0410
4 04
4 0,0310
... 253
FD 253
0,0137 254
FE 254
0,0151 255
FF 255
0,3207
Gambar 3.3. Grafik BFD hasil kompresi dan ekspansi
Universitas Sumatera Utara
3.3.4. Principal Component Analysis Setelah proses normalisasi serta proses kompresi dan ekspansi dilakukan pada BFD,
dilakukan pengurangan dimensionalitas ekstraksi fitur dari tabel BFD. Pengurangan dimensionalitas dilakukan menggunakan metode Principal Component Analysis
PCA sesuai dengan langkah-langkah yang telah dibahas pada bagian 2.6. Contoh hasil pengurangan dimensionalitas untuk tabel BFD file sampel dapat dilihat pada
tabel 3.7, dimana dimensi tabel BFD dari 256 dikurangi menjadi 105. Setiap parameter operasi yang dilakukan PCA pada data pelatihan kemudian disimpan,
karena operasi yang sama pada data pelatihan juga harus dilakukan pada data pengujian serta data baru.
Tabel 3.7. Tabel fitur hasil ekstraksi metode PCA
Index Fitur Nilai
1,2639 1
0,4308 2
-0,1385 3
0,1123 4
0,0260 ...
102 -0,0043
103 -0,0027
104 0,0027
3.4. Implementasi Distributed Autonomous Neuro-Gen Learning Engine