Arsitektur Umum Kesimpulan Dan Saran

BAB 3 ANALISIS DAN PERANCANGAN SISTEM Bab ini merupakan pembahasan tentang implementasi metode Longest Common Subsequences dalam proses identifikasi tipe file dari file fragment. Bab ini juga akan membahas tentang proses yang terjadi dalam fase training, fase testing, serta fase validasi.

3.1 Arsitektur Umum

Arsitektur umum yang menunjukkan rangkaian langkah yang dilakukan untuk melakukan identifikasi tipe file dari file fragment terdiri dari 3 bagian, yaitu fase training , fase testing dan fase validasi. Pada awalnya dilakukan pengumpulan data training berupa file-file dokumen; pengumpulan data testing berupa file-file fragment yang digenerate dari file-file dokumen lain dengan format file yang bervariasi dengan cara menimpa beberapa hex pada file secara acak dan mengganti nama ekstensi file menjadi .tmp sehingga file menjadi tidak dapat terbaca; pada fase training, kalkulasi Longest Common Subsequences dari setiap tipe file; simpan hasil kalkulasi pada file eksternal; lakukan lagi kalkulasi Longest Common Subsequences dari setiap file dengan hasil dari file eksternal tersebut; hasil akhir yang didapat akan dipakai untuk fase testing; pada fase testing, file fragment tersebut diuji untuk dilihat apakah program dapat mendeteksi tipe file, untuk kemudian dihitung akurasi kebenaran dari hasil identifikasi. Setelah seluruh file fragment selesai diidentifikasi, maka akan dilakukan proses validasi pada fase validasi, program akan membaca hasil identifikasi lalu menambahkan header file sesuai dengan hasil identifikasi. Bila file dapat terbuka maka proses validasi berhasil, tetapi terkadang file tidak dapat terbuka dikarenakan terlalu banyak hex yang terhapus sehingga aplikasi pembaca file tidak mendapatkan informasi yang cukup untuk membuka file tersebut dan file menjadi corrupt. Persentase keberhasilan proses validasi juga akan dihitung. Tahapan-tahapan yang dilakukan akan dibahas dengan lebih terperinci pada bagian-bagian selanjutnya. 3.1.1. Fase Training Pada fase ini, input berupa file-file utuh dengan ekstensi sama, misalnya .pdf yang dimasukkan ke dalam satu folder untuk di training. Program akan membaca seluruh isi file dari folder tersebut. Program akan memasukkan input berupa 2 file secara berurutan. Hex number daripada kedua file tersebut akan dibaca dan diubah dalam bentuk string kemudian metode LCS diaplikasikan untuk mendapatkan sequence terpanjang dari kedua file tersebut. LCS yang didapat akan disimpan ke dalam file buffer . Program kemudian memeriksa apakah ada file yang belum dimasukkan sebagai input dalam proses training, bila ada, maka string hex number dari file tersebut akan dibandingkan dengan hasil LCS yang terdapat pada file buffer dengan metode LCS. Program akan melakukan perbandingan secara terus menerus selama masih terdapat file yang belum ditraining di dalam folder. Jika seluruh file sudah dimasukkan sebagai input, maka program akan berhenti melakukan proses training dan hasil akhir dapat ditemukan dalam file buffer. Setelah proses training selesai, maka akan dilakukan penghapusan karakter- karakter spasi yang terdapat dalam file buffer dikarenakan karakter spasi merupakan hex number 00 yang merepresentasikan slack space yang bukan merupakan struktur utama pada file melainkan merupakan hex number yang diisi pada cluster file yang tidak terpakai. Selain karakter spasi, karakter tanda tanya juga dihapus, dikarenakan karakter tanda tanya merupakan chinese character yang tidak dapat terbaca, sehingga dikonversi menjadi karakter tanda tanya. Training kemudian akan dilanjutkan dengan menggunakan file dengan ekstensi lain, yaitu .rtf dan .doc. Setelah seluruh tipe file berhasil didapat LCSnya, maka akan dilanjutkan ke fase testing. Skema fase training dapat dilihat pada Gambar 3.1. Gambar 3.1. Arsitektur umum fase training 3.1.2. Fase Testing Pada fase ini, input file berupa 1 file fragment, akan dilakukan pembacaan string hex number dari file fragment tersebut dan dilakukan perbandingan dengan hasil LCS akhir yang ada pada file buffer seperti yang sudah dijelaskan pada bagian 2.6. Skema fase testing dapat dilihat pada Gambar 3.2. Gambar 3.2. Arsitektur umum fase testing 3.1.3. Fase Validasi File fragment yang telah selesai diidentifikasi akan ditambahkan header file sesuai hasil identifikasi, sehingga file fragment tersebut dapat dibuka oleh aplikasi-aplikasi pembaca yang sesuai dengan tipe file tersebut sehingga kita dapat membaca isi potongan file fragment tersebut. Skema fase validasi dapat dilihat pada Gambar 3.3. Gambar 3.3. Arsitektur umum fase validasi

3.2 Membaca Hex Number dan Generate String