24
Gambar 2.11. Gambar ilustrasi perhitungan LCS
6. Setelah mendapatkan nilai LCS, maka penelitian akan dilanjutkan pada tahap
mencocokkan nilai LCS yang didapat dengan
hex number
pada
file
yang hendak diuji.
2.7. Penelitian Terdahulu
Pada tahun 2003, McDaniel Heydari mengajukan metode “
fingerprints
” untuk memprediksi tipe
file
dengan membandingkan histogram
file
. Akan tetapi, hasil penelitian menunjukkan bahwa sangat sulit untuk menghasilkan representasi
fingerprint
untuk seluruh kelas tipe
file
. Li, et al. pada tahun 2005 mengimplementasikan metode
fileprints
yang mengidentifikasikan tipe
file
dengan menganalisa n-gram. Hasil penelitian menunjukkan bahwa metode
fileprints
dengan menggunakan model
centroid
untuk representasi distribusi nilai
byte
per tipe file dapat mengidentifikasi tipe
file
secara efektif saat melakukan
streaming
file dari ataupun menuju
disk drive
. Veenman pada tahun 2007 mengajukan metode linear diskriminan
the Fischer
untuk yang diaplikasikan kepada
fileprint, entropy,
dan pengukuran berbasiskan
Kolgomorov complexity
. Hasil penelitian menunjukkan bahwa metode
linear discriminant
dapat digunakan untuk mengidentifikasi tipe
file
. Calhoun dan Coles pada tahun 2008 melakukan perbandingan dua metode yaitu metode linear
discriminant
dan
longest common subsequences
untuk membandingkan 4 tipe
file
yakni pdf, gif, bmp, dan jpg. Hasil penelitian menunjukkan bahwa metode
longest common subsequences
dapat membedakan
file
utuh antara pdf, gif, bmp, dan jpg dan Mulai backtrack
25 menghasilkan akurasi yang lebih baik saat mengidentifikasi
file
bmp dan pdf dibandingkan metode
linear discriminant
yang diajukan oleh Veenman. Akan tetapi metode
longest common subsequences
tidak secepat metode
linear discriminant
dalam mengidentifikasi tipe
file
.
BAB 3
ANALISIS DAN PERANCANGAN SISTEM
Bab ini merupakan pembahasan tentang implementasi metode Longest Common Subsequences dalam proses identifikasi tipe
file
dari
file
fragment. Bab ini juga akan membahas tentang proses yang terjadi dalam fase
training
, fase
testing
, serta fase validasi.
3.1 Arsitektur Umum
Arsitektur umum yang menunjukkan rangkaian langkah yang dilakukan untuk melakukan identifikasi tipe
file
dari
file fragment
terdiri dari 3 bagian, yaitu fase
training
, fase
testing
dan fase validasi. Pada awalnya dilakukan pengumpulan data
training
berupa
file
-
file
dokumen; pengumpulan data
testing
berupa
file
-
file fragment
yang di
generate
dari
file
-
file
dokumen lain dengan format
file
yang bervariasi dengan cara menimpa beberapa
hex
pada
file
secara acak dan mengganti nama ekstensi
file
menjadi .tmp sehingga
file
menjadi tidak dapat terbaca; pada fase
training
, kalkulasi
Longest Common Subsequences
dari setiap tipe
file
; simpan hasil kalkulasi pada
file
eksternal; lakukan lagi kalkulasi
Longest Common Subsequences
dari setiap
file
dengan hasil dari
file
eksternal tersebut; hasil akhir yang didapat akan dipakai untuk fase
testing
; pada fase
testing
,
file fragment
tersebut diuji untuk dilihat apakah program dapat mendeteksi tipe
file
, untuk kemudian dihitung akurasi kebenaran dari hasil identifikasi.
Setelah seluruh
file fragment
selesai diidentifikasi, maka akan dilakukan proses validasi pada fase validasi, program akan membaca hasil identifikasi lalu
menambahkan header
file
sesuai dengan hasil identifikasi. Bila
file
dapat terbuka maka proses validasi berhasil, tetapi terkadang
file
tidak dapat terbuka dikarenakan terlalu banyak
hex
yang terhapus sehingga aplikasi pembaca
file
tidak mendapatkan
informasi yang cukup untuk membuka
file
tersebut dan
file
menjadi
corrupt
. Persentase keberhasilan proses validasi juga akan dihitung. Tahapan-tahapan yang
dilakukan akan dibahas dengan lebih terperinci pada bagian-bagian selanjutnya.
3.1.1. Fase Training
Pada fase ini, input berupa
file-file
utuh dengan ekstensi sama, misalnya .pdf yang dimasukkan ke dalam satu
folder
untuk di training. Program akan membaca seluruh isi
file
dari
folder
tersebut. Program akan memasukkan input berupa 2 file secara berurutan. Hex number daripada kedua file tersebut akan dibaca dan diubah dalam
bentuk string kemudian metode LCS diaplikasikan untuk mendapatkan
sequence
terpanjang dari kedua file tersebut. LCS yang didapat akan disimpan ke dalam
file buffer
. Program kemudian memeriksa apakah ada file yang belum dimasukkan
sebagai
input
dalam proses
training
, bila ada, maka string hex number dari file tersebut akan dibandingkan dengan hasil LCS yang terdapat pada file
buffer
dengan metode LCS. Program akan melakukan perbandingan secara terus menerus selama
masih terdapat
file
yang belum ditraining di dalam
folder
. Jika seluruh
file
sudah dimasukkan sebagai
input
, maka program akan berhenti melakukan proses
training
dan hasil akhir dapat ditemukan dalam
file buffer.
Setelah proses
training
selesai, maka akan dilakukan penghapusan karakter- karakter spasi yang terdapat dalam
file buffer
dikarenakan karakter spasi merupakan
hex number
00 yang merepresentasikan
slack space
yang bukan merupakan struktur utama pada
file
melainkan merupakan
hex number
yang diisi pada
cluster file
yang tidak terpakai. Selain karakter spasi, karakter tanda tanya juga dihapus, dikarenakan
karakter tanda tanya merupakan
chinese character
yang tidak dapat terbaca, sehingga dikonversi menjadi karakter tanda tanya.
Training
kemudian akan dilanjutkan dengan menggunakan
file
dengan ekstensi lain, yaitu .rtf dan .doc. Setelah seluruh tipe
file
berhasil didapat LCSnya, maka akan dilanjutkan ke fase
testing
. Skema fase training dapat dilihat pada Gambar 3.1.
Gambar 3.1. Arsitektur umum fase
training
3.1.2. Fase Testing
Pada fase ini, input file berupa 1
file fragment
, akan dilakukan pembacaan string hex number dari
file fragment
tersebut dan dilakukan perbandingan dengan hasil LCS akhir yang ada pada
file buffer
seperti yang sudah dijelaskan pada bagian 2.6. Skema fase testing dapat dilihat pada Gambar 3.2.
Gambar 3.2. Arsitektur umum fase
testing
3.1.3. Fase Validasi File
fragment
yang telah selesai diidentifikasi akan ditambahkan header
file
sesuai hasil identifikasi, sehingga
file fragment
tersebut dapat dibuka oleh aplikasi-aplikasi
pembaca yang sesuai dengan tipe
file
tersebut sehingga kita dapat membaca isi potongan
file fragment
tersebut. Skema fase validasi dapat dilihat pada Gambar 3.3.
Gambar 3.3. Arsitektur umum fase validasi
3.2 Membaca