Penelitian Terdahulu Arsitektur Umum

24 Gambar 2.11. Gambar ilustrasi perhitungan LCS 6. Setelah mendapatkan nilai LCS, maka penelitian akan dilanjutkan pada tahap mencocokkan nilai LCS yang didapat dengan hex number pada file yang hendak diuji.

2.7. Penelitian Terdahulu

Pada tahun 2003, McDaniel Heydari mengajukan metode “ fingerprints ” untuk memprediksi tipe file dengan membandingkan histogram file . Akan tetapi, hasil penelitian menunjukkan bahwa sangat sulit untuk menghasilkan representasi fingerprint untuk seluruh kelas tipe file . Li, et al. pada tahun 2005 mengimplementasikan metode fileprints yang mengidentifikasikan tipe file dengan menganalisa n-gram. Hasil penelitian menunjukkan bahwa metode fileprints dengan menggunakan model centroid untuk representasi distribusi nilai byte per tipe file dapat mengidentifikasi tipe file secara efektif saat melakukan streaming file dari ataupun menuju disk drive . Veenman pada tahun 2007 mengajukan metode linear diskriminan the Fischer untuk yang diaplikasikan kepada fileprint, entropy, dan pengukuran berbasiskan Kolgomorov complexity . Hasil penelitian menunjukkan bahwa metode linear discriminant dapat digunakan untuk mengidentifikasi tipe file . Calhoun dan Coles pada tahun 2008 melakukan perbandingan dua metode yaitu metode linear discriminant dan longest common subsequences untuk membandingkan 4 tipe file yakni pdf, gif, bmp, dan jpg. Hasil penelitian menunjukkan bahwa metode longest common subsequences dapat membedakan file utuh antara pdf, gif, bmp, dan jpg dan Mulai backtrack 25 menghasilkan akurasi yang lebih baik saat mengidentifikasi file bmp dan pdf dibandingkan metode linear discriminant yang diajukan oleh Veenman. Akan tetapi metode longest common subsequences tidak secepat metode linear discriminant dalam mengidentifikasi tipe file . BAB 3 ANALISIS DAN PERANCANGAN SISTEM Bab ini merupakan pembahasan tentang implementasi metode Longest Common Subsequences dalam proses identifikasi tipe file dari file fragment. Bab ini juga akan membahas tentang proses yang terjadi dalam fase training , fase testing , serta fase validasi.

3.1 Arsitektur Umum

Arsitektur umum yang menunjukkan rangkaian langkah yang dilakukan untuk melakukan identifikasi tipe file dari file fragment terdiri dari 3 bagian, yaitu fase training , fase testing dan fase validasi. Pada awalnya dilakukan pengumpulan data training berupa file - file dokumen; pengumpulan data testing berupa file - file fragment yang di generate dari file - file dokumen lain dengan format file yang bervariasi dengan cara menimpa beberapa hex pada file secara acak dan mengganti nama ekstensi file menjadi .tmp sehingga file menjadi tidak dapat terbaca; pada fase training , kalkulasi Longest Common Subsequences dari setiap tipe file ; simpan hasil kalkulasi pada file eksternal; lakukan lagi kalkulasi Longest Common Subsequences dari setiap file dengan hasil dari file eksternal tersebut; hasil akhir yang didapat akan dipakai untuk fase testing ; pada fase testing , file fragment tersebut diuji untuk dilihat apakah program dapat mendeteksi tipe file , untuk kemudian dihitung akurasi kebenaran dari hasil identifikasi. Setelah seluruh file fragment selesai diidentifikasi, maka akan dilakukan proses validasi pada fase validasi, program akan membaca hasil identifikasi lalu menambahkan header file sesuai dengan hasil identifikasi. Bila file dapat terbuka maka proses validasi berhasil, tetapi terkadang file tidak dapat terbuka dikarenakan terlalu banyak hex yang terhapus sehingga aplikasi pembaca file tidak mendapatkan informasi yang cukup untuk membuka file tersebut dan file menjadi corrupt . Persentase keberhasilan proses validasi juga akan dihitung. Tahapan-tahapan yang dilakukan akan dibahas dengan lebih terperinci pada bagian-bagian selanjutnya. 3.1.1. Fase Training Pada fase ini, input berupa file-file utuh dengan ekstensi sama, misalnya .pdf yang dimasukkan ke dalam satu folder untuk di training. Program akan membaca seluruh isi file dari folder tersebut. Program akan memasukkan input berupa 2 file secara berurutan. Hex number daripada kedua file tersebut akan dibaca dan diubah dalam bentuk string kemudian metode LCS diaplikasikan untuk mendapatkan sequence terpanjang dari kedua file tersebut. LCS yang didapat akan disimpan ke dalam file buffer . Program kemudian memeriksa apakah ada file yang belum dimasukkan sebagai input dalam proses training , bila ada, maka string hex number dari file tersebut akan dibandingkan dengan hasil LCS yang terdapat pada file buffer dengan metode LCS. Program akan melakukan perbandingan secara terus menerus selama masih terdapat file yang belum ditraining di dalam folder . Jika seluruh file sudah dimasukkan sebagai input , maka program akan berhenti melakukan proses training dan hasil akhir dapat ditemukan dalam file buffer. Setelah proses training selesai, maka akan dilakukan penghapusan karakter- karakter spasi yang terdapat dalam file buffer dikarenakan karakter spasi merupakan hex number 00 yang merepresentasikan slack space yang bukan merupakan struktur utama pada file melainkan merupakan hex number yang diisi pada cluster file yang tidak terpakai. Selain karakter spasi, karakter tanda tanya juga dihapus, dikarenakan karakter tanda tanya merupakan chinese character yang tidak dapat terbaca, sehingga dikonversi menjadi karakter tanda tanya. Training kemudian akan dilanjutkan dengan menggunakan file dengan ekstensi lain, yaitu .rtf dan .doc. Setelah seluruh tipe file berhasil didapat LCSnya, maka akan dilanjutkan ke fase testing . Skema fase training dapat dilihat pada Gambar 3.1. Gambar 3.1. Arsitektur umum fase training 3.1.2. Fase Testing Pada fase ini, input file berupa 1 file fragment , akan dilakukan pembacaan string hex number dari file fragment tersebut dan dilakukan perbandingan dengan hasil LCS akhir yang ada pada file buffer seperti yang sudah dijelaskan pada bagian 2.6. Skema fase testing dapat dilihat pada Gambar 3.2. Gambar 3.2. Arsitektur umum fase testing 3.1.3. Fase Validasi File fragment yang telah selesai diidentifikasi akan ditambahkan header file sesuai hasil identifikasi, sehingga file fragment tersebut dapat dibuka oleh aplikasi-aplikasi pembaca yang sesuai dengan tipe file tersebut sehingga kita dapat membaca isi potongan file fragment tersebut. Skema fase validasi dapat dilihat pada Gambar 3.3. Gambar 3.3. Arsitektur umum fase validasi

Penelitian Terdahulu Arsitektur Umum

2.7. Penelitian Terdahulu

3.1 Arsitektur Umum

3.2 Membaca

Parts

Dokumen yang terkait

Identifikasi Tipe File Dari File Fragment Menggunakan Longest Common Subsequences (Lcs)

Identifikasi File Dokumen Berdasarkan Konten Menggunakan Distributed Autonomous Neuro-Gen Learning Engine

file

file

Unduh material genetik i

CARA MENGUBAH TABEL PARTISI HDD DARI MBR

Cara Mengubah Versi PHP di cPanel

Identifikasi File Dokumen Berdasarkan Konten Menggunakan Distributed Autonomous Neuro-Gen Learning Engine

2.1. Forensik Digital - Identifikasi Tipe File Dari File Fragment Menggunakan Longest Common Subsequences (Lcs)

IDENTIFIKASI TIPE FILE DARI FILE FRAGMENT MENGGUNAKAN LONGEST COMMON SUBSEQUENCES (LCS) SKRIPSI FILBERT NICHOLAS 101402066

Dukungan

Links

Penelitian Terdahulu Arsitektur Umum

2.7. Penelitian Terdahulu

3.1 Arsitektur Umum

3.2 Membaca

Parts

Dokumen yang terkait

Identifikasi Tipe File Dari File Fragment Menggunakan Longest Common Subsequences (Lcs)

Identifikasi File Dokumen Berdasarkan Konten Menggunakan Distributed Autonomous Neuro-Gen Learning Engine

file

file

Unduh material genetik i

CARA MENGUBAH TABEL PARTISI HDD DARI MBR

Cara Mengubah Versi PHP di cPanel

Identifikasi File Dokumen Berdasarkan Konten Menggunakan Distributed Autonomous Neuro-Gen Learning Engine

2.1. Forensik Digital - Identifikasi Tipe File Dari File Fragment Menggunakan Longest Common Subsequences (Lcs)

IDENTIFIKASI TIPE FILE DARI FILE FRAGMENT MENGGUNAKAN LONGEST COMMON SUBSEQUENCES (LCS) SKRIPSI FILBERT NICHOLAS 101402066

Dokumen yang Anda mencari sudah siap untuk unduhkan