Perhitungan Rata-Rata Persentase untuk Mendapatkan Tipe File Validasi Dataset

5 Nilai terbesar pada tabel hasil perbandingan dapat melambangkan panjang LCS yang didapat, dalam hal ini adalah 4 karakter. Untuk mendapatkan 4 karakter tersebut, program akan melakukan backtrack. 6 Pada saat melakukan proses backtrack, program akan memulai dengan meletakkan pointer pada kotak sudut kanan bawah. Proses backtrack akan berhenti apabila pointer mencapat nilai 0. Pointer akan melakukan proses backtrack dengan langkah atas lalu ke kiri secara konsisten. Apabila pointer melewati nilai yang berbeda, misalnya dari kotak dengan nilai 4 menuju kotak dengan nilai 3, program akan menyimpan string yang membentuk angka tersebut, lalu menuju ke kotak dengan arah diagonal. Pseudocode pada proses ini meliputi: Initialize a two-dimension-array ij Currently i equal to 8 and j equal to 7 While i and j not equal to 0 If Array[i][j] equal to Array[i-1][j-1]+1 lcs equal to char from Array[i][j] + lcs Array[i][j] go diagonal If Array[i-1][j] more than or equal to Array[i][j-1]{ go up If Array[i][j] equal to Array[i][j-1]{ go left Return lcs

3.4 Perhitungan Rata-Rata Persentase untuk Mendapatkan Tipe File

Pada tahap ini, program akan menghitung rata-rata persentase setiap tipe file. Output yang dihasilkan pada aplikasi algoritma LCS adalah persentase kemiripan file fragment dengan LCS file pdf, rtf, dan doc serta persentase kemiripan trailer file fragment dengan trailer pdf, rtf, dan doc. Pseudocode pada tahap ini meliputi : Persen_pdf + persen_trailer_pdf2 Persen_rtf + persen_trailer_rtf2 Persen_doc + persen_trailer_doc2

3.5 Validasi

Pada tahap ini, program akan melakukan validasi terhadap file yang telah diidentifikasi. Program akan membuat sebuah file teks kosong, kemudian menambahkan header file sesuai hasil identifikasi. Setelah itu, program akan membaca hex number dari file fragment kemudian dan menambahkan hex number dari file fragment ke file yang sudah ditambahkan header file. Ekstensi file juga akan diubah sesuai hasil identifikasi. Pseudocode pada proses ini meliputi: Create new text file Read identification result If result == pdf read pdf header hex bytes add pdf hex bytes to new text file read file fragment hex bytes add hex bytes to new text file with pdf header change text file extension to .pdf else if result == rtf read rtf header hex bytes add rtf hex bytes to new text file read file fragment hex bytes add hex bytes to new text file with rtf header change text file extension to .rtf else if result == doc read doc header hex bytes add doc hex bytes to new text file read file fragment hex bytes add hex bytes to new text file with doc header change text file extension to .doc else cannot be verified

3.6 Dataset

Data yang digunakan untuk dilakukan fase training dan fase testing merupakan file- file dokumen pemerintahan yang dikumpulkan secara acak dari http:digitalcorpora.orgcorporafiles. Data tersebut dibagi menjadi 2 bagian yaitu : 1. Data training Data training merupakan data yang dipakai untuk mendapatkan Longest Common Subsequences yang akan dipergunakan untuk dijadikan acuan perbandingan dengan data testing. 2. Data testing Data testing merupakan data yang dipakai untuk mendapatkan hasil akhir berupa tipe file. Data testing ini berupa file fragment yang di-generate dari file utuh. Adapun jenis-jenis file yang digunakan dalam penelitian ini adalah file aplikasi Adobe Portable Document Format pdf, Rich Text Format rtf, serta Microsoft Office Word doc. Total keseluruhan file yang dikumpulkan berjumlah 615 file . 300 file berupa file untuk fase training, 75 file utuh dan 240 file fragment yang akan digunakan untuk fase testing. File utuh yang digunakan berupa pdf, rtf, doc dengan jumlah masing-masing 25 file. File fragment yang digunakan berupa 80 fragment pdf, 80 fragment rtf, dan 80 fragment doc. File fragment yang ada akan dikategorikan sesuai persentase fragmentasinya. Persentase fragmentasi disini merupakan persentase seberapa besar ukuran file yang tertimpa atau terfragmentasi oleh file lainnya. Spesifikasi seluruh file dokumen serta non-dokumen yang dikumpulkan dapat dilihat pada Tabel 3.5. Sedangkan list seluruh file yang digunakan untuk training dapat dilihat pada Lampiran A. Tabel 3.5. Spesifikasi File-File Data Penelitian untuk Fase Training Jenis file Banyak file Ukuran file minimum byte Ukuran file maksimum byte Pdf 100 150,735 594,339 Rtf 100 6,876 48,258,055 Doc 100 762,880 1,502,208 Pada tabel 3.5, dapat dilihat bahwa untuk masing-masing jenis file untuk fase training dipakai file sebanyak 100 file. Ukuran file pdf yang dipakai berkisar antara 150,735 byte sampai 594,339 byte. Untuk rtf, ukuran file yang dipakai berkisar antara 6,876 byte sampai 48,258,055 byte. Sedangkan file doc, ukuran file yang dipakai berkisar antara 762,880 sampa 1,502,208. Kemudian, spesifikasi file-file untuk fase testing dapat dilihat pada tabel 3.6. Tabel 3.6. Spesifikasi File-File Data Penelitian untuk Fase Testing Jenis file Banyak file Ukuran file minimum byte Ukuran file maksimum byte Pdf 25 75,509 178,805 Rtf 25 255,469 437,361 Doc 25 93,696 109,568 Pdf fragment 80 167,770 204,648 Rtf fragment 80 252,133 575,967 Doc fragment 80 107,520 167,936 Pada tabel 3.6, dapat dilihat bahwa kategori file yang digunakan untuk fase testing terbagi dua, yaitu file utuh dan file fragment. File utuh yang digunakan sebanyak 75 file. Ukuran file utuh pdf yang digunakan antara 75,509 byte sampai 178,805 byte. Ukuran file utuh rtf yang digunakan antara 255,469 byte sampai 437,361 byte. Ukuran file utuh doc yang digunakan antara 93,696 byte sampai 109,568 byte. Selanjutnya, file fragment yang digunakan sebanyak 240 file. Ukuran file fragment pdf yang digunakan antara 167,770 byte sampai 204,648 byte. Ukuran file fragment rtf yang digunakan antara 252,133 byte sampai 575,967 byte. Ukuran file fragment doc yang digunakan antara 107,520 byte sampai 167,936 byte. File -file yang sudah dikumpulkan terbagi menjadi dua dataset, yaitu: training dataset atau data pelatihan, dan testing dataset atau dataset pengujian yang berupa file -file fragment. Sebelum dilakukan pengujian untuk mengidentifikasi file fragment, program akan terlebih dahulu diuji untuk mengidentifikasi file utuh dari masing- masing tipe data.

3.7. Proses Pengecekan Akurasi