5 Nilai terbesar pada tabel hasil perbandingan dapat melambangkan panjang
LCS yang didapat, dalam hal ini adalah 4 karakter. Untuk mendapatkan 4 karakter tersebut, program akan melakukan backtrack.
6 Pada saat melakukan proses backtrack, program akan memulai dengan
meletakkan pointer pada kotak sudut kanan bawah. Proses backtrack akan berhenti apabila pointer mencapat nilai 0. Pointer akan melakukan proses
backtrack dengan langkah atas lalu ke kiri secara konsisten. Apabila pointer
melewati nilai yang berbeda, misalnya dari kotak dengan nilai 4 menuju kotak dengan nilai 3, program akan menyimpan string yang membentuk angka
tersebut, lalu menuju ke kotak dengan arah diagonal. Pseudocode pada proses ini meliputi:
Initialize a two-dimension-array ij Currently i equal to 8 and j equal to 7
While i and j not equal to 0 If Array[i][j] equal to Array[i-1][j-1]+1
lcs equal to char from Array[i][j] + lcs Array[i][j] go diagonal
If Array[i-1][j] more than or equal to Array[i][j-1]{
go up If Array[i][j] equal to Array[i][j-1]{
go left Return lcs
3.4 Perhitungan Rata-Rata Persentase untuk Mendapatkan Tipe File
Pada tahap ini, program akan menghitung rata-rata persentase setiap tipe file. Output yang dihasilkan pada aplikasi algoritma LCS adalah persentase kemiripan file
fragment dengan LCS file pdf, rtf, dan doc serta persentase kemiripan trailer file
fragment dengan trailer pdf, rtf, dan doc. Pseudocode pada tahap ini meliputi :
Persen_pdf + persen_trailer_pdf2 Persen_rtf + persen_trailer_rtf2
Persen_doc + persen_trailer_doc2
3.5 Validasi
Pada tahap ini, program akan melakukan validasi terhadap file yang telah diidentifikasi. Program akan membuat sebuah file teks kosong, kemudian
menambahkan header file sesuai hasil identifikasi. Setelah itu, program akan membaca hex number dari file fragment kemudian dan menambahkan hex number dari
file fragment ke file yang sudah ditambahkan header file. Ekstensi file juga akan
diubah sesuai hasil identifikasi. Pseudocode pada proses ini meliputi:
Create new text file
Read identification result If result == pdf
read pdf header hex bytes add pdf hex bytes to new text
file read
file fragment hex bytes add hex bytes to new text
file with pdf header change text
file extension to .pdf else if result == rtf
read rtf header hex bytes add rtf hex bytes to new text
file read
file fragment hex bytes add hex bytes to new text
file with rtf header change text
file extension to .rtf else if result == doc
read doc header hex bytes add doc hex bytes to new text
file read
file fragment hex bytes add hex bytes to new text
file with doc header change text
file extension to .doc else
cannot be verified
3.6 Dataset
Data yang digunakan untuk dilakukan fase training dan fase testing merupakan file- file
dokumen pemerintahan
yang dikumpulkan
secara acak
dari http:digitalcorpora.orgcorporafiles. Data tersebut dibagi menjadi 2 bagian yaitu :
1. Data training
Data training merupakan data yang dipakai untuk mendapatkan Longest Common Subsequences
yang akan dipergunakan untuk dijadikan acuan perbandingan dengan data testing.
2. Data testing
Data testing merupakan data yang dipakai untuk mendapatkan hasil akhir berupa tipe file. Data testing ini berupa file fragment yang di-generate dari file
utuh. Adapun jenis-jenis file yang digunakan dalam penelitian ini adalah file
aplikasi Adobe Portable Document Format pdf, Rich Text Format rtf, serta Microsoft Office Word
doc. Total keseluruhan file yang dikumpulkan berjumlah 615 file
. 300 file berupa file untuk fase training, 75 file utuh dan 240 file fragment yang akan digunakan untuk fase testing. File utuh yang digunakan berupa pdf, rtf, doc
dengan jumlah masing-masing 25 file. File fragment yang digunakan berupa 80 fragment
pdf, 80 fragment rtf, dan 80 fragment doc. File fragment yang ada akan dikategorikan sesuai persentase fragmentasinya. Persentase fragmentasi disini
merupakan persentase seberapa besar ukuran file yang tertimpa atau terfragmentasi oleh file lainnya. Spesifikasi seluruh file dokumen serta non-dokumen yang
dikumpulkan dapat dilihat pada Tabel 3.5. Sedangkan list seluruh file yang digunakan untuk training dapat dilihat pada Lampiran A.
Tabel 3.5. Spesifikasi File-File Data Penelitian untuk Fase Training
Jenis file
Banyak file
Ukuran file
minimum byte Ukuran
file maksimum byte
Pdf 100
150,735 594,339
Rtf
100 6,876
48,258,055
Doc
100 762,880
1,502,208
Pada tabel 3.5, dapat dilihat bahwa untuk masing-masing jenis file untuk fase training
dipakai file sebanyak 100 file. Ukuran file pdf yang dipakai berkisar antara 150,735 byte sampai 594,339 byte. Untuk rtf, ukuran file yang dipakai berkisar antara
6,876 byte sampai 48,258,055 byte. Sedangkan file doc, ukuran file yang dipakai berkisar antara 762,880 sampa 1,502,208. Kemudian, spesifikasi file-file untuk fase
testing dapat dilihat pada tabel 3.6.
Tabel 3.6. Spesifikasi File-File Data Penelitian untuk Fase Testing
Jenis file
Banyak file
Ukuran file
minimum byte Ukuran
file maksimum byte
Pdf
25 75,509
178,805
Rtf
25 255,469
437,361
Doc 25
93,696 109,568
Pdf fragment
80 167,770
204,648
Rtf fragment
80 252,133
575,967
Doc fragment
80 107,520
167,936
Pada tabel 3.6, dapat dilihat bahwa kategori file yang digunakan untuk fase testing
terbagi dua, yaitu file utuh dan file fragment. File utuh yang digunakan
sebanyak 75 file. Ukuran file utuh pdf yang digunakan antara 75,509 byte sampai 178,805 byte. Ukuran file utuh rtf yang digunakan antara 255,469 byte sampai
437,361 byte. Ukuran file utuh doc yang digunakan antara 93,696 byte sampai 109,568 byte. Selanjutnya, file fragment yang digunakan sebanyak 240 file. Ukuran
file fragment pdf yang digunakan antara 167,770 byte sampai 204,648 byte. Ukuran
file fragment rtf yang digunakan antara 252,133 byte sampai 575,967 byte. Ukuran file
fragment doc yang digunakan antara 107,520 byte sampai 167,936 byte.
File -file yang sudah dikumpulkan terbagi menjadi dua dataset, yaitu: training
dataset atau data pelatihan, dan testing dataset atau dataset pengujian yang berupa
file -file fragment. Sebelum dilakukan pengujian untuk mengidentifikasi file fragment,
program akan terlebih dahulu diuji untuk mengidentifikasi file utuh dari masing- masing tipe data.
3.7. Proses Pengecekan Akurasi