5 Nilai terbesar pada tabel hasil perbandingan dapat melambangkan panjang
LCS yang didapat, dalam hal ini adalah 4 karakter. Untuk mendapatkan 4 karakter tersebut, program akan melakukan
backtrack
. 6
Pada saat melakukan proses
backtrack
, program akan memulai dengan meletakkan pointer pada kotak sudut kanan bawah. Proses backtrack akan
berhenti apabila pointer mencapat nilai 0. Pointer akan melakukan proses
backtrack
dengan langkah atas lalu ke kiri secara konsisten. Apabila pointer melewati nilai yang berbeda, misalnya dari kotak dengan nilai 4 menuju kotak
dengan nilai 3, program akan menyimpan
string
yang membentuk angka tersebut, lalu menuju ke kotak dengan arah diagonal. Pseudocode pada proses
ini meliputi: Initialize a two-dimension-array ij
Currently i equal to 8 and j equal to 7 While i and j not equal to 0
If Array[i][j] equal to Array[i-1][j-1]+1 lcs equal to char from Array[i][j] + lcs
Array[i][j] go diagonal If Array[i-1][j] more than or equal to
Array[i][j-1]{ go up
If Array[i][j] equal to Array[i][j-1]{ go left
Return lcs
3.4 Perhitungan Rata-Rata Persentase untuk Mendapatkan Tipe File
Pada tahap ini, program akan menghitung rata-rata persentase setiap tipe
file
. Output yang dihasilkan pada aplikasi algoritma LCS adalah persentase kemiripan
file fragment
dengan LCS
file
pdf, rtf, dan doc serta persentase kemiripan
trailer file fragment
dengan
trailer
pdf, rtf, dan doc. Pseudocode pada tahap ini meliputi : Persen_pdf + persen_trailer_pdf2
Persen_rtf + persen_trailer_rtf2 Persen_doc + persen_trailer_doc2
3.5 Validasi
Pada tahap ini, program akan melakukan validasi terhadap
file
yang telah diidentifikasi. Program akan membuat sebuah
file
teks kosong, kemudian menambahkan
header file
sesuai hasil identifikasi. Setelah itu, program akan membaca
hex number
dari
file fragment
kemudian dan menambahkan
hex number
dari
file fragment
ke
file
yang sudah ditambahkan header
file
. Ekstensi
file
juga akan diubah sesuai hasil identifikasi. Pseudocode pada proses ini meliputi:
Create new text file
Read identification result If result == pdf
read pdf header hex bytes add pdf hex bytes to new text
file read
file fragment hex bytes add hex bytes to new text
file with pdf header change text
file extension to .pdf else if result == rtf
read rtf header hex bytes add rtf hex bytes to new text
file read
file fragment hex bytes add hex bytes to new text
file with rtf header change text
file extension to .rtf else if result == doc
read doc header hex bytes add doc hex bytes to new text
file read
file fragment hex bytes add hex bytes to new text
file with doc header change text
file extension to .doc else
cannot be verified
3.6 Dataset
Data yang digunakan untuk dilakukan
fase training
dan
fase testing
merupakan file- file
dokumen pemerintahan
yang dikumpulkan
secara acak
dari http:digitalcorpora.orgcorporafiles. Data tersebut dibagi menjadi 2 bagian yaitu :
1. Data
training
Data
training
merupakan data yang dipakai untuk mendapatkan
Longest Common Subsequences
yang akan dipergunakan untuk dijadikan acuan perbandingan dengan data
testing
. 2.
Data
testing
Data
testing
merupakan data yang dipakai untuk mendapatkan hasil akhir berupa tipe
file
. Data
testing
ini berupa
file fragment
yang di-
generate
dari
file
utuh. Adapun jenis-jenis
file
yang digunakan dalam penelitian ini adalah
file
aplikasi
Adobe Portable Document Format
pdf,
Rich Text Format
rtf, serta
Microsoft Office Word
doc. Total keseluruhan
file
yang dikumpulkan berjumlah 615
file
. 300
file
berupa
file
untuk fase
training
, 75
file
utuh dan 240
file fragment
yang akan
digunakan untuk fase
testing
.
File
utuh yang digunakan berupa pdf, rtf, doc dengan jumlah masing-masing 25
file
.
File fragment
yang digunakan berupa 80
fragment
pdf, 80
fragment
rtf, dan 80
fragment
doc.
File fragment
yang ada akan dikategorikan sesuai persentase fragmentasinya. Persentase fragmentasi disini
merupakan persentase seberapa besar ukuran
file
yang tertimpa atau terfragmentasi oleh
file
lainnya. Spesifikasi seluruh
file
dokumen serta non-dokumen yang dikumpulkan dapat dilihat pada Tabel 3.5. Sedangkan
list
seluruh
file
yang digunakan untuk
training
dapat dilihat pada Lampiran A.
Tabel 3.5. Spesifikasi
File
-
File
Data Penelitian untuk Fase
Training
Jenis
file
Banyak
file
Ukuran
file
minimum byte Ukuran
file
maksimum byte Pdf
100 150,735
594,339
Rtf 100
6,876 48,258,055
Doc
100 762,880
1,502,208
Pada tabel 3.5, dapat dilihat bahwa untuk masing-masing jenis
file
untuk fase
training
dipakai
file
sebanyak 100 file. Ukuran file pdf yang dipakai berkisar antara 150,735 byte sampai 594,339 byte. Untuk rtf, ukuran
file
yang dipakai berkisar antara 6,876 byte sampai 48,258,055 byte. Sedangkan
file
doc, ukuran
file
yang dipakai berkisar antara 762,880 sampa 1,502,208. Kemudian, spesifikasi
file-file
untuk fase
testing
dapat dilihat pada tabel 3.6.
Tabel 3.6. Spesifikasi
File-File
Data Penelitian untuk Fase
Testing
Jenis
file
Banyak
file
Ukuran
file
minimum byte Ukuran
file
maksimum byte Pdf
25 75,509
178,805
Rtf 25
255,469 437,361
Doc 25
93,696 109,568
Pdf
fragment
80 167,770
204,648
Rtf
fragment
80 252,133
575,967
Doc
fragment
80 107,520
167,936
Pada tabel 3.6, dapat dilihat bahwa kategori
file
yang digunakan untuk fase
testing
terbagi dua, yaitu
file
utuh dan
file fragment
.
File
utuh yang digunakan
sebanyak 75 file. Ukuran
file
utuh pdf yang digunakan antara 75,509 byte sampai 178,805 byte. Ukuran
file
utuh rtf yang digunakan antara 255,469 byte sampai
437,361 byte. Ukuran
file
utuh doc yang digunakan antara 93,696 byte sampai 109,568 byte. Selanjutnya,
file fragment
yang digunakan sebanyak 240
file
. Ukuran
file fragment
pdf yang digunakan antara 167,770 byte sampai 204,648 byte. Ukuran
file fragment
rtf yang digunakan antara 252,133 byte sampai 575,967 byte. Ukuran
file fragment
doc yang digunakan antara 107,520 byte sampai 167,936 byte.
File
-
file
yang sudah dikumpulkan terbagi menjadi dua dataset, yaitu:
training dataset
atau data pelatihan,
dan testing dataset
atau dataset pengujian yang berupa
file
-
file fragment
. Sebelum dilakukan pengujian untuk mengidentifikasi file
fragment
, program akan terlebih dahulu diuji untuk mengidentifikasi
file
utuh dari masing- masing tipe data.
3.7. Proses Pengecekan Akurasi