BAB 2
LANDASAN TEORI
Bab ini merupakan pembahasan tentang teori-teori penunjang serta penelitian sebelumnya yang berhubungan dengan identifikasi tipe file serta metode Longest
Common Subsequences.
2.1. Forensik Digital
Forensik memiliki pengertian sebagai pengaplikasian ilmu pengetahuan terhadap pelaku kriminal dan wujud dari penegakan hukum oleh pihak kepolisian Saferstein,
2011. Kebanyakan orang sering mengaitkan digital forensik dengan investigasi tindakan kriminal, namun, forensik digital dalam beberapa tahun terakhir memiliki
peran sebagai alat pendekatan untuk memfasilitasi pelestarian dan penjagaan terhadap bukti digital, khususnya dalam proses investigasi bukti-bukti pada masa lampau John,
2012. Cabang ilmu pengetahuan forensik tersebut merupakan respon dari desakan komunitas penegakan hukum Whitcomb, 2002.
Secara teknis, forensik digital dapat dibagi atas beberapa cabang berdasarkan perangkat digitalnya, yakni: forensik computer, forensik jaringan, forensik analisis
data dan forensik perangkat mobile Aaron, 2014. Dalam forensik, salah satu tahap yang sering dilakukan adalah tahap
identifikasi, salah satunya adalah identifikasi file. Proses pemeriksaan media digital oleh forensik komputer bertujuan untuk mengidentifikasi, mendapatkan, menjaga,
memulihkan, menganalisis, dan mempresentasikan hasil identifikasi dari file yang tersimpan secara elektronik pada media komputer Noblett, et al. 2000.
7
2.2. File
File merupakan sekumpulan informasi berupa huruf, angka, maupun karakter khusus
dan ditandai dengan nama file. Seluruh data maupun informasi yang ada dalam sebuah komputer tersimpan dalam bentuk file. File dapat dibagi berdasarkan isi informasi
yang disimpan, yakni: text file, image file, dan program file. Text file merupakan file yang menyimpan informasi berupa text tulisan, image file merupakan file yang
menyimpan informasi berupa image gambar, sedangkan program file merupakan file yang menyimpan program. Isi dari file juga dapat menentukan format file tersebut,
karena file merupakan tempat disimpannya data. Secara umum, sebuah file terdiri atas tiga bagian, yakni:
1. File header File
header adalah sebuah signature file atau magic bytes yang ditempatkan pada awal file. Sistem operasi maupun perangkat lunak lainnya akan membaca
informasi yang terdapat pada header tersebut, dan mengetahui jenis file dari sebuah file
. Pada proses investigasi oleh pihak forensik komputer, file header sangat
penting karena file header tersebut dapat membantu melacak konten dari file yang terhapus, laporan aktivitas pengguna, dan hal-hal yang bersangkutan lainnya. Sebagai
contoh, bila pihak forensik hendak mengembalikan rekaman file activity yang terhapus dari suatu perusahaan, dengan melacak signature daripada hard drive yang
berkaitan dengan rekaman file activity, maka sering kali proses recovery dapat berhasil dilakukan. Contoh signature file dapat dilihat pada tabel 2.1.
2. File body File
body adalah isi dari sebuah file yang menjadi data atau informasi utama yang dimiliki oleh file.
3. File trailer File
trailer adalah bagian penutup dari sebuah file dan merupakan penanda akhir sebuah file. Berdasarkan jenis datanya, metadata atau informasi mengenai
8 struktur data dan penjelasannya terdapat pada header suatu file, namun informasi
tersebut dapat ditemukan juga pada trailer sebuah file Aaron, 2014.
Tabel 2.1. Contoh Signature File pada Header File
Ekstensi file
Signature file Deskripsi
GIF 47 49 46 38
Graphic Interchange Format MP3
49 44 33 MP3 Audio File
PNG 89 50 4E 47 0D 0A 1A 0A
Portable Network Graphics PDF , FDF
25 50 44 46 Portable Document Format and
Forms Document File SWF
46 57 53 Shockwave Flash Player
DOC, DOT, PPS, PPT, XLA, XLS, VSD, WIZ
D0 CF 11 E0 A1 B1 1A E1
Microsoft Office Applications Word, Powerpoint, Excel, Visio,
Wizard RTF
7B 5C 72 74 66 31 Rich Text Format Word
Processing File
2.2.1. File Types and Formats
Seiring bertambahnya tingkat penggunaan software, penyimpanan data merupakan hal yang vital bagi user, penyimpanan data ini sendiri menimbulkan suatu polemik di
dalam bidang forensik. Terutama untuk hal-hal yang berhubungan dengan munculnya variasi-variasi tipe data. Kenyataannya, hampir mustahil untuk membuat list seluruh
tipe file dari komputer, hal ini disebabkan oleh beberapa hal, diantaranya adalah : 1
Beberapa tipe file bersifat umum sedangkan yang lain bersifat sangat spesifik. 2
Beberapa tipe file sangat umum digunakan sedangkan yang lain hanya dipakai oleh orang atau organisasi tertentu.
3 Detail daripada beberapa file memiliki hak milik sedangkan yang lain bersifat
terbuka. 4
Selalu ada tipe-tipe file baru yang dibuat Lechich, 2007.
9 Terdapat beberapa cara untuk mengidentifikasi tipe file , yaitu :
1 Berdasarkan ekstensi file
Cara paling mudah untuk mendapatkan indikasi tipe file adalah dengan melihat ekstensi dari nama file tersebut. Ekstensi nama file
adalah karakter setelah tanda „.‟ titik pada akhir nama file. Sebagai contoh, sebuah file
“MyText.txt”, merupakan sebuah file txtteks, se
mentara “MyPic.jpg” merupakan sebuah file jpeg gambar. Permasalahan pada identifikasi file ini terdapat pada mudahnya manipulasi
ekstensi sebuah file. File “MyText.txt” tadi dapat dengan mudah diganti ekstensi
file nya menjadi “MyText.jpg”. Hal tersebut dapat terjadi secara tidak sengaja
maupun secara sengaja. Identifikasi berdasarkan ekstensi file sangat mudah dilakukan dan cepat, tetapi tidak cukup untuk memastikan tipe dari suatu file .
2 Berdasarkan struktur file
Semakin kompleks tipe file, maka file memiliki format spesifikasi yang kaku. Dengan menganalisis struktur sebuah file dan membandingkannya dengan
spesifikasi format yang ada, maka tipe file dapat ditentukan. 3
Berdasarkan Magic Bytes Magic Bytes
atau magic number atau dikenal juga dengan sebutan signature file adalah kumpulan byte-byte pada sebuah file yang dapat membedakan antara jenis
file yang satu dengan jenis file yang lainnya. Pada umumnya, magic bytes terdapat
pada file header, namun pada tipe file yang lain, magic bytes terdapat pada file body
atau file trailer. Magic bytes juga dapat digunakan untuk membedakan versi aplikasi yang digunakan untuk membuat file tersebut.
4 Berdasarkan distribusi karakter
Konten atau isi dari sebuah file adalah urutan byte-byte. Perhitungan frekuensi kemunculan dari setiap kemungkinan 256 nilai byte dari 0 sampai 255 dan
kumpulan frekuensi dari setiap byte disebut dengan Byte Frequency Distribution BFD.
10 Identifikasi berdasarkan distribusi karakter dilakukan dengan membandingkan
frekuensi kemunculan byte dari suatu file dengan frekuensi kemunculan byte dari file lainnya. Sebagai contoh, pada file html byte dari karakter , dan memiliki
frekuensi kemunculan yang lebih tinggi dibandingkan dengan file lainnya. Sehingga, apabila terdapat sebuah file yang tingkat frekuensi byte karakter , dan , maka
kemungkinan besar file tersebut merupakan file html. File yang memiliki tipe data yang berbeda akan cenderung memiliki frekuensi byte yang berbeda pula.
Identifikasi tipe file berdasarkan distribusi karakter memiliki dua kelemahan, yaitu:
a. Adanya beberapa tipe file yang tidak memiliki distribusi karakter yang
spesifik. b.
Memiliki akurasi yang cukup rendah Aaron, 2014.
2.2.2. File Type Validation
Setelah mengidentifikasi tipe file, maka tahap selanjutnya adalah melakukan validasi dari tipe file tersebut. Suatu file dikatakan valid apabila :
a. Dapat digunakan oleh program yang memang bertujuan untuk mengolah file
dengan tipe data tersebut. b.
Sesuai dengan spesifikasi tipe file tersebut. Misalnya, file gif bukan hanya menampilkan satu gambar saja, tetapi beberapa gambar yang seperti video.
Lechich, 2007.
2.2.3. File Fragment
File fragment adalah potongan file yang tidak lengkap, dikarenakan recovery file yang
tidak maksimal, sehingga hanya mengembalikan sebagian file, bahkan terkadang potongan file yang satu menimpa potongan file yang lain sehingga file menjadi tidak
dapat dibuka.
11 Berdasarkan struktur atau konten hex numbernya, tipe-tipe file fragment dapat
dibagi menjadi 2, yakni: 1
File yang hex numbernya terpotong. Ilustrasi pada Gambar 2.1.
Gambar 2.1. Ilustrasi hex number file terpotong
2 File yang hex numbernya tertimpa oleh hex number dari file lain. Ilustrasi
pada Gambar 2.2.
Gambar 2.2. Ilustrasi hex number file tertimpa file lain
12
Fragmentasi sebuah file terjadi dikarenakan penyimpanan suatu file pada media penyimpanan membagi-bagi file menjadi bagian-bagian yang lebih kecil dan
tersebar dalam cluster. Sehingga, ketika sebuah file dihapus pada media penyimpanan, cluster
tempat dimana file tersebut disimpan menjadi kosong dan dapat ditempati oleh file
yang lain. Ketika file mengalami penambahan ukuran, sering kali tidak mungkin untuk melakukan proses penulisan di bagian akhir file sehingga berpotensi
menyebabkan proses fragmentasi file. Penempatan penimpaan suatu file terhadap file lain selalu dimulai dari header file, sehingga file menjadi tidak dikenali oleh aplikasi
pembaca file tersebut. Fragmentasi pada suatu file juga dapat terjadi pada keseluruhan file
sehingga file tidak dapat teridentifikasi. Sebuah permasalahan di dalam forensik komputer muncul dalam menentukan
tipe file dari file fragment. Ketika sebuah file dihapus, entri daripada file di dalam directory
bisa tertimpa. Hal tersebut dapat dengan mudah diselesaikan bila header file fragment
tersebut masih utuh, tetapi deteksi tipe file akan menjadi sulit dilakukan apabila file fragment dideteksi melalui body file dikarenakan file header yang terhapus
atau tidak lengkap. Ada dua metode yang dapat dipakai dalam menentukan tipe file dari file fragment
yakni Fisher‟s linear discriminant dan berdasarkan longest common subsequences
dari file fragment dengan berbagai macam file yang dipakai sebagai testing
dataset Calhoun Coles, 2008.
2.2.4 . File Recovery
Penghapusan sebuah file mengakibatkan cluster yang sedang ditempati file tersebut berubah menjadi unallocated space yaitu cluster kosong yang dapat ditempati data
lainnya. Secara fisik, file masih terdapat pada cluster tersebut dan masih dapat direcovery selama belum terjadi penimpaan data overwrite, penghapusan secara
keseluruhan thorough delete maupun wiping. Recovery file dapat dilakukan dengan proses undelete, file carving, maupun recovery Aburabie Alomari, 2006.
Proses recovery file merupakan salah satu proses yang dilakukan untuk mengumpulkan barang bukti dalam forensik komputer. Pada sistem file NTFS, proses
pemulihan file yang terhapus lebih memungkinkan dikarenakan entry Master File
13 Table MFT untuk setiap file memiliki pengalokasian daftar cluster untuk
penyimpanan file tersebut. Oleh karena itu, recovery file yang telah mengalami fragmentasi masih dapat dilakukan Casey, 2010.
2.3. Jenis-Jenis File