BAB 2 LANDASAN TEORI
Bab ini membahas tentang teori penunjang serta penelitian sebelumnya yang berhubungan dengan permasalahan identifikasi jenis file, serta metode Distributed
Autonomous Neuro-Gen Learning Engine.
2.1. Forensik Digital
Forensik adalah pengaplikasian ilmu pengetahuan dalam menentukan kriminal sesuai hukum oleh pihak berwenang pada sistem pengadilan Saferstein, 1998. Salah satu
cabang dari forensik adalah forensik digital, dimana forensik digital memiliki ruang lingkup pengolahan, pemulihan serta investigasi pada materi yang ditemukan pada
perangkat digital terutama pada tindak kejahatan yang berkaitan dengan komputer Reith, et al. 2010. Secara umum proses forensik pada forensik digital terdiri atas
pengambil alihan perangkat, akusisi data, analisis data dan penyusunan laporan sebagai bukti kolektif Adams, 2012. Berdasarkan perangkat digital yang terkait,
secara teknis forensik digital dibagi atas beberapa cabang, yakni: forensik komputer, forensik jaringan, forensik analisis data dan forensik perangkat mobile.
Identifikasi file adalah salah satu tahapan yang dilakukan dalam proses analisis data dalam forensik komputer. Dimana, forensik komputer adalah cabang dari
forensik digital yang berkaitan media komputer. Pada forensik komputer dilakukan pemeriksaan media digital sesuai dengan proses forensik dengan tujuan
mengidentifikasi, mendapatkan,
menjaga, memulihkan,
menganalisis dan
mepresentasikan informasi dari data yang tersimpan secara elektronik pada media komputer Noblett, et al. 2000.
Universitas Sumatera Utara
2.2. Dokumen
Dokumen adalah representasi pengetahuan yang digambarkan atau dituliskan pada secarik kertas Buckland, 1998. Dokumen berasal dari kata Documentum pada bahasa
Latin yang memiliki arti pelajaran. Dokumen pada masa lalu merujuk pada tulisan yang digunakan sebagai bukti pada pengadilan. Pada jaman sekarang, dokumen
merujuk pada file yang berisi text, berikut dengan struktur serta desain dan gambar tambahan.
2.3. File
File komputer atau file adalah kumpulan data atau informasi berupa huruf, angka maupun karakter khusus yang ditandai dengan sebuah nama file. Seluruh data dan
informasi yang ada dalam sebuah komputer tersimpan dalam bentuk file. Berdasarkan isi informasi yang disimpan, file dibagi atas beberapa jenis file seperti: text file yang
menyimpan informasi berupa text tulisan, file citra yang menyimpan informasi berupa gambar, dan file program yang menyimpan program. File komputer dapat
dianggap bagaikan dokumen kertas yang digunakan serta disimpan pada kantor. Sebuah file secara umum terdiri atas tiga bagian, yakni: file header head, file
body, file trailer tail. File header adalah sebuah “signature” yang diposisikan pada awal sebuah file sehingga, sistem operasi serta perangkat lunak lainnya mengetahui
apa yang menjadi isi atau konten dari file. File body adalah konten dari file yang merupakan informasi atau data yang disimpan oleh file. File trailer adalah bagian
penutup dari sebuah file yang menandai akhir dari sebuah file. Tergantung pada jenis datanya, metadata atau informasi mengenai struktur serta penjelasan dari data
biasanya terdapat pada file header, tetapi bisa juga ditemukan pada file trailer.
2.3.1 Identifikasi format file Format file adalah sebuah standard untuk meyimpan file komputer pada media
penyimpanan, dimana format file menentukan bagaimana byte-byte yang menyusun
Universitas Sumatera Utara
sebuah file diatur dan disusun. File dengan jenis yang berbeda akan mempunyai format file yang berbeda. Identifikasi jenis file adalah proses mengetahui format file
dari sebuah file tertentu, sehingga dapat diketahui jenis, tujuan serta kegunaan dari file tersebut. Identifikasi format file dilakukan oleh sistem operasi berdasarkan ekstensi
dari file ataupun berdasarkan metadata yang tersimpan pada file. Beberapa teknik yang digunakan untuk melakukan identifikasi jenis file
Hickok, et al. 2005: 1. Identifikasi jenis file berdasarkan ekstensi nama file
Identifikasi file berdasarkan ekstensi nama file adalah metode identifikasi file yang paling sederhana dan naif. Ekstensi nama file adalah kumpulan karakter
se telah tanda „.‟ titik terakhir pada nama file. Identifikasi jenis file melalui
ekstensi nama file dilakukan hanya dengan melihat ekstensi dari nama file yang ada. Sebagai contoh, sebuah file dengan nama file
“x.doc” akan memiliki ekstensi doc dan segera dikenali sebagai sebuah file dokumen dengan melihat ekstensi
nama file doc. Karena identifikasi file hanya dilakukan melihat dari ekstensi nama file, identifikasi jenis file dapat dilakukan tanpa membaca file, sehingga
identifikasi dengan metode ini dapat dilakukan dengan sangat cepat. Metode ini merupakan metode yang populer digunakan oleh file browser pada sistem operasi
seperti Windows, Mac OS X, serta Linux dalam melakukan identifikasi dari file. 2. Identifikasi jenis file berdasarkan Magic Bytes
Magic bytes atau dikenal juga dengan sebutan magic number adalah kumpulan byte-byte pada sebuah file yang dapat digunakan sebagai pembeda antar jenis file
yang berbeda. Magic bytes biasa terletak pada bagian file header pada sebuah file, tetapi bisa juga terletak pada bagian file lain seperti file trailer. Selain sebagai
pembeda antar jenis file, magic bytes juga dapat memberikan infromasi tambahan mengenai versi aplikasi yang digunakan untuk membuat file sehingga magic bytes
juga dapat digunakan untuk membedakan file yang dibuat dengan aplikasi yang sama tetapi dengan versi yang berbeda. Identifikasi jenis file dengan metode ini
diimplementasikan oleh perintah file pada sistem operasi berbasis UNIX untuk menentukan apakah sebuah file yang dapat dieksekusi ataupun file dengan jenis
lain Darwin, 1999.
Universitas Sumatera Utara
Identifikasi jenis file berdasarkan magic bytes sedikit lebih lambat dibandingkan melakukan identifikasi berdasarkan ekstensi nama file, karena
sebuah file harus dibuka terlebih dahulu dan beberapa byte awal dari file tersebut. Beberapa byte awal yang dibaca kemudian dibandingkan dengan magic bytes dari
jenis-jenis file yang diketahui sehingga didapatkan hasil identifikasi jenis file. Tabel 2.1. menunjukkan magic bytes untuk beberapa jenis file dokumen.
Penggunaan magic bytes dalam identifikasi jenis file memiliki beberapa kelemahan Hickok, et al. 2005, yakni: identifikasi jenis file berdasarkan magic
bytes hanya berlaku untuk file yang memiliki magic bytes, contoh file yang tidak memiliki magic bytes adalah file dengan ekstensi txt file text dan html file
hypertext markup language; tidak adanya standard, bahkan untuk jenis file yang sama, dalam pembuatan jenis file tertentu, sebagai contoh sebuah file citra dengan
ekstensi jpg bisa memiliki magic bytes FF D8 FF FE 00 ataupun FF D8 FF E0 00, dan keduanya merupakan file citra jpg yang valid; dan adanya kemungkinan
kesalahan identifikasi secara kebetulan, sebagai contoh, sebuah file pdf, seperti yang dapat dilihat pada Tabel 2.1. memiliki magic bytes 25 50 44 46 atau
ASCII PDF, apabila dilakukan identifikasi jenis file berdasarkan magic bytes terhadap sebuah file txt yang kebetulan dimulai dengan tulisan PDF, maka file
txt tersebut akan dikenali sebagai sebuah file pdf.
Table 2.1. Daftar magic bytes untuk beberapa jenis file dokumen
Hex ASCII
Ekstensi Jenis file
25 50 44 46 PDF
PDF, FDF Adobe Portable Document Format
and Forms Document file D0 CF 11 E0
A1 B1 1A E1 ÐÏ.ࡱ.á
DOC, DOT, PPS, PPT,
XLA, XLS, WIZ
Microsoft Office applications Word, Powerpoint, Excel, Wizard
50 4B 03 04 14 00 06 00
PK...... DOCX,
PPTX, XLSX Microsoft Office Open XML
Format OOXML Document 7B 5C 72 74
66 31 {\rtf1
RTF Rich text format word processing
file
Universitas Sumatera Utara
3. Identifikasi jenis file berdasarkan distribusi karakter. Metode terakhir yang dapat digunakan dalam identifikasi jenis file adalah
berdasarkan distribusi karakter yang terdapat pada sebuah file. Konten atau isi dari sebuah file adalah urutan byte-byte, dimana satu byte terdiri atas delapan bit,
sehingga satu byte akan memiliki kemungkinan nilai sebanyak 2
8
atau 256, yakni 0 sampai dengan 255. Pada metode ini dihitung frekuensi kemunculan dari setiap
kemungkinan 256 nilai dari sebuah file dan kumpulan frekuensi dari setiap byte disebut dengan byte frequency distribution BFD atau distribusi frekuensi byte.
Identifikasi file berdasarkan distribusi karakter dikenal juga dengan nama metode histogram, dimana BFD merupakan histogram byte dari sebuah file. Sebuah BFD
merupakan sebuah tabel dengan 256 nilai dimana setiap nilai merupakan frekuensi kemunculan dari nilai yang direpresentasikan oleh sebuah file Sencar,
et al. 2012. Identifikasi file berdasarkan distribusi karakter dapat dilakukan karena
untuk file yang berbeda dengan jenis file yang sama, akan ada beberapa frekuensi byte yang memiliki kemunculan lebih banyak dari frekuensi byte yang lain.
Sebagai contoh, pada sebuah file html, representasi byte dari karakter , dan akan memiliki kemunculan yang lebih banyak dibandingkan jenis file lainnya,
sehingga sebuah file dengan frekuensi kemunculan representasi byte dari karakter , dan lebih banyak dibandingkan frekuensi byte karakter lain memiliki
kemungkinan yang besar merupakan sebuah file html Sencar, et al. 2012. Pada gambar 2.1. dan gambar 2.2. dapat dilihat file yang berbeda dengan jenis file yang
sama cenderung memiliki distribusi frekuensi yang mirip dan dengan membandingkan gambar 2.1. dengan gambar 2.2. dapat dilihat bahwa file dengan
jenis file yang berbeda memiliki distribusi frekuensi byte yang berbeda.
Universitas Sumatera Utara
Gambar 2.1. Distribusi Frekuensi untuk dua file rtf yang berbeda McDaniel, 2001
Gambar 2.2. Distribusi Frekuensi untuk dua file gif yang berbeda McDaniel, 2001
Beberapa kelemahan dari identifikasi jenis file berdasarkan distribusi karakter adalah adanya beberapa jenis file yang tidak mempunyai distribusi
karakter yang spesifik, kemungkinan terjadinya kesalahan identifikasi disebabkan konten file yang unik ataupun tidak normal, serta kecepatan identifikasi yang
lebih lambat dibandingkan identifikasi jenis file berdasarkan ekstensi nama file dan magic bytes. Identifikasi file berdasarkan distribusi karakter memiliki akurasi
yang cukup rendah, yakni 27,5 McDaniel, 2001. Pada penelitian lain, Amirani, et al. 2008 menggunakan BFD sebagai fitur dari sebuah file dan
melakukan ekstraksi fitur menggunakan Principal Component Analysis PCA dan melakukan klasifikasi jenis file menggunakan Multi-Layer Perceptron. BFD
juga digunakan bersamaan dengan Neural Network atau jaringan saraf tiruan dalam mengidentifikasi jenis file Harris, 2007.
Universitas Sumatera Utara
2.3.2. File Forgery Dalam menyembunyikan file-file dokumen yang dapat menjadi bukti tindak kejahatan,
pelaku tindak kejahatan sering kali menggunakan teknik-teknik anti-forensik, yakni sekumpulan teknik pemalsuan serta penghancuran yang digunakan untuk
memanipulasi proses forensik Harris, 2007. Salah satu teknik anti-forensik yang paling sering digunakan adalah file forgery atau pemalsuan file. Pemalsuan file adalah
teknik pemalsuan suatu file sehingga jenis file sebenarnya serta kegunaan dari file tersebut tidak lagi dapat dikenali dengan mudah.
Pemalsuan file dapat dilakukan dengan cara: 1. Pengubahan ekstensi file
Pemalsuan file dapat dilakukan dengan sangat mudah dengan melakukan pengubahan ekstensi nama file yang terdapat pada nama file. Pengubahan
ekstensi file dari nama file secara langsung akan mengakibatkan file browser secara umum menjadi tidak dapat mengenali jenis file sebenarnya dari file yang
telah diubah ekstensinya tersebut. Hal ini dikarenakan file browser pada sistem operasi secara umum mengenali jenis dari sebuah file hanya dari ekstensi file
yang terdapat pada nama file. Sebagai contoh: seorang pelaku tindak kejahatan dapat memalsukan sebuah file dokumen Microsoft Word dengan ekstensi doc
dengan cara mengubah ekstensi nama file dari file tersebut menjadi jpg. Hal ini akan mengakibatkan file browser mengenali file tersebut sebagai sebuah file citra
dengan ekstensi jpg, bukan lagi sebagai sebuah file dokumen. 2. Pengubahan Magic Bytes
Seperti yang telah dijelaskan pada bagian sebelumnya, magic bytes adalah kumpulan beberapa byte pada awal sebuah file, dimana magic bytes untuk setiap
jenis file adalah berbeda, sehingga magic bytes dapat digunakan sebagai salah satu indikasi yang menunjukkan jenis file sebenarnya dari sebuah file. Akan tetapi,
magic bytes dapat dengan mudah diedit menggunakan hex editor ataupun tools lainnya. Mengubah magic bytes dari suatu file akan mengakibatkan algoritma
yang melakukan pengecekan magic bytes untuk menentukan jenis file, tidak dapat menentukan jenis file sebenarnya dari file secara tepat. Sebagai contoh, sebuah
Universitas Sumatera Utara
file dokumen RTF Rich Text Format mempunyai magic bytes “7B 5C 72 74 66
31“, apabila magic bytes ini diubah menjadi “25 50 44 46” yang merupakan magic bytes dari file dokumen PDF, maka algoritma yang melakukan identifikasi
jenis file berdasarkan magic bytes akan mengenali file RTF tersebut sebagai sebuah file PDF.
Pemalsuan file dapat dengan mudah dilakukan dengan mengubah indikator yang menunjukkan jenis file dari sebuah file, seperti ekstensi file dan magic bytes,
Sehingga diperlukan suatu metode untuk melakukan identifikasi jenis file sebenarnya berdasarkan konten atau isi dari file.
2.4. Normalisasi