Identifikasi File Dokumen Berdasarkan Konten Menggunakan Distributed Autonomous Neuro-Gen Learning Engine

IDENTIFIKASI FILE DOKUMEN BERDASARKAN KONTEN MENGGUNAKAN

DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE

SKRIPSI AARON 101402027

PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2014 IDENTIFIKASI FILE DOKUMEN BERDASARKAN KONTEN MENGGUNAKAN

DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE

SKRIPSI Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah

Sarjana Teknologi Informasi AARON

101402027 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN

2014

PERSETUJUAN

Judul : IDENTIFIKASI FILE DOKUMEN BERDASARKAN KONTEN MENGGUNAKAN DISTRIBUTED

AUTONOMOUS NEURO-GEN LEARNING

ENGINE Kategori : SKRIPSI Nama : AARON Nomor Induk Mahasiswa : 101402027 Program Studi : S1 TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA Komisi Pembimbing : Pembimbing 2 Pembimbing 1 Romi Fadillah Rahmat, B.Comp.Sc M.Sc Prof. Dr. Opim Salim Sitompul, M.Sc NIP. 19860303 201012 1 004 NIP. 19610817 198701 1 001 Diketahui/disetujui oleh Program Studi S1 Teknologi Informasi Ketua, Muhammad Anggia Muchtar, ST., MM.IT NIP. 19800110 200801 1 010

PERNYATAAN

IDENTIFIKASI FILE DOKUMEN BERDASARKAN KONTEN MENGGUNAKAN

DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE

SKRIPSI Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 25 Mei 2014 Aaron 101402027

UCAPAN TERIMA KASIH

Puji dan syukur penulis sampaikah kehadirat Tuhan Yang Maha Esa yang telah memberikan rahmat serta restu-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Teknologi Informasi.

Pertama, penulis ingin mengucapkan terima kasih kepada Bapak Prof. Dr. Opim Salim Sitompul, M.Sc selaku pembimbing pertama dan Bapak Romi Fadillah Rahmat, B.Comp.Sc. M.Sc selaku pembimbing kedua yang telah membimbing penulis dalam penelitian serta penulisan skripsi ini. Tanpa inspirasi serta motivasi yang diberikan dari kedua pembimbing, tentunya penulis tidak akan dapat menyelesaikan skripsi ini. Penulis juga mengucapkan terima kasih kepada Bapak Muhammad Fadly Syahputra, B.Sc. M. Sc.

IT sebagai dosen pembanding pertama dan Bapak M. Anggia Muchtar, ST. MM.IT sebagai dosen pembanding kedua yang telah memberikan masukan serta kritik yang bermanfaat dalam penulisan skripsi ini. Ucapan terima kasih juga ditjukan kepada semua dosen serta semua pegawai pada program studi S1 Teknologi Informasi, yang telah membantu serta membimbing penulis selama proses perkuliahan.

Penulis tentunya tidak lupa berterima kasih kepada kedua orang tua penulis, Bapak penulis Amin Maslim, serta Alm. Ibu Miwana Agus yang telah membesarkan penulis dengan sabar dan penuh cinta. Terima kasih juga penulis ucapkan kepada adik penulis, Vincent Maslim, yang selalu memberikan dukungan kepada penulis. Penulis juga berterima kasih kepada seluruh anggota keluarga penulis yang namanya tidak dapat disebutkan satu satu.

Terima kasih juga penulis ucapkan kepada seluruh teman-teman angkatan 2010 yang telah bersama-sama penulis melewati perkuliahan pada program studi S1 Teknologi Informasi, serta teman-teman mahasiswa Teknologi Informasi lainnya. Secara khusus, penulis juga mengucapkan terima kasih kepada Eka Pratiwi Goenfi yang selalu menemani dan memberikan perhatiannya kepada penulis.

ABSTRAK

Identifikasi jenis file merupakan salah satu tahapan yang dilakukan pada forensik komputer terutama identifikasi jenis file dokumen, dimana identifikasi jenis file merupakan proses mengetahui format dari sebuah file sehingga dapat didapatkan jenis file sebenarnya dari file tersebut. Metode-metode identifikasi jenis file berdasarkan magic

bytes dan ekstensi nama file sangat mudah dikelabui dengan melakukan pemalsuan file

sederhana, seperti pengubahan ekstensi nama file ataupun pengubahan beberapa byte awal sebuah file. Atas dasar hal ini, metode identifikasi jenis file berdasarkan konten menjadi sangat penting. Metode yang diajukan pada penelitian ini adalah penggunaan fitur Byte

Frequency Distribution , dilanjutkan dengan ekstraksi fitur dengan Principal Component

Analysis dan implementasi mesin pembelajaran Distributed Autonomous Neuro-Gen

Learning Engine dalam melakukan identifikasi jenis file dokumen berdasarkan konten.

Pada penelitian ini ditunjukkan bahwa metode yang diajukan mampu melakukan identifikasi file dokumen dengan hasil akurasi yang cukup baik untuk lima jenis file dokumen. Kata kunci: forensik digital dan komputer, identifikasi file berbasis konten, Principal

Distributed Autonomous Neuro-Gen Learning Engine, Distributed

Component Analysis, Adaptive Neural Network, Gene Regulatory Engine.

CONTENT-BASED DOCUMENT FILE TYPE IDENTIFICATION USING

DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE

ABSTRACT

File type identification is one of the phases being done in computer forensics, especially document file type identification. File type identification is a process of knowing the format of a file to determine the real file type of the file. File identification methods based on magic bytes and file name extension are easily spoofed by simple file forgery such as changing the file name extension or editing the first few bytes of a file. A content-based file type identification method become very important because of the fact stated before. The method proposed in this research consists of using Byte Frequency Distribution of a file as features, using Principal Component Analysis for dimensionality reduction of features and finally implementing a Distributed Autonomous Neuro-Gen Learning Engine in identifying a document file based on its content. In this research, it is shown that the proposed method is capable of identifying document files with good accuracy for five types of document files.

Keywords: digital and computer forensics, content-based file identification, Principal Component Analysis, Distributed Autonomous Neuro-Gen Learning Engine, Distributed Adaptive Neural Network, Gene Regulatory Engine.

DAFTAR ISI

Hal.

Persetujuan ii

Pernyataan iii

Ucapan Terima Kasih iv

Abstrak v

Abstract vi

Daftar Isi vii

Daftar Tabel x

Daftar Gambar xii

BAB 1 Pendahuluan

1.1. Latar Belakang

1.2. Rumusan Masalah

1.3. Tujuan Penelitian

1.4. Batasan Masalah

1.5. Manfaat Penelitian

1.6. Metodologi Penelitian

1.7. Sistematika Penulisan

5 BAB 2 Landasan Teori

2.1. Forensik Digital

2.2. Dokumen

2.3. File

2.3.1. Identifikasi Format File

2.3.2. File forgery

2.4. Normalisasi

2.5. Companding Function

2.6. Ekstraksi Fitur menggunakan Principal Component Analysis

2.7. Artificial Neural Network

2.7.1. Kelemahan Artificial Neural Network

2.7.1. Multilayer Perceptron

2.8. Distributed Autonomous Neuro-Gen Learning Engine

2.8.1. Gene Regulatory Engine

2.8.2. Distributed Adaptive Neural Network

30 BAB 3 Analisis dan Perancangan

3.1. Arsitektur Umum

3.2. Dataset

3.3. Pre-process

3.3.1. Kalkulasi Byte Frequency Distribution

3.3.2. Normalisasi Byte Frequency Distribution

3.3.3. Kompresi dan Ekspansi Byte Frequency Distribution

3.3.4. Principal Component Analysis

3.4. Implementasi Distributed Autonomous Neuro-Gen Learning Engine 40

3.4.1. Implementasi jaringan

3.4.2. Parameter pelatihan yang digunakan

3.4.3. Partisi data

3.4.4. Modifikasi

3.4.5. Target output

44 BAB 4 Implementasi dan Pengujian

4.1. Hasil dari DANN

4.2. Hasil dari GRE

4.2.1. Hasil objective function

4.2.2. Hasil dari regulator mutasi

4.2.3. Hasil fitness function

4.3. Hasil pengujian

53 BAB 5 Kesimpulan dan Saran

5.1. Kesimpulan

5.2. Saran

58 Daftar Pustaka

59 Lampiran A: Source Code Aplikasi Client

62 Lampiran B: Source Code Aplikasi Server

DAFTAR TABEL

Hal.

44 Tabel 4.1. Hasil akhir gen node 1

54 Tabel 4.9. Confusion Matrix untuk dataset pelatihan

54 Tabel 4.8. Hasil akurasi untuk setiap jenif file pada pengujian menggunakan dataset pengujian

48 Tabel 4.7. Hasil akurasi untuk setiap jenif file pada pengujian menggunakan dataset pelatihan

47 Tabel 4.6. Akurasi hasil pelatihan untuk setiap node pada generasi ke-6

46 Tabel 4.5. Hasil akhir gen node 5

46 Tabel 4.4. Hasil akhir gen node 4

46 Tabel 4.3. Hasil akhir gen node 3

45 Tabel 4.2. Hasil akhir gen node 2

43 Tabel 3.10. Target output untuk setiap jenis file

Tabel 2.1. Daftar magic bytes untuk beberapa jenis file dokumen

42 Tabel 3.9. Partisi data untuk setiap node

40 Tabel 3.8. Nilai-nilai parameter DANGLE

39 Tabel 3.7. Tabel fitur hasil ekstraksi metode PCA

37 Tabel 3.6. Tabel BFD hasil kompresi dan ekspansi

37 Tabel 3.5. Tabel BFD hasil normalisasi

35 Tabel 3.4. Tabel BFD untuk file sampel

35 Tabel 3.3. Spesifikasi testing dataset

34 Tabel 3.2. Spesifikasi training dataset

10 Tabel 3.1. Spesifikasi file-file yang digunakan sebagai data penelitian

Tabel 4.10. Confusion Matrix untuk dataset pengujian

55 Tabel 4.11. Hasil akurasi untuk setiap jenis file pada pengujian menggunakan file-file yang telah dipalsukan

DAFTAR GAMBAR

Hal.

Gambar 2.1. Distribusi Frekuensi untuk dua file rtf yang berbeda (McDaniel, 2001) 12Gambar 2.2. Distribusi Frekuensi untuk dua file gif yang berbeda (McDaniel, 2001) 12Gambar 2.3. Arsitektur umum sebuah jaringan saraf tiruan (Negnetvisky, 2005)

20 Gambar 2.4. Fungsi aktivasi dari sebuah neuron (Negnetvisky, 2005)

20 Gambar 2.5. Arsitektur Multilayer Perceptron dengan dua hidden layer (Negnetvisky, 2005)

22 Gambar 2.6. Arsitektur Gene Regulatory Engine (Rahmat, 2008)

25 Gambar 2.7. Diagram lengkap model GRE (Rahmat, 2008)

26 Gambar 2.8.

27 Node Behavior’s Gene (Pasha, 2010) Gambar 2.9.

27 Neural Network’s Gene (Rahmat, 2008) Gambar 2.10.Arsitektur umum dari Distributed Autonomous Neural Network (Rahmat, 2008)

31 Gambar 3.1. Arsitektur umum metode yang diajukan

33 Gambar 3.2. Grafik BFD hasil normalisasi

38 Gambar 3.3. Grafik BFD hasil kompresi dan ekspansi

39 Gambar 3.4. Rancangan jaringan implementasi DANGLE

41 Gambar 4.1. Hasil output untuk setiap node pada setiap generasi

48 Gambar 4.2. Hasil RMSE untuk setiap node pada setiap generasi

49 Gambar 4.3. Mutasi Epoch pada setiap node untuk setiap generasi

50 Gambar 4.4. Mutasi jumlah hidden layer pada setiap node untuk setiap generasi

51 Gambar 4.5. Mutasi jumlah neuron hidden layer 1 pada setiap node untuk setiap generasi

Gambar 4.6. Mutasi jumlah neuron hidden layer 2 pada setiap node untuk setiap generasi

52 Gambar 4.7. Mutasi jumlah neuron hidden layer 3 pada setiap node untuk setiap generasi

52 Gambar 4.8. Hasil fitness function untuk setiap generasi

Identifikasi File Dokumen Berdasarkan Konten Menggunakan Distributed Autonomous Neuro-Gen Learning Engine

DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE

DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE

AUTONOMOUS NEURO-GEN LEARNING

DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE

UCAPAN TERIMA KASIH

Dokumen yang terkait

BAB 2 LANDASAN TEORI 2.1 Sistem Pendukung Keputusan - Sistem Pendukung Keputusan Menentukan Operator Terbaik Menggunakan Metode Topsis (Studi Kasus: CBOC Regional 1/ PT. Telekomunikasi, TBK.)

Sistem Pendukung Keputusan Menentukan Operator Terbaik Menggunakan Metode Topsis (Studi Kasus: CBOC Regional 1/ PT. Telekomunikasi, TBK.)

BAB I PENDAHULUAN - Evaluasi Keseimbangan Lintasan Kerja dengan Pendekatan Ergonomi Menggunakan Metode Work Sampling

Evaluasi Keseimbangan Lintasan Kerja dengan Pendekatan Ergonomi Menggunakan Metode Work Sampling

Analisa Kemantapan Lereng Menggunakan Metode Elemen Hingga Dengan Pendekatan Model Soft Soil

Analisa Kemantapan Lereng Menggunakan Metode Elemen Hingga Dengan Pendekatan Model Soft Soil

BAB I PENDAHULUAN A. Latar Belakang - Prosedur Mutasi Jabatan Berdasarkan Undang-Undang Nomor 43 Tahun 1999 Ditinjau Dari Persektif Hukum Administrasi Negara (Studi Kasus Dinas Pekerjaan Umum)

BAB 2 LANDASAN TEORI - Perancangan Aplikasi Pengamanan Data File Menggunakan Kombinasi Motode Affine Cipher dan RSA

Perancangan Aplikasi Pengamanan Data File Menggunakan Kombinasi Motode Affine Cipher dan RSA

2.1. Forensik Digital - Identifikasi File Dokumen Berdasarkan Konten Menggunakan Distributed Autonomous Neuro-Gen Learning Engine

Dukungan

Links

Identifikasi File Dokumen Berdasarkan Konten Menggunakan Distributed Autonomous Neuro-Gen Learning Engine

DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE

DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE

AUTONOMOUS NEURO-GEN LEARNING

DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE

UCAPAN TERIMA KASIH

Dokumen yang terkait

BAB 2 LANDASAN TEORI 2.1 Sistem Pendukung Keputusan - Sistem Pendukung Keputusan Menentukan Operator Terbaik Menggunakan Metode Topsis (Studi Kasus: CBOC Regional 1/ PT. Telekomunikasi, TBK.)

Sistem Pendukung Keputusan Menentukan Operator Terbaik Menggunakan Metode Topsis (Studi Kasus: CBOC Regional 1/ PT. Telekomunikasi, TBK.)

BAB I PENDAHULUAN - Evaluasi Keseimbangan Lintasan Kerja dengan Pendekatan Ergonomi Menggunakan Metode Work Sampling

Evaluasi Keseimbangan Lintasan Kerja dengan Pendekatan Ergonomi Menggunakan Metode Work Sampling

Analisa Kemantapan Lereng Menggunakan Metode Elemen Hingga Dengan Pendekatan Model Soft Soil

Analisa Kemantapan Lereng Menggunakan Metode Elemen Hingga Dengan Pendekatan Model Soft Soil

BAB I PENDAHULUAN A. Latar Belakang - Prosedur Mutasi Jabatan Berdasarkan Undang-Undang Nomor 43 Tahun 1999 Ditinjau Dari Persektif Hukum Administrasi Negara (Studi Kasus Dinas Pekerjaan Umum)

BAB 2 LANDASAN TEORI - Perancangan Aplikasi Pengamanan Data File Menggunakan Kombinasi Motode Affine Cipher dan RSA

Perancangan Aplikasi Pengamanan Data File Menggunakan Kombinasi Motode Affine Cipher dan RSA

2.1. Forensik Digital - Identifikasi File Dokumen Berdasarkan Konten Menggunakan Distributed Autonomous Neuro-Gen Learning Engine

Dokumen yang Anda mencari sudah siap untuk unduhkan