3.3.4. Principal Component Analysis Setelah proses normalisasi serta proses kompresi dan ekspansi dilakukan pada BFD,
dilakukan pengurangan dimensionalitas ekstraksi fitur dari tabel BFD. Pengurangan dimensionalitas dilakukan menggunakan metode Principal Component Analysis
PCA sesuai dengan langkah-langkah yang telah dibahas pada bagian 2.6. Contoh hasil pengurangan dimensionalitas untuk tabel BFD file sampel dapat dilihat pada
tabel 3.7, dimana dimensi tabel BFD dari 256 dikurangi menjadi 105. Setiap parameter operasi yang dilakukan PCA pada data pelatihan kemudian disimpan,
karena operasi yang sama pada data pelatihan juga harus dilakukan pada data pengujian serta data baru.
Tabel 3.7. Tabel fitur hasil ekstraksi metode PCA
Index Fitur Nilai
1,2639 1
0,4308 2
-0,1385 3
0,1123 4
0,0260 ...
102 -0,0043
103 -0,0027
104 0,0027
3.4. Implementasi Distributed Autonomous Neuro-Gen Learning Engine
Setelah seluruh pre-proses dilakukan pada training dataset dan testing dataset, maka kedua dataset akan dapat digunakan untuk melatih serta menguji Distributed Adaptive
Neural Network DANN. Langkah-langkah yang dilakukan pada Distributed Autonomous Neuro-Gen Learning Engine DANGLE dapat dilihat pada bagian 2.8.
Dalam implementasi DANGLE untuk mengidentifikasi jenis file yang sebenarnya dilakukan beberapa modifikasi pada DANGLE. Modifikasi yang dilakukan dijabarkan
pada bagian 3.4.4.
Universitas Sumatera Utara
3.4.1. Implementasi jaringan Dalam implementasi DANGLE, diperlukan perancangan jaringan sebagai salah satu
kebutuhan implementasi metode DANGLE. Pada jaringan perlu disediakan beberapa komputer yang akan berperan sebagai node pada DANN. Banyak komputer yang
diperlukan bergantung pada jumlah jaringan saraf tiruan yang akan dibangun pada DANN. Pada penelitian ini, jumlah jaringan saraf tiruan atau node yang akan
digunakan berjumlah lima, sehingga diperlukan lima komputer pada jaringan ditambah sebuah server yang akan berperan sebagai Gene Regulatory Engine GRE.
Rancangan jaringan yang diajukan dapat dilihat pada gambar 3.4. Apabila dataset yang digunakan cukup besar maka untuk mempercepat waktu proses serta sumber
daya yang diperlukan dapat dilakukan penambahan komputer ataupun menjalankan dua buah jaringan saraf tiruan atau lebih pada satu komputer.
Gambar 3.4. Rancangan Jaringan implementasi DANGLE
Pada setiap node akan dijalankan aplikasi client yang memiliki modul pelatihan jaringan saraf tiruan. Node berfungsi untuk menjalakan proses pelatihan
jaringan saraf tiruan dan mengembalikan hasil pelatihan kepada server. Pada server akan dijalankan aplikasi server yang memiliki modul pembangunan dataset, modul
Universitas Sumatera Utara
pre-proses, dan modul GRE. Fungsi yang dilakukan oleh server adalah mengkonstruksi arsitektur dari setiap jaringan saraf tiruan yang ada, melakukan
konfigurasi parameter dan membentuk gen serta melakukan mutasi terhadap seluruh gen jaringan saraf tiruan. Sebelum jaringan saraf tiruan dibentuk secara adaptif pada
DANN, terlebih dahulu dilakukan inisialisasi untuk setiap gen jaringan saraf tiruan.
3.4.2. Parameter pelatihan yang digunakan Parameter pelatihan yang digunakan untuk DANGLE pada penelitian ini dapat dilihat
pada tabel 3.8, dimana parameter yang digunakan merupakan parameter standard untuk implementasi DANGLE sesuai pada penelitian yang dilakukan oleh Rahmat,
2008 dan Pasha, 2010 dalam implementasi metode DANGLE.
Tabel 3.8. Nilai-nilai parameter DANGLE
Parameter Nilai
Learning rate 0,7
Momentum rate 0,5
Kriteria Terminasi DANGLE Y 0,0099
Kriteria Terminasi Regulasi Mutasi Z 0,0050
Banyak neuron pada input layer 105
Banyak neuron pada output layer 6
Banyak hidden layer awal 1
Banyak neuron awal pada hidden layer 2
Epoch awal 1
Banyak jaringan saraf tiruan pada DANN 5
Jenis jaringan saraf tiruan yang digunakan Multilayer Perceptron
3.4.3. Partisi data Sebelum data dikirim dari server pada client, terlebih dahulu dilakukan partisi data.
Partisi data untuk penelitian ini dilakukan berdasarkan jenis file pada training dataset
Universitas Sumatera Utara
dan setiap jenis file dibagikan secara merata pada setiap node. Partisi data yang dilakukan dapat dilihat pada tabel 3.9.
Tabel 3.9. Partisi data untuk setiap node Jenis file
Node 1 Node 2
Node 3 Node 4
Node 5
Doc 50
50 50
50 50
Html 50
50 50
50 50
Pdf 50
50 50
50 50
Ppt 50
50 50
50 50
Xls 50
50 50
50 50
Non-dokumen gif, jpg 50
50 50
50 50
Pada setiap node akan diberikan data pelatihan sebanyak lima puluh file per jenis file yang akan dilatih pada DANN. Pembagian data pelatihan dilakukan secara
acak dari seluruh data pelatihan yang telah dikumpulkan sebelumnya. Total data
pelatihan yang ada pada satu node adalah tiga ratus file.
3.4.4. Modifikasi Untuk menyesuaikan penerapan DANGLE pada penelitian ini, dilakukan modifikasi
pada bagian regulasi mutasi dari server GRE yang telah dibahas pada bagian 2.8.1. Adapun pseudocode regulasi mutasi yang digunakan pada penelitian ini adalah
sebagai berikut:
if generation = 1 then epoch += 2
else if E = 0.01 then
epoch += rand3 else if 0.01 E 0.02 then
E_bigger_than_0_01++ epoch += rand6
for each hidden_layer do hidden_neuron += 2 rand5
if E_bigger_than_0_001 1 then epoch += 10 rand5
Universitas Sumatera Utara
for each hidden_layer do hidden_neuron += 2 rand5
else epoch += 100 rand5
hidden_layer += 1 for each hidden_layer do
hidden_neuron += 10 rand2 end if
end if
dimana E adalah error yang didapatkan menggunakan fungsi objektifitas persamaan 2.14 untuk masing-masing jaringan saraf tiruan.
3.4.5. Target Output Output yang diharapkan pada pelatihan DANN untuk setiap jenis file dapat dilihat
pada tabel 3.10. Node pertama pada output layer menunjukkan apakah file merupakan file dokumen dengan ekstensi doc. Node kedua pada output layer menunjukkan
apakah file merupakan file dokumen dengan ekstensi html. Node ketiga pada output layer menunjukkan apakah file merupakan file dokumen dengan ekstensi pdf. Node
keempat pada output layer menunjukkan apakah file merupakan file dokumen dengan ekstensi ppt. Node kelima pada output layer menunjukkan apakah file merupakan file
dokumen dengan ekstensi xls. Node terakhir pada output layer menunjukkan apakah file buka merupakan file dokumen.
Tabel 3.10. Target output untuk setiap jenis file Jenis file
Node 1 Node 2 Node 3 Node 4 Node 5 Node 6
Doc 1
Html 1
Pdf 1
Ppt 1
Xls 1
Non-dokumen gif, jpg 1
Universitas Sumatera Utara
BAB 4 IMPLEMENTASI DAN PENGUJIAN