Membentuk Node Transformasi Data a. Struktur Data Pohon

23 No host h Rangkaian Sekuensial Akses Halaman Web 8 178.154.161.29 R, I 9 178.162.191.58 R, Q 10 180.76.5.143 R, J 11 188.143.232.202 R, Q, Q 12 208.115.113.87 R, B 13 66.249.77.63 R, A, K, A, Q, H, C, D, P Host yang memiliki rangkaian akses tabel 3.8 halaman web terpanjang adalah host dengan IP Address 66.249.77.63 yaitu R, A, K, A, Q, H, C, D, P. Untuk host yang lainnya hanya membentuk 3 dan 2 node rangkaian. Dari data tersebut bisa dikatakan bahwa host tersebut memiliki waktu paling lama akses pada web deptan dan cukup tertarik terhadap isinya. Sedangkan halaman yang paling banyak diakses adalah halaman Q sebanyak 6 kali, halaman A 2 kali sisanya masing- masing hanya 1 kali dan samasekali tidak ada yang akses yaitu halaman F, untuk lebih rincinya data disajikan sebagai berikut: Tabel 10. Sebaran frekuensi akses halaman web No host h Node A B C D E F G H I J K L M N O P Q 1 157.55.33.40 R, E 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 2 157.56.229.23 R, G 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 3 173.199.114.83 R, M 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 4 173.199.116.23 5 R, O 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 5 173.199.118.35 R, L 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 6 173.199.120.4 3 R, N 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 7 173.44.37.226 R, Q, Q 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 8 178.154.161.2 9 R, I 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 9 178.162.191.5 8 R, Q 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 10 180.76.5.143 R, J 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 11 188.143.232.2 02 R, Q, Q 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 12 208.115.113.87 R, B 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 13 66.249.77.63 R, A, K, A, Q, H, C, D, P 2 0 1 1 0 0 0 1 0 0 1 0 0 0 0 1 1 Total 2 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 6 24

4. Penemuan dan Analsisis Pola a. Analisis Database

Untuk mengelola data log diperlukan sebuah tempat penampungan data atau basisdata database. Data log pada dasarnya adalah data teks yang auto generate mengikuti pola standar dari Web server, akan tetapi panjang atribut untuk tiap kelompok string kadang tidak sama. seperti contoh berikut dengan terlebih dahulu tanda petiknya sudah dibuang: 1. 66.249.73.7 - - [04Nov2012:04:09:51 +0700] GET wapindex.php HTTP1.1 200 4132 - SAMSUNG-SGH-E2501.0 ProfileMIDP-2.0 ConfigurationCLDC-1.1 UP.Browser6.2.3.3.c.1.101 GUI MMP2.0 compatible; Googlebot-Mobile2.1; +http:www.google.combot.html 2. 180.76.5.136 - - [04Nov2012:04:09:59 +0700] GET daerah_newsulseldisbun1Organisasiindex.php HTTP1.1 200 1818 - Mozilla5.0 compatible; Baiduspider2.0; +http:www.baidu.comsearchspider.html Pada data 1 dan 2 di atas apabila dikonversi dalam bentuk csv dan dilakukan pemisahan dengan pemisah sparator spasi kosong maka akan terlihat seperti pada tabel 3.10. Tabel 11. Pemisahan string dengan spasi kosong 1 2 3 4 5 6 7 8 9 10 1 1 66.249.73.7 - - [04Nov2012:04:09:5 1 +0700 ] GE T wapindex.php HTTP1.1 200 4132 - 180.76.5.136 - - [04Nov2012:04:09:5 9 +0700 ] GE T daerah_newsulseldisbun1 Organisasiindex.php HTTP1.1 200 1818 - Terlihat tepat satu kelompok string ditampung dalam satu kolom, kecuali kelompok string t dan \r\ ditampung lebih dari 1 kolom, hal ini akan berpengaruh terhadap perancangan fields yang akan dibuat dalam tabel log. h l u t \r\ s b \{Referer}i\ 1 2 3 4 5 6 7 8 9 10 11 Begitupun dengan kelompok string \{User-agent}i\ harus ditampung oleh lebih dari satu kolom, apalagi jumlah variabel string­nya tidak sama, hal ini berbeda dengan kelompok t yang pasti akan ditampung oleh 2 kolom dan r akan cukup ditampung oleh 3 kolom. seperti terlihat pada tabel 3.11 data user- agent untuk data 1 harus ditampung dalam 9 kolom, sedangkan data 2 cukup dengan 4 kolom. Untuk bererapa data ada yang mencapai 15 kolom, sehingga dalam perancangan tabel untuk menampung data user-agent disediakan 20 kolom: 25 Tabel 12. Pemisahan string user-agent dengan spasi kosong 1 2 3 4 5 6 7 8 9 SAMSUNG- SGH- E2501.0 Profile MIDP- 2.0 Configurati onCLDC- 1.1 UP.Browser6.2.3.3.c .1.101 GUI M MP 2.0 com patib le; Googlebo t- Mobile2. 1; +http:www.google.comb ot.html Mozilla5.0 compat ible; Baiduspider 2.0; +http:www.baidu.co msearchspider.html Data log mentah disimpan dalam tabel yang belum menganut aturan database seperti primary key ataupun index, hal ini dilakukan agar semua data terkam dulu dalam bentuk tabel untuk memudahkan dalam melakukan query.

b. Analisis Assosiasi

Analisis asosiasi merupakan analisis mengenai keterhubungan antara halaman web yang dikunjungi oleh pengguna. Teknik yang diigunakan adalah menggunakan teknik dalam data mining yaitu analisis keranjang belanja market basket analysis dengan menggunakan salahsatu algoritme yang sudah umum dikenal yaitu algoritme apriori. Adapun objek yang dijadikan itemset adalah direktori yang ada dalam website atau selanjutnya dikenal dengan node. Website Deptan memiliki alamat url http:www.deptan.go.id, yang terdiri dari beberapa subdomain dan folder di dalamnya. Adapun subdomain yang ada pada Situs web Deptan adalah sebagai berikut berdasarkan data acces_log dan penelusuran online: Tabel 13. Daftar Subdomian Situs Web Deptan No Subdomain Keterangan 1 http:aplikasi.deptan.go.id Daftar Usaha Pertanian 2 http:bkp.deptan.go.id Ketahanan Pangan 3 http:bppsdmp.deptan.go.id Penyuluhan Pengembangan Sumber Daya Manusia Pertanian 4 http:database.deptan.go.idafsis AFSIS Indonesia 5 http:ditjenbun.deptan.go.id Perkebunan 6 http:ditjennak.deptan.go.id Peternakan Kesehatan 7 http:epetani.deptan.go.id e-Petani 8 http:hortikultura.deptan.go.id Hortikultura 9 http:intranet.deptan.go.id Sistem Manajemen Pengetahuan Intranet Deptan 10 http:itbang.deptan.go.id Penelitian Pengembangan 11 http:itjen.deptan.go.id Inspektorat 12 http:karantina.deptan.go.id Karantina