Konversi ke file .csv Comma Separated Value
13 Selain berdasarkan tanda petik di atas, data log juga dibersihkan berdasarkan
kelompok atau tipe dari berkas file sebagai berikut:
Tabel 3. Pengelompokan data log dan penggunaannya
No Jenis berkas Keterangan
Penggunaan
1 .css teks
Cascading Style Sheet, merupakan kelompok file untuk mempercantik tampilan halaman web.
diabaikan 2
.js teks Javascript, merupakan client side script
yang berfungsi untuk membuat halaman web lebih interaktif,
contohnya untuk membuat fungsi zoom gambar atau mesagebox ketika mau menghapus email.
diabaikan
3 .xml teks
eXtensible Markup Language, merupakan berkas atau bahasa untuk mengatur struktur data web dalam
susunan tag yang independen. diabaikan
4 .bmp
gambar Bitmap, merupakan file gambar yang sering disertakan
dalam halaman web diabaikan
5 .gif gambar Graphics Interchange Format, merupakan file gambar
yang sering disertakan dalam halaman web diabaikan
6 .jpg gambar Join Photographis, merupakan file gambar yang sering
disertakan dalam halaman web diabaikan
7 .png
gambar Portable Network Graphics, merupakan file gambar
yang sering disertakan dalam halaman web diabaikan
8 .odt.doc
teks Open Document Text Document, merupakan file
dokumen teks words. digunakan
9 .ods.xls
teks Open Document Sheet Excels, merupakan file sheet
Spread sheet. digunakan
10 .pdf teks Portable Data Format, merupakan file teks portable
yang biasanya readonly. digunakan
11 .mp3 audio Media Player 3, file audio untuk melengkapi halaman web
diabaikan 12 .mp4.mpeg
.video Media Player 4 Media Player Expert Graphics, file
video untuk melengkapi halaman web diabaikan
13 .swf multimedia
Flash file, merupakan berkas audio video biasanya dalam bentuk animasi
diabaikan 14 .jsp teks
Java Server Page, merupakan Server Side Script untuk mengembangkan Website.
digunakan
15 .asp teks Active Server Page, merupakan Server Side Script
untuk mengembangkan Website. digunakan
16 .html teks Hypertext Markup Language, merupakan Client Side
Script untuk mengembangkan Website. digunakan
17 .php teks PHP Hypertext Preprocessor, merupakan Server Side
Script untuk mengembangkan Website. digunakan
14
No Jenis berkas Keterangan
Penggunaan
18 .sql teks Structured Query Language, file backup database
dalam bentuk teks diabaikan
19 .ico gambar Icon, merupakan file gambar untuk dijadikan logo ikon setiap halaman web
diabaikan
Keterangan: digunakan = digunakan sebagai data atau bahan penelitian diabaikan = tidak digunakan sebagai data atau bahan penelitian
d. Pemilihan String Pada penelitian ini berfokus pada proses penelusuran frekuensi kunjungan
terhadap setiap halaman Web yang ada pada halaman web http:www.deptan.go.id, sehingga dari data log yang ada hanya akan diambil
beberapa data yang dibutuhkan. Seperti sudah dijelaskan sebelumnya bahawa dalam rangkaian format string log sederhana terdapat susunan seperti berikut :
LogFormat h l u t \r\ s b \ {Referer}i\
\{User-agent}i\ Dari format string log di atas tidak semua blok string diambil, hanya beberapa saja
yang digunakan sesuai dengan kebutuhan penelitian ini maka yang digunakan sebagai bahan adalah:
LogFormat h t \r\ s Pengambilan empat kelompok string di atas berdasarkan keperluan data yang akan
diolah, yaitu: a h merupakan kelompok string yang menggambarkan host yang mengakses
web server, adapun identitas yang dicatat adalah berupa alamat host atau IP Address. data ini sangat bermanfaat untuk mengetahui siapa yang mengakses
halaman web.
b t merupakan runtunan waktu time series yang dilakukan oleh tiap host dalam satu sesi log, data ini sangat bermanfaat untuk membentuk satu
rangkaian graph per sekali log untuk tiap host. c r adalah sekumpulan string yang berisi metode transfer data POSTGET
dan permintaan request halaman web oleh pengguna, data ini akan dijadikan sebagai bahan dasar untuk dijadikan node dalam rangkaian graph.
d s adalah status yang dihasilkan oleh protokol HTTP Hyper Text Transfer Protocol mengenai berhasil tidaknya proses komunikasi antara peminta
layanan client dan pemberi layanan web web server.
Secara garis besar terdapat lima kelompok kode status HTTP, yaitu:
1 Kelompok 1xx Provisional response
merupakan keolmpok kode status yang menyatakan status sementara ketika sedang terjadi proses permintaan
2 Kelompok 2xx successful
Menyatakan bahwa permintaan bisa diterima oleh server.
15
3 Kelompok 3xx Redirected
Menyatakan bahwa permintaan tidak error atau secara umum bisa diterima, akan tetapi lokasi yang dituju tidak ada atau sedang dialihkan.
4 Kelompok 4xx Request Error
Permintaan yang diberikan tidak bisa diproses.
5 Kelompok 5xx Server Error
Permintaan tidak bisa diproses karena server yang dituju sedang error. Berikut ini adalah daftar kode status HTTP secara detil yang diambil dari
sumber http:support.google.comwebmasters dan http:hc.apache.org :
Tabel 4. Jenis-Jenis status HTTP
No Kode Deskripsi
1 100 Continue
Mengindikasikan bagian permintaan pertama sudah diterima, dan menunggu untuk istirahat, dan client harus melanjutkan permintaannya.
2 101 Switching
protocols client meminta untuk bertukar protolol dan server mengetahunya untuk
merealisasikan. 3
200 Successful Server berhasil memroses permintaan dari client.
4 201 Created
Server berhasil memroses permintaan dari client kemudian server membuat resource baru
5 202 Accepted
Permintaan diterima oleh server tapi tidak dapat diproses. 6
203 Non-authoritative information
Server berhasil diproses, akan tetapi iformasi yang diberikan berasal dari sumber atau server lain.
7 204 No content
Permintaan berhasil diproses, akan tetapi server tidak memberikan hasil apa-apa.
8 205 Reset content
Permintaan berhasil diproses, akan tetapi server tidak memberikan hasil apa-apa, perbedaan dengan 204, status 205 membutuhkan reset page
oleh client, contoh membersihkan form input. 9
206 Partial content Server berhasil memroses sebagaian dari GET request.
10 300 Multiple choices Server memiliki beberapa cara untuk menyelelesaikan permintaan,
Server bisa meilih sendiri atau memeberikan pilihan kepada client dalam meyelesaikan proses permintaannya.
11 301 Moved
permanently Permintaan dari client dialihkan secara permanen ke sumber lain.
12 302 Moved temporarily Server merespon permintaan dengan mengalihkan ke sumber lain, akan
tetapi untuk selanjutnya client harus melakukan permintaan ke lokasi aslinya.
13 303 See other location Memberikan respon bahwa seharusnya client melakukan GET request
tersendiri ke lokasi lain untuk memperoleh informasi.
14 304 Not modified Halaman yang diminta belum dimodifikasi sejak permintaan terakhir,
pada saat terjadi seperti ini server tidak memberikan hasil apa-apa, sangat berguna untuk mennghemat bandwith.
15 305 Use proxy Client harus menggunakan proxy agar bisa mengkases halaman yang
16
No Kode Deskripsi
diminta. 16 307 Temporary redirect
Server merespon permintaan dengan mengalihkan ke sumber lain, akan tetapi untuk selanjutnya client harus melakukan permintaan ke lokasi
aslinya tapi untuk permintaan GET dan HEAD request akan otomatis dialhkan ke lokasi lain.
17 400 Bad request Server tidak memahapi perintah atau permintaan dari client.
18 401 Not authorized Permintaan yang diberikan membutuhkan otorisasi.
19 403 Forbidden Permintaan terkena blok refusing, biasanya berkaitan dengan hak akses
folder web 20 404 Not found
Server tidak menemukan halaman yang diminta. 21
405 Method not allowed
The method specified in the request is not allowed. 22 406 Not acceptable
The requested page cant respond with the content characteristics requested.
23 407 Proxy
authentication required Mirip dengan 401, akan tetapi otentikasinya menggunakan proxy.
24 408 Request timeout Server kehabisan waktu tunggu untuk satu permintaan.
25 409 Conflict Server memiliki konflik ketika menyelesikan permintaan.
26 410 Gone Terjadi apabila resource yang diminta sudah dibuang secara permanen
sama dengan 404 tapi terkadang 404 tidak akurat dalam melakukannya dan harus dipadukan dengan 301 untuk mengetahui lokasi barunya.
27 411 Length required Server tidak bisa menerima permintaan tanpa menyertakan panjang isi
header fields. 28 412 Precondition failed
Server tidak menemukan prakondisi yang disertakan pada saat melakukan permintaan.
29 413 Request entity too
large Server tidak bisa memroses permintaan karena terlalu besar untuk
diproses. 30
414 Requested URI is too long
Pa jang url yang diminta terlalu panjang. 31
415 Unsupported media type
Format permintaan tidak didukung oleh halaman yang diminta. 32
416 Requested range not satisfiable
Rentang permintaan tidak tersedia di server. 33 417 Expectation failed
Server tidak dapat menyetujui persyaratan Expect request-header. 34
500 Internal server error
Server error dan tidak dapat melayani permintaan client. 35 501 Not implemented
Server tidak memiliki fungsionalitas untuk menyelesaikan permintaan. 36 502 Bad gateway
The server was acting as a gateway or proxy and received an invalid response from the upstream server.
37 503 Service
unavailable Server tidak tersedia bisa dikarenakan overloaded atau down untuk
perawatan. 38 504 Gateway timeout
Server bertindak sebagai gateway atau proxy dan tidak menerima
17
No Kode Deskripsi
permintaan tepat waktu dari server upstream. 39
505 HTTP version not supported
Server tidak mendukung versi dari HTTP protocol yang digunakan oleh client.
Adanya pembuangan sebagian string log dikarenakan adanya beberapa pertimbangan yaitu :
1. l log identification Merupakan identitas log pengguna, apabila host yang tidak punya id maka
statusnya akan berisi string atau kosong, sehingga apabila string ini dimasukan dalam penelitian, akan banyak host yang tidak terekam pada
saat pembersihan data log.
2. b byte, Pada penelitian ini tidak memperhatikan ukuran data yang terjadi selama
proses kunjungan web atau transaksi, semua dianggap sebagai satu proses. 3. {Referer}i
Adalah identifikasi referensi url sebelumnya atau rujukan HTTP request header
yang telah dirujuk atau diikutsertakan oleh client dalam penelitian ini tidak diperlukan karena tidak akan meneliti mengenai rute dari path.
4. {User-agent}i Identifikasi browser yang digunakan oleh pengguna, dalam penelitian ini
yang akan diteliti adalah frekuensi akses terhadap halaman web tanpa memandang alat yang digunakan untuk mengakses website.
Berikut ini contoh data log dengan format h t \r\ s yang diambil untuk beberapa host yang mengakses web server pada tanggal 02
Desember 2012:
Tabel 5. Contoh format data log yang akan diteliti
host h time t
string request r status
s
157.55.33.40 02Dec2012:04:10:10
GET newsdetailarsip_2.php? id=253awal=page=kunci= HTTP1.1
200 157.56.229.23
02Dec2012:04:08:39 GET newsdetailevent.php?id=76 HTTP1.1
200 173.199.114.83
02Dec2012:04:10:12 GET pugdetailperencanaan4.php HTTP1.1
200 173.199.116.235 02Dec2012:04:13:14
GET pugdetailperencanaan6.php HTTP1.1 200
173.199.118.35 02Dec2012:04:08:47
GET pugdetailperencanaan3.php HTTP1.1 200
173.199.120.43 02Dec2012:04:11:36
GET pugdetailperencanaan5.php HTTP1.1 200
173.44.37.226 02Dec2012:04:11:44
GET wapindex.php?option=componentid=3 HTTP1.1
200 173.44.37.226
02Dec2012:04:11:45 POST wapindex.php HTTP1.1
200
18
host h time t
string request r status
s
178.154.161.29 02Dec2012:04:11:03
GET pesantrenbsppaiData_dan_Informasijaringa
n_irigasi_indonesiakalbar.htm HTTP1.1 200
178.162.191.58 02Dec2012:04:12:20
GET wapindex.php? option=componentid=3gbfrom=3895
HTTP1.1 200
180.76.5.143 02Dec2012:04:09:26
GET pesantrenditjenbunokmywebsub_bagian_ke
rjasama.htm HTTP1.1 200
188.143.232.202 02Dec2012:04:08:57 GET wapindex.php?option=componentid=3
HTTP1.1 200
188.143.232.202 02Dec2012:04:08:58 POST wapindex.php HTTP1.1
200 208.115.113.87
02Dec2012:04:09:59 GET bpsdmstpp-manokwaritampil.php?
page=prog_studi HTTP1.1 200
66.249.77.63 02Dec2012:04:08:48
GET newsdetailarsip.php?id=864 HTTP1.1 200
66.249.77.63 02Dec2012:04:09:29
GET bpsdmspp-kupangindex.php? option=com_easybookview=easybookItemi
d=71limitstart=4450cal_offset=179p HTTP1.1
200
66.249.77.63 02Dec2012:04:09:31
GET index1.phppusdatinnewsimagesimagessms
_center.jpg HTTP1.1 200