Konversi ke file .csv Comma Separated Value

13 Selain berdasarkan tanda petik di atas, data log juga dibersihkan berdasarkan kelompok atau tipe dari berkas file sebagai berikut: Tabel 3. Pengelompokan data log dan penggunaannya No Jenis berkas Keterangan Penggunaan 1 .css teks Cascading Style Sheet, merupakan kelompok file untuk mempercantik tampilan halaman web. diabaikan 2 .js teks Javascript, merupakan client side script yang berfungsi untuk membuat halaman web lebih interaktif, contohnya untuk membuat fungsi zoom gambar atau mesagebox ketika mau menghapus email. diabaikan 3 .xml teks eXtensible Markup Language, merupakan berkas atau bahasa untuk mengatur struktur data web dalam susunan tag yang independen. diabaikan 4 .bmp gambar Bitmap, merupakan file gambar yang sering disertakan dalam halaman web diabaikan 5 .gif gambar Graphics Interchange Format, merupakan file gambar yang sering disertakan dalam halaman web diabaikan 6 .jpg gambar Join Photographis, merupakan file gambar yang sering disertakan dalam halaman web diabaikan 7 .png gambar Portable Network Graphics, merupakan file gambar yang sering disertakan dalam halaman web diabaikan 8 .odt.doc teks Open Document Text Document, merupakan file dokumen teks words. digunakan 9 .ods.xls teks Open Document Sheet Excels, merupakan file sheet Spread sheet. digunakan 10 .pdf teks Portable Data Format, merupakan file teks portable yang biasanya readonly. digunakan 11 .mp3 audio Media Player 3, file audio untuk melengkapi halaman web diabaikan 12 .mp4.mpeg .video Media Player 4 Media Player Expert Graphics, file video untuk melengkapi halaman web diabaikan 13 .swf multimedia Flash file, merupakan berkas audio video biasanya dalam bentuk animasi diabaikan 14 .jsp teks Java Server Page, merupakan Server Side Script untuk mengembangkan Website. digunakan 15 .asp teks Active Server Page, merupakan Server Side Script untuk mengembangkan Website. digunakan 16 .html teks Hypertext Markup Language, merupakan Client Side Script untuk mengembangkan Website. digunakan 17 .php teks PHP Hypertext Preprocessor, merupakan Server Side Script untuk mengembangkan Website. digunakan 14 No Jenis berkas Keterangan Penggunaan 18 .sql teks Structured Query Language, file backup database dalam bentuk teks diabaikan 19 .ico gambar Icon, merupakan file gambar untuk dijadikan logo ikon setiap halaman web diabaikan Keterangan: digunakan = digunakan sebagai data atau bahan penelitian diabaikan = tidak digunakan sebagai data atau bahan penelitian d. Pemilihan String Pada penelitian ini berfokus pada proses penelusuran frekuensi kunjungan terhadap setiap halaman Web yang ada pada halaman web http:www.deptan.go.id, sehingga dari data log yang ada hanya akan diambil beberapa data yang dibutuhkan. Seperti sudah dijelaskan sebelumnya bahawa dalam rangkaian format string log sederhana terdapat susunan seperti berikut : LogFormat h l u t \r\ s b \ {Referer}i\ \{User-agent}i\ Dari format string log di atas tidak semua blok string diambil, hanya beberapa saja yang digunakan sesuai dengan kebutuhan penelitian ini maka yang digunakan sebagai bahan adalah: LogFormat h t \r\ s Pengambilan empat kelompok string di atas berdasarkan keperluan data yang akan diolah, yaitu: a h merupakan kelompok string yang menggambarkan host yang mengakses web server, adapun identitas yang dicatat adalah berupa alamat host atau IP Address. data ini sangat bermanfaat untuk mengetahui siapa yang mengakses halaman web. b t merupakan runtunan waktu time series yang dilakukan oleh tiap host dalam satu sesi log, data ini sangat bermanfaat untuk membentuk satu rangkaian graph per sekali log untuk tiap host. c r adalah sekumpulan string yang berisi metode transfer data POSTGET dan permintaan request halaman web oleh pengguna, data ini akan dijadikan sebagai bahan dasar untuk dijadikan node dalam rangkaian graph. d s adalah status yang dihasilkan oleh protokol HTTP Hyper Text Transfer Protocol mengenai berhasil tidaknya proses komunikasi antara peminta layanan client dan pemberi layanan web web server. Secara garis besar terdapat lima kelompok kode status HTTP, yaitu: 1 Kelompok 1xx Provisional response merupakan keolmpok kode status yang menyatakan status sementara ketika sedang terjadi proses permintaan 2 Kelompok 2xx successful Menyatakan bahwa permintaan bisa diterima oleh server. 15 3 Kelompok 3xx Redirected Menyatakan bahwa permintaan tidak error atau secara umum bisa diterima, akan tetapi lokasi yang dituju tidak ada atau sedang dialihkan. 4 Kelompok 4xx Request Error Permintaan yang diberikan tidak bisa diproses. 5 Kelompok 5xx Server Error Permintaan tidak bisa diproses karena server yang dituju sedang error. Berikut ini adalah daftar kode status HTTP secara detil yang diambil dari sumber http:support.google.comwebmasters dan http:hc.apache.org : Tabel 4. Jenis-Jenis status HTTP No Kode Deskripsi 1 100 Continue Mengindikasikan bagian permintaan pertama sudah diterima, dan menunggu untuk istirahat, dan client harus melanjutkan permintaannya. 2 101 Switching protocols client meminta untuk bertukar protolol dan server mengetahunya untuk merealisasikan. 3 200 Successful Server berhasil memroses permintaan dari client. 4 201 Created Server berhasil memroses permintaan dari client kemudian server membuat resource baru 5 202 Accepted Permintaan diterima oleh server tapi tidak dapat diproses. 6 203 Non-authoritative information Server berhasil diproses, akan tetapi iformasi yang diberikan berasal dari sumber atau server lain. 7 204 No content Permintaan berhasil diproses, akan tetapi server tidak memberikan hasil apa-apa. 8 205 Reset content Permintaan berhasil diproses, akan tetapi server tidak memberikan hasil apa-apa, perbedaan dengan 204, status 205 membutuhkan reset page oleh client, contoh membersihkan form input. 9 206 Partial content Server berhasil memroses sebagaian dari GET request. 10 300 Multiple choices Server memiliki beberapa cara untuk menyelelesaikan permintaan, Server bisa meilih sendiri atau memeberikan pilihan kepada client dalam meyelesaikan proses permintaannya. 11 301 Moved permanently Permintaan dari client dialihkan secara permanen ke sumber lain. 12 302 Moved temporarily Server merespon permintaan dengan mengalihkan ke sumber lain, akan tetapi untuk selanjutnya client harus melakukan permintaan ke lokasi aslinya. 13 303 See other location Memberikan respon bahwa seharusnya client melakukan GET request tersendiri ke lokasi lain untuk memperoleh informasi. 14 304 Not modified Halaman yang diminta belum dimodifikasi sejak permintaan terakhir, pada saat terjadi seperti ini server tidak memberikan hasil apa-apa, sangat berguna untuk mennghemat bandwith. 15 305 Use proxy Client harus menggunakan proxy agar bisa mengkases halaman yang 16 No Kode Deskripsi diminta. 16 307 Temporary redirect Server merespon permintaan dengan mengalihkan ke sumber lain, akan tetapi untuk selanjutnya client harus melakukan permintaan ke lokasi aslinya tapi untuk permintaan GET dan HEAD request akan otomatis dialhkan ke lokasi lain. 17 400 Bad request Server tidak memahapi perintah atau permintaan dari client. 18 401 Not authorized Permintaan yang diberikan membutuhkan otorisasi. 19 403 Forbidden Permintaan terkena blok refusing, biasanya berkaitan dengan hak akses folder web 20 404 Not found Server tidak menemukan halaman yang diminta. 21 405 Method not allowed The method specified in the request is not allowed. 22 406 Not acceptable The requested page cant respond with the content characteristics requested. 23 407 Proxy authentication required Mirip dengan 401, akan tetapi otentikasinya menggunakan proxy. 24 408 Request timeout Server kehabisan waktu tunggu untuk satu permintaan. 25 409 Conflict Server memiliki konflik ketika menyelesikan permintaan. 26 410 Gone Terjadi apabila resource yang diminta sudah dibuang secara permanen sama dengan 404 tapi terkadang 404 tidak akurat dalam melakukannya dan harus dipadukan dengan 301 untuk mengetahui lokasi barunya. 27 411 Length required Server tidak bisa menerima permintaan tanpa menyertakan panjang isi header fields. 28 412 Precondition failed Server tidak menemukan prakondisi yang disertakan pada saat melakukan permintaan. 29 413 Request entity too large Server tidak bisa memroses permintaan karena terlalu besar untuk diproses. 30 414 Requested URI is too long Pa jang url yang diminta terlalu panjang. 31 415 Unsupported media type Format permintaan tidak didukung oleh halaman yang diminta. 32 416 Requested range not satisfiable Rentang permintaan tidak tersedia di server. 33 417 Expectation failed Server tidak dapat menyetujui persyaratan Expect request-header. 34 500 Internal server error Server error dan tidak dapat melayani permintaan client. 35 501 Not implemented Server tidak memiliki fungsionalitas untuk menyelesaikan permintaan. 36 502 Bad gateway The server was acting as a gateway or proxy and received an invalid response from the upstream server. 37 503 Service unavailable Server tidak tersedia bisa dikarenakan overloaded atau down untuk perawatan. 38 504 Gateway timeout Server bertindak sebagai gateway atau proxy dan tidak menerima 17 No Kode Deskripsi permintaan tepat waktu dari server upstream. 39 505 HTTP version not supported Server tidak mendukung versi dari HTTP protocol yang digunakan oleh client. Adanya pembuangan sebagian string log dikarenakan adanya beberapa pertimbangan yaitu : 1. l log identification Merupakan identitas log pengguna, apabila host yang tidak punya id maka statusnya akan berisi string ­ atau kosong, sehingga apabila string ini dimasukan dalam penelitian, akan banyak host yang tidak terekam pada saat pembersihan data log. 2. b byte, Pada penelitian ini tidak memperhatikan ukuran data yang terjadi selama proses kunjungan web atau transaksi, semua dianggap sebagai satu proses. 3. {Referer}i Adalah identifikasi referensi url sebelumnya atau rujukan HTTP request header yang telah dirujuk atau diikutsertakan oleh client dalam penelitian ini tidak diperlukan karena tidak akan meneliti mengenai rute dari path. 4. {User-agent}i Identifikasi browser yang digunakan oleh pengguna, dalam penelitian ini yang akan diteliti adalah frekuensi akses terhadap halaman web tanpa memandang alat yang digunakan untuk mengakses website. Berikut ini contoh data log dengan format h t \r\ s yang diambil untuk beberapa host yang mengakses web server pada tanggal 02 Desember 2012: Tabel 5. Contoh format data log yang akan diteliti host h time t string request r status s 157.55.33.40 02Dec2012:04:10:10 GET newsdetailarsip_2.php? id=253awal=page=kunci= HTTP1.1 200 157.56.229.23 02Dec2012:04:08:39 GET newsdetailevent.php?id=76 HTTP1.1 200 173.199.114.83 02Dec2012:04:10:12 GET pugdetailperencanaan4.php HTTP1.1 200 173.199.116.235 02Dec2012:04:13:14 GET pugdetailperencanaan6.php HTTP1.1 200 173.199.118.35 02Dec2012:04:08:47 GET pugdetailperencanaan3.php HTTP1.1 200 173.199.120.43 02Dec2012:04:11:36 GET pugdetailperencanaan5.php HTTP1.1 200 173.44.37.226 02Dec2012:04:11:44 GET wapindex.php?option=componentid=3 HTTP1.1 200 173.44.37.226 02Dec2012:04:11:45 POST wapindex.php HTTP1.1 200 18 host h time t string request r status s 178.154.161.29 02Dec2012:04:11:03 GET pesantrenbsppaiData_dan_Informasijaringa n_irigasi_indonesiakalbar.htm HTTP1.1 200 178.162.191.58 02Dec2012:04:12:20 GET wapindex.php? option=componentid=3gbfrom=3895 HTTP1.1 200 180.76.5.143 02Dec2012:04:09:26 GET pesantrenditjenbunokmywebsub_bagian_ke rjasama.htm HTTP1.1 200 188.143.232.202 02Dec2012:04:08:57 GET wapindex.php?option=componentid=3 HTTP1.1 200 188.143.232.202 02Dec2012:04:08:58 POST wapindex.php HTTP1.1 200 208.115.113.87 02Dec2012:04:09:59 GET bpsdmstpp-manokwaritampil.php? page=prog_studi HTTP1.1 200 66.249.77.63 02Dec2012:04:08:48 GET newsdetailarsip.php?id=864 HTTP1.1 200 66.249.77.63 02Dec2012:04:09:29 GET bpsdmspp-kupangindex.php? option=com_easybookview=easybookItemi d=71limitstart=4450cal_offset=179p HTTP1.1 200 66.249.77.63 02Dec2012:04:09:31 GET index1.phppusdatinnewsimagesimagessms _center.jpg HTTP1.1 200

e. Integrasi database

Setelah semua data disiapkan dalam format csv, maka perlu ada sinkronisasi dengan database yang akan dirancang agar data log tersebut bisa dintegrasikan atau diimpor ke dalam database. Secara umum isi tabel dalam database meliputi tiga kelompok yaitu: 1. Kelompok tabel untuk menampung data mentah atau data awal 2. Kelompok tabel untuk menampung data yang sudah dibersihkan 3. Kelompok tabel untuk menampung data hasil pengolahan dengan teknik data mining Algoritme Apriori

3. Transformasi Data a. Struktur Data Pohon

Kolom data sebagai bahan awal pembentukan node adalah kolom request line. Dari data request tersebut bisa diambil beberapa informasi yang selanjutnya bisa dijadikan sebagai node dalam struktur data pohon. Adapun alasan kolom request yang diambil untuk pembentukan node adalah: a. Pada kolom tersebut berisi metode request POSTGET, file dan halaman web yang diakses. 19 b. Seluruh tipe data yang diakses atau diunduh akan dicatat tanpa terkecuali. Berikut ini contoh proses transformasi data log menjadi struktur data pohon dengan diawali dari data tabel 3.4: Tabel 6. Penguraian kolom string request host h time t Metode Request direktori file data GET Protokol status s 157.55.33.40 02Dec201 2:04:10:10 GET newsdetailarsip_2.php id=253awal=page= kunci= HTTP1.1 200 157.56.229.23 02Dec201 2:04:08:39 GET newsdetailevent.php id=76 HTTP1.1 200 173.199.114.83 02Dec201 2:04:10:12 GET pugdetailperencanaan4.php HTTP1.1 200 173.199.116.235 02Dec201 2:04:13:14 GET pugdetailperencanaan6.php HTTP1.1 200 173.199.118.35 02Dec201 2:04:08:47 GET pugdetailperencanaan3.php HTTP1.1 200 173.199.120.43 02Dec201 2:04:11:36 GET pugdetailperencanaan5.php HTTP1.1 200 173.44.37.226 02Dec201 2:04:11:44 GET wapindex.php option=componentid= 3 HTTP1.1 200 173.44.37.226 02Dec201 2:04:11:45 POST wapindex.php HTTP1.1 200 178.154.161.29 02Dec201 2:04:11:03 GET pesantrenbsppaiData_dan_ Informasijaringan_irigasi_in donesiakalbar.htm HTTP1.1 200 178.162.191.58 02Dec201 2:04:12:20 GET wapindex.php option=componentid= 3gbfrom=3895 HTTP1.1 200 180.76.5.143 02Dec201 2:04:09:26 GET pesantrenditjenbunokmywe b sub_bagian_kerjasama.htm HTTP1.1 200 188.143.232.202 02Dec201 2:04:08:57 GET wapindex.php option=componentid= 3 HTTP1.1 200 208.115.113.87 02Dec201 2:04:09:59 GET bpsdmstpp- manokwaritampil.php page=prog_studi HTTP1.1 200 66.249.77.63 02Dec201 2:04:08:48 GET newsdetailarsip.php id=864 HTTP1.1 200 66.249.77.63 02Dec201 2:04:09:29 GET bpsdmspp-kupangindex.php option=com_easybook view=easybookItemid =71limitstart=4450 cal_offset=179p HTTP1.1 200 66.249.77.63 02Dec201 2:04:09:31 GET index1.phppusdatinnewsi magesimagessms_center.jpg HTTP1.1 200 66.249.77.63 02Dec201 2:04:09:37 GET pugarsippengumuman.php awal=0page=1 HTTP1.1 200 66.249.77.63 02Dec201 2:04:09:39 GET bpsdmspp-kupangindex.php option=com_easybook view=easybookItemid =71limitstart=1330 cal_offset=227n HTTP1.1 200 66.249.77.63 02Dec201 2:04:12:05 GET keuangan- perlengkapangaleri.php halaman=17 HTTP1.1 200