Pengembang Website Peneliti bidang Web Mining

3 2. Pihak manajemen atau pengelola suatu instansi Data statistik mengenai konten web yang dihasilkan bisa dijadikan acuan dalam mengambil kebijakan untuk pengembangan konten website institusinya.

3. Peneliti bidang Web Mining

Bisa dijadikan bahan informasi tambahan bagi para peneliti tentang implementasi Algoritme Apriori dalam menganalisis keterhubungan antar halaman Website. Ruang Lingkup Penelitian dan Bahan Penelitian Berkaitan dengan rentang waktu pelaksanaan penelitian ini, maka perlu dibatasi ruang lingkup penelitiannya supaya lebih terarah, yaitu sebagai berikut: 1. Penelitian difokuskan pada satu area Web Mining yaitu Web Usage Mining WUM. 2. Aplikasi yang dikembangkan hanya untuk melakukan proses pre-processing dan pemodelan data untuk WUM menggunakan algoritme Apriori. 3. Bahan data yang akan diolah hanya untuk data clickstream dari Apache Web Server. 4. Hasil akhirnya berupa data statistik yang bisa dijadikan acuan dalam pengembangan isi dari Website 5. Menganalisis data offline yakni bukan menganalisis data realtime secara langsung. Data berasal dari file yang diambil dari file akses log access.log yang diambil dari Web Server Departemen Pertanian Indonesia Deptan. 6. Dalam pelaksanaannya penelitian ini akan menggunakan bahan dan alat sebagai berikut: a. Data dasar adalah file access.log b. Perangkat pengolah data menggunakan satu set sistem komputer dengan menggunakan Processor Intel Atom N4501.66Ghz c. Web Server yang digunakan adalah yang berbasis Open Source yaitu Apache Web Server d. Editor teks menggunakan Open Office, Blue Fish dan Geany e. Bahasa Pemrograman bebasis Web HTML, XML, JavaScript, AJAX, PHP dan CSS f. Data Base Management System DBMS menggunakan MySql 4 5 2 TINJAUAN PUSTAKA Data Clickstream Clickstream yaitu proses pencatatan atau perekaman data klik pada layar komputer yang dilakukan oleh pengguna pada saat browsing web atau menggunakan aplikasi perangkat lunak dengan lokasi analisis pada area halaman web atau aplikasi, login pada klien atau di dalam web server, router, atau server proxy Moe WW et al. 2004, atau Clickstream adalah serangkaian link yang sudah diklik oleh pengguna ketika mengakses halaman web freedictionary 2013. Data clickstream ini biasanya disimpan dalam sebuah file access.log yang berada di web server. Setiap pengguna melakukan proses klik terhadap menu yang ada di monitor dalam hal ini halaman web, maka Web server akan merekamnya dan disimpan dalam file access.log. Sehingga akan banyak informasi dan data yang tersiimpan di dalamnya dan bisa dianalisis menggunakan metode yang ada dalam data mining . Proses menganalisis data clickstream merupakan bagian dari Web Usage Mining WUM yang melakukan discovery data dengan menggunakan data sekunder yang ada pada web server, yaitu meliputi data access log, browser log, user profiles, registration data, user session, cookies, user queries dan juga data mouse click Abdurrahman et al. 2006. Web Mining Dengan adanya Website kita bisa menyampaikan informasi kepada khalayak ramai dengan mudah dan cepat tanpa batas wilayah, sehingga siapapun bisa mengasksesnya dengan bebas pula, kecuali yang menyertakan beberapa syarat akses. Sedangkan cara atau teknik data mining untuk mengekstrak data dari data Web dikenal dengan istilah Web Mining Srivastava 2005. Ada tiga kelompok yang termasuk ke dalam Web Mining, yaitu : 1. Web Content Mining WCM Merupakan kelompok Web Mining dengan melakukan proses ekstraksi menggunakan data yang berasal dari isi suatu dokumen Website J. Srivastava 2005. isi suatu dokumen web tersebut bisa berupa teks, gambar, audio, video dan data record dalam bentuk list dan tabel. Hasil dari penelitian bidang WCM biasanya berupa klasifikasi Website dan implementasi pada mesin pencarian seperti Google. 2. Web Structure Mining WSM Merupakan teknik dalam Web Mining dengan mengambil atau melakukan ekstraksi data yang berasal dari struktur halaman atau struktur dokumen sebuah Website Srivastava, 2005. Halaman dianggap sebagai node dan hyperlink dianggap sebagai edge, sehingga membentuk struktur data graph 6 G={V,E}, dengan G adalah graph, V adalah verteks dan E adalah edge. Penelitian bidang WSM sangat bermanfaat untuk mengetahui pola prilaku pengguna atau pengunjung suatu Website. 3. Web Usage Mining WUM Merupakan teknik analisis dan pencarian pola dalam clickstream dan keterhubungan data yang terkumpul atau terbentuk pada saat terjadi interaksi pengguna dengan sumber daya Website Mobaser 2007. Secara umum ada tiga tahapan proses yang dilakukan dalam WUM, yaitu: a. Pengumpulan data dan pra proses data collection and pre-processing Pada tahap ini data Clickstream dibersihkan dan dipecah ke dalam beberapa kumpulan data transaksi pengguna yang menggambarkan aktifitas pengguna ketika mengakses Website. Pada tahapan ini yang diperhatikan adalah sumber dan tipe data penggunaan data, isi data, struktur data dan pengguna data, tahapan pra proses pembersihan data, identifikasi pageview, identifikasi pengguna, sessionization, pelengkapan jalur atau path dan integrasi data b. Pemodelan data untuk WUM Untuk memudahkan dalam menentukan dan menganalisis pola maka perlu dilakukan proses pemodelan data yang sudah dibersihkan ke dalam bentuk yang lebih mudah dikerjakan dengan menggunakan teknik data mining, biasanya dimodelkan dalam bentuk matriks, yaitu matriks transaksi dan matriks pageview. c. Penemuan Pola pattern discovery dan Analisis Pola pattern analysis Pada tahap ini dilakukan pencarian dan analisis pola biasanya menggunakan perumusan analisis yang ada dalam ilmu statistik yang meliputi analisis session, analisis klaster, analisis assosiasi dan korelasi menggunakan algoritme Apriori. Adapun fungsi dari WUM dapat dijelaskan sebagai berikut Pramudiono 2004: 1. Personalisasi Melakukan personalisasi website sesuai dengan kebutuhan dan keinginan pengguna 2. Meningkatkan performa website WUM menyediakan fasilitas untuk mendeteksi kepuasan pengguna, analisis trafik data, transmisi jaringan serta distribusi data, sehingga apabila dianalisis dengan baik akan dihasilkan bahan rujukan untuk meningkatkan performa website menjadi lebih baik. 3. Modifikasi dan pengembangan situs Untuk mengembangkan website dibutuhkan data yang akurat mengenai kekurangan dan kelebihan suatu website, timbal balik informasi feed back yang diberikan oleh pengguna website sangat berguna dalam mengambil keputusan rancang ulang website. 4. Karakteristik penggunaan Menyediakan informasitentang prilaku interaksi pengguna website. 7 Analisis Keranjang Belanja Market Basket Analysis Fungsi association rules seringkali disebut dengan analisis keranjang belanja Market Basket Analysis yang digunakan untuk menemukan relasi atau korelasi diantara himpunan item­item. Analisis keranjang belanja adalah analisis dari kebiasaan membeli customer dengan mencari asosiasi dan korelasi antara item­item berbeda yang diletakan customer dalam keranjang belanjanya. Analisis keranjang belanja dapat digunakan secara efektif pada bidang Web Mining terutama untuk mengilustrasikan aturan assosiasi yang terdapat pada data log, misalnya terdapat aturan sebagai berikut: Halaman X and Halaman Y implies Halaman Z X and Y = Z, memiliki nilai confidence 90, hal ini berarti jika seirang pengguna atau pengunjung mengunjungi halaman A dan B maka terdapat kemungkinan 90 pengguna tersebut akan mengunjungi halaman Z, sehinnga perlu disediakan link langsung dari halaman A taau B ke C. Salahsatu algoritme yang umum digunakan dalam analisis keranjang belanja adalah Algoritme Apriori, yaitu algoritme analisis keranjang pasar yang digunakan untuk menghasilkan aturan asosiasi Goswami et al. 2010 dengan tujuan utama adalah untuk mencari maksimal frequent itemset didapatkan juga frequent itemset yang tidak maksimal. Istilah penting dalam Algoritme Apriori : a. Itemset adalah himpunan dari item­item dalam hal ini adalah halaman web yang terekam pada data log. Itemset I = {I 1, I 2 , I 3 ,... I n } b. Transaksi atau Kejadian N merupakan sekumpulan n transaksi N = {T 1, T 2 , T 3 ,... T n }; T N, T I. ∈ ⊆ c. Kaidah asosiasi adalah peluang bahwa item­item tertentu hadir bersama­ sama. X ­­ Y dimana X dan Y adalah itemset d. Support, suppX dari suatu itemset X adalah rasio dari jumlah transaksi dimana suatu itemset muncul dengan total jumlah transaksi. SuppX = TX TN ; TX adalah Transaksi atau kemunculan X, X I; ⊆ TN adalah jumlah total transaksi. e. Setiap itemset X diasosiasikan dengan himpunan transaksi TX ={T N | T ∈ ⊇ X} yang merupakan himpunan transaksi yang memuat itemset X. f. Confidence keyakinan adalah nilai probabilitas adanya itemset X pada suatu transaksi, maka juga ada itemset Y pada transaksi tersebut. ConfX → Y = Supp X ∪Y  Supp  X ; atau dalam terminologi peluang bersyarat C onfX → Y = PY|X = P X ∩Y  P X  ; 8 System Development Life Cycle SDLC Model Bahan dan data yang akan diolah dalam penelitian ini merupakan data teks yang berukuran besar dan ada kemungkinan banyak variasi untuk beberapa Web Server yang berbeda. Agar hasil penelitian ini bisa berkelanjutan maka perlu dikembangkan sebuah sistem yang terkomputerisasi untuk menggantikan pengolahan data manual ke dalam bentuk terkomputerisasi, sehingga sistem yang dikembangkan bisa berlaku untuk data yang berasal dari berbagai Web Server Apache yakni bukan hanya yang berasal dari Web Server Departemen Pertanian. Akan tetapi dalam pengembangannya Sistem ini menggunakan data sampel yang berasal dari data akses log Web Server departemen Pertanian Indonesia. Pengembangan sistem dilakukan dengan mengimplementasikan tahapan pengembangan perangkat lunak yaitu SDLC Model System Development Life Cycle. Adapun tahapannya terdapat 5 fase Satzinger et al 2007 yaitu: 1. Tahap Perencanan Project Plannnng Phase 2. Tahap Analisis Analysis Phase 3. Tahap Desain Design Phase 4. Tahap Implementasi Implementation Phase 5. Tahap DukunganPerawatan Support Phase Gambar 2.2 Tahapan pengembangan sistem 9 3 METODE PENELITIAN Bahan Penelitian Penelitian dilakukan dengan mengambil data sekunder Website Kementerian Pertanian Republik Indonesia atau Departemen Pertanian Republik Indonesia Deptan dengan menggunakan interval waktu log server selama dua bulan yaitu bulan November 2012 s.d. Desember 2012. Pemilihan data tersebut hanya sebagai sampel untuk dianalisis guna pengembangan perangkat lunak yang bisa mengolah data access log untuk periode kapan pun. Data clickstream disimpan oleh web server dalam berkas access.log dengan spesifikasi data seperti berikut: Tabel 1. Spesifikasi berkas bahan penelitian Identitas Keterangan Nama berkas access_log Jenis berkas Teks Sifat berkas Offline Jenis Web server Apache 2 Lokasi penyimpanan logapache2access_log Ukuran berkas 632,15 MB Alamat url http:www.deptan.go.id Alur penelitian Secara umum penelitian ini dilakukan dengan mengikuti tiga tahapan utama seperti yang tertera pada gambar 3.1 berikut Mobasher 2007: Gambar 1. Tahapan utama proses penelitan Gambar 3.1 hanya mememuat tahapan umum dalam metodologi penelitian ini, tahapan yang lebih khusus akan dijelaskan secara lebih rinci pada bagian­bagian selanjutnya dengan mengikuti tahapan rinci seperti tertera pada gambar 3.2 berikut ini yang merupakan penjabaran dari tahapan umum penelitian di atas: Pengumpulan data dan pra proses Data collection and pre-processing Pemodelan data untuk WUM Data Modeling for Web Usage Mining Penemuan dan Analisis Pola Pattern discovery and analysis 66.249.73.7 - - [04Nov2012:04:08:33 +0700] GET bpsdmspp-kupangindex.php HTTP1.1 200 37803 - Mozilla5.0 compatible; Googlebot2.1; 66.249.73.7 - - [04Nov2012:04:08:35 +0700] GET pengumumanLombaHPS30_bkpPANDUAN_LOMBA_POSTER.pdf HTTP1.1 200 97568 - DoCoMo2.0 N905ic100;TB;W24H16 10 Gambar 2. Tahapan rinci proses penelitan Berikut ini akan diuraikan dan dijelaskan tahapan yang ada pada gambar 2.

1. Memilih data Log

Server yang dianalsis adalah menggunakan Opensource Web Server yaitu Apache. Web Server Apache menyimpan semua data log dalam file access.log seperti contoh berikut: String log di atas mengikuti format log pada web server Apache http:httpd.apache.org dengan penjelasan sebagai berikut : Log sederhana : LogFormat h l u t \r\ s b Kombinasi Log : LogFormat h l u t \r\ s b \ {Referer}i\ \{User-agent}i\ 11 Tabel 2. Penjelasan format string log Web Server Apache No String Penjelasan Keterangan 1 h IP Address client atau remote host yang meminta layanan ke server host 2 l Merupakan proses identifikasi log user atau client log identification 3 u Merupakan userid dari seseorang yang meminta dokumen berdasarkan otentikasi HTTP userid 4 t Waktu ketika permintaan diterima oleh server time 5 \r\ Berisi sebaris permintaan yang ditulis oleh client, diapit dalam tanda petik dua request line 6 s Kode status yang diberikan oleh server kepada client status 7 b Ukuran data atau dokumen yang diberikan kepada client byte 8 \{Referer}i\ Rujukan HTTP request header yang telah dirujuk atau diikutsertakan oleh client referer identification 9 \{User-agent}i\ Identifikasi browser yang digunakan oleh client user agent identification 2. Pra Proses

a. Memecah data log

Data access log merupakan file teks yang berukuran sangat besar, apalagi jika Website yang dianalisis jumlah transaksinya cukup tinggi. Besarnya data teks tersebut menyebabkan waktu untuk membuka data sangat lama, bahkan ada beberapa teks editor yang tidak bisa membuka file access.log tersebut karena terlalu banyaknya baris yang akan dibaca. Sebagai bahan pembanding jumlah maksimum baris data yang bisa ditampung oleh openoffice spreadsheet dan Microsoft Excel adalah 1024x1024 = 1024 2 = 2 20 = 1048576 baris, sedangkan data log jumlah barisnya bisa melebihi 2 jutaan baris. Teknik pemecahan data ini tidak seperti memotong file terkompresi rar atau teknik spliter seperti HJSplit yang tidak melihat isi file tersebut yang penting file dipotong-potong dengan ukuran tertentu dan untuk membukanya harus disatukan terlebih dahulu. Teknik yang dilakukan disini adalah dengan cara membuka terlebih dahulu keseluruhan file teks dengan editor khusus, kemudian untuk beberapa baris tertentu dipotong cut dan dipindahkan ke file yang baru untuk disimpan, berikut ini gambaran prosesnya: Gambar 3. Ilustrasi Proses Pemecahan data log Baris 1 Baris 2 Baris 3 Baris 4 Baris 5 Baris 6 Baris 1 Baris 2 Baris 5 Baris 6 Baris 3 Baris 4 access.log access.log_1 access.log_2 access.log_3