3 2.
Pihak manajemen atau pengelola suatu instansi Data statistik mengenai konten web yang dihasilkan bisa dijadikan acuan
dalam mengambil kebijakan untuk pengembangan konten website institusinya.
3. Peneliti bidang Web Mining
Bisa dijadikan bahan informasi tambahan bagi para peneliti tentang implementasi Algoritme Apriori dalam menganalisis keterhubungan antar
halaman Website.
Ruang Lingkup Penelitian dan Bahan Penelitian Berkaitan dengan rentang waktu pelaksanaan penelitian ini, maka perlu
dibatasi ruang lingkup penelitiannya supaya lebih terarah, yaitu sebagai berikut: 1.
Penelitian difokuskan pada satu area Web Mining yaitu Web Usage Mining WUM.
2. Aplikasi yang dikembangkan hanya untuk melakukan proses pre-processing dan pemodelan data untuk WUM menggunakan algoritme Apriori.
3. Bahan data yang akan diolah hanya untuk data clickstream dari Apache Web Server.
4. Hasil akhirnya berupa data statistik yang bisa dijadikan acuan dalam pengembangan isi dari Website
5. Menganalisis data offline yakni bukan menganalisis data realtime secara langsung. Data berasal dari file yang diambil dari file akses log access.log
yang diambil dari Web Server Departemen Pertanian Indonesia Deptan. 6. Dalam pelaksanaannya penelitian ini akan menggunakan bahan dan alat
sebagai berikut: a.
Data dasar adalah file access.log b. Perangkat pengolah data menggunakan satu set sistem komputer dengan
menggunakan Processor Intel Atom N4501.66Ghz c. Web Server yang digunakan adalah yang berbasis Open Source yaitu
Apache Web Server d. Editor teks menggunakan Open Office, Blue Fish dan Geany
e. Bahasa Pemrograman bebasis Web HTML, XML, JavaScript, AJAX, PHP dan CSS
f. Data Base Management System DBMS menggunakan MySql
4
5
2 TINJAUAN PUSTAKA
Data Clickstream Clickstream
yaitu proses pencatatan atau perekaman data klik pada layar komputer yang dilakukan oleh pengguna pada saat browsing web atau
menggunakan aplikasi perangkat lunak dengan lokasi analisis pada area halaman web
atau aplikasi, login pada klien atau di dalam web server, router, atau server proxy
Moe WW et al. 2004, atau Clickstream adalah serangkaian link yang sudah diklik oleh pengguna ketika mengakses halaman web freedictionary 2013.
Data clickstream ini biasanya disimpan dalam sebuah file access.log yang berada di web server. Setiap pengguna melakukan proses klik terhadap menu yang ada di
monitor dalam hal ini halaman web, maka Web server akan merekamnya dan disimpan dalam file access.log. Sehingga akan banyak informasi dan data yang
tersiimpan di dalamnya dan bisa dianalisis menggunakan metode yang ada dalam data mining
. Proses menganalisis data clickstream merupakan bagian dari Web Usage Mining
WUM yang melakukan discovery data dengan menggunakan data sekunder yang ada pada web server, yaitu meliputi data access log, browser log,
user profiles, registration data, user session, cookies, user queries dan juga data
mouse click Abdurrahman et al. 2006.
Web Mining Dengan adanya Website kita bisa menyampaikan informasi kepada khalayak
ramai dengan mudah dan cepat tanpa batas wilayah, sehingga siapapun bisa mengasksesnya dengan bebas pula, kecuali yang menyertakan beberapa syarat
akses. Sedangkan cara atau teknik data mining untuk mengekstrak data dari data Web
dikenal dengan istilah Web Mining Srivastava 2005. Ada tiga kelompok yang termasuk ke dalam Web Mining, yaitu :
1. Web Content Mining WCM
Merupakan kelompok Web Mining dengan melakukan proses ekstraksi menggunakan data yang berasal dari isi suatu dokumen Website J. Srivastava
2005. isi suatu dokumen web tersebut bisa berupa teks, gambar, audio, video dan data record dalam bentuk list dan tabel. Hasil dari penelitian bidang
WCM biasanya berupa klasifikasi Website dan implementasi pada mesin pencarian seperti Google.
2. Web Structure Mining WSM
Merupakan teknik dalam Web Mining dengan mengambil atau melakukan ekstraksi data yang berasal dari struktur halaman atau struktur dokumen
sebuah Website Srivastava, 2005. Halaman dianggap sebagai node dan hyperlink
dianggap sebagai edge, sehingga membentuk struktur data graph
6 G={V,E}, dengan G adalah graph, V adalah verteks dan E adalah edge.
Penelitian bidang WSM sangat bermanfaat untuk mengetahui pola prilaku pengguna atau pengunjung suatu Website.
3. Web Usage Mining WUM
Merupakan teknik analisis dan pencarian pola dalam clickstream dan keterhubungan data yang terkumpul atau terbentuk pada saat terjadi interaksi
pengguna dengan sumber daya Website Mobaser 2007. Secara umum ada tiga tahapan proses yang dilakukan dalam WUM, yaitu:
a. Pengumpulan data dan pra proses data collection and pre-processing
Pada tahap ini data Clickstream dibersihkan dan dipecah ke dalam beberapa kumpulan data transaksi pengguna yang menggambarkan
aktifitas pengguna ketika mengakses Website. Pada tahapan ini yang diperhatikan adalah sumber dan tipe data penggunaan data, isi data,
struktur data dan pengguna data, tahapan pra proses pembersihan data, identifikasi pageview, identifikasi pengguna, sessionization, pelengkapan
jalur atau path dan integrasi data
b. Pemodelan data untuk WUM Untuk memudahkan dalam menentukan dan menganalisis pola maka perlu
dilakukan proses pemodelan data yang sudah dibersihkan ke dalam bentuk yang lebih mudah dikerjakan dengan menggunakan teknik data mining,
biasanya dimodelkan dalam bentuk matriks, yaitu matriks transaksi dan matriks pageview.
c. Penemuan Pola pattern discovery dan Analisis Pola pattern analysis Pada tahap ini dilakukan pencarian dan analisis pola biasanya
menggunakan perumusan analisis yang ada dalam ilmu statistik yang meliputi analisis session, analisis klaster, analisis assosiasi dan korelasi
menggunakan algoritme Apriori.
Adapun fungsi dari WUM dapat dijelaskan sebagai berikut Pramudiono 2004: 1. Personalisasi
Melakukan personalisasi website sesuai dengan kebutuhan dan keinginan pengguna
2. Meningkatkan performa website
WUM menyediakan fasilitas untuk mendeteksi kepuasan pengguna, analisis trafik data, transmisi jaringan serta distribusi data, sehingga apabila
dianalisis dengan baik akan dihasilkan bahan rujukan untuk meningkatkan performa website menjadi lebih baik.
3. Modifikasi dan pengembangan situs Untuk mengembangkan website dibutuhkan data yang akurat mengenai
kekurangan dan kelebihan suatu website, timbal balik informasi feed back yang diberikan oleh pengguna website sangat berguna dalam mengambil
keputusan rancang ulang website.
4. Karakteristik penggunaan Menyediakan informasitentang prilaku interaksi pengguna website.
7
Analisis Keranjang Belanja Market Basket Analysis Fungsi association rules seringkali disebut dengan analisis keranjang
belanja Market Basket Analysis yang digunakan untuk menemukan relasi atau korelasi diantara himpunan itemitem. Analisis keranjang belanja adalah analisis
dari kebiasaan membeli customer dengan mencari asosiasi dan korelasi antara itemitem berbeda yang diletakan customer dalam keranjang belanjanya. Analisis
keranjang belanja dapat digunakan secara efektif pada bidang Web Mining terutama untuk mengilustrasikan aturan assosiasi yang terdapat pada data log,
misalnya terdapat aturan sebagai berikut: Halaman X and Halaman Y implies Halaman Z X and Y = Z, memiliki nilai
confidence
90, hal ini berarti jika seirang pengguna atau pengunjung mengunjungi halaman A dan B maka terdapat kemungkinan 90 pengguna
tersebut akan mengunjungi halaman Z, sehinnga perlu disediakan link langsung dari halaman A taau B ke C. Salahsatu algoritme yang umum digunakan dalam
analisis keranjang belanja adalah Algoritme Apriori, yaitu algoritme analisis keranjang pasar yang digunakan untuk menghasilkan aturan asosiasi Goswami et
al. 2010
dengan tujuan utama adalah untuk mencari maksimal frequent itemset didapatkan juga frequent itemset yang tidak maksimal.
Istilah penting dalam Algoritme Apriori : a.
Itemset adalah himpunan dari itemitem dalam hal ini adalah halaman
web yang terekam pada data log. Itemset I = {I
1,
I
2
, I
3
,... I
n
} b.
Transaksi atau Kejadian N merupakan sekumpulan n transaksi N = {T
1,
T
2
, T
3
,... T
n
}; T N, T I.
∈ ⊆
c. Kaidah asosiasi adalah peluang bahwa itemitem tertentu hadir bersama
sama. X Y dimana X dan Y adalah itemset
d. Support, suppX
dari suatu itemset X adalah rasio dari jumlah transaksi dimana suatu itemset muncul dengan total jumlah transaksi.
SuppX =
TX TN
; TX adalah Transaksi atau kemunculan X, X I;
⊆ TN adalah jumlah total transaksi.
e. Setiap itemset X diasosiasikan dengan himpunan transaksi
TX ={T N | T ∈
⊇ X}
yang merupakan himpunan transaksi yang memuat itemset X. f.
Confidence keyakinan adalah nilai probabilitas adanya itemset X pada
suatu transaksi, maka juga ada itemset Y pada transaksi tersebut.
ConfX
→
Y = Supp X ∪Y
Supp X ;
atau dalam terminologi peluang bersyarat C
onfX → Y = PY|X =
P X ∩Y P X
;
8 System Development Life Cycle SDLC Model
Bahan dan data yang akan diolah dalam penelitian ini merupakan data teks yang berukuran besar dan ada kemungkinan banyak variasi untuk beberapa Web
Server yang berbeda. Agar hasil penelitian ini bisa berkelanjutan maka perlu
dikembangkan sebuah sistem yang terkomputerisasi untuk menggantikan pengolahan data manual ke dalam bentuk terkomputerisasi, sehingga sistem yang
dikembangkan bisa berlaku untuk data yang berasal dari berbagai Web Server Apache yakni bukan hanya yang berasal dari Web Server Departemen Pertanian.
Akan tetapi dalam pengembangannya Sistem ini menggunakan data sampel yang berasal dari data akses log Web Server departemen Pertanian Indonesia.
Pengembangan sistem dilakukan dengan mengimplementasikan tahapan pengembangan perangkat lunak yaitu SDLC Model System Development Life
Cycle. Adapun tahapannya terdapat 5 fase Satzinger et al 2007 yaitu:
1. Tahap Perencanan Project Plannnng Phase
2. Tahap Analisis Analysis Phase
3. Tahap Desain Design Phase
4. Tahap Implementasi Implementation Phase
5. Tahap DukunganPerawatan Support Phase
Gambar 2.2 Tahapan pengembangan sistem
9
3 METODE PENELITIAN
Bahan Penelitian Penelitian dilakukan dengan mengambil data sekunder Website Kementerian
Pertanian Republik Indonesia atau Departemen Pertanian Republik Indonesia Deptan dengan menggunakan interval waktu log server selama dua bulan yaitu
bulan November 2012 s.d. Desember 2012. Pemilihan data tersebut hanya sebagai sampel untuk dianalisis guna pengembangan perangkat lunak yang bisa mengolah
data access log untuk periode kapan pun.
Data clickstream disimpan oleh web server dalam berkas access.log dengan spesifikasi data seperti berikut:
Tabel 1. Spesifikasi berkas bahan penelitian
Identitas Keterangan
Nama berkas access_log
Jenis berkas Teks
Sifat berkas Offline
Jenis Web server Apache 2
Lokasi penyimpanan logapache2access_log
Ukuran berkas 632,15 MB
Alamat url http:www.deptan.go.id
Alur penelitian Secara umum penelitian ini dilakukan dengan mengikuti tiga tahapan utama
seperti yang tertera pada gambar 3.1 berikut Mobasher 2007:
Gambar 1. Tahapan utama proses penelitan Gambar 3.1 hanya mememuat tahapan umum dalam metodologi penelitian ini,
tahapan yang lebih khusus akan dijelaskan secara lebih rinci pada bagianbagian selanjutnya dengan mengikuti tahapan rinci seperti tertera pada gambar 3.2
berikut ini yang merupakan penjabaran dari tahapan umum penelitian di atas:
Pengumpulan data dan pra proses Data collection and pre-processing
Pemodelan data untuk WUM Data Modeling for Web Usage Mining
Penemuan dan Analisis Pola Pattern discovery and analysis
66.249.73.7 - - [04Nov2012:04:08:33 +0700] GET bpsdmspp-kupangindex.php HTTP1.1 200 37803 - Mozilla5.0 compatible; Googlebot2.1;
66.249.73.7 - - [04Nov2012:04:08:35 +0700] GET pengumumanLombaHPS30_bkpPANDUAN_LOMBA_POSTER.pdf HTTP1.1
200 97568 - DoCoMo2.0 N905ic100;TB;W24H16
10
Gambar 2. Tahapan rinci proses penelitan Berikut ini akan diuraikan dan dijelaskan tahapan yang ada pada gambar 2.
1. Memilih data Log
Server yang dianalsis adalah menggunakan Opensource Web Server yaitu Apache. Web Server Apache menyimpan semua data log dalam file access.log
seperti contoh berikut:
String log di atas mengikuti format log pada web server Apache http:httpd.apache.org dengan penjelasan sebagai berikut :
Log sederhana :
LogFormat h l u t \r\ s b
Kombinasi Log :
LogFormat h l u t \r\ s b \ {Referer}i\ \{User-agent}i\
11 Tabel 2. Penjelasan format string log Web Server Apache
No String Penjelasan
Keterangan
1 h
IP Address client atau remote host yang meminta layanan ke server
host 2
l Merupakan proses identifikasi log user atau client
log identification 3
u Merupakan userid dari seseorang yang meminta
dokumen berdasarkan otentikasi HTTP userid
4 t
Waktu ketika permintaan diterima oleh server time
5 \r\
Berisi sebaris permintaan yang ditulis oleh client, diapit dalam tanda petik dua
request line 6
s Kode status yang diberikan oleh server kepada client
status 7
b Ukuran data atau dokumen yang diberikan kepada client
byte 8
\{Referer}i\ Rujukan HTTP request header yang telah dirujuk atau
diikutsertakan oleh client referer identification
9 \{User-agent}i\ Identifikasi browser yang digunakan oleh client
user agent identification
2. Pra Proses
a. Memecah data log
Data access log merupakan file teks yang berukuran sangat besar, apalagi jika Website yang dianalisis jumlah transaksinya cukup tinggi. Besarnya data teks
tersebut menyebabkan waktu untuk membuka data sangat lama, bahkan ada beberapa teks editor yang tidak bisa membuka file access.log tersebut karena
terlalu banyaknya baris yang akan dibaca. Sebagai bahan pembanding jumlah maksimum baris data yang bisa ditampung oleh openoffice spreadsheet dan
Microsoft Excel adalah 1024x1024 = 1024
2
= 2
20
= 1048576 baris, sedangkan data log jumlah barisnya bisa melebihi 2 jutaan baris. Teknik pemecahan data ini
tidak seperti memotong file terkompresi rar atau teknik spliter seperti HJSplit yang tidak melihat isi file tersebut yang penting file dipotong-potong dengan
ukuran tertentu dan untuk membukanya harus disatukan terlebih dahulu. Teknik yang dilakukan disini adalah dengan cara membuka terlebih dahulu keseluruhan
file teks dengan editor khusus, kemudian untuk beberapa baris tertentu dipotong cut dan dipindahkan ke file yang baru untuk disimpan, berikut ini gambaran
prosesnya:
Gambar 3. Ilustrasi Proses Pemecahan data log
Baris 1 Baris 2
Baris 3 Baris 4
Baris 5 Baris 6
Baris 1 Baris 2
Baris 5 Baris 6
Baris 3 Baris 4
access.log access.log_1
access.log_2 access.log_3