Keywords— Adaptive web, Data Log, FWDP Algorithm, Association Rule, Realtime
Vol . VII Nomor 20 Juli 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
WEB ADAPTIF MENGGUNAKAN ALGORITMA FREQUENT
WEB DOCUMENT PATTERN (FWDP)
PADA WEBSITE UNIVERSITAS RESPATI
Indra Listiawan
Universitas Respati Yogyakarta; Jl. Laksda Adisucipto Km. 6,3 Depok Sleman Yogyakarta, 3 telp/fax (0274)489780 Jurusan Ilmu Komputer dan Elektronika, FMIPA UGM, Yogyakarta e-mail: [email protected]
Abstract
An Institution Website is a profile of an institution for the people who directly or indirectly related to the agency. Some problems related to the performance of a web are the speed and accuracy of presentation of the information needed by the community.
Technology of adaptive Website is one of technology that attempted to simplify the user to find the information that need from a website. The technology is based on web log. Log is used as a reference for the access patterns are realized in the form of recommendations links to information that is often accessed by people from the website.
Log data processing performed by implemented the FWDPTree algorithm to get a particular tree structure that stores information page along with the frequency of occurrence, then performed datamining by algorithm FWDP-mine.
This Technology has been able to reach information more quickly There are still weaknesses in this system. The adaptive system has not been able to make the process of adaptation in realtime, this is due to the need for time to process large log data in order to obtain the user's access patterns, while the session that occurred during the offline process does not processed.
Keywords — Adaptive web, Data Log, FWDP Algorithm, Association Rule, Realtime
1. PENDAHULUAN
Pengguna website mengunjungi web dengan berbagai maksud antara lain searching halaman web, mengakses halaman web dan mengakses bookmark. Dalam beberapa kasus, halaman pertama yang ditampilkan browser ada yang menyajikan infomasi yang dibutuhkan oleh pengguna, akan tetapi pada kasus lain pengguna memperoleh informasi tersebut setelah melalui beberapa halaman web lainnya. Bila jalur antara lokasi pengguna saat ini dengan situs tujuan akhirnya merupakan path yang dalam, maka pengguna akan merasa sulit untuk mencapainya. Website dengan kompleksitas tinggi akan membuat pengguna berusaha langsung menuju halaman web yang diinginkan. Semakin banyak informasi yang dikandung sebuah website, semakin sulit bagi pengguna untuk menemukan informasi yang dicari.. Permasalahannya apakah ada teknologi yang membuat web dapat merekomendasikan link-link langsung menuju informasi yang dibutuhkan secara adaptif ?
Vol . VII Nomor 19Maret 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
1.1. Adaptasi website dan rekomendasi
Website dibuat dengan proses yang kompleks dan teliti. Hal ini dilakukan agar mendapat
hasil yang memuaskan. Konsekuensinya adalah perubahan offline dalam struktur dan konten tidak dilakukan setiap hari. Bagaimanapun terkait dengan dinamisme dari web dan e-commerce ada, maka beberapa perubahan periodik yang diterapkan dalam website biasanya sebulan sekali. Perubahan ini harus direncanakan dengan matang dan tidak menimbulkan resiko. Perubahan yang terjadi dapat memperlihatkan hubungan website terhadap adaptasi struktur dan konten. Pada bagian adaptasi struktur, antara lain penambahan dan pengurangan link sedangkan pada bagian konten terutama modifikasi text, variasi terhadap objek seperti warna, gambar. Oleh karena ada resiko bila dilakukan penerapan langsung secara otomatis, maka jalan terbaik adalah menyarankan (rekomendasi) kepada pengguna. Rekomendasi dapat dikelompokkan dalam dua kategori : Online dan Offline. Perubahan offline ditujukan pada web master yaitu pengelola website. Hal ini dilakukan pada penambahan dan pengurangan link dan perubahan dalam konten web.
Salah satu publikasi Perkowitz dkk.(1997) menyampaikan tantangan kepada komunitas
Artificial Intelligent
untuk membangun website adaptif, yang mempelajari pola akses pengguna dari log. Hal ini dilakukan agar web dapat secara otomatis memperbaiki organisasi dan tampilannya. Penelitiannya menyampaikan beberapa adaptasi global yang mempengaruhi tampilan dari website. Salah satu adaptasi dari yang diusulkan adalah “index page synthesis” , yang menjelaskan bahwa pada halaman web dibuat sekumpulan link yang menghubungkan satu halaman ke halaman lain.
Pengembangan lainnya adalah aplikasi WebWatcher (Joachims,1997) yang menggunakan model pengguna untuk memperkirakan link apa yang akan diikuti pengguna dari suatu halaman web. Sebelum memasuki website , pengguna ditanya tentang apa yang mereka inginkan. Ketika pengguna meninggalkan situs, mereka ditanya apakah menemukan informasi yang dicari? Jawaban pengguna dan urutan halaman yang dikunjungi, digunakan untuk memperbaiki model yang dirumuskan.
Velasquez (2002), mengungkapkan bahwa Self Organizing Feature Map dapat digunakan untuk mengekstrak kluster perilaku browsing pengguna dan preferensinya. Pengukuran sederhana digunakan dengan mengkombinasikan halaman yang dikunjungi secara berurutan, konten tulisan dan waktu yang digunakan setiap kunjungan dalam satu sesi. Beberapa proses dilakukan dengan menggunakan kluster seperti proses indentifikasi dan merekomendasi navigasi online kepada pengguna.
Penelitian yang dilakukan oleh Mobasher (1999) menggunakan algoritma kluster pada
web log yang mencatat data dari situs-situs tertentu. Algoritma ini mengekstrak preferensi
pengguna yang sama dengan mendeteksi kluster URL dengan motif pengguna situs. Pendekatan
Vol . VII Nomor 20 Juli 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
ini memungkinkan untuk mempersiapkan rekomendasi seperti link yang berguna bagi pengguna dan memodifikasi struktur website Perkowitz dkk(1998) mengusulkan algoritma ‘PageGather yang menggunakan metode
cluster
. Algoritma ini menggunakan cluster file web log sebagai input. Sebagai hasil dari algoritma ini dihasilkan kandidat index-isi halaman. Algoritma PageGather memberi kontribusi banyak pada pengembangan studi website adaptif. Algoritma ini menjelaskan tentang bagaimana menganalisa pola akses pengguna dan mengusulkan ide pemisahan webpage secara otomatis menggunakan index halaman. Akan tetapi algoritma ini tidak mengijinkan infrastruktur hyperlink, sehingga situs yang tidak bermakna bagi pengguna tetapi mempunyai hits yang tinggi dimasukkan kedalam proses mining.
Pendekatan lain untuk mengembangkan web adaptif adalah dengan mengimplementasi fasilitas, yang membantu pengguna menemukan informasi pada situs tertentu. Contohnya adalah aplikasi agen yang mengadaptasi perilaku pengguna untuk merespon aksi pengguna secara individual (Pazzani, 1999). Tujuan agen adalah memberikan rekomendasi tentang halaman terkait kepada pengguna.
Dalam penelitiannya Fu dkk. (2002) mengembangkan website adaptif menggunakan pendekatan reorganisasi website berdasarkan pola akses pengguna. Web adaptif dihasilkan melalui perubahan struktur site untuk memfasilitasi akses pengguna. Pendekatan ini terdiri atas 3 langkah : preprocessing , klasifikasi dan reorganisasi site. Pada phase klasifikasi halaman , halaman dibagi dalam dua kategori halaman index yang digunakan sebagai navigasi pengguna dan halaman isi yang berisi informasi yang dibutuhkan pengguna. Dengan adanya algoritma klasifikasi halaman maka dapat digunakan sebagai kunci atau acuan pada saat reorganisasi site. Kelemahan pada penelitian ini adanya asumsi bahwa setiap tampilan halaman merupakan representasi halaman itu sendiri jadi website yang mengandung frame tidak berlaku dalam penelitian ini.
Perkowitz (2001) mengusulkan algoritma sederhana disebut Perkowitz shorcut untuk memilih shortcut. Perkowitzshorcut secara periodik dijalankan untuk memperbaharui semua
shortcut pada website. Semua shortcut akan berada ditempat sampai waktu perubahan dilakukan.
Untuk setiap halaman p , algoritma akan menghitung berapa kali halaman lain diakses setelah halaman p pada path yang sama dan kemudian ditambahkan shortcut pada halaman p yang merujuk ke halaman N yang paling sering diakses setelah halaman p. PerkowitzShortcut 2 sederhana dan intuitif; walaupun itu membutuhkan memory sebesar n sehingga menjadi mahal. Oleh karena shortcut diperbaharui secara offline dan tidak ada informasi yang disimpan dari waktu sebelumnya, maka saat proses update dijalankan bisa jadi ada session yang terjadi. Bila proses
update terlalu sering dilakukan maka akan ada kekurangan waktu untuk membuat halaman web
menjadi stabil.Penelitian lainnya mengembangkan metode pattern-growth yang efisien dan baru untuk data mining berbagai pola frekuen dari database yang besar (Pei, 2002). Metode Patern-
Vol . VII Nomor 19Maret 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
Growth diadopsi melalui pendekatan divide-and-conquer untuk mendekomposisi database dan
pekerjaan-pekerjaan datamining. Kemudian digunakan metode pertumbuhan fragmen yang berpola untuk menghindari proses tes dan pembangkitan kandidat yang memakan biaya. Lebih dari itu, data struktur yang efektif diusulkan untuk menekankan informasi yang krusial tentang pola frekuen dan menghindari biaya tinggi seperti perulangan pemindaian database. Studi menunjukkan bahwa metode pattern –growth, FP-Growth dan H-mine efisien dan mempunyai skalabilitas. Walaupun demikian masih terdapat problem pada banyak proses rekursi yang dilakukan pada database sehingga membutuhkan lebih banyak tempat penyimpanan.
Personalisasi sistem berdasarkan analisis perilaku navigasi pengguna menyiratkan tiga fase yaitu pengumpulan data, penemuan pola dan rekomendasi (Mican dkk, 2003). Karena dimensi file log dan waktu proses yang lama, fase yang pertama dicapai secara
offline
, dalam proses batch. Dalam penelitian ini diusulkan Wise Recommender System (WRS), sebagai arsitektur untuk aplikasi web adaptif. Dalam framework, pemakaian data secara implisit terpenuhi melalui submodul pengumpulan data. Proses penemuan pola, menggunakan association
rule mining antara kedua item yang sering diakses dan yang jarang. Hal ini disebabkan oleh fakta
bahwa modul penemuan polatransaksi memproses sesi pengguna dan menggunakan aturan media penyimpan yang dapat bertambah . penelitian ini menunjukkan bahwa (WRS) dapat dengan mudah diimplementasikan dalam aplikasi web.
Penelitiannya Jun dkk(2008) mengusulkan algoritma yang dapat mengekstrak pola akses pengguna, yaitu Algoritma Frequent Web Document Pattern(FWDP). Algoritma ini mengubah data mentah yaitu web log menjadi struktur data yang lebih sesuai yang kemudian dengan menggunakan algoritma FWDP-mine dilakukan penambangan data terhadap struktur data yang berbentuk FWDPTree.
Kelebihan algoritma ini adalah tidak membaca database berulang-ulang dan tidak membangkitkan kandidat, sebelum dapat menambang panjang maksimum dari pola. Pola frequent yang ditambang adalah satu set dokumen web yang saling terkait dan mejadi daftar halaman yang direkomendasikan.
1.2. Algoritma Frequent Web Document Pattern
Algoritma Frequent Web Document Pattern dikembangkan oleh Jun (2008) yang merupakan modifikasi algoritma Frequent Pattern (Pei, 2002). Algoritma ini digunakan untuk mendapatkan pola akses web pengguna. Frequent Document Web Pattern terdiri atas dua algoritma yaitu algoritma untuk membuat struktur tree (FWDP tree) dan algoritma untuk melakukan mining terhadap FWDP tree (FWDP mine). Perubahan yang dilakukan adalah pada struktur tree. Struktur FWDP tree membatasi percabangan maksimal 2 seperti pada binary tree, sehingga apabila ada data dengan transaksi baru maka akan disimpan sebagai node siblink dari current node. Gambar 1 memperlihatkan algoritma FWDPTree
Vol . VII Nomor 20 Juli 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
input : Table transaksi Trans dan batas support minimum SUPmin Output: FWDP-tree langkah 1 : baca database sekali, ambil F yaitu himpunan dokumen yang sering muncul. Urutkan F sesuai support secara dari besar kekecil sebagai Flist. Buat Arraynya (Farray) langkah 2: Buatlah header H sebagai penyimpan H terdiri atas H name, H first dan H last. H first adalah node link pertama dan H last node link terakhir. Isi Hfirst sesuai dengan isi Flist.Tetapkan ROOT misal T langkah 3 Untuk setiap transaksi pada trans masukkan dokumen yang sering muncul sesuai batas support minimum dalam P sehingga [p|P] dimana p elemen dari P. jalankan fungsi insert_tree ntuk setiap anggota P For each p do { insert_tree(p,T) }} Function insert_tree(p,T) { bila T punya child N sehingga N.nama_dokumen=p.nama_dokmen maka tambah count dengan 1 bila tidak { buat node baru newNode. masukkan newNode sebagai kanan terakhir anak dari root. setelah itu maka newNode menjadi anak sebelah kiri dari parent. beri nilai count=1 tetapkan Child-link=null tetapkan parent-link=parent node }
Gambar 1. Algoritma FWDPTree Proses mining dengan menerapkan association rule digunakan untuk mendapatkan pola akses.
Proses mining dilakukan terhadap struktur FWDP tree. Pola akses adalah halaman-halaman web yang saling terkait. Gambar 2. memperlihatkan algoritma FWDP mine.
procedure FWDP-mine() { for each a i do { /*Flist =a 1 ,a 2 ...*/ Pattern P={} /*dimana P={(x 1 ,s 1 ),(x 2 ,s
2 )...(x n ,s n )}, x nama
node dan s supportnya*/ for all the path of a i do { sup(a i ) support a i pada path ptr = parent node dari a i for all each node from ptr to root do { if (ptr = ptr.parent-link.child-link) then {create pattern node(x ,s )
ptr ptr if (node(x ,s ) = node(x,s) in P)ptr ptr
then s += sptr
else insert node(x ptr ,s ptr ) in P
} ptr = ptr.parent-link } }
}
Gambar 2 Algoritma FWDP mine
2. METODE PENELITIAN
Sistem web adaptif adalah sistem yang yang dapat merekomendasikan struktur halaman web, yang menyesuaikan pola akses pengguna. Data yang membentuk pola akses pengguna diekstrak dari file log webserver. Manfaat dari sistem web adaptif adalah untuk memberi rekomendasi kepada pengguna mengakses halaman web yang biasa diakses. Sistem ini dibangun
Vol . VII Nomor 19Maret 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
menggunakan frequent web document pattern mining. Deskripsi sistem, analisis data, pembuatan FWDP tree, proses data mining dijelaskan dibawah ini.
2.1. Deskripsi Sistem
Sistem web adaptif terdiri atas tiga proses yaitu proses preprosesing data, proses pembentukan FWDP tree, proses data mining. Preprosesing data adalah proses mengekstrak data dari file log web server sampai persiapan struktur data untuk proses FWDP tree. Pembentukan FWDP tree bertujuan agar data dapat disimpan dalam bentuk yang lebih kompak (rapat). Proses data mining dilakukan terhadap struktur FWDP tree, sehingga dihasilkan pola akses user. Proses- proses dalam sistem diperlihatkan dalam Gambar 3
Sistem web adaptif melakukan pembersihan dan pemilihan data dari file log. Sistem akan melakukan proses pembentukan FWD tree dan proses terakhir adalah data mining. Proses pembentukan FWDP tree berdasarkan frekuensi halaman web yang diakses pengguna dan nilai support minimal. FWDP tree dibentuk melalui algoritma FWDP tree. Proses data mining dilakukan menggunakan assosiciation rule yang menghasilkan struktur web yang direkomendasikan.
Sistem Web Adaptive
File Log Preproces sing Data FWDPTreRekomendasi Struktur web Data Mining
Gambar 3. Sistem Web Adaptif
2.2. Preprocessing Data Analisa data
Data awal berupa file log yang tersimpan di server Universitas Respati Yogyakarta yang diambil sebagai sample data tercatat dengan kurun waktu 1 bulan yakni tanggal 11 Maret 2012 sampai 8 April 2012. Gambar 4. menampilkan contoh file log web server setelah dibersihkan. Susunan datanya adalah : clientAddress, Identity, authuser, Time, Request, status, bytes, referer, User-Agent. Tabel 1. berisi keterangan dari masing-masing bagian data file log web server.
Vol . VII Nomor 20 Juli 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
Tabel 1. Keterangan komponen file log web server Data ip address dan waktu digunakan untuk menentukan sesi dengan batasan 1 sesi 30 menit (Velasquez, 2008).
Komposisi data yang akan diambil dari filelog tersebut adalah data Ipaddress, httpRequest dan waktu . Oleh karena data pada httpRequest belum bersih dari data yang dibutuhkan, masih terdapat ekstensi file gambar (jpg dan pnp), rss, pdf, txt maka harus dilakukan pembersihan terlebih dahulu. Pembersihan ini perlu dilakukan agar file log yang mengandung ekstensi file yang bukan merupakan halaman web tidak terikut dalam proses pemotongan dan penyimpanan dalam table dtlog.
Proses pertama adalah pembersihan dari file log yang mencatat akses file –file tertentu yang tidak dibutuhkan seperti : jpg, bmp, pdf, txt, css. Isi file yang telah dibersihkan dapat dilihat pada pada Gambar 4. sudah tidak tampak data dengan ekstensi .txt maupun .css Pembersihan dan pemotongan isi file log web server menggunakan ekspresi regular dari Perl. Data yang telah dibersihkan disimpan didalam tabel dtlog.
IP address adalah alamat Ip pengguna Identity adalah informasi identitas pengguna.
Authuser adalah fasilitas yang digunakan pada saat fasilitas SSL (Security Socket Layer) diaktifkan. Pengguna bisa menggunakan fasilitas ini untuk mengirim atau menerima informasi yang bersifat rahasia. Time adalah tanggal dan waktu pada saat web di minta oleh web browser ke internet. Request adalah objek yang diminta oleh browser.
Status adalah nilai integer yang menunjukkan status permintaan .
Bytes adalah jumlah bytes yang dikembalikan dalam proses permntaan. Referrer adalah string text yang dikirim oleh pengguna yang menunjukkan sumber resmi dari permintaan atau link.
User-Agent adalah nama dan versi dari software pengguna yang digunakan untuk mengirimkan permintaan
Vol . VII Nomor 19Maret 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
Gambar 4. Contoh isi file log web server setelah dibersihkan
Tahapan pengelompokan transaksi data berdasarkan sesi dan Remove Backtrack
File yang telah melalui proses pembersihan kemudian dikelompokkan berdasarkan transaksi dan sesi. Sesi menentukan frekuensi akses sebuah halaman web. Satu sesi (transaksi) dibatasi maksimal 30 menit. Bila pengguna mengakses dokumen web dengan alamat yang sama lebih dari 30 menit maka terekam data 2 transaksi dengan alamat url yang sama.
Penggunaan class Preprocessor dilakukan untuk membaca data dari tabel dtlog lalu menyimpan data-data tertentu dalam tabel tranurl,tranip dan url juga mengelompokkan data sesuai dengan sesi (waktu transaksi) yang sama. Data yang telah dikelompokkan akan menjalani proses remove backtrack untuk mendapatkan url yang berarti. Proses remove backtrack menyerupai proses palindrom hanya saja untuk beberapa url yang sama dan berurutan akan direduksi menjadi satu url. Proses ini dapat diperlihatkan seperti Gambar 5. yang menampilkan
tree akses halaman web dan terjadi dalam satu transaksi: Root A F
C B G J
Gambar 5. Tree akses halaman web
A, B, C, G, J, F adalah url, sedangkan Root adalah /home dari sebuah web. Pada path
pertama yaitu root-A-B-A-root akan dihasilkan url B, pada path kedua yaitu root-C-G-J-G-C-root akan dihasilkan url J demikian pula pada path yang ketiga akan dihasilkan : F, sehingga pada satu
Vol . VII Nomor 20 Juli 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
Urutan Transaksi
Penyaringan dan Urutan Transaksi sesuai frekuensi 100 BJF FB 600 AFGI FAI
Awal Hasil
Urutan Transaksi
ID Transaksi
Penyaringan dan Urutan Transaksi sesuai frekuensi
Awal Hasil
ID Transaksi
sesi ini akan dihasilkan untaian url B-J-F. Proses remove backtrack dilakukan dengan menggunakan class PalindromTree dan Preprocessor. Proses berikutnya adalah menyimpan data dalam di tabel burl. Tabel 2 menunjukkan transaksi data yang mengalami proses remove
Proses 100 ABACGJGCF BJF 200 ABEBADH EDH 300 ACGJGI ACJI 400 HDABACCCF HDBCF 500 EBACGHGI EBACHI 600 ACFCGI AFGI 700 DABEBACF DECF 800 ABEBACF ECF 900 ADHDACGJ HCGJ
Data Transaksi Awal Data Transaksi setelah
ID Transaksi
Tabel. 3. Tabel hasil pengurutan berdasarkan frekuensi dan penyaringan berdasarkan suport
Data yang telah disimpan didalam tabel burl dipilih berdasarkan support minimal yang ditentukan yaitu 3 dan diurutkan descending berdasarkan frekuensi diakses tiap url. Tabel 3. memberikan gambaran hasil pengurutan dan filter data:
Tabel 2. Transaksi data yang mengalami proses remove backtrack.
backtrack .
200 EDH EHD 700 DECF CFED 300 ACJI CAI 800 ECF CFED 400 HDBCF CFHBD 900 HCGJ CH 500 EBACHI CEHABI
Vol . VII Nomor 19Maret 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
Data yang telah dikelompokkan sesuai sesinya kemudian dipisah-pisahkan sesuai data yang diperlukan seperti data Ipaddress, halaman web dan waktu. Kemudian data-data tersebut disimpan dalam tabel.
2.2. Pembuatan FWDPTree
FWDPTree membentuk tree yang terdiri dari node, parent, child, siblink dan link untuk header. Header berisi susunan perwakilan tiap node dari masing-masing path transaksi. Setiap node dalam FWDTree telah memenuhi support minimal. Bentuk tree ini dibuat sedemikian rupa sehingga data transaksi yang memiliki kesamaan awalan(prefiks) tidak akan ditulis ulang melainkan dinaikkan perhitungan jumlah frekuensi (jumlah diakses).
Proses pembentukan tree adalah sebagai berikut. Setelah proses prepocessing dengan penyimpanan data terakhir pada tabel Burl kemudian tabel Burl dibaca pertransaksi dan disimpan dalam Arraylist Nodes. Pembentukan tree dilakukan dengan pembacaan pada data ArrayList
Nodes per transaksi sebagai node satu persatu sesuai dengan urutan transaksi (tranid) dan
frekuensi (dilakukan pengurutan berdasarkan frekuensi diakses). Pembentukan tree dimulai dengan menentukan node sebagai anak (child) dari ROOT yang kemudian ditetapkan sebagai
current node .
Pada transaksi berikutnya dibentuk siblink node yaitu node yang setingkat dengan child
node apabila transaksi yang dibaca berbeda dan belum terdapat siblink, proses dilanjutkan dengan
penentuan curent pada node yang baru di bentuk. Pada pembacaan data berikutnya apabila node yang dibaca memiliki transaksi yang sama dengan current maka akan dijadikan child dari current
node , bila data yang dibaca memiliki transaksi dan url yang sama dengan current node maka
frekuensi current akan bertambah. Pembentukan tree dibarengi dengan membuat link antar node yang sama yang akan digunakan sebagai panduan pengambilan node yang berasosiasi dalam proses data mining. Proses data mining menggunakan htable yang bertype hash map untuk menampung link antar node yang sama dari node pertama sampai terakhir.
2.3.. Proses data mining.
Proses data mining dilakukan setelah FWDP tree terbentuk. Proses data mining menggunakan htable bertype hashmap untuk menampung header node yang menjadi panduan proses data mining. Proses mining membaca path dari untai data di dalam struktur FWDP tree. Proses data mining menggunakan association rule. Proses akan melakukan pembacaan node-
node berdasarkan header node yang terdapat dalam htable. Header node yang telah dibaca tidak
akan dibaca kembali. Proses data mining ini akan dilakukan mulai pada posisi pointer (current
node) sampai root. Proses ini dilakukan sampai seluruh node terbaca, sehingga akan diperoleh
keterkaitan jumlah kemunculan antar satu node dengan node yang lainnya.Proses data mining membaca data pada htable yang berupa link beserta node. Proses ini memasukkan node yang terkait dengan node link kedalam hash map P. Proses minng akan menyimpan node parent dalam P. Sebelum penyimpanan dilakukan akan dicek apakah parent dari
Vol . VII Nomor 20 Juli 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
current node (pointer) memiliki anak (child) dan child tersebut urlya sama dengan current node bila memenuhi maka parent dismpan di P, tetapi bila bukan child tetapi siblink, maka parent akan menjadi current node (pointer) dan pengecekan dilakukan kembali untuk mengambil node parent. Bila ditemukan url parent ada yang sama dengan url yang sudah disimpan dalam P maka frekuensi dari url tersebut ditambah. Proses ini akan berjalan terus hingga pointer sampai di root.
3. HASIL DAN PEMBAHASAN
3.1. Pengujian Aplikasi dengan Data Riil
Pada pengujian data riil menggunakan data weblog tanggal 18 Maret sampai dengan 18 April dari Weblog Universitas Respati Yogyakarta. Ukuran data adalah 11.9 MB yang terdiri atas 101.067 baris . Untuk melihat terjadinya perubahan pada web secara adaptif maka data dibagi dalam 4 minggu yaitu data pertama tanggal 11 Maret sampai 18 Maret dengan baris data 33.459 , data kedua 18 Maret sampai 25 Maret dengan jumlah baris data 36.154 , data ketiga 25 Maret sampai dengan 1 April dengan jumlah baris 35.595 dan data keempat mulai 1 April sampai 08 April 2012 dengan jumlah baris 31.484.
Data minggu ketiga diproses menghasilkan keterkaitan antar halaman web seperti tampak pada gambar 6.
Gambar 6. Keterkaitan antar halaman web hasil proses datamining Proses ini menghasilkan tabel polaakses. Data table polaakses . Tabel 4. menunjukkan isi tabel polaakses minggu ketiga. Halaman yang paling banyak terkait dengan halaman lain adalah halaman dengan urlid 2 (home) yang muncul sebanyak 33 kali sedangkan halaman yang paling sedikit terkait yaitu halaman dengan urlid 233 (/index.php? option = com_xgallery&view = single&catid =1:category&id = 4:collection&Itemid=219) yang hanya muncul 1 kali Tabel 4. Sebagian Isi tabel polaakses yang terdiri atas kolom dokumen dan pola, kedua kolom merupakan urlid dari halaman web
Dokumen (UrlID) Pola (UrlID) Dokumen (UrlID) Pola (UrlID)
29
8
30
10 400
10
30
21 400
30
30
13
Vol . VII Nomor 19Maret 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
400
8
30
32 400
2
30
24 400
26
30
30 400
32
30
8
30
26
30
2
30
23
30
33 Sebagai contoh, halaman web yang akan dibandingkan adalah halaman agenda. Pada halaman berita ini posisi link halaman diletakkan pada bottom dan diberi nama link1, link2 dan seterusnya. Masing-masing link (ditandai dengan lingkaran merah) dapat dilihat alamat urlnya dari keterangan yang muncul pada buble help (ditandai dengan lingkaran kuning). Gambar 7 a, b,c,d memperlihatkan link-link yang berbeda-beda pada halaman agenda.
Gambar 7.a. Link Web berasal dari data log minggu pertama .
Gambar 7.b. Link Web berasal dari data log minggu ke dua .
Gambar 7.c. Link Web berasal dari data log minggu ketiga .
Gambar 7.d. Link Web berasal dari data log minggu keempat
Vol . VII Nomor 20 Juli 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
Gambar diatas (Gambar 7. a, b, c dan d) memperlihatkan jumlah link dan isi dari link yang berubah-ubah yang bersesuaian dengan data log yang diproses. Setiap halaman web akan menampilkan link-link yang terkait yang merupakan pola akses user pada saat mengakses halaman tersebut.
3.2. Representasi Hasil
Penemuan pola yang stabil dilakukan dengan membuat perbandingan pola yang dihasilkan dari beberapa pemrosesan data. Pemrosesan data diambil dari data 1 hari, data 2 hari, data 3 hari, data 4 hari dan data 1 minggu. Data yang diperlihatkan tabel perbandingan pola, memperlihatkan perbedaan pola yang terjadi yang dihasilkan dari data 1 hari, sampai 1 minggu. Pengamatan dilakukan pada halaman berita, halaman profile dan halaman pendaftaran. Perbedaan pola masih terjadi bila dibandingkan pola yang dihasilkan data 1 hari dengan pola yang dihasilkan data 2 hari, demikian pula bila dibandingan pola yang dihasilkan data 3 hari dan 4 hari serta data 4 hari dan 1 minggu. Perbedaan pola tidak terjadi bila pola yang dihasilkan dari data 2 hari dibandingkan dengan pola yang dihasilkan dari data 3 hari. Tabel 5 perbandingan pola menunjukkan bahwa dari data tanggal 25 Maret sampai dengan 1 April pola terbentuk yang paling baik adalah pola yang dihasilkan pada hari kedua dan ketiga karena tidak ada perbedaan pola halaman.
Tabel 5 perbandingan pola akses
Halaman Dokumen ten tan g Satu hari Dua hari Tiga hari Empat hari
28 Maret 28 s.d 29 Maret 28 s.d 30 Maret 28 s.d 31 Maret Halaman Pola Halaman Pola Halaman Pola Halaman Pola
29 /index.php?opti on=com_conten t&view=section &layout=blog&id =25&Itemid=228
/index.php?opti on=com_conten t&view=categor y&layout=blog& id=68&Itemid=2
3 Ber ita / / / /index.php?opti on=com_conten t&view=categor y&layout=blog& id=67&Itemid=2
/index.php?opti on=com_conten t&view=section &layout=blog&i d=1&Itemid=22
3 /index.php?opti on=com_conten t&view=categor y&layout=blog&i d=63&Itemid=22
5 /index.php?opti on=com_conten t&view=section &layout=blog&i d=1&Itemid=22
3 /index.php?op tion=com_con tent&view=cat egory&layout =blog&id=68& Itemid=230
/index.php?opti on=com_conten t&view=categor y&layout=blog& id=63&Itemid=2
25
index.php ?option=c om_conte nt&view= section&l ayout=blo g&id=1&I temid=22
30 /index.php?op tion=com_con tent&view=se ction&layout= blog&id=1&Ite mid=223
Vol . VII Nomor 19Maret 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
5 halaman 5 halaman 5 halaman
2. Sistem belum seluruhnya berjalan secara otomatis masih ada bagian-bagian yang memerlukan penanganan oleh administrator yaitu pada saat menjalankan aplikasi untuk preprosessing sampai datamining.
1. Oleh karena filelog menjadi sumber data bagi system , maka sangat bergantung pada pengguna yang mengakses halaman-halaman web. Semakin banyak pengguna mengakses halaman web dalam waktu tertentu semakin tepat link-link halaman web yang akan ditampilkan.
Waktu yang dibutuhkan pengguna untk mencari halaman-halaman web yang ingin dikunjungi semakin singkat dengan adanya link yang direkomendasikan. Sedangkan kekurangan dari sistem ini diantaranya adalah sebagai berikut.
2. Olehkarena link-link halaman web diperoleh melalui filelog yang merupakan data akses pengguna tehadap halaman web, maka link –link yang diperoleh benar-benar link yang sering dikunjungi pengguna.
1. Sistem aplikasi ini mempermudah pengguna melakukan akses halaman web dikarenakan link- link akses ke halaman yang lain disesuaikan dengan kebiasaan akses pengguna.
Berdasarkan pengujian yang dilakukan terhadap sistem ini maka didapatkan analisa kelebihan dan kekurangan yaitu :
1 halaman - -
Ketidaksama an pola
Kesamaan pola terkait
/index.php?opti on=com_conten t&view=categor y&layout=blog&i d=68&Itemid=23
1 hari vs 2 hari 2 hari vs 3 hari 3 hari vs 4 hari
Perbandinga n
30 /index.php?opti on=com_conten t&view=section &layout=blog&id =1&Itemid=223
/index.php?opti on=com_conten t&view=categor y&layout=blog& id=68&Itemid=2
25 /index.php?op tion=com_con tent&view=cat egory&layout =blog&id=67& Itemid=229
9 /index.php?opti on=com_conten t&view=categor y&layout=blog& id=63&Itemid=2
/ /index.php?opti on=com_conten t&view=categor y&layout=blog&i d=67&Itemid=22
29 /index.php?op tion=com_con tent&view=cat egory&layout =blog&id=63& Itemid=225
/index.php?opti on=com_conten t&view=categor y&layout=blog& id=67&Itemid=2
3.3. Kelebihan dan Kekurangan Sistem
Vol . VII Nomor 20 Juli 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
4. KESIMPULAN
Setelah menyelesaikan penelitian tentang web adaptif, dapat diambil beberapa kesimpulan sebagai berikut:
1. Penerapan algoritma FWDP terhadap file log menghasilkan pola akses. Implementasi
pola akses pengguna menghasilkan web dengan fasilitas komendasikan link-link web yang sering diakses pengguna. Link-lin web akan berubah bilamana pola akses pengguna berubah.
2. Pola akses pengguna yang stabil pada penelitian ini akan dihasilkan mulai data log 2
hari sampai 3 hari. Apabila log kurang dari 2 hari maka pola belum stabil sebaliknya apabila log lebih dari 3 hari maka pola yang dihasilkan akan berubah.
3. Data yang dipergunakan sistem adalah weblog yang berisi catatan akses halaman web oleh pengguna. Format address dari log akan menentukan tampilan link.
4. Sistem belum seluruhnya berjalan secara otomatis (offline) sehingga masih ada sesi yang tidak ikut diproses.
5. SARAN
Beberapa saran untuk penelitian ini adalah sebagai berikut:
1. Penelitian ini masih terbatas pada adaptasi rekomendasi link yang didasarkan pada pola akses user. Penelitian belum mengarah kepada adaptasi konten halaman web.
Penelitian lebih lanjut tentang adaptasi konten halaman web diperlukan sebagai bagian dari pengembangan web adaptif.
2. Agar pengguna sering mengakses halaman web maka isi halaman web harus terkait
dengan kebutuhan pengguna, misalnya halaman web e-learning yang berisi hal-hal yang terkait dengan perkuliahan. Administrator diharap dapat melakukan proses web adaptif secara berkala. Dengan 3. demikian halaman dapat beradaptasi secara periodik pula.
6. DAFTAR PUSTAKA
Anderson C.R., Domingos, P., Weld, D.S., 2001, Adaptive Web Navigation
for Wireless Devices ,Seventeenth International Joint Conference on Artificial Intelligence
(IJCAI-01) Aoki,T., Velásquez,J., Weber, R., Yasuda, H., 2004, A new similarity measure to
understand visitor behavior in a web site , IEICE Transactions on Information and
Systems Aoki,T., Vel´asquez, J., Vera, D., Weber, R., Yasuda, H., 2003, Using Self
Organizing Feature Maps to acquire knowledge about visitor behavior in a web site , th
Proceeding 7 International Conference, KES 2003, Oxford, UK
Vol . VII Nomor 19Maret 2012 - Jurnal Teknologi Informasi ISSN : 1907-2430
of Washington,Seattle, WA 98195, USA Etzioni,O., Perkowitz, M, 1997, Adaptive Web Sites: an AI Challenge,
University of Washington Palade, V., Velásquez, J, 2008, Adaptive Website: A knowledge Extraction From
Clustering for Index Page Synthesis , A dissertation, Computer Science and Engineering,
, 4th International Workshop on Computer Science and Information Technologies, Patra, Greece. Perkowitz, M., 2001, Adaptive Website : Cluster Mining and Conceptual
overview of methods and techniques
Martha, Nikolaos dan Sophia, 2002, Adaptive interaction with web sites: an
, Proceeding ICWE'10 Proceedings of the 10th international conference on Current trends in web engineering,
for Personalization inAdaptive Web-Based Applications
Mican, D., Tomai, N., 2003, Association-RulesBased Recommender System
, IJCSNS International Journal of Computer Science and Network Security, Vol.8 No.1
Association Rules
World Wide Web, IJCA’97 Jun,W., Lee, J., 2008, Adaptive School Web Site Construction Algorithm Using
Proceeding IJCAI-97 Freitag, D., Joachims, T., Mitchell, T., 1997, WebWatcher: A Tour Guide for the
framework and case study , Department of Computer Science and Engineering, University
Aoki, T., Vel´asquez,J., Weber, R., Yasuda, H., 2005, Acquisition and
Conference on Artifical intelligence Etzioni,O. dan Perkowitz, M. , 1999, Towards adaptive Web sites:Conceptual
SynthesizingWeb Pages , Proceeding IJCAI'99 Proceedings of the 16th International Joint
Etzioni,O, Perkowitz, M., 1999, Adaptive Web Sites: Automatically
, Intelligent Systems in Accounting, Finance and Management,
User Access Patterns
and Data Engineering Exchange Workshop (KDEX’99) Creado, M., Fu, J., Ju, C., Shih , M.Y., 2002, Reorganizing Web Sites Based on
Through Usage-Based Clustering of URLs, In Proceedings of the 1999 IEEE Kowledge
2003), Canada Cooley,R., Mobasher, B., Srivastava, J., 1999, Creating Adaptive Web Sites
for Web Prediction , IEEE / WIC International Conference on Web Intelligence , (WI
Billsus, D., Pazzani, M.J., 2002, Adaptive Web Site Agents, Journal of Agents and Multiagent Systems Bonino, D., Corno, F., Squillero, G., 2003, A Real-Time Evolutionary Algorithm
Caching Algorithms , WebKDD
SYST Brickell, J., Dhillon, I.S., Modha,D.S., 2006, Adaptive Website Design using
Maintenance of Knowledge for Online Navigation Suggestions , IEICE TRANS. INF. &
Web Data Approach , IOS Press, Amsterdam