Web Log Mining Menggunakan k-Means pada Server Proxyuntuk Perancangan Manajemen Bandwidth IPB

WEB LOG MINING MENGGUNAKAN K-MEANS PADA
SERVER PROXY UNTUK PERANCANGAN
MANAJEMEN BANDWIDTH IPB

ELKANA GETALOID PARIWONO

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Web Log Mining
Menggunakan k-Means pada Server Proxyuntuk Perancangan Manajemen
Bandwidth IPBadalah benar karya saya denganarahan dari komisi pembimbing
dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun.
Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun
tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan
dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Januari 2014
Elkana Getaloid Pariwono
NIM G64114004

ABSTRAK
ELKANA GETALOID PARIWONO. Web Log Mining Menggunakan k-Means
pada Server Proxyuntuk Perancangan Manajemen Bandwidth IPB. Dibimbing
oleh HERU SUKOCO.
Layanan internet IPB meningkat dari tahun ke tahun, baik dari aspek
infrastruktur maupun layanan. Salah satu peningkatan infrastruktur yang
dilakukan adalah peningkatanbandwidth internet. Meskipun demikian,penelitian
untuk mengetahui karakteristik penggunaan internet IPB belum pernah dilakukan.
Penelitian ini melakukanclustering terhadap fail-fail logproxy IPBmenggunakan
algoritme k-Means untuk mendapatkan karakteristik pengguna internet. Fail-fail
yang digunakan berasal dari server proxymahasiswa, staf kependidikan, dan staf
pendidik. Penelitian ini berhasil mendapatkan total 16clusterberdasarkan jumlah
hit pada 14 kategori situs.Hasil clustering menunjukkan bahwa terdapat kemiripan
pada penggunaan internet dari asrama mahasiswa.Pada seluruh cluster situs

berkategori Service dan Entertainment memiliki total rata-rata persentasehit diatas
24% dan 33%. Perancangan manajemen bandwidth dibuat dengan
mempertimbangkan penggunaan serta anggota dari setiap cluster
Kata kunci:clustering,internet IPB, karakterisasi penggunaaan,k-Means, logproxy,
server proxy

ABSTRACT
ELKANA GETALOID PARIWONO. Web Log Mining Using k-Means OnProxy
Server for Designing IPB Bandwidth Management. Supervised by HERU
SUKOCO.
IPB internet services isimproving every year, both from the infrastructure
and service aspects. One of the infrastructure improvements is internet bandwidth
enhancement. However, research on user characterization of internet usage in IPB
has never been done. This study uses k-Means algorithm to cluster IPB proxy
server log's file to obtain the characteristics of internet users. The research
evaluates all user's log files including student, educational staff, and lecturer. This
study resulted in 16clusters calculated based on the number of hits on the 14 site
categories. Clustering resultsshowedthatthere weresimilaritiesin theuse of the
internetfrom student dorm.In each cluster, thetotalaverage percentage of the sites
with Service and Entertainmentcategoriesareabove 24% and 33%.Bandwidth

management is designed based on member and utilization of each cluster.
Keywords:clustering,IPB’s
characterization

internet,

k-Means,proxy

log,proxyserver,

usage

WEB LOG MINING MENGGUNAKAN K-MEANS PADA
SERVER PROXY UNTUK PERANCANGAN
MANAJEMEN BANDWIDTH IPB

ELKANA GETALOID PARIWONO

Skripsi
sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014

Judul Skripsi :Web Log Mining Menggunakan k-Means pada Server Proxyuntuk
Perancangan Manajemen Bandwidth IPB
Nama
: Elkana Getaloid Pariwono
NIM
: G64114004

Disetujui oleh

DrEng Heru Sukoco, SSi MT

Pembimbing I

Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:

Judul Skripsi: Web Log Mining Menggunakan k-Means pada Server Proxy untuk
Perancangan Manajemen Bandwidth IPB
: Elkana Getaloid Pariwono
Nama
: G64114004
NIt\1

Disetujui oleh

Dr Eng Heru Sukoco, SSi MT
Pembimbing I


セ」@

Diketahui 0181

-...::_"-

Tanggal Lulus:

o8 MAR 2014

PRAKATA
Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas segala
karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih
dalam penelitian yang dilaksanakan sejak bulan Agustus 2013 ini ialah log
miningpada server proxy IPB, dengan judul Web Log Mining Menggunakan kMeans pada Server Proxyuntuk Perancangan Manajemen Bandwidth IPB.
Terima kasih penulis ucapkan kepada:
1 Ayah, ibu dankakak telah memberikan doa serta dukungan moral sehingga
karya ilmiah ini dapat terselesaikan
2 Bapak DrEng Heru Sukoco, SSi MT selaku pembimbing, serta Ibu Dr Imas

Sukaesih Sitanggang, SSi MKom yang telah banyak memberi saran. Di
samping itu, penghargaan penulis sampaikan kepada Bapak Endang Purnama
Giri, SKom MKom selaku penguji.
3 Bapak Faozan Ahmad, SSi MSi dari Departemen Fisika IPB, Bapak Drs
Mahfuddin Zuhri, MSi selaku Kasubdit Jaringan Direktorat Integrasi Data dan
Sistem Informasi (DIDSI), Bapak Hasan Rokhim, AMd, Bapak Ahmad Kurnia
beserta seluruh staf DIDSI IPB yang telah membantu selama pengumpulan
data.
4 Teman-teman Ilkom Alih Jenis angkatan 6 atas segala bantuan yang diberikan.
Semoga karya ilmiah ini bermanfaat.

Bogor, Januari 2014
Elkana Getaloid Pariwono

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR


vi

DAFTAR LAMPIRAN

vi

PENDAHULUAN

1

Latar Belakang

1

Perumusan Masalah

1

Tujuan Penelitian


1

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2

METODE

2

Studi Pustaka

3

Analisis Lingkungan Jaringan


3

Karakterisasi Beban Kerja

3

Perancangan Model Beban Kerja

5

Lingkungan Pengembangan

5

HASIL DAN PEMBAHASAN

6

Analisis Lingkungan Jaringan


6

Karakterisasi Beban Kerja

7

Perancangan Model Beban Kerja
SIMPULAN DAN SARAN

12
26

Simpulan

26

Saran

26

DAFTAR PUSTAKA

27

LAMPIRAN

13

RIWAYAT HIDUP

15

DAFTAR TABEL
1
2
3
4
5
6
7
8

Kriteria log yang dihapus
Format data
Anggota cluster pada log dosen
Centroidcluster pada log dosen
Anggota cluster pada log mahasiswa dan tenaga kependidikan
Centroidcluster pada log mahasiswa dan tenaga kependidikan
Rataan hit seluruh kategori dari pengguna dosen
Rataan hit seluruh kategori dari pengguna mahasiswa dan tenaga
kependidikan

3
4
9
10
11
11
25
26

DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

Tahapan penelitian
Arsitektur server proxy IPB (DKSI 2012b)
SSE dan k pada cluster data logproxy dosen
SSE dan k pada cluster data logproxy mahasiswa dan tenaga
kependidikan
Jumlah hit pada cluster 0 untuk logproxy dosen
Jumlah hit pada cluster 1 untuk logproxy dosen
Jumlah hit pada cluster 2 untuk logproxy dosen
Pencilan cluster 2 pada logproxy dosen
Jumlah hit pada cluster 3 untuk logproxy dosen
Pencilan cluster 3 pada log proxy dosen
Jumlah hit pada cluster 4 untuk logproxy dosen
Jumlah hit pada cluster 5 untuk logproxy dosen
Jumlah hit pada cluster 6 untuk logproxy dosen
Jumlah hit pada cluster 7 untuk logproxy dosen
Pencilan cluster 7 pada logproxy dosen
Jumlah hit pada cluster 8 untuk logproxy dosen
Jumlah hit pada cluster 0 untuk logproxy mahasiswa dan tenaga
kependidikan
Pencilan cluster 0 pada logproxy mahasiswa dan tenaga kependidikan
Jumlah hit pada cluster 1 untuk logproxy mahasiswa dan tenaga
kependidikan
Pencilancluster 1 pada logproxy mahasiswa dan tenaga kependidikan
Jumlah hit pada cluster 2 untuk logproxy mahasiswa dan tenaga
kependidikan
Jumlah hit pada cluster 3 untuk logproxy mahasiswa dan tenaga
kependidikan
Jumlah hit pada cluster 4 untuk logproxy mahasiswa dan tenaga
kependidikan
Jumlah hit pada cluster 5 untuk logproxy mahasiswa dan tenaga
kependidikan
Pencilan cluster 5 pada logproxy mahasiswa dan tenaga kependidikan

2
6
9
10
12
12
13
13
14
14
15
16
16
17
17
18
19
19
20
20
21
21
22
23
23

26 Jumlah hit pada cluster 6 untuk logproxy mahasiswa dan tenaga
kependidikan
27 Pencilan cluster 6 pada logproxy mahasiswa dan tenaga kependidikan
28 Model HTB pengguna dosen
29 Model HTB pengguna mahasiswa dan tenaga kependidikan

24
24
25
26

PENDAHULUAN
Latar Belakang
Peningkatan layanan internet IPB terus dilakukan dari tahun ke tahun. Salah
satu peningkatan yang dilakukan adalah meningkatkan kapasitas bandwidth untuk
jalur internet internasional dan domestik. Pada tahun 2012 peningkatan kapasitas
bandwidth untuk jalur internasional dilakukan dari 60 Mbps (Mega bit per
second) menjadi 200 Mbps, sedangkan untuk jalur domestik peningkatan terjadi
dari 100 Mbps ke 200 Mbps (DKSI 2012a). Meskipun demikian, pengelolaan
sumber daya bandwidth ini belum dilakukan secara maksimal. Hal ini terlihat dari
belum adanya bandwidth management yang berfungsi untuk melakukan
pembagian bandwidth. Pengelolaan dan pembagian bandwidth secara maksimal
dapat dilakukan jika karakteristik penggunaan telah diketahuai sebelumnya.
Penelitian yang terkait dengan penggunaan internet IPB telah dilakukan
sebelumnya. Sianipar (2012) melakukan penelitian yang berjudul Analisis
Penggunaan Layanan Jaringan Internet IPB. Dalam penelitian tersebut Sianipar
(2012) melakukan analisis pada data sniffing yang berisi seluruh aktivitas jaringan
IPB. Dari hasil penelitian tersebut diperoleh kesimpulan bahwa layanan web
adalah layanan yang paling banyak digunakan. Sianipar (2012) juga
menyimpulkan penggunaan layanan internet IPB yang berkaitan dengan
kebutuhan informasi akademis hanya sebesar 8.15%. Informasi ini didapat dengan
melihat Top Level Domain (TLD) dari situs yang diakses oleh pengguna internet
di IPB. Top Level Domain ini digunakan untuk mengkategorikan situs (contoh:
.gov untuk situs pemerintahan, .com untuk situs komersial) sehingga persentase
dari situs yang berhubungan dengan kebutuhan akademik IPB dapat diperoleh.
Berdasarkan hasil penelitian yang diperoleh Sianipar (2012), maka perlu
dilakukan penelitian lebih lanjut yang berfokus pada penggunaan layanan web di
jaringan IPB. Kebijakan penggunaan internet di IPB mengharuskan penggunaan
server proxy IPB untuk dapat terhubung ke internet oleh karena itu seluruh
aktivitas penggunaan internet di IPB akan dicatat oleh server proxy IPB dalam
bentuk fail log.Pada penelitian ini akan dilakukan proses clustering menggunakan
k-Means terhadap fail log yang berisi aktivitas penggunaan internet IPB.
Karakterisitik penggunaan pada setiap clusterakan digunakan sebagai dasar untuk
membuat model kebijakan manajemen bandwidth.
Perumusan Masalah
Perumusan masalah dalam penelitian ini adalah bagaimana memperoleh
pengetahuan tentang karakteristik penggunaan internet di IPB dari fail log yang
terdapat pada server proxy IPB. Pengetahuan itu akan digunakan sebagai dasar
untuk membuat model kebijakan manajemen bandwidth.
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1 Melakukan clustering menggunakan algoritme k-Means pada fail log yang
berasal dari server proxy IPB.

2
2
3

Mengetahui karakteristik penggunaan internet di IPB berdasarkan
cluster yang diperoleh
Merekomendasikan model kebijakan manajemen bandwidth di IPB
Manfaat Penelitian

Hasil dari penelitian ini diharapkan dapat memberi gambaran tentang
karakteristik penggunaan internet di IPB, sehingga dapat dijadikan bahan
pertimbangan dalam melakukan manajemenbandwidth.
Ruang Lingkup Penelitian
1
2
3
4
5

Ruang lingkup pada penelitian ini antara lain:
Penelitian dilakukan pada jaringan IPB.
Data yang digunakan adalah fail Squid log dari server proxy IPB
Identifikasi pengguna dilakukan berdasarkan IP address
Clustering dilakukan berdasarkan nilai hit
Perancangan kebijakan dilakukan berdasarkan hasil clustering pada fail log

METODE
Penelitian dilaksanakan dalam3 tahap utama yaitu analisis lingkungan
jaringan,karakterisasi beban kerja dan perancangan model beban kerja.Setiap
tahapan utama tersebut terbagi menjadi tahapan yang lebih kecil.Gambar 1
menunjukkan tahapan yang dilakukan dalam penelitian ini.
Mulai

Praproses
Studi Pustaka

Pengumpulan
Data
Pengumpulan
Dokumentasi
Infrastruktur

Anlisis Lingkungan
Jaringan

Perancangan Model
Beban Kerja

Pembersihan
Data

Post Process

Identifikasi
Pengguna
Kategorisasi
Situs

Ya

Analisis
Cluster

Perancangan
Model HTB
Malware,
iklan, trackingcookie?

Tidak
Perhitungan
Hit

Data Mining
k-Means
Clustering

Karakterisasi Beban Kerja

Gambar 1Tahapan penelitian

Selesai

3
Studi Pustaka
Tahapan ini dilakukan untuk mengumpulkan dan mempelajari pustaka yang
berkaitan dengan penelitian. Pustaka yang dikumpulkan dan dipelajari adalah
pustaka yang berkaitan dengan log mining dan algoritme manajemenbandwidth
HTB. Metode yang dilakukan pada pustaka tersebut dipelajari dan dianalisis
sehingga dapat diterapkan dalam penelitian ini. Buku dan artikel (jurnal dan
prosiding) penelitian merupakan sumber utama pada tahap ini.
Analisis Lingkungan Jaringan
Pada tahapan ini dilakukan pengumpulan data dan dokumentasi terkait
infrastruktur jaringan IPB. Data yang dikumpulkan pada tahapan ini adalah fail
log dari server proxy IPB. IPB menggunakan Squid sebagai server proxy. Format
fail log yang dimiliki Squid adalah sebagai berikut (http://wiki.squidcache.org/Features/LogFormat)
time elapsed remotehost code/status bytes method URL rfc931
peerstatus/peerhost type

Dokumentasi infrastruktur jaringan IPB berguna untuk membantu memahami
datalog yang diperoleh.
Karakterisasi Beban Kerja
Praproses
Sebelum data log yang digunakan dapat dijadikan masukan untuk algoritme
data mining,terlebih dahulu dilakukan praproses. Praproses yang dilakukan terdiri
atas beberapa tahapan:
1 Pembersihan Data:Akses ke suatu halaman situs dapat menghasilkan beberapa
barislog. Hal ini dikarenakan suatu halaman situs memiliki beberapa elemen
seperti gambar dan suara (Kerkhofset al. 2001). Pada logproxy juga terdapat
baris log yang tidak dihasilkan dari aksi pengguna (Weinreich et al. 2006).
Tahap ini melakukan penghapusan terhadap baris logberdasarkan kriteriafield
logpada Tabel 1.
Tabel 1Kriteria log yang dihapus
Field
URL
Type

Method
HTTPCode

Kriteria
akhiran .gif, .jpeg, jpg .css, .png, .js (Chitraa et al, 2012), iklan (Weinreich
et al, 2006), malware, tracking cookie
image/gif, text/javascript, application/xml, image/png, text/css,
image/jpeg,
text/xml,
application/x-shockwave-flash,
application/javascript/, application/pdf, application/x-gzip, text/chat,
application/zip, audio/mpeg, application/msword, application/x-rpm,
application/vnd.ms-powerpoint,
application/x-tar,
application/x-cap,
application/xml-dtd
(Chaudhari,
2011),
application/ocsp-request,
application/ocsp-response
selain GET dan POST (Sathiyamoorthi et al, 2011)
selain kode HTTP 2xx (SUCCESS) (Sathiyamoorthi et al, 2011)

4
Setelah baris yang tidak relevan dibuang, tahapan selanjutnya adalah memilih
field yang dibutuhkan. Field yang dibutuhkan pada tahapan ini adalahfieldtime
yang merupakan waktu pengaksesan,remotehost yang merupakan Internet
Protocol Address (IP Address) pengguna, dan URL dari situs yang dikunjungi
pengguna.
2 Identifikasi Pengguna:setiap pengguna yang
tercatat pada logharus
diidentifikasi, hal ini diperlukan untuk perhitungan jumlah hit ke situs yang
dikunjungi oleh setiap pengguna. Menurut Sathiyamoorti et al. (2011) IP
address dapat digunakan untuk membedakan setiap pengguna. Perhitungan
jumlah hitakandilakukan pada setiap IP address yang berbeda.
3 Kategorisasi situs:pada tahap ini dilakukan kategorisasi terhadapsitusmemiliki
hit lebih dari 120 pada fail log yang telah bersih. Situs yang memiliki hit
dibawah 120 akan mempengaruhi reliabilitas hasil (Kerkhofs et al. 2001).
Membagi situs kedalam suatu kategori merupakan hal yang umum dilakukan.
Proses ini akan membantu manajemen data (Cadez et al. 2003). Setiap baris
pada fail log dihitung sebagai 1 hit.Pengkategorian situs dilakukan secara
manual dengan mengunjungi situs tersebut dan memanfaatkan fasilitas domain
tagging pada situs OpenDNS. Jika pada tahapan ini ditemukan halaman situs
yang memiliki kategori iklan, malware atau tracking cookie, maka proses
pembersihan data diulang kembali dengan menyertakan situs tersebut sebagai
baris yang akan dihilangkan.
4 Perhitungan hit:pada fail log yang telah bersih dilakukan perhitungan untuk
menentukan jumlah hit ke setiap kategori yang telah ditentukan. Perhitungan
ini dilakukan pada setiap situs yang dikunjungi olehseluruh pengguna. Tahapan
selanjutnya adalah melakukan penjumlahan hit untuk setiap IP address dengan
alamatnetwork yang sama.
Setelah tahapan praproses selesai maka akan diperoleh data berisi jumlah hit
untuk masing-masing kategori situs yang diakses setiapalamat network di IPB.
Tabel 2 adalah format data yang didapat setelah melakukan praproses.
Tabel 2Format data
Network

Kategori 1

Kategori 2

……..

Kategori 14

Network unit
kerja

∑ hit

∑ hit

……..

∑ hit

Data Mining
Tahapan selanjutnya adalah menerapkan data yang diperoleh pada tahapan
sebelumnya pada algoritme clusteringk-Means. Clustering dengan algoritmekMeans dilakukan dengan memanfaatkan perangkat lunak Weka 3.6. Algoritme kMeans adalah sebagai berikut (Han dan Kamber2006):
1 Tentukan jumlah cluster yang diinginkan (jumlah k) beserta dengan titik pusat
cluster (centroid)
2 Lakukan Perulangan (3-4):
3
Masukan objek ke cluster dengan centroid terdekat.
4
Perbaharui nilai centroid setiap cluster berdasarkan rata-rata setiap objek

5
padacluster tersebut.
5 Lakukan sampai tidak ada perubahan
Pada penelitian ini perhitungan jarak antara objek dan titik pusat cluster dilakukan
menggunakan jarak Euclidean.
Perancangan Model Beban Kerja
Analisis Cluster
Pada tahapan ini dilakukan analisis terhadap setiap cluster yang didapat
pada tahapan sebelumnya. Analisis ini dilakukan untuk melihat karakteristik
cluster.Hasil analisis ini dijadikan sebagai dasar dalam menentukan rekomendasi
kebijakan manajemen bandwidth.
Perancangan Model HTB
Pada tahapan ini dilakukan perancangan kebijakan manajemen
bandwidth.Algoritme manajemenbandwidth yang direkomendasikan pada
penelitian ini adalah HierarchicalTokenBucket (HTB).Algoritme manajemen
bandwidth HTB direpresentasikan dalam bentuk hirarki (Brown2006). Hirarki
HTB terdiri atasroot, inner class, dan leaf. Pembatasan traffic (shaping) terjadi
pada leaf class, sedangkan innerclass bertugas untuk membagi token ke leaf
class(Brown 2006). Berdasarkan hal tersebut rekomendasi kebijakan dalam
penelitian ini direkomendasikan dalam bentuk hirarki HTB.Pada penelitian
sebelumnya, Purwanto (2012) yang menyatakan bahwa HTB memiliki kinerja
yang lebih baik dibandingkan dengan ClassBasedQueuing (CBQ).CBQ
merupakan dispilin antrian yang melakukan pembagian traffic ke dalam kelaskelas tertentu (Hubertet al. 2002).Setiap kelas tersebut memiliki perlakuan dan
prioritas yang berbeda.
Lingkungan Pengembangan
Penelitian ini diimplementasikan menggunakan spesifikasi perangkat keras
dan perangkat lunak berikut ini:
1
Perangkat Keras
Spesifikasi perangkat keras yang digunakan adalah:
o
Intel ® Core™ i5 650 CPU 3.20 GHz.
o
Memori 2 GB.
o
Harddisk 500 GB.
o
Keyboard dan mouse.
o
Monitor.
2
Perangkat Lunak
o
Sistem operasi Windows7 Pro32 bit.
o
Eclipse Indigo 32 bit.
o
Weka 3.6

6

HASIL DAN PEMBAHASAN
Analisis Lingkungan Jaringan
Pada tahapan ini diketahui bahwa terdapat 10 unit server proxy di IPB.
Server proxy dengan IP address 172.17.0.18 dan 172.17.0.11 merupakan load
balancer yang berfungsi membagi beban kerja dari 10 unit server proxy.
Pembagian beban kerja dilakukan dengan menggunakan algoritme Weighted
Round Robin (WRR). Server yang memiliki bobot yang lebih besar akan
melayani koneksi yang lebih banyak (IBM 2012).Dari 10 unit server proxy, 2 unit
diperuntukkan untuk pengguna dosen, sedangkan 8 unit sisanya diperuntukkan
untuk penggunamahasiswadan tenaga kependidikan.Infrastruktur dari server proxy
IPB dapat dilihat pada Gambar 2.Server proxy dosen juga diperuntukkan untuk
beberapa tenaga kependidikan yang diprioritaskan kecepatan akses internetnya.

Gambar 2Arsitektur server proxy IPB (DKSI 2012b)
Berdasarkan pengetahuan ini maka log proxy yang akan digunakan untuk
penelitian ini diambil dari 1 unit server proxy untuk dosen dan 1 unit server proxy
untuk mahasiswa dan tenaga kependidikan. Pemilihan server yang akan
digunakan log-nya didasarkan pada bobot server. Kedua log proxy yang
digunakan pada penelitian ini mencatat aktivitas internet dari tanggal 1 Juli 2013
sampai dengan 31 Juli 2013.
Dari dokumentasi jaringan IPB juga diperoleh pengetahuan bahwa dengan
melihat alamatnetwork dari IP address, lokasi pengaksesan dapat dilihat. Setiap
unit kerja dapat memiliki 1 network atau lebih. Pada beberapa lokasi, 1 network
dialokasikan untuk 1 wing. Network yang dialokasikan pada jaringan internal IPB
memiliki subnet mask 255.255.255.0. Dengan melihat 3 oktet pertama dari IP
yang tercatat pada log, maka lokasi penggunaan internet dapat diketahui.Pada
penelitian ini terdapat 3network yang tidak diketahui lokasinya.

7
Karakterisasi Beban Kerja
Pembersihan Data
Pada tahap karakterisasi beban kerja dilakukan proses dataminingpadalog
yang diperoleh. Setelah melakukan pembersihan data, ukuran fail log yang berasal
dari server proxy dosen berkurang dari 4.7GB menjadi 241MB. Fail tersebut
berisi 5.456.899 baris, sedangkan untuk fail log yang berasal dari server proxy
mahasiswa dan tenaga kependidikan, ukuran berkurang dari 6.6GB menjadi
296MB. Fail tersebut berisi 6.586.486 baris. Berkurangnya ukuran secara
signifikan disebabkan banyaknya baris log yang dihasilkan dari aktivitas yang
bukan dipicu oleh aksi pengguna. Akses ke satu halaman yang dicatat dalam
beberapa baris log serta log hasil aktivitas malware, tracking cookie, dan
permintaan terhadap halaman iklan juga menyebabkan besarnya ukuran fail log.
Format fail log setelah dilakukan pembersihan data adalah sebagai berikut:
yyyy-mm-dd hh:mm:ss ip domain.tld
Identifikasi Pengguna
Pada tahapan identifikasi pengguna ditemukan 7051IP address yang
berbeda pada log yang berasal dari server proxy dosen, sedangkan pada server
proxy mahasiswa dan tenaga kependidikan ditemukan 11131 IP address yang
berbeda. IP addresstersebut akan dikelompokan berdasarkan alamat network
masing-masing. Berdasarkan alamatnetwork tersebut lokasi pengaksesan dapat
diketahui.
Kategorisasi Situs
Pada tahapan kategorisasi situs, dilakukan kategorisasi terhadap situs yang
memiliki jumlah hit lebih dari sama dengan 120 pada kedua log. Pada logproxy
dosen ditemukan 814 situs yang memiliki hit lebih dari 120, sedangkan pada
logproxy mahasiswa dan tenaga kependidikan ditemukan 1188 situs. Total
terdapat 700 situs yang dikategorikan pada logproxy dosen, dan 1056 situs untuk
proxy mahasiswa dan tenaga kependidikan. Situs yang tidak masuk ke dalam
kategori adalah situs yang tidak dapat dikunjungi, situs yang memiliki halaman
home yang kosong, serta situs yang nama domainnya merupakan parked-domain.
Pada tahapan ini juga ditemukan akses ke situs porno.Hal ini sesuai dengan
kesimpulan dari penelitian yang dilakukan Sianipar (2012).Pengkategorian dari
situs ini menghasilkan 14 kategori berbeda. Berikut ini adalah deskripsi dari 14
kategori tersebut:
• University: merupakan kategori yang berisi situs universitas
• Games: merupakan kategori yang berisi situs terkait dengan games
• Blog: merupakan kategori yang berisi situs blog dan personal web
• News: merupakan kategori yang berisi situs yang menampilkan berita dari
berbagai macam bidang (sport, gosip, otomotif, politik, agama dan lain lain).
Pada kategori ini juga terdapat situs tv online dan radio online.
• Porn: merupakan kategori yang berisi situs porno
• E-Commerce: merupakan kategori yang berisi situs yang jual beli online.
• Services: merupakan kategori yang berisi situs yang menyediakan layanan email,search engine, online tools (contoh: speedtest.net), cloud, anonymous

8










proxy, portal ke situs lain, dan hosting. Situs perusahaan penyedia layanan
internet, jasa perjalanan, dan bank juga termasuk kedalam kategori ini
Information and Communication Technology (ICT): merupakan kategori yang
berisi situs perusahaan yang bergerak dibidang IT (contoh: Samsung, Apple
dll), situs software developer, situs framework programing (contoh:
yiiframework.com), dan situs perankinganwebsite.
File Sharing: merupakan kategori yang berisi situs untuk upload dan download
fail, situs untuk sharing image, serta situs peer-to-peer
Entertainment: merupakan kategori yang berisi situs video streaming, situs
manga, situs anime, situs gambar lucu, situs movie, situs drama, dan situs
musik.
Publication: merupakan kategori yang berisi situs terkait publikasi jurnal
ilmiah, situs untuk mengunduh ebook, dan situs penerbit buku.
Education: merupakan kategori yang berisi situs tutorial, situs informatif
(contoh: Wikipedia), situs pendidikan agama, dan situs penyedia kamus online.
Organization and Company: merupakan kategori yang berisi situs
pemerintahan, situs organisasi, situs badan dunia, serta situs perusahaan.
Social Network: merupakan kategori yang berisi situs social networking, situs
forum, situs komunitas, dan situs chatting.

Perhitungan Hit
Contoh hasil tahap perhitungan hit ditampilkan pada Lampiran 1. Pada
transformasi logproxy dosen terdapat 94 network. Totalnetwork pada logproxy
mahasiswa dan tenaga kependidikan adalah 93 network. Tahapan ini
menghasilkan format data yang telah sesuai untuk dijadikan input pada algoritme
clusteringk-Means.
Data Mining
Clustering pada Log Dosen
Pada tahapan data mining dilakukan clustering menggunakan algoritme kMeans pada data hasil praproses. Penentuan jumlah cluster dilakukan dengan
memperhatikan nilai Sum Squared Error (SSE). Hasil yang ideal adalah dengan
jumlah k yang sekecil mungkin didapatkan SSE yang sekecil mungkin. Semakin
kecil nilai k maka cluster yang dianalisis akan semakin sedikit,sedangkan nilai
SSE menandakan kedekatan setiap objek ke centroid pada cluster masing-masing.
Semakin kecil nilai SSE maka semakin mirip setiap objek pada cluster
tersebut.Pada tahapan ini diperoleh 9 cluster dengan SSE 6.67. Perbandingan
jumlah k dengan nilai SSE ditunjukkan pada Gambar 3.

9
20,00

18,83
15,02
13,15

15,00
S
S
E

12,12 11,71 11,57

10,37

10,00

6,67 6,47 5,99 5,85

5,00
0,00
2

3

4

5

6

7

8

9

10

11

12

Jumlah Cluster (k)

Gambar 3SSE dan kpada cluster data logproxy dosen
Anggota dari setiap cluster ditunjukkan pada Tabel 3. Pada algoritme kMeans nilai centroid merupakan nilai rata-rata dari setiap cluster.Nilai centroid
dari setiap clusterditampilkan pada Tabel 4. Dari Tabel 4 terlihat pada setiap
cluster nilai rata-rata dari kategori services dan entertainment lebih tinggi dari
pada kategori lainnya. Total rata-rata dari dari kategori services adalah 327849.6
hit atau sebesar 24.73%, sedangkan total rata-rata dari kategori entertainment
adalah 599679.1hit atau sebesar 45.23%.Hal ini berarti pada setiap cluster
terdapat nilai hit yang tinggi pada kategori tersebut. Kategori services berisi situs
dengan layanan email dan searchengine. Situs video streaming seperti Youtube
merupakan salah satu anggota dari kategori entertainment.
Tabel 3Anggota cluster pada logdosen
Cluster
0
1
2
3

4
5
6
7

8

Anggota
Dept. PSP, Dept. KSH, 172.18.68.0, ILKOM-BS1, Faperta
Dept. FIS
Dept. AGB-2, Dept. TIN, Dept. ITK, Rektorat-Lt 4-6, Dept. ITP, Staff Perpus
172.18.39.0, Reklatam, Fahutan, FKH-Lt1, Dept. TEP, Dept. KOM-1, FKHLt4, FKH-Lt2, Cyber-Merpati, Dept. BDP, ILKOM-BS2, Dept. KOM-2, Dept.
MAT, Dept.MNH, Rektorat-Lt 3, Dept. BIO, FEMA, Dept. THP, CDA, Dept.
KOM-3, Wing Rektorat, Asrama-Int, Green-TV
Dept. THH, Perpustakaan, Rektorat-Lt 1
Dept. GFM, Dept. MSP, Dept. HPT
Dekanat-FKH, Dept. AGH
Dept. BIOKIMIA, Fateta, Perpus-FPIK, ASTRA1, TPB-Wifi1B,
INTERCAFE, Data-Center-FMIPA, AMARILIS, TPB-Wifi2B, GWW,
Dept. INTP, FAPET-Lt1, ASTRA3, FKH-Lt3, SEAFAST1, Dept. SVK, Dept.
MAN, FKH-CyberPadi, ASTRI2, Dept. AGB-1, FAPET-Lt2, Dept. ARL,
Dekanat-Fateta1, ASTRI1, LESTARI1, Auditorium AHN, SEAFAST2, GOR,
FPIK, PPSHB, 172.18.69.0, Dept. IPTP, ASTRI4, SC, SYLVASARI1, Dept.
KIM, Lab Terpadu, BS, Dekanat-Fateta2, LANDHUIS, ASTRA2, Dept. ESL,
ASTRI3, FEM, SEIP, Cyber-Singkong, TPB, Dept. STK, Sekret FMIPA,
GPK, RUSUNAWA1
Rektorat-Lt 2

10
Tabel 4Centroidcluster pada log dosen

Clustering pada LogProxy Mahasiswa dan Tenaga Kependidikan
Clustering pada logproxy mahasiswa dan tenaga kependidikan
menghasilkan 7 cluster dengan SSE 12.38.Perbandingan jumlah k dengan nilai
SSE ditunjukkan pada Gambar 4.
25,00

SSE

20,00
15,00

19,21
16,09

10,00

13,00 13,09 13,05 12,38 12,06 12,06 12,04 12,33

5,00
0,00
2

3

4

5

6

7

8

9

10

11

Jumlah Cluster (k)

Gambar 4SSE dan k padacluster datalogproxy mahasiswa dan tenaga
kependidikan
Anggota dari setiap cluster pada log proxy mahasiswa dan tenaga kependidikan
ditunjukkan pada Tabel5,sedangkan nilai centroid dari setiap clusterpada
logproxymahasiswa dan tenaga kependidikan ditampilkan pada Tabel 6. Seperti
halnya pada logproxy dosen, kategori services dan entertainment juga memiliki
nilai rata-rata yang besar pada setiap cluster yang dihasilkan dari logproxy
mahasiswa dan tenaga kependidikan. Total rata-rata dari dari kategori services
adalah 157254.0 hit atau sebesar 25.13%, sedangkan total rata-rata dari kategori
entertainment adalah 207370.4hit atau sebesar 33.13%.

11
Tabel 5Anggota cluster pada log mahasiswa dan tenaga kependidikan
Cluster
0

1

2
3
4
5

6

Anggota
Astra2,Astra3,Astri2,Astri3,
Astri4,AsramInt,Sylvasari1,Rusunawa1,Landhuis,Faperta,Dept. AGH, Dept. BIO, Dept.
KOM-2,Dept. KOM-3, Dekanat-Fateta2,
Dept. KIM, Dept. PSP, Dept. THP, Dept. MSP, Wing-Rektorat, Reklatam,
Dept. AGB-1, CDA, 172.18.69.0, Cyber-Merpati, Dept. FIS, Dept. MAT,
Dekanat-FKH, FEM, Lestari1, Dept. AGB-2, Fahutan, Dekanat-Fateta1,
Dept. TIN, Dept. TEP, Dept. SVK, Fapet-Lt2, Dept. IPTP
Rektorat-Lt4-6, FKH-Lt4
ILKOM-BS-2, FKH-Lt 3
ILKOM-BS-1, Perpus, Rektorat-Lt 1, 172.18.68.0
Dept. BDP, FPIK, Dept. ITK, Dept. HPT, FEMA, Dept. GFM, Rektorat-Lt2,
Sekret-FMIPA, Dept. ESL, Dept. KSH, Dept. THH, Dept. MNH, Dept. ITP,
SC
SEAFAST2, TPB-Wifi2b, TPB-Wifi1b, Perpus-FPIK, TPB, Lab. Terpadu BS,
Staff Perpus, Cyber-Singkong, GPK, Rektorat-Lt 3, Astri1, Dept. ARL, DataCenter-FMIPA, Auditorium- AHN, Green-TV, Dept. STK, Amarilis, Dept.
KOM-1, FKH-Lt 2, FKH-Lt 1, INTERCAFE, Astra4, Dept. MAN, GWW,
172.18.39.0, PPSHB, Fateta, Astra1, Dept. BIOKIMIA, GOR, SEIP, Dept.
INTP, Fapet-Lt1

Tabel 6Centroidcluster pada log mahasiswa dan tenaga kependidikan
Kategori
University

Cluster
0

Cluster
1

Cluster
2

Cluster
3

Cluster
4

Cluster
5

Cluster
6

Total
rataan

91.47

24.91

9.00

0.50

192.75

40.57

10.52

369.72

Games

1557.73

531.00

142.50

1.50

7063.75

1119.29

228.58

10644.3

Blog

4311.87

793.65

546.00

262.00

6337.25

1901.43

388.24

14540.4

News

2937.20

2481.30

1062.00

566.50

10885.50

4212.93

514.24

22659.7

Porn

361.80

233.39

43.50

0.50

1696.75

767.79

54.52

3158.3

E-Commerce

587.53

211.87

171.50

883.50

2514.00

484.86

94.03

4947.3

27742.13

12712.43

11232.50

4113.50

71664.00

25252.86

4536.61

157254.0

9490.07

2026.91

2508.00

672.50

21056.50

5668.50

899.09

42321.6

FileSharing

11906.07

2740.78

1938.00

77.50

31403.50

8034.79

807.55

56908.2

Entertainment

54505.53

10749.30

4281.50

1106.50

96743.25

35838.14

4146.21

207370.4

Publication

295.00

184.87

2996.00

36.50

2245.00

264.86

64.03

6086.26

Education

590.47

101.48

72.50

19.50

1110.00

233.50

45.82

2173.27

Organization
andCompany

5889.47

438.04

162.00

241.50

6435.50

687.79

246.30

14100.6

SocialNetwork

19288.13

5151.74

1741.00

1145.00

44579.50

9626.21

1776.94

83308.6

Services
ICT

Total

625842.59

12
Perancangan Model Beban Kerja
Analisis ClusterProxy Dosen
Cluster 0 berisi network dengan hit yang tinggi pada situs berkategori news,
services, ICT, file sharing, entertainment, organization and company, dan
socialnetwork. Hal ini terlihat dari grafik total hit pada cluster 1 yang ditunjukkan
pada Gambar 5. Cluster ini memiliki jumlah anggota 5 network. Hal yang menarik
pada cluster ini adalah jumlah hit ke situs dengan kategori organization and
company yang cukup besar. Jumlah hit pada kategori ini melebihi jumlah hit pada
situs dengan kategori social network.

Gambar 5Jumlah hitpadacluster 0 untuklogproxy dosen
Cluster 1 adalah cluster yang hanya berisi 1 network. Network tersebut
adalah network yang dialokasikan untuk Departemen Fisika. Cluster ini dapat
dikatakan sebagai pencilan. Pada Tabel4 yang berisi nilai centroid setiap cluster,
terlihat bahwa nilai hit ke situs berkategori university merupakan penyebab
cluster ini menjadi pencilan. Nilai hit ke kategori ini lebih besar jika dibandingkan
dengan cluster lainnya. Pada cluster ini hit didominasi pada situs berkategori news,
services, entertainment dan social network. Gambar 6 menunjukkan total hit
untuk setiap kategori pada cluster 1.

Gambar 6Jumlah hitpadacluster 1 untuklogproxy dosen

13
Cluster 2 berisi 6 network dengan hit yang didominasi ke situs berkategori
services, ICT, entertainment, dan socialnetwork. Gambar 7 menunjukkan total hit
untuk setiap kategori pada cluster 2. Hit ke situs dengan kategori services dan
entertainment memiliki jumlah yang paling besar. Gambar 8 merupakan grafik
boxplot berdasarkan jumlah hit pada cluster ini. Pada Gambar 8 terlihat bahwa
terdapat pencilan pada kategori games. Pada kategori games, network yang
dialokasikan untuk staf perpustakaan memiliki nilai hit yang paling tinggi yaitu
sebesar 4196 hit. Nilai ini menyebabkan adanya nilai pencilan pada kategori
games.

Gambar 7Jumlah hitpadacluster2 untuklogproxy dosen

Gambar 8Pencilan cluster 2 pada logproxy dosen
Cluster 3 berisi 23 network dengan hit yang didominasi ke situs berkategori
news, services, ICT, file sharing, entertainment,dan social network. Gambar9
menunjukkan total hit untuk setiap kategori pada cluster 3. Gambar 10
merupakkan grafik boxplot berdasarkan jumlah hit pada cluster ini. Pada kategori
organization and companysebanyak 11046 hit dari 18204 hit pada kategori
tersebut dihasilkan dari network yang dialokasikan untuk Rektorat lantai 3.

14
Network ini merupakan pencilan pada kategori tersebut.Network ini juga
merupakan pencilan pada kategori news, yaitu sebesar 13150 hit dihasilkan dari
network ini, sedangkan pencilan kedua pada kategori news berasal dari network
yang dialokasikan untuk Wing Rektorat. Network ini juga merupakan penyebab
adanya pencilan pada kategori games, yaitu sebesar 4590 hit dihasilkan dari
network ini. Pencilan pada kategori file sharing dihasilkan dari network yang
dialokasikan untuk Departemen Matematika. Network ini menghasilkan 10654 hit
pada kategori ini.

Gambar 9Jumlah hitpadacluster 3 untuklogproxy dosen

Gambar 10Pencilan cluster 3 pada log proxy dosen
Cluster 4 berisi 3 network dengan hit yang didominasi ke situs berkategori
news, services, ICT, file sharing, entertaiment, dan social network. Gambar 11
menunjukkan total hit untuk setiap kategori pada cluster 4. Pada cluster ini
terdapat 13074 hit ke situs berkategori porn. Sebesar 8627 hit dihasilkan dari
network yang dialokasikan untuk Departemen THH, dan sebesar 4403

15
hitdihasilkan dari network yang dialokasikan untuk Rektorat lantai 1. Meskipun
demikian tidak dapat disimpulkan bahwa pengguna yang ada pada cluster ini
tertarik pada situs berkategori porn. Hit yang ada pada kategori tersebut belum
tentu dihasilkan dari aktivitas pengguna. Hit tersebut dapat dihasilkan dari pop-up
ataupun malware yang luput pada tahap pembersihan data.

Gambar 11Jumlah hitpadacluster 4 untuklogproxy dosen
Cluster 5 memiliki karakteristik yang hampir mirip dengan cluster 4.
Cluster ini berisi 3 network dengan hit yang didominasi ke situs berkategori
news,porn,services, ICT, entertainment, dan social network. Gambar
12menunjukkan total hit untuk setiap kategori pada cluster 5. Pada cluster ini
terdapat hit yang cukup besar pada kategori porn, yaitu sebesar 17522 hit. Hit
pada kategori ini melebihi nilai hit pada kategori social network. Sebesar 10713
hit ke kategori ini dihasilkan dari network yang dialokasikan untuk Departemen
GFM. Seperti yang telah disebutkan diatas, tidak dapat disimpulkan bahwa
pengguna yang ada pada cluster ini tertarik pada situs berkategori porn. Pada
cluster ini network yang dialokasikan untuk Departemen HPT memiliki nilai hit
tertinggi pada hampir setiap kategori (kecuali pada kategori university, porn dan
e-commerce).

16

Gambar 12Jumlah hitpadacluster 5 untuklogproxy dosen
Cluster 6 berisi 2 network dengan hit yang didominasi ke situs berkategori
news, services, file sharing, entertainment, dan social network. Gambar 13
menunjukkan total hit untuk setiap kategori pada cluster 6. Pada cluster ini
kategori e-commerce memiliki nilai hit ke tiga terbesar setelah kategori services
dan entertainment. Sebesar 6267 hit pada kategori e-commerce dihasilkan dari
network yang dialokasikan untuk Dekanat FKH dan sebesar 3886 hit dihasilkan
dari network yang dialokasikan untuk Departemen AGH. Pada kategori ICT dan
entertainment,network yang dialokasikan untuk Departemen AGH memiliki nilai
hit yang besar. Sebanyak 7756 hit dari 8883 hit pada kategori ICT dihasilkan dari
network ini,sedangkan pada kategori entertainment sebanyak 12985 hit dari 18777
hit juga dihasilkan dari network ini.

Gambar 13Jumlah hitpadacluster 6 untuklogproxy dosen

17
Cluster 7 berisi 50 network dengan hit yang didominasi ke situs berkategori
news, services,entertainment, dan social network. Cluster ini berisi 53% dari
seluruh network yang ditemukan pada logproxy dosen. Meskipun anggota dari
cluster ini banyak tetapi rata-rata hitcluster ini rendah. Hampir seluruh network
yang dialokasikan untuk asrama mahasiswa (kecuali asrama internasional)
merupakan anggota cluster ini. Hal ini dikarenakan clusterini dihasilkan dari
prosesclustering pada log dosen.Gambar 14 menunjukkan total hit untuk setiap
kategori pada cluster 7. Pada cluster ini hampir setiap kategori kecuali kategori
blog memiliki nilai pencilan. Gambar 15 merupakan boxplot berdasarkan jumlah
hit pada cluster ini. Nilai hit yang tertinggi terdapat pada kategori entertainment,
kemudian diikuti dengan kategori services dan social network.

Gambar 14Jumlah hitpadacluster 7 untuklogproxy dosen

Gambar 15Pencilan cluster 7 pada logproxy dosen
Clusterhanya 8 berisi 1 network, yaitu network yang dialokasikan untuk
Rektorat lantai 2. Cluster ini merupakan cluster pencilan. Penyebab cluster ini

18
menjadi pencilan adalah karena nilai rata-rata clusterini pada kategori games,
blog, news, services, entertainment, dan social network lebih tinggi dari pada
cluster lain. Pada algoritme k-Means rata-rata ini merupakan nilai centroid (titik
pusat) pada cluster tersebut. Jika pada cluster tersebut hanya terdapat 1 anggota
maka nilai centroid tersebut sama dengan nilai hit setiap kategori pada cluster
tersebut. Gambar 16 menunjukkan total hit dari setiap kategori pada cluster 8.
Pada Gambar 16 terlihat bahwa nilai hit pada kategori entertainment jauh lebih
tinggi dari pada nilai hit pada kategori yang lain.

Gambar 16Jumlah hitpadacluster 8 untuklogproxy dosen
Analisis ClusterProxy Mahasiswa dan Tenaga Kependidikan
Anggota dari cluster 0 sebagian besar merupakannetworkyang dialokasikan
untuk asrama mahasiswa.Hit pada cluster ini didominasi ke situs berkategori blog,
news, services, ICT, file sharing, entertainment, organization and company, dan
social network. Gambar 17 menunjukkan total hit untuk setiap kategori pada
cluster 0. Jumlah anggota dari cluster 0 adalah 15 network. Gambar 18 merupakan
boxplot berdasarkan jumlah hit dari cluster 0. Pada Gambar 18 terlihat bahwa
terdapat pencilan pada kategori university, games, blog, e-commerce, ICT,
publication, education, organization and company, dan social network. Pada
kategori blog,network yang menjadi pencilan adalah network yang dialokasikan
untuk asrama internasional. Dari total 64678 hit ke situs berkategori blog, sebesar
17756 hit dihasilkan dari network ini, sedangkan pada kategori organization and
company 3 network yang menjadi pencilan adalah network yang dialokasikan
untuk Astri 3, Astri 4, dan Faperta.

19

Gambar 17Jumlah hitpadacluster 0 untuklogproxy mahasiswa dan tenaga

Gambar 18Pencilan cluster 0 pada logproxy mahasiswa dan tenaga kependidikan
kependidikan
Pada cluster 1 jumlah hit didominasi pada situs berkategori news, services,
ICT, file sharing dan entertaiment. Gambar 19 menunjukkan total hit untuk setiap
kategori pada cluster 1. Jumlah anggota dari cluster 1 adalah 23 network. Pada
cluster ini terdapat pencilan pada kategori university, games, blog, news, porn,
publication, education, organization and company, dan social network. Hal ini
terlihat dari boxplotcluster 1 pada Gambar 20. Pada kategori games dan social
network pencilan ini memiliki nilai yang cukup tinggi. Network yang dialokasikan
untuk Fapet-Lt2 merupakan pencilan pada kategori games.Network ini
menghasilkan 4903 hit pada kategori ini, sedangkan pada kategori social

20
network,network yang menjadi pencilan adalah network yang dialokasikan untuk
wing rektorat. Sebesar 13860 hit pada kategori ini dihasilkan dari wing rektorat.

Gambar 19Jumlah hitpadacluster 1 untuklogproxy mahasiswa dan tenaga
kependidikan

Gambar 20Pencilancluster 1 pada logproxy mahasiswa dan tenaga kependidikan
Pada cluster 2 jumlah hit didominasi pada situs berkategori services, ICT,
file sharing, entertaiment, publication dan social network. Gambar 21
menunjukkan total hit untuk setiap kategori pada cluster 2. Jumlah anggota dari
cluster 2 adalah 2 network. Aktivitas pada cluster ini menghasilkan hit yang
cukup tinggi pada situs berkategori publication. Jumlah hit ke kategori ini
melebihi jumlah hit ke situs berkategori social network. Tidak terdapat pencilan
pada cluster ini.

21

Gambar 21Jumlah hitpadacluster 2 untuklogproxy mahasiswa dan tenaga
kependidikan
Pada cluster 3 jumlah hit didominasi pada situs berkategori e-commerce,
services, ICT, entertaiment, dan social network. Gambar 22 menunjukkan total hit
untuk setiap kategori pada cluster 3. Jumlah anggota dari cluster 3 adalah 2
network. Hal yang menarik pada cluster ini adalah banyaknya hit ke situs
berkategori e-commerce. Pengguna yang melakukan akses internet dari
network172.20.32.0 yang dialokasikan untuk Ilkom Baranang Siang menghasilkan
991 hitke kategori ini, sedangkan akses internet dari network yang dialokasikan
untuk FKH lantai 3 menghasilkan 776 hit. Tidak terdapat pencilan pada cluster ini.

Gambar 22Jumlah hitpadacluster 3 untuklogproxy mahasiswa dan tenaga
kependidikan
Cluster 4 merupakan cluster dengan rata-ratahittinggi. Pada Tabel 6 yang
menunjukkan centroid setiap cluster, terlihat bahwa pada seluruh kategori kecuali
kategori publicationcluster ini memiliki nilai rataan yang lebih tinggi dibanding
cluster lainnya.Hit pada cluster ini didominasi ke situs berkategori services, ICT,

22
file sharing, entertaiment, dan socialnetwork. Jumlah anggota pada cluster ini
adalah 4 network. Gambar 23 menunjukkan total hit untuk setiap kategori pada
cluster. Pada cluster ini terdapat 25742 hit ke situs berkategori organization and
company. Sebesar 15872 hit dihasilkan dari network 172.20.33.0 yang
dialokasikan untuk Ilkom BS. Pada logproxy dosen network ini juga termasuk ke
dalam cluster dengan nilai hit tinggi pada kategori tersebut.

Gambar 23Jumlah hitpadacluster 4 untuklogproxy mahasiswa dan tenaga
kependidikan
Cluster 5 memiliki karakteristik yang hampir sama dengan cluster 4. Jumlah
hit didominasi pada situs berkategori services, ICT, filesharing, entertaiment, dan
socialnetwork. Gambar 24 menunjukkan total hit untuk setiap kategori pada
cluster 5. Jumlah anggota dari cluster 5 adalah 14 network. Terdapat pencilan
pada kategori university, games, ICT, entertainment, organization and company,
dan social network. Gambar 25 merupakan boxplot berdasarkan jumlah hit pada
cluster 5. Pencilan pada kategori entertainment disebabkan network yang
dialokasikan untuk Departemen TIN.Network ini menghasilkan 71342 hit pada
kategori tersebut. Pada kategori socialnetwork terdapat 2 pencilan. Pencilan
pertama dihasilkan karena nilai hit yang tinggi, yaitu sebesar 14405. Nilai ini
dihasilkan dari network yang dialokasikan untuk SC. Pencilan yang kedua
dihasilkan karena nilai hit yang rendah, yaitu sebesar 4572. Network yang
menghasilkan nilai hit ini adalah network yang alokasikan untuk Departemen ESL.
Pada kategori ICT juga terdapat 2 pencilan.Pencilan yang paling tinggi adalah
network yang dialokasikan untuk Departemen ITK, sedangkan pencilan yang
kedua adalah network yang dialokasikan untuk Departemen ITP.

23

Gambar 24Jumlah hitpadacluster 5 untuklogproxy mahasiswa dan tenaga
kependidikan

Gambar 25Pencilan cluster 5 pada logproxy mahasiswa dan tenaga kependidikan
Pada cluster 6 jumlah hit didominasi pada situs berkategori services, ICT,
filesharing, entertaiment, dan socialnetwork. Gambar 26 menunjukkan total hit
untuk setiap kategori pada cluster 6. Jumlah anggota dari cluster 6 adalah 33
network. Sebanyak 35% network yang ditemukan pada logproxy mahasiswa dan
tenaga kependidikan merupakan anggota dari cluster ini.Cluster ini mirip dengan
cluster 7 pada logproxy dosen. Kedua cluster ini sama-sama memiliki jumlah
anggota yang terbanyak tetapi memiliki rata-rata yang rendah. Hampir setiap
kategori pada cluster ini memiliki pencilan. Hal ini terlihat pada Gambar 27 yang
merupakan boxplot berdasarkan jumlah hit dari cluster 6. Pada kategori
entertainment terdapat 3 pencilan dengan nilai yang tinggi.Pencilan yang paling
tinggi adalah network yang dialokasikan untuk Departemen ARL.Pencilan kedua
tertinggi adalah salah satunetwork yang dialokasikan untuk Asrama Putra.Pencilan
yang ketiga adalah networkyang dialokasikan untuk Data Center FMIPA.

24

Gambar 26Jumlah hitpadacluster 6 untuklogproxy mahasiswa dan tenaga
kependidikan

Gambar 27Pencilan cluster 6 pada logproxy mahasiswa dan tenaga kependidikan
Perancangan Model HTB
Tahap perancangan ini menghasilkan 2 model HTB. Model HTB yang
pertama dirancang berdasarkan proses data mining pada log dosen, dan model
HTB yang kedua dirancang berdasarkan proses data mining pada log mahasiswa
dan tenaga kependidikan.Pengguna dosen dialokasikan 45% dari bandwidth yang
tersedia, sedangkan pengguna mahasiswa dan tenaga kependidikan dialokasikan
55% dari bandwidth yang tersedia. Nilai ini diperoleh dengan perhitungan sebagai
berikut

Perancangan model hirarki HTB pada server proxy dosen ditunjukkan pada
Gambar 28.Berdasarkan rata-rata setiap cluster pada setiap kategori (Tabel 7)

25
maka setiap cluster dibagi dalam 3 interior class. Class A berisi cluster dengan
rata-rata hit lebih dari 6000 pada setiap kategori situs. Class B berisi cluster
dengan rata-rata hitantara 3000 sampai 6000 pada setiap kategori situs.Class C
berisi cluster dengan rata-rata hit dibawah 3000.Class A berisi cluster dengan
nilai hit yang tinggi sehingga dialokasikan 40% dari bandwidthuntuk pengguna
dosen. ClassB dan C masing-masing memperoleh 30% dari bandwidth untuk
pengguna dosen.Pembagian bandwidth pada leaf class dilakukan dengan
perhitungan sebagai berikut

Root

Class A
(40%)

Cluster 2
(10%)

Cluster 0
(15%)

Class C
(30%)

Class B
(30%)

Cluster 3
(7%)

Cluster 6
(5%)

Cluster 5
(8%)

Cluster 1
(22%)

Cluster 7
(8%)

Cluster 8
(10%)

Cluster 4
(15%)

Gambar 28Model HTB pengguna dosen
Tabel 7Rataan hit seluruh kategori dari pengguna dosen
Cluster
0
10746.6

Cluster
1
2443.9

Cluster
2
6058.5

Rata-rata HitSeluruh Kategori
Cluster Cluster
Cluster
3
4
5
3913.9
17161.3
4824.2

Cluster
6
3143.1

Cluster
7
991.2

Cluster
8
45417.0

Total
Rataan
94699.6

Pada Class A penentuan alokasi bandwidth pada leaf class dilakukan berdasarkan
kebijakan IPB. Hal ini dikarenakan penggunaan internet dari network pada cluster
0, cluster 4 dan cluster 8 tidak sesuai dengan tugas pokok dan fungsi dari unit
kerja tersebut.
Pada proxy mahasiswa dan tenaga kependidikan perancangan model HTB
ditunjukkan pada Gambar 29. Seperti pada server proxy dosen, perancangan
model HTB pada server proxy mahasiswa dan tenaga kependidikan juga
dilakukan dengan cara yang sama. Tabel 8 menunjukkan rataan hit pada setiap
cluster. Pada server proxy mahasiswa dan tenaga kependidikanClass A berisi

26
cluster dengan rata-rata hit lebih dari 3000 pada setiap kategori situs. Class A
diberikan 40% dari total bandwidth yang dialokasikan untuk mahasiswa dan
tenaga kependidikan.Class B diberikan alokasi bandwidth sebesar 30% dan berisi
cluster dengan rata-rata hitantara 1000 sampai 3000 pada setiap kategori situs.
Class C diberikan alokasi bandwidth sebesar 30% dan berisi cluster dengan ratarata hit dibawah 1000.

Root

Class A
(40%)

Cluster 0
(10%)

Cluster 4
(23%)

Class C
(30%)

Class B
(30%)

Cluster 5
(17%)

Cluster 1
(18%)

Cluster 2
(12%)

Cluster 3
(15%)

Cluster 6
(15%)

Gambar 29Model HTB pengguna mahasiswa dan tenaga kependidikan
Tabel 8Rataan hit seluruh kategori dari pengguna mahasiswa dan tenaga
kependidikan
Cluster
0
9968.2

Cluster
1
2741.6

Cluster
2
1921.9

Rata-rata HitSeluruh Kategori
Cluster
Cluster
Cluster
3
4
5
651.9
21709.1
6723.8

Cluster
6
986.6

Total
Rataan
44703.0

SIMPULAN DAN SARAN
Simpulan
Pada penelitian ini telah dilakukan clustering terhadap kedua logproxy.
Hasil clusteringmenunjukkan bahwa karakteristik setiap clusteruntuk setiap unit
kerja tidak berbeda jauh. Situs berkategori entertainment dan services
mendominasi jumlah hit pada setiap cluster.Kedua kategori ini memiliki total ratarata persentase hit di atas 24% dan 33%. Berdasarkan hasil ini maka telah dibuat
perancanganmodel pembagian bandwidth untuk setiap pengguna.
Saran
Saran untuk penelitian selanjutnya adalah:

27
1 Perbaikan pada sistem logging perlu dilakukan sehingga username pengguna
dapat tercatat pada log.
2 Identifikasi pengguna tidak dilakukan berdasarkan IP address tetapi
berdasarkan username. Berdasarkan username tersebut, aktivitas pengguna
disetiap unit kerja maupun