PENDAHULUAN PEMBANGUNAN PERANGKAT LUNAK WEB SCRAPING UNTUK SITUS BERITA DAN PERINGKAS BERITA.

BAB I
PENDAHULUAN

1.1 Latar Belakang
ng
Seiring

dengan
dengan

perkembangan

tek
eknologi
teknologi

informasi

yang maju seperti sekarang
se
ekarang ini membuat orang

orang semakin
cepat

dalam

meng
me
n akse
ses
s
mengakses

info
in
f rm
rmas
asi.
informasi.

Infor

rma
m si
Informasi

bisa

dida
apatkan lewat
lew
wat internet
internet atau online.
on
nli
line
n . Informasi
Informa
asi yang
didapatkan
pa
aling

paling

ser
erin
i g
sering

di

akses

d
iim
mba
ang
ngi
i dengan
de
engan
diimbangi


adalah

be
.
berita.

Ha
Hal

ters
r ebut
tersebut

sit
tus
u berita
ber
erit
ita

a onli
l ne
penyedia layanan situs
online

di Indonesia
Ind
ndones
esia yang semakin banyak. Banyak
k media
med
edia
ia cetak
cet
tak
a
maupun
ma
aupun televisi
televisi sekarang sudah mempunyai situs

sit
i us
s berita
berita
a
online
on
onli
l ne
e sendiri.
Situs
Situs
memba
aca
membaca

berita

berita


online

memudahkan

dimanapun

dan

pengguna
penggun
na

kapanpun.

dalam
dal
a am
m

Ke

ebanyaka
kan
n
Kebanyakan

informasi yang ada di internet banyak yang bertele–tele
berte
ele–t
tele
e
dan
n

penting masuk di
di dalam
dala
am
banyak informasi yang tidak penting

berita terse

ebu
but
t
tersebut

(Pu
Putr
tra,
a, 2014).
201
014)
4). Sedangkan
Sed
dang
gka
kan konten yang
yan
ang
g
(Putra,


b
agus dan unik dapat menarik
menar
arik
i banyak pengunjung website,
webs
sit
ite
e,
bagus
merupakan
online
it
itu
m rupakan kunci utama website atau situs
me
situ
us on
onli

lin
ne
te
ters
seb
ebut
ut
tersebut

p
opul
op
uler
e
populer

(Ha
Hard
rdio
iono
o,
(Hardiono,

2010
20
10).
.
2010).

Den
enga
gan
n
Dengan

bany
ba
nyak
aknya
banyaknya

pe
eny
nyed
edia
ia layanan
lay
ayan
anan
an situs
sit
itus
u
berita
a onli
line
n
mem
embu
buat
at pembaca
pem
embaca
penyedia
berita
online
membuat
harus

berpindah–pindah
ber
be
rpindah–pindah
h

berita
penyedia

yang

bagus

situs

situs
sit
tus

dan
dan

berita
berit
ita

berita

berbobot.
ber
rbobot.
online
onl
line

untuk
untu
un
tuk
k

Apalagi

tersebut

melihat
sekarang
mempunyai

aplikasi mobile pembaca
a berita
beri
ita sendiri–sendiri. Dengan
keadaan tersebut membuat
t pembaca
pe
embaca berita harus memasang
aplikasi lebih dari satu
u kalau ingin membaca berita
dari

berbagai

khusus

untuk

sumber.

Saat

menggabungkan

ini

dibutuhkan

beberapa

situs

aplikasi
tersebut

menjadi satu. Teknik web scraping tersebut yang cocok
1

digunakan untuk mengambil berita dari berbagai situs
tersebut.
Web

scraping

informasi

dalam

merupakan

suatu
suat
su
atu

situs

teknik

untuk

mengambil

website
webs
we
b ite

secara

otomatis

(Riyadi, 2013).
2013)
). Fokus dari aplikasi web
web
e scraping
g adalah
mengambil

informasi
i

Pengindeksan
Penginde
deksan

dan

website
we
ebs
bsite

mengekstrak
ak

mempunyai
mem
empu
puny
nyai
ai

informasi.

hubungan
hubungan

dengan
d ngan
de

web

scra
aping, tetapi
teta
api web scraping
g fokus
fok
kus pada
pad
da transformasi
tran
nsf
s ormasi
scraping,
we
ebsite
e
website

tidak
tidak

ters
str
ruk
ukt
tur
terstruktur

terstruktur
terstruktur

(Zaira,

ters
seb
ebut
tersebut

dapat

database.
da
atabase
e.

Berita

2010).

disimpan
dari

men
enja
j di
menjadi
Format

dan

for
ormat
format

dat
a a
data

data

ters
te
rstruk
ktur
terstruktur

dapat

diana
nali
lisa
dianalisa

situs

dapat
dap
pat

berbagai

di
di

diambil
diambil
l

informasinya
info
in
f rm
masinya dengan teknik web scraping
g dan
n disimpan
dis
i im
impan
da m
dalam

database.

Selain

aplikasi

pengambil

informasi
i fo
in
orm
rmasi
i

dari berbagai situs, dibutuhkan juga summarize
e berita
berit
ita
a
un
u
tuk mendapatkan hasil summary
y beberapa berita menjadi
menj
jadi
i
untuk
satu
tu.
satu.
Summariz
ize
Summarize

ber
erit
ita
a
berita

be
erf
rfun
ung
gsi
i
berfungsi

untu
un
tuk
untuk

mering
gka
kas
s
meringkas

b
eberapa berita menjadi satu
s tu paragraf. Paragraf yang
sa
yan
ya
ng
beberapa
didapatkan
di
dida
dapa
patkan

merupakan

inti

dari

beberapa

berita.
beri
be
rita
ta.

Ringkasan
Ri
Ring
ngka
kasa
san
n berita
beri
be
rita
ta bisa
bis
isa
a dari
da i sumber
sum
umbe
ber
r yang
yang sama
sam
ama
a dan
dan bisa
bi
dari
dari

sumber
s
umbe
um
ber
r

ya
yang

berbeda.
b
erbe
bed
da.

Peringkas
Peri
ring
ngka
kas
s

Berita
Beri
Be
rita
ta

dari

berbagai
berbag
gai sumber
sumber merupakan
merupak
kan proses
pr
roses penyaringan
penyari
ing
ngan
an informasi
informasi
penting

dalam

satu

set

dokumen
dok
kumen

untuk

informasi yang relevan
n bagi pengguna

menghasilkan

(Evan, et al.,

2014). Pengguna akan lebih
lebi
b h cepat
ce
epat mengetahui inti berita
yang

dicari

dengan

fitur
fitu
ur

summarize

berita

ini.

Summarize berita pada penelitian
penel
e itian ini menggunakan metode
TF-IDF

(Term

Peringkasan

Frequency-Inverse
berita

ini

akan

Document
mengambil

dikumpulkan oleh web scraper di database.
2

Frequency).
data

yang

Aplikasi yang dibangun memanfaatkan teknologi web
scraping
berita.

untuk
Data

mengambil

berita

data

yang

pada

diambil

berbagai

tersebut

situs

langsung

da
ata
tabase untuk
k disimpan.
disimpan. Data berita
masuk ke dalam database
e dapat ditampilkan pada
pad
da aplikasi. Selain
dalam database
ditampilka
an, data berita
beri
rita dapat diolah untuk
untu
t k di ringkas
ditampilkan,
i
menjadi

h
lebih

mu h
mudah

meng
me
nget
etah
ahui
i
mengetahui

inti

ng
yang

dicari.

Apli
ikasi untuk meringkas
mer
eringkas berita memanfaatkan
me
ema
anf
n aatk
t an metode
met
etode TFAplikasi
ID
DF.
IDF.

TFF-ID
IDF
F
TF-IDF

pada
a
pada

kal
alimat
t
kalimat

digu
gun
nakan
digunakan
yang

karena

sebagai

dap
apat
a
dapat

inti

mem
embe
beri
r kan
memberikan

a
pada

sebu
buah
ah
sebuah

nilai

berit
i a.
berita.

Apli
ika
kasi untuk
untuk meringkas dan menampilkan
n berita
ber
erit
ita dari
da
ari
r
Aplikasi
berbagai
be
erbagai
i sumber berjalan pada mobile device.
device
ce. Aplikasi
Apl
Ap
likasi
i
mobile
mobi
mo
b le
e tersebut digunakan oleh pengguna secara
sec
cara
a umum.
umu
mum.
Pada
sisi administrator
Pa
r akan mengatur scraping
g website
web
ebsi
s te
e
Locator
or)
)
yang berisi pengaturan URL(Uniform Resource Locator)
dan rules.
Dengan
dalam

adany
ya
adanya

memb
bac
aca
membaca

aplikasi

beri
rita
ta.
.
berita.

ini

Peng
nggu
guna
na
Pengguna

memudahkan
tid
idak
ak
tidak

harus
harus

pen
pe
nggu
una
pengguna
melih
hat
melihat

berita per situs atau mengunduh
meng
ngunduh semua aplikasi berita,
ber
rit
ita
a,
berita
hanya
hany
ha
ya dengan satu aplikasi dapat melihat semua
ua berita
ber
erit
ita
dari
dari berbagai
ber
erba
baga
gai
i sumber.
sumb
su
mber
er. Selain
Sel
elai
in dapat
dapa
da
pat
t melihat
meli
me
liha
hat
t berita
beri
be
rita
ta dari
dari
berbagai
berb
be
rbag
agai
ai sumber,
sum
umbe
ber,
r, ada
da fitur
fit
tur peringkas
per
eri
ingk
gkas
as berita
ber
erit
ita
a yang
yang akan
memudahkan
inti
yang
memuda
dahk
hkan
an pengguna dalam
dal
lam mengetahui
me
int
ti berita
be
dicari.

3

1.2 Rumusan Masalah
Berdasarkan

dari

latar

belakang

di

atas,

maka

dapat di rumuskan permasalahannya sebagai berikut:
Bagaimana

mem
mba
bangun
membangun

berita

un
untuk

s
situs

dan

aplik
kas
asi
aplikasi

mengumpulkan
mer
ringkas
meringkas

web

scraper
r

berit
ita
berita

berita

dari

situs

berbagai

sesu
suai
sesuai

kriteria

pen
engguna?
?
pengguna?

1.
.3 Batasan
Ba
ata
tasa
san
n Masalah
Masa
ala
lah
1.3
Bat
atas
a an
n masalah dalam aplikasi web
web scraper
scra
sc
rape
per
r situs
sit
i us
Batasan
beri
ita ini
i adalah :
berita
1. Aplikasi
Aplikasi terbagi menjadi 2 yaitu aplikasi
apl
likas
asi
i untuk
k
admin

berbasis

website

dan

aplikasi
aplik
kasi
i

user
u er
us
r

pembaca berita berbasis mobile android.
2. Admin harus mengetahui struktur halaman website
websit
ite
e
yang akan di scrap atau diambil datanya.
3. Sumber

berita

untuk

sementara

hany
ya
hanya

sa
bisa

diam
mbi
bil
l dari
dari
ri kompas.com,
kom
ompa
p s.
.co
com
m, tempo.co,
tempo.c
co, okezone.com,
okezone.com
om,
,
diambil
sindonews.com, liputan6.com,
lip
put
utan6.com,

m.
dan detik.com.

1.4 Tujuan
1.4
Tuju
Tu
juan
an Penelitian
Pen
enel
elit
itia
ian
n
Be
Berd
rdas
asar
arka
kan
n
Berdasarkan

rumu
musan
n
rumusan

masa
alah
masalah

di

ata
tas
s
atas

maka
maka

ada

beberapa
bebera
apa tujuan
tujuan yang ingin
ing
ngin dicapai
dicapai yakni:
Membangun aplikasi
aplikas
si web scraper
scraper
r situs berita untuk
mengumpulkan

berita
ber
rita

dari
da
ari

berbagai

situs

dan

meringkas berita sesuai
se
esuai dengan kriteria pengguna.

4

1.5 Metodologi Penelitian
Metode yang digunakan dalam pembangunan aplikasi
ini yakni :
n
1. Kepustakaan
Meto
ode ini dilakukan dengan
n cara mengumpulkan
Metode
dan

mempelajari
mempelajari

ad
da,
ada,

sep
per
rti
seperti

internet

berbagai

sumber

buk
ukuu-bu
buku
ku
buku-buku

yan
ang
yang

dan
dan

mendukung

re
referensi

yang

artikel-ar
a tikel
artikel-artikel

da
ala
am
dalam

pe
erancan
nga
g n
perancangan

di
dan

im
mpl
plem
emen
e tasi
i aplikasi yang dibuat.
dib
ibua
u t.
implementasi
Pemban
Pe
angunan Perangkat Lunak
2. Pembangunan
Metode pembangunan perangkat lunak
lun
nak
a mencangkup
men
enca
c ngku
kup
Metode
proses
pro
oses

spesifikasi

kebutuhan

perangkat
perangk
gkat

lunak,
lunak
k,

seperti
antarmuka dengan pengguna (user interface)
se
inter
e fa
face)
maupun
maupun kinerja (performance) perangkat lunak
lu
unak
k pada
pa a
berbagai

fungsi

yang

dirancang

k
untuk

dap
pat
dapat

dilaksanakan oleh sistem. Dalam metode ini
in
ni ada
da 4
sub metode, yaitu:
y itu:
ya
2.1
1

Anal
alis
isis
is
Analisis
keb
ebutuhan merupakan bagian yang
yan
ya
ng
Analisis kebutuhan

tidak

bisa

dipisahkan

dari

pengembangan
penge
gemb
mban
anga
gan

pe
pera
rang
ngka
kat lunak,
luna
lu
nak,
k, dimana
dim
iman
ana
a perangkat
pera
pe
rang
ngka
kat
t lunak
luna
lu
nak
k yang
yang
perangkat
akan dibuat
akan
dib
ibuat nantinya
n nt
na
tin
inya akan
akan disesuaikan
dise
di
sesu
suai
aika
kan
n dengan
de
sp
spesifikasi
siste
em-sistem pendukung
pendu
duku
kun
ng lainya,
dan sistem-sistem
baik
lunak.

itu

per
rangkat
perangkat

Hasilny
ya
Hasilnya

keras

beru
upa
berupa

maupun

perangkat

spesifikasi

kebutuhan

perangkat lunak (SKPL
L).
(SKPL).
2.2

Perancanga
an
Perancangan
n
Perancangan

dilakukan

untuk

mendiskripsikan bagaimana perangkat lunak akan
dibangun. Perancangan yang dilakukan mulai dari
perancangan arsitektur, perancangan antarmuka,
5

dan

perancangan

basis

data.

Hasilnya

berupa

Deskripsi Perancangan Perangkat Lunak (DPPL).
2.3

Pengkodean
Peng
ngko
kodean adalah
h menyalin
m nyalin alur data dan
me
Pengkodean

alur sistem
sistem kedalam bahasa pemrograman.
pem
e rograman. Dalam
pe
enelitian
penelitian

ini
ini

diguna
aka
an
digunakan

bahasa

adal
ad
alah
ah
adalah

Preproc
ces
esso
sor)
Preprocessor)

pemrog
ograman
pemrograman

PHP
H
PHP

framework

yang

(PH
HP:
P Hypertext
(PHP:Hypertext

Cod
o eIgn
g iter,
CodeIgniter,

HTML5

(
Hype
Hy
p rTex
xt Markup Languag
ge 5), CSS3
CSS3 (Casading
(Casa
s ding
(HyperText
Language
S
tyle
e Sheet 3), dan Javascript. Pengkodean
Peng
ngko
kode
dean yang
yang
Style
di
ilakukan pertama adalah pengkodean
pengkodea
an alur
alur data,
dat
ta,
a
dilakukan
kemudian

dilanjutkan

dengan

pengkodean
pengko
kode
ean

alur
r

sistem.
2.4

Pengujian
Pengujian

akan

dilakukan

deng
gan
dengan

car
ara
a
cara

menguji fungsionalitas program yang dibangun.
di
ibang
ngun.
Pengujian

dibagi

peng
guj
uji
ian
pengujian

oleh
oleh

menja
j di
menjadi
ah
hli
ahli

2

yait
itu
yaitu

m
macam

tu
yaitu

programmer
programmer

pengujian oleh us
ser
e . Hasil pengujian
user.

dan
dan

ber
erup
upa
berupa

Perancangan, Deskripsi dan Hasil Uji Perangkat
Per
eran
angk
gka
at
Lunak
(PDHUPL).
Lu
Luna
nak
k (P
(PDH
HUP
UPL)
L).

1.6 Sistematika
Sist
Si
stem
ematika Penulisan
Penuli
isa
s n
Laporan

ini

ditulis
ditu
ulis

dengan
de
engan

sistematika

sebagai

berikut :
Pendahuluan
BAB 1 : Pendahulua
an
Bab
rumusan

ini

berisi
beri
isi
i

masalah,

latar

batasan

belakang

masalah,

masalah,

tujuan,

metodologi penelitian, dan sistematika penulisan
laporan.

6

BAB 2 : Tinjauan Pustaka
Bab ini berisi penjelasan mengenai penelitian
yang pernah dilakukan sebelumnya yang berkaitan
yang dibahas, dan
dan
a penjelasan mengenai
dengan topik yang
perbanding
ngan
perbandingan

antara

peneliti
tian
a
penelitian

yang

sudah

dilaku
kukan sebelumnya
sebelu
umnya dengan penelitian
peneliti
tian yang akan
dilakukan
di
ilakukan.
n
dilakukan.
La
and
ndas
a an Teori
BAB 3 : Landasan
Be
penjelasan mengenai
mengen
enai
a dasar
das
asar
ar teori
i yang
Berisi
penjelasan
berk
be
rkaita
tan dengan permasalahan yang
g dibahas.
dib
bah
ahas
as.
.
berkaitan
BA 4 : Analisis dan Perancangan Perangkat
Peran
angk
kat Lunak
Lunak
k
BAB
Bab ini berisi penjelasan mengenai
mengena
ai analisis
ana
an
alisis
s
permasalahan
permasalahan

yang

akan

diatasi

serta

membahas
mem
e ba
bahas

mengenai perancangan perangkat lunak yang dibuat.
dibu
buat
at.
Perangk
kat
a Lunak
ak
BAB 5 : Implementasi dan Pengujian Perangkat
Bab

ini

implementasi

berisi

perangkat
perangkat

penjelasan
lunak

yang

meng
genai
i
mengenai
dibu
uat
dibuat

dan
dan

an umum sistem.
sist
si
ste
em.
gambaran
BAB 6 : Kesimpulan dan
dan Saran
Bab
seca
se
cara
ra
secara

ini

berisi

kes
e el
elur
uruh
uhan
an
keseluruhan

kesimpulan
bes
eser
erta
ta
beserta

dari

pemb
pe
mbah
ahas
asa
an
pembahasan

sar
aran
an-sa
sara
ran
n
saran-saran

berm
be
rman
anfa
faat
at untuk
untuk
uk pengembangan
pen
nge
gemban
angan lebih
lebi
le
ih lanjut.
lanj
la
njut
ut.
.
bermanfaat
DAFT
DA
FTAR
AR PUSTAKA
DAFTAR
LAMPIRAN

7

yang
yang