TINJAUAN PUSTAKA PEMBANGUNAN PERANGKAT LUNAK WEB SCRAPING UNTUK SITUS BERITA DAN PERINGKAS BERITA.

BAB II
TINJAUAN PUSTAKA

manu
nusi
sia akan informasi
infor
orma
m si membuat banyaknya
Kebutuhan manusia
infor
rmasi seperti situs berita
berit
ita online. Terlalu
penyedia informasi
banyaknya

situs

kesulita
tan

kesulitan

be
erita
berita

dala
l m
dalam

online

meny
nyer
erap
ap
menyerap

membu
buat

membuat

inf
nfor
orma
masi
informasi

pengguna

yang

berbobot.

Terk
kadang situs
situ
us berita
b rita yang satu
be

u berbeda
ber
e beda
d dengan
denga
gan yang
Terkadang
la
ainnya
a
lainnya

te
g
tentang

i
nfo
orm
mas

asi
i
informasi

be
berita

apa

yang

dib
iber
eritakan
an.
.
diberitakan.

di


setiap

situs

Berb
bed
e anya
Berbedanya

mem
e bu
uat
membuat

pengg
guna
pengguna

memb
buk

uka banyak
ba
anyak situs berita. Kebiasaan pengguna
pen
ngg
g un
una
a membuka
m mbuk
me
uka
membuka
lebih
le
ebih

dari
dari

satu


informasinya
in
info
f rm
masinya
penelitian
pe
peneli
litian

situs

dapat

ini,

berita

untuk


mendapatkan
men
nda
dapa
patkan
n

memakan

banyak

waktu.
wakt
tu.

Pada
Pada

dibangun


sebuah

aplikasi
aplikas
a i

yang
ya g

akan

digun
nakan untuk membaca berita dari berbagai sumber.
sumbe
er.
digunakan
Teknologi web scraping
g digunakan dalam penelitian
penelit

tian ini
i
untu
tuk
k mengambil data dari berbagai
berbag
gai situs berita.
berita
a. Selain
Selai
ain
n
untuk
web

scrapin
ing
g,
scraping,


apli
lika
kasi
si
aplikasi

yan
ng
yang

diba
di
bangun
n
dibangun

ini
ini

juga

bi
isa
bisa

m
elakukan peringkasan berita
beri
rit
ta dengan menggunakan metode
me
eto
tode
de
melakukan
TF-IDF.
TF
TF-ID
IDF.
Bab tinjauan
tin
inja
jaua
uan pustaka
pust
pu
stak
aka
a ini
ini akan
akan menjabarkan
men
enja
jaba
bark
rkan
an beberapa
beb
eber
erapa
Bab
pe
ene
eli
liti
tian
an
penelitian

yan
ng
yang

pemban
ngu
guna
nan
pembangunan

terl
te
r ebih
ih
terlebih

aplikasi

dah
ahulu
dahulu

we
w
b
web

s
craper
scraper

di
ila
laku
kuka
kan
n
dilakukan
situs
s

seb
se
belum
sebelum

be
berita

dan

peringkas berita. Berikut
Ber
rikut adalah
ad
dalah beberapa penelitian
lain

yang

menjadi

a uan
ac
acuan

penulis

untuk

membangun

aplikasi ini.
Penelitian

yang

dil
i ak
akukan
dilakukan

oleh

(Riyadi,

2013)

dalam tugas akhirnya yang berjudul “Rancang Bangun REST
Web Service untuk Perbandingan Harga Pengiriman dengan
Metode

Web

Scrapping

dan

Pemanfaatan

API”.

Dalam

penelitian ini dibangun aplikasi untuk membandingkan
8

harga

pengiriman

dari

TIKI,

JNE

dan

POS

Indonesia.

Pengguna tidak perlu membuka situs web penyedia layanan
pengiriman

tersebut

satu

persatu

dan

tidak

perlu

berulang-ulang.
g. Pembangunan aplikasi
menginputkan data berulang-ulang.
pada

penel
lit
itian
penelitian

ini

mengguna
nakan
menggunakan

teknologi

REST(Repres
esentational
l State Transfer) web
eb service, web
REST(Representational
scraping
ng
g

dan

Inte
erface)
Interface)

pem
emanfa
aat
atan
an
pemanfaatan

ong
gki
kir.
r info.
ongkir.info.

A
PI(
PI
(Ap
Appl
plication
API(Application
Pemanfaa
ata
an
Pemanfaatan

AP
PI
API

P ogramming
Pr
Programming
ongk
gkir.info
ongkir.info

pa
ada penelitian
pen
enel
elit
i ian ini
in
un
ntu
tuk mendapatkan
me
end
ndap
apatkan
n data
pada
digunakan untuk
h
arg
ga pengiriman
pen
pe
ngir
rim
iman barang dan layanan kurir
ku
uri
r r JNE.
JNE.
harga
web

scrap
aping
g
scraping

pada

penelitian

ini

Tekn
k ik
Teknik

dig
gun
u ak
akan
an
digunakan

unt
tuk
u
untuk

mendapatkan
me
endapat
tkan harga pengiriman barang pada situs
sit
tus TIKI
TIK
IKI dan
n
POS
POS

Indonesia.
In
ndonesia.

Setelah

data

harga

pengiriman
pengirim
man
a

barang
bar
arang

didapatkan
di
didap
patkan kemudian dimasukkan ke dalam database.
databa
ase.
. REST
R ST
RE
T
web

service

digunakan

untuk

mengakses

a
data

harg
rga
a
harga

pe
p
ngiriman barang pada database.
pengiriman
(Utomo, 2012)
) melakukan penelitian
penelitian dengan
an judul
jud
dul
“Implement
tas
si
“Implementasi

PHP
PHP

p
ada
pada

Situs”.

Halaman

sebuah
se
sebu
buah
ah

aplikasi

menghasilkan
meng
me
ngha
hasi
sil
lka
kan
n
otomatis
otom
ot
mat
atis
is
halaman
halama
an
juga

rangkuman

dari

berbasis

konten
kont
ko
ten

website
w
ebsite

kata

aplikasi

wikipedia,

web

hasil

yahoo,

diba
ang
ngu
un
dibangun
untuk
untu
un
tuk

Sistem
Sist
Si
stem
em

secara
sec
ecara

ditampilkan
dit
itam
ampi
pilk
lkan
an

yang

berupa

Dengan
untuk

bing

Otomati
tis
s
Otomatis

digunakan
digunaka
kan
n

kata

dibuat
dibua
at
dan
da
an

dan
n

ini

pada

kunci.
kunci.

ini

yang

otomatis.
otom
ot
omat
atis
is.
.

konten
ko
n

berdasarkan
berdasa
sarkan
n

Ko
Konten

penelitian

secara
sec
ecar
ra

memasukkan
dan

Peng
Pe
ngha
hasil
il
Penghasil

Dal
alam
Dalam

menghasilkan
men
engh
ghas
asi
ilka
kan
n

akan

scraping
g

seba
se
baga
g i
sebagai

kunci.
kun
unci
ci.

pada
Sistem

judul,

memanfaatkan
mengambil

berdasarkan

isi,
Web

konten
keyword

yang dimasukkan oleh pengguna
peng
gguna aplikasi. Jika artikel
ditemukan maka akan tampil pada halaman web dan jika
tidak ditemukan maka akan menampilkan pesan not found.
Metode

pengambilan

konten
9

yang

digunakan

adalah

fetching

dan

rangking

yang

sebuah

cURL.

konten

Menurut

bagus

oleh

yang

unik,

penulis
mesin

agar

mendapatkan

pencari

sedangkan

dibutuhkan

dengan

teknik

pencari konten hasil
ilnya tidak unik.
un
nik
ik.
hasilnya
(Rifangi,
i, 2012) melakukan penelitian
peneli
litian dalam tugas
akhirnya dengan
dengan judul
l “Rancang Bangun Aplikasi
Ap
pli
l kasi Dekstop
Client Transkrip
Transkr
krip
ip Nilai
ai pada
pad
ada
a Do
Doma
main
in “krs.amikom.ac.id”
“krs.ami
mikom.ac.id”
Domain
deng
gan
dengan

k
Teknik

We
Web

Scraping”.

Pad
ada
a
Pada

peneliti
pe
tian
penelitian

ini

di
ibangun
un sebuah
seb
ebuah aplikasi
apl
ap
likasi untuk simulasi
sim
imul
ulasi transkrip
tran
tr
ansk
s rip nilai
dibangun
IPK
IPK

berb
be
rbasis
s
berbasis

dekstop.

Penggunaan

eb
web

scr
crap
apin
ing
g
scraping

pada
pada

pene
eli
litian
n ini adalah untuk mengambil data
da a yang
yang ada
ad
penelitian
pada
pa
ada krs.amikom.ac.id.
krs
rs.amikom.ac.id. Dengan data tersebut
tersebu
ut pengguna
peng
pe
nggu
g na
a
melakukan
bis
bisa
melakukan akses nilai maupun melakukan
n simulasi
si
imu
ula
lasi
i
IP menggunakan
IPK
menggunakan aplikasi dekstop.
(Josi, et al., 2014) melakukan penelitian
n dengan
denga
gan
n
ju
j
dul “Penerapan Teknik Web Scraping
g pada Mesin Pencari
Penc
cari
i
judul
Arti
tik
kel
Artikel

Ilmiah”.

Desember

201
013
3
2013

ob
o
servasi
observasi

Penelitian
sa
amp
mpai
ai
sampai

pada

perancangan,
pe
pera
anc
ncangan,

portal

dan

ini

akh
khir
ir
akhir

dilakukan
Januari
ri
Januari

jurnal
jurnal

2014

gratis.

pengimplementasian

pa
ada
pada

awa
wal
l
awal

deng
gan
dengan

Penelit
tia
ian
n,
Penelitian,

tentang

aplikasi
apli
ap
lika
kasi

pencarian
pe
penc
car
aria
ian
n artikel
arti
ar
tike
kel
l ilmiah
ilmi
il
miah
ah dengan
den
enga
gan
n bahasa
baha
ba
asa pemrograman
pem
emro
rogr
gra
aman
an PHP
PHP
databasenya.
da MySQL
dan
MySQ
My
SQL
L sebagai
seba
se
baga
gai
i data
tabase
sen
nya. Proses
Prose
ses
s pencarian
penc
pe
ncar
aria
ian
n artikel
art
ar
tikel
dengan
n
keyword
d

menggunakan
menggunakan
yang

akan

web
e

scraping.
scraping.

dicari,

jika

User
er
r

memasukkan
memasukkan

ada

maka

akan

ditampilkan pada halaman
halam
man web dan jika tidak maka akan
muncul

pesan

teknik

yang

not

found.
foun
nd.

bermanfaat

Teknik
Te
eknik
untuk
un
ntuk

web

scraping
g

mendapatkan

adalah

data

dari

halaman–halaman web secara
a cepat.
Berdasarkan

beberapa

penelitian

yang

sudah

dilakukan sebelumnya, penulis dapat menyimpulkan bahwa
faktor menggunakan web scraping adalah banyaknya situs
10

yang

harus

dibuka

untuk

mendapatkan

informasi.

Keuntungan menggunakan web scraping adalah hemat waktu.
Salah satu keuntungan memanfaatkan web scraping adalah
data

atau

konten

dari
dari

pa
beberapa

sumber

atau

website

dapat dimasukk
kan dalam satu aplikasi saja.
saj
a a.
dimasukkan
Penul
lis mencoba membangun web scrape
er untuk
untuk situs
Penulis
scraper
berita

dengan
n

ma
maksud
d

mem
emud
udah
ahka
kan
n
memudahkan

dan

menghe
hemat
menghemat

waktu

pemb
baca berita
a dalam
dal
a am mengakses berita.
ber
rit
ita. Aplikasi
Aplikas
asi yang
pembaca
ak
kan dibangun
dib
iban
angu
gun dibagi
di
iba
bagi menjadi dua yaitu
yaitu aplikasi
apl
plik
i asi untuk
akan
admi
ini
ist
str
rato
or dan aplikasi untuk user
r atau
ata
tau
u pengguna.
penggu
pe
una.
administrator
Apli
ika
kasi
Aplikasi

admin

berbasis

website

berfu
f ng
gsi
berfungsi

unt
tuk
u
untuk

pengaturan
pe
engatur
ran scraping
g konten berita berupa URL
L dan
an rules.
r les.
ru
Aplikasi
Ap
Apli
l ka
asi

untuk

membaca
me
memba
aca

berita.

user
r

berbasis

Selain

mobile

berfungsi

berfungsi
berfung
ngsi
i

untuk

untuk
unt
ntuk
k

menampilkan
men
nampi
pilk
l an
n

berit
ta, aplikasi mobile yang dibuat juga bisa meringkas
meringk
kas
berita,
be
b
berapa
beberapa
peng
ngg
guna.
pengguna.
berfungsi
y
ang
yang

berita

sesuai

Penulis
untu
un
tuk
k
untuk

nantinya

juga

me
eng
ngam
ambi
b l
mengambil

kata

kunci

membuat
data
data

ditampil
lka
kan
ditampilkan

web

berit
ita
a
berita

pada

Database
Da
Data
taba
b se yang digunakan adalah MySQL.

11

yang

di
imasu
ukan
n
dimasukan

ce
service

yan
ang
g
yang

pada

databa
base
se
database

aplikasi

mobi
bile
e.
mobile.

T
abel 2.1 Tabel
T bel Perbandingan Sistem
Ta
Sis
istem
Tabel

No

Pembanding

Riyadi

Utomo
Utom
Ut
omo
o

Rifangi
Rifang
gi

Josi,
Jo

*Penulis

(2013)
(201
13)

(2012)

(2012)

Abdillah, &
Abdil

(2015)

Suryayusra
Surya
(2014)
(20
1

2

Judul

Tujuan

Rancang
Ranc
cang Bangun
Bang
Ba
n un

Implementasi PHP

Rancang Bangun
B ng
Ba
gun

Penerapan
Pen
nera

Pembangunan Web

REST
RES
ST We
Web
eb Service
Serv
vice

sebagai Penghasil

Aplikasi

Teknik
Tekn
nik Web

Scraper Situs

untuk
un
ntuk Perbandingan
Perban
Pe
andingan

Konten Otomatis

Client
Dekstop Clie
ent

scraping
s
crap
pi

Berita dan

Harga
Ha
a Pengiriman
P ng
Pe
giriman

pada Halaman

Transkrip Nilai
Nil
lai

pada Mesin
pa
M

Peringkas Berita

dengan
deng
de
ngan Metode
Met
tode Web

Situs

pada Domain

Pencari
Penc
car

Scrapping
Scrapp
Sc
p ing
g dan

“krs.amikom.ac.
“krs.amikom.ac
c.

Artikel
Ar
rtike
ke

Pemanfaatan
Pe
ema
m nf
faa
aata
an API

id”

Ilmiah
Ilmi
mia
ah

Membangun
Me
emb
mbangun REST Web
Web

Membangun
Memb
Me
mban
a gu
gun
n

Membangun
Memb
Me
mban
angu
gun
n

Membangun
Memb
mba
an

Service
Serv
rvic
ice untuk

aplikasi

aplikasi

aplikasi
apli
ap
lika
Web aplikasi

perbandingan
perb
rban
ndi
ding
n an harga

penghasil

pengiriman
peng
gir
irim
iman
an barang
bar
aran
ang
g

yang
ya
ng

dengan
n We
Web
b

membangun
me
emb
mban
angu
g n

scraping dan
dan
Pemanfaatan API

konten dekstop Client
dapat
dap
apat
at tr
transkrip
tran
ansk
skri
rip
p nilai
nila
ni
lai
i
konten
ko en pa
pada
a do
doma
domain
m in

scraping
scra
sc
rapi
pada
pad
pa
da

Membangun

scraper

mesin berita

web
situs
untuk

pencari
p
encar

mengambil

pada web
b yang ber “krs.ami
“krs.amikom.ac.
miko
k m.
.ac
ac.

artikel
artike

berita

dpres.
CMS word
wordpres.

ilmiah

peringkas berita

12
1
2

id”

data
dan

3

Basis Data

Ya

Ya

Tidak

Ya

Ya

4

Platform

Web

Web

Dekstop

Web

Web dan Moblie

5.

Bahasa

PHP

PHP
PH
P

Actionscript
Acti
Ac
tionscript

PHP

PHP

Pemrograman

13
1
3