Ekstraksi Informasi Utama Halaman Web Be

EKSTRAKSI INFORMASI UTAMA HALAMAN WEB BERITA
MENGGUNAKAN METODE HYBRID
Septian Devid F.1, Yanuar Firdaus A. W.2, Z. K. Abdurahman Baizal3
1,2

Fakultas Informatika, Institut Teknologi Telkom
Program Studi Ilmu Komputasi, Institut Teknologi Telkom
1
sep_df@yahoo.co.id, 2yanuar@ittelkom.ac.id, 3baizal@ittelkom.ac.id
3

Abstrak
Web di internet telah menjadi repository data yang luar biasa besarnya. Telah banyak upaya yang
dilakukan untuk menyediakan akses yang efisien terhadap informasi yang relevan di dalam repository
data yang sangat besar ini. Salah satu cara untuk menyediakan akses yang efisien ini adalah dengan cara
web news content extraction yang memiliki fokus utama mengambil informasi dalam web berita. Pada
penelitian ini diimplementasikan metode hybrid untuk mengekstrak informasi utama pada halaman web
berita. Teknik ini berusaha mengambil keuntungan dari teknik sequence matching dan tree matching .
Struktur data yang digunakan adalah TSReC, yang merupakan salah satu representasi tag sequence yang
sesuai untuk kedua teknik sequence matching dan tree matching . Tahap analisis dan pengujian
memberikan hasil bahwa metode hybrid yang dibangun terbukti bisa mendapatkan news content pada

halaman web berita meskipun pada beberapa dataset masih terdapat noise.

Kata Kunci: web news content extraction , sequence matching , tree matching , TSReC, metode hybrid
Abstract
Web on the internet has become an enormous repository of data. Many efforts to provide efficient access
to the relevant information in the very large of data repository. One method to provide efficient access is
by web news content extraction with primary focus to take the information in the web news. In this
research implemented a method to extract key information on news web pages by using the Hybrid
method. This technique is trying to take advantage of the sequence matching techniques and tree
matching. The data structure used is TSReC, a variant of tag sequences representation suitable for both
sequences matching techniques and tree matching. From analysis and test results stage shown that that
Hybrid method is built proved to can get news content on news web pages, although in some datasets,
there are still noise.
Keywords: web news content extraction, sequence matching, tree matching, TSReC, hybrid method
1.

Pendahuluan

Sejak lahirnya internet, informasi dalam web
berkembang secara pesat. Masyarakat yang

sebelumnya menggunakan media konvensional
sebagai sarana publikasi informasi seperti surat
kabar, majalah, tabloid, pamflet, dan sebagainya,
mulai beralih memanfaatkan internet karena dirasa
lebih efisien dalam mempublikasikan informasi yang
mereka hasilkan ataupun untuk mencari informasi
yang mereka kehendaki. Akibatnya, informasi yang
beredar di internet terus meningkat secara
eksponensial.
Informasi yang ditampilkan dalam internet
biasanya berupa halaman web yang berformat
HTML. Dalam suatu halaman web terdapat berbagai
macam informasi yang dapat ditampilkan, walaupun
sebenarnya hanya sebagian kecil dari halaman
tersebut inti informasi yang ingin disampaikan. Ada
berbagai informasi tambahan dari suatu halaman
web yang tidak ada hubungannya dengan konten
utama dari web tersebut yang disebut dengan noise.
Informasi tambahan tersebut diantaranya adalah
panel navigasi, event, related links, copyright,

sinopsis suatu berita, berbagai macam iklan, dan

lain-lain yang secara keseluruhan bertujuan untuk
mempermudah
pengguna
dalam
mengakses
informasi dalam halaman web tersebut.
Saat ini para pengguna internet yang akan
mengakses informasi lebih dimudahkan dengan
adanya layanan mesin pencari yang beragam
jenisnya, salah satunya adalah mesin pencari berita
yang memiliki fokus utama pada halaman web
berita. Dalam sistem mesin pencari ada yang
dinamakan dengan proses indexing yang berfungsi
untuk untuk mengoptimalkan kecepatan dan kinerja
dalam menemukan dokumen yang relevan untuk
permintaan pencarian. Tanpa index, mesin pencari
akan memeriksa setiap dokumen dalam koleksi
dokumen, yang akan memerlukan banyak waktu dan

daya komputasi. Secara logika hasil dari suatu query
dari mesin pencari akan lebih baik jika proses
indexing dilakukan dengan content indexing saja
dari suatu halaman website. Oleh sebab itu,
diperlukan suatu proses yang dapat memisahkan
content utama halaman web dari noise, proses ini
disebut dengan ekstraksi web yang menjadi fokus
utama dalam penelitian ini.
Halaman web yang ditampilkan di internet
tidak semuanya memenuhi standar W3C ( World

Ekstraksi Informasi Utama Halaman Web Berita Menggunakan Metode Hybrid [Septian Devid F.]

Wide Web Consortium), hal ini dapat dilihat dari
hasil validasi menggunakan markup validator [11].
Masih banyak halaman web memiliki struktur tag
yang belum valid. Oleh sebab itu, nantinya sistem
ekstraksi web yang dibangun akan diujikan pada
dua jenis dataset yaitu mentah dan valid untuk
mengetahui pengaruhnya pada performansi sistem.

Adapun dalam penelitian ini metode ekstraksi
web yang digunakan untuk mengambil informasi
utama dari halaman web berita adalah dengan
metode hybrid yang merupakan kombinasi atau
penggabungan dari konsep tree dan konsep tag
sequence.
Tujuan penelitian ini adalah untuk melakukan
implementasi ekstraksi informasi utama halaman
web berita dengan menggunakan metode hybrid
serta melakukan analisis pengaruh penggunaan
jumlah dataset yang digunakan dengan kinerja yang
ditunjukkan. Selain itu juga akan dilakukan analisis
dari perbedaan kinerja dataset mentah dengan
dataset yang telah divalidasi dengan validator W3C
berdasarkan parameter uji.
Sistematika penulisan hasil penelitian ini
meliputi pendahuluan, dasar teori, implementasi,
pengujian, dan kesimpulan. Dasar teori yang
membahas teori dan teknik yang berkaitan dengan
algoritma yang digunakan dalam penelitian ini,

sedangkan implementasi meliputi meliputi proses
desain template untuk pengenalan pola halaman web
berita, melakukan sequence dan tree matching.
Bagian pengujian berisi hasil pengujian dan analisis
performansi berdasarkan data set yang digunakan.
Bagian terakhir yaitu kesimpulan menyatakan
resume akhir dari hasil pengujian dan analisis yang
telah dilakukan.

2.

mengaksesnya. Informasi tersebut berupa semistructured dengan kode HTML, yang mana biasanya
halaman web berisi campuran informasi seperti isi
utama, iklan, panel navigasi, copyright notice, logo,
dan lain-lain.
3.

Konsep Metode Hybrid

Metode yang digunakan dalam penelitian ini

mencoba untuk mengkombinasikan keuntungan dari
teknik berbasis tag sequence dan tree, sehingga
disebut sebagai solusi metode hybrid yang
diharapkan lebih efisien dan efektif. Gambaran
umum dari teknik ini adalah:
a. Menggunakan struktur data representasi halaman
web yang diberi nama TSREC (Tag Sequence
with Region Code) [7], yang dapat menyimpan
informasi struktur pohon yang dibutuhkan.
Representasi ini dibangun dari satu kali
penindaian HTML dan prose pengkodean region
code, sangat cocok sekali untuk tag sequence
based dan tree based extraction .
b. Menggunakan
algoritma
yang
efektif
berdasarkan TSReC yang berisi dua prosedur
yaitu Sequence Matching dan Tree Matching [7].
Prosedur pertama dapat mendeteksi dan

menghilangkan bagian yang identik dari halaman
web berita, seperti navigation bars, copyright
notes. Prosedur yang kedua dapat melakukan
matching dan menghilangkan struktur yang sama
dari web news pages, seperti advertisement dan
activities. Sebagai hasilnya, algoritma ini bisa
membedakan web news content dari bagian yang
lainnya.

Web Mining

Web mining dapat dibagi menjadi tiga kategori
utama, yaitu content mining , usage mining , dan
structure mining . Web content mining yaitu
merupakan aplikasi untuk menggali, mengekstrak,
dan
menggabungkan
data,
informasi
dan

pengetahuan yang bermanfaat dari isi halaman web
[8]. Data web content terdiri dari:
a. unstructured data (teks bebas),
b. semi structured data (dokumen HTML), dan
c. more structured data (data pada tabel, DB yang
dihasilkan halaman HTML).

Pada penelitian ini memfokuskan kepada web
content mining . Web content mining terkadang
disebut juga web text mining karena isi teks lebih
sering digunakan sebagai penelitian. Teknologi yang
biasanya digunakan web content mining adalah NLP
dan IR [5,9], tetapi pada penelitian ini memfokuskan
kepada IR. Kegunaan web content mining pada
World Wide Web antara lain menemukan informasi
yang relevan dan menciptakan pengetahuan dari
informasi yang ada, sehingga informasi dalam
jumlah yang banyak di situs web tetapi mudah untuk

Gambar 1. Contoh Template Web

Situs http://www.detik.com

Jurnal Penelitian dan Pengembangan TELEKOMUNIKASI, Juni 2010, Vol. 15, No. 1

3.1 Definisi Template

TS = < N,RCb,RCe,RCp,RCl,C>

Template adalah merupakan halaman web yang
belum lengkap yang dijadikan dasar dan dapat digenerate menjadi halaman web yang lengkap dengan
mengisi reserved field dengan nilai tertentu
(Gambar 1). Template biasanya terdiri atas common
part, regular part, dan content part [7]:
a. Common part merupakan reserved teks yang
tidak dapat diganti
b. Regular part merupakan reserved rigid structure
yang berisi field yang belum terisi yang
disiapkan untuk diisi dengan nilai tertentu.
c. Content part merupakan reserved area yang
dapat diisi dengan html fragment yang

acak/random.

dengan:
a. N merupakan nama dari TS, biasanya memiliki
nama yang sama dengan tag HTML-nya.
b. RCb, RCe, RCp, dan RCl adalah region code,
yang equivalent dengan tag begin, tag end,
parent, dan level.
c. C merupakan content dari TS, yang bisa saja
berisi inner HTML dan teks, ataupun kosong.
TSReC dapat dengan mudah dibangun dengan
satu kali scan Web page. Algoritma untuk
membangun TSReC merupakan modifikasi dari
algoritma konvensional untuk membangun tag tree.
Algoritma 1 menunjukkan algoritma untuk
membangun TSReC

3.2 Tag Sequence with Region Code (TSReC)

3.3 Sequence Matching untuk Common Part

Ide dasar dari tag sequence region code adalah
memperluas fungsionalitas dari teknik tag sequence
yang telah ada dengan menambahkan informasi
struktural. Informasi struktural ini mengadopsi
konsep region code pada XML processing[6] yang
telah terbukti merupakan cara yang ideal
menambahkan
informasi
struktural
pada
penyimpanan berbasis element. Dengan region code
ini, semua relasi struktural seperti parent-child,
ascent-decedent dan sibling dapat disimpan.

Tujuan dari sequence matching adalah untuk
mencari common part dari halaman web yang akan
diekstrak. Untuk melakukan proses ini, metode
hybrid mencoba untuk mengadopsi teknik
penghitungan string edit distance atau biasa juga
disebut Levenshtein Distance [4]. Operasi yang
dilakukan dalam string edit distance di antaranya
adalah insert, delete dan substitute[1]. Maksud dari
edit distance ini sendiri adalah menghitung jumlah
minimum dari operasi insert, delete dan substitution
yang dilakukan untuk mengganti string S1 menjadi
S2 [2]. Sebagai contoh, edit distance antara “kitten”
dan “sitting” adalah 3, nilai tersebut berasal dari 3
operasi yang dilakukan, yaitu:
a. kitten → sitten (substitution 's' untuk 'k')
b. sitten → sittin (substitution 'i' untuk 'e')
c. sittin → sitting (insert 'g' diakhir string)[4].

Algoritma buildTSReC(w)
/* w merupakan input
web page */
01 TSReC tsrec
/* variable yang bertipe TSReC
*/
02 TS temp_TS /* variable temp untuk TS */
03 Stack S /* stack untuk menyimpan ts */
04 int count, level, parent
05 while t = readNextTerm(w) do
06 if t is open Tag then
07
ts = getTop(S)
08
if t breaks text flow then
09
if ts is null then
10
count = 0, level = 0, parent = 0
11
else
12
count++,level = ts.RCb,parent=ts.RCl+1
13
end if
14
temp_TS=createNewTS(t,count,level,parent)
15
push(S, temp_TS)
16
else // t tidak break text flow
17
appendToContent(ts, t)
18
endif
19 elseif t is close tag then
20
if t breaks text flow then
21
ts = pop(S)
22
count++
23
ts.RCe = count
24
append(tsrec, ts)
25
end if
26
else if t is text then
27
ts = getTop(S)
28
appendToContent(ts, t)
29
end if
30 end while
31 return tsrec

Algoritma 1. Build TSReC [7]
Definisi TSReC adalah sequence dari tag-tag
element HTML yang memiliki struktur sebagai
berikut [7]:

Sehingga pemetaannya adalah:
K
S

i
i

t
t

t
t

e
i

N
N

g

Algorithm sequenceMatch(t1,t2)
01 int t1size = sizeof(t1)
02 int t2size = sizeof(t2)
03 int M[t1size+1][t2size+1]
04 M[i] [0] = I, i=0,1,2,…,t1size+1
05 M[0] [i] = I, i= 0,1,2,…,t2size+1
06 for i=1 to t1size do
07
for j=1 to t2size do
08
ts1 = the ith ts of t1
09
ts2 = the jth ts of t2
10
int match = 1
11
if ts1 and ts2 have same tag name
and content text then
12
match = 0
13
end if
14
M[i] [j] = Min(M[i-1][j1]+match,M[i-1][j]+1,M[i][j-1]+1)
15
if M[i] [j] == M[i-1] [j-1]+match
then
16
mark matching of ts1 and ts2
17
end if
18
end for
19 end for

Algoritma 2. Sequence Matching [7]

Ekstraksi Informasi Utama Halaman Web Berita Menggunakan Metode Hybrid [Septian Devid F.]

Algoritma 2, sequence matching ini
menggunakan input berupa dua halaman web yang
telah direpresentasikan dalam TSReC. Seperti
perhitungan konvensional string edit distance,
algoritma ini juga menggunakan teknik dynamic
programming (baris 03-19). Dynamic programming
digunakan karena efisien dalam pencarian solusi
optimal untuk problem yang memiliki banyak
overlapping sub-problem [10]. Berbeda dengan
string edit distance yang membandingkan karakter
di dalam string, algoritma ini membandingkan TS di
dalam TSReC (baris 11). Jika kedua TS yang
dibandingkan memiliki nama tag dan konten teks
yang sama, maka kedua TS tersebut dianggap sama
(cocok).
3.4 Tree Matching untuk Regular Part
Pada metode hybrid, sebelum proses tree
matching , terlebih dahulu dilakukan proses
grouping. Tujuan dari proses grouping adalah untuk
mencari tag-tag didalam TSReC yang berada dalam
satu sub tree.. Metode grouping ini cukup sederhana
yaitu dengan mengecek parent dan tree level TS
yang sibling. Jika TS yang sibling memiliki parent
dan level tree yang sama, maka TS tersebut berada
dalam subtree yang sama sehingga dimasukkan
dalam group yang sama dengan cara memperluas
jangkauan group region . Sebaliknya jika tidak
memiliki parent dan level tree yang sama maka
group yang baru akan diciptakan..
Hasil dari proses grouping ini berupa sub tree
yang kemungkinan regular atau content parts.
Sehingga proses selanjutnya yang akan dilakukan
adalah proses untuk membedakan regular part dari
bagian yang lainnya. Penentuan apakah suatu sub
tree di dalam Web page adalah regular part dihitung
dengan membandingkannya dengan sub tree di Web
page lain yang sharing rigid pattern .
Fungsi lain yang perlu diperhatikan pada
algoritma tree matching adalah fungsi compact
Group. Fungsi ini didesign untuk menangani field
yang berulang pada regular parts. Pada algoritma
compactGroup , dilakukan pengecekan apakah node
sibling memiliki patten sequence yang sama.
Setelah proses tree matching , sistem telah
dapat mengidentifikasi baik common parts (dengan
sequence matching ) dan regular parts. Maka sisa
bagian dari halaman web merupakan bagian content
parts yang dibutuhkan. Dengan mengembalikan
bagian ini akan didapatkan content halaman berita
yang dibutuhkan.
4.

Pengukuran Performansi
Dalam penelitian ini ada tiga parameter yang
digunakan untuk mengetahui tingkat keberhasilan
sistem yang dibangun, yaitu precision, recall, dan FMeasure.
4.1 Precision, Recall, dan F-Measure
Precision merupakan perbandingan dari
pengembalian dokumen yang relevan. Bisa dikata-

kan bahwa precision merupakan pecahan atau
fraction dari dokumen yang didapatkan yang relevan
dari informasi yang diinginkan [3].

R'

R
Precision =

(1)

R'

R: Relevant Document
R’: Retrieved Document
Recall merupakan perbandingan dari dokumen
relevan yang sudah dikembalikan. Atau bisa
dikatakan bahwa recall merupakan fraction dari
dokumen yang relevan berdasarkan query atau
permintaan yang sukses dijawab atau dikembalikan
[3]. Gambar 2 menyajikan illustrasi dari Precision
dan Recall.
R
R'
(2)
Recall =
R
R: Relevant Document
R’: Retrieved Document
F-Measure didefinisikan sebagai kombinasi dari
recall dan precision dengan bobot yang seimbang,
rumusan dari F-Measure adalah sebagai berikut [3]:

F

5.

Measure

2 recall precission
recall precission

(3)

Deskripsi Sistem

Objektivitas yang ingin dicapai dari hasil
penelitian ini yakni diharapkan pengguna dapat
mengekstrak informasi dari konten beberapa web
berita secara otomatis dan mendapatkan nilai akurasi
yang dicapai dengan metode hybrid.
Sistem dibangun menggunakan PHP dengan
user interface yang user fiendly sehingga hasil dari
sistem akan mudah untuk dioperasikan. Data mentah
yang masih dalam bentuk halaman web dan masih
mengandung common parts dan regular parts akan
diletakkan dalam direktori sesuai nama situs dengan
sebelumnya dilakukan proses crawling suatu website
dengan menggunakan tools Teleport ataupun secara
manual. Setelah dilakukan proses pengekstrakan,
content berita yang didapatkan disimpan di database
untuk dihitung akurasinya dan selanjutnya disimpan
dalam bentuk file txt. Deskripsi sistem ditunjukkan
pada Gambar 3.
Document Collection

Relevant
Document

Retrieved
and
Relevant
Document

Retrieved
Document

Gambar 2. Ilustrasi Precision dan Recall

Jurnal Penelitian dan Pengembangan TELEKOMUNIKASI, Juni 2010, Vol. 15, No. 1

Secara garis besar pengujian yang dilakukan
dibagi dalam dua tahap. Pada tahap pertama
(skenario 1) pengujian dilakukan untuk mengetahui
pengaruh jumlah dataset terhadap performansi
sistem yang sudah dibangun. Pada tahap kedua
(skenario 2,3) dilakukan perbandingan performansi
antara dataset mentah dan dataset yang telah di
validasi oleh validator W3C.
Adapun rincian skenario pengujian yang
dilakukan terhadap sistem ini adalah sebagai berikut:
a. Pengujian terhadap pengaruh banyaknya jumlah
dataset yang digunakan terhadap performansi
sistem.
b. Pengujian terhadap performansi sistem Web
News Content Extraction TSReC yang telah
dibangun pada dataset halaman web berita yang
masih belum memenuhi standar W3C.
c. Pengujian terhadap performansi sistem Web
News Content Extraction TSReC yang telah
dibangun pada dataset halaman web berita yang
telah divalidasi dengan HTML validator standar
W3C.

Halaman web yang digunakan sebagai dataset
dari berbagai kategori seperti olah raga, politik,
budaya, internasional, hiburan dan kategori lainnya
(tidak ada ketentuan dalam hal ini). Secara detil
website yang digunakan sebagai dataset sejumlah
sepuluh website, yaitu:
a. www.antaranews.com,
b. www.bbc.co.uk/indonesian,
c. www.beritajakarta.com,
d. www.detik.com,
e. www.kompas.com,
f. www.liputan6.com,
g. www.mediaindonesia.com,
h. www.okezone.com,
i. www.pikiran-rakyat.com, dan
j. www.vivanews.com
yang masing-masing diambil 51 halaman, dengan
komposisi 1 halaman sebagai page reference dan 50
halaman sebagai halaman yang diekstrak. Tidak ada
ketentuan khusus dalam penentuan jumlah dataset
ini. Jumlah dataset ini diambil dengan pertimbangan
untuk mengakomodasi keragaman pola layout dari
beragam situs dan untuk mencoba mengetahui
adanya perbedaan layout pada beberapa halaman
yang berasal dari situs yang sama.

6.2 Data Uji yang Digunakan

6.3 Analisis Hasil Pengujian

Data uji yang digunakan adalah beberapa
halaman web dari berbagai situs berita, dengan 5
kriteria halaman web yang telah memuat content
berita secara utuh, bukan cuma headline saja.

6.3.1 Analisis Pengaruh Jumlah Data terhadap
Performansi Sistem

6.

Pengujian dan Analisis

6.1 Skenario Pengujian

Web
page in
Internet

Crawling

Saving
document in
directory
Determine
Web Page
Reference

Pembangunan Struktur Data TSReC

Web Page
1

Web Page
2

Web Page
n

Reference
Web Page

Build
TSReC1

Build
TSReC2

Build
TSReCn

Build
TSReC

Matching

Web Page 1 ... Web Page n

Sequence
Matching

Grouping

Tree Matching
Compacting
Group

News
content

Evaluation

Accuration and
News content

Gambar 3. Deskripsi Sistem

Copy
Paste
Real
Content to
Text File

Pengujian ini dilakukan untuk mengetahui
keterkaitan antara jumlah dataset yang digunakan
dengan performansi yang dihasilkan oleh sistem.
Berdasarkan Gambar L-1 dan L-2 pada Lampiran
dapat diketahui bahwa pada situs Antara News,
Berita Jakarta, BBC Indonesia, Detik, Kompas,
Liputan 6, Okezone, dan Viva News jumlah dari
dataset yang digunakan tidak terlalu berpengaruh
terhadap performansi sistem, hal tersebut terlihat
dari grafik yang cenderung stabil walaupun jumlah
dataset terus bertambah. Selisih nilai minimum dan
maksimum F-Measure dari kedelapan situs tersebut
juga sangat kecil, yaitu:
a. Antara News
: 0,0763
b. Berita Jakarta
: 0,0178
c. BBC Indonesia
: 0,0418
d. Detik
: 0,0600
e. Kompas
: 0,0539
f. Liputan 6
: 0,0484
g. Okezone
: 0,1127
h. Viva News
: 0,1080
Hal ini sesuai dengan asumsi penulis bahwa jumlah
dataset tidak akan mempengaruhi performansi
sistem karena masing-masing dataset yang diambil
adalah dataset dari satu situs saja dan dataset
(halaman web) tersebut memiliki layout yang sama
karena satu sama lain berhubungan secara langsung
dari link-link yang mereka miliki, sehingga semakin
dekat hubungan halaman web yang yang dijadikan
dataset maka semakin kecil pula pengaruh jumlah
dataset yang digunakan terhadap performansi sistem

Ekstraksi Informasi Utama Halaman Web Berita Menggunakan Metode Hybrid [Septian Devid F.]

atau dengan kata lain berapapun jumlah dataset yang
digunakan, performansi system akan cenderung
stabil.
Untuk dua situs yang tersisa, yaitu Media
Indonesia dan Pikiran Rakyat, cenderung tidak
memiliki pola tertentu. Pada situs Media Indonesia
ketika dataset berjumlah antara 2 sampai 21,
nilainya cenderung turun naik dengan angka yang
cukup signifikan, tercatat nilai minimum sebesar
0,4457 dan nilai maksimum sebesar 0,7596 sehingga
nilai selisihnya yaitu 0,3139. Akan tetapi ketika
interval dataset berjumlah 22 keatas performansi
yang didapat cenderung stabil dengan selisih nilai
minimum dan maksimum sebesar 0,0914.
Sama halnya dengan Media Indonesia, situs
Pikiran Rakyat pun memiliki pola yang sama.
Interval 2-19 performansi yang ditunjukkan
cenderung turun naik dengan nilai yang cukup
signifikan dengan nilai minimum 0.0618, nilai
maksimum 0,2170 dan selisih sebesar 0,1552.
Sedangkan interval 20 – 51 performansi cenderung
stabil dengan selisih nilai minimum dan maksimum
sebesar 0,0558.
Setelah diperiksa, tidak stabilnya performansi
tersebut ternyata terjadi karena walaupun halaman
website yang dijadikan dataset saling berhubungan
namun terdapat perbedaan yang cukup besar pada
layoutnya yaitu pada bagian content part. Sehingga
performansi yang ditunjukkan cenderung tidak
stabil.
Dari sini dapat diambil kesimpulan bahwa
dengan dataset yang cocok dan sesuai dengan
metode yang digunakan (seperti pada situs Antara
News, Berita Jakarta, BBC Indonesia, Detik,
Kompas, Liputan 6, Okezone, dan Viva News),
maka pertambahan jumlah dataset tidak akan
mempengaruhi performansi sistem.
6.3.2 Analisis Perbandingan Penggunaan Data
Mentah dan Valid terhadap Performansi
Sistem
Tabel 1 menyajikan hasil analisis performansi
system dengan menggunakan dataset mentah dan
valid.
Tabel 1. Hasil Pengukuran Performans Tabel
dengan Dataset Mentah
No
1
2
3
4
5
6
7
8
9
10

Jumlah
Precision
Dataset
Antara News
50
0,6898
BBC Indonesia
50
0,9053
Berita Jakarta
50
0,8735
Detik
50
0,3270
Kompas
50
0,8377
Liputan 6
50
0,8297
Media Indonesia
50
0,7059
Okezone
50
0,8837
Pikiran Rakyat
50
0,6060
Vivanews
50
0,7197
RATA-RATA
0,7378
Situs

Recall
0,0751
0,9809
0,9886
0,9289
0,9734
0,9837
0,7069
0,9492
0,2125
0,9550
0,7754

FMeasure
0,1192
0,9397
0,9272
0,4759
0,8947
0,8902
0,6486
0,9101
0,2459
0,8178
0,6869

Tabel 2. Hasil Pengukuran Performansi Tabel
dengan Dataset Valid
No.
1
2
3
4
5
6
7
8
9
10

Jumlah
Precision
Dataset
Antara News
50
0.6898
BBC Indonesia
50
0.9052
Berita Jakarta
50
0.8764
Detik
50
0.3264
Kompas
50
0.8377
Liputan 6
50
0.8270
Media Indonesia
50
0.7052
Okezone
50
0.8862
Pikiran Rakyat
50
0.5603
Vivanews
50
0.7198
RATA-RATA
0,7295
Situs

Recall
0.0751
0.9809
0.9886
0.9343
0.9734
0.9838
0.7077
0.9559
0.2004
0.9550
0,7755

F-Measure
0.1192
0.9396
0.9288
0.4760
0.8947
0.8887
0.6492
0.9149
0.2255
0.8178
0,7295

Gambar 4. Grafik Perbandingan F-Measure
Dataset Mentah dan Valid
Dari Tabel 1 dan 2 serta Gambar 4 dapat
diketahui bahwa, hasil yang diperoleh dari dataset
valid cenderung sama dengan dataset mentah, Situssitus yang mendapatkan nilai tinggi (memiliki
kecocokan dengan metode hybrid) pada dataset
mentah, juga mendapatkan nilai tinggi pada dataset
valid, begitu pula dengan situs-situs yang
mendapatkan nilai F-Measure rendah pada dataset
mentah juga mendapatkan nilai rendah pada dataset
valid, Nilai F-Measure ini bisa sama, karena dalam
preprocessing, term-term yang dihilangkan mungkin
bukan informasi yang penting dari dataset tersebut.
6.3.3 Analisis
Tambahan
Performansi

Peningkatan

Tujuan dari pengujian ini memperbaiki
performansi yang didapatkan oleh situs Antara News
dan Pikiran Rakyat, pengujian ini dilakukan dengan
cara memberikan batasan jumlah term dari suatu
content, sehingga apabila jumlah term suatu group
melebihi batas yang telah ditentukan, maka proses
compact group akan dibatalkan, Hal ini dapat
meminimalisir terjadinya proses kesalahan compact
group .
Pengujian dilakukan dengan menginputkan
batasan jumlah term dalam interval 10 – 250,
Kemudian akan dipilih batasan jumlah term yang
menghasilkan performansi yang paling baik (dapat
dilihat pada Gambar 5).

Jurnal Penelitian dan Pengembangan TELEKOMUNIKASI, Juni 2010, Vol. 15, No. 1

Gambar 5. Grafik Penentuan
Batasan Jumlah Term Antara News

Gambar 6. Grafik Perbandingan Nilai F-Measure
Dataset Antara News Tanpa Batasan
dan Dengan Batasan Jumlah Term

Gambar 7. Grafik Penentuan
Batasan Jumlah Term Pikiran Rakyat

Dari Gambar 5 dapat diketahui bahwa
performansi sistem di antara interval 10 – 250
memiliki pola naik sampai nilai tertentu dan
kemudian turun teratur secara stabil, Nilai
performansi tertinggi didapatkan saat batasan jumlah
term berada antara interval 80 – 100 yaitu sebesar
0,9610.
Dari Gambar 6 dapat diketahui bahwa nilai FMeasure yang diperoleh tanpa batasan jumlah term
sebesar 0,1192 dan nilai F-Measure dengan
menggunakan batasan jumlah term sebesar 0,9610.
Dari nilai tersebut dapat diperoleh kenaikan
performansi yang cukup signifikan sebesar
0,8418.
Sama seperti dataset Antara News, kenaikan
performansi dataset Pikiran Rakyat juga cukup
signifikan yaitu sebesar 0,7139 yang diperoleh
dengan mengambil nilai tertinggi F -Measure yaitu
sebesar 0,9598 (Gambar 7 dan 8).
Dari kedua pengujian yang telah dilakukan,
dapat disimpulkan penggunaan batasan jumlah term
merupakan cara yang cukup efektif untuk
menaikkan performansi sistem jika ternyata proses
ekstraksi yang dilakukan menghasilkan performansi
kurang baik akibat kesalahan proses compact group
dalam melaksanakan fungsinya.
7.

Kesimpulan dan Saran

7.1 Kesimpulan
Berdasarkan analisis dan pengujian terhadap
sistem yang telah dilakukan maka dapat diambil
beberapa poin kesimpulan sebagai berikut:
1. Penggunaan jumlah dataset yang berbeda
memiliki pengaruh yang bervariasi terhadap
performansi parameter precission, recall, dan Fmeasure yang ditunjukkan, hal ini tergantung
dari tingkat similarity page reference dengan
page extracted , Semakin similar maka
performansi yang ditunjukkan semakin stabil.
2. Penggunaan dataset mentah maupun valid juga
memiliki pengaruh yang bervariasi terhadap
performansi precision , recall dan F-measure,
tergantung dari proses validasi yang dilakukan
oleh validator .
3. Penggunaan batasan term terhadap suatu group
(TS yang berada dalam subtree yang sama /
sibling ), dapat digunakan sebagai solusi yang
sangat efektif untuk meningkatkan performansi
sistem jika terjadi kesalahan fungsi proses
compact group .
7.2 Saran

Gambar 8. Grafik Perbandingan Nilai F-Measure
Dataset Pikiran Rakyat Tanpa Batasan dan
Dengan Batasan Jumlah Term

Beberapa saran untuk penelitian lebih lanjut, yaitu:
1. Sistem
ini
akan
lebih
baik
jika
diimplementasikan secara online (misal sebagai
plugin browser ).
2. Penentuan page reference akan lebih baik jika
secara otomatis dapat mendeteksi tingkat
similarity page reference dan page extracted.

Ekstraksi Informasi Utama Halaman Web Berita Menggunakan Metode Hybrid [Septian Devid F.]

Daftar Pustaka
[1] Bille, Philip, "String Edit Distance and
Alignment", Tutorial, 2005.
www.itu.dk/courses/AVA/E2005/StringEditDi
stance.pdf, diakses pada 20 Oktober 2009.
[2] Dynamic Programming Algorithm for Edit
Distance,
http://www.csse.monash.edu.au/
~lloyd/tildeAlgDS/Dynamic/Edit/ , diakses
tanggal 15 Juli 2009.
[3] IR Evaluation , Lecture 9, Lecture Notes of
Information Retrieval, Computer Science and
Electrical
Engineering,
University
of
Maryland,
URL:http://www.cs.umbc.edu/~ian/irF02/lectu
res/09Evaluation.pdf
[4] Gonzalo, Navarro,
"A guided tour to
approximate string matching", ACM
Computing Surveys, 33(1): 31 – 88, 2001.
[5] Kosala, Raymond, Hendrik Blockeel, "Web
Mining Research: A Survey", ACM SIGKDD
Conference on Knowledge Discovery and
Data Mining, July 2000.
[6] Li, Quanzhong, Bongki Moon, "Indexing and
Querying XML Data for Regular Path
Expressions", In Proceedings of the 27th
VLDB Conference, Roma, Italy, 2001.

[7] Li, Y, X. Meng, Q. Li, L. Wang, "Hybrid
Method for Automated News Content
Extraction from the Web", In Proceedings of
7th Conference on Web Information System
Engineering , 327 – 338, 2006.
[8] Liu, Bing, "Web Content Mining", University
of Illinois at Chicago, Tutorial, 2005.
http://www.frenchlane.com/WebContentMining-4.pdf, diakses tanggal 17 Januari
2009.
[9] Madria, Sanjay Kumar, "Web Mining: A
Bird’s Eye View", University of MissouriRolla, Tutorial, 2007.
http://mandolin,cais,ntu,edu,sg/wise2002/webmining-WISE-30,ppt, diakses tanggal 24 Juli
2009.
[10] McCallum, Andrew, "String Edit Distance
(and Intro to Dynamic Programming )",
Tutorial, 2006.
www.cs.umass.edu/~mccallum/courses/cl2006
/lect4-stredit.pdf, diakses tanggal 12 Juni 2009
[11] W3C Opensource, "Markup Validation
Service", http://validator.w3.org/docs/help
.html#validation_basics

Jurnal Penelitian dan Pengembangan TELEKOMUNIKASI, Juni 2010, Vol. 15, No. 1

Lampiran
Grafik Pengaruh Jumlah Dataset terhadap F-Measure
1
0.95
0.9

F-Measure

0.85
BBC Indonesia

0.8

Berita Jakarta
0.75
Kompas
0.7

Liputan 6

0.65

Okezone
Vivanews

0.6
0.55
0.5
1 3 5 7 9 11 13 15 1719 21 23 25 27 29 31 33 3537 39 41 43 45 47 49
Jumlah Dataset

Gambar L-1. Grafik Pengaruh Jumlah Dataset Mentah Terhadap Akurasi Sistem

Grafik Pengaruh Jumlah Dataset terhadap F-Measure
0.8
0.7

F-Measure

0.6
0.5
Antara News

0.4

Detik
0.3

Media Indonesia

0.2

Pikiran Rakyat

0.1
0
1 3 5 7 9 1113151719212325272931333537394143454749
Jumlah Dataset

Gambar L-2. Grafik Pengaruh Jumlah Dataset Mentah Terhadap Akurasi Sistem

Ekstraksi Informasi Utama Halaman Web Berita Menggunakan Metode Hybrid [Septian Devid F.]