Paper Lita Kinayu (format Final Proceeding)

NEWS AGENT UNTUK PENCARIAN DAN PERINGKASAN BERITA
Gunawan
Sekolah Tinggi Teknik Surabaya
gunawan@stts.edu

ABSTRACT
News Agent is an Internet agent which will help a user to get an important information
from several news which come from multiple web sources. By using the news agent, a user can
just enter the query or seed URL from the news that a user wants, then the news agent will
display the result of the news summary according to the user’s compression percentage.
The concept of the news agent is taken from NewsInEssence which contains two main
phases. The first phase is to find a relevant news based on the user’s input and the second
phase is to summarize the result news from the first phase. The first phase of the news agent will
be done online, and the second phase will be done offline.
In the first phase, the news agent will process the user’s input to get the keyword for
news searching query from multiple web sources, such as BBC, CBC, CNN, and MSNBC news.
The result is the collection of the relevant news of the user’s input. That news will be summarized
by centroid-based algorithm in the second phase of the news agent. The generated news
summary from the news agent, is arranged in some sentences which contain important
information from each news result of the previous phase.
Keywords: agent, information retrieval, web content mining, text summarization.


INTISARI
News Agent yang dikembangkan pada penelitian ini adalah salah satu software agent
yang membantu user untuk mendapatkan informasi penting dari berita-berita online. Dengan
menggunakan news agent ini, user cukup memberikan query awal atau alamat URL dari berita
yang ingin dicari, kemudian news agent akan menampilkan hasil ringkasan beritanya sesuai
dengan rasio kompresi ringkasan yang diberikan.
Konsep kerja dari News Agent yang dapat dikategorikan sebagai aplikasi information
retrieval dan web content mining ini terdiri dari dua fase utama: mencari sejumlah berita yang
relevan dengan keinginan user dan meringkas semua berita yang dihasilkan. Fase pertama news
agent akan mengolah input user sampai mendapatkan keyword untuk query pencarian berita dari
beberapa sumber seperti BBC, CBC, CNN, dan MSNBC. Hasilnya adalah kumpulan berita yang
relevan dengan inputan user. Berita-berita tersebut kemudian diringkas dengan algoritma
centroid-based pada fase kedua.
Kata kunci: agen, perolehan informasi, penambangan isi web, peringkasan teks.

PENDAHULUAN
Melalui koneksi internet, manusia dapat memperoleh informasi yang baru saja terjadi
tanpa harus menunggu surat kabar yang baru akan diantar esok harinya. Untuk memenuhi
kebutuhan dalam mendapatkan berita yang diinginkan, sering kali seorang pemakai mengalami

kesulitan saat browsing web karena keanekaragaman berita yang ditawarkan. Biasanya pemakai
harus mencari suatu berita satu per satu dengan cara menelusuri link-link yang ada. Di samping
itu, terdapat juga alternatif cara lain dengan memanfaatkan search engines seperti Yahoo atau
Google, namun demikian hasilnya terkadang juga kurang memuaskan karena sejumlah link

menuju halaman web yang dihasilkan ternyata kurang relevan dengan topik yang dicari. Kedua
alasan ini menyebabkan waktu koneksi internet yang masih mahal menjadi sia-sia.
Terdapat pula sejumlah website yang khusus menangani berita seperti BBC dan CBC,
yang memfasilitasi pencarian dengan menerima keyword dari topik berita yang ingin dibaca user,
biasanya menghasilkan belasan link berita. Berita-berita yang dihasilkan ternyata tetap ada yang
sesuai ataupun tidak sesuai dengan topik khusus yang diinginkan user, dan untuk membaca
semua berita tersebut tentu saja akan melelahkan user. Untuk mengatasi masalah inilah
diperlukan suatu tool, seperti sebuah news agent yang pengembangannya akan dijelaskan
melalui paper ini.

ARSITEKTUR SISTEM NEWS AGENT
Konsep kerja news agent ini terdiri dari dua subsistem utama, yaitu fase pencarian
berita-berita yang relevan dengan berita utama dan fase peringkasan gabungan sejumlah berita
yang didapatkan pada tahap sebelumnya, sehingga diperoleh sebuah ringkasan berita
menyerupai teks berita alami yang disusun oleh seorang manusia, dalam hal ini seorang penulis

berita. Arsitektur news agent fase pertama dapat dilihat pada gambar 1, sedangkan fase kedua
pada gambar 2. Dengan memperhatikan detil arsitektur sistem tersebut, terdapat sejumlah
proses yang harus dilakukan mulai dari memasukkan berita sampai perolehan hasil
ringkasannya.
A. Pencarian Berita
Fase pertama merupakan tahap pencarian berita-berita yang relevan dengan berita atau
seed URL yang pertama kali diinputkan user.


Halaman berita dari seed URL yang diinputkan user akan di-fetch dan diambil isi beritanya
dengan pendekatan sederhana, yaitu menganggap teks terpanjang yang ada pada salah
satu tabel dari file HTML sebagai isi berita utama.



Untuk mendapatkan keyword yang akan diberikan ke dalam query pencarian, dilakukan
perhitungan bobot TF-IDF (Term Frequency – Inverse Document Frequency) dari setiap kata
penting pada halaman berita yang diperoleh dari seed URL maupun link-link berita yang
terdapat di dalamnya. TF yang dinormalisasi menggunakan rumus frekuensi kemunculan
kata dibagi dengan maksimum frekuensi kata.




Berita-berita yang mempunyai tingkat kemiripan lebih dari batas minimum threshold yang
telah ditentukan akan dimasukkan dalam kumpulan berita-berita yang dianggap relevan.

B. Peringkasan Berita
Fase kedua dari news agent ini bertujuan untuk meringkas berita-berita yang relevan
dengan inputan berita user yang dihasilkan dari fase pertama.


Untuk membuat daftar kata centroid, maka setiap kata yang termasuk dalam daftar stop word
dan common word akan dibuang. Perhitungan bobot kata centroid ini menggunakan
perkalian antara TF dengan IDF, dimana TF menggunakan rata-rata kemunculan suatu kata
centroid.



Karena hasil fase pertama news agent ini adalah dokumen-dokumen yang relevan, maka
informasi berita yang terkandung di dalamnya kemungkinan besar masih banyak yang mirip.

Oleh karena itu, setiap kalimat perlu dibandingkan setiap katanya antara kalimat yang satu
dengan yang lain dengan menggunakan metode CSIS (Cross Sentence Informational
Subsumption).



Setelah dilakukan pengelompokan kalimat, setiap kalimat akan dihitung bobotnya dengan
menggunakan metode Centroid Based Summarization (CBS). Prinsipnya bobot sebuah
kalimat selalu dipengaruhi oleh tiga hal, yaitu total bobot kata centroid yang menyusun

kalimat tersebut, posisi kalimat tersebut pada suatu dokumen, dan tingkat kemiripan kalimat
tersebut dengan kalimat pertama dari dokumen yang sama.

Gambar 1. Arsitektur Program Fase I: Pencarian Berita



Setelah setiap kalimat dari berita yang relevan dikelompokan berdasarkan informasi yang
sama dan mempunyai bobot sendiri-sendiri, maka kalimat-kalimat ini akan dipilih dan disusun
untuk menjadi suatu ringkasan berita yang merupakan output akhir dari news agent.


C. Penyimpanan Data
Semua informasi yang akan digunakan lagi pada proses selanjutnya akan disimpan
dalam file XML. Berikut adalah sejumlah informasi yang perlu disimpan:


Semua berita yang didapatkan pada fase pertama news agent, yaitu pada tahap pencarian
berita-berita yang relevan dengan berita yang diinputkan.



Daftar kata centroid yang dihasilkan pada awal fase peringkasan berita news agent.

Gambar 2. Arsitektur Program Fase II: Peringkasan Berita



Seluruh kalimat yang terdapat pada setiap dokumen dari kumpulan dokumen yang relevan
dengan inputan berita ini. Pengelompokkan dilakukan berdasar informasi yang terkandung di
dalamnya.




Beberapa opsi yang dapat diubah user saat konfigurasi program, sehingga program dapat
mencari dan meringkas berita sesuai dengan keinginan user.

FASE PENCARIAN BERITA YANG RELEVAN
Pada fase pertama ini terdapat tiga proses utama yang saling terkait. Proses ekstraksi isi
dan link berita untuk menentukan keyword yang akan dimasukkan dalam query pencarian
dengan tujuan mendapatkan berita-berita yang relevan dengan inputan.

A. Ekstraksi Isi dan Link Berita
Proses ini akan melakukan fetch halaman yang ditunjuk oleh seed URL yang diinputkan
user. Setiap halaman yang telah disimpan dalam file berformat HTML akan di-parsing untuk
memperoleh isi berita yang terdapat pada salah satu tabel di dalamnya. Demikian juga semua
link yang terdapat pada berita tersebut akan diekstrak.
Semua halaman yang ditunjuk oleh link-link tadi akan diambil dan diparsing juga untuk
dibandingkan isi beritanya dengan isi berita dari seed URL. Untuk halaman-halaman yang
mempunyai nilai kemiripan berita di bawah threshold yang ditentukan, akan langsung dihapus
dari memory eksternal, sedangkan halaman-halaman yang lain dan halaman seed URL-nya akan

diolah lebih lanjut untuk menentukan kata-kata penting yang akan dijadikan keyword.
B. Penentuan Kata-kata yang Menjadi Keyword
Proses ini akan menghitung bobot setiap kata dari setiap isi berita yang diperoleh dengan
menggunakan perkalian TF.IDF . Pada awalnya halaman dari seed URL dan semua halaman
yang relevan akan di-parsing untuk mendapatkan isi beritanya. Prosesnya adalah memecah per
kata dan menyusun daftar katanya. Pada news agent, user dapat memilih kata yang menjadi
keyword apakah kata sebenarnya yang terdapat pada isi berita atau kata yang telah mengalami
proses stemming.
C. Pengambilan Berita yang Relevan
Proses ini akan menghitung tingkat kemiripan (similarity) isi berita setiap dokumen hasil
pencarian query pada website BBC, CBC, CNN, dan MSNBC dengan isi berita yang dikandung
dari halaman seed URL. Yang perlu dilakukan terlebih dahulu adalah memasukkan semua
keyword ke dalam masing-masing query string pencarian dari keempat website.
Dengan mengetahui struktur query string nya, maka halaman hasil pencarian query akan
langsung di-fetch dan di-parsing untuk mendapatkan link-link hasil pencarian berita sesuai
dengan kata keywordnya. Kemudian untuk memastikan isi berita dari hasil query relevan dengan
berita yang diinginkan user, maka setiap hasilnya akan dihitung tingkat kemiripan beritanya
dengan rumus cosine similarity (pair-wise document similarity).
t


Sim ( D1 , D2 ) 

w
j 1

d1 j

* wd 2 j

t

t

j 1

j 1

 (wd1 j ) 2 *  (wd 2 j ) 2

FASE PERINGKASAN BERITA

Pada fase kedua news agent terdapat empat proses utama yang saling menyambung
antara proses satu dengan yang lain. Masing-masing adalah pembuatan daftar kata centroid,
pengelompokkan kalimat, perhitungan bobot, dan ekstraksi kalimat yang cocok untuk ringkasan.
A. Pembuatan Daftar Kata Centroid
Kata-kata centroid adalah kata-kata yang mempunyai arti penting dalam suatu kalimat.
Oleh karena itu, setiap kalimat dipecah menjadi koleksi kata dan yang diambil sebagai kata
centroid adalah kata-kata yang tidak termasuk dalam daftar kata stop word dan common word.
Setiap kata centroid akan dihitung frekuensinya.
Bobot dari kata centroid dihitung dengan menggunakan rumus IDF dikalikan jumlah ratarata kemunculan kata centroid tersebut, yang nantinya akan digunakan untuk perhitungan nilai
dari suatu kalimat untuk mempertimbangkan apakah kalimat tersebut dapat dianggap penting
atau tidak. Penting tidaknya kalimat ini selanjutnya akan mempengaruhi apakah kalimat tersebut
akan dimasukkan dalam ringkasan atau tidak.

B. Pengelompokan Informasi Kalimat
Dari berita-berita yang relevan akan terdapat banyak kalimat yang kemungkinan besar
mempunyai informasi yang sama pula. Oleh karena itu perlu dihindari adanya informasi berita
yang diulang pada kalimat-kalimat yang diambil untuk hasil ringkasan berita. Sebelumnya, semua
kalimat yang tidak mengandung kata centroid akan dianggap tidak relevan dengan topik berita
yang akan diringkas ini dan akan dihapus.
Dengan demikian, kalimat-kalimat yang tersisa adalah kalimat-kalimat yang relevan, dan

kumpulan kalimat ini akan menjadi dimasukkan dalam proses pengelompokkan kalimat dengan
metode CSIS. Proses pengelompokkan kalimat ini berdasarkan kesamaan jumlah kata centroid
yang menyusun kedua kalimat yang ingin dibandingkan informasinya. Hasil dari proses ini adalah
kumpulan kalimat yang telah dikelompokkan berdasarkan informasi yang dikandung di dalamnya.
Pada bagian ini tool WordNet dari Princeton University dimanfaatkan untuk membantu
pengelompokkan kalimat.
C.

Perhitungan Bobot Kalimat
Proses perhitungan bobot suatu kalimat yang terdapat dalam isi berita berdasarkan
Centroid Based Summarization (CBS) yang mempunyai tiga feature yaitu nilai centroid, indikator
posisinya, dan nilai kemiripan kalimat tersebut dengan kalimat pertama dari dokumen yang sama.
Untuk membuat ringkasan berita, yang dipilih adalah kalimat-kalimat yang memiliki score
tertinggi dan berasal dari kelompok kalimat yang berbeda-beda memamui rumus:

SCOREs   iwc Ci  w p Pi  w f Fi 

Oleh karena itu sebelumnya, semua kalimat perlu diurutkan terlebih dahulu mulai dari
score tertinggi sampai yang terrendah.
D. Ekstraksi Kalimat untuk Ringkasan
Proses terakhir adalah ekstraksi kalimat untuk ringkasan berita. Proses ekstraksi ini tidak
hanya mengambil kalimat-kalimat yang berbobot tinggi saja, tetapi juga dengan menyusunnya
sesuai dengan indeks dokumen yang relevan untuk mencegah hubungan sebuah kalimat dengan
kalimat yang posisinya dekat dalam hasil ringkasan berita tidak terkesan menyimpang terlalu
jauh.
Kumpulan kalimat yang relevan dan telah dikelompokkan dan dihitung bobotnya akan
dipilih dan disusun per dokumen asal untuk dimasukkan dalam hasil ringkasan. Setiap kalimat
yang berasal dari dokumen yang sama akan ditampilkan dalam sebuah paragraf pada ringkasan
berita.

CONTOH UNJUK KERJA NEWS AGENT
Berikut ini adalah hasil percobaan news agent dengan seed URL dari BBC news:
http://news.bbc.co.uk/1/hi/world/middle_east/4537229.stm yang berjudul “Mofaz: Gaza plan to
save W Bank” (gambar 3) dengan menggunakan level crawling 1, dan jumlah keyword sebanyak
3 kata.
Pada fase pertama ini ternyata tidak mempunyai inlink yang relevan, sehingga pencarian
keyword hanya dilakukan pada berita dalam seed URL dari artikelnya saja. Berikut ini adalah
hasil kata keyword beserta bobotnya:
1. israeli (1.000)
2. gaza (1.000)
3. settler (0.889)

Gambar 3. Berita BBC yang Dipakai sebagai Seed Artikel

Hasil berita dari query pencarian pada website BBC, CBC, CNN, dan MSNBC secara
otomatis akan menghasilkan 35 link, namun untuk minimum threshold 0.5 hanya mennghasilkan
4 artikel berita saja (termasuk seed) yang relevan, yaitu:
1. http://news.bbc.co.uk/1/hi/world/middle_east/4537229.stm (pageBBC3.html), dengan
skor Pair-wise Similarity = 1.000
2. http://news.bbc.co.uk/1/hi/world/middle_east/4530541.stm (pageBBC4.html), dengan
skor Pair-wise Similarity = 0.530
3. http://news.bbc.co.uk/1/hi/world/middle_east/4529637.stm (pageBBC5.html), dengan
skor Pair-wise Similarity = 0.564
4. http://c.moreover.com/click/here.pl?b320116411&r=MSNnews (pageMSNBC9.html),
dengan skor Pair-wise Similarity = 0.501
Dengan persentase kompresi berita sebesar 20%, hasil ringkasannya ditunjukkan pada
teks berikut:
Israeli Defence Minister Shaul Mofaz has said the withdrawal of Jewish settlers from Gaza will allow
Israel to extend its borders into the West Bank. (1:1) About 8,500 Jewish settlers and the soldiers who
guard them are to leave Gaza and parts of the West Bank as part of Israeli Prime Minister Ariel Sharon's
unilateral disengagement plan. (1:6) Mr Mofaz said the pullout would allow Israel to keep hold of its large
West Bank settlements - which are viewed as illegal under international law - extending its future borders
deep into Palestinian territory. (1:8) In fact, the settlers of [the West Bank] and Gaza will be able to say in
years to come that they helped establish the eastern frontiers of the state of Israel, he told the Israeli
newspaper Yediot Ahronot. (1:9)
Israeli Prime Minister Ariel Sharon has confirmed that there will be a delay in plans to pull troops and
settlers out of the occupied Gaza Strip. (2:1) In a separate development, Israel's foreign minister said a
rethink of the so-called Gaza plan might be necessary if the militant Islamic Resistance Movement,

Hamas, won the Palestinian parliamentary election in July. (2:7) Correspondents say Mr Sharon's
change of heart may have been motivated by concerns that preparations to provide new homes and
employment for the uprooted settlers would not be completed by late July, as well as to allow more time
to prepare for the forcible evacuation of some settlers. (2:12) On Sunday, the authorities arrested a rightwing Jewish settler and detained him without charge for five months amid efforts to quell opposition to
the Gaza plan. (2:13)
Israel is detaining a right-wing Jewish settler for five months without charge as part of efforts to quell
opposition to its plan to evacuate the Gaza Strip. (3:1) Reports say the army has completed training
soldiers to remove settlers who may barricade themselves in their homes during this summer's planned
Gaza evacuation. (3:8) Meanwhile, Deputy Prime Minister Shimon Peres says the demolition of settlers'
homes in Gaza could undermine the Israeli government's disengagement plan. (3:14)

Kalimat-kalimat penyusun ringkasan di atas diurutkan berdasarkan nomer indeks
dokumen dan posisinya dalam dokumen tersebut (lihat indikator pada setiap akhir kalimat).

KESIMPULAN
Tampak bahwa hasil ringkasan yang dilakukan oleh News Agent sudah menyerupai teks
berita alami yang disusun oleh seorang manusia. Dari pembahasan pada pembahasan
sebelumnya dapat diberikan beberapa kesimpulan seperti:
1. Isi berita yang ingin disampaikan dari suatu halaman HTML mempunyai kesamaan yang
mendasar, yaitu dengan menggunakan tag . Struktur ini telah berhasil
diujicobakan pada beberapa website sumber berita.
2. Proses ekstraksi isi berita dan pencarian berita dengan query pada suatu website
sumber berita memerlukan pengawasan yang teratur karena perkembangan dan
perubahan pada suatu website berita dapat terjadi sewaktu-waktu. Hal ini disebabkan
perubahan struktur berita ataupun pola query pencarian berita dapat menjadi kendala
gagalnya proses parsing suatu halaman berita.
3. Tingkat kedalaman crawling yang dilakukan pada suatu halaman berita tidak berperan
dalam mendapatkan berita sejenis. Hal ini dikarenakan banyak inlink yang hanya
menunjuk ke berita-berita utama saja, bukan berita yang berhubungan dengan berita
ditampilkan.
4. WordNet berperan dalam pencarian sinonim suatu kata. Hal ini digunakan oleh News
Agent dalam proses pengelompokan kalimat yang mengandung pengertian yang sama.
5. Pada beberapa kasus ringkasan berita yang dihasilkan oleh News Agent belum tentu
dapat dipahami secara runtut oleh user. Kendala ini dapat disebabkan hasil ringkasan
berita diurutkan sesuai dengan kemunculan kalimat tersebut pada setiap dokumen.
Software News Agent yang pengembangannya dilaporkan pada tulisan ini masih dapat
dikembangkan dan ditingkatkan lagi hasilnya dengan melakukan beberapa hal sebagai berikut:
1. Software ini hanya dapat melakukan pencarian dan peringkasan berita-berita dalam
bahasa Inggris. Hal ini dapat ditingkatkan penggunaannya dalam bahasa lain seperti
bahasa Indonesia, Hindi, Belanda, dan lain-lain, hanya dengan mengganti kumpulan stop
word, common word, dan kamus sinonim kata sesuai dengan masing-masing bahasa
yang akan digunakan.
2. News Agent hanya mencari berita dari empat situs sumber berita saja, sehingga berita
yang didapatkan dari fase pertamanya tidak sangat lengkap. Tingkat pencarian beritaberita ini dapat diperluas dengan menambah website sumber berita lainnya. Website
sumber berita yang dipilih seharusnya sesuai dengan bahasa yang dipakai.
3. Hasil ringkasan berita yang menjadi output dari news agent dapat dikembangkan dengan
tidak hanya ekstraksi kalimat-kalimat yang penting saja, melainkan dengan generate
beberapa kalimat baru yang mengandung informasi penting dari keseluruhan dokumen.

DAFTAR PUSTAKA
Allen, J, 1995, Natural Language Understanding, The Benjamins/Cummings Publishing Company
Inc., Redwood City-CA, USA.
Porter, M.F., 1980, An Algorithm for Suffix Stripping, http://www.tartarus.org/~martin/PorterStemmer/def.txt.
Miller, G.A., 2002, WordNet: A Lexical Database for the English Language, Cognitive Science
Laboratory at Princeton University.
Radev, D.R., Jing, H., dan Budzikowska, M., 2000, Centroid-Based Summarization of Multiple
Documents: Sentence Extraction, Utility-Based Evaluation, and User Studies, SeattleWA.
Radev, D.R., Blair-Goldensohn, S., Zhang, Z., dan Raghavan, R.S., Interactive, DomainIndependent Identification and Summarization of Topically Related News Articles.
Radev, D.R. dan Fan, 2000, W., Automatic Summarization of Search Engine Hit Lists, Hong
Kong-P. R. China.
Zaiane, O. R., 1999, Resource and Knowledge Discovery From The Internet and Multimedia
Repositories, Ph.D. Thesis Fraser University.