Update Summarization Untuk Kumpulan Dokumen Berbahasa Indonesia

  

Update Summarization

Untuk Kumpulan Dokumen Berbahasa Indonesia

  frequent term-based clustering untuk menentukan topik umum

  INUSUM yang dikembangkan, sedangkan bagian 4 membahas pengujian sistem peringkasan yang telah dilakukan terhadap setiap komponen INUSUM. Pada bagian terakhir, dibahas kesimpulan dan penelitian selanjutnya yang akan dilakukan.

  2. UPDATE SUMMARIZATION Update summarization menghasilkan ringkasan yang tidak

  Widhaprasa E. Waliprana

  memiliki informasi yang telah dibaca karena informasi tersebut diabaikan dalam proses peringkasan. Peringkasan ini sangat berkaitan dengan pengecekan kebaruan yang dapat digambarkan sebagai masalah tambahan selain penentuan informasi yang penting. Pengecekan kebaruan adalah proses identifikasi informasi yang belum diketahui pembaca. Berdasarkan TAC 2008 dalam update summarization task, terdapat 2 proses peringkasan yang harus dilakukan yaitu kumpulan dokumen A dan kumpulan dokumen B. Kumpulan dokumen A menggunakan sistem peringkasan biasa, lalu kumpulan dokumen B diringkas dengan asumsi bahwa pengguna sudah membaca informasi di kumpulan dokumen A sehingga ringkasan dokumen B tidak boleh berisikan informasi yang terdapat pada kumpulan dokumen A.

  Kata Kunci Frequent term-based clustering , maximal marginal relevance, redundansi, ringkasan, update summarization.

  dari kumpulan dokumen, dan komponen pemilihan kalimat dengan maximal marginal relevance dalam proses perankingan kalimat dan juga proses update untuk menentukan kalimat yang menjadi hasil ringkasan. Dari hasil pengujian setiap komponen, didapatkan kesimpulan bahwa frequent term-based clustering mampu menghasilkan topik dari kumpulan dokumen yang menjadi masukan dan maximal marginal relevance mampu melakukan perankingan kalimat untuk menentukan kalimat yang menjadi hasil ringkasan tanpa mengandung informasi yang sudah dibaca dan memiliki redundansi informasi yang rendah.

  Sistem peringkasan ini memiliki dua subsistem peringkasan yang berbeda untuk kumpulan dokumen yang diasumsikan sudah dibaca oleh pengguna dan kumpulan dokumen yang belum dibaca oleh pengguna. Untuk setiap subsistem, terdapat komponen praproses, komponen penentuan topik dengan

  Pada makalah ini, dikaji teknik peringkasan yang dapat diimplementasikan dalam melakukan update summarization pada kumpulan dokumen berbahasa Indonesia. Pada bagian selanjutnya, akan dibahas konsep-konsep yang digunakan dalam penelitian update summarization ini. Bagian 3 akan membahas sistem peringkasan

  summarization pada kumpulan dokumen berbahasa Indonesia.

  mempertimbangkan informasi yang telah dibaca oleh pengguna sebelumnya. Pada makalah ini dikaji teknik update

  masayu@stei.itb.ac.id ABSTRAK Update summarization menghasilkan ringkasan dengan

  Institut Teknologi Bandung

  if18080@students.if.itb.ac.id Masayu Leylia Khodra

  Institut Teknologi Bandung

  update summarization pada kumpulan dokumen berbahasa Indonesia.

1. PENDAHULUAN

  multidokumen berdasarkan asumsi bahwa pengguna sudah pernah membaca informasi sebelumnya (Aggarwal dkk., 2009). Dengan kata lain, informasi pada ringkasan yang diterima bersifat up-to-date atau baru. Jenis peringkasan ini menjadi bahan kompetisi pada workshop tahunan untuk penelitian mengenai teknologi pemrosesan bahasa alami yang dinamakan Document Understanding Conference (DUC) pada tahun 2007 dan sudah berganti nama menjadi Text Analysis Conference (TAC) sejak tahun 2008. Columbia’s Newsblaster (http://newsblaster.cs.columbia.edu) merupakan sebuah aplikasi penyaji berita online dengan berbagai fitur diantaranya pengkategorian dan peringkasan. Newsblaster menyediakan sebuah prototipe update summarizer yang berfungsi untuk menghasilkan ringkasan berita yang baru. Penelitian mengenai update summarization sudah banyak dilakukan pada DUC/TAC dan juga pada penelitian lainnya, namun semua penelitian hanya dilakukan pada kumpulan dokumen berbahasa Inggris. Penelitian pada kumpulan dokumen berbahasa Indonesia belum ada yang melakukannya sehingga perlu dilakukan penelitian mengenai

  Update summarization adalah bentuk peringkasan

  Pada masa ini, informasi sudah tersebar sangat banyak di internet. Informasi tersebut tersebar dalam bentuk dokumen seperti artikel, berita, dan makalah ilmiah. Jumlah dokumen yang banyak ini menimbulkan masalah yaitu konten dokumen sulit dimengerti yang disebabkan oleh terlalu banyaknya informasi atau disebut juga information overload. Peringkasan dokumen merupakan salah satu cara untuk mengatasi masalah information overload .

  Identifikasi topik utama pada kumpulan dokumen merupakan hal penting dalam melakukan peringkasan multidokumen. Identifikasi topik tersebut dilakukan dengan clustering, yaitu membagi sekumpulan objek menjadi sekumpulan kelompok (cluster) dengan tujuan agar kelompok objek yang memiliki tingkat kesamaan yang tinggi berada dalam satu kelompok yang sama. Untuk peringkasan berbasis clustering, topik utama dari kumpulan dokumen direpresentasikan dalam suatu cluster. Metode clustering yang digunakan dalam penelitian ini adalah

  frequent term-based clustering (Beil dkk., 2009) yang dapat dilihat pada Alg 1.

  FTC(database D, float minsup) SelectedTermSets:= {}; n:= |D|; RemainingTermSets:= DetermineFrequentTermsets(D, minsup); while |cov(SelectedTermSets)|

  ≠ n do

  Peringkasan teks otomatis mampu menghasilkan ringkasan yang memiliki konten penting pada dokumen sumber (Jiaming, 2008). Salah satu jenis peringkasan teks otomatis adalah peringkasan multidokumen yaitu peringkasan dengan banyak dokumen sumber. Namun, hasil peringkasan multidokumen ini masih sering memiliki informasi yang sudah diketahui dan memiliki redundansi informasi.

   for each set in RemainingTermSets do Calculate overlap for set; BestCandidate:= element of Remaining TermSets with minimum overlap; SelectedTermSets:=SelectedTermSets ∪ {BestCandidate}; RemainingTermSets:=RemainingTermSets- {BestCandidate}; Remove all documents in cov(BestCandidate) from D and from the coverage of all of the RemainingTermSets; return SelectedTermSets and the cover of the elements of SelectedTermSets;

  (

  Keterangan: : Pengukuran kesamaan antara 2 vektor 3.

  ( 3)

  2 |

  1 ||

  2 |

  1 .

  2 ) =

  ,

  1

  2 ) = cos(

  ,

  1

SISTEM PERINGKASAN INUSUM

  : Pengukuran kesamaan antara kandidat kalimat dengan

  Pada peringkasan kumpulan dokumen, perlu diidentifikasi topik utama yang terdapat pada kumpulan dokumen tersebut. Topik ini akan menjadi pembanding apakah suatu kandidat kalimat relevan terhadap dokumen sumber. Topik juga berfungsi sebagai parameter perankingan kandidat kalimat. Oleh karena itu, sistem update summarization ini memerlukan suatu komponen yang berfungsi untuk menentukan topik dari kumpulan dokumen.

  topik yang telah diidentifikasi. Secara umum frequent term-

  frequent term set . Setiap frequent term set tersebut merupakan

  dengan menggunakan sekumpulan term yang sering muncul secara bersamaan dalam frekuensi tinggi pada kumpulan dokumen sebagai cluster. Sekumpulan term tersebut dinamakan

  Untuk mendapatkan hasil ringkasan yang tidak memiliki informasi yang sudah diketahui dan redundansi informasi, digunakan update summarization. Pada sistem update

  summarization, diperlukan komponen yang berfungsi untuk

  melakukan proses update. Pada komponen tersebut dilakukan pengecekan apakah suatu informasi sudah pernah diketahui atau belum. Jika informasi belum pernah diketahui, maka informasi tersebut akan masuk ke dalam ringkasan yang dibentuk. Sedangkan jika informasi sudah pernah diketahui, maka informasi tersebut akan diabaikan.

  Tahap pemilihan kalimat merupakan tahap utama dari peringkasan kalimat. Perankingan kalimat dilakukan pada tahap pemilihan kalimat. Pada tahap ini juga, proses update perlu dilakukan untuk memberikan ranking yang rendah pada kalimat yang memiliki informasi yang sudah diketahui, sehingga kalimat tersebut tidak masuk ringkasan. Oleh karena itu, sistem ini memerlukan suatu komponen pemilihan kalimat yang berfungsi untuk mengecek apakah kandidat kalimat relevan terhadap dokumen sumber dan mengecek apakah kandidat kalimat memiliki informasi yang sudah pernah diketahui.

  secara bersamaan dalam kalimat tanpa memperhatikan urutan kemunculan kata tersebut.

  Sistem peringkasan yang dibangun menerima masukan kumpulan dokumen berbahasa Indonesia karena sistem update

  summarization untuk kumpulan dokumen berbahasa Indonesia

  belum pernah dilakukan sebelumnya. Oleh karena itu, diperlukan tahap praproses untuk mengolah kalimat berbahasa Indonesia sebelum melakukan proses peringkasan. Sistem update summarization untuk kumpulan dokumen berita berbahasa Indonesia ini diberi nama INUSUM (Indonesian

  News Update Summarizer

  ). INUSUM didesain berdasarkan TAC 2008 untuk update summarization task. Arsitektur sistem dapat dilihat pada Sistem mampu menerima masukan 2 kumpulan dokumen, sehingga INUSUM terbagi menjadi 2 subsistem. Subsistem pertama adalah subsistem peringkasan kumpulan dokumen A yaitu kumpulan dokumen yang diasumsikan sudah dibaca oleh pengguna dan subsistem kedua adalah subsistem peringkasan dokumen B yaitu kumpulan dokumen yang belum dibaca pengguna. Pada subsistem peringkasan kumpulan dokumen A dan B terdapat tahap praproses, tahap penentuan topik dan tahap pemilihan kalimat.

  Keluaran dari sistem adalah 2 ringkasan dari masukan 2 kumpulan artikel berita. Ringkasan pertama adalah ringkasan dari kumpulan dokumen A dan ringkasan kedua adalah ringkasan dari kumpulan dokumen B yaitu ringkasan yang sudah up-to-date.

  based clustering memilih pasangan kata yang sering muncul

  Maximal Marginal Relevance (MMR) digunakan dalam proses update summarization sebagai metode pemilihan kalimat yang

  query

  yang merupakan dua buah vektor dalam ruang berdimensi dan θ merupakan sudut yang dibentuk oleh kedua vektor. Persamaan dari perkalian dalam kedua vektor tersebut tertera dalam persamaan (2) berikut: 1 .

  2

  : Pengukuran kesamaan antara kandidat kalimat dengan kalimat yang sudah dipilih Pada (1) terdapat pengukuran kesamaan

  . Dalam kasus ini pengukuran kesamaan dilakukan dengan cosine similarity. Penghitungan cosine similarity dilakukan dengan cara menghitung kedekatan antara kedua vektor unit teks tersebut. Salah satu cara untuk melakukan pengukuran kedekatan antara kedua vektor yaitu dengan memperhatikan perbedaan arah dari kedua vektor yang direpresentasikan dengan sudut yang dibentuk. Sebagai contoh, misalkan terdapat dua vektor kalimat

  1

  dan

  2

  2 = | 1 || 2 | cos θ (2)

  hasilnya akan menjadi ringkasan (Carbonell & Goldstein, 1998). MMR dikembangkan untuk pemilihan kalimat dengan memperhatikan apakah kalimat tersebut relevan dengan query dan memperhatikan kebaruan informasi. Misalkan terdapat sebuah query Q, kemudian terdapat kumpulan kalimat yang sudah dipilih S. Untuk setiap kandidat kalimat s_i, nilai MMR dapat dihitung dengan menggunakan rumus berikut:

  Alg. 1 Frequent term-based clustering (Beil dkk., 2009) Frequent term-based clustering merupakan teknik clustering

  1

  : Parameter dengan interval nilai [0,1] untuk mengatur tingkat kepentingan relatif antara relevansi dan redundansi

  (1) Keterangan:

  ∈ 2 ( , )]

  1 ( , ) − (1 − ) max

  = [

  Keterangan: | | : Jarak Euclidean vektor s dengan titik nol Perhitungan kesamaan antar kedua vektor yang diturunkan dari persamaan (2) adalah rumus (3) berikut ini.

  Pada komponen penentuan topik ini dilakukan penentuan topik umum dari kumpulan data yang telah melewati tahap praproses. Penentuan topik umum ini dilakukan dengan menggunakan

  Pembobotan kata tersebut menggunakan konsep term frequency (tf), inverse document frequency (idf), dan normalization.

  Pemisahan kalimat menjadi term Pemisahan kalimat yang sudah melalui tahap praproses menjadi kumpulan term sebagai kandidat topik.

  dalam cluster yang dihasilkan. Pada komponen ini dilakukan: 1.

  frequent-term based clustering . Topik umum direpresentasikan

  Gambar 1. Diagram sistem INUSUM

  3.2 Komponen Penentuan Topik

3.1 Komponen Praproses

  diubah ke dalam case yang sama dan pada kasus ini teks diubah representasinya ke dalam huruf kecil semua.

  ) (

  terdapat banyak di dokumen, maka term tersebut menjadi sebuah cluster. Setelah mengecek semua term, kombinasikan satu term dengan term lain dan hitung kemunculannya pada dokumen. Jika jumlahnya banyak, maka kombinasi term tersebut juga menjadi sebuah cluster. Ukuran banyak atau tidaknya sebuah term, ditentukan di awal dengan menggunakan nilai standar minimum, jika jumlah kemunculan term melebihi nilai standar tersebut, maka jumlah kemunculan term dianggap banyak.

  4. Filtrasi frequent-term set Pada tahap ini dilakukan filtrasi frequent-term set yang sudah diidentifikasi sebelumnya. Filtrasi dilakukan dengan menghitung entropy overlap dari tiap cluster yang sudah diidentifikasi dengan menggunakan:

  ( ) = ∑ −

  1 ∈

  ln (

  1

  5) Keterangan:

  3. Identifikasi frequent-term set Pada tahap ini dilakukan identifikasi frequent-term set untuk menjadi cluster-cluster berbeda. Identifikasi dilakukan dengan cara menghitung kemunculan term pada dokumen. Jika suatu

  : Cluster ke-i : Dokumen ke-j yang mengandung : Frekuensi cluster yang mengandung dokumen

  Cluster yang dipilih adalah cluster yang memiliki nilai entropy overlap paling rendah dan mengandung paling banyak

  dokumen. Pemilihan cluster dilakukan hingga setiap cluster yang dipilih mengandung setiap dokumen sumber

  3.3 Komponen Pemilihan Kalimat

  Pada komponen pemilihan kalimat ini dilakukan pemilihan kalimat untuk menjadi ringkasan. Pemilihan kalimat dilakukan dengan cara perankingan kalimat yang menggunakan metode MMR. Pemilihan kalimat berdasarkan cluster yang sudah ditentukan dari tahap sebelumnya. Fungsi dari cluster ini adalah untuk mengecek apakah kandidat kalimat relevan terhadap dokumen sumber atau tidak.

  Pada komponen pemilihan kalimat ini, terdapat perbedaan antara komponen untuk kumpulan dokumen A dengan

  term

  2. Pemilihan term Pemilihan term dilakukan dengan cara mengambil term yang signifikan pada dokumen. Term yang signifikan yaitu term yang jumlahnya banyak pada suatu dokumen. Term yang jumlahnya sedikit tidak dimasukkan dalam pemilihan karena bukan merupakan topik umum. Kemudian persebaran term pada dokumen perlu dicatat untuk diidentifikasi frequent-term set- nya.

  3. Penghilangan stopword Penghilangan stopword adalah proses menghilangkan kata-kata yang sering muncul, namun tidak berarti. Stopword dikatakan tidak berarti karena tidak memiliki keterkatitan dengan topik tertentu. Untuk mendeteksi apakah suatu kata merupakan suatu

  =

  Pemisahan Kalimat Pemisahan kalimat ini merupakan proses pemisan teks pada dokumen menjadi kumpulan kalimat. Teknik yang digunakan dalam pemisahan kalimat adalah memisahkan kalimat dengan tanda titik (.), tanda tanya (?), dan tanda seru (!) sebagai

  delimiter . Namun jika terdapat kalimat yang hanya terdiri dari

  satu atau dua kata, maka kalimat tersebut tidak masuk ke dalam kandidat kalimat, sehingga kalimat tersebut dihilangkan.

  2. Case Folding

  Case folding adalah proses pemrosesan teks dimana semua teks

  stopword atau bukan adalah menggunakan kamus stopword

  yang sudah ditentukan sebelumnya. Contoh stopword pada bahasa Indonesia adalah, di, ke, dari, pada, dan lain-lain.

  Pada komponen praproses, dilakukan pemrosesan data masukan yang bertujuan agar teks menjadi siap untuk melalui proses peringkasan. Masukan data dari komponen praproses ini adalah kumpulan dokumen berita berbahasa Indonesia dan keluarannya adalah data teks yang sudah siap untuk diolah ke tahap selanjutnya. Beberapa tahapan praproses yang digunakan pada sistem ini adalah: 1.

  4. Stemming Stemming merupakan proses pencarian akar (root) kata dari tiap kata yaitu dengan mengembalikan suatu kata berimbuhan ke bentuk dasarnya (stem). Untuk pemrosesan pada bahasa Indonesia, proses stemming dilakukan dengan menghilangkan imbuhan yang mengawali dan mengakhiri kata sehingga diperoleh bentuk dasar dari kata tersebut.

  5. Pembobotan kata Pada tahap ini dilakukan pengubahan dokumen menjadi representasi yang dapat diproses dengan mudah yaitu dengan menggunakan model ruang vektor. Ruang vektor merupakan sebuah model aljabar untuk merepresentasikan dokumen teks sebagai vektor pada ruang vektor. Representasi vektor yang terbentuk untuk tiap dokumen yaitu sebagai berikut:

  • 2 .

  1 .

  1

  ( 4)

  Keterangan: : Vektor dokumen ke- : Bobot kata : Kata ke-

  2 + ⋯ + . komponen untuk kumpulan dokumen B. Perbedaannya adalah pada komponen untuk kumpulan dokumen A, skor perankingan kalimat dihitung hanya berdasarkan kalimat yang sudah terpilih. Sedangkan pada komponen untuk kumpulan dokumen B, skor perankingan kalimat dihitung tidak hanya berdasarkan kalimat yang sudah terpilih, tetapi berdasarkan hasil ringkasan kumpulan dokumen A.

  Pada proses pemilihan kalimat untuk kumpulan dokumen A dilakukan perankingan dengan menggunakan metode MMR. Perankingan dilakukan secara biasa berdasarkan rumus (1). Kalimat yang memiliki nilai MMR tinggi setelah dicek kerelevanan dengan sumber dan tingkat redundansinya, maka kalimat tersebut dimasukkan ke dalam sedangkan jika nilai MMR rendah, kalimat tersebut akan diabaikan. Kalimat yang terdapat pada merupakan hasil ringkasan kumpulan dokumen

  2. Rata-rata nilai keberterimaan ringkasan kumpulan dokumen B adalah (2.7 + 2.4 + 3.1) / 3 = 2.73 atau berada di range diterima.

  . Kalimat yang tidak memilki informasi yang sama dengan kalimat yang sudah pernah dibaca memiliki nilai MMR yang tinggi, sehingga kalimat ini akan dimasukkan ke dalam

  . Hasil ringkasan untuk kumpulan dokumen B adalah kalimat yang terdapat dalam dikurangi dengan hasil ringkasan A. Hasil ringkasan ini sudah bersifat up-to-date.

  A yang akan dikirimkan ke komponen pemilihan kalimat kumpulan dokumen B. Tidak jauh berbeda dengan kumpulan dokumen A, pada proses pemilihan kalimat untuk kumpulan dokumen B dilakukan perankingan dengan menggunakan metode MMR. Berdasarkan rumus (1) dijelaskan bahwa merupakan kalimat yang sudah dipilih sebelumnya, namun untuk pemilihan kalimat untuk kumpulan dokumen B, nilai diinisiasi awal dengan ringkasan kumpulan dokumen A yang sudah dibentuk sebelumnya. Pada bagian inilah proses update terjadi. Kandidat kalimat yang memiliki informasi kurang lebih sama dengan kalimat yang sudah pernah dibaca memiliki nilai MMR yang rendah, karena nilai kesamaan antar kalimat tersebut tinggi, sehingga kalimat tersebut tidak akan dimasukkan ke dalam

  Nilai keberterimaan ringkasan bersifat up-to-

  Nilai keberterimaan ringkasan kumpulan dokumen B

  Nilai keberterimaan ringkasan kumpulan dokumen A

  Tabel 1 Hasil rekapitulasi kuesioner pengujian 1

  3. Rata-rata nilai keberterimaan ringkasan bersifat up-to-date adalah (2.7 + 2.9 + 3.3) / 3 = 2.97 atau berada di range diterima. Kesimpulan yang dapat diambil dari hasil pengujian ini adalah hasil ringkasan keluaran sistem INUSUM dapat diterima dan hasil ringkasan bersifat up-to-date.

  summarization secara manual untuk setiap kumpulan dokumen

  A dan kumpulan dokumen B yang diberikan. Hasil ringkasan ini diasumsikan ringkasan yang up-to-date. Kemudian sistem

  INUSUM juga akan menghasilkan ringkasan untuk setiap nilai parameter . Setiap hasil ringkasan dari sistem INUSUM tersebut dibandingkan dengan ringkasan yang up-to-date. Nilai parameter optimal adalah yang hasil ringkasannya paling sesuai atau mendekati dengan ringkasan yang up-to-date. Nilai parameter pada sistem INUSUM yang paling optimal adalah 0.4.

  4.1 Hasil Pengujian

  Rekapitulasi hasil dari kuesioner pengujian keluaran sistem dapat dilihat pada Tabel 1, Tabel 2, dan Tabel 3 sesuai dengan kasus ujinya, yaitu: 1.

  Rata-rata nilai keberterimaan ringkasan kumpulan dokumen A adalah (3.5 + 3.4 + 2.9) / 3 = 3.26 atau berada di range diterima.

4. PENGUJIAN

  Sebelum pengujian, dilakukan penentuan nilai parameter optimal perangkat lunak yaitu nilai parameter yang paling optimal. Nilai parameter optimal ini perlu dicari karena nilai ini merupakan nilai acuan apakah ringkasan yang dibentuk lebih mendekati relevansi dengan dokumen sumber atau menghilangkan redundansi dengan kalimat yang sudah pernah dibaca. Penentuan parameter optimal perangkat lunak dilakukan dengan cara menentukan hasil ringkasan menggunakan update

  Nilai keberterimaan ringkasan bersifat up-to-

  2

  4

  3

  4

  1

  date

  Nilai keberterimaan ringkasan kumpulan dokumen B

  3

  Pengujian 2 Nilai keberterimaan ringkasan kumpulan dokumen A

  3 Tabel 2 Hasil rekapitulasi kuesioner pengujian 2 Responden

  3

  4

  10

  4

  3

  3

  3

  9

  4

  2

  1

  3

  6

  4

  4

  5

  3

  1

  1

  3

  4

  3

  1

  4

  3

  3

  e. Nilai 4 apabila sangat diterima. Hasil dari pengujian ini adalah presentase tiap nilai yang diberikan terhadap hasil ringkasan tersebut.

  3

  4

  3

  2

  3

  3

  2

  2

  2

  4

  1

  date

  Deskripsi penilaian yang digunakan: a. Nilai 0 apabila tidak diterima.

  b. Nilai 1 apabila kurang diterima.

  c. Nilai 2 apabila cukup diterima d. Nilai 3 apabila diterima.

  Responden Pengujian 1

  2

  4

  3

  Tujuan pengujian adalah mengevaluasi keluaran dari sistem yang dibangun apakah hasil ringkasan bisa diterima dan juga bersifat up-to-date. Pengujian dilakukan dengan melakukan validasi hasil ringkasan kepada 10 responden untuk menilai apakah ringkasan bisa diterima dan bersifat up-to-date. Pada pengujian ini terdapat 3 kasus uji dengan topik kumpulan dokumen yang berbeda. Responden diberikan kumpulan dokumen A dan kumpulan dokumen B untuk dibaca terlebih dahulu. Setelah itu responden juga diberikan hasil ringkasan kumpulan dokumen A dan ringkasan kumpulan dokumen B oleh sistem INUSUM. Tugas responden adalah memberikan nilai dari setiap hasil ringkasan yang dihasilkan yaitu apakah hasil ringkasan kumpulan dokumen A dan hasil ringkasan kumpulan dokumen B dapat diterima dan juga apakah hasil ringkasan kumpulan dokumen B bersifat up-to-date.

  4

  8

  2

  3

  3

  7

  2

  3

  3

  6

  4

  4

  4

  5

  2

  2

  2

  Institutefor Logic, Language and Computation Universite itvan Amsterdam The Netherlands.

  3

  4

  9

  4

  3

  2

  8

  2

  4

  3

  7

  3

  3

  3

  6

  4

  4

  10

  4

  6. REFERENSI Barzilay, R., & Elhadad, M. (1997). Using Lexical Chains for Text Summarization. Mathematics and Computer Science Dept. Ben Gurion University.

  McKeown, K., Barzilay, R., Chen, J., Elson, D., Evans, D., Klavans, J., et al. (2003). Columbia’s Newsblaster: New Features and Future Directions. Department of Computer Science Columbia University. Rosell, M. (2009). Information Retrieval and Text Clustering. Tala, F. Z. (2003). A Study of Stemming Effects on Information.

  Markou, M., & Singh, S. (2003). Novelty Detection: A Review - Part 1: Statistical Approaches. Department of Computer Science, PANN Research, University of Exeter, Exeter EX4 4PT, UK.

  Mandala, R. (2006). Evaluasi Kinerja Sistem Penyaringan Informasi Model Ruang Vektor. Seminar Nasional Aplikasi Teknologi Informasi 2006 (SNATI 2006). Yogyakarta.

  Kogilavani, A., & Balasubramani, P. (2010). Clustering And Feature Specific Sentemce Extraction Based Summarization of Multiple Documents. International Journal of Computer Ccience & Information Technology.

  Hovy, E., & Lin, C. (1997). Automated Text Summarization in SUMMARIST. Information Sciences Institute of the University of Southern California , (pp. 18-24).

  Beil, F., Ester, M., & Xu, X. (2009). Frequent Term-Based Text Clustering. Carbonell, J., Goldstein, J. (1998) : The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries Goldstein, J., Mittal, V., Carbonell, J., & Kantrowitz, M. (2000). Multi- Document Summarization By Sentence Extraction. Language Technologies Institute Carnegie Mellon University.

  Untuk penelitian selanjutnya, dapat dilakukan pengeliminasian topik yang sudah pernah dibaca oleh pengguna, sehingga sistem tidak menghasilkan ringkasan untuk topik yang sudah pernah dibaca. Selain itu, pada proses update summarization dapat dibuat suatu korpus update sebagai gold standard agar pengujian hasil keluaran sistem menjadi lebih objektif.

  4

  Pada makalah ini, telah dijelaskan bahwa untuk membuat sistem update summarization, diperlukan proses update pada komponen sistem yang berfungsi untuk mengecek apakah informasi yang dihasilkan sudah pernah dibaca atau belum. Kemudian proses update tersebut dapat dilakukan pada tahap pemilihan kalimat yaitu dengan memberikan nilai rendah untuk kalimat yang mengandung informasi yang sudah diketahui pada saat perankingan. Untuk parameter pada sistem INUSUM dalam melakukan update summarization, didapatkan nilai yang paling optimal adalah 0.4. Secara keseluruhan, hasil dari pengujian keluaran sistem menghasilkan nilai keberterimaan ringkasan dokumen A sebesar 3.26, nilai keberterimaan ringkasan kumpulan dokumen B sebesar 2.73, dan keberterimaan ringkasan bersifat up-to-date sebesar 2.97. Oleh karena itu, hasil keluaran sistem INUSUM dapat diterima.

   PENUTUP

  Untuk kumpulan dokumen B: [tabrak, twitter, bunuh, bobby, yoga] 5.

  kumpulan dokumen B dari sumber sebelumnya adalah: Untuk kumpulan dokumen A: [kereta, yoga]

  basedclustering dengan masukan kumpulan dokumen A dan

  4 Contoh hasil update summarization menggunakan INUSUM dengan masukan kumpulan dokumen A berasal dari: http://news.detik.com/read/2013/05/26/152027/2256114/10/tabr akkan-diri-ke-kereta-api-di-bantul-yoga-tewas-seketika dan kumpulan dokumen B berasal dari: http://news.detik.com/read/2013/05/26/154617/2256122/10/aksi

  3

  4

  5

  7

  3

  4 Tabel 3 Hasil rekapitulasi kuesioner pengujian 3 Responden

  4

  4

  10

  2

  2

  9

  Nilai keberterimaan ringkasan kumpulan dokumen B

  3

  2

  3

  8

  3

  3

  3

  Pengujian 3 Nilai keberterimaan ringkasan kumpulan dokumen A

  Nilai keberterimaan ringkasan bersifat up-to-

  2

  3

  3

  2

  4

  3

  2

  2

  3

  date

  3

  2

  2

  3

  4

  3

  1

  • yoga-tabrakkan-diri-ke-kereta-jadi-perbincangan-di-media- sosial?nd772204btr http://www.solopos.com/2013/05/26/tertabrak-kereta-korban- adalah-ketua-panitia-locstock-festival-410126 menghasilkan ringkasan: Dalam forum internet dan diskusi di twitter, Yoga dikenal dengan nama Bobby Yoga Temanya kurang lebih sama, mengaitkan aksi bunuh diri Yoga dan acara musik di Yogyakarta Nah, spekulasi berhembus kalau Yoga bunuh diri karena didorong oleh permasalahan yang muncul dari konser tersebut Hingga kini belum jelas apa motif korban melakukan bunuh diri Fee artist yang belum dibayar, plus berbagai hujatan dan tuntutan yang disuarakan di Twitter membuat batin Bobby tertekan Topik yang dihasilkan dengan menggunakan frequent-term