Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik

  

Vol. 1, No. 11, November 2017, hlm. 1198-1203 http://j-ptiik.ub.ac.id

Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan

K-Nearest Neighbor Berbasis Fitur Statistik

1 2 3 Rachmad Indrianto , Mochammad Ali Fauzi , Lailil Muflikhah

  Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya 1 2 3 Email: rachmadif13@gmail.com, moch.ali.fauzi@ub.ac.id, lailil@ub.ac.id

  

Abstrak

  Pada masa kini informasi tentang kesehatan sudah banyak bertebaran dan sangat mudah didapatkan melalui website online. Namun dengan banyaknya informasi yang terkandung dalam teks artikel tersebut membuat pembaca kurang dapat memahami tentang isi dari bacaan tersebut, sehingga diperlukan sistem yang dapat meringkas suatu bacaan guna mempermudah pembaca dalam memahami isi suatu bacaan. Peringkasan teks otomatis menggunakan k-nearest neighbor berbasis fitur statistik dapat menjadi solusi dari permasalahan tersebut. Fitur-fitur statistik seperti posisi kalimat dalam paragraf, posisi keseluruhan kalimat, data numerik, tanda koma terbalik, panjang kalimat dan kata kunci memiliki peran yang penting untuk dijadikan parameter peringkasan. Dari pengujian fitur statistik yang telah dilakukan dengan memakai nilai k=3, metode ini menghasilkan nilai rata-rata precision, recall dan f

  • –measure terbaik pada set fitur 9 dengan nilai masing-masing sebesar 0.75, 0.71 dan 0.72. Dari pengujian tersebut disimpulkan bahwa fitur yang memiliki pengaruh signifikan terhadap naik dan turunnya nilai precision dan recall adalah fitur posisi kalimat dalam paragraf dan fitur posisi keseluruhan kalimat. Kemudian dari hasil pengujian variasi k pada set fitur terbaik, didapatkan nilai set fitur yang maksimal ketika k=1 dengan nilai rata-rata precision, recall dan f-measure sebesar 0.89, 0.74 dan 0.81.

  Kata Kunci: text mining, peringkasan teks, K-Nearest Neighbor, fitur statistik

Abstract

  

Now days, information about healthy has been widely scattered and very easily obtained through the

online website. But, within largest information that contain in the text of article make the reader can’t

understand about contents of the text. So, we need a system that can summarize a text to make easy the

reader in understanding the contents of the text. Automatic text summary using k-nearest neighbor based

on statistical features can be solution about the problem. Statistical features such as position of a

sentence in a paragraph, overall sentence position, numerical data, inverted commas, the length of the

sentence and keyword has important influence become parameter in summarization. From testing of

statistical features that have been done by using k = 3, this method get result the best value of precision,

recall and f -measure on feature set 9 with values 0.75, 0.71 and 0.72. From the test can concluded that

the features that have a significant influence on the rise and fall of precision and recall values are

position of a sentence in paragraph and sentence overall position. And then, from the test of k variation

on the best feature set, we get maximum feature set value when k = 1 with the average value of precision,

recall and f-measure of 0.89, 0.74 and 0.81.

  Keywords: text mining, text summarization, K-Nearest Neighbor, statistical feature

  fakta kepada seluruh orang. Dengan 1. berkembangnya teknologi, kini semakin mudah

   PENDAHULUAN

  untuk mendapatkan berita terupdate. Banyak Berkembangnya internet dengan pesat situs yang menyediakan informasi berita yang berdampak terhadap bertambahnya jumlah terpercaya dan beragam topik, seperti informasi yang mengakibatkan sangat sulit kompas.com, detik.com, detikhealth.com dan untuk mendapatkan informasi secara efisien masih banyak lagi situs lainnya. Masing-masing (Desai & Shah, 2016). Berita merupakan sebuah situs tersebut memiliki beraneka ragam topik informasi yang berguna untuk menyampaikan berita antara lain olahraga, politik, kesehatan,

  Fakultas Ilmu Komputer Universitas Brawijaya

1198 dan lain sebagainya. Namun dalam penelitian ini topik yang digunakan adalah kesehatan. Alasan memilih topik kesehatan dikarenakan jumlah perbandingan orang Indonesia yang sakit lebih banyak dibandingkan dengan yang sehat, hal tersebut disampaikan oleh menteri kesehatan Nila juwita Moelek dalam Seminar Kupas Tuntas Dua Tahun Pelaksanaan JKN di Jakarta. Hal ini dibuktikan berdasarkan data BPJS Kesehatan, misalnya pada tahun 2014, terdapat 4,8 juta kasus penyakit jantung yang memakan dana Rp 8,189 triliun. Kemudian di tahun 2015 hingga triwulan III ada 3,9 juta kasus hingga memakan dana Rp5,462 triliun. Kemudian untuk gagal ginjal sebanyak 1,4 juta menyerap dana sebesar Rp2,2 triliun selama tahun 2014 (Pujiono, 2015). Sehingga dengan memberikan wawasan seputar kesehatan kepada pembaca, harapannya agar pembaca dapat memperoleh beragam informasi tentang kesehatan yang berguna untuk dirinya dan kemudian dapat disampaikan kepada sekitarnya, sehingga dapat mengurangi resiko terkena berbagai penyakit. Dengan memanfaatkan internet, untuk pencarian informasi seputar kesehatan tersebut bisa didapatkan dengan mudah.

  Meskipun demikian, untuk mendapatkan informasi berita online sangatlah mudah, pembaca hanya perlu mengakses berita tersebut dalam sebuah situs, sehingga pembaca tidak akan pernah ketinggalan informasi seputar kesehatan. Meskipun akses informasi sudah sangat mudah, untuk mendapatkan informasi yang diinginkan dengan waktu yang pendek menjadi masalah yang serius di era informasi sekarang ini (Bhole & Agrawal, 2014). Oleh karena itu diperlukan sebuah sistem yang dapat menyajikan informasi secara singkat namun mengandung informasi yang penting dari teks aslinya, hal itu disebut sebagai ringkasan (babar & patil, 2014). Dengan penyajian informasi berupa inti dokumen secara singkat tetapi mencakup semua informasi dokumen dapat mempermudah pembaca tanpa membaca dokumen secara keseluruhan (Ridok, 2014).

  Beberapa metode yang dapat digunakan untuk melakukan peringkasan teks secara umum terbagi menjadi dua, yaitu supervised dan unsupervised (Mani dalam Ridok, 2014). Metode supervised hasilnya berupa model peringkasan yang berasal dari data latih dari ringkasan buatan manusia, sehingga ringkasan sistem akan bergantung pada data latih (Ridok, 2014). Sedangkan, metode unsupervised tidak membutuhkan data latih ringkasan dari manusia untuk menghasilkan ringkasan sistem (Ridok, 2014). Berdasarkan penelitian-penelitian terdahulu, antara lain penelitian yang dilakukan oleh Ridok (2014) tentang peringkasan dokumen Bahasa Indonesia berbasis non-negative matrix factorization (NMF) yang memanfaatkan matrix fitur semantic non-negatif(W) dan matrik variabel semantik non-negative(H) menghasilkan rata-rata precision dan recall masing-masing 0.19724 dan 0.34085. Kemudian penelitian yang dilakukan oleh Foong (2014) dengan judul peringkasan teks dengan Latent Semantic Analisis pada platform android berbasis sentence selection menggunakan

  Singular Value Decomposition (SVD)

  menghasilkan rata-rata f-score 0,386. Dan Penelitian yang dilakukan oleh Luthfiarta dkk. (2014) dengan judul Integrasi peringkas dokumen teks otomatis dengan algoritma Latent

  Semantic Analysis pada dokumen peringkas teks

  otomatis untuk clustering dokumen, menggunakan fitur judul, panjang kalimat, bobot kata, posisi kalimat, kesamaan antar kata, kata tematik dan data numerik menghasilkan tingkat akurasi mencapai 71,04 %.

  Oleh karena itu, berdasarkan penelitian- penelitian sebelumnya, penulis mengajukan penelitian dengan judul Peringkasan Teks Otomatis pada Artikel Berita Kesehatan Menggunakan k-Nearest Neighbor Berbasis Fitur Statistik. Penelitian ini diajukan dengan menambahkan beberapa fitur-fitur statistik yang lain sebab fitur-fitur lain seperti posisi kalimat dalam paragraf, posisi keseluruhan kalimat dalam dokumen, data numerik, tanda koma terbalik, panjang kalimat, dan kata kunci termasuk penting (Desai & Shah, 2016). Kemudian untuk melakukan perankingan bobot setiap fitur tersebut digunakan K-NN, dikarenakan K-NN berbasis teknik pembelajaran lebih cocok daripada naïve bayes dan term-

  graph untuk kasus teks mining atau dokumen,

  karena K-NN memiliki akurasi yang lebih tinggi dibanding naïve bayes dan term-graph (Bijalwan, 2014). Sehingga harapannya dengan adanya penambahan fitur-fitur statistik tersebut beserta perangkingan dengan K-NN dapat meningkatkan akurasi pada sistem peringkas teks.

  2. DASAR TEORI

  2.1 Data yang digunakan

  Pada penelitian ini, data yang digunakan

2.2 Preprocessing

  • n = total kalimat dalam paragraf
  • i = posisi kalimat ke –i

  pos_keseluruhan = −

  2.3.1 Posisi kalimat dalam paragraf

  Posisi kalimat merupakan bagian penting dalam dokumen. Kalimat awal dalam paragraf merupakan bagian penting hampir dalam semua kasus karena menyampaikan topik dokumen dan memiliki kemungkinan besar untuk diekstrak menjadi ringkasan (Desai & Shah, 2016). Berikut merupakan rumus perhitungan posisi kalimat dalam paragraf yang ditunjukkan pada persamaan 1.

  posisi_kalimat = −

  (1) Keterangan :

  2.3.2 Posisi keseluruhan kalimat

  Nilai dari posisi keseluruhan kalimat dihitung dalam konteks keseluruhan dokumen. Perhitungan posisi keseluruhan kalimat akan diberikan nilai terbesar pada awal kalimat, sedangkan nilai terkecil diberikan pada akhir kalimat dalam sebuah dokumen. Berikut merupakan rumus perhitungan posisi keseluruhan kalimat ditunjukkan pada persamaan 2.

  (2) Keterangan :

  • n = total kalimat dalam dokumen
  • i = posisi kalimat ke –i

  2.3.3 Data numerik

  Data numerik merepresentasikan beberapa informasi penting seperti tanggal, umur, rupiah, alamat, dan lain sebagainya (Desai & Shah, 2016). Data numerik dihitung menggunakan persamaan 3.

  data_numerik =

  (3) Keterangan :

  2.3.4 Tanda Koma terbalik

  Pada tanda koma terbalik biasanya mengindikasikan percakapan langsung, judul atau nama, dan juga terkandung informasi yang

  yang mana dilakukan analisis lebih dalam pada dokumen (Desai & Shah, 2016). Berikut ini merupakan fitur-fitur yang digunakan pada penelitian.

  dilakukan dengan tujuan mendapatkan kata dasar dengan cara menghapus imbuhan (Novitasari, 2016).

  Processing adalah jantung dari peringkasan teks

  2.2.5 Stemming Stemming merupakan suatu langkah yang

  diambil dari websitedengan kategori kesehatan, dataset berjumlah 40 artikel, 30 dijadikan sebagai data latih dan 10 dijadikan sebagai data uji.

  Preprocessing merupakan langkah awal

  dilakukan pemrosesan teks guna membuat teks menjadi lebih terstruktur. Preprocessing dilakukan dengan beberapa tahap, yaitu segmentasi, case folding, tokenisasi, stopword

  removal dan stemming.

  2.2.1 Segmentasi

  Pada proses segmentasi, dokumen dipecah berdasarkan tanda pemisah kalimat. Setiap dokumen yang telah dipecah akan dimasukkan kedalam list kalimat. Keluaran dari hasil segmentasi berupa kumpulan kalimat yang akan digunakan pada proses berikutnya (Desai & shah, 2016).

  2.2.2 Case folding

  Pada proses case folding dilakukan pengubahan semua kata kedalam huruf kecil dan penghapusan tanda baca selain ‘a-z’, angka, dan tanda baca yang dianggap tidak perlu.

  2.2.3 Tokenisasi

  Pada bagian tokenisasi, kalimat hasil case

  folding di pecah kedalam kata. Pemecahan

  kalimat kedalam kata berdasarkan tanda spasi antar kalimat, sehingga dibuatlah list yang terdiri dari kumpulan kata yang disebut token (Desai & Shah, 2016).

  2.2.4 Stopword removal Stopword removal merupakan penghilangan

  kata yang tidak relevan dalam penentuan topik dalam sebuah dokumen, seperti kata “dari”, ”adalah”, “atau”, “sebuah”, dan lain-lain dalam dokumen bahasa Indonesia.(Luthfiarta et al, 2014).

  • Total data = total data numerik dalam kalimat.
  • Panjang kalimat = total kata dalam kalimat.

2.3 Ekstraksi fitur Ekstraksi fitur merupakan tahap processing.

  penting (Desai & Shah, 2016). Tanda koma 2.

  Tentukan julah nilai k tetangga terdekat terbalik dihitung menggunakan persamaan 4.

  3. Hitung jarak antara data uji dengan data latih menggunakan Euclidian distance (4)

  koma_terbalik = 4.

  Urutkan hasil jarak berdasarkan nilai terkecil Keterangan : 5.

  Mengambil data latih sejumlah k Total kata = total banyaknya kata dalam

  • tetangga terdekat tanda koma terbalik.

  6. kelas data baru Menentukan

  • berdasarkan mayoritas k tetangga kalimat.

  Panjang kalimat = total kata dalam

  terdekat.

  2.3.5 Panjang kalimat

  Pada tahap ini, kalimat akan dipilih menjadi Kalimat yang pendek mungkin tidak suatu ringkasan berdasarkan kedekatan jarak merepresentasikan topik dokumen karena kata antara data uji ke data latih dengan mengacu yang terkandung didalamnya sedikit, meskipun pada nilai hasil ekstraksi fitur. Posisi kalimat demikian, memilih kalimat yang panjang juga hasil ringkasan akan sama urutannya dengan tidak baik untuk peringkasan (Desai & Shah, kalimat asli dari dokumen (Desai & Shah, 2016) 2016). Sehingga, kalimat yang panjang dan pendek diberikan nilai yang rendah. Nilai

  3. IMPLEMENTASI

  panjang kalimat dihitung berdasarkan Tahap-tahap yang dilakukan dalam persamaan 5. implementasi sistem ditunjukkan pada Gambar 1

  (5)

  panjang kalimat = berikut.

  Keterangan : Total kata = total kata dalam kalimat.

  • kalimat terpanjang = total kata dalam
  • kalimat terpanjang pada sebuah paragraf.

  2.3.6 Kata kunci

  Kata kunci merupakan kata yang muncul dengan frekuensi tinggi dalam sebuah dokumen (Desai & Shah, 2016). Mengidentifikasi dan melakukan komputasi pada kata kunci berguna untuk menentukan kalimat yang penting. Kata kunci dalam kalimat dihitung berdasarkan persamaan 6.

  (6)

  kata_kunci =

  Keterangan : Total data = total banyaknya kata kunci

  • dalam kalimat.
  • kalimat.

  Panjang kalimat = total kata dalam

  Gambar 1. Implementasi Sistem

2.4 K-Nearest Neighbor

  Berdasarkan alur fowchart tersebut, hal Ide dasar KNN adalah mengelompokkan pertama yang dilakukan dalam penelitian yaitu kategori pada query yang diberikan bukan hanya menginputkan data uji dan data latiih, kemudian berdasar kedekatan dokumen terdekat dalam dilakukan preprocessing meliputi segmentasi, ruang dokumen, namun pada kategori dari k

  case folding, tokenisasi, stopword removal dan dokumen yang terdekat (Bijalwan dkk., 2014). stemming, selanjutnya dilakukan ekstraksi fitur

  Berikut merupakan langkah-langkah algoritma mulai dari fitur 1 sampai dengan fitur 6, dan k-Nearest Neighbor antara lain: langkah terakhir menghitung kedekatan antara

1. Masukkan data latih dan data uji

  • –NN untuk klasifikasi kalimat ringkasan atau bukan.

  precision , recall dan f-measure yang rendah,

4. PENGUJIAN DAN ANALISIS

  yaitu 0.51, 0.60 dan 0.54. Kemudian pada set 2 ditambah menggunakan fitur posisi keseluruhan kalimat(f2), hasilnya meningkatkan precision,

  recall dan f-measure masing-masing sebesar

  0.65, 0.64 dan 0.64. Kemudian pada set 3, 4 dan 5 dengan penambahan fitur 3, fitur 4, fitur 5 dan fitur 6 hasilnya tidak meningkat signifikan. Dan dari set 6, 7, 8, 9 dan 10 dapat disimpulkan bahwa fitur yang memiliki dampak paling besar terhadap naik dan turunnya nilai precision dan

  • (7)
  • (8)

  recall merupakan fitur 1, fitur 2. Fitur 1 yaitu

  posisi kalimat dalam paragraf memiliki pengaruh besar terhadap naiknya recall namun membuat turun nilai precision, hal ini dikarenakan dengan penambahan fitur 1, kalimat ringkasan yang diambil semakin banyak sehingga membuat rendah nilai precisionnya. Kemudian fitur 2 yaitu posisi keseluruhan kalimat, memiliki pengaruh terhadap naiknya nilai precision namun menurunkan nilai recall, hal ini dikarenakan dengan penambahan fitur 2 kalimat ringkasan yang diambil semakin sedikit, sehingga precisionnya semakin tinggi.

  • (9)

  missed merupakan jumlah kalimat yang

  diekstrak pakar tetapi sistem tidak mengekstraknya (Pal et al, 2013).

  Pengertian correct merupakan jumlah kalimat yang tepat diekstrak sistem dengan kalimat hasil seorang pakar. Wrong merupakan jumlah kalimat yang diekstrak sistem namun tidak terdapat pada hasil seorang pakar dan

  ∗

  f-measure = 2 ∗

  recall =

  precision =

  Dalam pengujian ini dibagi menjadi dua yaitu pengujian fitur statistik dan pengujian nilai k. Output dari hasil pengujian yaitu nilai rata- rata precision, recall dan f-measure yang dapat dihitung dengan persamaan 7, 8 dan 9 sebagai berikut.

  data uji dan data latih menggunakan k

  yang hanya menggunakan fitur posisi kalimat dalam paragraf(f1), mendapatkan nilai

4.1 Pengujian Fitur Statistik

  0.65

  Rata- Rata recall

  0.71

  0.71

  0.71 Berdasarkan hasil pengujian diatas, set 1

  0.60

  0.51

  Set 1 f1

  f- meas ure

  Rata- rata

  Tabel 1. Hasil pengujian set fitur Set fitur Fitur Yang diuji Rata- Rata preci sion

  0.72 Set

  4.2 Pengujian Nilai k

  Pengujian terhadap nilai k pada fitur set terbaik dilakukan dengan nilai yang bervariasi yaitu k=1, k=3, k=5 dan k=7, gunanya yaitu untuk mengetahui pengaruh nilai k terhadap

  precision , recall dan f-measure terhadap fitur set

  yang terbaik. Berikut merupakan hasil pengujian nilai k yang ditunjukkan pada Gambar 2.

  Gambar 2. Hasil pengujian nilai k

  Berdasarkan hasil pengujian tersebut dapat

  0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 k = 1 k = 3 k = 5 k = 7

  Hasil pengujian nilai k precision recall f-measure

  Pengujian ini mengacu pada penelitian sebelumnya yang dilakukan oleh Desai & shah (2016) yang menggunakan variasi set fitur, dan dalam pengujian ini nilai k dibuat k=3. Berikut Merupakan hasil pengujian fitur statistik yang ditunjukkan pada Tabel 1.

  10 f1, f2, f3, f4, f5, f6

  0.70

  0.64

  0.70

  0.64 Set 3 f1, f2, f3

  0.71

  0.62

  0.66 Set 4 f1, f2, f3, f4

  0.68

  0.63

  0.65 Set 5 f1, f5, f6

  0.67

  0.68 Set 6 f3, f4, f5, f6

  0.75

  0.54 Set 2 f1, f2

  0.65

  0.64 Set 7 f2, f3, f4, f5, f6

  0.70

  0.57

  0.63 Set 8 f1, f3, f4, f5, f6

  0.65

  0.63

  0.64 Set 9 f1, f2, f3, f4, f5

  0.63

  approach to automatic text summarization using simplified lesk algorithm and wordnet. International Journal of Control Theory and Computer Modeling. Vol.3,

  Berdasarkan penelitian yang telah dilakukan, beberapa saran yang dapat diberikan yaitu, dalam proses pemecahan dokumen kedalam paragraf masih dilakukan pemberian tanda “*#” dengan manual, sehingga dimungkinakan untuk penelitian selanjutnya dapat ditambahkan proses pemecahan paragraf secara langsung, baik berupa deteksi adanya karakter ‘\n’ dan lainnya sehingga dokumen dapat langsung dipecah. Kemudian dalam pemecahan kalimat sebaiknya diperhatikan delimiternya dikarenakan ada beberapa kalimat yang ambigu jika dipecah seperti gelar dan alamat.

  Stemming Porter dengan Arifin Setiono untuk Menentukan Tingkat Ketepatan. Jurnal String Vol.1 ,No.2. Pal, A. R., Maiti, P. K., & Saha, D., 2013. An

  Integrasi peringkas dokumen otomatis dengan algoritma latent semantic analysis (LSA) pada peringkas dokumen otomatis untuk proses clustering dokumen. Vol. 13, No. 1, pp.61-68. Novitasari, D., 2016. Perbandingan Algoritma

  Volume 5, pp.361 –367. Luthfiarta, A., Zeniarja, J., Salam, A., 2014.

  Summarization Using Supervised Machine Learning Technique for Hindi Langauge. International Journal of Research in Engineering and Technology .

  70. Desai, N., & Shah, P., 2016. Automatic Text

  International Journal of Database Theory and Application . Volume 7, no.1,pp.61-

  Bijalwan, V., Kumar, V., Kumari, P., & Pascual, J., 2014. KNN based Machine Learning Aproach for Text and Document Mining.

  Ridok, A., 2014. Peringkasan Dokumen Bahasa Indonesia Berbasis Non-Negative Matrix Factorization (NMF). Jurnal Teknologi Informasi dan Ilmu Komputer. Vol. 1, No.

  1, hlm. 39-44.

  dilihat bahwa ketika k bernilai 1, nilai precision,

5. KESIMPULAN

  dengan nilai masing-masing sebesar 0.75, 0.71 dan 0.72. Kemudian, Semakin besar nilai k maka nilai precision, recall dan f-measure semakin menurun dikarenakan semakin banyak kelas yang tidak relevan masuk kedalam kelas ringkasan.

  No.4, pp. 15

  measure terbaik didapatkan pada fitur set 9

  teks otomatis pada artikel berita kesehatan dengan melakukan preprocessing, ekstraksi fitur dan menghitung jarak Euclid untuk kelas terdekat. Nilai rata-rata precision, recall dan f-

  neighbor dapat diterapkan dalam peringkasan

  Berdasarkan hasil pengujian dan analisis dari Peringkasan teks otomatis pada artikel berita kesehatan menggunakan k-nearest neighbor berbasis fitur statistik dapat disimpulkan bahwa Algoritma k-nearest

  measure pun menjadi turun.

  dikarenakan ketika nilai k semakin besar menyebabkan semakin banyak kelas yang tidak relevan masuk kedalam ringkasan sehingga menyebabkan nilai dari precision, recall dan f-

  measure rata-rata semakin menurun. Hal ini

  juga terjadi pada k ketika bernilai 5 dan k bernilai 7. Sehingga dapat dilihat bahwa semakin besar nilai k yang diujikan pada set fitur terbaik (set 9), maka nilai precision, recall dan f-

  precision , recall dan f-measure menurun, hal itu

  tinggi. Kemudian ketika k bernilai 3, nilai

  recall dan f-measure yang dihasilkan sangat

  • –23 Pujiono J, 2015. Orang Indonesia lebih banyak yang sakit daripada yang sehat.[Online] Tersedia di:https://beritagar.id/artikel/kesehatan/or ang-indonesialebih-banyak-yang-sakit- daripada-yang-sehat [Diakses 30 Maret 2017]

DAFTAR PUSTAKA

  Document Text Summarization Using Clustering Approach Implementing for News Article. International Journal of Engineering Trends and Technology (IJETT) . Volume 15, no.7, pp.364 –368.

  Bhole, P., & Agrawal, A. J., 2014. Single

  Babar, S. A., & Patil, P. D., 2015. Improving Performance of Text Summarization.

  Procedia Computer Science . pp.354 –363.