Ekstraksi Kata Kunci Otomatis Teks Berbahasa Indonesia Menggunakan Metode TextRank

1

BAB 1
PENDAHULUAN

1.1. Latar Belakang
Kata kunci (keyword) merupakan kata-kata singkat yang dapat menggambarkan isi
suatu artikel ataupun dokumen (Figueroa,et al. 2014). Kata kunci memberikan
kemudahan bagi setiap pembaca artikel untuk dapat secara cepat mengetahui inti dari
artikel tersebut. Ekstraksi kata kunci adalah sebuah tahapan untuk dapat
mengindentifikasi berbagai kumpulan teks pada suatu dokumen dan menemukan kata
kunci yang tepat sesuai dengan topik pembahasan dari dokumen yang diolah. Saat ini
dengan adanya perkembangan teknologi yang semakin pesat menyebabkan beragam
informasi tersebar dengan cepat melalui internet sehingga sulit untuk mengakses
informasi yang ada secara menyeluruh. Dengan adanya kata kunci (keyword) maka
kita dapat menemukan informasi yang kita butuhkan dari miliaran informasi yang ada
secara lebih cepat (Li, et al.2014).
Ekstraksi kata kunci (keyword) merupakan tahapan penting dari aplikasi text
mining. Biasanya diimplementasikan pada berbagai aplikasi text mining seperti
peringkasan teks otomatis, pengindeksan otomatis, klasifikasi dan pengkategorian
teks, klasterisasi dokumen, deteksi topik dan pelacakan, visualisasi informasi dan lain

sebagainya (Zhang, 2008).Pada berbagai artikel ilmiah, kata kunci biasanya diletakkan
setelah abstrak. Umumnya setiap penulis jurnal diharuskan menentukan kata kunci
untuk jurnalnya tersebut. Saat ini dalam menentukan kata kunci untuk artikel ilmiah
masih dilakukan secara manual sehingga tidak efektif dan membutuhkan banyak
waktu untuk para analis informasi ataupun mahasiswa dalam menemukan kata kunci
yang tepat terutama jika menentukan kata kunci untuk banyak artikel ilmiah. Tidak
semua penulis mampu membuat kata kunci untuk artikel yang dibuatnya dan tidak
semua kata kunci dapat dengan benar mewakili isi teks karena subjektifitas manusia
(Bohne & Borghoff, 2013 ; Fudholi, 2014).

Universitas Sumatera Utara

2

Untuk memudahkan proses ekstraksi kata kunci, banyak penelitian yang telah
dikembangkan dengan memanfaatkan berbagai metode sehingga memperoleh hasil
yang akurat. Pada penelitian Anggraeni(2012) menggunakan metode Corephrase
untuk ekstraksi frase kunci dari sekelompok dokumen berbahasa Indonesia. Penelitian
selanjutnya dilakukan oleh Bhaskar et al.(2012) menggunakan pendekatan supervised
seperti Conditional Random Fields (CRF) untuk ekstraksi kata kunci dari dokumen

jurnal berbahasa Inggris. Penelitian oleh Ali et al.(2014) menggabungkan metode
pembelajaran mesin (machine learning) seperti linear logistic regression, linear
discriminant analysis dan support vector machines serta metode statistikal hybrid
untuk ekstraksi frase kunci dokumen berbahasa Arab. Penelitian lainnya oleh Figueroa
et al.(2014) menggunakan metode HybridRank yaitu metode gabungan TextRank dan
KEA untuk mengolah abstrak jurnal berbahasa Inggris.
Li et al.(2014) mencoba meningkatkan algoritma textrank menggunakan
domain pengetahuan yang diambil dari pengetahuan terhadap kata kunci yang sudah
dikenali dilihat dari panjang kata kunci,komponen kata kunci, ataupun frekuensi
kemunculan katanya. Dimana pada tahapan penentuan kandidat kata kuncinya
menggunakan metode DF-AV. Sedangkan penelitian Farizi(2015) membuat sistem
rekomendasi tag pada berita online berbahasa Indonesia menggunakan metode TFIDF dan Collaborative Tagging. Penelitian Paymard (2015) menggunakan metode
neural network untuk menyelesaikan ekstraksi kata kunci dari dokumen berbahasa
Persia dan pada penelitian Horita et al.(2016) melakukan ekstraksi kata kunci untuk
proses wikifikasi dimana yang menjadi data sumbernya yaitu artikel di dalam web
wikipedia untuk dokumen berbahasa asia seperti bahasa Jepang dengan menggunakan
metode Top Consecutive Nouns Cohesion (TCNC) dan Dice Coefficient atau
Kephraseness.
Pada penelitian ini penulis mencoba menerapkan algoritma TextRank untuk
mendapatkan kata kunci dari dokumen berbahasa Indonesia. Metode ini menggunakan

pemodelan graf yang tidak membutuhkan data latih dalam pemrosesannya sehingga
bisa lebih cepat. Akurasi algoritma TextRank pada beberapa penelitian sebelumnya
juga cukup akurat dalam mengekstraksi kata kunci untuk artikel berita bahasa Cina
dan abstrak jurnal berbahasa Inggris. Metode textrank ini juga tidak bergantung pada
bahasa tertentu sehingga penulis mencoba membuktikannya dengan menerapkan
algoritma tersebut untuk diimplementasikan pada teks berbahasa Indonesia. Pada

Universitas Sumatera Utara

3

penelitian ini, penulis juga menerapkan modifikasi tahapan preprocessing dan
postprocessing dalam menunjang kinerja dari algoritma textrank untuk ekstraksi kata
kunci teks berbahasa Indonesia. Pada tahapan preprocessing, penulis menerapkan
aturan multiword expression candidate dalam penentuan kandidat kata untuk diolah
oleh algoritma textrank
Berdasarkan latar belakang diatas, maka penulis mengajukan penelitian
dengan judul “EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA
INDONESIA MENGGUNAKAN METODE TEXTRANK”. Hasil dari penelitian ini
diharapkan mampu menemukan seberapa efektif kata kunci yang dihasilkan dan

direkomendasikan ke pengguna sistem dengan menggunakan algoritma textrank
terutama untuk kata kunci dari teks berbahasa Indonesia.
1.2. Rumusan Masalah
Ekstraksi kata kunci merupakan tahapan penting dari beberapa aplikasi text mining
seperti peringkasan teks, clustering, indexing otomatis dan lain sebagainya. Dalam
pengaplikasiannya terutama dalam mengolah teks bahasa Indonesia, hasil dari
ekstraksi kata kunci cenderung berupa kata kunci satu kata, padahal kata kunci yang
berupa frase ataupun multiword lebih informatif dan lebih spesifik menggambarkan
topik suatu artikel. Penentuan kata kunci secara manual terutama untuk artikel ilmiah
tentu saja akan menghabiskan banyak waktu dan tidak efektif terutama jika dokumen
yang diolah jumlahnya banyak. Oleh karena itu, dibutuhkan suatu pendekatan yang
dapat mengekstraksi kata kunci satu kata ataupun multiword secara lebih otomatis dari
dokumen teks berbahasa Indonesia.
1.3. Batasan Masalah


Dokumen yang digunakan sebagai data uji adalah dokumen artikel ilmiah
berbahasa Indonesia.




Data yang diambil sebagai data uji adalah dokumen ataupun artikel ilmiah
terutama yang memiliki kata kunci yang telah ditentukan manual oleh
penulisnya sebagai evaluasi sistem.



Jumlah maksimum kata kunci yang dihasilkan adalah 15 kata kunci per artikel.



Menangani kata kunci satu kata ataupun dalam bentuk multi-kata/frase.



Jenis format file dokumen artikel ilmiah yang diolah yaitu .PDF

Universitas Sumatera Utara

4




Ekstraksi dilakukan secara offline.

1.4. Tujuan Penelitian
Penelitian ini bertujuan untuk mengimplementasikan ekstraksi kata kunci satu kata
ataupun multiword untuk dokumen teks berbahasa Indonesia menggunakan metode
TextRank dan menganalisis pengaruh modifikasi tahapan preprocessing dari metode
TextRank terhadap kinerja ekstraksi kata kunci teks berbahasa Indonesia.
1.5. Manfaat Penelitian


Memberikan rekomendasi kata kunci yang berbentuk satu kata ataupun beberapa
kata secara cepat.



Mengetahui seberapa akurat ekstraksi kata kunci dari dokumen berbahasa
Indonesia yang mengimplementasikan algoritma TextRank.




Memudahkan pengguna seperti mahasiswa ataupun analis informasi dalam
menemukan alternatif pilihan kata kunci untuk artikel ilmiahnya secara lebih
otomatis dan cepat.



Penelitian dapat dimanfaatkan untuk pengembangan penelitian lebih lanjut seperti
penelitian tentang peringkasan teks, pengklasifikasian teks, klasterisasi dokumen
dan lain sebagainya yang menggunakan tahapan ekstraksi kata kunci.

1.6. Metodologi Penelitian
Terdapat beberapa metode penelitian yang digunakan yaitu:
1. Studi Literatur
Pada tahapan ini penulis mengumpulkan berbagai referensi dari buku, internet,
jurnal ataupun paper terdahulu serta mempelajari teori yang berkaitan dengan
permasalahan ekstraksi kata kunci pada penelitian ini.
2. Analisis dan Pengumpulan Data

Pada tahapan ini dilakukan analisis terhadap permasalahan yang penulis ambil
seperti menganalisis kinerja ekstraksi kata kunci dari berbagai metode pada
penelitian terdahulu dan menganalisis kemungkinan kata kunci yang sering
muncul pada berbagai artikel ilmiah serta mengumpulkan berbagai data lainnya

Universitas Sumatera Utara

5

yang berkaitan dengan ekstraksi kata kunci dan informasi berkaitan dengan
metode TextRank yang digunakan.
3. Perancangan Sistem
Pada tahapan ini dilakukan proses perancangan arsitektur, pengumpulan data serta
perancangan antarmuka sistem.
4. Implementasi Sistem
Tahapan selanjutnya yaitu melakukan perancangan terhadap sistem dengan
mengimplementasikannya menggunakan bahasa pemograman Java(Eclipse).
5. Pengujian Sistem
Pada tahapan ini dilakukan proses pengujian sistem dengan melihat kesamaan
dari kata kunci yang dihasilkan sistem dengan kata kunci yang dibuat manual oleh

penulisnya dan melihat seberapa akurat metode TextRank dan modifikasinya
dalam mengekstraksi kata kunci dari dokumen teks berbahasa Indonesia.
6. Dokumentasi dan Penyusunan Laporan
Pada tahapan akhir ini dilakukan tahapan pendokumentasian dan penyusunan
laporan hasil penelitian yang telah dibuat.
1.7. Sistematika Penulisan
Sistematika penulisan pada skripsi ini dibagi menjadi beberapa bagian seperti berikut:
BAB 1. PENDAHULUAN
Pada bab ini akan dibahas mengenai latar belakang penelitian, rumusan masalah,
batasan masalah, tujuan penelitian, manfaat, metodologi penelitian serta sistematika
penulisan.
BAB 2. LANDASAN TEORI
Pada bab ini berisi berbagai landasan teori yang digunakan untuk memahami
permasalahan yang ada pada penelitian ini. Dimana teori-teori tersebut seperti teori
umum tentang ekstraksi kata kunci, POS tagging, multiword expression, dan teori
dasar dari algoritma textrank.

Universitas Sumatera Utara

6


BAB 3. ANALISIS DAN PERANCANGAN SISTEM
Pada bab ini akan dibahas mengenai analisis permasalahan penelitian dan penjelasan
tentang rancangan struktur program dan antarmuka dari aplikasi ekstraksi kata kunci
yang dibuat.
BAB 4. IMPLEMENTASI DAN PENGUJIAN SISTEM
Bab ini berisi penjelasan pengimplementasian sistem seperti gambaran antarmuka
aplikasi yang dibuat dan pengujian aplikasi apakah berhasil dijalankan dengan baik
serta menemukan error yang muncul didalam sistem yang dibuat. Pada bab ini juga
membahas hasil pengujian berupa persentase akurasi keberhasilan sistem.
BAB 5. KESIMPULAN DAN SARAN
Pada bab ini akan dijabarkan beberapa kesimpulan dari perancangan sistem dan saran
untuk pengembangan penelitian lebih lanjut.

Universitas Sumatera Utara