Ekstraksi Kata Kunci Otomatis Teks Berbahasa Indonesia Menggunakan Metode TextRank

EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA
MENGGUNAKAN METODE TEXTRANK

SKRIPSI

RANTI RAMADHIANA
121402056

PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017

Universitas Sumatera Utara

EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA
MENGGUNAKAN METODE TEXTRANK

SKRIPSI


Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana
Teknologi Informasi

RANTI RAMADHIANA
121402056

PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017

Universitas Sumatera Utara

i

PERSETUJUAN

Judul


: EKSTRAKSI KATA KUNCI OTOMATIS TEKS
BERBAHASA INDONESIA MENGGUNAKAN
METODE TEXTRANK

Kategori

: SKRIPSI

Nama

: RANTI RAMADHIANA

Nomor Induk Mahasiswa

: 121402056

Program Studi

: SARJANA (S1) TEKNOLOGI INFORMASI


Departemen

: TEKNOLOGI INFORMASI

Fakultas

: FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI
INFORMASI

Komisi Pembimbing

:

Pembimbing 2

Pembimbing 1

Romi Fadillah Rahmat, B.Comp.Sc., M.Sc Dani Gunawan, ST., M.T
NIP. 19860303 201012 1 004


NIP. 19820915 201212 1 002

Diketahui/disetujui oleh
Program Studi S1 Teknologi Informasi
Ketua,

Romi Fadillah Rahmat, B.Comp.Sc., M.Sc
NIP. 19860303 201012 1 004

Universitas Sumatera Utara

ii

PERNYATAAN

EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA
MENGGUNAKAN METODE TEXTRANK

SKRIPSI


Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa
kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 28 Juli 2017

Ranti Ramadhiana
121402056

Universitas Sumatera Utara

iii

UCAPAN TERIMA KASIH

Puji dan syukur penulis sampaikan kehadirat Allah SWT yang telah memberikan
rahmat dan izin-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat
untuk memperoleh gelar sarjana Komputer pada Program Studi S1 Teknologi
Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera
Utara. Selama dalam penyelesaian tugas akhir ini, banyak sekali bantuan dan
dukungan serta doa dari berbagai pihak sehingga penulis ingin menyampaikan ucapan

terima kasih sedalam-dalamnya dan penghargaan kepada :
1. Kedua orang tua penulis, Ayahanda Zakaria Ilyas(Alm) dan Ibunda
Fetrimayanti yang telah membesarkan penulis dengan sabar dan penuh kasih
sayang serta memberikan doa dan dukungan moril maupun materiil serta
memberikan motivasi terbesar kepada penulis sehingga penulis dapat
memberikan yang terbaik untuk menyelesaikan skripsi ini. Serta kepada
seluruh anggota keluarga penulis yang selalu memberikan semangat kepada
penulis.
2. Bapak Dani Gunawan, ST., M.T selaku pembimbing pertama dan Bapak Romi
Fadillah Rahmat, B.Comp.Sc.,M.Sc selaku pembimbing kedua yang telah
meluangkan waktu dan pikiran beliau untuk membimbing penulis dalam
menyelesaikan penelitian dan skripsi ini. Tanpa motivasi dan arahan yang
diberikan dari kedua pembimbing, tentu penulis tidak akan dapat
menyelesaikan skripsi ini dengan baik.
3. Ibu Sarah Purnamawati, ST., MSc sebagai dosen pembanding pertama dan
Bapak Ainul Hizriadi, S.Kom, M.Sc sebagai dosen pembanding kedua yang
telah memberikan masukan dan kritik yang membangun dan bermanfaat dalam
penulisan skripsi ini.
4. Semua dosen serta pegawai dilingkungan Fakultas Ilmu Komputer dan
Teknologi Informasi yang telah membantu dan membimbing penulis selama

proses perkuliahan.
5. Sahabat penulis khususnya Eriza Mediana, Nurul Khadijah, Putri Nursafitri,
Annisa Faradina, Endang Windarsih, Nurrahmadayeni, Rona Idona Vynaima
S, Siti Fatimah, Siti Hazizah Hrp, Nurchalissa Saragih yang telah memberikan
dukungan dan memberikan nasehat kepada penulis.
6. Teman-teman dan sahabat seperjuangan mahasiswa Teknologi Informasi USU
yang telah memberikan dukungan dan bantuan selama masa perkuliahan yang
namanya tidak dapat penulis sebutkan satu persatu.
7. Teman-teman Paguyuban Karya Salemba Empat.

Universitas Sumatera Utara

iv

Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah
memberikan bantuan, perhatian serta dukungan dan motivasinya kepada penulis dalam
menyelesaikan skripsi ini.
Medan, 28 Juli 2017

Penulis


Universitas Sumatera Utara

v

ABSTRAK

Tahapan ekstraksi kata kunci merupakan salah satu tahapan penting dari beberapa
aplikasi text mining. Untuk mendapatkan kata kunci yang tepat secara lebih otomatis,
berbagai metode ekstraksi kata kuncipun terus dikembangkan dan diuji. Pada artikel
ilmiah, ekstraksi kata kunci dibutuhkan untuk memberikan alternatif kata kunci secara
lebih sistematis kepada penulis jurnal. Penentuan kata kunci secara manual pada
artikel ilmiah tidaklah efektif terutama jika artikel ilmiah yang akan dianalisis kata
kuncinya tersebut jumlahnya sangat banyak. Pada penelitian ini ekstraksi kata kunci
dikembangkan menggunakan metode textrank untuk mengekstraksi dokumen teks
bahasa Indonesia dengan memodifikasi tahapan preprocessing pembentukan kandidat
kata kunci dari algoritma textrank tersebut menggunakan aturan multiword expression
candidate. Tahapan keseluruhan metode yang digunakan pada penelitian ini yaitu
preprocessing(text cleaning,tokenizing,case folding,stopword removal, POS tagging,
candidates multiword extraction), ekstraksi kata kunci dan tahapan terakhir yaitu postprocessing untuk pemfilteran kata kunci yang terlalu umum. Hasil akhir dari

penelitian ini menunjukkan bahwasanya textrank dengan multiword expression
candidate memiliki waktu ekstraksi yang lebih cepat dan persentase akurasi recall
yang sedikit lebih tinggi dibandingkan algoritma textrank biasa pada top-15 kata
kunci.

Kata kunci : Ekstraksi kata kunci, Textrank, Preprocessing, Multiword Expression
Candidate

Universitas Sumatera Utara

vi

AUTOMATIC KEYWORDS EXTRACTION FROM INDONESIAN TEXT
DOCUMENT USING TEXTRANK METHOD

ABSTRACT

Keywords extraction is one of the most important stage in some of text mining
applications. To acquire the right keywords more automatically, various methods of
keywords extraction continues to be developed and examined. In most scientific

articles, keywords extraction is needed to offer alternatives keywords systematically
to journal authors. Most of the cases, keywords of scientific articles are offered
manually and this is not really effective, especially when many scientific articles
contains keywords to be extracted. In this research, keywords extraction is developed
by using textrank method to extract Indonesian text document by modifying the
preprocessing stage of candidate keywords selection in textrank algorithm using
multiword expression candidate rule. The overall stages used in this research are
preprocessing (text cleaning, tokenizing, case folding, stopword removal, POS
tagging, multiword candidates extraction), keyword extraction and the last stage is
post-processing for filter keywords that have common words. The result of this
research showed that textrank with multiword expression candidate has a faster
extraction time and a slightly higher recall accuracy compared to common textrank
algorithm in the top-15 keywords.

Keyword: Keywords extraction, Textrank, Preprocessing, multiword expression
candidat.

Universitas Sumatera Utara

vii


DAFTAR ISI

Hal.
PERSETUJUAN

i

PERNYATAAN

ii

UCAPAN TERIMA KASIH

iii

ABSTRAK

v

ABSTRACT

vi

DAFTAR ISI

vii

DAFTAR TABEL

ix

DAFTAR GAMBAR

x

BAB 1 PENDAHULUAN
1.1 Latar Belakang

1

1.2 Rumusan Masalah

3

1.3 Batasan Masalah

3

1.4 Tujuan Penelitian

4

1.5 Manfaat Penelitian

4

1.6 Metodologi Penelitian

4

1.7 Sistematika Penulisan

5

BAB 2 LANDASAN TEORI
2.1 Ekstraksi Kata Kunci

7

2.2 Part of Speech Tagging

8

2.3 Multiword Expression

10

2.4 Algoritma Textrank

11

2.5 Penelitian Terdahulu

13

BAB 3 ANALISIS DAN PERANCANGAN SISTEM
3.1 Data

18

3.2 Analisis Sistem

18

Universitas Sumatera Utara

viii

3.2.1 Input

20

3.2.2 Preprocessing

20

3.2.3 Keyword Extraction

26

3.2.4 Post-Processing

30

3.3 Perancangan Sistem

31

3.3.1 Diagram Aktifitas untuk Ekstraksi Kata Kunci

31

3.3.2 Perancangan Antarmuka Sistem

32

BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM
4.1 Implementasi Sistem

35

4.1.1 Spesifikasi Hardware dan Software yang digunakan

35

4.1.2 Implementasi Perancangan Antarmuka

35

4.2 Pengujian Sistem

38

BAB 5 KESIMPULAN DAN SARAN
5.1 Kesimpulan

46

5.2 Saran

46

DAFTAR PUSTAKA

48

Universitas Sumatera Utara

ix

DAFTAR TABEL

Hal.
Tabel 2.1 Label Kata untuk Bahasa Indonesia

9

Tabel 2.2 Penelitian Terdahulu

15

Tabel 3.1 Tahapan Tokenizing

22

Tabel 3.2 Tahapan Case Folding

23

Tabel 3.3 Tahapan Filtering

23

Tabel 3.4 Daftar Stopword

24

Tabel 3.5 Daftar Kandidat Kata dan Multiword

26

Tabel 3.6 Contoh Hasil dari Perhitungan Textrank dengan Multiword Expression
Candidate

28

Tabel 3.7 Stop-phrase

30

Tabel 3.8 Contoh Hasil Pengurutan Kata Kunci berdasarkan Skor Bobot Kata

31

Tabel 4.1 Data Uji Sistem

38

Tabel 4.2 Hasil Akurasi Ekstraksi Kata Kunci

39

Tabel 4.3 Hasil Akurasi Kata Kunci perkategori Bidang Keilmuan

44

Universitas Sumatera Utara

x

DAFTAR GAMBAR

Hal.
Gambar 2.1

Flowchart Metode Multiword Expression Candidates

11

Gambar 3.1

Arsitektur Umum

19

Gambar 3.2

Contoh Input Teks Berbahasa Indonesia

20

Gambar 3.3

Text Cleaning

22

Gambar 3.4

Tahapan POS Tagging

24

Gambar 3.5

Hasil Proses Multiword Expression Candidate

25

Gambar 3.6

Bagan Contoh Relasi antar Node pada Graf

27

Gambar 3.7

Diagram Aktifitas Ekstraksi Kata Kunci

32

Gambar 3.8

Rancangan Tampilan Halaman Awal

33

Gambar 3.9

Rancangan Tampilan Halaman Utama

33

Gambar 4.1

Tampilan Halaman Awal

36

Gambar 4.2

Tampilan Halaman Utama

36

Gambar 4.3

Tampilan Halaman Utama setelah Dilakukan Proses Ekstraksi

37

Gambar 4.4

Hasil Akhir Kata Kunci pada Tampilan Halaman Utama

37

Universitas Sumatera Utara