Ekstraksi Keyphrase pada Publikasi Ilmiah dengan Kombinasi Pendekatan Ranking dan Deep Belief Network.

(1)

ABSTRAK

Frasa kunci adalah gabungan kata yang mewakili konsep atau garis besar dari suatu dokumen. Frasa kunci digunakan untuk membantu pembaca dalam mengetahui pokok bahasan dari dokumen. Sayangnya terdapat publikasi ilmiah yang memiliki frasa kunci yang tidak relevan terhadap isi dari dokumen atau tidak memiliki frasa kunci. Berdasarkan permasalahan tersebut maka dalam tugas akhir akan dibuat sistem yang dapat melakukan ekstraksi frasa kunci pada publikasi ilmiah secara otomatis dari pdf. Dalam menentukan frasa kunci pada dokumen, akan diusulkan untuk menggunakan pembobotan tf-idf dan deep belief network sebagai metode pembelajaran dengan nilai sentimen sebagai salah satu fitur pembelajaran. Selain nilai sentimen, akan digunakan posisi section sebagai fitur pembelajaran. Posisi section akan ditentukan dengan menggunakan karakteristik font. Deep belief network diusulkan untuk mengetahui efek dari penggunaan deep learning terhadap ekstraksi frasa kunci. Seluruh pengujian yang dilakukan akan menggunakan dataset milik NUS terkait publikasi ilmiah dengan judul “Keyphrase Extraction in Scientific Publications”. Berdasarkan hasil penelitian didapat hasil bahwa penggunaan deep belief network akan menghasilkan model pembelajaran dengan akurasi yang lebih tinggi dibandingkan dengan menggunakan regeresi logistik sebesar 4,33%. Penggunaan analisa sentimen sebagai fitur pembelajaran dapat memberikan peningkatan akurasi terhadap model pembelajaran sebesar 4,17%. Sistem ekstraksi frasa kunci yang dibagun menghasilkan f-measure sebesar 13,22%

Kata kunci: Deep Learning, Deep Belief Network, Ekstraksi Frasa Kunci, Fitur Sentimen, Pemrosesan Dokumen, Tf-Idf


(2)

ABSTRACT

Kerphrases are combination of words which represent concept or main idea in document. Keyphrases are used to aid reader’s understanding regarding to main topic in document. Unfortunately, there are scientific publications which have keypharse that doesn’t represent content of document or have no keyphrase at all. Based on the problem, in this work will be built an automatic keyphrase extraction system for scientific publication in pdf format. In order to determine keyphrases, proposed to use TF-IDF weighting and deep belief network as learning method with sentiment value as one of the learning feature. Besides sentiment value, will be used section position as learning feature. Section position will be determined using font characteristics. Deep belief network is proposed in order to find out the effect of using deep learning in keyphrase extraction. The entire testing conducted will use dataset belongs to NUS regarding scientific publication titled “Keyphrase Extraction in Scientific Publications. Based on result, using of deep belief network will bring higher accuracy for learning model compared of using logistic regeresion in 4.33%. The use of sentiment analysis also gives enhancement to the accuracy of learning model in 4.17%. Proposed keyphrase extraction system has 13.22% for f-measure in top-5.

Keywords: Deep Learning, Deep Belief Network, Document Processing, Keyphrase Extraction, Sentiment Feature, Tf-Idf


(3)

DAFTAR ISI

LEMBAR PENGESAHAN ... i

PERNYATAAN ORISINALISTAS LAPORAN PENELITIAN ... ii

PERNYATAAN PUBLIKASI LAPORAN PENELITIAN ... iii

PRAKATA ... iv

ABSTRAK ... vi

ABSTRACT ... vii

DAFTAR ISI ... viii

DAFTAR GAMBAR ... xiii

DAFTAR TABEL ... xvi

DAFTAR FORMULA ... xvii

DAFTAR NOTASI/ LAMBANG ... xviii

DAFTAR SINGKATAN ... xix

BAB 1 PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 2

1.3 Tujuan Pembahasan ... 2

1.4 Ruang Lingkup ... 3

1.5 Sumber Data ... 3

1.6 Sistematika Penyajian ... 3

BAB 2 KAJIAN TEORI ... 6

2.1 Temu Balik Informasi ... 6

2.2 Penguraian Dokumen ... 7

2.2.1 Tokenisasi ... 7


(4)

2.2.3 Lemmatization ... 9

2.2.4 N-Gram ... 10

2.3 Pembobotan TF-IDF ... 10

2.4 Part of Speech ... 11

2.5 Evaluasi Temu Balik Informasi ... 13

2.6 Pembelajaran Mesin ... 13

2.7 Jaringan Saraf Tiruan ... 14

2.8 Backpropagation ... 16

2.9 Momentum ... 18

2.10 Deep Neural Network ... 18

2.11 Restricted Bolztman Machines (RBMs) ... 19

2.12 Deep Belief Network ... 23

2.13 Pretraining DBN ... 24

2.14 Fine Tuning DBN ... 26

2.15 Fitur-Fitur Pembelajaran Umum Ekstraksi Keyphrase ... 26

2.16 K-Fold Cross Validation ... 27

2.17 Accord .NET ... 28

2.18 Stanford NLP ... 29

2.19 ITextSharp ... 29

2.20 Kontribusi Penelitian ... 29

BAB 3 ANALISIS DAN RANCANGAN SISTEM ... 34

3.1 Rancangan Metode ... 34

3.1.1 Persiapan Data ... 34

3.1.1.1 PoS Tagging ... 35

3.1.1.2 Tokenisasi ... 36


(5)

3.1.1.4 Identifikasi Noun Phrase... 36

3.1.1.5 Stopword ... 37

3.1.1.6 Lemmanization ... 37

3.1.2 Pembentukan Model Pembelajaran ... 38

3.1.3 Ekstraksi Keyphrase ... 40

3.2 Pemodelan Sistem ... 40

3.2.1 Pemodelan Perangkat Lunak ... 41

3.2.1.1 Use Case Diagram ... 41

3.2.1.1.1 Rancangan Use Case Diagram ... 41

3.2.1.1.2 Deskripsi Use Case Diagram ... 41

3.2.1.2 Class Diagram ... 42

3.2.1.3 Activity Diagram ... 44

3.2.1.3.1 Activity Diagram Pembentukan Model ... 44

3.2.1.3.2 Activity Diagram Ekstraksi Keyphrase ... 45

3.2.2 Rancangan Antarmuka Pengguna ... 45

3.2.2.1 Jendela Pembentukan Model ... 46

3.2.2.2 Jendela Ekstraksi Keyphrase ... 47

BAB 4 IMPLEMENTASI ... 49

4.1 Implementasi Class ... 49

4.1.1 Class Phrase ... 49

4.1.2 Class PhraseHelper ... 49

4.1.3 Class DeepNeuralNet ... 50

4.1.4 Class LearningHelper... 50

4.1.5 Class PreprocessingMethod ... 51

4.1.6 Class PreprocessingStep ... 51


(6)

4.2 Implementasi Antarmuka ... 53

4.1.1 Implementasi Antarmuka Modul Pembentukan Model ... 53

4.2.1 Implementasi Antarmuka Modul Ekstraksi Keyphrase ... 53

4.3 Implementasi Algoritma... 54

4.3.1 Deterministic Finite Automata (DFA) ... 54

4.3.2 Sentiment Analysis ... 56

4.3.3 Name Entity Recognation ... 58

4.3.4 Stopping ... 58

4.3.5 Lemmanization ... 59

4.3.6 Pengenalan Section... 60

4.3.7 Pretraining ... 61

4.3.8 Backpropagation ... 63

4.4 Implementasi Metode ... 64

4.4.1 Persiapan Data ... 64

4.4.1.1 Konversi Pdf ... 65

4.4.1.2 PoS Tagging ... 67

4.4.1.3 Sentiment Analysis ... 68

4.4.1.4 Pengambilan Kandidat Frasa Kunci ... 69

4.4.1.5 Penggabungan Frasa ... 72

4.4.1.6 Perhitungan Idf ... 76

4.4.1.7 Ranking Tf-Idf ... 77

4.4.2 Pembentukan Model... 80

4.4.3 Ekstraksi Keyphrase ... 83

BAB 5 PENGUJIAN ... 84

5.1 Rencana Pengujian ... 84


(7)

5.1.1 Pengujian Pembentukan Model Pembelajaran ... 84

5.1.2 Pengujian Ekstraksi Keyphrase ... 87

5.3 Data Pengujian ... 88

5.4 Pengujian Hasil konversi Pdf ke Teks ... 89

5.5 Pengujian Fitur Pembelajaran ... 91

5.6 Pengujian Jumlah Layer dan Jumlah Neuron... 93

5.7 Benchmarking ... 98

5.8 Evaluasi Keseluruhan Sistem ... 99

5.9 Evaluasi Pengaruh Abstrak ... 101

5.10 Analisa Sentimen ... 102

BAB 6 SIMPULAN DAN SARAN ... 104

6.1 Simpulan ... 104

6.2 Saran ... 104


(8)

DAFTAR GAMBAR

Gambar 2.1 Contoh Tokenisasi [5] ... 8

Gambar 2.2 Contoh Stopword Bahasa Inggris ... 9

Gambar 2.3 Contoh Lemmatization Pada Dokumen [5] ... 9

Gambar 2.4 Contoh n-gram pada dokumen ... 10

Gambar 2.5 Contoh hasil dari POS tagger [3] ... 12

Gambar 2.6 Contoh Multilayer Perceptron (MLP) [12] ... 14

Gambar 2.7 Perceptron, Fungsi Penjumlahan, dan Fungsi Aktivasi [10] ... 15

Gambar 2.8 Fungsi sigmoid [12] ... 16

Gambar 2.9 Perbedaan ANN dan DNN [12] ... 19

Gambar 2.10 Struktur Restricted Bolztman Machine [12] ... 19

Gambar 2.11 Fase Maju RBM [18] ... 20

Gambar 2.12 Fase Mundur Pada RBM [18] ... 20

Gambar 2.13 Gibbs Sampling Pada RBM [12] ... 22

Gambar 2.14 RBMs Pada DBN [16]... 24

Gambar 2.15 Algoritma Contrastive Divergence [12] ... 25

Gambar 2.16 Learning DBN Pada Jaringan Dengan 3 Hidden Layer [22] ... 26

Gambar 2.17 Contoh 5-Fold Cross Validation [11] ... 28

Gambar 3.1 Langkah-Langkah Persiapan Data ... 35

Gambar 3.2 Langkah-Langkah Pembentukan Model ... 39

Gambar 3.3 Langkah-Langkah Ekstraksi Keyphrase... 40

Gambar 3.4 Rancangan Use Case Diagram ... 41

Gambar 3.5 Rancangan Class Diagram Sistem Ekstraksi Keyphrase... 43

Gambar 3.6 Activity Diagram Pembentukan Model... 44

Gambar 3.7 Activity Diagram Ekstraksi Keyphrase ... 45

Gambar 3.8 Rancangan Jendela Pembentukan Model ... 46

Gambar 3.9 Rancangan Jendela Ekstraksi Keyphrase ... 48

Gambar 4.1 Class Phrase ... 49

Gambar 4.2 Class PhraseHelper ... 50

Gambar 4.3 Class DeepNeuralNet ... 50


(9)

Gambar 4.5 Class PreprocesingMethod ... 51

Gambar 4.6 Class PreprocessingStep ... 52

Gambar 4.7 Class StanfordNlpPipe ... 52

Gambar 4.8 Tampilan Antarmuka Modul Pembentukan Model ... 53

Gambar 4.9 Tampilan Antarmuka Ekstraksi Keyphrase... 54

Gambar 4.10 Method IsNounPhrase Implementasi DFA ... 56

Gambar 4.11 Method Sentiment Analysis ... 57

Gambar 4.12 Method GetNameEntity ... 58

Gambar 4.13 Method ContainsStopword ... 59

Gambar 4.14 Method Lemmatize ... 60

Gambar 4.15 Implementasi Pengenalan Section ... 61

Gambar 4.16 Method UnsupervisedPretraining ... 62

Gambar 4.17 Method SupervisedPretraining ... 63

Gambar 4.18 Method Backpropagation ... 63

Gambar 4.19 Implementasi Persiapan Data ... 65

Gambar 4.20 Contoh Hasil Konversi Pdf ke Teks ... 66

Gambar 4.21 Contoh Hasil Pemisahan Kata Kunci ... 67

Gambar 4.22 Kode untuk Mengenali Kalimat dan PoS Tagging ... 67

Gambar 4.23 Contoh Hasil PoS Tagging ... 68

Gambar 4.24 Contoh Hasil Analisa Sentimen ... 69

Gambar 4.25 Potongan Kode Step 1 ... 72

Gambar 4.26 Potongan Kode Step 2 ... 73

Gambar 4.27 Potongan Kode Perhitungan Idf ... 76

Gambar 4.28 Contoh Hasil Perhitungan Idf ... 77

Gambar 4.29 Ranking tf-Idf ... 78

Gambar 5.1 Perbandingan Hasil Konversi Pdf oleh Sistem Dengan Nguyen ... 90

Gambar 5.2 Hasil Konversi Pdf ke Teks Pada Dokumen 51 Oleh Sistem ... 91

Gambar 5.3 Hasil Konversi Pdf ke Teks Pada Dokumen 51 Oleh Nguyen ... 91

Gambar 5.4 Dampak Fitur Pada Model Pembelajaran... 92

Gambar 5.5 Dampak Akurasi Penambahan Layer Pada Model Tanpa Pretraining ... 94


(10)

Gambar 5.7 Dampak Akurasi Penambahan Layer Pada Model Dengan Pretraining ... 96 Gambar 5.8 Dampak Penambahan Neuron Pada Model Dengan Pretraining... 96 Gambar 5.9 Perbandingan Layer Model Tanpa Pretraining dan Dengan Pretraining ... 97 Gambar 5.10 Perbandingan Model Tanpa Pretraining dan Dengan Pretraining . 98 Gambar 5.11 Perbandingan Deep Belief Network dan Logistic Regeresion ... 99


(11)

DAFTAR TABEL

Tabel 2.1 Kelas dalam Penn Treebank [9] ... 12

Tabel 2.2 Fitur-Fitur Pembelajaran Ekstraksi Keyphrase [23] ... 26

Tabel 2.3 Kumpulan Library Accord.NET [23]... 28

Tabel 3.1 Rancangan Fitur-Fitur Pembelajaran ... 38

Tabel 3.2 Deskripsi Use Case Diagram untuk Pembentukan Model ... 41

Tabel 3.3 Deskripsi Use Case Diagram untuk Ekstraksi Keyphrase ... 42

Tabel 4.1 Contoh Hasil Step 1 ... 70

Tabel 4.2 Contoh Hasil Step 2 ... 75

Tabel 4.3 Contoh Hasil Step 3 ... 79

Tabel 4.4 Contoh Hasil Pemilihan Frasa Kunci Relevan dan Tidak Relevan ... 81

Tabel 5.1 Test Case untuk Pembentukan Model Pembelajaran ... 84

Tabel 5.2 Test Case untuk Ekstraksi Keyphrase ... 87

Tabel 5.3 Rata-Rata Precision, Recall, dan F-Measure Skenario 1 ... 100

Tabel 5.4 Rata-Rata Precision, Recall, dan F-Measure Skenario 2 ... 100

Tabel 5.5 Rata-Rata Precision, Recall, dan F-Measure Skenario 3 ... 100

Tabel 5.6 Rata-Rata Precision, Recall, dan F-Measure Skenario 4 ... 101

Tabel 5.7 Rata-Rata Precision, Recall, dan F-Measure Dokumen Dengan Abstrak ... 102

Tabel 5.8 Rata-Rata Precision, Recall, dan F-Measure Dokumen Tanpa Abstrak ... 102


(12)

DAFTAR FORMULA

Formula 2.1 Persamaan TF-IDF [5] ... 11

Formula 2.2 Persamaan Precision [5] ... 13

Formula 2.3 Persamaan Recall [5] ... 13

Formula 2.4 F-Measure dengan Harmonic Mean [5] ... 13

Formula 2.5 Fungsi Penjumlahan Jaringan Saraf Tiruan [10] ... 15

Formula 2.6 Fungsi Sigmoid Jaringan Saraf Tiruan [10] ... 15

Formula 2.7 Error Output Layer Jaringan Saraf Tiruan [10] ... 16

Formula 2.8 Error Hidden Layer Jaringan Saraf Tiruan [10] ... 17

Formula 2.9 Delta Rule Jaringan Saraf Tiruan [10] ... 17

Formula 2.10 Perubahan Bobot Perceptron Jaringan Saraf Tiruan [10] ... 17

Formula 2.11 Delta Rule Jaringan Saraf Tiruan Dengan Momentum [10]... 18

Formula 2.12 Energy-Based Model RBM [16]... 21

Formula 2.13 Peluang Untuk Hidden Units [12] ... 21

Formula 2.14 Peluang Untuk Visible Units [12] ... 21

Formula 2.15 Perubahan Bobot dan Bias Visible dan Hidden Unit [12] ... 22


(13)

DAFTAR NOTASI/ LAMBANG

Jenis Notasi/ Lambang Nama Arti

Use Case Aktor Menggambarkan aktor atau

pengguna aplikasi.

Use Case Case Menggambarkan proses atau

aksi yang dapat dilakukan oleh aktor pada aplikasi.

Use Case Association Menggambarkan komunikasi

antara use case dan aktor yang berpartisipasi (asosiasi). Activity

Diagram

Initial Node Menandakan dimulainya aktivitas pada sebuah sistem. Activity

Diagram

Activity Menandakan aktivitas apa yang akan dilakukan oleh pengguna aplikasi.

Activity Diagram

Final Node Menandakan akhir aliran proses sistem


(14)

DAFTAR SINGKATAN

ANN Artificial Neural Network

DNN Deep Neural Network

MLP Multilayer Perceptron

PoS Part of Speech

RBM Restricted Bolztman Machine

TF-IDF Term Frequency–Inverse Document Frequency


(15)

BAB 1

PENDAHULUAN

1.1Latar Belakang

Kata kunci adalah kata yang mewakili konsep atau garis besar dari suatu dokumen [1]. Kata kunci digunakan sebagai pernyataan informasi penting mengenai isi pembahasan dan ide dalam dokumen. Hal tersebut dapat membantu pembaca dalam mencari informasi-informasi yang diinginkan dari kumpulan dokumen dengan lebih efektif. Dengan adanya kata kunci, pembaca akan dibantu dalam memutuskan untuk membaca dokumen tersebut atau tidak sesuai dengan kebutuhan. Pembaca cenderung akan melihat kata kunci dari dokumen terlebih dahulu sebelum memutuskan untuk membaca keseluruhan isi dari dokumen atau tidak.

Kata kunci dapat dibentuk dari satu atau lebih kata. Gabungan dari satu atau lebih kata disebut dengan frasa. Dalam Kamus Besar Bahasa Indonesia (KBBI) frasa adalah gabungan dua kata atau lebih yang bersifat nonpredikatif (tidak berkaitan pada predikat) [2]. Kata kunci yang terdiri dari dua atau lebih kata disebut dengan frasa kunci atau keyphrase.

Meskipun artikel ilmiah yang telah dipublikasikan dalam jurnal umumnya terdapat beberapa frasa kunci, terdapat artikel ilmiah tanpa frasa kunci [3]. Frasa kunci yang terdapat pada dokumen publikasi ilmiah sering kali terbatas sehingga tidak dapat merepresentasikan isi dari dokumen [3]. Terkadang terdapat frasa kunci yang tidak sesuai dengan dengan isi dokumen, sebagai contoh publikasi ilmiah mengenai jaringan komputer tetapi terdapat kata kunci sistem informasi.

Dokumen yang tidak memiliki frasa kunci mengakibatkan sulitnya menemukan informasi yang relevan pada dokumen, lamanya waktu untuk mencari dokumen, sulitnya melakukan klasifikasi dokumen dan kesalahan pemahaman pembaca mengenai isi pembahasan dokumen. Untuk itu frasa kunci menjadi hal yang penting dalam dokumen.

Frasa kunci yang tidak relevan terhadap isi dokumen berimbas pada hasil pencarian dokumen yang tidak relevan atau tidak sesuai dengan keinginan. Kesalahan pemberian frasa kunci sering kali disebabkan oleh kesalahan penulis.


(16)

2

Kesalahan pemberian frasa kunci pada dokumen disebabkan karena terkadang bagi sebagian orang untuk menentukan frasa kunci yang baik dan relevan terhadap dokumen adalah hal yang sulit. Pengetahuan penulis yang minim dan kesalahan penulisan dapat menjadi faktor dalam kesalahan pemberian frasa kunci. Semua hal tersebut berlaku pula pada publikasi ilmiah.

Berdasarkan permasalahan-permasalahan yang telah diuraikan, maka pada Tugas Akhir ini akan dibangun sistem ekstraksi keyphrase terhadap publikasi ilmiah. Penelitian ini difokuskan pada publikasi ilmiah yang ditulis memakai bahasa inggris.

Dalam pembangunan sistem ekstraksi frasa kunci, akan digunakan fitur sentimen dan deep learning yang akan membedakan dengan sistem sejenis. Fitur sentimen digunakan dengan alasan bahwa penulis publikasi ilmiah cenderung untuk mengeksploitasi kelebihan dari metodologi yang dibahas. Deep learning akan digunakan dengan alasan algoritma pembelajaran tersebut dapat memodelkan data yang bersifat kompleks sehingga dapat meningkatkan akurasi model pembelajaran.

1.2Rumusan Masalah

Berdasarkan latar belakang masalah yang telah dijelaskan pada bagian 1.1., maka dapat diambil rumusan masalah sebagai berikut:

1. Bagaimana cara mengotomatisasi pemilihan frasa kunci?

2. Bagaimana meningkatkan akurasi model pembelajaran ekstraksi frasa kunci? 3. Bagaimana meningkatkan akurasi klasifikasi frasa kunci pada publikasi ilmiah?

1.3Tujuan Pembahasan

Berdasarkan rumusan masalah yang telah dirumuskan pada bagian 1.2., maka dapat dituliskan tujuan sebagai berikut:

1. Membangun aplikasi yang dapat mengekstraksi frasa kunci secara otomatis dari publikasi ilmiah berekstensi pdf.

2. Melibatkan analisa sentimen sebagai salah satu fitur model pembelajaran dengan mengasumsikan bahwa penulis publikasi ilmiah cenderung mengeksploitasi kelebihan dari metodologinya dibanding kekurangannya.


(17)

3

3. Menerapkan deep learning untuk mengklasifikasi frasa kunci dengan mempertimbangkan bahwa metode tersebut umumnya menghasilkan akurasi lebih tinggi dibandingkan algoritma klasifikasi standar.

1.4Ruang Lingkup

Ruang lingkup yang dirumuskan dari Tugas Akhir adalah:

1. Dokumen hanya terfokus pada publikasi ilmiah berupa paper dalam bidang ilmu komputer.

2. Bahasa dalam publikasi ilmiah hanya terfokus pada bahasa inggris.

3. Pendekatan yang akan diteliti adalah pendekatan statistik dan pendekatan pembelajaran.

4. Masukan program dibatasi hanya dalam bentuk softcopy dengan ekstensi

pdf.

1.5Sumber Data

Sumber data yang digunakan dalam Tugas Akhir ini adalah sebagai berikut: 1. Sumber data primer

Data diperoleh dari koleksi publikasi ilmiah milik National University of Singapore (NUS) terkait publikasi ilmiah yang berjudul “Keyphrase Extraction in Scientific Publications” [4].

2. Sumber data sekunder

Data diperoleh dengan melakukan survei literatur/studi kepustakaan, berupa buku teks dan referensi ilmiah lain seperti paper yang memuat materi yang berhubungan dengan penelitian.

1.6Sistematika Penyajian

Sistematika pembahasan penyusunan Tugas Akhir direncanakan sebagai berikut:

BAB I PENDAHULUAN

Pada bab ini akan dijelaskan mengenai latar belakang diperlukannya sistem ekstraksi keyphrase terhadap publikasi ilmiah, rumusan masalah berdasarkan latar


(18)

4

belakang, rumusan tujuan sesuai dengan rumusan masalah yang telah dibuat, ruang lingkup kajian penelitian, serta sistematika pembahasan dari Tugas Akhir.

BAB II KAJIAN TEORI

Pada bab ini akan diuraikan teori-teori berkaitan yang akan dipakai dalam pembuatan sistem ekstraksi keyphrase. Teori-teori diambil dari berbagai buku teks maupun publikasi ilmiah. Pada akhir bab ini akan dijelaskan tinjauan pustaka mengenai penelitian terkait sesuai dengan topik Tugas Akhir. Akan dijelaskan pula kontribusi penelitian yang menjadi pembeda dari penelitian sebelumnya.

BAB III ANALISIS DAN RANCANGAN SISTEM

Pada bab ini akan dijelaskan mengenai rancangan dan cara kerja sistem ekstraksi keyphrase. Akan diuraikan pula desain UML sebagai gambaran akan sistem ekstraksi keyphrase yang akan dibuat. UML terdiri dari use case, class

diagram, dan activity diagram. Rancangan antarmuka sistem akan dibahas pada bab

ini.

BAB IV IMPLEMENTASI

Pada bab ini akan dijelaskan mengenai hasil implementasi akan rancangan sistem yang telah diuraikan sebelumnya. Implementasi yang akan dibahas dibagi menjadi empat bagian, yaitu implementasi class, implementasi antarmuka, implementasi algoritma, dan implementasi metode.

BAB V PENGUJIAN

Pada bab ini akan diuraikan mengenai pengujian-pengujian sistem ekstraksi

keyphrase yang telah dibuat. Pengujian yang akan dilakukan adalah pengujian blackbox, pengujian fitur-fitur pembelajaran, pengujian hasil konversi pdf ke teks,

pengujian jumlah neuron dan layer, benchmarking, dan pengujian keseluruhan sistem.


(19)

5

BAB VI KESIMPULAN DAN SARAN

Bab ini berisi kesimpulan dan saran dari pembahasan pada perancangan serta analisa pengujian sistem yang dibuat untuk perkembangan aplikasi kedepannya.


(20)

BAB 6

SIMPULAN DAN SARAN

6.1Simpulan

Dari hasil penelitian yang telah dilakukan dapat ditarik beberapa kesimpulan, yaitu:

1. Sistem ekstraksi frasa kunci otomatis pada publikasi ilmiah telah berhasil dibangun dengan menggabungkan metode ranking dan klasifikasi. Aplikasi ini menghasilkan f-measure pada top-5 dengan exact match sebesar 13,22%. Sistem yang dibagun sudah cukup baik mengingat untuk ekstraksi frasa kunci rata-rata f-measure top-5 adalah 14,19% [39]. F-measure sistem yang dibangun lebih rendah 0,97% dari pada rata-rata sistem-sistem lain karena dalam sistem yang dibangun, pengujian menggunakan exact match (benar-benar cocok). 2. Fitur sentimen yang diusulkan sebagai fitur pembelajaran terbukti dapat

meningkatkan akurasi model pembelajaran sebesar 4,17%.

3. Deep Belief Network menciptakan akurasi yang lebih tinggi dibandingkan

dengan Logistic Regeresion sebesar 4,33%. Selain itu, pretraining memberikan dampak positif pada Deep Belief Network mengingat terjadi peningkatan akurasi sebesar 1,13%.

6.2Saran

Berdasarkan hasil penelitian yang telah dicapai, terdapat beberapa saran untuk pengembangan aplikasi atau penelitian yang akan datang, yaitu:

1. Menggunakan data publikasi ilmiah dengan jumlah yang lebih banyak.

2. Melakukan tuning pada hyperparameter seperti learning rate, momentum,

weight decay, dan epoch.

3. Menggunakan metode tertentu agar hasil konversi dari pdf ke teks dapat mencapai 100% dalam hal akurasi.

4. Menggunakan Information Gain (IG) dan CHI untuk melakukan seleksi kandidat frasa kunci [40].

5. Menggunakan partial match dalam pengujian keseluruhan sistem dibandingkan hanya menggunakan exact match.


(21)

EKSTRAKSI KEYPHRASE PADA PUBLIKASI

ILMIAH DENGAN KOMBINASI PENDEKATAN

RANKING DAN DEEP BELIEF NETWORK

TUGAS AKHIR

Diajukan untuk Memenuhi Persyaratan Akademik dalam

Menyelesaikan Pendidikan pada Program Studi

S1 Teknik Informatika Universitas Kristen Maranatha

Oleh

Felix Christian Jonathan

1372008

PROGRAM STUDI S1 TEKNIK INFORMATIKA

FAKULTAS TEKNOLOGI INFORMASI

UNIVERSITAS KRISTEN MARANATHA

BANDUNG

2016


(22)

PRAKATA

Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa karena atas pertolongan dan rahmat-Nya penulis dapat menyelesaikan Tugas Akhir sesuai dengan waktu yang telah ditetapkan. Segala halangan dan rintangan dapat penulis lewati.

Penulisan Tugas Akhir ini diajukan untuk memenuhi salah satu syarat akademik untuk menyelesaikan pendidikan pada program S1 Teknik Informatika Universitas Kristen Maranatha. Judul yang penulis ajukan adalah “ Ekstraksi Keyphrase Pada Publikasi Ilmiah Dengan Kombinasi Pendekatan Ranking dan Deep Belief Network ”.

Dalam penulisan Tugas Akhir, banyak pihak yang telah memberi arahan dan dukungan. Oleh karena itu penulis ingin mengucapkan terima kasih kepada :

1. Bapak Oscar Karnalim, S.T., M.T., selaku pembimbing yang telah berkenan meluangkan waktu untuk memberikan arahan, saran, dan bimbingan kepada penulis.

2. Bapak Dr. Hapnes Toba, M.Sc., selaku Dekan Fakultas Teknologi Informasi.

3. Bapak Robby Tan, S.T., M.Kom., selaku Ketua Jurusan S1 Teknik Informatika Fakultas Teknologi Informasi.

4. Ibu Meliana Christianti J., S.Kom., M.T., selaku Koordinator Tugas Akhir yang memantau dan membantu segala keperluan yang dibutuhkan dalam penyelesaian Tugas Akhir .

5. Bapak dan Ibu dosen dosen pengajar di Fakultas Teknolog Informasi Universitas Kristen Maranatha.

6. Seluruh civitas akademika Fakultas Teknologi Informasi Universitas Kristen Maranatha.

7. Orang tua dan keluarga yang telah memberi dukungan moril maupun materiil.

8. Teman-teman dan adik angkatan tercinta yang senantiasa memberikan dukungan, semangat dan doa kepada penulis.


(23)

Dalam penelitian ini penulis merasakan masih ada ketidaksempurnaan. Oleh karena itu, dengan hati lapang dan sikap terbuka penulis bersedia menerima kritik dan saran dari pembaca. Penulis juga berharap hasil penelitian ini dapat dijadikan panduan dan referensi bagi penelitian-penelitian selanjutnya.

Let no one despise your youth, but be an example to the believers in word, in conduct, in love, in spirit, in faith, in purity

1 Timothy 4:12

Bandung, 1 November 2016


(24)

DAFTAR PUSTAKA

[1] F. Liu, D. Pennell dan Y. Liu, “Unsupervised Approaches for Automatic Keyword Extraction Using Meeting Transcripts,” dalam Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics Proceedings of the Conference, 2009.

[2] KBBI, “Kamus Besar Bahasa Indonesia,” [Online]. Available: http://kbbi.web.id/. [Diakses 26 Maret 2016].

[3] K. Sarkar, M. Nasipuri dan J. Ghose, “A New Approach to Keyphrase Extraction Using Neural Network,” IJSI International Journal of Computer Science, vol. 7, no. 2, 2010.

[4] T. D. Nguyen dan . M.-Y. Kan, “Keyphrase Extraction in Scientific Publications,” dalam ICADL'07 Proceedings of the 10th international conference on Asian digital libraries: looking back 10 years and forging new frontiers, Berlin, 2007.

[5] C. M. Manning, P. Raghavan dan H. Schutze, Introduction to Information Retrieval, Cambridge: Cambridge University Press, 2009.

[6] B. Croft, D. Metzler dan T. Strohman, Search Engines Information Retrieval in Practice, Boston: Pearson Education, Inc, 2010.

[7] J. Ramos, “Using TF-IDF to Determine Word Relevance in Document Queries,” dalam Proceedings of the first instructional conference on machine learning, 2003.

[8] D. Jurafski dan J. H. Martin, Speech and Language Processing, New Jersey: Prentice-Hall, Inc, 2000.

[9] University of Washington, “PennTree I Tags,” [Online]. Available: http://faculty.washington.edu/dillon/GramResources/penntable.html.

[Diakses 10 May 2016].

[10] T. M. Mitchell, Machine Learning, New York: The McGraw-Hill Companies, Inc., 1997.


(25)

[11] G. James , D. Witten, T. Hastie dan R. Tibshirani, An Introduction to Statistical Learning, New York: Springer New York, 2013.

[12] N. Lopes dan B. Ribeiro, Machine Learning for Adaptive ManyCore Machines – A Practical Approach, Switzerland: Springer, 2015.

[13] L. Deng dan D. Yu, Deep Learning Methods and Applications, Foundations and Trends® in Signal Processing, 2014.

[14] Y. LeCun , Y. Bengio dan G. Hinton, “Deep Learning,” Nature, pp. 436-444,

2015.

[15] Ron Soferman Imaging Group, “RSIP Vision,” [Online]. Available: http://www.rsipvision.com/exploring-deep-learning/. [Diakses 6 Juni 2016]. [16] Bondarenko, Andrey dan A. Borisov, “Research on the Classification Ability

of Deep Belief Networks on Small and Medium Datasets,” Information Technology and Management Science, vol. 16.1, pp. 60-65, 2013.

[17] J. Christopher Sims , “An Implementation of Deep Belief Networks Using Restricted Boltzmann Machines in Clojure,” Open Access Master's Theses, p.

804, 2016.

[18] G. Adam, C. Nicholson dan J. Patterson, “Deeplearning4j,” [Online]. Available: https://deeplearning4j.org/restrictedboltzmannmachine. [Diakses 15 Oktober 2016].

[19] LISA lab, University of Montreal, Deep Learning Tutorial, Theano Development Team, 2015.

[20] D. Mo, “A survey on deep learning: one small step toward AI,” dalam Dept. Computer Science, Univ. of New Mexico, USA, 2012.

[21] Y. Bengio, P. Lamblin, D. Popovici dan H. Larochelle , “Greedy layer-wise training of deep networks,” Advances in neural information processing systems, pp. 19,153, 2001.

[22] H. Larochelle, Y. Bengio, J. Louradour dan P. Lamblin, “Exploring Strategies for Training Deep Neural Networks,” Journal of Machine Learning Research 1, pp. 1-40, 2009.


(26)

[23] K. S. Hasan dan V. Ng, “Automatic Keyphrase Extraction : A Survey of the State of the Art,” dalam ACL, 2014.

[24] C. Souza, “Accord.NET Framework,” [Online]. Available: http://accord -framework.net/. [Diakses 30 November 2016].

[25] Stanford NLP Group, “Stanford NLP,” [Online]. Available: http://nlp.stanford.edu/. [Diakses 23 10 2016].

[26] Slashdot Media, “iTextSharp, a .NET PDF library,” [Online]. Available: https://sourceforge.net/projects/itextsharp/. [Diakses 30 November 2016]. [27] J. Feng, F. Xie, X. Hu, P. Li, J. Cao dan X. Wu, “Keyword Extraction Based

on Sequential Pattern Mining,” dalam ICIMCS '11 Proceedings of the Third International Conference on Internet Multimedia Computing and Service,

New York, NY, USA, 2011.

[28] R. Bhowmik , “Keyword Extraction from Abstracts and Titles,” dalam

Southeastcon, 2008. IEEE, Huntsville, AL, 2008.

[29] W. C. Novay, R. Brussee dan W. Slakhorst, “Keyword Extraction using Word Co-occurrence,” dalam Database and Expert Systems Applications (DEXA), 2010 Workshop on, Bilbao, 2010.

[30] Y. Lu, R. Li, K. Wen dan Z. Lu, “Automatic Keyword Extraction for Scientific Literatures using References,” dalam Innovative Design and Manufacturing (ICIDM), Proceedings of the 2014 International Conference on, Montreal, QC, 2014.

[31] F. Liu, F. Liu dan Y. Liu, “Automatic Keyword Extraction for The Meeting Corpus using Supervised Approach and Bigram Expansion,” dalam Spoken Language Technology Workshop, 2008. SLT 2008. IEEE, Goa, 2008.

[32] M. Lan, C. L. Tan dan J. Su, “Supervised and Traditional Term Weighting methods for Automatic text Categorization,” Journal of IEEE PAMI, vol. 10,

no. 10, 2007.

[33] T. Bohne, S. Ronnau dan U. M. Borghoff, “Efficient Keyword Extraction for Meaningful Document Perception,” dalam DocEng '11 Proceedings of the 11th ACM symposium on Document engineering, New York, 2011.


(27)

[34] O. Karnalim , “Software Keyphrase Extraction with Domain-specific Features,” dalam IEEE, 2016.

[35] Snowball, “http://snowball.tartarus.org/algorithms/english/stop.txt,” [Online].

[36] S. Kotsiantis, D. Kanellopoulos dan P. Pintelas , “Handling imbalanced datasets: A review,” GESTS International Transactions on Computer Science and Engineering, vol. 30, 2006.

[37] O. Karnalim, “Detecting Source Code Plagiarism on Introductory Programming Course Assignment Using a Bytecode Approach,” dalam

International Conference on Information, Communication Technology and System (ICTS), 2016.

[38] A. Hulth, “Improved automatic keyword extraction given more linguistic knowledge,” dalam Empirical methods in natural language processing,

Stroudsburg, 2013.

[39] S. N. Kim, O. Medelyan, T. Baldwin dan M. Y. Kan, “Automatic keyphrase extraction from scientific articles,” Language resources and evaluation, vol.

47, no. 3, pp. 723-742, 2013.

[40] Y. Yang dan J. O. Pedersen, “A Comparative Study on Feature Selection in Text Categorization,” ICML, vol. 97, pp. 412-120, 1997.


(1)

iv

Universitas Kristen Maranatha

PRAKATA

Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa karena atas pertolongan dan rahmat-Nya penulis dapat menyelesaikan Tugas Akhir sesuai dengan waktu yang telah ditetapkan. Segala halangan dan rintangan dapat penulis lewati.

Penulisan Tugas Akhir ini diajukan untuk memenuhi salah satu syarat akademik untuk menyelesaikan pendidikan pada program S1 Teknik Informatika Universitas Kristen Maranatha. Judul yang penulis ajukan adalah “ Ekstraksi Keyphrase Pada Publikasi Ilmiah Dengan Kombinasi Pendekatan Ranking dan Deep Belief Network ”.

Dalam penulisan Tugas Akhir, banyak pihak yang telah memberi arahan dan dukungan. Oleh karena itu penulis ingin mengucapkan terima kasih kepada :

1. Bapak Oscar Karnalim, S.T., M.T., selaku pembimbing yang telah berkenan meluangkan waktu untuk memberikan arahan, saran, dan bimbingan kepada penulis.

2. Bapak Dr. Hapnes Toba, M.Sc., selaku Dekan Fakultas Teknologi Informasi.

3. Bapak Robby Tan, S.T., M.Kom., selaku Ketua Jurusan S1 Teknik Informatika Fakultas Teknologi Informasi.

4. Ibu Meliana Christianti J., S.Kom., M.T., selaku Koordinator Tugas Akhir yang memantau dan membantu segala keperluan yang dibutuhkan dalam penyelesaian Tugas Akhir .

5. Bapak dan Ibu dosen dosen pengajar di Fakultas Teknolog Informasi Universitas Kristen Maranatha.

6. Seluruh civitas akademika Fakultas Teknologi Informasi Universitas Kristen Maranatha.

7. Orang tua dan keluarga yang telah memberi dukungan moril maupun materiil.

8. Teman-teman dan adik angkatan tercinta yang senantiasa memberikan dukungan, semangat dan doa kepada penulis.


(2)

Dalam penelitian ini penulis merasakan masih ada ketidaksempurnaan. Oleh karena itu, dengan hati lapang dan sikap terbuka penulis bersedia menerima kritik dan saran dari pembaca. Penulis juga berharap hasil penelitian ini dapat dijadikan panduan dan referensi bagi penelitian-penelitian selanjutnya.

Let no one despise your youth, but be an example to the believers in word, in conduct, in love, in spirit, in faith, in purity

1 Timothy 4:12

Bandung, 1 November 2016


(3)

105

Universitas Kristen Maranatha

DAFTAR PUSTAKA

[1] F. Liu, D. Pennell dan Y. Liu, “Unsupervised Approaches for Automatic

Keyword Extraction Using Meeting Transcripts,” dalam Human Language

Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics Proceedings of the Conference, 2009.

[2] KBBI, “Kamus Besar Bahasa Indonesia,” [Online]. Available: http://kbbi.web.id/. [Diakses 26 Maret 2016].

[3] K. Sarkar, M. Nasipuri dan J. Ghose, “A New Approach to Keyphrase Extraction Using Neural Network,” IJSI International Journal of Computer Science, vol. 7, no. 2, 2010.

[4] T. D. Nguyen dan . M.-Y. Kan, “Keyphrase Extraction in Scientific Publications,” dalam ICADL'07 Proceedings of the 10th international conference on Asian digital libraries: looking back 10 years and forging new frontiers, Berlin, 2007.

[5] C. M. Manning, P. Raghavan dan H. Schutze, Introduction to Information Retrieval, Cambridge: Cambridge University Press, 2009.

[6] B. Croft, D. Metzler dan T. Strohman, Search Engines Information Retrieval in Practice, Boston: Pearson Education, Inc, 2010.

[7] J. Ramos, “Using TF-IDF to Determine Word Relevance in Document Queries,” dalam Proceedings of the first instructional conference on machine learning, 2003.

[8] D. Jurafski dan J. H. Martin, Speech and Language Processing, New Jersey: Prentice-Hall, Inc, 2000.

[9] University of Washington, “PennTree I Tags,” [Online]. Available: http://faculty.washington.edu/dillon/GramResources/penntable.html.

[Diakses 10 May 2016].

[10] T. M. Mitchell, Machine Learning, New York: The McGraw-Hill Companies, Inc., 1997.


(4)

[11] G. James , D. Witten, T. Hastie dan R. Tibshirani, An Introduction to Statistical Learning, New York: Springer New York, 2013.

[12] N. Lopes dan B. Ribeiro, Machine Learning for Adaptive ManyCore Machines – A Practical Approach, Switzerland: Springer, 2015.

[13] L. Deng dan D. Yu, Deep Learning Methods and Applications, Foundations and Trends® in Signal Processing, 2014.

[14] Y. LeCun , Y. Bengio dan G. Hinton, “Deep Learning,” Nature, pp. 436-444, 2015.

[15] Ron Soferman Imaging Group, “RSIP Vision,” [Online]. Available: http://www.rsipvision.com/exploring-deep-learning/. [Diakses 6 Juni 2016]. [16] Bondarenko, Andrey dan A. Borisov, “Research on the Classification Ability

of Deep Belief Networks on Small and Medium Datasets,” Information Technology and Management Science, vol. 16.1, pp. 60-65, 2013.

[17] J. Christopher Sims , “An Implementation of Deep Belief Networks Using Restricted Boltzmann Machines in Clojure,” Open Access Master's Theses, p. 804, 2016.

[18] G. Adam, C. Nicholson dan J. Patterson, “Deeplearning4j,” [Online]. Available: https://deeplearning4j.org/restrictedboltzmannmachine. [Diakses 15 Oktober 2016].

[19] LISA lab, University of Montreal, Deep Learning Tutorial, Theano Development Team, 2015.

[20] D. Mo, “A survey on deep learning: one small step toward AI,” dalam Dept. Computer Science, Univ. of New Mexico, USA, 2012.

[21] Y. Bengio, P. Lamblin, D. Popovici dan H. Larochelle , “Greedy layer-wise training of deep networks,” Advances in neural information processing systems, pp. 19,153, 2001.

[22] H. Larochelle, Y. Bengio, J. Louradour dan P. Lamblin, “Exploring Strategies for Training Deep Neural Networks,” Journal of Machine Learning Research 1, pp. 1-40, 2009.


(5)

107

Universitas Kristen Maranatha [23] K. S. Hasan dan V. Ng, “Automatic Keyphrase Extraction : A Survey of the

State of the Art,” dalam ACL, 2014.

[24] C. Souza, “Accord.NET Framework,” [Online]. Available: http://accord -framework.net/. [Diakses 30 November 2016].

[25] Stanford NLP Group, “Stanford NLP,” [Online]. Available: http://nlp.stanford.edu/. [Diakses 23 10 2016].

[26] Slashdot Media, “iTextSharp, a .NET PDF library,” [Online]. Available: https://sourceforge.net/projects/itextsharp/. [Diakses 30 November 2016]. [27] J. Feng, F. Xie, X. Hu, P. Li, J. Cao dan X. Wu, “Keyword Extraction Based

on Sequential Pattern Mining,” dalam ICIMCS '11 Proceedings of the Third International Conference on Internet Multimedia Computing and Service, New York, NY, USA, 2011.

[28] R. Bhowmik , “Keyword Extraction from Abstracts and Titles,” dalam Southeastcon, 2008. IEEE, Huntsville, AL, 2008.

[29] W. C. Novay, R. Brussee dan W. Slakhorst, “Keyword Extraction using Word Co-occurrence,” dalam Database and Expert Systems Applications (DEXA), 2010 Workshop on, Bilbao, 2010.

[30] Y. Lu, R. Li, K. Wen dan Z. Lu, “Automatic Keyword Extraction for Scientific Literatures using References,” dalam Innovative Design and Manufacturing (ICIDM), Proceedings of the 2014 International Conference on, Montreal, QC, 2014.

[31] F. Liu, F. Liu dan Y. Liu, “Automatic Keyword Extraction for The Meeting

Corpus using Supervised Approach and Bigram Expansion,” dalam Spoken

Language Technology Workshop, 2008. SLT 2008. IEEE, Goa, 2008.

[32] M. Lan, C. L. Tan dan J. Su, “Supervised and Traditional Term Weighting methods for Automatic text Categorization,” Journal of IEEE PAMI, vol. 10, no. 10, 2007.

[33] T. Bohne, S. Ronnau dan U. M. Borghoff, “Efficient Keyword Extraction for Meaningful Document Perception,” dalam DocEng '11 Proceedings of the 11th ACM symposium on Document engineering, New York, 2011.


(6)

[34] O. Karnalim , “Software Keyphrase Extraction with Domain-specific Features,” dalam IEEE, 2016.

[35] Snowball, “http://snowball.tartarus.org/algorithms/english/stop.txt,” [Online].

[36] S. Kotsiantis, D. Kanellopoulos dan P. Pintelas , “Handling imbalanced datasets: A review,” GESTS International Transactions on Computer Science and Engineering, vol. 30, 2006.

[37] O. Karnalim, “Detecting Source Code Plagiarism on Introductory Programming Course Assignment Using a Bytecode Approach,” dalam International Conference on Information, Communication Technology and System (ICTS), 2016.

[38] A. Hulth, “Improved automatic keyword extraction given more linguistic knowledge,” dalam Empirical methods in natural language processing, Stroudsburg, 2013.

[39] S. N. Kim, O. Medelyan, T. Baldwin dan M. Y. Kan, “Automatic keyphrase extraction from scientific articles,” Language resources and evaluation, vol. 47, no. 3, pp. 723-742, 2013.

[40] Y. Yang dan J. O. Pedersen, “A Comparative Study on Feature Selection in Text Categorization,” ICML, vol. 97, pp. 412-120, 1997.