SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS.

(1)

Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS

SKRIPSI

Diajukan Untuk Memenuhi Sebagian dari Syarat untuk Memperoleh Gelar Sarjana Komputer

Program Studi Ilmu Komputer

Oleh :

ADRYAN ARDIANSYAH 1002895

PROGRAM STUDI ILMU KOMPUTER

FAKULTAS PENDIDIKAN MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS PENDIDIKAN INDONESIA


(2)

Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCETPRON PADA TWEETS

Oleh

Adryan Ardiansyah

Sebuah skripsi yang diajukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana pada Fakultas Pendidikan Matematika dan Ilmu Pengetahuan Alam

Program Studi Ilmu Komputer

© Adryan Ardiansyah 2013 Universitas Pendidikan Indonesia

Januari 2013

Hak Cipta dilindungi undang-undang.

Skripsi ini tidak boleh diperbanyak seluruhya atau sebagian, dengan dicetak ulang, difoto kopi, atau cara lainnya tanpa ijin dari penulis.


(3)

Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS

LEMBAR PENGESAHAN

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS

Oleh:

Adryan Ardiansyah 1002895

Disetujui dan Disahkan oleh Pembimbing I

Yudi Wibisono, M.T NIP. 197507072003121003

Pembimbing II

Rosa Ariani Sukamto, M.T

NIP. 198109182009122003

Mengetahui

Ketua Program Studi Ilmu Komputer

Rasim, M.T NIP. 19780926200812100


(4)

i Adryan Ardiansyah, 2013

ABSTRAK

Ketersediaan informasi yang melimpah pada twitter menjadi masalah tersendiri jika informasi yang diterima sebenarnya tidak terlalu dibutuhkan. Untuk itu diperlukan teknik untuk memilah informasi yang dikenal sebagai ektraksi informasi. Ekstraksi informasi ini berkaitan erat dengan Named Entity Recognition (NER). NER merupakan komponen dasar dari ekstraksi informasi yang berfungsi untuk mengenali entitas pada kumpulan teks berbahasa alami. Skripsi ini meneliti tentang NER pada twitter dengan metode perceptron untuk mengenali entitas nama orang dan lokasi. Pelaksanaan penelitian dimulai dari pembuatan data set, eksperimen, evaluasi hasil eksperimen dan penarikan kesimpulan. Eksperimen dilakukan untuk mendapatkan kondisi terbaik pada perceptron dalam mengenali entitas. Parameter yang diuji adalah nilai threshold, kelompok data set yang digunakan sebanyak tiga kelompok (nama orang, nama lokasi dan gabungan), jenis data set (preprocessing dan non-preprocessing), jumlah data training dan teknik pengujian. Hasil eksperimen memperlihatkan bahwa perceptron dapat mengenali entitas nama orang dan lokasi yang ditunjukkan dengan nilai f-measure yang baik pada setiap tipe entitas dengan memperhatikan parameter yang diuji.


(5)

ii Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS |

ABSTRACT

The availability of twitter information that overflow, can cause problem if the information that received is not much needed. Therefore, the technique to sort the information is required, it known as information extraction. Information extraction is closely related to Named Entity Recognition (NER). NER is a basic component of information extraction, it function is to identify the entities the set of common language text. The core of the research on this thesis is to determine how perceptron method can be used to recognize the entity names and location on twitter. The implementation of research starts from generate of data sets, experiments, and evaluation of experimental result and conclusion. That experiment carried out to obtain the best condition of perceptron recognition entities. The parameters that tested is a value of threshold, group of data sets that used are (people name, location name, and combination of both), the type of data set (preprocessing and non preprocessing), the amount of data training and the technical testing. Result of the experiment shows that perceptron can recognize entities of people name, and location that shown but f-measure value, which can be good to all the type of entities with shown the parameters that tested.


(6)

v Adryan Ardiansyah, 2013

DAFTAR ISI

ABSTRAK ...i

ABSTRACT ... ii

KATA PENGANTAR ... iii

DAFTAR ISI ... v

DAFTAR GAMBAR ...vii

DAFTAR TABEL ... viii

DAFTAR ISTILAH ... ix

BAB I PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 3

1.3 Tujuan Penelitian ... 3

1.4 Batasan Masalah ... 3

1.5 Metodologi Penelitian ... 4

1.6 Sistematika Laporan ... 4

BAB II TINJAUAN PUSTAKA ... 6

2.1 Named Entity Recogintion (NER) ... 6

2.1.1 Ekstrasi Content ... 7

2.1.2 Praproses Teks (Preprocessing Text) ... 8

2.1.3 Pengenalan Entitas ... 11

2.2 Jaringan Perceptron ... 12

2.2.1 Arsitektur Perceptron ... 13

2.2.2 Algoritma Pelatihan Pecetpron ... 14

2.2.3 Contoh Kasus ... 16

2.3 Perceptron dan NER ... 18

2.3.1 Tahap Pelatihan... 19

2.3.2 Tahap Pengenalan ... 22

2.4 Mikroblog (Twitter) ... 23

2.5 Mikroblog (Twitter) dan NER ... 24

2.6 Teknik Pengujian ... 26

2.7 Evaluasi Kinerja ... 26

BAB III METODOLOGI PENELITIAN ... 29

3.1 Desain Penelitian ... 29

3.2 Model Pengembang Sistem ... 31


(7)

vi Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS |

BAB IV HASIL PENELITIAN DAN PEMBAHASAN ... 34

4.1 Pengembangan Sistem... 34

4.1.1 Analisa Kebutuhan ... 34

4.1.2 Perancangan Sistem ... 35

4.1.3 Implementasi ... 37

4.1.4 Integrasi dan Pengujian ... 39

4.2 Pembahasan Penelitian ... 40

4.2.1 Pembuatan Data Set ... 40

4.2.2 Preprocessing Text ... 43

4.2.3 Ekstraksi Fitur ... 44

4.2.4 Pelatihan (Training) ... 46

4.2.5 Pengujian (Testing) ... 47

4.2.6 Evaluasi ... 48

4.2.7 Postprocessing Text ... 49

4.3 Eksperimen ... 49

4.3.1 Skenario Eksperimen ... 49

4.3.2 Eksperimen Pertama ... 50

4.3.3 Eksperimen Kedua ... 55

4.3.4 Eksperimen Ketiga ... 57

BAB V KESIMPULAN DAN SARAN ... 59

5.1 Kesimpulan ... 59

5.2 Saran ... 59

DAFTAR PUSTAKA ... 61 LAMPIRAN A: Hasil Eksperimen Pengaruh Nilai Threshold... A LAMPIRAN B: Contoh Unigram Yang Dipengaruhi Jenis Data ... B LAMPIRAN C: Data Set Nama Orang ... C LAMPIRAN D: Data Set Nama Lokasi ... D LAMPIRAN E: Data Set Gabungan ... E LAMPIRAN F: Contoh Hasil Keluaran Sistem ... F LAMPIRAN G: Detail Hasil Eksperimen Pertama ... G LAMPIRAN H: Detail Hasil Eksperimen Kedua ... H LAMPIRAN I: Detail Hasil Eksperimen Ketiga ... I


(8)

vii Adryan Ardiansyah, 2013

DAFTAR GAMBAR

Gambar 2.1.Tahapan pada sistem ekstraksi informasi (Meier, 2010) ... 7

Gambar 2.2. Hasil tokenization ... 8

Gambar 2.3. Contoh hasil part-of-speech tagging ... 10

Gambar 2.4. Pembatasan linear dengan perceptron ... 12

Gambar 2.5. Arsitektur jaringan perceptron ... 13

Gambar 2.6. Detail arsitektur jaringan perceptron ... 14

Gambar 2.7. Contoh NER pada tweet ... 25

Gambar 2.8. Bagan proses evaluasi sistem NER ... 27

Gambar 3.1. Desain penelitian ... 29

Gambar 3.2. Model waterfall ... 31

Gambar 4.1. Rancangan umum sistem ... 35

Gambar 4.2. Form hasil klasifikasi ... 39

Gambar 4.3. Grafik hasil eksperimen pertama pada data set nama orang ... 50

Gambar 4.4. Grafik hasil eksperimen pertama pada data set lokasi ... 51

Gambar 4.5. Grafik hasil eksperimen pertama pada data set gabungan ... 51

Gambar 4.6. Grafik hasil eksperimen kedua pada data set nama orang ... 55

Gambar 4.7. Grafik hasil eksperimen kedua pada data set nama lokasi ... 56

Gambar 4.8. Grafik hasil eksperimen ketiga pada data set nama orang ... 57


(9)

viii Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS |

DAFTAR TABEL

Tabel 2.1. Daftar tagset kelas kata ... 10

Tabel 2.2. Algoritma Perceptron ... 15

Tabel 2.3. Fitur kontekstual (Budi, Wahyudi, 2005) ... 19

Tabel 2.4. Fitur morfologi (Budi, Wahyudi, 2005) ... 19

Tabel 2.5. Hasil praproses teks data training ... 20

Tabel 2.6. Daftar fitur yang digunakan ... 20

Tabel 2.7. Hasil konversi data training ... 21

Tabel 2.8. Proses pelatihan ... 21

Tabel 2.9. Hasil praproses teks pada data testing ... 22

Tabel 2.10. Hasil konversi dan klasifikasi data testing ... 22

Table 2.11. Kode hasil perbandingan objek... 27

Tabel 4.1. Kelas pada proses preprocessing text ... 37

Tabel 4.2. Kelas pada proses ekstraksi fitur ... 37

Tabel 4.3. Kelas pada proses pelatihan (training) ... 38

Tabel 4.4. Kelas pada proses pengujian (testing) ... 38

Tabel 4.5. Kelas pada proses postprocessing text ... 38

Tabel 4.6. Bentuk pengujian ... 39

Tabel 4.7. Contoh data yang dikumpulkan ... 41

Tabel 4.9. Hasil pelabelan entitas ... 42

Tabel 4.10. Kelompok data set ... 42

Tabel 4.11. Contoh hasil preprocessing text ... 43

Tabel 4.12. Contoh hasil akhir dari preprocessing text ... 44

Tabel 4.13. Fitur yang digunakan ... 45

Tabel 4.14. Contoh hasil ektraksi fitur ... 46

Tabel 4.15. Hasil perhitungan dan prediksi sistem ... 48


(10)

ix Adryan Ardiansyah, 2013

DAFTAR ISTILAH

Istilah Keterangan

Entitas Objek dari dunia nyata yang dapat dibedakan dengan objek lain.

Token Unit terkecil dari sebuah objek.

Data set Kumpulan dokumen atau teks.

Metadata Data yang merepresentasikan tentang data tersebut.

Tweet Teks yang di-post pada twitter

Threshold Batas ambang

Data training Data yang digunakan untuk proses pelatihan Data testing Data yang digunakan untuk proses pengujian

Fitur Informasi untuk memprediksi objek

Korpus Kumpulan teks sistematis berjumlah besar yang dapat disimpan

dan diolah secara elektronik

Unigram Satu kata sebelum entitas


(11)

1 Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS

BAB I PENDAHULUAN

1.1 Latar Belakang

Pada era teknologi saat ini, informasi tersedia secara melimpah dalam berbagai bidang. Kemudahan dalam menyebarkan informasi yang ditunjang oleh perkembangan User Generate Content (UGC) menjadi salah satu faktor penyebabnya. Pada UGC, user (pengguna) dapat menyebarkan informasi dengan mudah karena UGC menyediakan layanan untuk men-generate content-nya sendiri. Content yang dimaksud seperti mengunduh gambar, musik, video dan tulisan pada media tertentu. Salah satu media sosial yang mengkudung UGC adalah twitter yang pada akhirnya menjadi bagian dari kehidupan sehari-hari.

Twitter merupakan mikroblog atau media sharing informasi yang banyak digunakan dalam penyebaran informasi. Penelitian Semiocast, lembaga riset media sosial yang berpusat di Paris, Prancis, menyatakan bahwa Indonesia adalah pengguna twitter terbesar kelima di dunia dengan jumlah akun 19,5 juta (Semiocast, 2010). Selain jumlah akun, jumlah tweet yang dihasilkan pun terus meningkat. Beberapa referensi menyatakan kurang lebih tweet yang dihasilkan mencapai 400 juta per hari dengan beragam topik yang sedang hangat pada masa itu.

Ketersediaan informasi yang melimpah tersebut pada satu sisi dapat bermanfaat. Namun di sisi lain, dapat menimbulkan masalah seperti berlebihnya informasi yang diterima atau dikenal sebagai information overload. Kondisi ini


(12)

2

Adryan Ardiansyah, 2013

adalah kondisi dimana banyak informasi yang diterima tapi tidak dibutuhkan. Untuk itu diperlukan teknik dalam memilah atau mengklasifikasi informasi dari sekian banyak informasi yang disediakan. Teknik ini dikenal sebagai ektraksi informasi atau pengambilan informasi pada data tekstual. Informasi yang diambil dapat berupa event, entitas atau relasi pada setiap teks.

Fungsi ekstraksi informasi adalah mencari kata (token) dan entitas yang dapat mewakili isi dari data tekstual. Named Entity Recognition (NER) merupakan komponen dasar dari ekstraksi informasi yang bertugas untuk mengenali entitas tersebut. Entitas yang dikenali nantinya dapat dimanfaatkan sebagai metadata untuk tahap selanjutnya pada ekstraksi informasi. Selain itu, dimanfaatkan di dalam peringkasan dokumen (summarize), profiling atau event detection.

Metode yang digunakan dalam penelitian tentang NER pun beragam. Salah satu metode pembelajaran mesin yang digunakan dalam ekstraksi informasi adalah perceptron, yang merupakan bagian dari model neural network. Perceptron mempunyai kecepatan komputasi dalam mengklasifikasi objek karena menggunakan pendekatan linier yang membagi objek kedalam dua kelas. Perceptron pernah digunakan pada penelitian Ciaramita dan Altun pada tahun 2005 untuk dokumen formal dalam hal ini sebuah novel.

Berdasarkan permasalahan di atas, penelitian ini lebih difokuskan pada pengenalan entitas atau named entity recognition pada twitter berbahasa Indonesia menggunakan metode perceptron. Diharapkan penelitian ini dapat memberikan manfaat untuk para peneliti ektraksi informasi khususnya dalam mengekstraksi informasi pada twitter.


(13)

3

Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS

1.2 Rumusan Masalah

Rumusan masalah pada penelitian ini adalah:

1. Bagaimana mengembangkan sistem yang mampu mengenali entitas nama orang dan lokasi pada tweet berbahasa Indonesia?

2. Bagaimana algoritma perceptron dapat mengklasifikasikan entitas pada tipe entitas nama orang dan lokasi?

1.3 Tujuan Penelitian

Tujuan yang ingin dicapai pada penelitian ini adalah:

1. Membuat sistem yang mampu mengenali entitas nama orang dan lokasi pada tweet berbahasa Indonesia.

2. Menggunakan algoritma perceptron untuk mengklasifikasikan entitas nama orang dan lokasi pada tipe entitasnya.

1.4 Batasan Masalah

Berikut beberapa batasan masalah dari penelitian ini:

1. Penelitian lebih difokuskan pada Named Entity Recognition. 2. Data yang digunakan diambil dari mikroblog yaitu tweet. 3. Algoritma yang digunakan adalah Perceptron.

4. Kategori entitas yang diteliti hanya nama orang dan lokasi.

5. Analisa pemodelan menggunakan pemodelan berorientasi objek yaitu UML.


(14)

4

Adryan Ardiansyah, 2013

1.5 Metodologi Penelitian

Tahapan yang akan dilalui pada skripsi ini adalah sebagai berikut:

1. Studi Literatur, dilakukan dengan mengkaji NER dan model

perceptron dari berbagai sumber.

2. Pengumpulan Informasi, dilakukan dengan wawancara pada

beberapa narasumber terkait dengan NER.

3. Analisa dan Perancangan Sistem, dilakukan analisa dan

perancangan sistem NER termasuk fitur-fitur apa saja yang mempengaruhi pengenalan entitas.

4. Implementasi Sistem, dilakukan implementasi berdasarkan hasil

analisa dan perancangan dengan menggunakan bahasa pemograman Java.

5. Pengujian dan Evaluasi, dilakukan pengujian pada sistem yang telah

dibuat, kemudian hasilnya dievaluasi.

1.6 Sistematika Laporan

Laporan disusun secara sistematis sehingga mudah dibaca, ditelusuri, dan dievaluasi. Sistematika penulisan laporan skripsi ini terbagi menjadi lima bab sebagai berikut:

BAB I Pendahuluan

Bab ini membahas latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metodologi penelitian dan sistematika laporan.


(15)

5

Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS

BAB II Kajian Pustaka

Bab ini membahas teori-teori yang mendukung dalam penyusunan skripsi seperti NER, model perceptron dan beberapa contoh dari penelitian yang ada.

BAB III Metodologi Penelitian

Bab ini menguraikan metode yang digunakan dalam penelitian secara rinci.

BAB IV Hasil Penelitian dan Pembahasan

Bab ini menguraikan tahapan yang harus dilalui mulai dari preprocessing data twitter sampai sebuah entitas ditemukan di dalamnya. Tahapannya akan dijelaskan dengen rinci dan mendalam.

BAB V Kesimpulan dan Saran

Bab ini menguraikan beberapa kesimpulan dari hasil penelitian untuk menjawab rumusan masalah. Pada bagian saran, diisi rekomendasi dari penulis untuk penelitian selanjutnya.


(16)

29 Adryan Ardiansyah, 2013

BAB III

METODOLOGI PENELITIAN

Bab ini mendeskripsikan apa saja yang dibutuhkan untuk penelitian seperti desain atau tahapan penelitian, model pengembangan sistem dan alat dan bahan penelitian.

3.1 Desain Penelitian

Berikut tahapan dari desain penelitian dalam proses pengembangan sistem digambarkan seperti pada Gambar 3.1.


(17)

30

Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS Berikut ini pembahasan dari gambar di atas:

1. Studi literatur, tahap ini dilakukan kajian mengenai named entity recognition, perceptron dan aplikasi untuk pengenalan entitas.

2. Pengumpulan data, tahap ini ditujukan untuk memperoleh data yang menunjang penelitian untuk kemudian diproses.

3. Pembuatan data set, tahap ini bertujuan untuk membuat data set yang kemudian dibagi kedalam dua bagian yaitu data training dan testing. 4. Persiapan alat dan bahan penelitian. Alat yang dipersiapkan berupa

perangkat keras dan lunak yang menunjang pengembang sistem. Untuk bahan yang digunakan adalah data tweet, dokumen elektronik dan buku referensi.

5. Pengembangan sistem, tahap ini dilakukan implementasi sistem dengan menggunakan model waterfall.

6. Percobaan dan evaluasi hasil, tahap ini dilakukan percobaan yang disesuaikan dengan tujuan penelitian ini. Hasil percobaan kemudian dievaluasi dengan memperhatikan precission, recall dan f-measure yang dihasil aplikasi.

7. Penarikan kesimpulan.

8. Pembuatan dokumen meliputi dokumen skripsi, dokumen teknis dan paper.


(18)

31

Adryan Ardiansyah, 2013

3.2 Model Pengembang Sistem

Pengembangan sistem dilakukan dengan menerapkan model waterfall. Sesuai dengan namanya model ini dilakukan secara berurutan sesuai dengan anak panah, dapat dilihat pada Gambar 3.2.

Gambar 3.2. Model waterfall

Terdapat lima tahap pada model ini yaitu: 1. Analisa Kebutuhan

Seluruh kebutuhan sistem harus sudah didapatkan dalam tahap ini, termasuk kegunaan dan tujuan sistem. Informasi yang didapat pada tahap ini diperoleh melalui wawancara, survey, diskusi dan studi literatur.

2. Perancangan Sistem

Tahap ini bertujuan untuk memberikan gambaran tentang sistem secara keseluruhan dengan menspesifikasikan lebih detail kebutuhan baik perangkat keras dan juga arsitektur yang didapat pada tahap analisa.


(19)

32

Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS 3. Implementasi

Pembuatan sistem dengan bahasa JAVA yang dipecah menjadi beberapa kelas yang nantinya digabungkan. Tahap ini juga harus sudah dilakukan pemeriksaan terhadap kelas yang dibuat apakah sudah memenuhi tanggung jawabnya atau tidak.

4. Integrasi dan Pengujian

Tahap ini menggabungkan semua modul yang dibuat pada tahap implementasi untuk kemudian dilakukan pengujian. Pengujian dilakukan agar diketahui apakah sistem yang dibuat sesuai dengan tujuan skripsi ini atau tidak.

5. Operasi dan Pemeliharaan

Ini merupakan tahap terakhir, sistem yang sudah dibuat dioperasikan serta dilakukan pemeliharaan termasuk memperbaiki kesalahan yang tidak ditemukan pada langkah sebelumnya.

3.3 Alat dan Bahan Penelitian

Pada penelitian ini digunakan alat penelitian berupa perangkat keras dan lunak yang menunjang sebagai berikut:

1. Perangkat keras

a. Processor Intel Dual Core

b. RAM 3 GB

c. Harddisk berkapasitas 160 GB


(20)

33

Adryan Ardiansyah, 2013 2. Perangkat lunak

1. Microsoft Windows 7 Home Premium

2. JDK 6 Update 32 3. Netbeans 6.8

4. Notepad++

Sedangkan untuk bahan penelitian yang digunakan sebagai berikut:

1. Data tweet, sebagai objek penelitian sebanyak 164 tweet untuk masing-masing tipe entitas.

2. Daftar nama orang, sebagai referensi untuk pencarian nama orang. 3. Daftar nama lokasi, sebagai referensi untuk pencarian nama lokasi. 4. Daftar sinonim, sebagai referensi agar kata dalam data tweet lebih baku. 5. Daftar kelas kata, sebagai referensi untuk penentuan kelas kata pada tweet.


(21)

59 Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS

BAB V

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan hasil pelaksanaan penelitian dapat ditarik kesimpulan sebagai berikut:

1. Sistem pengenalan entitas yang dikembangkan menggunakan metode perceptron ini dapat mengenali entitas nama orang dan lokasi pada tweet berbahasa Indonesia dengan baik yang ditunjukan dengan nilai f-measure pada setiap entitas tersebut. Nilai f-measure untuk nama orang dan lokasi masing-masing sebesar 97,62% dan 97,14%.

1. Algoritma perceptron dapat digunakan untuk mengenali entitas nama orang dan lokasi, terlihat dari nilai f-measure yang baik dari beberapa eksperiman dengan memperhatikan beberapa parameter seperti nilai threshold, kelompok dan jenis data set yang digunakan serta jumlah data training.

5.2 Saran

Beberapa saran yang perlu diperhatikan untuk penelitian selanjutnya, sebagai berikut:

1. Rekomendasi untuk kombinasi parameter agar perceptron dapat optimal dalam mengenali entitas nama orang dan lokasi adalah sebagai berikut: a. Nilai threshold terbaik pada range 0 sampai 0.3.


(22)

60

Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS b. Jumlah data training 75% dari data set.

c. Kelompok data set yang digunakan harus kelompok yang dipisahkan sesuai tipe entitas.

d. Jenis data set yang digunakan adalah jenis data set yang di-preprocessing.

2. Perlu dikembangkan fungsi tambahan yang dapat melakukan konfigurasi otomatis terhadap nilai threshold agar mendapatkan nilai yang tepat untuk pemisahan kelas.

3. Perlu dilakukan penelitian lebih lanjut dengan jumlah tweet yang lebih banyak dengan pola yang lebih beragam untuk menguji batas kemampuan algoritma perceptron.

4. Perlu dilakukan penelitian lebih lanjut untuk membandingkan algoritma perceptron dengan algoritma lain untuk pengenalan entitas.


(23)

61 Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS |

DAFTAR PUSTAKA

Afriyanti, Liza. 2010. Rancang Bangun Tool Untuk Jaringan Syarat Tiruan (JST) Model Perceptron. Univesitas Islam Indonesia.

Budi Indra, Stéphane Bressan, Gatot Wahyudi, Zainal A. Hasibuan, Bobby Nazief: Named Entity Recognition for the Indonesian Language: Combining Contextual, Morphological and Part-of-Speech Features into a Knowledge Engineering Approach. Discovery Science 2005: 57-69.

Carlson, A., Gaffney, S., Vasile, F. 2009. Learning a Named Entity Tagger from Gazetteers with the Partial Perceptron.Proceedings of the 2009 AAAI Spring Symposium on Learning by Reading and Learning to Read.

Carreras, C., Marquez, L., Padro, L. 2003. Learning a Perceptron-Based Named Entity Chunker via Online Recognition Feedback. Proceedings of CoNLL-2003 Edmonton, Canada 156--159.

Chincor, N. 1998. MUC-7 Information Extraction Task Definition. The MITRE Corporation an SAIC.

Chincor, N. 1999. Named Entity Recognition Task Definition (Version 3.5). The MITRE Corporation an SAIC.

Meier, Michael. 2010. Named-Entity-Recognition Pipeline [online]. http://is.uni-

paderborn.de/fileadmin/Informatik/AG-Engels/Lehre/SS10/PG-IDSE/Seminar/NER_Pipeline.pdf diakses tanggal 27 Februari 2012. Nugroho, Adi. 2004. Konsep Pengembangan Sistem Basis Data. Informatika.


(24)

62

Adryan Ardiansyah, 2013

Pujiyanta, Ardi. Perceptron, http://ardipujiyanta.wordpress.com/kuliah-jaringan-saraf-tiruan/, diakses tanggal 5 Maret 2012.

Puspitaningrum, Diyah. 2006. Pengantar Jaringan Sarap Tiruan. ANDI. Yogyakarta.

Santosa, Budi. 2007. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha Ilmu.

Sari, Riri Fitri, Burhan Adi Wicaksana. 2011. Teknik Ekstraksi Informasi di Web. Andi Offset.

Semiocast (2010). Geolocation analysis of Twitter accounts and tweets by Semiocast [online]. http://semiocast.com/publications/2012_07_30_

Twitter_reaches_half_a_billion_accounts_140m_in_the_US diakses

tanggal 27 Februari 2012.

Sunni, Ismail. 2011. Test Options Pada Weka [online]. http://codemath.wordpress .com/2011/06/25/test-options-pada-weka/ diakses tanggal 10 November 2012.

Whitelaw, C., A. Kehlenbeck , N. Petrovic dan L. Ungar. 2008. Web-Scale Named Entity Recognition. Proceeding CIKM '08 Proceedings of the 17th ACM conference on Information and knowledge management Pages 123-132.


(1)

Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

3. Implementasi

Pembuatan sistem dengan bahasa JAVA yang dipecah menjadi beberapa kelas yang nantinya digabungkan. Tahap ini juga harus sudah dilakukan pemeriksaan terhadap kelas yang dibuat apakah sudah memenuhi tanggung jawabnya atau tidak.

4. Integrasi dan Pengujian

Tahap ini menggabungkan semua modul yang dibuat pada tahap implementasi untuk kemudian dilakukan pengujian. Pengujian dilakukan agar diketahui apakah sistem yang dibuat sesuai dengan tujuan skripsi ini atau tidak.

5. Operasi dan Pemeliharaan

Ini merupakan tahap terakhir, sistem yang sudah dibuat dioperasikan serta dilakukan pemeliharaan termasuk memperbaiki kesalahan yang tidak ditemukan pada langkah sebelumnya.

3.3 Alat dan Bahan Penelitian

Pada penelitian ini digunakan alat penelitian berupa perangkat keras dan lunak yang menunjang sebagai berikut:

1. Perangkat keras

a. Processor Intel Dual Core b. RAM 3 GB

c. Harddisk berkapasitas 160 GB


(2)

33

Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS 2. Perangkat lunak

1. Microsoft Windows 7 Home Premium 2. JDK 6 Update 32

3. Netbeans 6.8 4. Notepad++

Sedangkan untuk bahan penelitian yang digunakan sebagai berikut:

1. Data tweet, sebagai objek penelitian sebanyak 164 tweet untuk masing-masing tipe entitas.

2. Daftar nama orang, sebagai referensi untuk pencarian nama orang. 3. Daftar nama lokasi, sebagai referensi untuk pencarian nama lokasi. 4. Daftar sinonim, sebagai referensi agar kata dalam data tweet lebih baku. 5. Daftar kelas kata, sebagai referensi untuk penentuan kelas kata pada tweet.


(3)

59 Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

BAB V

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan hasil pelaksanaan penelitian dapat ditarik kesimpulan sebagai berikut:

1. Sistem pengenalan entitas yang dikembangkan menggunakan metode perceptron ini dapat mengenali entitas nama orang dan lokasi pada tweet berbahasa Indonesia dengan baik yang ditunjukan dengan nilai f-measure pada setiap entitas tersebut. Nilai f-measure untuk nama orang dan lokasi masing-masing sebesar 97,62% dan 97,14%.

1. Algoritma perceptron dapat digunakan untuk mengenali entitas nama orang dan lokasi, terlihat dari nilai f-measure yang baik dari beberapa eksperiman dengan memperhatikan beberapa parameter seperti nilai

threshold, kelompok dan jenis data set yang digunakan serta jumlah data training.

5.2 Saran

Beberapa saran yang perlu diperhatikan untuk penelitian selanjutnya, sebagai berikut:

1. Rekomendasi untuk kombinasi parameter agar perceptron dapat optimal dalam mengenali entitas nama orang dan lokasi adalah sebagai berikut: a. Nilai threshold terbaik pada range 0 sampai 0.3.


(4)

60

Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

b. Jumlah data training 75% dari data set.

c. Kelompok data set yang digunakan harus kelompok yang dipisahkan sesuai tipe entitas.

d. Jenis data set yang digunakan adalah jenis data set yang

di-preprocessing.

2. Perlu dikembangkan fungsi tambahan yang dapat melakukan konfigurasi otomatis terhadap nilai threshold agar mendapatkan nilai yang tepat untuk pemisahan kelas.

3. Perlu dilakukan penelitian lebih lanjut dengan jumlah tweet yang lebih banyak dengan pola yang lebih beragam untuk menguji batas kemampuan algoritma perceptron.

4. Perlu dilakukan penelitian lebih lanjut untuk membandingkan algoritma perceptron dengan algoritma lain untuk pengenalan entitas.


(5)

61 Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

DAFTAR PUSTAKA

Afriyanti, Liza. 2010. Rancang Bangun Tool Untuk Jaringan Syarat Tiruan (JST) Model Perceptron. Univesitas Islam Indonesia.

Budi Indra, Stéphane Bressan, Gatot Wahyudi, Zainal A. Hasibuan, Bobby Nazief: Named Entity Recognition for the Indonesian Language: Combining Contextual, Morphological and Part-of-Speech Features into a Knowledge Engineering Approach. Discovery Science 2005: 57-69.

Carlson, A., Gaffney, S., Vasile, F. 2009. Learning a Named Entity Tagger from Gazetteers with the Partial Perceptron.Proceedings of the 2009 AAAI Spring Symposium on Learning by Reading and Learning to Read.

Carreras, C., Marquez, L., Padro, L. 2003. Learning a Perceptron-Based Named Entity Chunker via Online Recognition Feedback. Proceedings of CoNLL-2003 Edmonton, Canada 156--159.

Chincor, N. 1998. MUC-7 Information Extraction Task Definition. The MITRE Corporation an SAIC.

Chincor, N. 1999. Named Entity Recognition Task Definition (Version 3.5). The MITRE Corporation an SAIC.

Meier, Michael. 2010. Named-Entity-Recognition Pipeline [online]. http://is.uni-

paderborn.de/fileadmin/Informatik/AG-Engels/Lehre/SS10/PG-IDSE/Seminar/NER_Pipeline.pdf diakses tanggal 27 Februari 2012. Nugroho, Adi. 2004. Konsep Pengembangan Sistem Basis Data. Informatika.


(6)

62

Adryan Ardiansyah, 2013

SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

Pujiyanta, Ardi. Perceptron, http://ardipujiyanta.wordpress.com/kuliah-jaringan-saraf-tiruan/, diakses tanggal 5 Maret 2012.

Puspitaningrum, Diyah. 2006. Pengantar Jaringan Sarap Tiruan. ANDI. Yogyakarta.

Santosa, Budi. 2007. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha Ilmu.

Sari, Riri Fitri, Burhan Adi Wicaksana. 2011. Teknik Ekstraksi Informasi di Web. Andi Offset.

Semiocast (2010). Geolocation analysis of Twitter accounts and tweets by Semiocast [online]. http://semiocast.com/publications/2012_07_30_ Twitter_reaches_half_a_billion_accounts_140m_in_the_US diakses tanggal 27 Februari 2012.

Sunni, Ismail. 2011. Test Options Pada Weka [online]. http://codemath.wordpress .com/2011/06/25/test-options-pada-weka/ diakses tanggal 10 November 2012.

Whitelaw, C., A. Kehlenbeck , N. Petrovic dan L. Ungar. 2008. Web-Scale Named Entity Recognition. Proceeding CIKM '08 Proceedings of the 17th ACM conference on Information and knowledge management Pages 123-132.