SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS.
Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS
SKRIPSI
Diajukan Untuk Memenuhi Sebagian dari Syarat untuk Memperoleh Gelar Sarjana Komputer
Program Studi Ilmu Komputer
Oleh :
ADRYAN ARDIANSYAH 1002895
PROGRAM STUDI ILMU KOMPUTER
FAKULTAS PENDIDIKAN MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS PENDIDIKAN INDONESIA
(2)
Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCETPRON PADA TWEETS
Oleh
Adryan Ardiansyah
Sebuah skripsi yang diajukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana pada Fakultas Pendidikan Matematika dan Ilmu Pengetahuan Alam
Program Studi Ilmu Komputer
© Adryan Ardiansyah 2013 Universitas Pendidikan Indonesia
Januari 2013
Hak Cipta dilindungi undang-undang.
Skripsi ini tidak boleh diperbanyak seluruhya atau sebagian, dengan dicetak ulang, difoto kopi, atau cara lainnya tanpa ijin dari penulis.
(3)
Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS
LEMBAR PENGESAHAN
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS
Oleh:
Adryan Ardiansyah 1002895
Disetujui dan Disahkan oleh Pembimbing I
Yudi Wibisono, M.T NIP. 197507072003121003
Pembimbing II
Rosa Ariani Sukamto, M.T
NIP. 198109182009122003
Mengetahui
Ketua Program Studi Ilmu Komputer
Rasim, M.T NIP. 19780926200812100
(4)
i Adryan Ardiansyah, 2013
ABSTRAK
Ketersediaan informasi yang melimpah pada twitter menjadi masalah tersendiri jika informasi yang diterima sebenarnya tidak terlalu dibutuhkan. Untuk itu diperlukan teknik untuk memilah informasi yang dikenal sebagai ektraksi informasi. Ekstraksi informasi ini berkaitan erat dengan Named Entity Recognition (NER). NER merupakan komponen dasar dari ekstraksi informasi yang berfungsi untuk mengenali entitas pada kumpulan teks berbahasa alami. Skripsi ini meneliti tentang NER pada twitter dengan metode perceptron untuk mengenali entitas nama orang dan lokasi. Pelaksanaan penelitian dimulai dari pembuatan data set, eksperimen, evaluasi hasil eksperimen dan penarikan kesimpulan. Eksperimen dilakukan untuk mendapatkan kondisi terbaik pada perceptron dalam mengenali entitas. Parameter yang diuji adalah nilai threshold, kelompok data set yang digunakan sebanyak tiga kelompok (nama orang, nama lokasi dan gabungan), jenis data set (preprocessing dan non-preprocessing), jumlah data training dan teknik pengujian. Hasil eksperimen memperlihatkan bahwa perceptron dapat mengenali entitas nama orang dan lokasi yang ditunjukkan dengan nilai f-measure yang baik pada setiap tipe entitas dengan memperhatikan parameter yang diuji.
(5)
ii Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS |
ABSTRACT
The availability of twitter information that overflow, can cause problem if the information that received is not much needed. Therefore, the technique to sort the information is required, it known as information extraction. Information extraction is closely related to Named Entity Recognition (NER). NER is a basic component of information extraction, it function is to identify the entities the set of common language text. The core of the research on this thesis is to determine how perceptron method can be used to recognize the entity names and location on twitter. The implementation of research starts from generate of data sets, experiments, and evaluation of experimental result and conclusion. That experiment carried out to obtain the best condition of perceptron recognition entities. The parameters that tested is a value of threshold, group of data sets that used are (people name, location name, and combination of both), the type of data set (preprocessing and non preprocessing), the amount of data training and the technical testing. Result of the experiment shows that perceptron can recognize entities of people name, and location that shown but f-measure value, which can be good to all the type of entities with shown the parameters that tested.
(6)
v Adryan Ardiansyah, 2013
DAFTAR ISI
ABSTRAK ...i
ABSTRACT ... ii
KATA PENGANTAR ... iii
DAFTAR ISI ... v
DAFTAR GAMBAR ...vii
DAFTAR TABEL ... viii
DAFTAR ISTILAH ... ix
BAB I PENDAHULUAN ... 1
1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 3
1.3 Tujuan Penelitian ... 3
1.4 Batasan Masalah ... 3
1.5 Metodologi Penelitian ... 4
1.6 Sistematika Laporan ... 4
BAB II TINJAUAN PUSTAKA ... 6
2.1 Named Entity Recogintion (NER) ... 6
2.1.1 Ekstrasi Content ... 7
2.1.2 Praproses Teks (Preprocessing Text) ... 8
2.1.3 Pengenalan Entitas ... 11
2.2 Jaringan Perceptron ... 12
2.2.1 Arsitektur Perceptron ... 13
2.2.2 Algoritma Pelatihan Pecetpron ... 14
2.2.3 Contoh Kasus ... 16
2.3 Perceptron dan NER ... 18
2.3.1 Tahap Pelatihan... 19
2.3.2 Tahap Pengenalan ... 22
2.4 Mikroblog (Twitter) ... 23
2.5 Mikroblog (Twitter) dan NER ... 24
2.6 Teknik Pengujian ... 26
2.7 Evaluasi Kinerja ... 26
BAB III METODOLOGI PENELITIAN ... 29
3.1 Desain Penelitian ... 29
3.2 Model Pengembang Sistem ... 31
(7)
vi Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS |
BAB IV HASIL PENELITIAN DAN PEMBAHASAN ... 34
4.1 Pengembangan Sistem... 34
4.1.1 Analisa Kebutuhan ... 34
4.1.2 Perancangan Sistem ... 35
4.1.3 Implementasi ... 37
4.1.4 Integrasi dan Pengujian ... 39
4.2 Pembahasan Penelitian ... 40
4.2.1 Pembuatan Data Set ... 40
4.2.2 Preprocessing Text ... 43
4.2.3 Ekstraksi Fitur ... 44
4.2.4 Pelatihan (Training) ... 46
4.2.5 Pengujian (Testing) ... 47
4.2.6 Evaluasi ... 48
4.2.7 Postprocessing Text ... 49
4.3 Eksperimen ... 49
4.3.1 Skenario Eksperimen ... 49
4.3.2 Eksperimen Pertama ... 50
4.3.3 Eksperimen Kedua ... 55
4.3.4 Eksperimen Ketiga ... 57
BAB V KESIMPULAN DAN SARAN ... 59
5.1 Kesimpulan ... 59
5.2 Saran ... 59
DAFTAR PUSTAKA ... 61 LAMPIRAN A: Hasil Eksperimen Pengaruh Nilai Threshold... A LAMPIRAN B: Contoh Unigram Yang Dipengaruhi Jenis Data ... B LAMPIRAN C: Data Set Nama Orang ... C LAMPIRAN D: Data Set Nama Lokasi ... D LAMPIRAN E: Data Set Gabungan ... E LAMPIRAN F: Contoh Hasil Keluaran Sistem ... F LAMPIRAN G: Detail Hasil Eksperimen Pertama ... G LAMPIRAN H: Detail Hasil Eksperimen Kedua ... H LAMPIRAN I: Detail Hasil Eksperimen Ketiga ... I
(8)
vii Adryan Ardiansyah, 2013
DAFTAR GAMBAR
Gambar 2.1.Tahapan pada sistem ekstraksi informasi (Meier, 2010) ... 7
Gambar 2.2. Hasil tokenization ... 8
Gambar 2.3. Contoh hasil part-of-speech tagging ... 10
Gambar 2.4. Pembatasan linear dengan perceptron ... 12
Gambar 2.5. Arsitektur jaringan perceptron ... 13
Gambar 2.6. Detail arsitektur jaringan perceptron ... 14
Gambar 2.7. Contoh NER pada tweet ... 25
Gambar 2.8. Bagan proses evaluasi sistem NER ... 27
Gambar 3.1. Desain penelitian ... 29
Gambar 3.2. Model waterfall ... 31
Gambar 4.1. Rancangan umum sistem ... 35
Gambar 4.2. Form hasil klasifikasi ... 39
Gambar 4.3. Grafik hasil eksperimen pertama pada data set nama orang ... 50
Gambar 4.4. Grafik hasil eksperimen pertama pada data set lokasi ... 51
Gambar 4.5. Grafik hasil eksperimen pertama pada data set gabungan ... 51
Gambar 4.6. Grafik hasil eksperimen kedua pada data set nama orang ... 55
Gambar 4.7. Grafik hasil eksperimen kedua pada data set nama lokasi ... 56
Gambar 4.8. Grafik hasil eksperimen ketiga pada data set nama orang ... 57
(9)
viii Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS |
DAFTAR TABEL
Tabel 2.1. Daftar tagset kelas kata ... 10
Tabel 2.2. Algoritma Perceptron ... 15
Tabel 2.3. Fitur kontekstual (Budi, Wahyudi, 2005) ... 19
Tabel 2.4. Fitur morfologi (Budi, Wahyudi, 2005) ... 19
Tabel 2.5. Hasil praproses teks data training ... 20
Tabel 2.6. Daftar fitur yang digunakan ... 20
Tabel 2.7. Hasil konversi data training ... 21
Tabel 2.8. Proses pelatihan ... 21
Tabel 2.9. Hasil praproses teks pada data testing ... 22
Tabel 2.10. Hasil konversi dan klasifikasi data testing ... 22
Table 2.11. Kode hasil perbandingan objek... 27
Tabel 4.1. Kelas pada proses preprocessing text ... 37
Tabel 4.2. Kelas pada proses ekstraksi fitur ... 37
Tabel 4.3. Kelas pada proses pelatihan (training) ... 38
Tabel 4.4. Kelas pada proses pengujian (testing) ... 38
Tabel 4.5. Kelas pada proses postprocessing text ... 38
Tabel 4.6. Bentuk pengujian ... 39
Tabel 4.7. Contoh data yang dikumpulkan ... 41
Tabel 4.9. Hasil pelabelan entitas ... 42
Tabel 4.10. Kelompok data set ... 42
Tabel 4.11. Contoh hasil preprocessing text ... 43
Tabel 4.12. Contoh hasil akhir dari preprocessing text ... 44
Tabel 4.13. Fitur yang digunakan ... 45
Tabel 4.14. Contoh hasil ektraksi fitur ... 46
Tabel 4.15. Hasil perhitungan dan prediksi sistem ... 48
(10)
ix Adryan Ardiansyah, 2013
DAFTAR ISTILAH
Istilah Keterangan
Entitas Objek dari dunia nyata yang dapat dibedakan dengan objek lain.
Token Unit terkecil dari sebuah objek.
Data set Kumpulan dokumen atau teks.
Metadata Data yang merepresentasikan tentang data tersebut.
Tweet Teks yang di-post pada twitter
Threshold Batas ambang
Data training Data yang digunakan untuk proses pelatihan Data testing Data yang digunakan untuk proses pengujian
Fitur Informasi untuk memprediksi objek
Korpus Kumpulan teks sistematis berjumlah besar yang dapat disimpan
dan diolah secara elektronik
Unigram Satu kata sebelum entitas
(11)
1 Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS
BAB I PENDAHULUAN
1.1 Latar Belakang
Pada era teknologi saat ini, informasi tersedia secara melimpah dalam berbagai bidang. Kemudahan dalam menyebarkan informasi yang ditunjang oleh perkembangan User Generate Content (UGC) menjadi salah satu faktor penyebabnya. Pada UGC, user (pengguna) dapat menyebarkan informasi dengan mudah karena UGC menyediakan layanan untuk men-generate content-nya sendiri. Content yang dimaksud seperti mengunduh gambar, musik, video dan tulisan pada media tertentu. Salah satu media sosial yang mengkudung UGC adalah twitter yang pada akhirnya menjadi bagian dari kehidupan sehari-hari.
Twitter merupakan mikroblog atau media sharing informasi yang banyak digunakan dalam penyebaran informasi. Penelitian Semiocast, lembaga riset media sosial yang berpusat di Paris, Prancis, menyatakan bahwa Indonesia adalah pengguna twitter terbesar kelima di dunia dengan jumlah akun 19,5 juta (Semiocast, 2010). Selain jumlah akun, jumlah tweet yang dihasilkan pun terus meningkat. Beberapa referensi menyatakan kurang lebih tweet yang dihasilkan mencapai 400 juta per hari dengan beragam topik yang sedang hangat pada masa itu.
Ketersediaan informasi yang melimpah tersebut pada satu sisi dapat bermanfaat. Namun di sisi lain, dapat menimbulkan masalah seperti berlebihnya informasi yang diterima atau dikenal sebagai information overload. Kondisi ini
(12)
2
Adryan Ardiansyah, 2013
adalah kondisi dimana banyak informasi yang diterima tapi tidak dibutuhkan. Untuk itu diperlukan teknik dalam memilah atau mengklasifikasi informasi dari sekian banyak informasi yang disediakan. Teknik ini dikenal sebagai ektraksi informasi atau pengambilan informasi pada data tekstual. Informasi yang diambil dapat berupa event, entitas atau relasi pada setiap teks.
Fungsi ekstraksi informasi adalah mencari kata (token) dan entitas yang dapat mewakili isi dari data tekstual. Named Entity Recognition (NER) merupakan komponen dasar dari ekstraksi informasi yang bertugas untuk mengenali entitas tersebut. Entitas yang dikenali nantinya dapat dimanfaatkan sebagai metadata untuk tahap selanjutnya pada ekstraksi informasi. Selain itu, dimanfaatkan di dalam peringkasan dokumen (summarize), profiling atau event detection.
Metode yang digunakan dalam penelitian tentang NER pun beragam. Salah satu metode pembelajaran mesin yang digunakan dalam ekstraksi informasi adalah perceptron, yang merupakan bagian dari model neural network. Perceptron mempunyai kecepatan komputasi dalam mengklasifikasi objek karena menggunakan pendekatan linier yang membagi objek kedalam dua kelas. Perceptron pernah digunakan pada penelitian Ciaramita dan Altun pada tahun 2005 untuk dokumen formal dalam hal ini sebuah novel.
Berdasarkan permasalahan di atas, penelitian ini lebih difokuskan pada pengenalan entitas atau named entity recognition pada twitter berbahasa Indonesia menggunakan metode perceptron. Diharapkan penelitian ini dapat memberikan manfaat untuk para peneliti ektraksi informasi khususnya dalam mengekstraksi informasi pada twitter.
(13)
3
Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS
1.2 Rumusan Masalah
Rumusan masalah pada penelitian ini adalah:
1. Bagaimana mengembangkan sistem yang mampu mengenali entitas nama orang dan lokasi pada tweet berbahasa Indonesia?
2. Bagaimana algoritma perceptron dapat mengklasifikasikan entitas pada tipe entitas nama orang dan lokasi?
1.3 Tujuan Penelitian
Tujuan yang ingin dicapai pada penelitian ini adalah:
1. Membuat sistem yang mampu mengenali entitas nama orang dan lokasi pada tweet berbahasa Indonesia.
2. Menggunakan algoritma perceptron untuk mengklasifikasikan entitas nama orang dan lokasi pada tipe entitasnya.
1.4 Batasan Masalah
Berikut beberapa batasan masalah dari penelitian ini:
1. Penelitian lebih difokuskan pada Named Entity Recognition. 2. Data yang digunakan diambil dari mikroblog yaitu tweet. 3. Algoritma yang digunakan adalah Perceptron.
4. Kategori entitas yang diteliti hanya nama orang dan lokasi.
5. Analisa pemodelan menggunakan pemodelan berorientasi objek yaitu UML.
(14)
4
Adryan Ardiansyah, 2013
1.5 Metodologi Penelitian
Tahapan yang akan dilalui pada skripsi ini adalah sebagai berikut:
1. Studi Literatur, dilakukan dengan mengkaji NER dan model
perceptron dari berbagai sumber.
2. Pengumpulan Informasi, dilakukan dengan wawancara pada
beberapa narasumber terkait dengan NER.
3. Analisa dan Perancangan Sistem, dilakukan analisa dan
perancangan sistem NER termasuk fitur-fitur apa saja yang mempengaruhi pengenalan entitas.
4. Implementasi Sistem, dilakukan implementasi berdasarkan hasil
analisa dan perancangan dengan menggunakan bahasa pemograman Java.
5. Pengujian dan Evaluasi, dilakukan pengujian pada sistem yang telah
dibuat, kemudian hasilnya dievaluasi.
1.6 Sistematika Laporan
Laporan disusun secara sistematis sehingga mudah dibaca, ditelusuri, dan dievaluasi. Sistematika penulisan laporan skripsi ini terbagi menjadi lima bab sebagai berikut:
BAB I Pendahuluan
Bab ini membahas latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metodologi penelitian dan sistematika laporan.
(15)
5
Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS
BAB II Kajian Pustaka
Bab ini membahas teori-teori yang mendukung dalam penyusunan skripsi seperti NER, model perceptron dan beberapa contoh dari penelitian yang ada.
BAB III Metodologi Penelitian
Bab ini menguraikan metode yang digunakan dalam penelitian secara rinci.
BAB IV Hasil Penelitian dan Pembahasan
Bab ini menguraikan tahapan yang harus dilalui mulai dari preprocessing data twitter sampai sebuah entitas ditemukan di dalamnya. Tahapannya akan dijelaskan dengen rinci dan mendalam.
BAB V Kesimpulan dan Saran
Bab ini menguraikan beberapa kesimpulan dari hasil penelitian untuk menjawab rumusan masalah. Pada bagian saran, diisi rekomendasi dari penulis untuk penelitian selanjutnya.
(16)
29 Adryan Ardiansyah, 2013
BAB III
METODOLOGI PENELITIAN
Bab ini mendeskripsikan apa saja yang dibutuhkan untuk penelitian seperti desain atau tahapan penelitian, model pengembangan sistem dan alat dan bahan penelitian.
3.1 Desain Penelitian
Berikut tahapan dari desain penelitian dalam proses pengembangan sistem digambarkan seperti pada Gambar 3.1.
(17)
30
Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS Berikut ini pembahasan dari gambar di atas:
1. Studi literatur, tahap ini dilakukan kajian mengenai named entity recognition, perceptron dan aplikasi untuk pengenalan entitas.
2. Pengumpulan data, tahap ini ditujukan untuk memperoleh data yang menunjang penelitian untuk kemudian diproses.
3. Pembuatan data set, tahap ini bertujuan untuk membuat data set yang kemudian dibagi kedalam dua bagian yaitu data training dan testing. 4. Persiapan alat dan bahan penelitian. Alat yang dipersiapkan berupa
perangkat keras dan lunak yang menunjang pengembang sistem. Untuk bahan yang digunakan adalah data tweet, dokumen elektronik dan buku referensi.
5. Pengembangan sistem, tahap ini dilakukan implementasi sistem dengan menggunakan model waterfall.
6. Percobaan dan evaluasi hasil, tahap ini dilakukan percobaan yang disesuaikan dengan tujuan penelitian ini. Hasil percobaan kemudian dievaluasi dengan memperhatikan precission, recall dan f-measure yang dihasil aplikasi.
7. Penarikan kesimpulan.
8. Pembuatan dokumen meliputi dokumen skripsi, dokumen teknis dan paper.
(18)
31
Adryan Ardiansyah, 2013
3.2 Model Pengembang Sistem
Pengembangan sistem dilakukan dengan menerapkan model waterfall. Sesuai dengan namanya model ini dilakukan secara berurutan sesuai dengan anak panah, dapat dilihat pada Gambar 3.2.
Gambar 3.2. Model waterfall
Terdapat lima tahap pada model ini yaitu: 1. Analisa Kebutuhan
Seluruh kebutuhan sistem harus sudah didapatkan dalam tahap ini, termasuk kegunaan dan tujuan sistem. Informasi yang didapat pada tahap ini diperoleh melalui wawancara, survey, diskusi dan studi literatur.
2. Perancangan Sistem
Tahap ini bertujuan untuk memberikan gambaran tentang sistem secara keseluruhan dengan menspesifikasikan lebih detail kebutuhan baik perangkat keras dan juga arsitektur yang didapat pada tahap analisa.
(19)
32
Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS 3. Implementasi
Pembuatan sistem dengan bahasa JAVA yang dipecah menjadi beberapa kelas yang nantinya digabungkan. Tahap ini juga harus sudah dilakukan pemeriksaan terhadap kelas yang dibuat apakah sudah memenuhi tanggung jawabnya atau tidak.
4. Integrasi dan Pengujian
Tahap ini menggabungkan semua modul yang dibuat pada tahap implementasi untuk kemudian dilakukan pengujian. Pengujian dilakukan agar diketahui apakah sistem yang dibuat sesuai dengan tujuan skripsi ini atau tidak.
5. Operasi dan Pemeliharaan
Ini merupakan tahap terakhir, sistem yang sudah dibuat dioperasikan serta dilakukan pemeliharaan termasuk memperbaiki kesalahan yang tidak ditemukan pada langkah sebelumnya.
3.3 Alat dan Bahan Penelitian
Pada penelitian ini digunakan alat penelitian berupa perangkat keras dan lunak yang menunjang sebagai berikut:
1. Perangkat keras
a. Processor Intel Dual Core
b. RAM 3 GB
c. Harddisk berkapasitas 160 GB
(20)
33
Adryan Ardiansyah, 2013 2. Perangkat lunak
1. Microsoft Windows 7 Home Premium
2. JDK 6 Update 32 3. Netbeans 6.8
4. Notepad++
Sedangkan untuk bahan penelitian yang digunakan sebagai berikut:
1. Data tweet, sebagai objek penelitian sebanyak 164 tweet untuk masing-masing tipe entitas.
2. Daftar nama orang, sebagai referensi untuk pencarian nama orang. 3. Daftar nama lokasi, sebagai referensi untuk pencarian nama lokasi. 4. Daftar sinonim, sebagai referensi agar kata dalam data tweet lebih baku. 5. Daftar kelas kata, sebagai referensi untuk penentuan kelas kata pada tweet.
(21)
59 Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan hasil pelaksanaan penelitian dapat ditarik kesimpulan sebagai berikut:
1. Sistem pengenalan entitas yang dikembangkan menggunakan metode perceptron ini dapat mengenali entitas nama orang dan lokasi pada tweet berbahasa Indonesia dengan baik yang ditunjukan dengan nilai f-measure pada setiap entitas tersebut. Nilai f-measure untuk nama orang dan lokasi masing-masing sebesar 97,62% dan 97,14%.
1. Algoritma perceptron dapat digunakan untuk mengenali entitas nama orang dan lokasi, terlihat dari nilai f-measure yang baik dari beberapa eksperiman dengan memperhatikan beberapa parameter seperti nilai threshold, kelompok dan jenis data set yang digunakan serta jumlah data training.
5.2 Saran
Beberapa saran yang perlu diperhatikan untuk penelitian selanjutnya, sebagai berikut:
1. Rekomendasi untuk kombinasi parameter agar perceptron dapat optimal dalam mengenali entitas nama orang dan lokasi adalah sebagai berikut: a. Nilai threshold terbaik pada range 0 sampai 0.3.
(22)
60
Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS b. Jumlah data training 75% dari data set.
c. Kelompok data set yang digunakan harus kelompok yang dipisahkan sesuai tipe entitas.
d. Jenis data set yang digunakan adalah jenis data set yang di-preprocessing.
2. Perlu dikembangkan fungsi tambahan yang dapat melakukan konfigurasi otomatis terhadap nilai threshold agar mendapatkan nilai yang tepat untuk pemisahan kelas.
3. Perlu dilakukan penelitian lebih lanjut dengan jumlah tweet yang lebih banyak dengan pola yang lebih beragam untuk menguji batas kemampuan algoritma perceptron.
4. Perlu dilakukan penelitian lebih lanjut untuk membandingkan algoritma perceptron dengan algoritma lain untuk pengenalan entitas.
(23)
61 Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS |
DAFTAR PUSTAKA
Afriyanti, Liza. 2010. Rancang Bangun Tool Untuk Jaringan Syarat Tiruan (JST) Model Perceptron. Univesitas Islam Indonesia.
Budi Indra, Stéphane Bressan, Gatot Wahyudi, Zainal A. Hasibuan, Bobby Nazief: Named Entity Recognition for the Indonesian Language: Combining Contextual, Morphological and Part-of-Speech Features into a Knowledge Engineering Approach. Discovery Science 2005: 57-69.
Carlson, A., Gaffney, S., Vasile, F. 2009. Learning a Named Entity Tagger from Gazetteers with the Partial Perceptron.Proceedings of the 2009 AAAI Spring Symposium on Learning by Reading and Learning to Read.
Carreras, C., Marquez, L., Padro, L. 2003. Learning a Perceptron-Based Named Entity Chunker via Online Recognition Feedback. Proceedings of CoNLL-2003 Edmonton, Canada 156--159.
Chincor, N. 1998. MUC-7 Information Extraction Task Definition. The MITRE Corporation an SAIC.
Chincor, N. 1999. Named Entity Recognition Task Definition (Version 3.5). The MITRE Corporation an SAIC.
Meier, Michael. 2010. Named-Entity-Recognition Pipeline [online]. http://is.uni-
paderborn.de/fileadmin/Informatik/AG-Engels/Lehre/SS10/PG-IDSE/Seminar/NER_Pipeline.pdf diakses tanggal 27 Februari 2012. Nugroho, Adi. 2004. Konsep Pengembangan Sistem Basis Data. Informatika.
(24)
62
Adryan Ardiansyah, 2013
Pujiyanta, Ardi. Perceptron, http://ardipujiyanta.wordpress.com/kuliah-jaringan-saraf-tiruan/, diakses tanggal 5 Maret 2012.
Puspitaningrum, Diyah. 2006. Pengantar Jaringan Sarap Tiruan. ANDI. Yogyakarta.
Santosa, Budi. 2007. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha Ilmu.
Sari, Riri Fitri, Burhan Adi Wicaksana. 2011. Teknik Ekstraksi Informasi di Web. Andi Offset.
Semiocast (2010). Geolocation analysis of Twitter accounts and tweets by Semiocast [online]. http://semiocast.com/publications/2012_07_30_
Twitter_reaches_half_a_billion_accounts_140m_in_the_US diakses
tanggal 27 Februari 2012.
Sunni, Ismail. 2011. Test Options Pada Weka [online]. http://codemath.wordpress .com/2011/06/25/test-options-pada-weka/ diakses tanggal 10 November 2012.
Whitelaw, C., A. Kehlenbeck , N. Petrovic dan L. Ungar. 2008. Web-Scale Named Entity Recognition. Proceeding CIKM '08 Proceedings of the 17th ACM conference on Information and knowledge management Pages 123-132.
(1)
Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
3. Implementasi
Pembuatan sistem dengan bahasa JAVA yang dipecah menjadi beberapa kelas yang nantinya digabungkan. Tahap ini juga harus sudah dilakukan pemeriksaan terhadap kelas yang dibuat apakah sudah memenuhi tanggung jawabnya atau tidak.
4. Integrasi dan Pengujian
Tahap ini menggabungkan semua modul yang dibuat pada tahap implementasi untuk kemudian dilakukan pengujian. Pengujian dilakukan agar diketahui apakah sistem yang dibuat sesuai dengan tujuan skripsi ini atau tidak.
5. Operasi dan Pemeliharaan
Ini merupakan tahap terakhir, sistem yang sudah dibuat dioperasikan serta dilakukan pemeliharaan termasuk memperbaiki kesalahan yang tidak ditemukan pada langkah sebelumnya.
3.3 Alat dan Bahan Penelitian
Pada penelitian ini digunakan alat penelitian berupa perangkat keras dan lunak yang menunjang sebagai berikut:
1. Perangkat keras
a. Processor Intel Dual Core b. RAM 3 GB
c. Harddisk berkapasitas 160 GB
(2)
33
Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS 2. Perangkat lunak
1. Microsoft Windows 7 Home Premium 2. JDK 6 Update 32
3. Netbeans 6.8 4. Notepad++
Sedangkan untuk bahan penelitian yang digunakan sebagai berikut:
1. Data tweet, sebagai objek penelitian sebanyak 164 tweet untuk masing-masing tipe entitas.
2. Daftar nama orang, sebagai referensi untuk pencarian nama orang. 3. Daftar nama lokasi, sebagai referensi untuk pencarian nama lokasi. 4. Daftar sinonim, sebagai referensi agar kata dalam data tweet lebih baku. 5. Daftar kelas kata, sebagai referensi untuk penentuan kelas kata pada tweet.
(3)
59 Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan hasil pelaksanaan penelitian dapat ditarik kesimpulan sebagai berikut:
1. Sistem pengenalan entitas yang dikembangkan menggunakan metode perceptron ini dapat mengenali entitas nama orang dan lokasi pada tweet berbahasa Indonesia dengan baik yang ditunjukan dengan nilai f-measure pada setiap entitas tersebut. Nilai f-measure untuk nama orang dan lokasi masing-masing sebesar 97,62% dan 97,14%.
1. Algoritma perceptron dapat digunakan untuk mengenali entitas nama orang dan lokasi, terlihat dari nilai f-measure yang baik dari beberapa eksperiman dengan memperhatikan beberapa parameter seperti nilai
threshold, kelompok dan jenis data set yang digunakan serta jumlah data training.
5.2 Saran
Beberapa saran yang perlu diperhatikan untuk penelitian selanjutnya, sebagai berikut:
1. Rekomendasi untuk kombinasi parameter agar perceptron dapat optimal dalam mengenali entitas nama orang dan lokasi adalah sebagai berikut: a. Nilai threshold terbaik pada range 0 sampai 0.3.
(4)
60
Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
b. Jumlah data training 75% dari data set.
c. Kelompok data set yang digunakan harus kelompok yang dipisahkan sesuai tipe entitas.
d. Jenis data set yang digunakan adalah jenis data set yang
di-preprocessing.
2. Perlu dikembangkan fungsi tambahan yang dapat melakukan konfigurasi otomatis terhadap nilai threshold agar mendapatkan nilai yang tepat untuk pemisahan kelas.
3. Perlu dilakukan penelitian lebih lanjut dengan jumlah tweet yang lebih banyak dengan pola yang lebih beragam untuk menguji batas kemampuan algoritma perceptron.
4. Perlu dilakukan penelitian lebih lanjut untuk membandingkan algoritma perceptron dengan algoritma lain untuk pengenalan entitas.
(5)
61 Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
DAFTAR PUSTAKA
Afriyanti, Liza. 2010. Rancang Bangun Tool Untuk Jaringan Syarat Tiruan (JST) Model Perceptron. Univesitas Islam Indonesia.
Budi Indra, Stéphane Bressan, Gatot Wahyudi, Zainal A. Hasibuan, Bobby Nazief: Named Entity Recognition for the Indonesian Language: Combining Contextual, Morphological and Part-of-Speech Features into a Knowledge Engineering Approach. Discovery Science 2005: 57-69.
Carlson, A., Gaffney, S., Vasile, F. 2009. Learning a Named Entity Tagger from Gazetteers with the Partial Perceptron.Proceedings of the 2009 AAAI Spring Symposium on Learning by Reading and Learning to Read.
Carreras, C., Marquez, L., Padro, L. 2003. Learning a Perceptron-Based Named Entity Chunker via Online Recognition Feedback. Proceedings of CoNLL-2003 Edmonton, Canada 156--159.
Chincor, N. 1998. MUC-7 Information Extraction Task Definition. The MITRE Corporation an SAIC.
Chincor, N. 1999. Named Entity Recognition Task Definition (Version 3.5). The MITRE Corporation an SAIC.
Meier, Michael. 2010. Named-Entity-Recognition Pipeline [online]. http://is.uni-
paderborn.de/fileadmin/Informatik/AG-Engels/Lehre/SS10/PG-IDSE/Seminar/NER_Pipeline.pdf diakses tanggal 27 Februari 2012. Nugroho, Adi. 2004. Konsep Pengembangan Sistem Basis Data. Informatika.
(6)
62
Adryan Ardiansyah, 2013
SISTEM PENGENALAN ENTITAS DENGAN PERCEPTRON PADA TWEETS
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
Pujiyanta, Ardi. Perceptron, http://ardipujiyanta.wordpress.com/kuliah-jaringan-saraf-tiruan/, diakses tanggal 5 Maret 2012.
Puspitaningrum, Diyah. 2006. Pengantar Jaringan Sarap Tiruan. ANDI. Yogyakarta.
Santosa, Budi. 2007. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha Ilmu.
Sari, Riri Fitri, Burhan Adi Wicaksana. 2011. Teknik Ekstraksi Informasi di Web. Andi Offset.
Semiocast (2010). Geolocation analysis of Twitter accounts and tweets by Semiocast [online]. http://semiocast.com/publications/2012_07_30_ Twitter_reaches_half_a_billion_accounts_140m_in_the_US diakses tanggal 27 Februari 2012.
Sunni, Ismail. 2011. Test Options Pada Weka [online]. http://codemath.wordpress .com/2011/06/25/test-options-pada-weka/ diakses tanggal 10 November 2012.
Whitelaw, C., A. Kehlenbeck , N. Petrovic dan L. Ungar. 2008. Web-Scale Named Entity Recognition. Proceeding CIKM '08 Proceedings of the 17th ACM conference on Information and knowledge management Pages 123-132.