Sentiment Mining Pada Kegiatan Program Pengembangan Masyarakat Berbasis Media Sosial
SENTIMENT MINING PADA KEGIATAN PROGRAM
PENGEMBANGAN MASYARAKAT
SITI YULIYANTI
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa tesis berjudul “Sentiment Mining pada
Kegiatan Program Pengembangan Masyarakat berbasis Media Sosial” adalah benar
karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam
bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal
atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain
telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, September 2016
Siti Yuliyanti
NIM G651140221
RINGKASAN
SITI YULIYANTI. Sentiment Mining pada Kegiatan Program
Pengembangan Masyarakat berbasis Media Sosial. Dibimbing oleh TAUFIK
DJATNA dan HERU SUKOCO.
Sentiment mining merupakan bagian dari text mining yang melakukan ekstraksi
dan mengolah data tekstual secara otomatis untuk mendapatkan informasi dalam suatu
kalimat opini yang dianalisis untuk melihat kecenderungan opini terhadap sebuah
masalah atau objek oleh seseorang, apakah cenderung beropini positif, negatif atau
netral. Pengembangan masyarakat merupakan gerakan yang dirancang untuk
meningkatkan taraf hidup keseluruhan masyarakat melalui partisipasi aktif dan
inisiatif dari masyarakat. Permasalahan yang sering timbul yaitu pada proses
implementasi dan evaluasi program pengembangan masyarakat dan penelitian yang
banyak dilakukan dengan menggunakan metode kuantitatif dan kualitatif
berdasarkan kuisioner dan belum memanfaatkan media sosial.
Twitter adalah media sosial yang saat ini aktif digunakan masyarakat Indonesia
dalam menyampaikan opini, keluhan, saran bahkan kritik tentang permasalahan atau
kegiatan yang menjadi trending topic, user yang paling banyak diantaranya adalah
remaja atau anak usia sekolah berdasarkan survei Onavo Insight dan APJII. Objek
penelitian ini adalah kegiatan pada program pengembangan masyarakat yang
berhubungan dengan remaja yaitu kegiatan PIK-Remaja (Pusat Informasi dan
Konseling Remaja) dan GenRe (Generasi Berencana) yang berada di wilayah Bogor.
Berdasarkan survei kegiatan tersebut sudah didukung Twitter dalam sosialisasi samapi
implementasi kegiatan sehingga menarik untuk diteliti.
Data tweet hasil crawling dari Twitter tidak terstruktur dan belum diketahui
kelas sentiment. Sehingga perlu dilakukan praproses meliputi filter, case folding, token
dan parsing, pemeriksaan kelas sentiment dengan lexicon based serta pembobotan
term/kata dengan term frequency. Tahapan selanjutnya, mereduksi fitur dengan PCA
dengan tujuan mencari nilai PC (principal component) tertinggi untuk memudahkan
dan meningkatkan akurasi pada proses klasifikasi sentiment dengan tiga kelas yaitu
kelas positif, negatif dan netral menggunakan SVM Sebelum klasifikasi, parameter c
dan γ yang akan digunakan pada evaluasi model di estimasi untuk menghasilkan
akurasi tertinggi.
Penelitian ini menganalisis kebutuhan model sentiment mining, mengevaluasi
model dan merancangan pengembangan model menggunakan diagram-diagram UML.
Hasil penelitian menunjukan kegiatan yang penyebaran informasi terbaik adalah
kegiatan GenRe dibandingkan kegiatan PIK-Remaja dimana persentase sentiment
positif lebih tinggi dari persentase sentiment negatif. Estimasi parameter c dan γ yang
menghasilkan akurasi tertinggi adalah kombinasi 0.8 dan 0.8, 0.8 dan 0.9, 0.9 dan 0.8,
serta 0.9 dan 0.9, dimana kombinasi parameter tersebut digunakan dalam pengujian
model. Akurasi klasifikasi sentiment menunjukkan hasil yang cukup baik jika
dibandingkan dengan penelitian sebelumnya yaitu sebesar 88.64% pada kegiatan
GenRe dan sebesar 82.78% pada kegiatan PIK-Remaja, tingkat akurasi tidak
dipengaruhi pembagian data latih dan data uji tapi dipengaruhi praproses data dan
estimasi parameter (c dan γ).
Kata kunci: GenRe, kegiatan, masyarakat, PIK-Remaja, sentiment mining, tweet.
SUMMARY
SITI YULIYANTI. Sentiment Mining of Activities Community
Development Program based on Social Media. Supervised by TAUFIK DJATNA
and HERU SUKOCO.
Sentiment mining is part of a text mining to extracting, processing textual
data automatically to obtain information in a sentence opinions. The analyzed to
representation the trend of opinion on an issue or an object by a person, do tend to
opine positive, negative or neutral. Community development is a move designed to
improve the overall living standard of the people through active participation and
initiative of the people. Problems often arise is in the process of implementation
and evaluation of community development programs and research is mostly done
by using quantitative and qualitative methods based on the questionnaire and not
take advantage of social media.
Twitter is a social media that is currently actively used the Indonesian
community in delivering opinions, complaints, suggestions and even criticism of
the issue or activities that a trending topic, the user most of them are teenagers or
school-aged children based on surveys Onavo Insight and APJII. The object of this
study is the activity on community development programs related to juvenile
namely the activities of PIK-Remaja and GenRe which is in the area of Bogor.
Based on a survey of these activities have been supported by Twitter in the
socialization process till the implementation of activities so interesting to study.
Data tweet crawling results from Twitter unstructured and unknown class
sentiment. So that needs to be done preprocessing includes filters, case folding,
tokens and parsing, inspection class sentiment with lexicon based and weighting
term / word with the term frequency. The next stage, reducing features with a PCA
with the aim of looking for value PC (principal component), the highest to facilitate
and improve the accuracy of the classification process sentiment with three classes
of classes of positive, negative and neutral using SVM Before classification, the
parameters c and γ to be used in the evaluation models in the estimation to produce
the highest accuracy.
This study analyzes the representation of sentiment mining models, evaluate
the model and design to development model using UML diagrams. The results
showed the best information dissemination activities are the activities of the genre
than PIK-Remaja activities in which the percentage of positive sentiment higher
than the percentage of negative sentiment. Estimation parameters c and γ that
produce the highest accuracy, where the combination of these parameters are used
in testing the model. Accuracy showed good results when compared with previous
studies in the amount of 88.64% on the activities of the GenRe and of 82.78% on
the activities of PIK-Remaja, Its is not affected distribution of training data and test
data, but influenced by preprocessing the data and estimation parameters (c and γ).
Keywords: activities, community, GenRe, PIK-Remaja, sentiment, tweet
© Hak Cipta Milik IPB, Tahun 2016
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa
mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk
kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan,
penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak
merugikan kepentingan IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya
tulis ini dalam bentuk apa pun tanpa izin IPB
SENTIMENT MINING PADA KEGIATAN PROGRAM
PENGEMBANGAN MASYARAKAT
SITI YULIYANTI
Tesis sebagai salah satu syarat untuk memperoleh gelar
Magister Komputer
pada
Program Studi Ilmu Komputer
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016
Penguji Luar Komisi pada Ujian Tesis : Dr Imas S. Sitanggang, SSi MKom
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga penelitian ini dapat diselesaikan. Penelitian ini
berjudul “Sentiment Mining pada Kegiatan Program Pengembangan Masyarakat
berbasis Media Sosial ”
Terima kasih penulis ucapkan kepada Bapak DrEng Ir Taufik Djatna, MSi
dan Bapak DrEng Heru Sukoco, SSi MT selaku pembimbing, Dr Imas S.
Sitanggang, SSi Mkom selaku penguji. Ibu Yosefa Reno, Ibu Ana dan staff
BPMKB kota Bogor serta Ibu Ninuk dari FEMA IPB (Fakultas Ekologi Manusia
Institut Pertanian Bogor) telah banyak memberi informasi tentang objek penelitian.
Tak lupa penulis juga menyampaikan penghargaan sebesar-besarkan kepada Ibu
Saryati yang tak pernah lelah mendo’akan, Bapak Amid (Alm) yang semangatnya
tetap mengalir meski tak sempat mengenggam karya ini, Eteh dan Lia atas segala
doa dan kasih sayangnya. Di samping itu, penulis sampaikan terima kasih kepada
sahabat-sahabatku (Alm) Ela Kurniati, Teh Heti Mulyani, Puspa Citra, Novi, rekan
Ilkom 2014 dan teman-teman yang telah membantu proses penelitian. Terima kasih
juga penulis sampaikan kepada Direktorat Jenderal Pendidikan Tinggi (Ditjen
DIKTI), STT Indonesia Tanjungpinang dan STMIK Bandung yang memberikan
beasiswa dalam penyelesaian karya ilmiah ini. Semoga karya ilmiah ini bermanfaat.
Bogor, September 2016
Siti Yuliyanti
DAFTAR ISI
DAFTAR TABEL
vii
DAFTAR GAMBAR
vii
DAFTAR LAMPIRAN
vii
1 PENDAHULUAN
Latar Belakang
Perumusan Masalah
Tujuan Penelitian
Manfaat Penelitian
Ruang Lingkup Penelitian
2 TINJAUAN PUSTAKA
Mining Media Sosial
Kegiatan Program Pengembangan Masyarakat
RapidMiner dengan Rscript
Perancangan untuk Pengembangan Model dengan UML
3 METODE
Pengumpulan data
Praproses
Reduksi Fitur dengan PCA
Klasifikasi Sentimen dengan SVM
Evaluasi Model Sentiment Mining
4 HASIL DAN PEMBAHASAN
Pengumpulan data
Reduksi fitur
Klasifikasi Sentiment
Pengujian Parameter (c,γ) pada Fungsi Kernel
Evaluasi Model
Pengembangan Model Sentiment Mining
Use Case Diagram
Activity Diagram
Sequence diagram
Component diagram
Class diagram
StateChart Diagram
5 SIMPULAN DAN SARAN
Simpulan
Saran
DAFTAR PUSTAKA
LAMPIRAN
RIWAYAT HIDUP
1
1
3
3
3
3
4
4
4
5
5
6
6
7
8
9
11
12
12
13
16
18
18
21
21
21
21
22
22
22
25
25
25
26
28
37
DAFTAR TABEL
1
2
3
4
5
6
7
Pengurutan nilai principal component dari yang tertinggi
Presentase jumlah sentiment kegiatan GenRe dan PIK-Remaja
Grid search presentase tingkat akurasi model sentiment mining
Persentase precision dan recall pada kegiatan PIK-Remaja
Persentase precision dan recall pada kegiatan GenRe
Tingkat akurasi dengan parameter c = 0.8 dan γ = 0.8
Tingkat akurasi dengan parameter c= 0.1 dan γ = 0.6
15
17
18
19
20
20
20
DAFTAR GAMBAR
1 Tahapan analisis kebutuhan dan evaluasi pada model sentiment mining
2 Registrasi Twitter Apps untuk authentification key
3 Tampilan authentifikasi untuk key penarikan data tweet
4 Alur algoritme PCA (Vinondhini dan Chandrasekaran 2014)
5 Pemetaan data dengan fungsi hyperplane ke ruang vektor
6 Ilustrasi proses klasifikasi 3 kelas dengan fungsi hyperplane
7 Ilustrasi confusion matrix dengan tiga kelas sentimen
8 Ilustrasi tahapan pemeriksaan kelas sentimen
9 Flow knowledge proses reduksi fitur pada RapidMiner
10 Nilai PC terhadap proporsi varian: (a) PIK-Remaja (b) GenRe
11 Nilai PC null pada fitur Kegiatn PIK-Remaja
12 Nilai PC null pada fitur kegiatan GenRe
13 Flow knowledge proses proses klasifikasi sentiment
14 Skenario model sentiment mining: (a) PIK-Remaja (b) GenRe
15 Contoh ketepatan kelas pada klasifikasi sentiment
16 Confusion matrix Model 1 pada kegiatan GenRe
17 Component diagram
18 Statechart diagram model sentiment mining
19 Use case diagram
20 Activity diagram crawling data tweet
21 Activity diagram proses reduksi fitur, klasifikasi dan evaluasi model
22 Sequence diagram praproses data tweet
6
7
7
9
10
10
11
13
13
14
15
16
16
17
19
19
22
23
34
35
35
36
DAFTAR LAMPIRAN
1
2
3
4
5
6
Sebagian file stopword yang digunakan untuk praproses data ......................... 29
Tampilan hasil running evaluasi model pada kegiatan PIK-Remaja ................ 30
Tampilan hasil running evaluasi model pada kegiatan GenRe......................... 32
Use case diagram model sentiment mining ...................................................... 34
Activity Diagram model sentiment mining ....................................................... 35
Sequence dan class diagram model sentiment mining ..................................... 36
1
PENDAHULUAN
Latar Belakang
Sentiment mining merupakan penggalian sentiment dari pengolahan data
sehingga menghasilkan sebuah sentiment, dimana proses yang dilakukan sama
dengan sentiment analysis dan opinion mining. Opinion mining dan sentiment
analysis merupakan bagian dari text mining yang melakukan ekstraksi dan
mengolah data tekstual secara otomatis untuk mendapatkan informasi sentiment
dalam suatu kalimat opini yang dianalisis untuk melihat kecenderungan opini
bersifat negatif atau positif (Pang dan Lee 2008).
Pengembangan masyarakat (community development) adalah gerakan yang
dirancang guna meningkatkan taraf hidup keseluruhan masyarakat melalui
partisipasi aktif dan inisiatif dari masyarakat serta memperbesar akses masyarakat
guna mencapai kondisi sosial, ekonomi, dan kualitas kehidupan yang lebih baik
(Rahman 2009; Adi 2003). Permasalahan yang sering timbul pada proses
implementasi dan evaluasi program pengembangan masyarakat diantaranya
relationship, structure, power, shared for meaning, communication for change,
motivation to decision making dan integration of disparate concerns (Phillips dan
Pittman 2009).
Media sosial menjembatani celah antara dunia secara fisik dengan layanan
online jejaring sosial. Terdapat beberapa hal menarik yang bisa dipelajari pada
data media sosial diantaranya perilaku manusia, membantu periklanan, dan
memfasilitasi gerakan masa (Gundecha dan Huan 2012). Keterkaitan media sosial
dengan pengembangan masyarakat yaitu adanya peran serta atau partisipasi aktif
dan inisiatif masyarakat dengan salah satu manfaat media sosial yaitu
memfasilitasi gerakan masa.
Penelitian ini menggunakan media sosial yaitu Twitter karena berdasarkan
demografi pengguna internet di Indonesia sekitar 49% adalah usia di bawah 25
tahun (APJII dan PUSKAKOM UI 2015) dan Indonesia merupakan negara
pengguna aktif Twitter terbanyak sekitar 64% (Onavo Insight 2013). Beberapa
kegiatan program pengembangan masyarakat di Indonesia sudah menggunakan
partisipasi aktif dan inisiatif dari masyarakat yang melibatkan media sosial yaitu
Twitter, sebagaimana Twitter sudah digunakan pada kegiatan program
pengembangan masyarakat di wilayah Bogor yaitu pada kegiatan PIK-Remaja
(Pusat Informasi dan Konseling Remaja) dan GenRe (Generasi Berencana), dan
menjadi objek penelitian.
Pemanfaatan media sosial untuk mengetahui respon masyarakat kegiatan
pada program pengembangan masyarakat belum pernah dilakukan. Penelitian ini
diperlukan karena sentiment mining masih didominasi dengan studi kasus review
produk. Selain itu mengetahui respon masyarakat terhadap suatu kegiatan
memiliki struktur tweet yang berbeda dengan produk atau sebuah layanan
(Hemalatha et al. 2012). Munculnya kegiatan yang baru menciptakan sarana untuk
mewujudkan keberhasilan kegiatan yang baru juga. Penelitian ini bertujuan untuk
menemukan kelas sentiment yang tepat dari setiap tweet yang disebar pada Twitter.
Sebuah tweet bisa terdapat satu atau lebih kata yang menggambarkan suatu
sentiment yang berbeda-beda dalam proses klasifikasinya.
2
Penelitian Naradhipa dan Purwarianti (2011), melakukan klasifikasi tweet
berbahasa Indonesia dengan SVM dan seleksi fitur menggunakan kamus kata
(dictionary) sedangkan metode kombinasi Lexicon-Based dan SVM untuk
klasifikasi sentiment netral, positif, dan negatif terhadap program televisi dengan
skenario pengujian menggunakan pembagian data latih dan data uji untuk
mengetahui kinerja model klasifikasi (Tiara et al. 2015). Klasifikasi sentiment
positif dan negatif terhadap isu publik, menggunakan Algoritma Maximum Entropy
dalam membangun model klasifikasi dengan Support Vector Machine dengan
pembobotan TF-IDF pada fitur unigram, pelabelan kelas secara manual dengan
POS tagger (Putranti dan Winarko 2014). Pengklasifikasian opini dengan
membandingkan tipe fitur n-gram (unigram, bigram dan trigram) dan Reduksi fitur
pada dataset tentang aplikasi e-commerce dengan PCA dengan metode hybrid SVM
pada pengklasifikasian opini menunjukan hasil akurasi yang paling tinggi jika
dibandingkan Naive Bayes dengan akurasi 77.6% dan akurasi terkecil dimiliki oleh
klasifikasi tanpa reduksi fitur dengan nilai akurasi sebesar 68.8% (Vinodhini dan
Chandrasekaran 2014). Pengklasifikasian SVM menggunakan polaritas 3 kategori
yang diidentifikasi dengan menambahkan kategori netral membuktikan bahwa dapat
meningkatkan akurasi keseluruhan klasifikasi (Koppel dan Jonathan 2006). Menurut
Jotheeswaran et al. (2012) proses reduksi fitur sebelum pengklasifikasian opini
dapat meningkatkan akurasi sekitar 5%.
Sentiment mining dari Twitter untuk mengetahui respon masyarakat terhadap
kegiatan pada program pengembangan masyarakat melalui tweet dari masyarakat
belum pernah dilakukan, menjadi celah dalam penelitian ini berkaitan dengan
permasalahan komunikasi untuk perubahan atau aksi (communication for change).
Penelitian yang telah banyak dilakukan adalah mengukur respon masyarakat
terhadap kegiatan melalui kuisioner dengan menghitung jumlah kelompok dalam
setiap kegiatan. Hal tersebut menjadi menarik untuk diteliti, banyaknya jumlah
kegiatan tidak mewakili respon positif dikarenakan masih adanya pembentukan
kelompok kegiatan yang bersifat formalitas. Pemanfaataan Twitter sebagai sarana
penyampaian informasi sudah banyak diimplementasikan, namun penelitian yang
telah dilakukan belum memanfaatkan tweet yang berlimpah yang sangat mudah
didapatkan ini.
Penelitian ini mengadopsi beberapa metode dari penelitian terdahulu yaitu
menggunakan lexicond based untuk pelabelan kelas sentimen dan pembagian data
untuk mengetahui tren model (Naradhipa dan Purwarianti 2011), menentukan term
atau kata penting untuk membangun corpus positif dan negatif menggunakan TFIDF untuk menjumlahkan vektor bobot pada jaringan semantik kata (Wahyudi dan
Djatna 2016). Penggunaan reduksi fitur setelah praproses data untuk memudahkan
proses klasifikasi dengan PCA (Vinodhini dan Chandrasekaran 2014) serta
menambahkan kelas netral pada klasifikasi sentimen dengan SVM (Koppel dan
Jonathan 2006 untuk mempermudah proses klasifikasi sentimen dan meningkatkan
akurasi model.
Pembangunan model klasifikasi sentimen yang berasal dari tweet masyarakat
melalui Twitter untuk mengetahui seberapa baik respon masyarakat terhadap
kegiatan program pengembangan masyarakat yang ada di wilayah Bogor dan
mengevaluasi model tersebut serta melakukan perancangan untuk pengembangan
model menjadi sebuah aplikasi siap pakai. Evaluasi kinerja model klasifikasi
3
dilakukan untuk mengukur model dari 3 parameter yaitu akurasi, precision, dan
recall dengan estimasi parameter terbaik dalam algoritme klasifikasi.
Perumusan Masalah
Berdasarkan penjelasan latarbelakang, perumusan masalah penelitian ini
adalah:
1. Bagaimana menganalisis kebutuhan dalam membangun model sentiment
mining untuk mengetahui respon masyarakat terhadap kegiatan program
pengembangan masyarakat dan mengevaluasi model sentiment mining?
2. Bagaimana melakukan perancangan untuk pengembangan model
sentiment mining?
Tujuan Penelitian
Penelitian ini bertujuan untuk mengetahui respon masyarakat terhadap
kegiatan program pengembangan masyarakat berdasarkan tweet masyarakat dan
mengevaluasi kinerja model serta merancang kebutuhan untuk pengembangan
model sentiment mining.
Manfaat Penelitian
Manfaat dari penelitian ini adalah memperoleh model sentiment mining yang
dapat melakukan praproses terhadap data tweet yang tidak terstruktur sehingga
mampu mempresentasikan sebuah sentimen untuk mengetahui respon masyarakat
terhadap kegiatan pada program pengembangan masyarakat, evaluasi model untuk
mengetahui kinerja model serta merancang kebutuhan model untuk pengembangan
model menjadi aplikasi.
Ruang Lingkup Penelitian
Ruang lingkup penelitian ini diantaranya:
1. Objek penelitian diambil dari dua kegiatan program pengembangan
masyarakat yaitu kegiatan PIK-Remaja dan kegiatan GenRe di wilayah Bogor
menggunakan media sosial yaitu Twitter.
2. Kelas sentimen pada Model sentiment mining meliputi positif, negatif dan
netral.
3. Setiap tweet yang digunakan diasumsikan memiliki satu kategori kelas.
4
2 TINJAUAN PUSTAKA
Mining Media Sosial
Media sosial sebagai sebuah kelompok aplikasi berbasis internet yang
dibangun atas dasar ideologi dan teknologi Web 2.0, dan memungkinkan
penciptaan dan pertukaran user-generated content (Kaplan dan Haenlein 2010).
Sedangkan menurut Brogan pada tahun 2010 dalam bukunya yang berjudul “Social
Media 101 Tactic and Tips to Develop Your Business Online”, sosial media adalah
satu set baru komunikasi dan alat kolaborasi yang memungkinkan banyak jenis
interaksi yang sebelumnya tidak tersedia untuk orang biasa. Terdapat beberapa hal
menarik yang bisa dipelajari pada data sosial media (Gundecha dan Huan 2012):
1. Banyak pertanyaan menarik yang berhubungan dengan perilaku manusia
yang dapat dipelajari pada data media sosial.
2. Membantu pengiklan untuk menemukan orang-orang yang bisa dipengaruhi
untuk memaksimalkan jangkauan produk mereka dalam anggaran periklanan
3. Membantu sosiolog untuk mengungkap perilaku manusia
4. Memfasilitasi gerakan massa
Twitter adalah salah satu media sosial yang tepat untuk berbagi ide, bank
gagasan, tempat untuk mengumpulkan informasi, untuk menginspirasi pikiran, atau
untuk melihat apa yang teman anda lakukan. Twitter merupakan mikroblog paling
populer di Indonesia dan memungkinkan pengguna untuk mengirim dan membaca
pesan yang disebut kicauan (tweet), berupa teks maksimal 140 karakter yang
ditampilkan pada halaman profil pengguna. Penelitian ini menggunakan media
sosial yaitu Twitter karena berdasarkan penelitian Gundecha dan Huan (2012),
Twitter dapat memfasilitasi gerakan masa yang dalam penelitian dapat dianalisis
untuk mengetahui respon masyarakat terhadap suatu kegiatan.
Kegiatan Program Pengembangan Masyarakat
Pemberdayaan masyarakat merupakan bagian dari pengembangan masayrakat
(community development). Pengembangan masyarakat adalah proses penguatan
masyarakat secara aktif dan berkelanjutan berdasarkan prinsip keadilan sosial,
partisipasi dan kerja sasma yang setara. Pengembangan masyarakat mengekspresikan
nilai-nilai keadilan, kesetaraan, akuntabilitas, kesempatan, pilihan, partisipasi,
kerjasama, dan proses belajar keberlanjutan. Menurut Windy (2011), ruang lingkup
evaluasi untuk mengetahui keberhasilan program antara lain pencapaian hasil, evaluasi
program dan pengawasan mutu, seleksi lokasi dan sasaran kemiskinan, organisasi
masyarakat, efektivitas biaya, pengembangan kualitas sumber daya manusia, kepuasan
terhadap program serta keberlanjutan program.
Kegiatan pada program Bidang Keluarga Berencana dan Keluarga Sejahtera Sub
Bagian Keluarga Berencana di BPMKB kota Bogor yang menjadi fokus penelitian
adalah kegiatan yaitu PIK-Remaja dan KRR. Pusat Informasi Konseling Remaja (PIKR) adalah suatu wadah kegiatan program Penyiapan Kehidupan Berkeluarga bagi Remaja
(PKBR) yang dikelola dari, oleh dan untuk remaja/mahasiswa guna memberikan informasi
dan konseling tentang program PKBR seperti sosialisasi dampak usia pernikahan dini
(UPD).
5
esehatan reproduksi Remaja (KRR) adalah tiga risiko yang dihadapi oleh remaja,
yaitu risiko yang berkaitan dengan seksualitas, NAPZA, HIV dan AIDS (BkkbN 2012).
RapidMiner dengan Rscript
RapidMiner adalah aplikasi data mining berbasis sistem open-source dunia
yang ternama dan merupakan platform untuk merancang proses analisis data
secara plug-and-play (Ristoski et al. 2015). Keunggulan yang kompetitif dengan
solusi yang meliputi integrasi data, analitis ETL, data analisis, pelaporan dalam
satu suite tunggal dan mampu memvisualisasikan kriteria kinerja seperti kurva
ROC rata-rata atau plot 3D dari matriks. Antarmuka pengguna grafis dari
RapidMiner lebih mudah dan lebih efisien untuk digunakan dibandingkan dengan
WEKA yang Explorer ketika bekerja dengan blok dapat digunakan kembali dan
mencoba untuk membuat koneksi ke database. Semua sumber RapidMiner
menggunakan GNU Affero Umum Public License (AGPL) dan bahasa Java
(Kosorus et al. 2011). Rapidminer ditulis dalam bahasa pemrograman Java dengan
mengintegrasikan proyek data mining Weka dan statistika R.
Rscript adalah bahasa pemrograman R yang berada dalam Rapidminer. R
memiliki menjadi standar de facto antara statistik untuk pengembangan perangkat
lunak statistik, dan secara luas digunakan untuk pengembangan perangkat lunak
statistik dan analisis data. R merupakan bahasa pemrograman sebelum S yang
diciptakan oleh John Chambers. R diciptakan oleh Ross Ihaka dan Robert Pria di
University of Auckland, Selandia Baru, dan dikembangkan oleh Tim R
Pembangunan Core. R menyediakan berbagai macam teknik statistik dan grafis
dengan pemodelan linear dan non-linear, klasik uji statistik, analisis time-series,
klasifikasi, clustering, dan lain-lain.
R memungkinkan pengguna untuk menambahkan fungsi tambahan dengan
mendefinisikan fungsi baru. R memiliki banyak fitur yang sama dengan baik
fungsional dan pemrograman berorientasi objek bahasa. Kemampuan R diperluas
melalui package yang memungkinkan teknik statistik khusus, perangkat grafis,
serta kemampuan ekspor dan import ke banyak format data eksternal dengan
kompilasi dan berjalan pada berbagai UNIX platform, Windows dan Mac OS
(Kosorus et al.2011). Penelitian ini membangunan model sentiment mining
menggunakan Rscript pada Rapidminer dengan bahasa pemrograman R.
Perancangan untuk Pengembangan Model dengan UML
UML (Unified Modeling Language) adalah sebuah bahasa yang berdasarkan
grafik/gambar untuk memvisualisasi, menspesifikasikan, membangun, dan
pendokumentasian dari sebuah sistem pengembangan perangkat lunak berbasis
OO (Object-Oriented). UML juga merupakan sebuah bahasa standar untuk
pengembangan sebuah software yang dapat menyampaikan bagaimana membuat
dan membentuk model-model, tetapi tidak menyampaikan apa dan kapan model
yang seharusnya dibuat yang merupakan salah satu proses implementasi
pengembangan perangkat lunak (Nugroho 2009). Diagram yang digunakan pada
perancangan untuk mengembangkan model sentiment mining menjadi aplikasi
yang berbasis objek meliputi use case diagram, activity diagram, statechart
diagram, sequence diagram, component diagram, dan class diagram.
6
3 METODE
Metode penelitian meliputi analisis kebutuhan model sentimet mining dengan
evaluasi model dan perancangan untuk pengembangan model. Tahapan analisis model
dengan evaluasi model meliputi pengumpulan data, crawling, praproses, reduksi fitur,
klasifikasi sentiment dan evaluasi yang direpresentasikan pada Gambar 1 dan objek
menggunakan diagram-diagram UML.
Indikator
penarikan
tweets
Praproses
Filter, Case Folding,
Token & Parsing
Permintaan
tweets
Stopword
Hapus Stopword
Authentifikasi
key
Corpus
Negatif dan Positif
Pemeriksaan Kelas
Lexicon Based
Twitter
Pembobotan TF
Matriks tweet
Mengirim
tweets
Data
Tweet
Pembobotan Sentiment
Reduksi Fitur
dengan PCA
Matriks tweet TF
Pengumpulan data
ya
Varian = 80%
PC = tinggi
tidak
CM
Reduksi fitur
Simpan file
≤1
Klasifikasi dengan SVM
Estimasi parameter
(c, y)
Evaluasi Model
Model 1 [60% data
Model 2 [70% data
Model 3 [80% data
Model 4 [90% data
latih,
latih,
latih,
latih,
40%
30%
20%
10%
data
data
data
data
uji]
uji]
uji]
uji]
Presentase sentiment
Hasil klasifikasi sentiment
Hasil evaluasi
Gambar 1 Tahapan analisis kebutuhan dan evaluasi pada model sentiment mining
Pengumpulan data
Observasi dan wawancara ke FEMA IPB (Fakultas Ekologi Manusia Institut
Pertanian Bogor) tentang konsep kegiatan community development secara umum
dan ke BPMKB kota Bogor tentang keterlibatan media sosial pada kegiatan
7
program pengembangan masyarakat, kemudian melakukan crawling (pengambilan
data tweet) menggunakan library Twitter API (Application Programming
Interface) dengan kata kunci PIK-Remaja Bogor dan GenRe Bogor.
Gambar 2 Registrasi Twitter Apps untuk authentification key
Sebelum crawling data tweet, analis melakukan membuat akun App baru
untuk registrasi melalui Twitter Management, seperti pada Gambar 2 sehingga
diperoleh key untuk authentifikasi pada Twitter sebagaimana diilustrasikan pada
Gambar 3.
Gambar 3 Tampilan authentifikasi untuk key penarikan data tweet
Praproses
Praproses dilakukan dengan tujuan memperbaiki data yang kurang terstruktur,
data yang tidak konsisten dan mengurangi noise (gangguan) pada proses klasifikasi
(Hemalatha et al. 2012). Praproses pada penelitian ini terdiri dari filter, case folding,
token dan parsing, hapus stopword, pelabelan kelas dan pembobotan kata.
a. Filter
Proses menyaring tweet dengan menghapus username atau @, link html, “RT”
(tanda retweet), angka, dan data redudan (Tiara et al. 2015).
b. Case Folding
Pada tahap ini, semua huruf diubah menjad huruf kecil (Putranti dan Winarko
2014).
8
c. Token dan parsing
Pengechekan tweet dari karakter pertama sampai karakter terakhir, jika bukan
tanda pemisah kata seperti titik (.), koma (,), spasi, atau tanda pemisah lain (-, +,
/, &, !, ?), maka digabungkan dengan karakter selanjutnya. Sedangkan parsing
tweet memisahkan tweet menjadi kumpulan kata (Putranti dan Winarko 2014).
d. Penghapusan Stopword
Menghapus kata sambung, kata depan atau kata penghubung menggunakan file
stopword tala.txt yang dimodifikas, misalnya penambahan huruf a, b, sampai
dengan z (Tiara et al. 2015).
e. Pembobotan term pada tweet
Perhitungan TF (Term Frequency) yaitu perhitungan frekuensi kemunculan
sebuah kata terhadap tweet untuk menunjukkan seberapa penting sebuah kata
terhadap sebuah tweet yang ada pada sebuah koleksi tweet (Wu et al. 2008;
Wahyudin dan Djatna 2016). Hasil tahapan d dan e dijadikan suatu vektor W.
Dimana W ={w1, w2, ... wi} dan i ϵ s berisi kandidat kata sentimen dan W ϵ V
dengan V merupakan corpus yang berisi fitur dan kata sentimen.
f. Pemeriksaan Kelas
Tahapan ini memberi label kelas dengan lexicon based pada setiap tweet
berdasarkan kelas positif dan negatif yang ada pada corpus lexicon dengan
Bahasa Indonesia. Selanjutnya dihitung nilai kedekatan kata dengan corpus
lexicon menggunakan Persamaan 1. Jika nilai atau score akhir adalah positif
maka diasumsikan fitur dalam tweet ber-sentiment positif. Jika nilai atau score
akhir adalah negatif maka diasumsikan fitur dalam tweet bersentimen negatif,
dan jika bukan keduanya maka tweet termasuk kelas netral (Tiara et al. 2015;
Ding et al. 2008).
score( f )
wi .so
wi :wi s wi V dis ( wi , f )
(1)
wi = kata sentimen
V = ruang sample terdiri dari tweet yang berisi fitur dan kata sentimen
s = seluruh kata sentimen
so= label atau kelas sentimen (+, -, 0)
dis (wi, f) = Jarak antara fitur (f) dan kata sentimen (wi)
Reduksi Fitur dengan PCA
Principal Component Analysis (PCA) adalah teknik reduksi dimensi dan
mengekstrak fitur untuk menemukan dimensi fitur yang lebih rendah. Istilah varians
terbesar ini disebut pengurangan dimensi, sebagai vektor yang berisi data asli dan ndimensi diturunkan ke vektor terkompresi (Subramanian dan Venkatachalam 2015)
sedangkan menurut Vinondhini dan Chandrasekaran (2014), PCA merupakan metode
pengidentifikasian pola data dan mereduksi atribut tanpa mengurangi nilai informasi
sebagaimana diilustrasikan pada Gambar 4. Konsep PCA menggunakan metode
statistika untuk mereduksi dimensi pada kumpulan fitur atau atribut. Penelitian ini
mengasumsikan T adalah matriks (n . m) sebagai vektor data tweet sejumlah n dan m
sebagai fitur dan p domain fitur.
9
Tahapan pertama PCA adalah standarisasi atau normalisasi data dengan
mengurangkan masing-masing data dengan mean. Selanjutnya menentukan matriks
kovarian menggunakan Persamaan 2 , dimana xi yaitu tweet ke i, yi adalah fitur
yang dimiliki tweet ke i, xmean adalah rataan tweet sedangkan ymean adalah rataan
fitur.
Algoritme
i
ii
iii
iv
v
PCA
Hitung matriks kovarian
Hitung eigen value dan eigen vektor
Mereduksi dimensi pada data
Hitung standar tranformasi matriks T
Hitung domain fitur (p) untuk di review
Gambar 4 Alur algoritme PCA (Vinondhini dan Chandrasekaran 2014)
Cov (x,y) merupakan jumlah dari perkalian zero mean x dan zero mean y yang
dibagi dengan jumlah seluruh tweet dikurangi 1. Zero mean adalah selisih antara
nilai dengan rataan dari kumpulan nilai berada.
( xi xmean )( yi ymean )
n 1
n 1
N
Cov( x, y)
(2)
Eigen value merupakan nilai karakteristik suatu matrik yang didapatkan dari
matrik kovarian dan digunakan dalam menghitung eigen vector untuk mendapatkan
nilai PC pada setiap fitur, nilai PC1 merupakan nilai PC tertinggi yang akan
digunakan pada proses selanjutnya yaitu klasifikasi sentimen. Proses reduksi fitur
melibatkan perhitungan varian, eigen value dan eigen vector untuk menghasilkan
nilai PC (principal component) yang digunakan dalam mereduksi fitur. Jika nilai
cummulative variance sudah ≤ 1 maka, fitur dikatakan sudah tidak varian akan
direduksi, sehingga mempermudah dan mempercepat proses klasifikasi dengan data
yang memiliki banyak fitur menggunakan RapidMiner dengan Rsciprt (Rapid-I
2015).
Klasifikasi Sentimen dengan SVM
Konsep Support Vector Machine (SVM) pada penelitian ini dengan
dimodifikasi dengan memasukkan fungsi kernel karena dataset non-linier. Menurut
Nugroho et al. 2003, pada data non linear, data x (misalkan data x= kumpulan
tweet) dipetakan ke ruang vektor yang berdimensi lebih tinggi ( x ) yaitu x x ,
dan hyperplane yang digunakan untuk memisahkan kelas dengan fungsi kernel.
Ilustrasi konsep dapat dilihat pada Gambar 3, dimana kedua kelas dapat dipisahkan
secara linear oleh sebuah hyperplane.
10
Gambar 5 Pemetaan data dengan fungsi hyperplane ke ruang vektor
Proses klasifikasi menggunakan konsep mencari fungsi hyperplane terbaik
yang akan menjadi support vector dan digunakan dalam klasifikasi terlihat pada
Gambar 5 dan Gambar 6 yang diadopsi dari Nugroho et al. (2003). Penggunaan
fungsi kernel RBF (Radial Basis Function) sebagaimana penelitian yang telah
dilakukan menghasil akurasi lebih tinggi pada klasifikasi sentimen dibandingkan
kernel Polynomial dan Sigmoid dan pengklasifikasian SVM dengan fungsi kernel
RBF memberikan akurasi yang paling baik dibandingkan dengan fungsi kernel
linier maupun polinomial (Muis dan Affandes 2015), maka penelitian ini
menggunakan fungsi kernel RBF sehingga model hyperplane menggunakan
Persamaan 3.
Nsv
f ( xd ) i yi exp( (|| xi xd ||) 2 ) b
i 1
(3)
dimana :
Nsv (Number of support vector) : jumlah support vector
i
: 1,2,3,..., Nsv
b
: bias
y
: Label/kelas dari data tweet
α
: Alpha pengali lagrange
exp(-γ(||xi-xd||)2) : Fungsi kernel RBF
Pembelajaran dengan SVM bertujuan untuk membentuk hyperplane dengan
mencari support vector pada data latih dengan output alpha (α), dimana α positif
disebut support vector. C1= kelas positif, C2 = kelas negatif, C3= kelas netral,
sedangkan H1 = Hyperplane 1, H2 = Hyperplane 2, H3 = Hyperplane 3.
(a)
(b)
Gambar 6 Ilustrasi proses klasifikasi 3 kelas dengan fungsi hyperplane
11
Berdasarkan Gambar 7(a) pembentukan hyperplane paling positif yaitu
kombinasi antara hyperplane yang memisahkan tiga kelas sentiment yaitu H12, H23,
H13 seperti ditunjukan pada Gambar 7(b). Hyperplane tersebut menghasilkan
support vector akan digunakan untuk mengkasifikasi kelas.
Penelitian ini melakukan estimasi parameter terbaik dengan mengunakan grid
search. Grid search bertujuan membuat grid parameter dari setiap pasangan (c, γ).
Parameter nilai (c, γ) ditentukan terlebih dahulu dengan rentang nilai 0.1 sampai
0.9, kemudian memasangkan setiap nilai paramter (c, γ) sehingga pasangan
parameter yang menghasilkan akurasi tertinggi digunakan dalam skenario
pengujian 4 model berdasarkan persentase data latih dan data uji.
Evaluasi Model Sentiment Mining
Evaluasi kinerja model klasifikasi dapat dilihat berdasarkan tiga parameter
yaitu akurasi, precision dan recall sebagaimana juga telah dilakukan pada
penelitian Tiara et al. pada tahun 2015 dengan Persamaan 2, dimana tweetklasifikasi
merupakan jumlah tweet yang diklasifikasikan secara benar dan total data tweet
yang diujikan tweetuji terhadap tweetklasifikasi.
Akurasi
p
tweetlatih
tweetuji
Tp
Tp Fp
(2)
(3)
Precision (p) pada kelas positif merupakan Tp yaitu jumlah tweet dengan
kelas sentimen positif diklasifikasi secara benar dibagi dengan Tp Fp yaitu
jumlah total tweet yang diklasifikasi sebagai kelas positif.
r
Tp
Tp Fn
(4)
Recall (r) adalah jumlah tweet diklasifikasi positif dibagi dengan Tp Fn
yaitu jumlah total tweet dalam data uji dengan kelas positif. Evaluasi kinerja model
direpresentasikan dalam confusion matrix sebagaimana ditunjukan pada Gambar 7
yang diadopsi dari Kumar dan Abirami (2015).
Gambar 7 Ilustrasi confusion matrix dengan tiga kelas sentimen
Skenario pembagian data tweet menjadi 4 model yaitu Model 1 dengan 60%
data latih 40% data uji, Model 2 dengan 70% data latih 30% data uji, Model 3
dengan 80% data latih 20% data uji, dan Model 4 dengan 90% data latih 10% data
uji, dimana akan dibandingkan nilai akurasi, precission dan recall dari setiap model
sehingga dapat diketahui pengaruh pembagian data latih dan data uji terhadap
tingkat akurasi.
12
4 HASIL DAN PEMBAHASAN
Tahapan ini menjelaskan hasil dan pembahasan penelitian yang meliputi
pengumpulan data dan praproses, analisis tweet hasil reduksi fitur, analisis proses
klasifikasi evaluasi model menggunakan interface RapidMiner Studio 7.1 dengan
Rscript. Perancangan untuk pengembangan model sentiment mining menggunakan
diagram-diagram UML.
Pengumpulan data
Tahapan pertama pada proses crawling yaitu koneksi API dengan cara
registrasi melalui Twitter Application Management untuk mendapatkan API Key,
API Secret, Access Token, Access Token Secret kemudian melakukan autentifikasi.
Selanjutnya melakukan pengambilan data berdasarkan kata kunci dengan parameter
yang diinginkan, misalnya pada penelitian ini kata kunci yang digunakan adalah
tentang kegiatan PIK-Remaja dan GenRe yang berada diwilayah Bogor dengan
jumlah 1000 tweet untuk masing-masing kegiatan pada tanggal 1 Januari 2015
sampai 1 Januari 2016.
Tahapan selanjut yaitu menyimpan file dengan format .csv (comma delimited).
Setelah dilakukan praproses terhadap dataset yang meliputi filter, case folding,
hapus stopword, token dan parsing, pembobotan dan pemeriksaan kelas diperoleh
1219 fitur dari 1000 tweet pada kegiatan PIK-Remaja dan 1302 fitur dari 1000 tweet
kegiatan GenRe.
Menurut Ding et al. (2008), pemeriksaan kelas memiliki empat langkah
dalam menentukan orientasi sentimen berdasarkan pendekatan lexicon yaitu :
1. Tandai kata yang mengandung sentimen : untuk setiap kalimat yang berisi satu
atau lebih kata sentimen, langkah ini menandai semua kata dan frasa dalam
sentimen kalimat. Setiap kata positif diberikan skor sentimen +1 dan setiap kata
negatif diberikan skor sentimen -1. Berdasarkan Gambar 4, fitur ke-5 (w5) dan
fitur ke-6 (w6) mengandung kata yang terdapat pada corpus positif maka diberi
skor [+1].
2. Terapkan sentimen shifter yaitu kata-kata dan frase yang dapat mengubah
orientasi sentimen dengan kata negasi seperti tidak, tidak pernah, tidak ada, ngga,
nggak dan tidak bosen adalah jenis yang paling umum. Maka tweet menjadi
“launching pik remaja nggak lama : ) semangat tapi seru” karena terdapat kata
negasi “nggak” maka bernilai [-1].
3. Menangani klausa tapi- : penggunaan klausa tapi juga dapat merubah orientasi
sentimen. Sebuah kalimat mengandung klausa tapi- dan setelahnya mengandung
kata sentimen akan bertentangan dengan kata sebelum klausa tapi-. Sehingga
tweet yang dicontohkan menjadi sebagai berikut “launching pik remaja nggak
lama [+1] , tapi seru [+1].
4. Tahapan terakhir menghitung skor sentimen dengan Persamaan 1, sehingga
diperoleh bobot sentimen adalah [+4] yang berarti tweet memiliki kelas sentimen
positif.
13
fitur (wi)
tandai
kata
sentimen
kata
negasi
klausa
tapi-
w1
w2
w3
w4
w5
w6
w7
w8
w9
launching
pik
remaja
nggak
lama
:)
semangat
tapi
seru
-1
-1
+1
+1
+1
+1
+1
+1
+1
+1
+1
+1
+1
Gambar 8 Ilustrasi tahapan pemeriksaan kelas sentimen
Berdasarkan Gambar 4, fitur w1, w2, w3 tidak diberi skor atau diabaikan
karena tidak mengandung kata yang ada di dalam corpus sentimen. Sehingga dapat
disimpulkan tweet “launching pik remaja nggak lama : ) semangat tapi seru”
merupakan kelas positif dengan bobot sentimen [+4].
Reduksi fitur
Proses reduksi fitur melibatkan perhitungan varian, eigen value dan eigen
vector untuk menghasilkan nilai PC (principal component) yang digunakan dalam
mereduksi fitur sehingga mempermudah proses klasifikasi, yang direpresentasikan
pada Gambar 9 menggunakan bahasa R yang disediakan RapidMiner Studio yaitu
Rscript (Rapid-I 2015).
Gambar 9 Flow knowledge proses reduksi fitur pada RapidMiner
Menurut Vinodhini dan Chandrasekaran (2014), nilai PC yang tinggi
bergantung pada standar deviasi dan proporsi varian dan fitur dikatakan tidak varian
jika nilai eigen value atau cumulative varian ≤ 1 sebagaimana direpresentasikan
pada Gambar 10 (a) dan 10 (b). Gambar 10 (a), merepresentasikan nilai PC terhadap
cummulative variance untuk kegiatan PIK-Remaja yang menunjukkan bahwa pada
fitur 1200 dan seterusnya nilai cummulative variance sudah sama yaitu 1.
14
(a)
(b)
Gambar 10 Nilai PC terhadap proporsi varian: (a) PIK-Remaja (b) GenRe
Nilai PC tergantung pada standar deviasi dan proporsi pada varian, semakin
besar nilainya maka nilai PC suatu fitur makin besar, namun tidak bergantung pada
nilai cummulative variance dapat dilihat pada Tabel 1.
15
Tabel 1 Pengurutan nilai principal component dari yang tertinggi
Component
(PC)
Standar
Deviasi (SD)
Proporsi
Varian (PV)
Kumulatif
Varian (CV)
PC1
PC2
PC3
PC4
PC5
PC6
PC7
.
.
.
PCn
0.561
0.452
0.393
0.331
0.268
0.276
0.274
.
.
.
SDn
0.075
0.049
0.037
0.024
0.019
0.018
0.018
.
.
.
PVn
0.075
0.123
0.160
0.186
0.210
0.230
0.248
.
.
.
CVn
Pada Tabel 1, ditampilkan sebagian dataset dengan nilai PC tertinggi
berbanding lurus nilai standar deviasi dan proporsi varian sedangkan Gambar 11
menunjukan nilai PC1 sampai PCn untuk setiap fitur kemudian diurutkan fitur
dengan nilai PC1 tertinggi. Penggunaan fitur yang direduksi dengan PCA untuk
proses klasifikasi mempertimbangkan kriteria untuk mereduksi fitur yaitu nilai PC
tinggi dan nilai cummulative variance ≤ 1. Jika fitur memenuhi kriteria maka akan
digunakan untuk proses klasifikasi sedangkan fitur yang tidak memenuhi kriteria
akan direduksi atau tidak digunakan dalam proses klasifikasi.
Gambar 11 Nilai PC null pada fitur Kegiatn PIK-Remaja
Berdasarkan Tabel 1 dan Gambar 12, ditemukan fitur dengan nilai PC tidak
ada atau null yang mempertegas bahwa fitur-fitur tersebut akan direduksi meskipun
memiliki nilai cummulative variance ≤ 1. Hal tersebut dikarenakan proses reduksi
PCA menggunakan nilai PC untuk mereduksi fitur.
16
Gambar 12 Nilai PC null pada fitur kegiatan GenRe
Berdasarkan hasil reduksi fitur pada masing-masing dataset kegiatan
diperoleh 1156 fitur dari 1219 fitur pada kegiatan PIK-Remaja dan 951 fitur dari
1302 fitur pada kegiatan GenRe yang akan digunakan pada proses klasifikasi.
Klasifikasi Sentiment
Penerapan algoritme SVM dengan penambahan kelas netral diharapkan
mampu menghasilkan model yang baik dengan tingkat akurasi yang tinggi, ilustrasi
proses klasifikasi direpresentasikan pada Gambar 13. Parameter SVM yang
digunakan merupakan kombinasi nilai c dan γ dari hasil estimasi.
Gambar 13 Flow knowledge proses proses klasifikasi sentiment
Berdasarkan Tabel 2 merupakan jumlah persentase keseluruhan kelas
sentiment, yang menunjukan nilai yang tertinggi pada kelas sentiment adalah
sentiment netral diikuti sentiment positif, jika dibandingkan dengan sentiment
negatif, namun nilai presentase sentiment positif lebih tinggi untuk kegiatan GenRe
yaitu 39.20% dari keseluruhan sentiment (positif, negatif dan netral) dan kegiatan
17
PIK-Remaja sebesar 37.90%, hal tersebut menjawab tujuan penelitian yang kedua
yaitu kegiatan dengan tingkat persentase positif tertinggi adalah GenRe yang berarti
memiliki respon yang baik dalam penyebaran informasi tentang sosialisasi,
penyuluhan serta implementasi kegiatan. Jumlah persentase diperoleh dari
pembobotan sentiment yaitu nilai +1 untuk positif, nilai -1 untuk negatif dan 0
untuk netral.
Tabel 2 Presentase jumlah sentiment kegiatan GenRe dan PIK-Remaja
PIK Remaja
Jumlah
Persentase (%)
379
37.90
196
19.60
425
42.50
1000
100
Kelas
sentiment
Positif
Negatif
Netral
Total
GenRe
Jumlah tweet Persentase (%)
392
39.20
200
20.00
408
40.80
1000
100
Penggunaan estimasi parameter dan pembagian data dalam pembangunan
model bertujuan untuk mengetahui bagaimana pengaruhnya terhadap tingkat
akurasi pada proses klasifikasi sentiment.
400
Jumlah sentiment
350
300
245
226
250
166
200
163
129
150
311
289
269
123
71
100
179
157
142
371
350
332
119
81
58
76
43
42
50
21
37
0
60% data
latih
40% data uji
70% data
latih
Model 1
30% data uji
80% data
latih
Model 2
Positif
20% data uji
90% data
latih
Model 3
Negatif
10% data uji
Model 4
Netral
(a)
1000
900
900
800
Jumlah sentiment
800
700
700
600
600
500
400
400
300
200
300
295
251
167
127
140
123
69
100
377
338
200 177
155
56
41
100
80
19 41
0
222
164
265
121
307
79
346
40
60% data
latih
40% ata uji
70% data
latih
30% data uji
80% data
latih
20% data uji
90% data
latih
10% data uji
positif
negatif
netral
(b)
Gambar 14 Skenario model sentiment mining: (a) PIK-Remaja (b) GenRe
18
Pada Gambar 14 direpresentasikan jumlah setiap kelas sentiment berdasarkan
skenario model. Gambar 14 (a) menunjukan bahwa jumlah terbanyak sentiment
positif kegiatan PIK-Remaja sebanyak 350 tweet sedangkan pada Gambar 14 (b)
jumlah terbanyak sentiment positif kegiatan GenRe sebanyak 346 tweet yang
keduanya berada dalam data latih pada Model 4.
Pengujian Parameter (c,γ) pada Fungsi Kernel
Pengujian parameter c dan γ dilakukan dengan menggunakan data yang terdiri
dari 50% data latih dan 50% data uji dan Persamaan 2. Berdasarkan Tabel 3
menunjukkan beberapa pasangan nilai parameter yang memberikan akurasi paling
baik pada klasifikasi kelas sentiment sebesar 97.44% yaitu (c=0.8, γ=0.8), (c=0.8,
γ=0.9), (c=0.9, γ=0.8) dan (c=0.9, γ=0.9). Pasangan nilai parameter tersebut akan
digunakan pada tahap selanjutnya untuk menguji tingkat akurasi klasifikasi SVM
pada model.
Tabel 3 Grid search presentase tingkat akurasi model sentiment mining
c
y
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
0,1
43,96 38,83 38,83 38,83 38,83 38,83 38,83 38,83 38,83
0,2
73,63 66,67 54,41 50,55 38,83 38,83 38,83 38,83 38,83
0,3
78,39 78,75 78,39 79,12 75,82
0,4
80,95 82,05 82,78 82,78 80,59 84,62 83,88 83,88 83,52
0,5
82,42 83,88 86,45 89,38 88,28 87,55 84,25 83,35 84,98
0,6
82,78 84,62 86,45 88,28 91,21 91,21 92,67 96,34 96,34
0,7
83,15 84,62 86,45 87,91 91,58 91,58 93,41
0,8
83,52 86,81 87,55 88,28 90,11 91,58 93,41 97,44 97,44
0,9
83,52 86,81 87,55 88,28 89,01 91,94 93,77 97,44 97,44
65,2
58,97 58,61 56,04
96,7
96,7
Tabel 3 menunjukan bahwa pasangan parameter c dan γ yang menghasilkan
akurasi tertinggi adalah 0.8 dan 0.8, 0.8 dan 0.9, 0.9 dan 0.8, 0.9 dan 0.9. Karena
parameter tersebut memiliki persentase akurasi yang sama, maka pasangan
parameter c dan γ yang digunakan pada pengujian model adalah c= 0.8 dan γ =0.8.
Evaluasi Model
Penggunaan parameter dari hasil estimasi parameter pada pengujian model
sentiment mining, bertujuan untuk meningkatkan nilai akurasi, precision dan recall
antar model sebagaimana juga telah dilakukan pada penelitian Tiara et al. (2015)
dengan Persamaan 2, Persamaan 3 dan Persamaan 4.
Penggunaan akurasi dalam evaluasi model diharapkan dapat mengetahui
ketelitian dari pengujian sata pada klasifikasi sentiment sebagaimana ditunjukkan
pada Gambar 15, bahwa pada row ke 7 tweet memiliki kelas negatif, namun pada
saat diklasifikasikan menjadi kelas positif.
19
Gambar 15 Contoh ketepatan kelas pada klasifikasi sentiment
Gambar 16 merupakan salah satu confusion matrix model yang dihasilkan
dari penelitian dan merupakan model dengan akurasi tertinggi.
Gambar 16 Confusion matrix Model 1 pada kegiatan GenRe
Berdasarkan Tabel 4, presentase recall pada kegiatan PIK-Remaja tertinggi
dimiliki Model 3 pada kelas sentimen negatif sebesar 84.26% dan terendah pada
Model 1 sebesar 65.09% sedangkan precision tertinggi diperoleh dari Model 3
sebesar 80% dan terendah dimiliki Model 1 pada kelas sentimen positif sebesar
66.20%.
Tabel 4 Persentase precision dan recall pada kegiatan PIK-Remaja
Kelas
Sentiment
Model 1
Model 2
Model 3
Model 4
precision
recall
precision
recall
precision
recall
precision
recall
Positif
74.19
65.09
70.37
75.53
75.53
75.53
75.53
73,96
Negatif
66.20
74.60
77.78
84.26
79.82
84.26
78.90
79.63
Netral
71.56
75.00
79.41
73.24
80,00
73.24
71.43
72.46
Rataan
70.65
71.56
75.85
77.68
78.45
77.68
75.29
75.35
20
Tabel 5 menunjukan presentase precision dan recall pada kegiatan GenRe,
precision tertinggi dimiliki Model 3 pada kelas sentimen netral sebesar 91.80%.
Tabel 5 Persentase precision dan recall pada kegiatan GenRe
Kelas
Sentiment
Positif
Negatif
Netral
Rataan
Model 1
Model 2
Model 3
Model 4
precision
recall
precision
recall
precision
recall
precision
recall
86,73
87,50
90,99
88,41
87,63
87,50
90,18
88,44
87,25
85,94
83,18
85,46
82,41
87,30
87,25
85,65
82,65
85,09
91,80
86,51
86,17
89,81
78,87
84,95
82,29
83,33
84,13
83,25
82,29
87,96
76,81
82,35
Berdasarkan Tabel 4 dan Tabel 5, banyaknya jumlah kelas sentimen tidak
berbanding lurus dengan tingkat precision ataupun recall karena seperti
digambarkan pada G
PENGEMBANGAN MASYARAKAT
SITI YULIYANTI
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa tesis berjudul “Sentiment Mining pada
Kegiatan Program Pengembangan Masyarakat berbasis Media Sosial” adalah benar
karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam
bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal
atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain
telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, September 2016
Siti Yuliyanti
NIM G651140221
RINGKASAN
SITI YULIYANTI. Sentiment Mining pada Kegiatan Program
Pengembangan Masyarakat berbasis Media Sosial. Dibimbing oleh TAUFIK
DJATNA dan HERU SUKOCO.
Sentiment mining merupakan bagian dari text mining yang melakukan ekstraksi
dan mengolah data tekstual secara otomatis untuk mendapatkan informasi dalam suatu
kalimat opini yang dianalisis untuk melihat kecenderungan opini terhadap sebuah
masalah atau objek oleh seseorang, apakah cenderung beropini positif, negatif atau
netral. Pengembangan masyarakat merupakan gerakan yang dirancang untuk
meningkatkan taraf hidup keseluruhan masyarakat melalui partisipasi aktif dan
inisiatif dari masyarakat. Permasalahan yang sering timbul yaitu pada proses
implementasi dan evaluasi program pengembangan masyarakat dan penelitian yang
banyak dilakukan dengan menggunakan metode kuantitatif dan kualitatif
berdasarkan kuisioner dan belum memanfaatkan media sosial.
Twitter adalah media sosial yang saat ini aktif digunakan masyarakat Indonesia
dalam menyampaikan opini, keluhan, saran bahkan kritik tentang permasalahan atau
kegiatan yang menjadi trending topic, user yang paling banyak diantaranya adalah
remaja atau anak usia sekolah berdasarkan survei Onavo Insight dan APJII. Objek
penelitian ini adalah kegiatan pada program pengembangan masyarakat yang
berhubungan dengan remaja yaitu kegiatan PIK-Remaja (Pusat Informasi dan
Konseling Remaja) dan GenRe (Generasi Berencana) yang berada di wilayah Bogor.
Berdasarkan survei kegiatan tersebut sudah didukung Twitter dalam sosialisasi samapi
implementasi kegiatan sehingga menarik untuk diteliti.
Data tweet hasil crawling dari Twitter tidak terstruktur dan belum diketahui
kelas sentiment. Sehingga perlu dilakukan praproses meliputi filter, case folding, token
dan parsing, pemeriksaan kelas sentiment dengan lexicon based serta pembobotan
term/kata dengan term frequency. Tahapan selanjutnya, mereduksi fitur dengan PCA
dengan tujuan mencari nilai PC (principal component) tertinggi untuk memudahkan
dan meningkatkan akurasi pada proses klasifikasi sentiment dengan tiga kelas yaitu
kelas positif, negatif dan netral menggunakan SVM Sebelum klasifikasi, parameter c
dan γ yang akan digunakan pada evaluasi model di estimasi untuk menghasilkan
akurasi tertinggi.
Penelitian ini menganalisis kebutuhan model sentiment mining, mengevaluasi
model dan merancangan pengembangan model menggunakan diagram-diagram UML.
Hasil penelitian menunjukan kegiatan yang penyebaran informasi terbaik adalah
kegiatan GenRe dibandingkan kegiatan PIK-Remaja dimana persentase sentiment
positif lebih tinggi dari persentase sentiment negatif. Estimasi parameter c dan γ yang
menghasilkan akurasi tertinggi adalah kombinasi 0.8 dan 0.8, 0.8 dan 0.9, 0.9 dan 0.8,
serta 0.9 dan 0.9, dimana kombinasi parameter tersebut digunakan dalam pengujian
model. Akurasi klasifikasi sentiment menunjukkan hasil yang cukup baik jika
dibandingkan dengan penelitian sebelumnya yaitu sebesar 88.64% pada kegiatan
GenRe dan sebesar 82.78% pada kegiatan PIK-Remaja, tingkat akurasi tidak
dipengaruhi pembagian data latih dan data uji tapi dipengaruhi praproses data dan
estimasi parameter (c dan γ).
Kata kunci: GenRe, kegiatan, masyarakat, PIK-Remaja, sentiment mining, tweet.
SUMMARY
SITI YULIYANTI. Sentiment Mining of Activities Community
Development Program based on Social Media. Supervised by TAUFIK DJATNA
and HERU SUKOCO.
Sentiment mining is part of a text mining to extracting, processing textual
data automatically to obtain information in a sentence opinions. The analyzed to
representation the trend of opinion on an issue or an object by a person, do tend to
opine positive, negative or neutral. Community development is a move designed to
improve the overall living standard of the people through active participation and
initiative of the people. Problems often arise is in the process of implementation
and evaluation of community development programs and research is mostly done
by using quantitative and qualitative methods based on the questionnaire and not
take advantage of social media.
Twitter is a social media that is currently actively used the Indonesian
community in delivering opinions, complaints, suggestions and even criticism of
the issue or activities that a trending topic, the user most of them are teenagers or
school-aged children based on surveys Onavo Insight and APJII. The object of this
study is the activity on community development programs related to juvenile
namely the activities of PIK-Remaja and GenRe which is in the area of Bogor.
Based on a survey of these activities have been supported by Twitter in the
socialization process till the implementation of activities so interesting to study.
Data tweet crawling results from Twitter unstructured and unknown class
sentiment. So that needs to be done preprocessing includes filters, case folding,
tokens and parsing, inspection class sentiment with lexicon based and weighting
term / word with the term frequency. The next stage, reducing features with a PCA
with the aim of looking for value PC (principal component), the highest to facilitate
and improve the accuracy of the classification process sentiment with three classes
of classes of positive, negative and neutral using SVM Before classification, the
parameters c and γ to be used in the evaluation models in the estimation to produce
the highest accuracy.
This study analyzes the representation of sentiment mining models, evaluate
the model and design to development model using UML diagrams. The results
showed the best information dissemination activities are the activities of the genre
than PIK-Remaja activities in which the percentage of positive sentiment higher
than the percentage of negative sentiment. Estimation parameters c and γ that
produce the highest accuracy, where the combination of these parameters are used
in testing the model. Accuracy showed good results when compared with previous
studies in the amount of 88.64% on the activities of the GenRe and of 82.78% on
the activities of PIK-Remaja, Its is not affected distribution of training data and test
data, but influenced by preprocessing the data and estimation parameters (c and γ).
Keywords: activities, community, GenRe, PIK-Remaja, sentiment, tweet
© Hak Cipta Milik IPB, Tahun 2016
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa
mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk
kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan,
penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak
merugikan kepentingan IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya
tulis ini dalam bentuk apa pun tanpa izin IPB
SENTIMENT MINING PADA KEGIATAN PROGRAM
PENGEMBANGAN MASYARAKAT
SITI YULIYANTI
Tesis sebagai salah satu syarat untuk memperoleh gelar
Magister Komputer
pada
Program Studi Ilmu Komputer
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016
Penguji Luar Komisi pada Ujian Tesis : Dr Imas S. Sitanggang, SSi MKom
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga penelitian ini dapat diselesaikan. Penelitian ini
berjudul “Sentiment Mining pada Kegiatan Program Pengembangan Masyarakat
berbasis Media Sosial ”
Terima kasih penulis ucapkan kepada Bapak DrEng Ir Taufik Djatna, MSi
dan Bapak DrEng Heru Sukoco, SSi MT selaku pembimbing, Dr Imas S.
Sitanggang, SSi Mkom selaku penguji. Ibu Yosefa Reno, Ibu Ana dan staff
BPMKB kota Bogor serta Ibu Ninuk dari FEMA IPB (Fakultas Ekologi Manusia
Institut Pertanian Bogor) telah banyak memberi informasi tentang objek penelitian.
Tak lupa penulis juga menyampaikan penghargaan sebesar-besarkan kepada Ibu
Saryati yang tak pernah lelah mendo’akan, Bapak Amid (Alm) yang semangatnya
tetap mengalir meski tak sempat mengenggam karya ini, Eteh dan Lia atas segala
doa dan kasih sayangnya. Di samping itu, penulis sampaikan terima kasih kepada
sahabat-sahabatku (Alm) Ela Kurniati, Teh Heti Mulyani, Puspa Citra, Novi, rekan
Ilkom 2014 dan teman-teman yang telah membantu proses penelitian. Terima kasih
juga penulis sampaikan kepada Direktorat Jenderal Pendidikan Tinggi (Ditjen
DIKTI), STT Indonesia Tanjungpinang dan STMIK Bandung yang memberikan
beasiswa dalam penyelesaian karya ilmiah ini. Semoga karya ilmiah ini bermanfaat.
Bogor, September 2016
Siti Yuliyanti
DAFTAR ISI
DAFTAR TABEL
vii
DAFTAR GAMBAR
vii
DAFTAR LAMPIRAN
vii
1 PENDAHULUAN
Latar Belakang
Perumusan Masalah
Tujuan Penelitian
Manfaat Penelitian
Ruang Lingkup Penelitian
2 TINJAUAN PUSTAKA
Mining Media Sosial
Kegiatan Program Pengembangan Masyarakat
RapidMiner dengan Rscript
Perancangan untuk Pengembangan Model dengan UML
3 METODE
Pengumpulan data
Praproses
Reduksi Fitur dengan PCA
Klasifikasi Sentimen dengan SVM
Evaluasi Model Sentiment Mining
4 HASIL DAN PEMBAHASAN
Pengumpulan data
Reduksi fitur
Klasifikasi Sentiment
Pengujian Parameter (c,γ) pada Fungsi Kernel
Evaluasi Model
Pengembangan Model Sentiment Mining
Use Case Diagram
Activity Diagram
Sequence diagram
Component diagram
Class diagram
StateChart Diagram
5 SIMPULAN DAN SARAN
Simpulan
Saran
DAFTAR PUSTAKA
LAMPIRAN
RIWAYAT HIDUP
1
1
3
3
3
3
4
4
4
5
5
6
6
7
8
9
11
12
12
13
16
18
18
21
21
21
21
22
22
22
25
25
25
26
28
37
DAFTAR TABEL
1
2
3
4
5
6
7
Pengurutan nilai principal component dari yang tertinggi
Presentase jumlah sentiment kegiatan GenRe dan PIK-Remaja
Grid search presentase tingkat akurasi model sentiment mining
Persentase precision dan recall pada kegiatan PIK-Remaja
Persentase precision dan recall pada kegiatan GenRe
Tingkat akurasi dengan parameter c = 0.8 dan γ = 0.8
Tingkat akurasi dengan parameter c= 0.1 dan γ = 0.6
15
17
18
19
20
20
20
DAFTAR GAMBAR
1 Tahapan analisis kebutuhan dan evaluasi pada model sentiment mining
2 Registrasi Twitter Apps untuk authentification key
3 Tampilan authentifikasi untuk key penarikan data tweet
4 Alur algoritme PCA (Vinondhini dan Chandrasekaran 2014)
5 Pemetaan data dengan fungsi hyperplane ke ruang vektor
6 Ilustrasi proses klasifikasi 3 kelas dengan fungsi hyperplane
7 Ilustrasi confusion matrix dengan tiga kelas sentimen
8 Ilustrasi tahapan pemeriksaan kelas sentimen
9 Flow knowledge proses reduksi fitur pada RapidMiner
10 Nilai PC terhadap proporsi varian: (a) PIK-Remaja (b) GenRe
11 Nilai PC null pada fitur Kegiatn PIK-Remaja
12 Nilai PC null pada fitur kegiatan GenRe
13 Flow knowledge proses proses klasifikasi sentiment
14 Skenario model sentiment mining: (a) PIK-Remaja (b) GenRe
15 Contoh ketepatan kelas pada klasifikasi sentiment
16 Confusion matrix Model 1 pada kegiatan GenRe
17 Component diagram
18 Statechart diagram model sentiment mining
19 Use case diagram
20 Activity diagram crawling data tweet
21 Activity diagram proses reduksi fitur, klasifikasi dan evaluasi model
22 Sequence diagram praproses data tweet
6
7
7
9
10
10
11
13
13
14
15
16
16
17
19
19
22
23
34
35
35
36
DAFTAR LAMPIRAN
1
2
3
4
5
6
Sebagian file stopword yang digunakan untuk praproses data ......................... 29
Tampilan hasil running evaluasi model pada kegiatan PIK-Remaja ................ 30
Tampilan hasil running evaluasi model pada kegiatan GenRe......................... 32
Use case diagram model sentiment mining ...................................................... 34
Activity Diagram model sentiment mining ....................................................... 35
Sequence dan class diagram model sentiment mining ..................................... 36
1
PENDAHULUAN
Latar Belakang
Sentiment mining merupakan penggalian sentiment dari pengolahan data
sehingga menghasilkan sebuah sentiment, dimana proses yang dilakukan sama
dengan sentiment analysis dan opinion mining. Opinion mining dan sentiment
analysis merupakan bagian dari text mining yang melakukan ekstraksi dan
mengolah data tekstual secara otomatis untuk mendapatkan informasi sentiment
dalam suatu kalimat opini yang dianalisis untuk melihat kecenderungan opini
bersifat negatif atau positif (Pang dan Lee 2008).
Pengembangan masyarakat (community development) adalah gerakan yang
dirancang guna meningkatkan taraf hidup keseluruhan masyarakat melalui
partisipasi aktif dan inisiatif dari masyarakat serta memperbesar akses masyarakat
guna mencapai kondisi sosial, ekonomi, dan kualitas kehidupan yang lebih baik
(Rahman 2009; Adi 2003). Permasalahan yang sering timbul pada proses
implementasi dan evaluasi program pengembangan masyarakat diantaranya
relationship, structure, power, shared for meaning, communication for change,
motivation to decision making dan integration of disparate concerns (Phillips dan
Pittman 2009).
Media sosial menjembatani celah antara dunia secara fisik dengan layanan
online jejaring sosial. Terdapat beberapa hal menarik yang bisa dipelajari pada
data media sosial diantaranya perilaku manusia, membantu periklanan, dan
memfasilitasi gerakan masa (Gundecha dan Huan 2012). Keterkaitan media sosial
dengan pengembangan masyarakat yaitu adanya peran serta atau partisipasi aktif
dan inisiatif masyarakat dengan salah satu manfaat media sosial yaitu
memfasilitasi gerakan masa.
Penelitian ini menggunakan media sosial yaitu Twitter karena berdasarkan
demografi pengguna internet di Indonesia sekitar 49% adalah usia di bawah 25
tahun (APJII dan PUSKAKOM UI 2015) dan Indonesia merupakan negara
pengguna aktif Twitter terbanyak sekitar 64% (Onavo Insight 2013). Beberapa
kegiatan program pengembangan masyarakat di Indonesia sudah menggunakan
partisipasi aktif dan inisiatif dari masyarakat yang melibatkan media sosial yaitu
Twitter, sebagaimana Twitter sudah digunakan pada kegiatan program
pengembangan masyarakat di wilayah Bogor yaitu pada kegiatan PIK-Remaja
(Pusat Informasi dan Konseling Remaja) dan GenRe (Generasi Berencana), dan
menjadi objek penelitian.
Pemanfaatan media sosial untuk mengetahui respon masyarakat kegiatan
pada program pengembangan masyarakat belum pernah dilakukan. Penelitian ini
diperlukan karena sentiment mining masih didominasi dengan studi kasus review
produk. Selain itu mengetahui respon masyarakat terhadap suatu kegiatan
memiliki struktur tweet yang berbeda dengan produk atau sebuah layanan
(Hemalatha et al. 2012). Munculnya kegiatan yang baru menciptakan sarana untuk
mewujudkan keberhasilan kegiatan yang baru juga. Penelitian ini bertujuan untuk
menemukan kelas sentiment yang tepat dari setiap tweet yang disebar pada Twitter.
Sebuah tweet bisa terdapat satu atau lebih kata yang menggambarkan suatu
sentiment yang berbeda-beda dalam proses klasifikasinya.
2
Penelitian Naradhipa dan Purwarianti (2011), melakukan klasifikasi tweet
berbahasa Indonesia dengan SVM dan seleksi fitur menggunakan kamus kata
(dictionary) sedangkan metode kombinasi Lexicon-Based dan SVM untuk
klasifikasi sentiment netral, positif, dan negatif terhadap program televisi dengan
skenario pengujian menggunakan pembagian data latih dan data uji untuk
mengetahui kinerja model klasifikasi (Tiara et al. 2015). Klasifikasi sentiment
positif dan negatif terhadap isu publik, menggunakan Algoritma Maximum Entropy
dalam membangun model klasifikasi dengan Support Vector Machine dengan
pembobotan TF-IDF pada fitur unigram, pelabelan kelas secara manual dengan
POS tagger (Putranti dan Winarko 2014). Pengklasifikasian opini dengan
membandingkan tipe fitur n-gram (unigram, bigram dan trigram) dan Reduksi fitur
pada dataset tentang aplikasi e-commerce dengan PCA dengan metode hybrid SVM
pada pengklasifikasian opini menunjukan hasil akurasi yang paling tinggi jika
dibandingkan Naive Bayes dengan akurasi 77.6% dan akurasi terkecil dimiliki oleh
klasifikasi tanpa reduksi fitur dengan nilai akurasi sebesar 68.8% (Vinodhini dan
Chandrasekaran 2014). Pengklasifikasian SVM menggunakan polaritas 3 kategori
yang diidentifikasi dengan menambahkan kategori netral membuktikan bahwa dapat
meningkatkan akurasi keseluruhan klasifikasi (Koppel dan Jonathan 2006). Menurut
Jotheeswaran et al. (2012) proses reduksi fitur sebelum pengklasifikasian opini
dapat meningkatkan akurasi sekitar 5%.
Sentiment mining dari Twitter untuk mengetahui respon masyarakat terhadap
kegiatan pada program pengembangan masyarakat melalui tweet dari masyarakat
belum pernah dilakukan, menjadi celah dalam penelitian ini berkaitan dengan
permasalahan komunikasi untuk perubahan atau aksi (communication for change).
Penelitian yang telah banyak dilakukan adalah mengukur respon masyarakat
terhadap kegiatan melalui kuisioner dengan menghitung jumlah kelompok dalam
setiap kegiatan. Hal tersebut menjadi menarik untuk diteliti, banyaknya jumlah
kegiatan tidak mewakili respon positif dikarenakan masih adanya pembentukan
kelompok kegiatan yang bersifat formalitas. Pemanfaataan Twitter sebagai sarana
penyampaian informasi sudah banyak diimplementasikan, namun penelitian yang
telah dilakukan belum memanfaatkan tweet yang berlimpah yang sangat mudah
didapatkan ini.
Penelitian ini mengadopsi beberapa metode dari penelitian terdahulu yaitu
menggunakan lexicond based untuk pelabelan kelas sentimen dan pembagian data
untuk mengetahui tren model (Naradhipa dan Purwarianti 2011), menentukan term
atau kata penting untuk membangun corpus positif dan negatif menggunakan TFIDF untuk menjumlahkan vektor bobot pada jaringan semantik kata (Wahyudi dan
Djatna 2016). Penggunaan reduksi fitur setelah praproses data untuk memudahkan
proses klasifikasi dengan PCA (Vinodhini dan Chandrasekaran 2014) serta
menambahkan kelas netral pada klasifikasi sentimen dengan SVM (Koppel dan
Jonathan 2006 untuk mempermudah proses klasifikasi sentimen dan meningkatkan
akurasi model.
Pembangunan model klasifikasi sentimen yang berasal dari tweet masyarakat
melalui Twitter untuk mengetahui seberapa baik respon masyarakat terhadap
kegiatan program pengembangan masyarakat yang ada di wilayah Bogor dan
mengevaluasi model tersebut serta melakukan perancangan untuk pengembangan
model menjadi sebuah aplikasi siap pakai. Evaluasi kinerja model klasifikasi
3
dilakukan untuk mengukur model dari 3 parameter yaitu akurasi, precision, dan
recall dengan estimasi parameter terbaik dalam algoritme klasifikasi.
Perumusan Masalah
Berdasarkan penjelasan latarbelakang, perumusan masalah penelitian ini
adalah:
1. Bagaimana menganalisis kebutuhan dalam membangun model sentiment
mining untuk mengetahui respon masyarakat terhadap kegiatan program
pengembangan masyarakat dan mengevaluasi model sentiment mining?
2. Bagaimana melakukan perancangan untuk pengembangan model
sentiment mining?
Tujuan Penelitian
Penelitian ini bertujuan untuk mengetahui respon masyarakat terhadap
kegiatan program pengembangan masyarakat berdasarkan tweet masyarakat dan
mengevaluasi kinerja model serta merancang kebutuhan untuk pengembangan
model sentiment mining.
Manfaat Penelitian
Manfaat dari penelitian ini adalah memperoleh model sentiment mining yang
dapat melakukan praproses terhadap data tweet yang tidak terstruktur sehingga
mampu mempresentasikan sebuah sentimen untuk mengetahui respon masyarakat
terhadap kegiatan pada program pengembangan masyarakat, evaluasi model untuk
mengetahui kinerja model serta merancang kebutuhan model untuk pengembangan
model menjadi aplikasi.
Ruang Lingkup Penelitian
Ruang lingkup penelitian ini diantaranya:
1. Objek penelitian diambil dari dua kegiatan program pengembangan
masyarakat yaitu kegiatan PIK-Remaja dan kegiatan GenRe di wilayah Bogor
menggunakan media sosial yaitu Twitter.
2. Kelas sentimen pada Model sentiment mining meliputi positif, negatif dan
netral.
3. Setiap tweet yang digunakan diasumsikan memiliki satu kategori kelas.
4
2 TINJAUAN PUSTAKA
Mining Media Sosial
Media sosial sebagai sebuah kelompok aplikasi berbasis internet yang
dibangun atas dasar ideologi dan teknologi Web 2.0, dan memungkinkan
penciptaan dan pertukaran user-generated content (Kaplan dan Haenlein 2010).
Sedangkan menurut Brogan pada tahun 2010 dalam bukunya yang berjudul “Social
Media 101 Tactic and Tips to Develop Your Business Online”, sosial media adalah
satu set baru komunikasi dan alat kolaborasi yang memungkinkan banyak jenis
interaksi yang sebelumnya tidak tersedia untuk orang biasa. Terdapat beberapa hal
menarik yang bisa dipelajari pada data sosial media (Gundecha dan Huan 2012):
1. Banyak pertanyaan menarik yang berhubungan dengan perilaku manusia
yang dapat dipelajari pada data media sosial.
2. Membantu pengiklan untuk menemukan orang-orang yang bisa dipengaruhi
untuk memaksimalkan jangkauan produk mereka dalam anggaran periklanan
3. Membantu sosiolog untuk mengungkap perilaku manusia
4. Memfasilitasi gerakan massa
Twitter adalah salah satu media sosial yang tepat untuk berbagi ide, bank
gagasan, tempat untuk mengumpulkan informasi, untuk menginspirasi pikiran, atau
untuk melihat apa yang teman anda lakukan. Twitter merupakan mikroblog paling
populer di Indonesia dan memungkinkan pengguna untuk mengirim dan membaca
pesan yang disebut kicauan (tweet), berupa teks maksimal 140 karakter yang
ditampilkan pada halaman profil pengguna. Penelitian ini menggunakan media
sosial yaitu Twitter karena berdasarkan penelitian Gundecha dan Huan (2012),
Twitter dapat memfasilitasi gerakan masa yang dalam penelitian dapat dianalisis
untuk mengetahui respon masyarakat terhadap suatu kegiatan.
Kegiatan Program Pengembangan Masyarakat
Pemberdayaan masyarakat merupakan bagian dari pengembangan masayrakat
(community development). Pengembangan masyarakat adalah proses penguatan
masyarakat secara aktif dan berkelanjutan berdasarkan prinsip keadilan sosial,
partisipasi dan kerja sasma yang setara. Pengembangan masyarakat mengekspresikan
nilai-nilai keadilan, kesetaraan, akuntabilitas, kesempatan, pilihan, partisipasi,
kerjasama, dan proses belajar keberlanjutan. Menurut Windy (2011), ruang lingkup
evaluasi untuk mengetahui keberhasilan program antara lain pencapaian hasil, evaluasi
program dan pengawasan mutu, seleksi lokasi dan sasaran kemiskinan, organisasi
masyarakat, efektivitas biaya, pengembangan kualitas sumber daya manusia, kepuasan
terhadap program serta keberlanjutan program.
Kegiatan pada program Bidang Keluarga Berencana dan Keluarga Sejahtera Sub
Bagian Keluarga Berencana di BPMKB kota Bogor yang menjadi fokus penelitian
adalah kegiatan yaitu PIK-Remaja dan KRR. Pusat Informasi Konseling Remaja (PIKR) adalah suatu wadah kegiatan program Penyiapan Kehidupan Berkeluarga bagi Remaja
(PKBR) yang dikelola dari, oleh dan untuk remaja/mahasiswa guna memberikan informasi
dan konseling tentang program PKBR seperti sosialisasi dampak usia pernikahan dini
(UPD).
5
esehatan reproduksi Remaja (KRR) adalah tiga risiko yang dihadapi oleh remaja,
yaitu risiko yang berkaitan dengan seksualitas, NAPZA, HIV dan AIDS (BkkbN 2012).
RapidMiner dengan Rscript
RapidMiner adalah aplikasi data mining berbasis sistem open-source dunia
yang ternama dan merupakan platform untuk merancang proses analisis data
secara plug-and-play (Ristoski et al. 2015). Keunggulan yang kompetitif dengan
solusi yang meliputi integrasi data, analitis ETL, data analisis, pelaporan dalam
satu suite tunggal dan mampu memvisualisasikan kriteria kinerja seperti kurva
ROC rata-rata atau plot 3D dari matriks. Antarmuka pengguna grafis dari
RapidMiner lebih mudah dan lebih efisien untuk digunakan dibandingkan dengan
WEKA yang Explorer ketika bekerja dengan blok dapat digunakan kembali dan
mencoba untuk membuat koneksi ke database. Semua sumber RapidMiner
menggunakan GNU Affero Umum Public License (AGPL) dan bahasa Java
(Kosorus et al. 2011). Rapidminer ditulis dalam bahasa pemrograman Java dengan
mengintegrasikan proyek data mining Weka dan statistika R.
Rscript adalah bahasa pemrograman R yang berada dalam Rapidminer. R
memiliki menjadi standar de facto antara statistik untuk pengembangan perangkat
lunak statistik, dan secara luas digunakan untuk pengembangan perangkat lunak
statistik dan analisis data. R merupakan bahasa pemrograman sebelum S yang
diciptakan oleh John Chambers. R diciptakan oleh Ross Ihaka dan Robert Pria di
University of Auckland, Selandia Baru, dan dikembangkan oleh Tim R
Pembangunan Core. R menyediakan berbagai macam teknik statistik dan grafis
dengan pemodelan linear dan non-linear, klasik uji statistik, analisis time-series,
klasifikasi, clustering, dan lain-lain.
R memungkinkan pengguna untuk menambahkan fungsi tambahan dengan
mendefinisikan fungsi baru. R memiliki banyak fitur yang sama dengan baik
fungsional dan pemrograman berorientasi objek bahasa. Kemampuan R diperluas
melalui package yang memungkinkan teknik statistik khusus, perangkat grafis,
serta kemampuan ekspor dan import ke banyak format data eksternal dengan
kompilasi dan berjalan pada berbagai UNIX platform, Windows dan Mac OS
(Kosorus et al.2011). Penelitian ini membangunan model sentiment mining
menggunakan Rscript pada Rapidminer dengan bahasa pemrograman R.
Perancangan untuk Pengembangan Model dengan UML
UML (Unified Modeling Language) adalah sebuah bahasa yang berdasarkan
grafik/gambar untuk memvisualisasi, menspesifikasikan, membangun, dan
pendokumentasian dari sebuah sistem pengembangan perangkat lunak berbasis
OO (Object-Oriented). UML juga merupakan sebuah bahasa standar untuk
pengembangan sebuah software yang dapat menyampaikan bagaimana membuat
dan membentuk model-model, tetapi tidak menyampaikan apa dan kapan model
yang seharusnya dibuat yang merupakan salah satu proses implementasi
pengembangan perangkat lunak (Nugroho 2009). Diagram yang digunakan pada
perancangan untuk mengembangkan model sentiment mining menjadi aplikasi
yang berbasis objek meliputi use case diagram, activity diagram, statechart
diagram, sequence diagram, component diagram, dan class diagram.
6
3 METODE
Metode penelitian meliputi analisis kebutuhan model sentimet mining dengan
evaluasi model dan perancangan untuk pengembangan model. Tahapan analisis model
dengan evaluasi model meliputi pengumpulan data, crawling, praproses, reduksi fitur,
klasifikasi sentiment dan evaluasi yang direpresentasikan pada Gambar 1 dan objek
menggunakan diagram-diagram UML.
Indikator
penarikan
tweets
Praproses
Filter, Case Folding,
Token & Parsing
Permintaan
tweets
Stopword
Hapus Stopword
Authentifikasi
key
Corpus
Negatif dan Positif
Pemeriksaan Kelas
Lexicon Based
Pembobotan TF
Matriks tweet
Mengirim
tweets
Data
Tweet
Pembobotan Sentiment
Reduksi Fitur
dengan PCA
Matriks tweet TF
Pengumpulan data
ya
Varian = 80%
PC = tinggi
tidak
CM
Reduksi fitur
Simpan file
≤1
Klasifikasi dengan SVM
Estimasi parameter
(c, y)
Evaluasi Model
Model 1 [60% data
Model 2 [70% data
Model 3 [80% data
Model 4 [90% data
latih,
latih,
latih,
latih,
40%
30%
20%
10%
data
data
data
data
uji]
uji]
uji]
uji]
Presentase sentiment
Hasil klasifikasi sentiment
Hasil evaluasi
Gambar 1 Tahapan analisis kebutuhan dan evaluasi pada model sentiment mining
Pengumpulan data
Observasi dan wawancara ke FEMA IPB (Fakultas Ekologi Manusia Institut
Pertanian Bogor) tentang konsep kegiatan community development secara umum
dan ke BPMKB kota Bogor tentang keterlibatan media sosial pada kegiatan
7
program pengembangan masyarakat, kemudian melakukan crawling (pengambilan
data tweet) menggunakan library Twitter API (Application Programming
Interface) dengan kata kunci PIK-Remaja Bogor dan GenRe Bogor.
Gambar 2 Registrasi Twitter Apps untuk authentification key
Sebelum crawling data tweet, analis melakukan membuat akun App baru
untuk registrasi melalui Twitter Management, seperti pada Gambar 2 sehingga
diperoleh key untuk authentifikasi pada Twitter sebagaimana diilustrasikan pada
Gambar 3.
Gambar 3 Tampilan authentifikasi untuk key penarikan data tweet
Praproses
Praproses dilakukan dengan tujuan memperbaiki data yang kurang terstruktur,
data yang tidak konsisten dan mengurangi noise (gangguan) pada proses klasifikasi
(Hemalatha et al. 2012). Praproses pada penelitian ini terdiri dari filter, case folding,
token dan parsing, hapus stopword, pelabelan kelas dan pembobotan kata.
a. Filter
Proses menyaring tweet dengan menghapus username atau @, link html, “RT”
(tanda retweet), angka, dan data redudan (Tiara et al. 2015).
b. Case Folding
Pada tahap ini, semua huruf diubah menjad huruf kecil (Putranti dan Winarko
2014).
8
c. Token dan parsing
Pengechekan tweet dari karakter pertama sampai karakter terakhir, jika bukan
tanda pemisah kata seperti titik (.), koma (,), spasi, atau tanda pemisah lain (-, +,
/, &, !, ?), maka digabungkan dengan karakter selanjutnya. Sedangkan parsing
tweet memisahkan tweet menjadi kumpulan kata (Putranti dan Winarko 2014).
d. Penghapusan Stopword
Menghapus kata sambung, kata depan atau kata penghubung menggunakan file
stopword tala.txt yang dimodifikas, misalnya penambahan huruf a, b, sampai
dengan z (Tiara et al. 2015).
e. Pembobotan term pada tweet
Perhitungan TF (Term Frequency) yaitu perhitungan frekuensi kemunculan
sebuah kata terhadap tweet untuk menunjukkan seberapa penting sebuah kata
terhadap sebuah tweet yang ada pada sebuah koleksi tweet (Wu et al. 2008;
Wahyudin dan Djatna 2016). Hasil tahapan d dan e dijadikan suatu vektor W.
Dimana W ={w1, w2, ... wi} dan i ϵ s berisi kandidat kata sentimen dan W ϵ V
dengan V merupakan corpus yang berisi fitur dan kata sentimen.
f. Pemeriksaan Kelas
Tahapan ini memberi label kelas dengan lexicon based pada setiap tweet
berdasarkan kelas positif dan negatif yang ada pada corpus lexicon dengan
Bahasa Indonesia. Selanjutnya dihitung nilai kedekatan kata dengan corpus
lexicon menggunakan Persamaan 1. Jika nilai atau score akhir adalah positif
maka diasumsikan fitur dalam tweet ber-sentiment positif. Jika nilai atau score
akhir adalah negatif maka diasumsikan fitur dalam tweet bersentimen negatif,
dan jika bukan keduanya maka tweet termasuk kelas netral (Tiara et al. 2015;
Ding et al. 2008).
score( f )
wi .so
wi :wi s wi V dis ( wi , f )
(1)
wi = kata sentimen
V = ruang sample terdiri dari tweet yang berisi fitur dan kata sentimen
s = seluruh kata sentimen
so= label atau kelas sentimen (+, -, 0)
dis (wi, f) = Jarak antara fitur (f) dan kata sentimen (wi)
Reduksi Fitur dengan PCA
Principal Component Analysis (PCA) adalah teknik reduksi dimensi dan
mengekstrak fitur untuk menemukan dimensi fitur yang lebih rendah. Istilah varians
terbesar ini disebut pengurangan dimensi, sebagai vektor yang berisi data asli dan ndimensi diturunkan ke vektor terkompresi (Subramanian dan Venkatachalam 2015)
sedangkan menurut Vinondhini dan Chandrasekaran (2014), PCA merupakan metode
pengidentifikasian pola data dan mereduksi atribut tanpa mengurangi nilai informasi
sebagaimana diilustrasikan pada Gambar 4. Konsep PCA menggunakan metode
statistika untuk mereduksi dimensi pada kumpulan fitur atau atribut. Penelitian ini
mengasumsikan T adalah matriks (n . m) sebagai vektor data tweet sejumlah n dan m
sebagai fitur dan p domain fitur.
9
Tahapan pertama PCA adalah standarisasi atau normalisasi data dengan
mengurangkan masing-masing data dengan mean. Selanjutnya menentukan matriks
kovarian menggunakan Persamaan 2 , dimana xi yaitu tweet ke i, yi adalah fitur
yang dimiliki tweet ke i, xmean adalah rataan tweet sedangkan ymean adalah rataan
fitur.
Algoritme
i
ii
iii
iv
v
PCA
Hitung matriks kovarian
Hitung eigen value dan eigen vektor
Mereduksi dimensi pada data
Hitung standar tranformasi matriks T
Hitung domain fitur (p) untuk di review
Gambar 4 Alur algoritme PCA (Vinondhini dan Chandrasekaran 2014)
Cov (x,y) merupakan jumlah dari perkalian zero mean x dan zero mean y yang
dibagi dengan jumlah seluruh tweet dikurangi 1. Zero mean adalah selisih antara
nilai dengan rataan dari kumpulan nilai berada.
( xi xmean )( yi ymean )
n 1
n 1
N
Cov( x, y)
(2)
Eigen value merupakan nilai karakteristik suatu matrik yang didapatkan dari
matrik kovarian dan digunakan dalam menghitung eigen vector untuk mendapatkan
nilai PC pada setiap fitur, nilai PC1 merupakan nilai PC tertinggi yang akan
digunakan pada proses selanjutnya yaitu klasifikasi sentimen. Proses reduksi fitur
melibatkan perhitungan varian, eigen value dan eigen vector untuk menghasilkan
nilai PC (principal component) yang digunakan dalam mereduksi fitur. Jika nilai
cummulative variance sudah ≤ 1 maka, fitur dikatakan sudah tidak varian akan
direduksi, sehingga mempermudah dan mempercepat proses klasifikasi dengan data
yang memiliki banyak fitur menggunakan RapidMiner dengan Rsciprt (Rapid-I
2015).
Klasifikasi Sentimen dengan SVM
Konsep Support Vector Machine (SVM) pada penelitian ini dengan
dimodifikasi dengan memasukkan fungsi kernel karena dataset non-linier. Menurut
Nugroho et al. 2003, pada data non linear, data x (misalkan data x= kumpulan
tweet) dipetakan ke ruang vektor yang berdimensi lebih tinggi ( x ) yaitu x x ,
dan hyperplane yang digunakan untuk memisahkan kelas dengan fungsi kernel.
Ilustrasi konsep dapat dilihat pada Gambar 3, dimana kedua kelas dapat dipisahkan
secara linear oleh sebuah hyperplane.
10
Gambar 5 Pemetaan data dengan fungsi hyperplane ke ruang vektor
Proses klasifikasi menggunakan konsep mencari fungsi hyperplane terbaik
yang akan menjadi support vector dan digunakan dalam klasifikasi terlihat pada
Gambar 5 dan Gambar 6 yang diadopsi dari Nugroho et al. (2003). Penggunaan
fungsi kernel RBF (Radial Basis Function) sebagaimana penelitian yang telah
dilakukan menghasil akurasi lebih tinggi pada klasifikasi sentimen dibandingkan
kernel Polynomial dan Sigmoid dan pengklasifikasian SVM dengan fungsi kernel
RBF memberikan akurasi yang paling baik dibandingkan dengan fungsi kernel
linier maupun polinomial (Muis dan Affandes 2015), maka penelitian ini
menggunakan fungsi kernel RBF sehingga model hyperplane menggunakan
Persamaan 3.
Nsv
f ( xd ) i yi exp( (|| xi xd ||) 2 ) b
i 1
(3)
dimana :
Nsv (Number of support vector) : jumlah support vector
i
: 1,2,3,..., Nsv
b
: bias
y
: Label/kelas dari data tweet
α
: Alpha pengali lagrange
exp(-γ(||xi-xd||)2) : Fungsi kernel RBF
Pembelajaran dengan SVM bertujuan untuk membentuk hyperplane dengan
mencari support vector pada data latih dengan output alpha (α), dimana α positif
disebut support vector. C1= kelas positif, C2 = kelas negatif, C3= kelas netral,
sedangkan H1 = Hyperplane 1, H2 = Hyperplane 2, H3 = Hyperplane 3.
(a)
(b)
Gambar 6 Ilustrasi proses klasifikasi 3 kelas dengan fungsi hyperplane
11
Berdasarkan Gambar 7(a) pembentukan hyperplane paling positif yaitu
kombinasi antara hyperplane yang memisahkan tiga kelas sentiment yaitu H12, H23,
H13 seperti ditunjukan pada Gambar 7(b). Hyperplane tersebut menghasilkan
support vector akan digunakan untuk mengkasifikasi kelas.
Penelitian ini melakukan estimasi parameter terbaik dengan mengunakan grid
search. Grid search bertujuan membuat grid parameter dari setiap pasangan (c, γ).
Parameter nilai (c, γ) ditentukan terlebih dahulu dengan rentang nilai 0.1 sampai
0.9, kemudian memasangkan setiap nilai paramter (c, γ) sehingga pasangan
parameter yang menghasilkan akurasi tertinggi digunakan dalam skenario
pengujian 4 model berdasarkan persentase data latih dan data uji.
Evaluasi Model Sentiment Mining
Evaluasi kinerja model klasifikasi dapat dilihat berdasarkan tiga parameter
yaitu akurasi, precision dan recall sebagaimana juga telah dilakukan pada
penelitian Tiara et al. pada tahun 2015 dengan Persamaan 2, dimana tweetklasifikasi
merupakan jumlah tweet yang diklasifikasikan secara benar dan total data tweet
yang diujikan tweetuji terhadap tweetklasifikasi.
Akurasi
p
tweetlatih
tweetuji
Tp
Tp Fp
(2)
(3)
Precision (p) pada kelas positif merupakan Tp yaitu jumlah tweet dengan
kelas sentimen positif diklasifikasi secara benar dibagi dengan Tp Fp yaitu
jumlah total tweet yang diklasifikasi sebagai kelas positif.
r
Tp
Tp Fn
(4)
Recall (r) adalah jumlah tweet diklasifikasi positif dibagi dengan Tp Fn
yaitu jumlah total tweet dalam data uji dengan kelas positif. Evaluasi kinerja model
direpresentasikan dalam confusion matrix sebagaimana ditunjukan pada Gambar 7
yang diadopsi dari Kumar dan Abirami (2015).
Gambar 7 Ilustrasi confusion matrix dengan tiga kelas sentimen
Skenario pembagian data tweet menjadi 4 model yaitu Model 1 dengan 60%
data latih 40% data uji, Model 2 dengan 70% data latih 30% data uji, Model 3
dengan 80% data latih 20% data uji, dan Model 4 dengan 90% data latih 10% data
uji, dimana akan dibandingkan nilai akurasi, precission dan recall dari setiap model
sehingga dapat diketahui pengaruh pembagian data latih dan data uji terhadap
tingkat akurasi.
12
4 HASIL DAN PEMBAHASAN
Tahapan ini menjelaskan hasil dan pembahasan penelitian yang meliputi
pengumpulan data dan praproses, analisis tweet hasil reduksi fitur, analisis proses
klasifikasi evaluasi model menggunakan interface RapidMiner Studio 7.1 dengan
Rscript. Perancangan untuk pengembangan model sentiment mining menggunakan
diagram-diagram UML.
Pengumpulan data
Tahapan pertama pada proses crawling yaitu koneksi API dengan cara
registrasi melalui Twitter Application Management untuk mendapatkan API Key,
API Secret, Access Token, Access Token Secret kemudian melakukan autentifikasi.
Selanjutnya melakukan pengambilan data berdasarkan kata kunci dengan parameter
yang diinginkan, misalnya pada penelitian ini kata kunci yang digunakan adalah
tentang kegiatan PIK-Remaja dan GenRe yang berada diwilayah Bogor dengan
jumlah 1000 tweet untuk masing-masing kegiatan pada tanggal 1 Januari 2015
sampai 1 Januari 2016.
Tahapan selanjut yaitu menyimpan file dengan format .csv (comma delimited).
Setelah dilakukan praproses terhadap dataset yang meliputi filter, case folding,
hapus stopword, token dan parsing, pembobotan dan pemeriksaan kelas diperoleh
1219 fitur dari 1000 tweet pada kegiatan PIK-Remaja dan 1302 fitur dari 1000 tweet
kegiatan GenRe.
Menurut Ding et al. (2008), pemeriksaan kelas memiliki empat langkah
dalam menentukan orientasi sentimen berdasarkan pendekatan lexicon yaitu :
1. Tandai kata yang mengandung sentimen : untuk setiap kalimat yang berisi satu
atau lebih kata sentimen, langkah ini menandai semua kata dan frasa dalam
sentimen kalimat. Setiap kata positif diberikan skor sentimen +1 dan setiap kata
negatif diberikan skor sentimen -1. Berdasarkan Gambar 4, fitur ke-5 (w5) dan
fitur ke-6 (w6) mengandung kata yang terdapat pada corpus positif maka diberi
skor [+1].
2. Terapkan sentimen shifter yaitu kata-kata dan frase yang dapat mengubah
orientasi sentimen dengan kata negasi seperti tidak, tidak pernah, tidak ada, ngga,
nggak dan tidak bosen adalah jenis yang paling umum. Maka tweet menjadi
“launching pik remaja nggak lama : ) semangat tapi seru” karena terdapat kata
negasi “nggak” maka bernilai [-1].
3. Menangani klausa tapi- : penggunaan klausa tapi juga dapat merubah orientasi
sentimen. Sebuah kalimat mengandung klausa tapi- dan setelahnya mengandung
kata sentimen akan bertentangan dengan kata sebelum klausa tapi-. Sehingga
tweet yang dicontohkan menjadi sebagai berikut “launching pik remaja nggak
lama [+1] , tapi seru [+1].
4. Tahapan terakhir menghitung skor sentimen dengan Persamaan 1, sehingga
diperoleh bobot sentimen adalah [+4] yang berarti tweet memiliki kelas sentimen
positif.
13
fitur (wi)
tandai
kata
sentimen
kata
negasi
klausa
tapi-
w1
w2
w3
w4
w5
w6
w7
w8
w9
launching
pik
remaja
nggak
lama
:)
semangat
tapi
seru
-1
-1
+1
+1
+1
+1
+1
+1
+1
+1
+1
+1
+1
Gambar 8 Ilustrasi tahapan pemeriksaan kelas sentimen
Berdasarkan Gambar 4, fitur w1, w2, w3 tidak diberi skor atau diabaikan
karena tidak mengandung kata yang ada di dalam corpus sentimen. Sehingga dapat
disimpulkan tweet “launching pik remaja nggak lama : ) semangat tapi seru”
merupakan kelas positif dengan bobot sentimen [+4].
Reduksi fitur
Proses reduksi fitur melibatkan perhitungan varian, eigen value dan eigen
vector untuk menghasilkan nilai PC (principal component) yang digunakan dalam
mereduksi fitur sehingga mempermudah proses klasifikasi, yang direpresentasikan
pada Gambar 9 menggunakan bahasa R yang disediakan RapidMiner Studio yaitu
Rscript (Rapid-I 2015).
Gambar 9 Flow knowledge proses reduksi fitur pada RapidMiner
Menurut Vinodhini dan Chandrasekaran (2014), nilai PC yang tinggi
bergantung pada standar deviasi dan proporsi varian dan fitur dikatakan tidak varian
jika nilai eigen value atau cumulative varian ≤ 1 sebagaimana direpresentasikan
pada Gambar 10 (a) dan 10 (b). Gambar 10 (a), merepresentasikan nilai PC terhadap
cummulative variance untuk kegiatan PIK-Remaja yang menunjukkan bahwa pada
fitur 1200 dan seterusnya nilai cummulative variance sudah sama yaitu 1.
14
(a)
(b)
Gambar 10 Nilai PC terhadap proporsi varian: (a) PIK-Remaja (b) GenRe
Nilai PC tergantung pada standar deviasi dan proporsi pada varian, semakin
besar nilainya maka nilai PC suatu fitur makin besar, namun tidak bergantung pada
nilai cummulative variance dapat dilihat pada Tabel 1.
15
Tabel 1 Pengurutan nilai principal component dari yang tertinggi
Component
(PC)
Standar
Deviasi (SD)
Proporsi
Varian (PV)
Kumulatif
Varian (CV)
PC1
PC2
PC3
PC4
PC5
PC6
PC7
.
.
.
PCn
0.561
0.452
0.393
0.331
0.268
0.276
0.274
.
.
.
SDn
0.075
0.049
0.037
0.024
0.019
0.018
0.018
.
.
.
PVn
0.075
0.123
0.160
0.186
0.210
0.230
0.248
.
.
.
CVn
Pada Tabel 1, ditampilkan sebagian dataset dengan nilai PC tertinggi
berbanding lurus nilai standar deviasi dan proporsi varian sedangkan Gambar 11
menunjukan nilai PC1 sampai PCn untuk setiap fitur kemudian diurutkan fitur
dengan nilai PC1 tertinggi. Penggunaan fitur yang direduksi dengan PCA untuk
proses klasifikasi mempertimbangkan kriteria untuk mereduksi fitur yaitu nilai PC
tinggi dan nilai cummulative variance ≤ 1. Jika fitur memenuhi kriteria maka akan
digunakan untuk proses klasifikasi sedangkan fitur yang tidak memenuhi kriteria
akan direduksi atau tidak digunakan dalam proses klasifikasi.
Gambar 11 Nilai PC null pada fitur Kegiatn PIK-Remaja
Berdasarkan Tabel 1 dan Gambar 12, ditemukan fitur dengan nilai PC tidak
ada atau null yang mempertegas bahwa fitur-fitur tersebut akan direduksi meskipun
memiliki nilai cummulative variance ≤ 1. Hal tersebut dikarenakan proses reduksi
PCA menggunakan nilai PC untuk mereduksi fitur.
16
Gambar 12 Nilai PC null pada fitur kegiatan GenRe
Berdasarkan hasil reduksi fitur pada masing-masing dataset kegiatan
diperoleh 1156 fitur dari 1219 fitur pada kegiatan PIK-Remaja dan 951 fitur dari
1302 fitur pada kegiatan GenRe yang akan digunakan pada proses klasifikasi.
Klasifikasi Sentiment
Penerapan algoritme SVM dengan penambahan kelas netral diharapkan
mampu menghasilkan model yang baik dengan tingkat akurasi yang tinggi, ilustrasi
proses klasifikasi direpresentasikan pada Gambar 13. Parameter SVM yang
digunakan merupakan kombinasi nilai c dan γ dari hasil estimasi.
Gambar 13 Flow knowledge proses proses klasifikasi sentiment
Berdasarkan Tabel 2 merupakan jumlah persentase keseluruhan kelas
sentiment, yang menunjukan nilai yang tertinggi pada kelas sentiment adalah
sentiment netral diikuti sentiment positif, jika dibandingkan dengan sentiment
negatif, namun nilai presentase sentiment positif lebih tinggi untuk kegiatan GenRe
yaitu 39.20% dari keseluruhan sentiment (positif, negatif dan netral) dan kegiatan
17
PIK-Remaja sebesar 37.90%, hal tersebut menjawab tujuan penelitian yang kedua
yaitu kegiatan dengan tingkat persentase positif tertinggi adalah GenRe yang berarti
memiliki respon yang baik dalam penyebaran informasi tentang sosialisasi,
penyuluhan serta implementasi kegiatan. Jumlah persentase diperoleh dari
pembobotan sentiment yaitu nilai +1 untuk positif, nilai -1 untuk negatif dan 0
untuk netral.
Tabel 2 Presentase jumlah sentiment kegiatan GenRe dan PIK-Remaja
PIK Remaja
Jumlah
Persentase (%)
379
37.90
196
19.60
425
42.50
1000
100
Kelas
sentiment
Positif
Negatif
Netral
Total
GenRe
Jumlah tweet Persentase (%)
392
39.20
200
20.00
408
40.80
1000
100
Penggunaan estimasi parameter dan pembagian data dalam pembangunan
model bertujuan untuk mengetahui bagaimana pengaruhnya terhadap tingkat
akurasi pada proses klasifikasi sentiment.
400
Jumlah sentiment
350
300
245
226
250
166
200
163
129
150
311
289
269
123
71
100
179
157
142
371
350
332
119
81
58
76
43
42
50
21
37
0
60% data
latih
40% data uji
70% data
latih
Model 1
30% data uji
80% data
latih
Model 2
Positif
20% data uji
90% data
latih
Model 3
Negatif
10% data uji
Model 4
Netral
(a)
1000
900
900
800
Jumlah sentiment
800
700
700
600
600
500
400
400
300
200
300
295
251
167
127
140
123
69
100
377
338
200 177
155
56
41
100
80
19 41
0
222
164
265
121
307
79
346
40
60% data
latih
40% ata uji
70% data
latih
30% data uji
80% data
latih
20% data uji
90% data
latih
10% data uji
positif
negatif
netral
(b)
Gambar 14 Skenario model sentiment mining: (a) PIK-Remaja (b) GenRe
18
Pada Gambar 14 direpresentasikan jumlah setiap kelas sentiment berdasarkan
skenario model. Gambar 14 (a) menunjukan bahwa jumlah terbanyak sentiment
positif kegiatan PIK-Remaja sebanyak 350 tweet sedangkan pada Gambar 14 (b)
jumlah terbanyak sentiment positif kegiatan GenRe sebanyak 346 tweet yang
keduanya berada dalam data latih pada Model 4.
Pengujian Parameter (c,γ) pada Fungsi Kernel
Pengujian parameter c dan γ dilakukan dengan menggunakan data yang terdiri
dari 50% data latih dan 50% data uji dan Persamaan 2. Berdasarkan Tabel 3
menunjukkan beberapa pasangan nilai parameter yang memberikan akurasi paling
baik pada klasifikasi kelas sentiment sebesar 97.44% yaitu (c=0.8, γ=0.8), (c=0.8,
γ=0.9), (c=0.9, γ=0.8) dan (c=0.9, γ=0.9). Pasangan nilai parameter tersebut akan
digunakan pada tahap selanjutnya untuk menguji tingkat akurasi klasifikasi SVM
pada model.
Tabel 3 Grid search presentase tingkat akurasi model sentiment mining
c
y
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
0,1
43,96 38,83 38,83 38,83 38,83 38,83 38,83 38,83 38,83
0,2
73,63 66,67 54,41 50,55 38,83 38,83 38,83 38,83 38,83
0,3
78,39 78,75 78,39 79,12 75,82
0,4
80,95 82,05 82,78 82,78 80,59 84,62 83,88 83,88 83,52
0,5
82,42 83,88 86,45 89,38 88,28 87,55 84,25 83,35 84,98
0,6
82,78 84,62 86,45 88,28 91,21 91,21 92,67 96,34 96,34
0,7
83,15 84,62 86,45 87,91 91,58 91,58 93,41
0,8
83,52 86,81 87,55 88,28 90,11 91,58 93,41 97,44 97,44
0,9
83,52 86,81 87,55 88,28 89,01 91,94 93,77 97,44 97,44
65,2
58,97 58,61 56,04
96,7
96,7
Tabel 3 menunjukan bahwa pasangan parameter c dan γ yang menghasilkan
akurasi tertinggi adalah 0.8 dan 0.8, 0.8 dan 0.9, 0.9 dan 0.8, 0.9 dan 0.9. Karena
parameter tersebut memiliki persentase akurasi yang sama, maka pasangan
parameter c dan γ yang digunakan pada pengujian model adalah c= 0.8 dan γ =0.8.
Evaluasi Model
Penggunaan parameter dari hasil estimasi parameter pada pengujian model
sentiment mining, bertujuan untuk meningkatkan nilai akurasi, precision dan recall
antar model sebagaimana juga telah dilakukan pada penelitian Tiara et al. (2015)
dengan Persamaan 2, Persamaan 3 dan Persamaan 4.
Penggunaan akurasi dalam evaluasi model diharapkan dapat mengetahui
ketelitian dari pengujian sata pada klasifikasi sentiment sebagaimana ditunjukkan
pada Gambar 15, bahwa pada row ke 7 tweet memiliki kelas negatif, namun pada
saat diklasifikasikan menjadi kelas positif.
19
Gambar 15 Contoh ketepatan kelas pada klasifikasi sentiment
Gambar 16 merupakan salah satu confusion matrix model yang dihasilkan
dari penelitian dan merupakan model dengan akurasi tertinggi.
Gambar 16 Confusion matrix Model 1 pada kegiatan GenRe
Berdasarkan Tabel 4, presentase recall pada kegiatan PIK-Remaja tertinggi
dimiliki Model 3 pada kelas sentimen negatif sebesar 84.26% dan terendah pada
Model 1 sebesar 65.09% sedangkan precision tertinggi diperoleh dari Model 3
sebesar 80% dan terendah dimiliki Model 1 pada kelas sentimen positif sebesar
66.20%.
Tabel 4 Persentase precision dan recall pada kegiatan PIK-Remaja
Kelas
Sentiment
Model 1
Model 2
Model 3
Model 4
precision
recall
precision
recall
precision
recall
precision
recall
Positif
74.19
65.09
70.37
75.53
75.53
75.53
75.53
73,96
Negatif
66.20
74.60
77.78
84.26
79.82
84.26
78.90
79.63
Netral
71.56
75.00
79.41
73.24
80,00
73.24
71.43
72.46
Rataan
70.65
71.56
75.85
77.68
78.45
77.68
75.29
75.35
20
Tabel 5 menunjukan presentase precision dan recall pada kegiatan GenRe,
precision tertinggi dimiliki Model 3 pada kelas sentimen netral sebesar 91.80%.
Tabel 5 Persentase precision dan recall pada kegiatan GenRe
Kelas
Sentiment
Positif
Negatif
Netral
Rataan
Model 1
Model 2
Model 3
Model 4
precision
recall
precision
recall
precision
recall
precision
recall
86,73
87,50
90,99
88,41
87,63
87,50
90,18
88,44
87,25
85,94
83,18
85,46
82,41
87,30
87,25
85,65
82,65
85,09
91,80
86,51
86,17
89,81
78,87
84,95
82,29
83,33
84,13
83,25
82,29
87,96
76,81
82,35
Berdasarkan Tabel 4 dan Tabel 5, banyaknya jumlah kelas sentimen tidak
berbanding lurus dengan tingkat precision ataupun recall karena seperti
digambarkan pada G