Analisis Klasifikasi Sentimen Twitter Terhadap Kinerja Layanan Provider Telekomunikasi Menggunakan Varian Naïve Bayes

ANALISIS KLASIFIKASI SENTIMEN TWITTER TERHADAP KINERJA
LAYANAN PROVIDER TELEKOMUNIKASI MENGGUNAKAN
VARIAN NAÏVE BAYES

AISAH RINI SUSANTI

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis Analisis Klasifikasi Sentimen Twitter
Terhadap Kinerja Layanan Provider Telekomunikasi Menggunakan Varian Naïve Bayes
benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk
apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip
dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan
dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian
Bogor.

Bogor, Oktober 2016
Aisah Rini Susanti
NIM G651130704

RINGKASAN
AISAH RINI SUSANTI. Analisis Klasifikasi Sentimen Twitter Terhadap Kinerja Layanan
Provider Telekomunikasi Menggunakan Varian Naïve Bayes. Dibimbing oleh TAUFIK
DJATNA dan WISNU ANANTA KUSUMA.
Pengguna telekomunikasi di Indonesia dari tahun ke tahun terus tumbuh dengan
pesat. Seiring dengan kebutuhan publik yang terus meningkat akan komunikasi baik
melalui layanan sms, telepon, maupun data mengakibatkan terjadi persaingan para provider
telekomunikasi untuk menarik atau mempertahankan pelanggannya. Opini Pelanggan
menunjukkan tingkat kualitas layanan yang dilakukan oleh provider. Berbagai opini yang
dikemukakan oleh pelanggan tentang provider telekomunikasi dapat diketahui melalui
media sosial Twitter. Salah satu teknik yang dapat digunakan untuk menganalisis opini ini
adalah dengan melakukan klasifikasi pada data mentah dari Twitter. Salah satu metode
klasifikasi yang dapat digunakan adalah Multinomial Naive Bayes Tree.
Metode Multinomial Naïve Bayes Tree merupakan adaptasi dari Metode Multinomial
Naïve Bayes dan Metode Decision Tree. Metode Multinomial Naïve Bayes merupakan
metode Naïve Bayes untuk menangani teks atau dokumen. Multinomial naïve bayes

mengembangkan klasifikasi teks di setiap node pada pohon keputusan. Dokumen yang
digunakan dalam penelitian ini adalah komentar dari pengguna Twitter tentang provider
telekomunikasi GSM Indonesia.
Penelitian ini menggunakan metode Multinomial Naïve Bayes Tree untuk
mengkategorikan opini sentimen pelanggan terhadap penyedia telekomunikasi di
Indonesia. Analisis sentimen hanya mencakup kelas positif, negatif dan netral. Hasil
analisis klasifikasi sentimen Twitter terhadap penyedia layanan kinerja telekomunikasi
menggunakan Multinomial Naïve Bayes Tree menghasilkan akar pohon keputusan pada
kata "Aktif" di mana probabilitas dari kata "Aktif" dalam metode Multinomial Naive Bayes
diperoleh pada kelas positif. Tingkat akurasi tertinggi dalam mengevaluasi hasil klasifikasi
sentimen Twitter / evaluasi dengan menggunakan dataset yang sama menggunakan metode
Multinomial Naïve Bayes Tree (MNBTree) pada 145 fitur adalah 16,26 % sedangkan
metode Multinomial Naïve Bayes (MNB) memberikan akurasi tertinggi pada data
keseluruhan 1665 fitur yaitu 73,15%. Manfaat yang diharapkan dalam penelitian ini bahwa
penyedia telekomunikasi dapat mengevaluasi kinerja dan layanan untuk mencapai
kepuasan pelanggan dari berbagai keluhan yang dihadapi.
Kata kunci: Kinerja layanan, Multinomial Naïve Bayes Tree, Naïve Bayes, Opini Sentimen,
Provider Telekomunikasi Indonesia, Twitter.

SUMMARY

AISAH RINI SUSANTI. A Classification Analysis of Sentiment Opinion on Twitter
Towards Performance of Indonesian Telecommunication Service Providers By Using
Varian Naïve Bayes. Supervised By TAUFIK DJATNA And WISNU ANANTA
KUSUMA.
Telecommunication users in Indonesia are rapidly growing from year to year which
are consistent to the increasing public need for communication services through sms,
telephone, or data transfer. As consequence, Indonesian telecommunication providers
tightly compete in pursue of winning customers preference and loyalty. Customers opinions
indicate the level of service quality performed by the providers. Customers express their
opinions about how each provider delivers its services through social media such as
Twitter. Analysis of sentiment opinion can be conducted by classifying of raw data from
Twitter. One of the classification methods that can be used in this problem is Multinomial
Naive Bayes Tree.
Multinomial Naïve Bayes Tree is an adaptation of multinomial naïve Bayes and
Decision Tree methods. Multinomial naïve Bayes method used specifically addressing
frequency in the text of the sentence or document. Documents used in this study are
comments from the users Twitter on the GSM telecommunications provider in Indonesia.
This Research used Multinomial Naïve Bayes Tree classification technique to
categorize customers sentiment opinion towards telecommunication providers in
Indonesia. Sentiment analysis only includes the class of positive, negative and neutral. This

research produced a Decision Tree roots in the word "aktif" in which the probability of the
word "aktif" in Multinomial Naive Bayes method obtained in the positive class. The
evaluation research showed that the highest accuracy of classification using Multinomial
Naïve Bayes Tree (MNBTree) method was obtained using 145 features with the value of
16,26%. Moreover, the Multinomial Naïve Bayes (MNB) yield the highest accuracy of
73,15% by using all dataset with 1665 features The expected benefits in this research that
the Indonesian telecommunications provider can evaluate the performance and services to
reach customer satisfaction of various complaints encountered.
Keywords : Indonesian Telecommunication Provider, Multinomial Naïve Bayes Tree,
Naïve Bayes, Sentiment Opinion, Service Performance, Twitter.

© Hak Cipta Milik IPB, Tahun 2016
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau
menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian,
penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu
masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini dalam
bentuk apa pun tanpa izin IPB


ANALISIS KLASIFIKASI SENTIMEN TWITTER TERHADAP KINERJA
LAYANAN PROVIDER TELEKOMUNIKASI MENGGUNAKAN
VARIAN NAÏVE BAYES

AISAH RINI SUSANTI

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Ilmu Komputer
pada
Program Studi Ilmu Komputer

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016

Penguji Luar Komisi pada Ujian Tesis:

Dr Imas Sukaesih Sitanggang, SSi MKom


Judul Tesis

: Analisis Klasifikasi Sentimen Twitter Terhadap Kinerja Layanan
Provider Telekomunikasi Menggunakan Varian Naïve Bayes
Nama
: Aisah Rini Susanti
NIM651130704j
: G651130704

Disetujui oleh
Komisi Pembimbing

Dr Eng Ir Taufik Djatna, MSi
Ketua

Dr Eng Wisnu Ananta Kusuma, ST MT
Anggota

Diketahui oleh


Ketua Program Studi
Ilmu Komputer

Dekan Sekolah Pascasarjana

Dr Ir Sri Wahjuni, MT

Dr Ir Dahrul Syah, MScAgr

Tanggal Ujian: 02 Agustus 2016

Tanggal Lulus:

(telaksanaan ujian tesis)

(tanggal penandatananan tesis oleh
Dekan Sekolah casarjana)

PRAKATA

Puji dan syukur penulis panjatkan ke hadirat Allah Ta’ala atas segala karunia dan
hidayahNya sehingga penulis dapat menyelesaikan penelitian ini. Penelitian ini berjudul
Analisis Klasifikasi Sentimen Twitter Terhadap Kinerja Layanan Provider
Telekomunikasi Menggunakan Varian Naïve Bayes.
Terima kasih penulis ucapkan kepada Bapak Dr Eng Taufik Djatna, STP MSi dan
Bapak Dr Eng Wisnu Ananta Kusuma, ST MT selaku pembimbing yang telah memberikan
arahan dan masukan selama penelitian ini. Terima kasih kepada Dr Imas Sukaesih
Sitanggang SSi, MKom selaku penguji luar atas saran dan masukannya.
Terima kasih penulis ucapkan kepada kedua orangtua, suami dan anak tercinta serta
keluarga yang telah mendukung dengan sepenuh hati dan keridhoannya serta memberikan
motivasi sehingga penelitian ini dapat terlaksana dengan baik. Terima kasih juga penulis
juga ucapkan kepada teman- teman seperjuangan yang telah berbagi ilmu, memberikan
dukungan, saran dan masukan dalam penelitian ini : Husnul Khotimah, Ibu Puspa Oesina,
Lira Ruhwinaningsih, Fery Dergantoro, Irwan Adriansyah, Andita Wahyuningtyas, Sodik
Kirono, Mulyati, Tengku Khairil Ahsyar, Arini Pekuwali, Fathur Rohman, Ahmad Luky
Ramdani, M Rake Linggar Anggoro, Irfan Wahyudin, Heri Bambang Santoso, Lailan
sahrina, Rossy Nurhasanah Thoe, Rohmah Luthfianti dan semua rekan-rekan ILKOM
angkatan 2013.
Semoga karya ilmiah ini bermanfaat.


Bogor, Oktober 2016
Aisah Rini Susanti

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

1 PENDAHULUAN
Latar Belakang
Perumusan Masalah
Tujuan Penelitian

Manfaat Penelitian
Ruang Lingkup Penelitian
Penelitian Terkait

1
1
2
2
2
2
2

2 TINJAUAN PUSTAKA
Metode Naïve Bayes
Metode Multinomial Naive Bayes
Praproses Data
Metode Naïve Bayes Tree
Metode Multinomial Naïve Bayes Tree (MNB Tree)

3

3
4
6
6
7

3 METODE
Praproses
Metode Multinomial Naïve Bayes Tree (MNB Tree)
Evaluasi Model
Peralatan Penelitian

7
8
12
14
15

4 HASIL DAN PEMBAHASAN
Persiapan Data
Metode Multinomial Naïve Bayes Tree
Penerapan metode Multinomial Naïve Bayes Tree
Evaluasi Model
Kelebihan dan kekurangan metode MNBTree

15
15
16
17
19
19

5 SIMPULAN DAN SARAN
Simpulan
Saran

20
20
20

DAFTAR PUSTAKA

21

LAMPIRAN

23

RIWAYAT HIDUP

36

DAFTAR TABEL
1
2
3
4
5
6
7
8
9
10

Kata dalam korpus kata kunci sentimen positif dan negatif
9
Beberapa kata yang dijadikan stopword
10
Beberapa kata yang dilakukan Normalisasi
10
Beberapa daftar kata opini sentimen positif pada kamus Lexicon
11
Beberapa daftar kata opini sentimen negatif pada kamus Lexicon
12
Kamus Lexicon opini sentimen positif dalam bahasa Indonesia
13
Kamus Lexicon opini sentimen negatif dalam bahasa Indonesia
14
Confusion Matrix
15
Ukuran dan formula Confusion Matrix
18
Hasil akurasi terhadap evaluasi model klasifikasi opini sentimen Twitter
dengan metode MNBTree
18
11 Hasil akurasi terhadap evaluasi model klasifikasi opini sentimen Twitter
dengan metode MNB dan metode MNBTree
19

DAFTAR GAMBAR
1
2
3
4
5
6
7

Hasil skoring untuk pelabelan kelas positif, negatif dan netral
Tahapan Penelitian
Hasil tahapan praproses
Flowchart proses training
Hasil pengambilan data Twitter melalui API
Kolom text yang berisi komentar dari pengguna Twitter
Tahapan Metode Multinomial Naive Bayes Tree

6
8
10
11
16
16
17

DAFTAR LAMPIRAN
1 Tampilan hasil running metode MNB 1665 fitur di Weka
23
2 Tampilan Netbeans IDE 8.0.2
26
3 Tampilan hasil running data training metode MNBTree 145 fitur pada k-fold
1 di Netbeans
26
4 Tampilan hasil running data testing metode MNBTree 145 fitur pada k-fold 1
di Netbeans
28
5 Tampilan data berupa fitur dan frekuensinya dalam bentuk file .csv bentuk
file .csv
29
6 Tampilan komentar Twitter sebanyak 5210 komentar disimpan dalam file .csv
30
7 Tampilan fungsi pada R untuk pengambilan data Twitter sampai dengan
tokenisasi
30
8 Tampilan GUI untuk training dan testing data menggunakan metode
Multinomial Naïve Bayes Tree
34
9 Tampilan proses training data menggunakan metode Multinomial Naive 35
10 Tampilan hasil testing data menggunakan metode Multinomial Naive Bayes
Tree
35

2

1 PENDAHULUAN
Latar Belakang
Analisis sentimen merupakan teknik yang digunakan untuk melakukan evaluasi dan
mengindentifikasi emosi dan opini baik positif maupun negatif (Wilson et al. 2009).
Penelitian analisis sentimen telah banyak dilakukan pada media dokumen, Twitter sebagai
salah satu media sosial populer di mana penggunanya dapat mengekspresikan opini yang
objektif tentang topik yang berbeda (Coletta et al. 2014). Sebanyak 19% pengguna media
sosial Twitter memberikan berbagai opini mengenai merk dan produk (Jansen et al. 2009).
serta ekspresi perasaan mereka terhadap operator seluler dengan akurasi memprediksi
sentimen mencapai 80% (Wijaya et al. 2013). Perusahaan operator seluler merupakan
perusahaan penyedia jasa (provider) telekomunikasi. Beberapa perusahaan operator seluler
GSM (Global System for Mobile communications) antara lain : Telkomsel (PT.
Telekomunikasi Seluler), Indosat Ooredoo (PT. Satelit Indonesia / Satelindo), XL Axiata
(PT XL Axiata Tbk), Hutchison (PT. Hutchison CP Telecommunications Indonesia /
HCPT). Masing-masing provider mempunyai produk berbeda-beda, misalnya Telkomsel
(Simpati dan Halo), Indosat Ooredoo (Im3 dan Mentari), XL Axiata (XL), Hutchison (Tri).
Pengguna telekomunikasi di Indonesia dari tahun ke tahun terus tumbuh pesat. Hal
itu seiring dengan kebutuhan publik akan komunikasi yang terus meningkat baik melalui
SMS (Short Message Service), telepon maupun data. Dengan demikian terjadi persaingan
para provider telekomunikasi Indonesia untuk menarik atau mempertahankan
pelanggannya. Berbagai opini yang dikemukakan oleh pelanggan tentang provider
telekomunikasi dapat diketahui melalui media sosial Twitter.
Naïve Bayes merupakan metode yang dapat digunakan untuk klasifikasi. metode
Naive Bayes adalah salah satu algoritme pembelajaran induktif untuk machine learning
dan data mining yang paling efisien dan efektif (Zhang 2004). Kelemahan Naïve Bayes
adalah adanya asumsi independen antar fitur, padahal pada kenyataannya fitur memiliki
hubungan dan saling ketergantungan satu sama lain. Maka diajukan metode Naive Bayes
Tree sebagai gabungan metode Naïve Bayes dan metode Decision Tree. Naïve Bayes Tree
secara efektif dapat mengurangi waktu komputasi dengan cara melakukan penghapusan
redudansi data asli sehingga menghasilkan akurasi lebih baik dari metode Naïve Bayes dan
metode Decision Tree (Veeraswamy et al. 2013). Mengadaptasi dari proses kerja tahapan
metode Naïve Bayes Tree, untuk pengklasifikasian teks maka muncullah Multinomial
Naïve Bayes Tree yang menunjukan tingkat akurasi lebih baik dari Naïve Bayes Tree
(Wang et al. 2014). Pengolahan data mentah dari pesan Twitter membutuhkan tahap
praproses sehingga menghasilkan kata baku sebagai fitur untuk menghasilkan analisa opini
sentimen (Aziz 2013). Penelitian mengenai analisis sentimen dari data media sosial Twitter
telah banyak dilakukan, antara lain di bidang politik (DiGrazia et al. 2013), ekonomi
(Bollen et al. 2011) hingga survei kualitas produk (Chamlertwat dan Bhattarakosol 2012).
Berbagai opini sentimen konsumen terhadap produk dalam media sosial Twiter merupakan
bentuk dari kualitas produk. Begitupun opini sentimen konsumen terhadap provider
telekomunikasi merupakan bentuk dari kualitas pelayanan provider terhadap
konsumennya.

2
Perumusan Masalah
Berdasarkan latar belakang masalah yang diteliti maka rumusan masalah dari
penelitian ini adalah :
1. Bagaimana mengidentifikasi atribut dan menyusun praproses evaluasi kinerja layanan
provider GSM
2. Bagaimana mengimplementasi klasifikasi opini sentimen Twitter terhadap kinerja
layanan provider GSM menggunakan metode Multinomial Naïve Bayes dan
Multinomial Naïve Bayes Tree
3. Bagaimana mengevaluasi hasil klasifikasi opini sentimen Twitter menggunakan
metode Multinomial Naïve Bayes dan Multinomial Naïve Bayes Tree
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1. Mengidentifikasi atribut dan menyusun praproses evaluasi kinerja layanan provider
GSM
2. Mengimplementasi klasifikasi opini sentimen Twitter terhadap kinerja layanan
provider GSM menggunakan metode Multinomial Naïve Bayes dan Multinomial
Naïve Bayes Tree
3. Melakukan evaluasi hasil klasifikasi opini sentimen Twitter menggunakan metode
Multinomial Naïve Bayes dan Multinomial Naïve Bayes Tree
Manfaat Penelitian
Manfaat yang diharapkan dari penelitian ini adalah provider GSM yang ada di
Indonesia dapat menganalisis sentimen komentar Twitter konsumen untuk mengevaluasi
kinerja dan pelayanannya sehingga tercapai kepuasan konsumen terhadap berbagai keluhan
yang dihadapi.
Ruang Lingkup Penelitian
1. Objek penelitian diambil dari tiga provider GSM yaitu Telkomsel, Indosat dan XL akun
masing-masing provider mengenai kinerja layanan provider yang dibatasi pada aliran
data Twitter berbahasa Indonesia
2. Analisis sentimen hanya mencakup kelas positif, negatif dan netral
3. Kalimat yang digunakan hanya mempunyai asumsi satu kategori kelas
Penelitian Terkait
Penelitian terhadap analisis sentimen opini Twitter menggunakan algoritme Naive
Bayes untuk mendeteksi polaritas tweet bahasa Inggris menunjukkan kinerja terbaik
menggunakan classifier biner antara dua kategori polaritas tajam: positif dan negatif
(Gamallo dan Garcia 2014). Analisis kualitas layanan provider telepon seluler
menggunakan media sosial Twitter menggunakan Naïve Bayes menunjukan provider
dengan tingkat kepuasan pelanggan tertinggi (Setiawan 2014). Penelitian lain mengenai
analisis sentimen Twitter mengenai operator seluler Indonesia dengan menggunakan

3
metode Naïve Bayes diperoleh akurasi 72,22 % (Wijaya et al. 2013). Analisis kualitas
layanan provider telepon seluler pada media sosial Twitter menggunakan Naïve Bayes
menunjukan provider dengan tingkat kepuasan pelanggan tertinggi (Calvin dan Setiawan
2014). Pada koleksi data 400 kalimat dilaporkan akurasi kinerja yang sangat tinggi dalam
klasifikasi dokumen yaitu 97% (Yu dan Hatzivassiloglou 2003) dan memiliki hasil yang
baik untuk klasifikasi sentimen menggunakan N-gram dan POS-tag sebagai fitur (Pak dan
Paroubek 2010). Pada koleksi data yang besar, metode Naïve Bayes menghasilkan akurasi
97%. Dengan demikian Naïve Bayes adalah salah satu teknik klasifikasi yang akurat,
efisien, dan mudah diinterpretasi (Wu et al. 2008; Rennie et al 2003).
Salah satu varian dari metode Naïve Bayes untuk menangani data Multinomial yang
digunakan dalam klasifikasi teks adalah metode Naïve Bayes Multinomial. Model
Multinomial menghasilkan akurasi lebih baik daripada model Multi-variate Bernoulli
untuk klasifikasi teks pada data dengan kosakata dalam jumlah besar sedangkan Multivariate Bernoulli sebaliknya (McCallum dan Nigam 1998). Metode Multinomial Naïve
Bayes merupakan metode Naïve Bayes untuk menghitung frekuensi kata atau istilah (term
frequency) dalam dokumen. Salah satu kelemahan dari metode Naïve Bayes adalah asumsi
independen di antara fitur padahal fitur saling terkait dan tergantung satu sama lain
(Domingos dan Pazzani 1997; Zheng dan Webb 2005). Oleh sebab itu, diajukan metode
Naive Bayes Tree. Metode Naïve Bayes Tree merupakan metode gabungan antara Naïve
Bayes dan Decision Tree. Metode Naïve Bayes Tree secara efektif dapat mengurangi waktu
komputasi dengan cara melakukan penghapusan redudansi data asli sehingga menghasilkan
akurasi lebih baik dari metode Naïve Bayes dan metode Decision Tree (Veeraswamy et al.
2013). Mengadaptasi dari algoritme naïve bayes tree, untuk pengklasifikasian teks maka
lahirlah metode Multinomial Naïve bayes Tree (MNBTree) yang menunjukan tingkat
akurasi lebih baik dari Metode Naïve Bayes Tree (Wang et al. 2014). Metode MNBTree
merupakan gabungan dari metode Multinomial Naïve Bayes (MNB) dan metode Decision
Tree. Standar MNB secara substansi dapat ditingkatkan dengan menerapkan transformasi
TF-IDF (Term Frequency-Inverse Document Frequency) untuk fitur kata dan normalisasi
vektor fitur yang dihasilkan dengan panjang vektor rata-rata yang diamati dalam data
(Kibriya et al. 2005).

2 TINJAUAN PUSTAKA
Metode Naïve Bayes
Naïve Bayes merupakan metode yang digunakan untuk melakukan klasifikasi dengan
menggunakan metode statistik dan probabilistik. Metode ini dikemukakan oleh ilmuwan
Inggris Thomas Bayes untuk memprediksi peluang masa depan berdasarkan pengalaman
masa lalu yang selanjutnya disebut Teorema Bayes yang dikombinasikan dengan naïve dan
mempunyai asumsi kondisi atribut saling bebas. Teorema Bayes mempunyai persamaan
seperti persamaan 1 (Manning et al. 2009) :


│� =

P X|H , P H
P X

.......................

(1)

Dimana P(H/X) adalah probabilitas atau peluang hipotesis H menurut kondisi X
(posteriori probability), X adalah data yang belum diketahui kelasnya, sedangkan H adalah
hipotesis data X yang merupakan suatu kelas spesifik. P(H) adalah probabilitas hipotesis H

4
(Prior probability), dimana P(X/H) adalah probabilitas X menurut kondisi hipotesis H,
sedangkan P(X) adalah Probabilitas X.
Pada proses ekstraksi fitur terdapat pembobotan kata berdasarkan kemunculan kata.
Fungsi klasifikasi yang digunakan adalah fungsi klasifikasi dengan basis peluang (Azis
2013). Setelah dilakukan tahapan ekstraksi fitur pada data maka dilakukan tahapan
algoritme Naïve Bayes.
Metode Naive Bayes telah berhasil untuk mendokumentasikan klasifikasi dalam
banyak upaya penelitian. Metode Bayes merupakan metode dalam machine learning
berdasarkan data training dengan probabilitas bersyarat. Klasifikasi Bayes merupakan
klasifikasi statistik untuk memprediksi kelas suatu anggota probabilitas. Klasifikasi Naïve
Bayes diasumsikan bahwa efek suatu nilai atribut dalam sebuah kelas bersifat bebas dari
atribut lain. Asumsi ini disebut class conditional independence yang dibuat untuk
memudahkan perhitungan-perhitungan. Pengertian ini dianggap “Naive”, dalam bahasa
lebih sederhana naïve itu mengasumsikan bahwa kemunculan suatu term kata dalam suatu
kalimat tidak dipengaruhi kemungkinan kata-kata yang lain dalam kalimat. Padahal dalam
kenyataannya bahwa kemungkinan kata dalam kalimat sangat dipengaruhi kemungkinan
keberadaan kata-kata yang dalam kalimat. Beberapa metode varian dari metode Naïve
Bayes antara lain : Complement Naïve Bayes, Naïve Bayes Multinomial, Naïve Bayes
Bernouli, Multiclass Multinomial Naïve (MMNB), Naïve Bayes Tree, Discriminatively
Weighted Multinomial Naive Bayes (DWMNB), Multiclass Multinomial Naive Bayes Tree
(MMNB) dan Multinomial Naïve Bayes Tree (Wang et al. 2014).
Metode Multinomial Naive Bayes
Multinomial Naïve Bayes merupakan algoritme Naïve Bayes yang menangani data
multinomial yang digunakan dalam klasifikasi teks. Data dalam Multinomial Naïve Bayes
direpresentasikan sebagai jumlah vektor kata. Sehingga Multinomial naïve bayes
merupakan metode naïve bayes untuk menghitung frekuensi kata atau istilah (term
frequency) dalam dokumen. Dalam multinomial naïve bayes pertama dilakukan
penghitungan probabilitas kata dalam kelas (prior) menggunakan persamaan 2 berikut
(Manning et al. 2009):

� |

∝�

∏ �…………………………….
�|

(2)

≤�≤�

� � | adalah peluang istilah (term) � yang muncul dalam sebuah dokumen
dengan kelas . �
adalah peluang suatu dokumen
dalam kelas . Nilai peluang
dokumen d pada kelas c dihitung menggunakan persamaan 3 (Manning et al. 2009):
�̂

=

��


……………….

(3)

�� adalah jumlah dokumen dalam kelas dan � adalah jumlah total dokumen. Peluang
� | sebagai frekuensi relatif istilah dalam dokumen milik kelas , dihitung dengan
persamaan 4 (Manning et al. 2009):

5
�̂ |

=∑

��

�′ ∈� � �′



……………….

(4)

��� merupakan jumlah kemunculan istilah dalam dokumen training dari kelas .
∑� ′ ∈� ��� ′ ′ adalah jumlah seluruh istilah yang terdapat pada seluruh dokumen di kelas
termasuk istilah yang muncul berulang kali pada dokumen yang sama. Istilah yang tidak
muncul dalam dokumen menghasilkan nilai frekuensi � � | adalah nol sehingga
ditambahkan nilai frekuensi satu atau laplace smoothing (Manning et al. 2009) seperti
persamaan 5:
�̂ |

=

��� +
∑� ′ ∈� ��� ′ +

��� +
∑� ′ ∈� ��� ′ + �′

=

……………….

(5)

Di mana � = | � | adalah semua jumlah kosa kata dalam data training. Dengan
demikian algoritme Multinomial Naïve Bayes untuk tahapan pelatihan seperti berikut
(Manning et al. 2009) :
MULTINOMIAL NB TRAINING (C,D)
1
V ← ekstrak kosa kata (D)
2
N ← jumlah dokumen (D)
3
for each c ∈ C
4
do �� ← jumlah dokumen dalam kelas (D, c)
5
prior [c] ← �� / N
6
textc ← gabungan teks dari semua dokumen dalam kelas (D, c)
7
for each t ∈ V
8
do Tct ← jumlah token term (textc, t)
9
for each t ∈ V
� +
10
do condprob[t][c] ← ∑ �� +
11

return V, prior, condprob

�′

�′

Proses training pada algoritme Multinomial Naïve Bayes adalah tahapan
dilakukannya pelatihan terhadap data yang menjelaskan bahwa � adalah semua jumlah
kosa kata dalam data training kemudian N adalah jumlah banyaknya data yaitu kalimat
komentar Twitter. Untuk setiap kelas dari data dihitung banyaknya data pada masing�
masing kelas (�� ) dibagi banyaknya jumlah data ( �) seperti yang tercantum dalam

persamaan 3 kemudian untuk setiap fitur teks (t) pada � dihitung peluangnya pada masingmasing kelas menggunakan persamaan 4. Jika kondisi t terdapat nilai nol maka dilakukan
laplace smoothing seperti persamaan 5. Tahap selanjutnya adalah menerapkan tahapan
pengujian seperti berikut (Manning et al. 2009) :
MULTINOMIAL NB TESTING (C, V, prior, condprob, d)
1
W ← ekstrak semua token dari dokumen (V, d)
2
for each c ∈ C
3
do score [c] ← log prior [c]
4
for each t ∈ W
5
do score [c] + = log condprob [t][c]
6
return argmax�∈� score[c]

6

Pada tahapan pengujian diterapkan data testing untuk masing-masing kelas dengan
menghitung skor menggunakan persamaan 3, kemudian untuk setiap fitur teks dilakukan
penghitungan menggunakan persamaan 4. Jika terdapat fitur bernilai nol maka diterapkan
persamaan 5. Penerapan tahap pengujian menghasilkan nilai peluang masing-masing kelas
sehingga nilai peluang tertinggi adalah pemenang yaitu peluang terbesar kelas tersebut pada
masing-masing dokumen.
Praproses Data
Tahapan praproses yang dilakukan pada data mentah Twitter menghasilkan 5182
komentar dengan label seperti pada Gambar 1. Untuk score angka negatif (contoh : -1)
mengidentifikasikan kelas negatif sedangkan score angka positif (contoh: 1)
mengidentifikasikan kelas positif dan angka nol (0) mengidentifikasikan kelas netral. Hasil
tahapan praproses dapat dilihat seperti pada Gambar 3, di mana kata sebagai fitur dan angka
sebagai frekuensi kata tersebut dalam dokumen (Lampiran 5). jika diterapkan kedalam data,
maka probabilitas masing-masing kelas menjadi sebagai berikut :
P (Positif)
= 1616 / 5182 = 0.311849
P (Negatif)
= 2321 / 5182 = 0.447897
P (Netral)
= 1245 / 5182 = 0.240255
Selanjutnya data dibagi menjadi data training dan data testing. Fase training merupakan
pembentukan model Multinomial Naïve Bayes Tree terhadap dokumen yang digunakan.
Fase selanjutnya adalah proses testing yaitu penerapan model Multinomial Naïve Bayes
Tree terhadap data baru. Pembagian data training dan data testing adalah 80-20 yaitu 80%
untuk data training dari seluruh data dan 20% untuk data testing dari seluruh data.

Gambar 1 Hasil skoring untuk pelabelan kelas positif, negatif dan netral

Metode Naïve Bayes Tree
Tahapan algoritme NBTree dijelaskan seperti berikut (Kohavi 1996) :
Algoritme: Metode Naïve Bayes Tree
Input
: himpunan T berisi instance dengan label.
Output
: pohon keputusan dengan pengkategorian Naïve Bayes pada daun
1. Hitung utility untuk setiap atribut Xi, buat threshold untuk menangani atribut kontinyu.
2. Misalkan j = arg maxi(ui) sebagai atribut dengan utility tertinggi.
3. Jika uj tidak lebih tinggi dari utility dari node yang dimiliki sekarang, buat model naïve
bayes untuk node yang dimiliki sekarang dan kembali ke langkah 1.

7
4. Mempartisi T menurut pengujian di Xj.. Jika Xj kontinyu maka menggunakan threshold;
jika Xj adalah diskrit, multi-way split dibuat untuk semua nilai yang mungkin.
5. Untuk setiap child, panggil algoritme secara rekursif untuk membagi T yang sesuai
dengan pengujian yang mengarah ke child.
Input algoritme NBTree adalah himpunan T yang terdiri atas instance dengan
labelnya sedangkan output adalah metode Decision Tree dengan dengan pengkategorian
Naïve Bayes pada setiap daun dari pohon keputusannya.
Metode Multinomial Naïve Bayes Tree (MNB Tree)
Mengadaptasi dari algoritme naïve bayes tree, untuk pengklasifikasian teks maka
lahirlah metode Multinomial Naïve bayes Tree yang menunjukan tingkat akurasi lebih baik
dari metode Naïve Bayes Tree (Wang et al. 2014). Metode Multinomial Naïve Bayes Tree
mengembangkan klasifikasi teks naïve bayes multinomial di setiap node pada pohon
keputusan. Metode Multinomial Naïve Bayes Tree terinspirasi dari metode Naïve Bayes
Tree yang mempunyai kompleksitas waktu yang tinggi dalam tahapannya. Dalam
penerapannya, algoritme Multinomial Naïve Bayes Tree merupakan adaptasi metode
Decision Tree dan metode Multinomial Naïve Bayes. Decision Tree merupakan metode
yang digunakan untuk klasifikasi yang menghasilkan bentuk struktur pohon yang terdiri
dari akar (root node) dan daun (leaf node). Metode Decision Tree dapat menangani data
kategorik dan numerik.

3 METODE
Tahapan yang ditempuh dalam penelitian ini pertama dilakukan persiapan data yang
akan diambil, kedua melakukan praproses pada data pesan Twitter, ketiga melakukan
pemodelan klasifikasi sentimen pada opini pesan Twitter, seperti yang ditampilkan oleh
Gambar 2.
Pada tahapan pertama, dilakukan koneksi dengan API (Application Programming
Interface). Tahap kedua praproses data sebagai tahapan yang dilakukan sebelum data utama
diproses mencakup mengkonversi tweet menjadi huruf kecil (lowercase) kemudian
membersihkan tweet dari : ReTweet, ID Pengguna (user ID), tanda baca, angka, link web,
stopwords, stemming, normalisasi dan pelabelan . Setelah tahapan praproses, data dibuat
menjadi dokumen matrix yaitu representasi kata dan frekuensi kata dalam dokumen. Tahap
terakhir yaitu pembentukan model menggunakan Multinomial Naïve Bayes menggunakan
Weka 3.6 (Lampiran 1) dan Multinomial Naïve Bayes Tree menggunakan Netbeans IDE
8.0.2 (Lampiran 2,8,9 ). Selanjutnya dilakukan pengujian terhadap model yang digunakan.
Persiapan Data
Twitter menyediakan Application Programming Interface (API) yang memungkinkan
mengumpulkan tweet oleh pengguna pihak ketiga. API layanan gratis yang terbatas pada
sampel 1% dari semua tweet (Hawwash 2014). Data yang digunakan dalam penelitian ini
adalah data tweet komentar pengguna Twitter berbahasa Indonesia yang diambil dari API

8
mengenai status pengguna Twitter berbahasa Indonesia tentang provider telekomunikasi
yang ada di Indonesia.

Gambar 2 Tahapan Penelitian
Praproses
Setelah menyimpan tweets dalam data, dilakukan langkah-langkah praproses berikut:
1. Mengkonversi tweet menjadi huruf kecil (lowercase) kemudian membersihkan tweet
dari : ReTweet, ID Pengguna (user ID), tanda baca, angka, link web, stopwords (Tabel
2) serta dilakukan stemming dan normalisasi. Tabel 3 menampilkan beberapa kata yang
dilakukan normalisasi menjadi kata baku Bahasa Indonesia. Stemming adalah
mengubah kata menjadi kata dasarnya sedangkan normalisasi yaitu mengubah kata
menjadi bentuk yang diinginkan dalam hal ini bahasa “gaul” dan Bahasa daerah yang
dirubah kedalam bentuk kata baku Bahasa Indonesia. Hasil tahapan tersebut disimpan
dalam fail. Tahap ini menghasilkan kata kunci sentimen positif dan negatif yang
kemudian disimpan dalam korpus. Adapun kata kunci yang mempunyai nilai sentimen
positif dan negatif dapat dilihat pada Tabel 1 sebagai bahan korpus kata opini sentimen
untuk melakukan pelabelan pada masing-masing tweet.
2. Pelabelan menggunakan kamus lexicon dan korpus seperti yang digambarkan oleh
Tabel 1. Kamus lexicon yang digunakan adalah berbahasa Inggris (Liu dan Street 2005)
yang mencakup opini positif (Tabel 4) dan negatif (Tabel 5) yang kemudian
diterjemahkan ke dalam Bahasa Indonesia menggunakan google translate (Tabel 6, 7).

9
3. Melakukan tokenisasi yaitu input teks dalam kalimat dipecah ke dalam kata tunggal
kemudian diubah menjadi matriks menggunakan Bahasa pemrograman R (Tampilan 7)
seperti pada Gambar 3.
Tabel 1 Kata dalam korpus kata kunci sentimen positif dan negatif
Positif
aktif
percaya
bagus
selamat
bantu
semangat
benar
semoga
bisa
senang
boleh
senyum
bonus
seru
cepat
setia
dukung
sukses
gampang
terimakasih
gratis
baik
hadiah
juara
kejutan
untung
keren
menang
oke

tunggu
nihil
susah
lama
jauh
mati
keluh
komplain
kalah
kendala
error
habis
gangguan
jelek

Negatif
turun
pusing
lambat
palsu
ganti
masalah
potong

Gambar 3 Hasil tahapan praproses

10

Tabel 3 Beberapa kata yang dijadikan stopword
Stopword
ada
adalah
adanya
adapun
agak
agaknya
agama
agar
agustus
air
akan
akankah
akhir
akhiri
akhirnya
akibat
aku
akulah
alam
album

Tabel 2 Beberapa kata yang dilakukan Normalisasi
Normalisasi
Sebelum
Sesudah
account
akun
automatic otomatis
bales
balas
bner
benar
bnr
benar
bnyk
banyak
boong
bohong
boss
bos
bru
baru
bsa
bisa
bth
butuh
bwh
bawah
byar
bayar
byk
banyak
byr
bayar
call
panggil

11
Praproses data dilakukan menggunakan Bahasa pemrograman R sampai dengan penentuan
label kelas pada masing-masing dokumen atau kalimat komentar Twitter. Pada pelabelan
menggunakan kamus Lexicon yang diterjemahkan kedalam Bahasa Indonesia dan korpus
seperti pada Tabel 1. Cara menentukan label adalah menghitung skor jumlah kata positif
dikurangi skor jumlah kata negatif dalam kalimat tersebut . Selanjutnya data dibagi menjadi
2, yakni data latih (training) dan data uji (testing). Data training digunakan untuk memberi
pengetahuan tentang ciri-ciri suatu kelas. Untuk mengambil ciri-ciri suatu kelas, dilakukan
proses seperti yang diilustrasikan pada Gambar 4. Penerapan metode MNBTree
menggunakan Netbeans IDE 8.0.2 untuk data training (Lampiran 3) dan testing (Lampiran
4, 10).

Gambar 4 Flowchart proses training
Sumber : Twitter Sentiment Tracking for Predicting Marketing Trends (Esiyok dan Albayrak)

Tabel 4 Beberapa daftar kata opini sentimen positif pada kamus Lexicon
Opini positif kamus Lexicon
a+
abound
abounds
abundance
abundant
accessable
accessible
acclaim
acclaimed
acclamation
accolade
accolades
accommodative
accomodative
accomplish
accomplished
accomplishment
accomplishments
accurate

12

Tabel 5 Beberapa daftar kata opini sentimen negatif pada kamus Lexicon
Opini negatif kamus Lexicon
2-faced
2-faces
abnormal
abolish
abominable
abominably
abominate
abomination
abort
aborted
aborts
abrade
abrasive
abrupt
abruptly
abscond
absence
absent-minded
absentee
absurd

Metode Multinomial Naïve Bayes Tree (MNB Tree)
Dalam tekniknya, Multinomial Naïve Bayes Tree membangun sebuah pohon biner,
di mana nilai-nilai atribut perpecahan hanya dibagi menjadi nol dan bukan nol dan
menggunakan ukuran information gain untuk membangun pohon untuk mengurangi
konsumsi waktu.
Algoritme: Metode MNBTree (D) (Wang et al. 2014)
Input: Contoh data training D
Output: Pembelajaran metode MNBTree teks klasifikasi
1. Atur ukuran minimum leaf l menjadi | D | * 40%
2. Jika | D | kurang dari l maka buat leaf node dan membangun metode MNB menggunakan
contoh-contoh yang ada dalam leaf node tersebut, dan kemudian kembali
3. Untuk setiap atribut Wi, menggunakan Persamaan 6, untuk mendapatkan information
gain (Wang et al. 2014):

��

,



=

−∑

�∈{ ,̅}



�│

│ │



…….. (6)

13

Di mana D adalah Himpunan dokumen atau data, � adalah fitur yang berupa masingmasing kata dalam dokumen, │ � │ adalah Jumlah dokumen pada partisi ke v sedangkan
│ │adalah Jumlah dokumen dalam himpunan dokumen.
4. Tetapkan Wmax menjadi atribut dengan maksimum informasi gain Gmax
5. Jika Gmax = 0 buat leaf node dan bangun algoritme MNB menggunakan contoh ke leaf
node ini, dan kemudian kembali
6. Selainnya untuk setiap contoh d di D
(A) Tetapkan Vwmax (d) menjadi nilai Wmax dalam d
(B) Jika Vwmax (d) = 0 kemudian tetapkan d ke left child Dl
(C) Selainnya, tetapkan d untuk right child Dr
7. Tetapkan D = Dl dan kembali ke langkah 2
8. Tetapkan D = Dr dan kembali ke langkah 2
9. Kembali ke klasifikasi teks metode MNBTree
Di mana | Dv | adalah jumlah contoh yang nilai atribut wi adalah v (v ∈ {0, ̅ }), Entropi
(D) adalah Entropi D, yang dapat dihitung dengan persamaan 7 (Wang et al. 2014).
= −∑�
dimana

�∈�

∗ � ��

………………..

(7)

adalah himpunan dokumen sedangkan P (c) adalah probabilitas kelas c di D.
Tabel 6 Kamus Lexicon opini sentimen positif dalam bahasa Indonesia
Lexicon Positif Bahasa
Indonesia
a+
berlimpah-limpah
berlimpah
kelimpahan
berlimpah-limpah
diakses
diakses
tepuk tangan sorak
diakui
aklamasi
penghargaan
penghargaan
akomodatif
akomodatif
menyelesaikan
kesampaian
prestasi
prestasi
tepat
akurat

14

Apabila nilai information gain yang dihasilkan adalah nol atau jumlah fitur kurang
dari 40% dari jumlah data (dokumen) maka penghitungan dilakukan dengan menggunakan
Mutinomial Naïve Bayes. Nilai minimum daun (leaf) yaitu l dipilih nilai empiris | D | *
40% sebagai nilai minimum ukuran daun sebagai upaya agar mengurangi konsumsi waktu,
overfitting, dan mengurangi kompleksitas node daun pada data training (Wang et al. 2014).
Minimal ukuran daun mempengaruhi ukuran pohon yang dibangun.
Setelah diketahui ukuran minimum daun kemudian dihitung information gain pada
tiap atribut Wi. Di mana Wi adalah atribut yaitu fitur kata ke i dihitung menggunakan
persamaan 6. Selanjutnya menetapkan Wmax menjadi atribut dengan nilai informasi gain
tertinggi (Gmax). Jika Gmax bernilai nol dijadikan cabang sisi kiri (child left) yaitu Dl
dilakukan penghitungan menggunakan metode MNB namun jika Gmax bernilai bukan nol
dijadikan cabang sisi kanan (child right) yaitu Dr dilakukan penghitungan menggunakan
metode Decision Tree.
Tabel 7 Kamus Lexicon opini sentimen negatif dalam bahasa Indonesia
Lexicon Negatif Bahasa Indonesia
berwajah 2
wajah 2
abnormal
menghapuskan
mengerikan
mengerikan
merasa jijik
sesuatu yg sangat dibenci
menggugurkan
dibatalkan
dibatalkan
mengelupas
abrasi
mendadak
tiba-tiba
melarikan diri
ketiadaan
linglung
absen
konyol

Evaluasi Model
Penelitian ini menggunakan evaluasi model Confusion Matrix untuk mengetahui hasil
akurasi klasifikasi terhadap metode yang digunakan. Ukuran dan formula Confusion Matrix
yang digunakan disajikan pada Tabel 8 (Han et al. 2012).

15
TP (True Positif) adalah positif sejati yaitu label pada data sama dengan hasil prediksi
model, sedangkan TN (True Negatif) adalah negatif sejati sejati yaitu label pada data
berbeda dengan hasil prediksi model. FP (False Positif) adalah positif palsu, sedangkan
FN (False Negatif) adalah negatif palsu seperti yang dijelaskan oleh Tabel 9 (Han et al.
2012).
Tabel 8 Confusion Matrix
Aktualisasi
Kelas = ya
Kelas = tidak

Kelas Prediksi
Kelas = ya Kelas = tidak
tp
fn
fp
tn

Peralatan Penelitian
Spesifikasi peralatan perangkat keras dalam penelitian ini menggunakan Prosesor Intel
Core i5 – 3337U 1.8 GHz, RAM 4 GB, HDD 750 GB. Adapun spesifikasi perangkat lunak
dalam penelitian ini menggunakan sistem operasi Windows 8 64-bit. Alat bantu dalam
tahapan pengambilan data, praproses, dan pelabelan data menggunakan RStudio versi
0.99.903 (2009-2016) dengan R versi 3.2.3. Perangkat server web yang digunakan adalah
XAMPP versi 3.2.1, sedangkan server basis data yang digunakan adalah MySQL versi
5.6.16. Metode Multinomial Naïve Bayes diimplementasikan menggunakan Weka versi
3.6.10 sedangkan pada tahapan penerapan metode Multinomial Naïve Bayes Tree
menggunakan Netbeans IDE 8.0.2 dan Java versi 1.8 (http://www.oracle.com).

4 HASIL DAN PEMBAHASAN
Persiapan Data
Pada tahapan pertama, dilakukan koneksi dengan API (Application Programming
Interface) yaitu dengan cara registrasi terlebih dahulu untuk mendapatkan akun dalam
pengambilan data Twitter untuk mendapatkan API Key, API Secret, Access Token, Access
Token Secret. Setelah mendapatkan API Key, API Secret, Access Token, Access Token
Secret kemudian melakukan otentifikasi dan registrasi. Hasil pada tahapan pertama
didapatkan data berupa komentar pengguna Twitter. Selanjutnya dilakukan pengambilan
data berdasarkan kata kunci yang diperlukan. Data yang telah diambil kemudian disimpan
dalam bentuk frame pada Bahasa pemrograman R (Lampiran 7), lalu disimpan dalam file
format CSV (Comma Delimited) seperti yang digambarkan oleh Gambar 5. Fitur yang
terdapat dalam data antara lain : text, favorited, favoriteCount, replyToSN, created,
truncated, replyToSID, id, replyToUID, statusSource, screenname, retweetCount,
isRetweet, retweeted, longitude, latitude. Fitur yang diambil dalam penelitian ini hanya
kolom text yang merupakan isi dari komentar pengguna Twitter seperti yang digambarkan
oleh Gambar 6.

16

Gambar 5 Hasil pengambilan data Twitter melalui API

Gambar 6 Kolom text yang berisi komentar dari pengguna Twitter
Data yang digunakan dalam penelitian ini adalah data tweet komentar pengguna Twitter
berbahasa Indonesia yang diambil dari API mengenai status pengguna Twitter berbahasa
Indonesia tentang provider telekomunikasi yang ada di Indonesia. Akun masing-masing
provider yaitu Telkomsel (@Telkomsel, @kartuas, @simpati), Indosat (@Indosat,
@Indosatcare, @Indosatmania), XL (@XL, @XLandme, @XLcare). Pengumpulan data
menghasilkan 5210 komentar (Lampiran 6) yang terdiri dari iklan provider dan komentar
pengguna Twitter. Komentar yang berhasil ditambang dari tanggal 5 Januari 2016 sampai
tanggal 3 Januari 2016.
Metode Multinomial Naïve Bayes Tree
Setelah data diterapkan ke dalam metode Multinomial Naïve Bayes Tree, dihasilkan
root dengan information gain tertinggi pada kata “aktif” dengan child kiri kata “untung”
dan child kanan kelas “negatif”, sedangkan Leaf yang terbentuk sebanyak 22.

17

Mulai
Menetapkan Wmax menjadi
atribut information gain maksimum

Data Training

Wmax

Atur ukuran minimum leaf,
| D | * 40%
Minimum
leaf

Gmax = 0
Ya
Tidak

Tidak

Menetapkan Vwmax (d)
menjadi nilai Wmax di d

|D|