Analisis Sentimen Terhadap Acara Televisi Indonesia Berdasarkan Opini Publik

ANALISIS SENTIMEN TERHADAP ACARA TELEVISI
INDONESIA BERDASARKAN OPINI PUBLIK

SKRIPSI

Diajukan untuk memenuhi Ujian Akhir Sarjana

ADITIA RAKHMAT SENTIAJI
10110139

PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS TEKNIK DAN ILMU KOMPUTER
UNIVERSITAS KOMPUTER INDONESIA
2014

Name
Place/ Date of Birth
Address
Gender
Height/Weight
Citizenship

Ethnic
Blood Type
Religion
Email

20010 – 2014

:
:
:
:
:
:
:
:
:
:

Aditia Rakhmat Sentiaji
Majalengka / 10 May 1992

Sekeloa Tengah No.36 RT/RW 02/04
Male
165/50
Indonesia
Sundanese
O
Islam
aditia.rakhmat@outlook.com

Indonesia Computer University (UNIKOM)
 Majors : Informatic Engineering

2007 – 2010

SMAN I Majalengka
 Majors : SCIENCE

2004 – 2007

SMPN 1 Kadipaten


1998 – 2004

SDN Cideres II Dawuan – Majalengka

1997 – 1998

TK Budi Asih V, Dawuan – Majalengka

2011 – 2012

HMIF

(Himpunan

Mahasiswa

Teknik

Informatika)


UNIKOM
 Young Class (Angkatan Muda)
2011- 2014

CODELABS UNIKOM
 Member
 Lead (2012-2014)

2012- 2014

MSP (Microsoft Student Partner) Regional Jawa Barat
 Member

2013

First Winner In Indonesia ICT Awards 2013 Interactive Digital Media

for Hyjabs
Mobile Application, in Jakarta


2013

Second Winner In Motekar UNPAD Awards 2013 Technology
Inovation for Game Play Me Congklak, in Bandung

2014

Winner in Digital Creative Indonesia Telkomsel 2013 Aplikasi Paling
Indonesia for Game Play Me Congklak, in Jakarta

Bandung, 2014

Aditia Rakhmat Sentiaj

DAFTAR ISI
ABSTRAK ......................................................................................................... i
ABSTRACT ........................................................................................................ ii
KATA PENGANTAR ........................................................................................ iii
DAFTAR ISI ....................................................................................................... v

DAFTAR GAMBAR ......................................................................................... viii
DAFTAR TABEL ............................................................................................... x
DAFTAR SIMBOL ............................................................................................ xii
DAFTAR LAMPIRAN ...................................................................................... xvi
BAB I PENDAHULUAN ................................................................................... 1
I.1

Latar Belakang Masalah ....................................................................... 1

I.2

Perumusan Masalah .............................................................................. 3

I.3

Maksud dan Tujuan .............................................................................. 3

I.4

Batasan Masalah ................................................................................... 3


I.5

Metodologi Penelitian ........................................................................... 4

I.5.1

Metode Pengumpulan Data................................................................... 4

I.5.2

Metode Pembangunan Perangkat Lunak .............................................. 4

I.5.3

Metode Ekstraksi .................................................................................. 5

I.6

Sistematika Penulisan ........................................................................... 6


BAB II LANDASAN TEORI ............................................................................. 9
II.1

Sentimen Publik Terhadap Acara Televisi ........................................... 9

II.2

Text Mining .......................................................................................... 10

II.3

Analisis Sentimen ................................................................................. 10

II.4

Regular Expression ............................................................................... 11

II.5


Preprocessing ........................................................................................ 13

II.6

Naïve Bayes Classifier .......................................................................... 17

II.7

Percentage Split .................................................................................... 18

II.8

Pemrograman Berorientasi Objek......................................................... 18

II.9

Unified Modeling Language ................................................................. 20

BAB III ANALISIS SISTEM DAN PERANCANGAN .................................... 23
v


III.1

Analisis Sistem ..................................................................................... 23

III.1.1

Analisis Masalah ................................................................................... 23

III.1.2

Analisis Sistem Penilaian Berjalan ....................................................... 23

III.1.3

Analisis Karakteristik Sumber Data ..................................................... 25

III.1.4

Analisis Preprocessing .......................................................................... 29


III.1.5

Analisis Penerapan Algoritma Naïve Bayes Classifier ........................ 39

III.1.6

Analisis Penerapan Percentage Split .................................................... 44

III.1.7

Analisis Kebutuhan Non Fungsional .................................................... 46

III.1.7.1 Analisis Kebutuhan Perangkat Lunak .................................................. 47
III.1.7.2 Analisis Kebutuhan Perangkat Keras ................................................... 47
III.1.7.3 Analisis Kebutuhan Perangkat Pikir ..................................................... 47
III.1.8

Analisis Kebutuhan Fungsional ............................................................ 48

III.1.8.1 Deskripsi Global Perangkat Lunak ....................................................... 48
III.1.8.2 Use Case Diagram ................................................................................ 48
III.1.8.3 Activity Diagram .................................................................................. 58
III.1.8.4 Class Diagram ....................................................................................... 66
III.1.8.5 Sequence Diagram ................................................................................ 67
III.2

Perancangan Sistem .............................................................................. 69

III.2.1

Perancangan Data ................................................................................. 69

III.2.2

Perancangan Antarmuka ....................................................................... 71

III.2.3

Perancangan Pesan ................................................................................ 74

III.2.4

Perancangan Fungsional ....................................................................... 74

BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM ................................. 77
IV.1

Implementasi Sistem ............................................................................. 77

IV.1.1

Lingkungan Implementasi .................................................................... 77

IV.1.1.1 Implementasi Perangkat Lunak ............................................................ 77
IV.1.1.2 Implementasi Perangkat Keras ............................................................. 77
IV.1.2

Implementasi Data ................................................................................ 78

IV.1.3

Implementasi Antarmuka ...................................................................... 79

IV.2

Pengujian Sistem .................................................................................. 79

IV.2.3.1 Rencana Pengujian ................................................................................ 80

vi

IV.2.3.2 Skenario Pengujian ............................................................................... 80
IV.2.3.3 Hasil Pengujian ..................................................................................... 83
IV.2.3.1 Evaluasi Pengujian................................................................................ 95
BAB V KESIMPULAN DAN SARAN ............................................................ 97
V.1

Kesimpulan ........................................................................................... 97

V.2

Saran ..................................................................................................... 97

DAFTAR PUSTAKA ......................................................................................... 98

vii

DAFTAR PUSTAKA

[1] F. Rozy, "Rakyat Medeka Online," Indonesian Online Media Syndicate, 2
November

2009.

[Online].

Available:

http://www.rakyatmerdeka.co.id/news/2009/11/02/83360/Pakar:-TelevisiCenderung-Tampilkan-Wajah-Buruk. [Accessed 19 Maret 2014].
[2] J. Bernstein, “Social Media in 2013: By the Numbers,” Social Media Today
Community,

6

November

2013.

[Online].

Available:

http://socialmediatoday.com/jonathan-bernstein/1894441/social-media-statsfacts-2013. [Diakses 27 Januari 2014].
[3] E. Turban, R. Sharda dan D. Delen, Decision Support and Business
Intelligence Systems, 2011: Pearsson, New Jersey.
[4] F. Wulandini dan A. S. Nugroho, “ext Classification Using Support Vector
Machine for Webmining Based Spation Temporal Analysis of the Spread of
Tropical Diseases,” International Conference on Rural Information and
Communication Technology, Jakarta, 2009.
[5] I. Sommerville, Software Engineering vol. 8th ed, Addison-Wesley, 2007.
[6] N. A. Diakopoulos and D. A. Shamma, "Characterizing Debate Performance
via," Yahoo Research, 2010.
[7] R. Atmasari, “Acara TV Terburuk 2013 Versi Twitter,” Tempo, 19 Desember
2013.

[Online].

Available:

http://www.tempo.co/read/news/2013/12/19/112538664/Acara-TVTerburuk-2013-Versi-Twitter. [Diakses 18 Maret 2014].
[8] B. Pang dan L. Lee, “Opinion Mining and Sentiment Analysis,” Foundation
and Trends In Information Retrieval, vol. 2, p. 10, 2008.

98

99

[9] L. Vogel, “Java Regex - Tutorial, Vogella,” 14 Januari 2014. [Online].
Available:
http://www.vogella.com/tutorials/JavaRegularExpressions/article.html.
[Diakses 19 April 2014].
[10] W. B. Croft, D. Metzler dan T. Strohman, “Document Parsing,” dalam Search
Engines Information Retrieval in Practice, Boston, Pearson, 2010, pp. 86 101.
[11] R. Kirkby, E. Frank and P. Reutemann, "WEKA Explorer User Guide for
Version 3-5-5," University of Waikato, 2007.
[12] D. Clark, “Overview of Object-Oriented Programming,” dalam Beginning C#
Object-Oriented Programming, New York, Apress, 2013, pp. 3-4.

KATA PENGANTAR
Assalamu’alaikum Wr.Wb
Puji dan syukur dipanjatkan kehadirat Allah SWT karena berkat rahmat dan
karunia-Nya, penelitian yang berjudul “ANALISIS SENTIMEN TERHADAP
ACARA INDONESIA TELEVISI BERDASARKAN OPINI PUBLIK” dapat
terselesaikan sesuai dengan waktu yang diharapkan. Penelitian ini dibuat untuk
memenuhi salah satu syarat kelulusan untuk program strata I, program studi Teknik
Informatika di Fakultas Teknik dan Ilmu Komputer, Universitas Komputer
Indonesia.
Melalui kata pengantar ini, disampaikan rasa terima kasih yang sebesarbesarnya kepada semua pihak yang telah terlibat secara langsung ataupun tidak
langsung dalam meluangkan waktu dan pemikirannya sehingga penelitian ini dapat
terselesaikan. Berikut pihak-pihak yang telibat dalam penelitian ini.
1. Allah SWT atas bantuan dan izin-Nya penelitian ini bisa terselesaikan.
2. Keluarga yang telah mendukung dalam penelitian ini, khususnya mamah
(Ani Suryani), papah (Dadang Setiadi), dan wa nonoh yang selalu
mendoakan untuk kelancaran penelitian ini beserta kakak (Setia Rakhmat
Hidayat) dan adik-adik (Arif Setia Nurul Tauhidin dan Dani Setiadi Firman
Ilahi) saya.
3. Bapak Adam Mukharil Bachtiar S.Kom.,M.T. selaku dosen pembimbing
yang telah mengarahkan, memberikan masukan, dan membantu baik dalam
proses bimbingan, seminar ataupun sidang dalam penelitian ini dan juga
sebagai ketua codelabs yang telah membina saya menjadi seperti saat ini.
4. Ibu Dian Darmayanti S.Kom.,M.Kom. selaku dosen penguji 1 dan Ibu Rani
Susanto S.Kom.,M.Kom. selaku dosen penguji 3 yang telah memberikan
masukan untuk perbaikan pada penelitian ini.
5. Bapak Irfan Maliki S.T.,M.T. yang telah menjadi dosen wali selama
perkuliahan.
6. Teman seperjuangan di codelabs yaitu, Abdu Sofyan Baihaqi, Muhamad
Nur Awaludin, Mexan Juadha, Rizki Adam Kurniawan, Wulan Fitriani dan
iii

yang terakhir juga Aldy Ginanjar yang sekaligus teman seperjuangan IF-4
2010 berjuang bersama menyelesaikan perkuliahan selama 4 tahun dan
teman dan juga teman-teman codelabs lainnya.
7. Teman-teman seperjuangan bimbingan Bapak Adam Mukharil Bachtiar
S.Kom,.M.T. yang setiap minggunya memperjuangkan penelitiannya
masing-masing.
8. Teman-teman sepananggung sependeritaan seven magnificent Ahmad
Zaelani, Rijal Fauzi Sholihin, Rida Sukmara, Sugiono, Wydianto dari kelas
IF-4 2010, dan teman – teman kelas lainnya yang merasakan bersama-sama
manis pahitnya dunia perkuliahan dan juga teman-teman angkatan 2010.
9. Beserta pihak-pihak lain yang tidak bisa disebutkan satu persatu yang telah
memberikan bantuan dan dukungannya.
Mohon maaf apabila untuk segala kekurangan yang ada dalam penelitian
ini, baik di dalam isi, maupun dalam pengetikan, karena penelitian ini masih jauh
dari kata sempurna. Akhir kata, semoga penelitian ini bisa berguna bagi mahasiswa
atau pihak lain yang tertarik mengetahui lebih jauh mengenai analisis sentimen.
Wassalamualaikum Wr. Wb
Peneliti

Aditia Rakhmat Sentiaji

iv

BAB I
PENDAHULUAN
I.1. Latar Belakang Masalah
Dunia pertelevisian Indonesia kini sedang berkembang. Terbukti dari
semakin banyaknya stasiun televisi swasta baru mengudara baik yang bersifat
nasional ataupun lokal. Banyaknya jumlah stasiun televisi tentu akan berbanding
lurus dengan jumlah dan keberagaman acara televisi. Namun sayangnya dengan
banyaknya jumlah acara televisi tidak diimbangi dengan kualitas acara tersebut.
Banyak acara televisi yang lebih mengedepankan aspek hiburan akan tetapi tidak
mendidik. Banyak acara yang menonjolkan kekerasan, saling menghina,
mengumbar aib seseorang, mengeksploitasi kekurangan seseorang dan lain
sebagainya. Hal tersebut banyak dilakukan hanya untuk meningkatkan rating dan
share acara tersebut. Senada dengan apa yang diungkapkan oleh dosen komunikasi
Universitas Indonesia dan anggota tim panel pemantau KPI Pusat, Nina Mutmainah
Armando. Menurut beliau, seringkali ditampilkan acara yang melanggar norma
kesopanan melecehkan orang, menggunakan bahasa kasar dan menggunakan anak
dalam setting film yang tidak pantas [1].
Sentimen publik bisa dijadikan sebagai indikator untuk melihat apakah acara
tersebut berkualitas atau tidak. Media sosial merupakan media yang sering
digunakan untuk menuangkan sentimen atau opini publik mengenai acara televisi
tersebut. Banyak acara-acara televisi menjadi bahan perbincangan di media sosial,
baik karena kualitas acaranya yang bagus ataupun sebaliknya. Sebagai contoh di
twitter, acara televisi yang sering di-tweet dalam suatu waktu akan menjadi trending
topics. Hal tersebut bisa membuat pengguna yang melihat tertarik untuk menonton
acara televisi tersebut ataupun tidak sama sekali. Tergantung dari konteks yang
diperbincangkan. Sebagai informasi, twitter memiliki sekitar 500 juta pengguna
atau sekitar 4% dari seluruh pengguna twitter berasal dari Indonesia [2]. Angkaangka tersebut menggambarkan akan banyak sekali yang terpengaruh dari
perbincangan yang lagi ramai dibahasa seperti acara televisi.

1

2

Sayangnya media sosial tidak mempunyai kemampuan untuk mengagregasi
topics yang ada di twitter pun hanya menampilkan topik yang sedang
banyakdiperbincangkan tanpa memberikan suatu kesimpulan. Diperlukan metode
khusus agar informasi seperti acara televisi dapat menggunakan banyak sudut
pandang yang bisa digunakan untuk mengambil sebuah kesimpulan tentang postif
atau negatifnya suatu acara televisi.
Berdasarkan penjelasan sebelumnya, diperlukan sebuah cara agar dapat
mengklasifikasikan opini publik menjadi pengetahuan baru berupa kesimpulan
negatif atau positifnya mengenai acara televisi dari data yang ada di media sosial.
Hal tersebut dimungkinkan dengan menggunakan text mining. Text mining yang
juga dikenal dengan text data mining adalah sebuah proses yang semi otomatis
melakukan klasifikasi dari pola yang ada dari database yang tidak terstruktur [3].
Sehingga, hasil dari klasifikasi tersebut bisa menjadi media alternatif bagi
masyarakat untuk memilih acara televisi yang berkualitas.
Berdasarkan hasil dari beberapa penelitian mengenai pengklasifikasian
informasi subjektif atau yang sering disebut analisis sentimen. Dibutuhkan suatu
algoritma untuk dapat mengklasifikasikan suatu opini ke dalam kelas negatif atau
positif. Adapun algoritma yang dapat digunakan dalam pengklasifikasian adalah
C45, Support Vector Machine (SVM), Naïve Bayes Classifier (NBC), K-Nearest
Neighbors, Information Fuzzy Networks, dan masih banyak algoritma lainnya.
Melihat hasil dari penelitian Fatimah Wulandini dan Anto Satriyo Nugroho (Text
Classification Using Support Machine for Webmining Based Spation Temporal
Analysis of the Spread of Tropical Disease, 2009) mendapatkan hasil bahwa
algoritma SVM menunjukan akurasi paling tinggi pada kategorisasi teks Bahasa
Indonesia dengan presentase 92.5%, tidak jauh berbeda dengan algoritma NBC
yang memiliki presentase 90% [4].
Apabila dilihat kompleksitasnya, NBC jauh lebih konvensional dan
sederhana. Hal tersebut berpengaruh terhadap waktu komputasi yang dibutuhkan.
NBC memerlukan waktu komputasi lebih singkat dibanding dengan SVM yang
berkembang secara kuadratik seiring dengan perkembangan jumlah data latih.
Berdasarkan dari kompleksitasnya, waktu yang dibutuhkan untuk komputasi yang

3

lebih rendah, dan akurasi yang tidak terlalu jauh berbeda dari SVM, NBC lebih
cocok untuk diimplementasikan dalam penelitian ini.

I.2.

Perumusan Masalah
Berdasarkan

penjelasan

dari

latar

belakang

ditemukan

beberapa

permasalahan yang dirumuskan ke dalam satu rumusan masalah adalah bagaimana
mengklasifikasi informasi sentimen publik mengenai acara televisi dari opini publik
yang ada di media sosial.
I.3. Maksud dan Tujuan
Maksud dari penelitian ini adalah mengklasifikasi informasi dari media sosial
mengenai sentimen publik terhadap acara-acara televisi nasional berdasarkan opini
publik di media sosial.
Adapun tujuannya dari penelitian ini adalah untuk memberikan informasi
mengenai sentimen publik mengenai acara televisi sehingga bisa dijadikan referensi
untuk menonton acara televisi.

I.4. Batasan Masalah
Dalam pembangunan perangkat lunak ini, pembahasan dibatasi agar tidak
menyimpang dari tujuan yang ingin dicapai, adapun batasan masalahnya adalah :
1. Acara televisi yang akan dianalisis analisis sentimen publiknya dari
televisi nasional.
2. Diambil maksimal 10 acara televisi unggulan dari masing-masing stasiun
televisi.
3. Sistem yang akan dibangun berbentuk prototype.
4. Emoticon yang akan diproses adalah emoticon western style yang akan
didefiniskan pada bahasan selanjutnya.
5. Data didapat langsung diambil dari Twitter memanfaatkan Twitter API.
6. Hasil klasifikasi disajikan dalam bentuk grafik.
7. Metode yang digunakan untuk pengklasifikasian dalam penelitian ini
adalah Naïve Bayes Classifier (NBC).

4

8. Pendekatan analisis pembangunan perangkat lunak menggunakan analisis
berorientasi objek.

I.5. Metodologi Penelitian
Metodologi penelitian yang digunakan dalam penelitian ini adalah penelitian
kualitatif. Metode yang digunakan dalam penulisan laporan penelitian ini
menggunakan dua metode, yaitu metode pengumpulan data dan metode
pembangunan perangkat lunak.

I.5.1

Metode Pengumpulan Data
Metode pengumpulan data yang digunakan dalam membantu penelitian ini

menggunakan dua cara, yaitu dengan cara studi literatur dan dokumen.
1. Studi literatur
Mengumpulkan literatur, jurnal, dan bacaan-bacaan yang berhubungan
dengan judul penelitian.
2. Pengumpulan Dokumen
Sumber data diambil dari sosial media twitter secara langsung.

I.5.2

Metode Pembangunan Perangkat Lunak
Pembangunan perangkat lunak ini menggunakan model waterfall sebagai

tahapan pengembangan perangkat lunaknya.
1. Requirement analysis and definition
Tahap requirement analysis and definition merupakan tahap pengumpulan
kebutuhan secara lengkap kemudian dianalisis dan didefinisikan
kebutuhan yang harus dipenuhi oleh program yang akan dibangun. Fase
ini harus dikerjakan secara lengkap untuk bisa menghasilkan desain yang
lengkap.
2. System and Software design
Tahap system and software design merupakan tahap mendesain perangkat
lunak yang dikerjakan setelah kebutuhan selesai dilakukan secara lengkap.
3. Implementation and unit design

5

Tahap implementation and unit design merupakan tahap hasil desain
program diterjemahkan ke dalam kode-kode dengan menggunakan bahasa
pemrograman yang sudah ditentukan. Program yang dibangun langsung
diuji baik secara unit.
4. Integration and system design
Tahap integration and system design merupakan tahap penyatuan unit-unit
program kemudian diuji secara keseluruhan (system testing).
5. Operation and maintaince
Tahap operation and maintance merupakan tahap mengoperasikan
program dilingkungannya dengan melakukan pemeliharaan, seperti
penyesuaian atau perubahan karena adaptasi dengan situasi sebenarnya.

Gambar I-1 Model Waterfall Menurut Sommerville [5]

I.5.3

Metode Ekstraksi
Berdasarkan tujuan dan tugas pokok, analisis sentimen bisa dibagi menjadi

lima bagian.

6

1. Ekstraksi dan pengelompokan entitas
Mengekstraksi semua ekspresi entitas dari dokumen dan mengelompokan
entitas tersebut. Karena mungkin untuk satu entitas ada dua penulisan
berbeda.
2. Ekstraksi dan pengelompokan aspek
Aspek kategori merepresentasikan aspek yang unik dari entitas.sementara
ekspresi aspek adalah kata atau frasa yang muncul mengindikasikan
kategori aspek. Ekspresi aspek bisa berbentuk kata benda, kata kerja, kata
sifat, atau keterangan.
3. Ekstraksi dan pengelompokan pemilik opini
Mengekstraksi pemilik opini dari data yang terstruktur kemudian
mengkategorisasikan. Dapat dianalogikan dengan dua tugas di atas.
4. Ekstraksi dan standardisasi waktu
Mengekstraksi waktu ketika opini dikeluarkan dan melakukan
standardisasi format waktu yang berbeda.
5. Klasifikasi aspek sentimen
Menentukan apakah sebuah opini apakah termasuk opini negatif ataukah
opini positif.

I.6. Sistematika Penulisan
Sistematika penulisan penelitian ini disusun untuk memberikan gambaran
umum mengenai penelitian yang dikerjakan. Sistematika penulisan penelitian
sebgai berikut :
BAB I PENDAHULUAN
Bab ini menguraikan latar belakang permasalahan, merumuskan inti permasalahan,
mencari solusi atas masalah tersebut, merumuskan masalah tersebut, menentukan
maksud dan tujuan, kegunaan penelitian, pembatasan masalah, asumsi masalah, dan
sistematika penulisan dari penelitian mengenai analisis sentimen ini.
BAB II LANDASAN TEORI
Bab ini mengkaji dan menggunakan berbagai konsep dasar teori-teori dari para ahli
yang berkaitan dengan topik penelitian yaitu analisis sentimen. Meninjau

7

permasalahan dan hal-hal yang berguna dari penelitian-penelitian dan sintesis
serupa yang pernah dikerjakan sebelumnya dan menggunakan sebagai acuan
pemecah masalah pada penelitian ini.
BAB III ANALISIS DAN PERANCANGAN SISTEM
Bab ini menganalisis masalah dari objek penelitian untuk mengetahui hal atau
masalah apa yang timbul dan mencoba memecahkan permasalahan tersebut dengan
memperangkat

lunakan

perangkat-perangkat

yang digunakan. Sedangkan

perancangan adalah suatau tahap pada penelitian dimana perangkat yang digunakan
ditentukan, mengidentifikasi data yang diperlukan, serta menentukan cara kerja
perangkat yang digunakan terhadap objek penelitian yang dirumuskan.
BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM
Bab ini menjelaskan proses dimana analisis dan perancangan yang telah
dipersiapkan untuk selanjutnya diimplementasikan menjadi perangkat lunak dan
dilakukan pengujian terhadap perangkat lunak tersebut.
BAB V KESIMPULAN DAN SARAN
Bab ini berisi mengenai kesimpulan dari semua hal yang dibahas pada bab
sebelumnya dan saran untuk tahap pengembangan selanjutnya.

8

BAB II
LANDASAN TEORI
II.1. Sentimen Publik Terhadap Acara Televisi
Pada tahun 2008 stasiun televisi di Amerika Serikat melakukan suatu
terobosan dengan mulai mengkombinasikan media sosial khususnya microblogging seperti twitter untuk menciptakan pengalaman sosial video di sepanjang
peristiwa. Saat itu acara pertama yang menggunakan terobosan ini untuk acara
debat perdana pemilihan presiden Amerika Serikat. Dibuatlah sebuah metodologi
analisis yang menghitung jumlah nilai dari pesan sentimen yang ada di twitter dan
direpresentasikan ke dalam bentuk visual. Hal tersebut dilakukan untuk membantu
para wartawan atau humas untuk memahami dinamika sementara dari sentimen
sebagai reaksi perdebatan acara.
Nama dari acara televisi yang melakukan hal tersebut adalah Hack the
Debate. Pada acara tersebut mereka meminta partisipasi dari publik untuk
mengomentari selama acara debat berlangsung. Menggunakan layanan Twitter,
tweet yang dikirimkan oleh publik ditampilkan di TV di bawah berlangsungnya
debat calon presiden antara Barack Obama dan John McCain pada saat itu. Acara
tersebut menjadi pionir bagi acara lainnya untuk melakukan hal yang sama. Dengan
banyaknya tweet membangun sebuah kesempatan untuk memahami sentimen
publik yang diwakili oleh para pengguna twitter [6].
Salah satu media massa di Indonesia yaitu Tempo melakukan hal yang mirip
dengan yang di Amerika Serikat. Namun yang dilakukan tempo tidak secara
langsung ketika acara tersebut berlangsung, akan tetapi dilakukan dengan cara
menghitung secara kualitatif dan tanpa adanya permintaan secara langsung. Media
Tempo menilai acara televisi terburuk tahun 2013 memanfaatkan “kicauan” publik
di twitter. Hasilnya, acara yang mendapatkan mention negatif paling banyak adalah
Yuk Keep Smile. Acara yang ditayangkan di TransTV itu dianggap membosankan
[7].

9

10

II.2. Text Mining
Text mining yang juga dikenal dengan text data mining atau pencarian
pengetahuan di basis data textual adalah sebuah proses yang semi otomatis
melakukan ekstraksi dari pola yang ada di database. Dari hasil ekstraksi tersebut
munculah pengetahuan baru yang bisa dimanfaatkan untuk kepentingan
pengambilan keputusan. Text mining mempunyai kesamaan dengan data mining.
Keduanya memliki tujuan yang sama yaitu untuk memperoleh informasi dan
pengetahuan dari sekumpulan data yang sangat besar. Data tersebut bisa berbentuk
sebuah database. Namun keduanya memiliki perbedaan jenis data. Data mining
memiliki input data dari data yang sudah terstruktur sedangkan text mining dimulai
dengan data yang tidak terstruktur.
Pemanfaatan dari text mining secara nyata sangatlah luas. Areanya seluas data
tekstual yang terbentuk seperti di area hukum dengan data putusan pengadilan,
penelitian dengan data artikel penelitian, keuangan dengan data laporan triwulan,
teknologi dengan data arsip paten, pemasaran dengan data komentar konsumen, dan
di area lainnya. Sebagi contoh sebuah perusahaan membuat formulir yang biasa
diisi apabila konsumennya ingin memuji, komplain, ataupun klaim garansi. Dari
kartu formulir tersebut terbentuklah data yang sangant besar dan bisa digunakan
untuk mengidentifikasi secara objektif produk dan layanan dari suatu perusahaan
menggunakan text mining. Selain itu proses text mining yang dilakukan secara
otomatis adalah dibidang komunikasi elektronik dan email. Text mining tidak hanya
mengklasifikasikan dan menyaring email sampah, tetapi bisa juga memprioritaskan
email secara otomatis berdasarkan tingkat kepentingannya [3].

II.3. Analisis Sentimen
Sejarah analisis sentimen pertama kali muncul pada sebuah jurnal karya Das,
Chen, dan Tong pada tahun 2001, bahasan yang mereka angkat susuai dengan minat
mereka yaitu menganalisis sentimen pasar. Analisis sentimen adalah mengekstraksi
pendapat, sentimen, evaluasi, dan emosi orang tentang suatu topik tertentu yang
tertulis menggunakan teknik pemrosesan bahasa alami. Sejumlah karya-karya besar
lainnya menyebutkan analisis sentimen fokus pada aplikasi spesifik yang

11

mengklasifikasikan mengenai sifat yang berlawanan (antara positif dan negatif).
Dari pengertian tersebut menjadi sebuah fakta yang menyebabkan beberapa penulis
bahwa istilah analisis sentimen mengacu pada tugas yang sempit atau spesifik.
Namun saat ini banyak yang menafsirkan istilah analisis sentiment lebih luas lagi
yang berarti cara pengkomputasian pendapat, sentimen, dan subjektifitas pada teks
[8].
Sistem analisis sentimen saat ini sudah banyak diterapkan di hampir setiap
bisnis dan domain sosial karena opini menjadi pusat semua aktivitas manusia dan
menjadi kunci yang mempengaruhi sikap seseorang. Dari keyakinan dan persepsi
realita, dan pilihan yang dibuat sesorang, sebagian besar dipengaruhi oleh opini
orang lain. Karena alasan itulah, keputusan sesorang yang diambil

sering

berdasarkan opini atau pendapat orang lain. Hal tersebut tidak hanya berlaku bagi
individu tetapi juga bagi organisasi.

II.4. Regular Expression
Regular expression atau yang biasa disingkat dengan regex adalah sebuah
untaian teks untuk menggambarkan pencarian sebuah pola. Regex biasa digunakan
untuk pencarian atau memanipulasi teks. Pola yang dibentuk oleh regex mungkin
akan cocok sekali, beberapa kali, atau tidak sama sekali untuk teks yang diberikan.
Regex didukung oleh banyak bahasa pemrograman, seperti PHP, C#, Java dan
banyak bahasa pemrograman lainnya. Berikut adalah aturan-aturan penulisan
regular expression dalam bahasa pemrograman Java [9].
1. Pencocokan simbol umum
Regular expression menyediakan pola yang bisa digunakan untuk mencocokan
simbol-simbol yang umum pada suatu teks. Pada Tabel II-1 akan dijelaskan regex
yang digunakan beserta deskripsinya.

12

Tabel II-1 Daftar Simbol Umum Regex
Regular Expression
.
^regex
regex$
[abc]

[abc][de]
[^abc]

[a-d1-7]
a|b
Ab
a!b

Deskripsi
Mencocokan dengan karakter apapun
Menemukan kata regex yang ada di awal baris.
Menemukan kata regex yang ada di akhir baris.
Tanda kurung siku digunakan untuk mencocokan salah satu
huruf yang ada di dalamnya. Contoh digunakan untuk
mencocokan dengan huruf a atau b atau c.
Mencocokan dengan huruf a atau b atau c kemudian diikuti
dengan huruf d atau e.
Tanda sisipan yang muncul dalam tanda kurung siku
sebagai tanda negasi. Contoh digunakan untuk mencocokan
dengan huruf apapun kecuali a atau b atau c.
Mencocokan dengan deretan huruf yang yang ada dari a
hingga d dan 1 sampai 7.
Menemukan a atau b.
Menemukan a yang kemudian diikuti dengan b.
Mrnrmukan a yang kemudian diikuti bukan dengan b

2. Metacharacters
Metacharacter berikut memiliki arti yang ditentukan dan membuat pola umum
yang lebih mudah digunakan. Berikut contohnya pada Tabel II-2 .
Tabel II-2 Daftar Metacharacter Regex
Regular Expression
\d
\D
\s
\S
\w
\W

Deskripsi
Mencocokan dengan angka, lebih sederhana dari [0-9]
Mencocokan dengan bukan angka, lebih sederhana dari [^0-9]
Mencocokan dengan spasi, lebih sederhana dari [ \t\n\x0b\r\f]
Mencocokan dengan bukan spasi, lebih sederhana dari [ ^\s]
Mencocokan dengan alphanumerik, lebih sederhana dari [a-zAZ_0-9]
Mencocokan dengan bukan alphanumerik, lebih sederhana dari
[^\w]

13

3. Quantifier
Quantifier mendefinisikan seberapa sering sebuah elemen dapat terjadi.
Berikut contoh dan deskripsi pada Tabel II-3.
Tabel II-3 Daftar Quantifier Regex
Regular Expression
*

+

?

{x}
{x,y}

Deskripsi
Terjadi kemunculan tidak sama
sekali atau berkali-kali. Lebih
sederhana dari {0,}.
Terjadi kemunculan sekali atau
berkali-kali. Lebih sederhana dari
{1,}
Terjadi kemunculan tidak sama
sekali atau sekali. Lebih sederhana
dari {0,1}
Terjadi kemunculan sebanyak x
Terjadi kemunculan
hingga ke y.

sebanyak x

Contoh
a* menemukan tidak sama
sekali atau berkali-kali
kemunculan huruf a
a+ menemukan sekali atau
berkali-kali
kemunculan
huruf a
A? menemukan tidak sama
sekali atau tepat satu kali
kemunculan huruf a
\d{5} mencari untuk angka
yang memiliki tiga digit.
\d{1-5} berarti \d harus
muncul meninmal satu dan
paling banyak lima kali.

4. Backslash
Backslash digunakan di dalam regular expression memiliki arti yang
ditentukan dalam Java. Sebelumnya telah dibahas penggunaan secara implisit
penggunaan backslah. Dalam implementasinya ketika ingin mendefiniskan \w ,
maka harus menggunakan \\w di regex yang dibuat. Jika ingin mendefiniskan
backslahes dan tanda baca lainnya maka menggunakan double backslashes diikuti
dengan tanda baca.

II.5. Preprocessing
Tahan preprocessing diperlukan untuk membersihkan data dari yang tidak
diperlukan, dengan tujuan pada tahap masuk ke dalam metode Naïve Bayes
Classiffier lebih optimal dalam perhitungannya. Pada tahap ini melibatkan
rekognisi dari isi dan struktur teksnya. Adapun tahapan-tahapan dari preprocessing.
1. Convert Emoticon
Emoticon merupakan salah satu cara pengungkapan ekspresi perasaan secara
tekstual. Hal tersebut akan membantu dalam menentukan sentiment dalam suatu
kalimat atau tweet sekalipun. Setiap emoticon akan dikonversikan ke dalam string

14

yang bersesuaian. Jenis emoticon yang akan diproses oleh adalah emoticon
western style, dikarenakan jenis tersebut banyak digunakan atau menjadi standar
di semua platform seperti web ataupun mobile. Pada Tabel II-4 dijelaskan hasil
pengklasifikasian arti dari emoticon western style secara umum.
Tabel II-4 Daftar Emoticon Yang Akan Dikonversi
Emoticon
:-) :) :o) :] :3 :c) :> =] 8) =) :} :^) :っ)
:-D :D 8-D 8D x-D xD X-D XD =-D =D =-3 =3 B^D
:-|| :@ >:(
:$ >:[ :-( :( :-c :c :-< :っC :< :-[ :[ :{ ;( :'-( :'(D:< D: D8 D; D= DX v.v D-':