ANALISIS SENTIMEN BERDASARKAN KOMENTAR P

HALAMAN JUDUL

LAPORAN PROYEK AKHIR

ANALISIS SENTIMEN BERDASARKAN
KOMENTAR PUBLIK TERHADAP TOKO
ONLINE DI SOSIAL MEDIA FACEBOOK
(STUDI KASUS : ZALORA DAN
BERRYBENKA)

Syahmia Gusriani
NIM. 1257301057

Pembimbing
Kartina Diah Kusuma Wardhani, S.T., M.T.
Muhammad Ihsan Zul, S.Pd., M.Eng.

PROGRAM STUDI SISTEM INFORMASI
POLITEKNIK CALTEX RIAU
2016


ABSTRAK
Maraknya penggunaan jejaring sosial seperti Facebook mendorong
munculnya data tekstual yang tidak terbatas, sehingga muncul
kebutuhan penyajian informasi tanpa mengurangi nilai dari informasi
tersebut. Salah satu pemanfaatan data ini adalah untuk mengetahui
opini atau sentimen publik terhadap pelayanan dan produk suatu toko
online. Metodologi yang digunakan untuk melakukan analisis
sentimen dimulai dari data collecting, preprocessing, feature
selection, klasifikasi dan pengukuran akurasi. Metode klasifikasi
naïve bayes, k-NN dan decision tree digunakan untuk
membandingkan hasil prediksi klasifikasi yang terbaik. Hasil analisis
pengujian menunjukkan naïve bayes memiliki kestabilan akurasi
setelah diuji dengan nilai minimum support 0.036 pada Frequent
Itemset. Naïve bayes memiliki rata-rata akurasi 90.1%.
Kata kunci: Opini, Sentimen, Preprocessing, Feature Selection,
Klasifikasi, Naïve Bayes, k-NN, Decision Tree, Frequent Itemset,
Akurasi

ABSTRACT
The widespread use of social networks such as Facebook encourage

the emergence of textual data that is infinite, so it appears the need
of presenting information without reducing the value of the
information. One of the utilization of this data is to find out the
opinion or public sentiment to services and products an online store.
The methodology used to perform sentiment analysis starts from the
collecting data, preprocessing, feature selection, classification and
measurement accuracy. Naïve bayes bayes classification method, kNN and decision tree are used to compare the results of the
classification best predictions. The results of the analysis shows
naïve bayes test has an accuracy stability tested by minimum support
value 0.036 in frequent itemset. Naïve bayes has an average
accuracy of 90.1%.
Keywords: Opinion, Sentiment, Preprocessing, Feature Selection,
Classification, Naïve Bayes, k-NN, Decision Tree, Frequent Itemset,
Accuracy

KATA PENGANTAR
Segala puji syukur kehadirat Allah SWT yang telah
melimpahkan rahmat dan barokah-Nya sehingga penulis dapat
menyelesaikan proyek akhir yang berjudul “ANALISIS SENTIMEN
BERDASARKAN KOMENTAR PUBLIK TERHADAP TOKO

ONLINE PADA SOSIAL MEDIA FACEBOOK (STUDY KASUS :
ZALORA DAN BERRYBENKA)”. Proyek akhir ini disusun sebagai
salah satu syarat untuk menyelesaikan jenjang pendidikan Diploma
IV pada Program Studi Sistem Informasi Politeknik Caltex Riau.
Pada kesempatan ini, penulis ingin mengucapkan terima
kasih kepada pihak yang telah banyak memberikan bantuan dan
dukungan yang tiada terhingga baik secara langsung maupun tidak
langsung. Ucapan terima kasih tersebut penulis tujukan kepada:
1. Allah SWT atas rahmat dan karunia-Nya, sehingga penulis bisa
menyelesaikan tugas akhir ini tepat waktu.
2. Kedua orang tua penulis atas dukungan dan kasih sayang tak
terhingga, sehingga penulis bisa menyelesaikan tugas akhir tepat
waktu.
3. Ibu Kartina Diah Kusuma Wardhani, S.T., M.T. selaku
pembimbing utama, dan Bapak Muhammad Ihsan Zul, S.Pd.,
M.Eng. selaku dosen pembimbing, yang telah memberikan ilmu
dan bimbingan dengan penuh kesabaran kepada penulis dalam
menyelesaikan proyek akhir.
4. Dr. Hendriko, S.T., M.Eng. selaku Direktur Politeknik Caltex
Riau yang telah memberikan dukungan moral dalam

menyelesaikan proyek akhir ini.
5. Bapak Bapak Wawan Yunanto, S.Kom., M.T.selaku Ketua
Program Studi Sistem Informasi yang telah memberikan izin
untuk menyelesaikan proyek akhir.
6. Seluruh Dosen Program Studi Sistem Informasi yang telah
memberikan bekal ilmu kepada penulis dalam menyelesaikan
proyek akhir.

Penulis sangat menyadari sepenuhnya bahwa laporan proyek
akhir ini masih jauh dari sempurna, oleh karena itu segala jenis
kritik, saran dan masukan yang membangun sangat penulis harapkan
agar dapat memberikan wawasan bagi pembaca dan yang paling
utama penulis sendiri.
Pekanbaru,

15

Agustus

2016


Syahmia Gusriani

DAFTAR ISI

HALAMAN JUDUL
ABSTRAK
ABSTRACT
KATA PENGANTAR
DAFTAR ISI
DAFTAR GAMBAR
DAFTAR TABEL
BAB I
PENDAHULUAN
1.1
Latar Belakang
1.2
Rumusan Masalah
1.3
Batasan Masalah

1.4
Tujuan Penelitian
1.5
Manfaat Penelitian
BAB II
TINJAUAN PUSTAKA
2.1
Tinjauan Pustaka
2.1.1
2.2

BAB III
3.1

Penelitian Terdahulu

i
ii
iii
iv

vi
viii
xii
1
1
2
2
2
2
4
4
4

Landasan Teori

6

2.2.1

Text Mining


2.2.2

Frequent Itemset

11

2.2.3

Sentimen, Opini dan Analisis Sentimen

13

2.2.4

Naïve Bayes Classifier

15

2.2.5


K-Nearest Neighbor

16

2.2.6

Decision Tree

17

2.2.7

Pengujian / Pengukuran Akurasi

18

2.2.8

Ms. Excel dan Power Query


21

PERANCANGAN
Perancangan Alur Analisis Sentimen

6

22
22

BAB IV
4.1

4.2

3.1.1

Sumber Data


23

3.1.2

Preprocessing

25

3.1.3

Metode Klasifikasi

32

3.1.4

Pengujian

42

PENGUJIAN DAN ANALISIS
Implementasi

45
45

4.1.1

Data Latih

45

4.1.2

Punctuation and Number Filter

48

4.1.3

Case Folding and Filtering/Stopword Removal
49

4.1.4

Stemming

50

4.1.5

Convert Negation

51

4.1.6

Frequent Itemset

52

4.1.7

Klasifikasi k-NN dan Pengujian

56

4.1.8

Klasifikasi Naïve Bayes dan Pengujian

59

4.1.9

Klasifikasi Decision Tree dan Pengujian

61

Analisis

4.2.1
Sentimen

63
Analisis Sentimen Zalora dan Visualisasi Kata
63

BAB V KESIMPULAN DAN SARAN
5.1
Kesimpulan
5.2
Saran
DAFTAR PUSTAKA
Lampiran A. Daftar Kecenderungan Sentimen
SentimenWordNet
Lampiran B. Program Stemming Bahasa Indonesia

89
89
89
91
Berdasarkan
A
E

DAFTAR GAMBAR
Gambar 1 Proses Text Mining (Even, Yair and Zohar, 2002)

7

Gambar 2 Ilustrasi Tahap Functuation & Number Filtering

8

Gambar 3 Ilustrasi Tahapan Case Folding

8

Gambar 4 Stemming

10

Gambar 5 Prosedur 5-fold cross validation (Bramer, 2007)

19

Gambar 6 Alur Perancangan Analisis Sentimen

22

Gambar 7 Contoh Hasil Crawling Menggunakan Power Query

23

Gambar 8 Contoh Penggunaan Power Query Editor

23

Gambar 9 Hasil Percobaan Decision Tree

41

Gambar 10 Percobaan Decision Tree Menggunakan KNIME

41

Gambar 11 Data Komentar Sebelum Preprocessing

48

Gambar 12 Punctuation and Number Filter

48

Gambar 13 Hasil Punctuation and Number Filter

49

Gambar 14 Hasil Case Folding and Stopword Removal

49

Gambar 15 Case Folding and Stopword Removal

49

Gambar 16 Stemming Java Snippet

50

Gambar 17 Tampilan Code Pada Editor Java Snippet

50

Gambar 18 Hasil Stemming dengan Java Snippet

51

Gambar 19 Rangkaian Proses Convert Negation

51

Gambar 20 Hasil Convert Negation

52

Gambar 21 Proses Frequent Itemset

52

Gambar 22 Hasil Term Frequent

53

Gambar 23 Hasil GroupBy

54

Gambar 24 Tampilan hasil Document Vector

55

Gambar 25 Hasil Category to class

55

Gambar 26 Proses setelah FIM (1)

56

Gambar 27 Proses setelah FIM (2)

56

Gambar 28 Klasifikasi k-NN, k-Fold Cross Validation dan
Confusion Matrix
56
Gambar 29 Hasil Klasifikasi k-NN

57

Gambar 30 Hasil Error Rate k-Fold

58

Gambar 31 Hasil Agregasi Fold 1 sampai 9

58

Gambar 32 Hasil Confusion Matrix k-NN

59

Gambar 33 Proses Klasifikasi Naïve Bayes

59

Gambar 34 Hasil Klasifikasi Naïve Bayes

60

Gambar 35 Hasil Confusion Matrix Naïve Bayes

61

Gambar 36 Proses Klasifikasi Decision Tree

61

Gambar 37 Hasil Klasifikasi Decision Tree

62

Gambar 38 Hasil Confusion Matrix Decision Tree

62

Gambar 39 Akurasi Confusion Matrix Zalora Produk

64

Gambar 40 Visualisasi Sentimen Positif Zalora Produk (FIM)

65

Gambar 41 Visualisasi Sentimen Negatif Zalora Produk (FIM)

66

Gambar 42 Visualisasi Sentimen Positif Zalora Produk (SentiWord)
66
Gambar 43 Visualisasi Sentimen Negatif Zalora Produk (SentiWord)
67

Gambar 44 Akurasi Confusion Matrix Zalora Layanan

69

Gambar 45 Visualisasi Kata Sentimen Positif Zalora Layanan (FIM)
69
Gambar 46 Visualisasi Kata Sentimen Negatif Zalora Layanan (FIM)
70
Gambar 47 Visualisasi Kata Sentimen Negatif Zalora Layanan
(SentiWord)
70
Gambar 48 Visualisasi Kata Sentimen Positif Zalora Layanan
(SentiWord)
71
Gambar 49 Hasil Confusion Matrix Zalora Layanan dan Produk

73

Gambar 50 Visualisasi Kata Sentimen Negatif Zalora Layanan dan
Produk (FIM)
74
Gambar 51 Visualisasi Kata Sentimen Positif Zalora Layanan dan
Produk (FIM)
74
Gambar 52 Visualisasi Kata Sentimen Negatif Zalora Layanan dan
Produk (SentiWord)
75
Gambar 53 Visualisasi Kata Sentimen Positif Zalora Layanan dan
Produk (SentiWord)
75
Gambar 54 Hasil Confusion Matrix Berrybenka Produk

77

Gambar 55 Visualisasi Kata Sentimen Positif Berrybenka Produk
(FIM)
78
Gambar 56 Visualisasi Kata Sentimen Negatif Berrybenka Produk
(SentiWord)
79
Gambar 57 Visualisasi Kata Sentimen Positif Berrybenka Produk
(SentiWord)
79
Gambar 58 Visualisasi Kata Sentimen Negatif Berrybenka Produk
(FIM)
79
Gambar 59 Hasil Confusion Matrix Berrybenka Layanan

81

Gambar 60 Visualisasi Kata Sentimen Positif Berrybenka Layanan
(FIM)
82
Gambar 61 Visualisasi Kata Sentimen Negatif Berrybenka Layanan
(FIM)
83
Gambar 62 Visualisasi Kata Sentimen Negatif Berrybenka Layanan
(Sentiword)
83
Gambar 63 Hasil Confusion Matrix Berrybenka Layanan dan Produk
85
Gambar 64 Visualisasi Kata Sentimen Positif Berrybenka Layanan
dan Produk (FIM)
86
Gambar 65 Visualisasi Kata Sentimen Negatif Berrybenka Layanan
dan Produk (SentiWord)
87
Gambar 66 Visualisasi Kata Sentimen Positif Berrybenka Layanan
dan Produk (FIM)
87
Gambar 67 Visualisasi Kata Sentimen Positif Berrybenka Layanan
dan Produk (SentiWord)
88
Gambar 68. Library yang dibutuhkan Java Snippet

E

Gambar 69Gambar 3.4 Percobaan Decision Tree Menggunakan
KNIME// Mulai proses stemming
F

DAFTAR TABEL

Table 1 Perbandingan Penelitian Terdahulu

5

Table 2 Stopword List

9

Table 3 Contoh Itemset/Basket

12

Table 4 Contoh Tabel Confusion Matrix Prediksi Dua Kelas

20

Table 5 Contoh Komentar Data Training

24

Table 6 Data Komentar Toko Online

26

Table 7 Penerapan Case Folding dan Tokenizing

27

Table 8 Contoh Penerapan Filtering

28

Table 9 Contoh Penerapan Stemming

29

Table 10 Contoh Penerapan Convert Negation

30

Table 11 Hasil Jumlah Kata

31

Table 12 Data Atribut

32

Table 13 Data Hasil Preprocessing

32

Table 14 Data Atribut

33

Table 15 Data Training Berdasarkan Atribut Data

34

Table 16 Hasil Training Model Probabilitas Dari Data Training

35

Table 17 Nilai Vmap

36

Table 18 Data Training Berdasarkan Atribut Data

37

Table 19 Hasil Perhitungan k-NN

38

Table 20 Hasil Klasifikasi Jarak Euclid

38

Table 21 Memilih Jarak Euclid Terdekat

38

Table 22 Perhitungan decision tree algrotima C4.5

39

Table 23 Tabel Skenario Uji Stabilitas dengan 5-fold cross
validation
42

Table 24 Contoh hasil data aktual dan prediksi

43

Table 25 Tabel Confusion Matrix

44

Table 26 Data keyword hasil FIM untuk Zalora produk

46

Table 27 Data keyword hasil FIM untuk Zalora layanan

46

Table 28 Data keyword hasil FIM untuk Berrybenka produk

46

Table 29 Data keyword hasil FIM untuk Berrybenka layanan

46

Table 30 Data latih Zalora produk dan layanan

47

Table 31 Akurasi Klasifikasi Zalora Produk

64

Table 32 Akurasi Klasifikasi Zalora Layanan

68

Table 33 Akurasi Klasifikasi Zalora Layanan dan Produk

72

Table 34 Akurasi Klasifikasi Berrbenka Produk

76

Table 35 Akurasi Berrybenka Layanan dan Produk

84

Table 36. Daftar Sentimen Berdasarkan Sentiwordnet

A

BAB I
PENDAHULUAN
1.1

Latar Belakang

Belanja online merupakan proses membeli barang dan jasa
dari pedagang yang dijual di internet. Konsumen dapat mengunjungi
toko online dari rumah secara nyaman sambil duduk di depan
komputer (Ling & Jusoh, 2012). Berdasarkan survey pembelian
online secara global termasuk Indonesia, sebanyak 71% konsumen
melakukan peninjauan terhadap toko online sebelum membeli
produk. Sebanyak 43% setuju bahwa media sosial menjadi alat bantu
untuk memenuhi kebutuhan pengetahuan berupa review produk dan
ulasan forum, guna membantu membuat keputusan pembelian
(Nielsen, 2014). Review produk maupun ulasan forum disampaikan
melalui komentar di sosial media yang berisi keluhan, pujian atau
pandangan terhadap produk atau jasa dari suatu toko online.
Komentar tersebut mendeskripsikan tanggapan yang berbeda-beda
dari setiap konsumen.
Komentar-komentar berupa teks tersebut dapat dikumpulkan
dan diolah dengan analisis sentimen. Analisis sentimen mempelajari
opini yang mengungkapkan atau mengekspresikan pandangan positif
atau negatif (Liu, 2012). Opini yang dibutuhkan untuk melakukan
analisis berasal dari komentar halaman fanpage toko online di
Facebook. Facebook dipilih karena penggunanya saling berinteraksi
secara massif, dimana total pengguna Facebook sebanyak 1,44 miliar
dengan pengguna harian sebanyak 936 juta (CNBC, 22 April 2015).
Pada penelitian analisis sentimen ini proses klasifikasi
dilakukan dengan menggunakan tiga metode klasifikasi. Ketiga
metode tersebut adalah Naïve Bayes, k-NN, dan Decision Tree.
Metode-metode tersebut akan mengklasifikasikan data komentar
yang telah melalui preprocessing kedalam dua kelas yakni, kelas
sentimen positif dan sentimen negatif. Berdasarkan hasil klasifikasi
masing-masing metode akan dibandingkan tingkat akurasi untuk
mengetahui metode dengan tingkat error rate paling rendah.
Berdasarkan metode klasifikasi terbaik tersebut diharapkan dapat
1

memberikan pengetahuan baru berupa kecenderungan positif atau
negatif dan sebagai alat bantu untuk mengetahui sentimen konsumen
terhadap toko online yang dituju.
1.2

Rumusan Masalah

Perumusan masalah dalam pembuatan proyek akhir ini
adalah “Bagaimana mengimplementasikan analisis sentimen untuk
menentukan kecenderungan padangan publik terhadap toko online
dengan membandingkan metode klasifikasi naïve bayes, k-NN dan
decision tree?”
1.3

Batasan Masalah
Batasan masalah dalam pembuatan proyek akhir ini adalah:
1. Data teks komentar pelayanan dan kategori fashion diambil
dari halaman toko online Zalora dan BerryBenka pada
Facebook dalam Bahasa Indonesia.
2. Data komentar merupakan komentar setahun terakhir, yaitu
2014 s/d 2015.
3. Crawling teks komentar menggunakan power query pada Ms
Excel.
4. Pemilihan data training berdasarkan keyword dan keberadaan
kata sentimen.
5. Pemrosesan text processing dan klasifikasi menggunakan
tools miner.

1.4

Tujuan Penelitian

Adapun tujuan dari pembuatan proyek akhir ini adalah
melakukan klasifikasi sentimen dengan membandingkan hasil
perhitungan metode naïve bayes, k-NN dan decision tree berdasarkan
komentar-komentar publik terhadap produk dan layanan suatu toko
online dan mendapatkan metode klasifikasi terbaik.
1.5

Manfaat Penelitian
Manfaat dari pembuatan proyek akhir ini adalah:

2

1. Sebagai referensi konsumen sebelum membeli produk /
menggunakan layanan pada toko online.
2. Media alternatif bagi konsumen untuk memilih produkproduk yang berkualitas.
3. Referensi indikator kualitas produk dan layanan berdasarkan
tanggapan konsumen bagi pemilik toko online.
4. Sebagai referensi penelitian dan menambah pengetahuan
terkait analisis sentimen terhadap toko online di sosial
media.
5. Klasifikasi terbaik hasil perbandingan tiga metode nantinya
dapat diimplementasikan ke dalam sistem analisis sentimen.

3

BAB II
TINJAUAN PUSTAKA
2.1
1.5.1

Tinjauan Pustaka
Penelitian Terdahulu

Analisis sentimen dilakukan oleh Ismail Sunni (2012),
dengan meneliti data twitter terkait opini terhadap tokoh publik.
Topik pembicaraan mengenai tokoh politik menjadi domain
penelitian. Metode yang digunakan adalah F3 (F3 is Factor Finder)
untuk menangani model bahasa. Sedangkan naïve bayes classifier
digunakan untuk melakukan analisis sentimen dengan menggunakan
frequency based selection untuk mengurangi kesalahaan eja dari
banyaknya word. Hasil analisis menyebutkan bahwa casefolding
justru menurunkan hasil akurasi karena program menyamakan kata
yang muncul sebagai kabar berita dan opini hasil dari pengguna
Twitter.
Penelitian lain mengenai analisis sentimen dilakukan oleh
Nur dan Santika (2011). Objek yang diteliti adalah dokumendokumen berbahasa Indonesia terkait merk telepon seluler. Penelitian
ini bertujuan untuk mengetahui akurasi perbandingan dua klasifikasi
yang digunakan dalam analisis. Penelitian analisis sentimen
menggunakan pendekatan machine learning yang dikenal dengan
Support Vector Machine (SVM) dan dikhususkan pada dokumen teks
berbahasa Indonesia.
Pada tahun 2014, Ahmad Fathan juga melakukan penelitian
analisis sentimen. Objek penelitiannya adalah tweet yang
membicarakan tokoh publik dengan tujuan mengetahui suatu topik
terkait tokoh publik atau kejadian yang menyebabkan sentimen
publik turun. Nama tokoh publik yang dianalisis adalah tokoh publik
dengan hasil survei tertinggi berdasarkan survei lembaga-lembaga
kompeten di Indonesia. Naïve bayes classifier digunakan untuk
memperoleh hasil klasifikasi dari sentimen terkait tokoh publik.
Rangkuman review penelitian terdahulu terdapat pada Tabel
2.1 sebagai berikut :
4

Table 1 Perbandingan Penelitian Terdahulu
Parameter

Muhamad Yusuf
Nur dan Diaz D.
Santika (2011)

Ismail Sunni
(2012)

Ahmad Fathan
Hidayatullah
(2014)

Syahmia
Gusriani (2016)

Judul

Analisis
Sentimen pada
Dokumen
Berbahasa
Indonesia dengan
Pendekatan
Support Vector
Machine

Analisi Sentimen
dan Ekstraksi
Topik Penentu
Sentimen pada
Opini Terhadap
Tokoh Publik

Analisis Sentimen
dan Klasifikasi
Kategori
Terhadap Tokoh
Publik pada
Twitter

Analisis Sentimen
Terhadap Toko
Online di Sosial
Media (Studi
Kasus: Facebook)

Objek
Penelitian

Merk telepon
seluler; apple,
blackberry,
ericson,
handphone,
andorid, ipad ,
iphone, nexian,
nokia, dan
samsung

Perubahan topik
terhadap tokoh
publik Indonesia

Tweet terkait
tokoh publik
menjelang pemilu
2014 Indonesia

Komentar publik
terhadap suatu
toko online

Sumber
Data

Twitter

Twitter

Twitter

Facebook

Naive Bayes

Naïve Bayes

Naïve Bayes, kNN, Decision
Tree

Metode
klasifikasi

SVM dan
Naive Bayes

Fitur
Seleksi

POS Tagger,
Stemming

Frequency
based selection

Unigram,
Negation, TF,
TF-IDF,

Frequent Itemset

Hasil

Hasil
klasifikasi SVM
dan perbandingan
akurasi kedua
metode

Hasil analisis
dan perbandingan
hasil akurasi dari
semua metode
praposes

Model klasifikasi
dan hasil
klasifikasi
sentimen tweet

Hasil analisis dan
perbandingan
klasifikasi
sentimen dan
visualisasi
kelompok
sentimen

5

2.2

Landasan Teori

1.5.2

Text Mining

Text mining adalah lintas disiplin ilmu yang mengacu
pada pencarian informasi, data mining, machine learning,
statistik, dan komputasi linguistik (Han dkk, 2012). Text mining
juga dikenal dengan text data mining atau pencarian pengetahuan
di basis data tekstual adalah proses yang semi otomatis
melakukan ekstraksi dari pola data (Turban dkk, 2011).
Tipe pekerjaan text mining meliputi kategorisasi, text
clustering, ekstraksi konsep/entitas, analisis sentimen, document
summarization, dan entity-relation modeling (yaitu, hubungan
pembelajaran antara entitas) (Han dkk, 2012). Sumber data yang
digunakan pada text mining adalah kumpulan teks yang memiliki
format yang tidak terstruktur atau minimal semi terstruktur.
Tujuan dari text mining adalah untuk mendapatkan informasi
yang berguna dari sekumpulan dokumen.
Text mining merupakan variasi dari data mining yang
berusaha menemukan pola yang menarik dari sekumpulan data
tekstual yang berjumlah besar. Perbedaan terletak pada pola yang
digunakan, pola text mining diambil dari sekumpulan bahasa
alami yang tidak terstruktur sedangkan dalam data mining pola
diambil dari database testruktur (Han dan Kamber, 2006).
Beberapa tahapan proses pokok dalam text mining, yaitu
pemrosesan awal teks (text preprocessing), transformasi teks
(text transformation) atau (Feature Generation), pemilihan fitur
(feature selection), dan penemuan pola text atau data mining
(pattern discovery).

6

1.5.2.1

Gambar 1 Proses Text Mining (Even, Yair and Zohar, 2002)
Text
Sama halnya dengan permasalahan pada data
mining, pada text mining data yang akan diolah jumlahnya
sangat banyak, dimensi yang tinggi, data dan struktur yang
terus berubah dan data noise. Perbedaan di antara keduanya
adalah pada data yang digunakan. Pada data mining, data
yang digunakan adalah structured data, sedangkan pada text
mining, data yang digunakan text mining pada umumnya
adalah unstructured data, atau minimal semistructured. Hal
ini menyebabkan adanya tantangan tambahan pada text
mining yaitu struktur text yang complex dan tidak lengkap,
arti yang tidak jelas dan tidak standar, dan bahasa informal.
Data training dari teks komentar yang akan
digunakan pada penelitian ini ditentukan berdasarkan
beberapa ketentuan berdasarkan penelitian yang analisis
sentimen yang dilakukan oleh Hamzah (2014) dan Manalu
(2014). Berdasarkan dua penelitian tersebut suatu teks dapat
diambil sebagai data training dikarenakan dua hal, yaitu
adanya kata entitas/target diiringi minimal satu kata
sentimen positif/negatif dan atau emoticon. Sementara untuk
menentukan suatu kata sentimen tergolong positif atau
negatif didasarkan pada penelitian yang dilakukan oleh
Hemalatha (2012) dengan mengacu pada bobot sentimen
7

dari halaman website Sentiwordnet. Bobot sentimen dapat
dilihat pada Lampiran A.
1.5.2.2

Text Preprocessing
Preprocessing dilakukan untuk menghindari data
yang kurang sempurna, gangguan pada data, dan data-data
yang tidak konsisten (Hemalatha, dkk, 2012). Tahap
preprocessing diperlukan untuk membersihkan data dari
noise, menyeragamkan bentuk kata dan mengurangi volume
kata. Agar pada tahap masuk ke dalam metode klasifikasi
lebih optimal dalam perhitungannya. Tahap preprocessing
pada penelitian ini diantaranya:
1. Punctuation and Number Filter
Punctuation dan number filter merupakan tahap
menghapus tanda baca dan angka yang terdapat pada teks
komentar. Tahap ini sangat diperlukan untuk mengurangi
noise.
a. Case folding
Case

@Lucu....keren!! Unik2
banget ini konsepnya.. suka
banget!

Lucu keren unik banget ini
konsepnya suka banget

Gambar 2 Ilustrasi Tahap Functuation & Number Filtering
folding yaitu penyeragaman bentuk huruf menjadi
lower case atau upper case serta penghapusan angka
dan tanda baca. Dalam hal ini yang digunakan hanya
huruf latin antara “a” sampai dengan “z” (Putranti,
2014).
lucu keren unik banget ini
konsepnya suka banget

Lucu keren unik banget ini
konsepnya suka banget

Gambar 3 Ilustrasi Tahapan Case Folding

8

1.5.2.3

Text Transformation (Feature Generation)
Transformasi teks atau pembentukan atribut
mengacu pada proses untuk mendapatkan representasi
dokumen yang diharapkan. Pendekatan representasi
dokumen yang lazim adalah bag of words (Yuliana, 2014).

1.5.2.4

Featured Selection
Tahap feature selection merupakan tahap lanjut dari
pengurangan dimensi pada proses transformasi teks. Pada
tahap feature selection terbagi atas :
a. Filtering

Filtering adalah proses untuk memilih kata-kata penting dari
hasil tokenization. Filtering dilakukan dengan menggunakan
algoritma stopword removal. Stopword removal digunakan untuk
membuang kata-kata yang sering muncul dan bersifat umum, kurang
menunjukan relevansinya dengan teks (Sentiaji, 2014). Membuang
kata-kata yang sering muncul namun tidak memiliki pengaruh
apapun terhadap ekstraksi sentimen. Misalnya “di”, “oleh”, “pada”,
“sebuah”, “karena” dan lain sebagainya. Kata-kata yang akan
dibuang didefenisikan dalam stopword list.
Atau
Saya
Sih
Dengan
Cc
b. Stemming

Table 2 Stopword List
Di
Oleh
Karena
Gue
Min
Dalam
Aja
Bagi
Iya
Ke
Lu
Gaul
Punya
Gan
Aku

Stemming adalah tahap membuat kata yang
berimbuhan kembali ke bentuk asalnya (Sentiaji, 2014).
Atau dengan kata lain, stemming merupakan proses mencari
akar kata dan
menghilangkan imbuhan pada kata
(Hidayatullah, 2014). Stemming bertujuan mengurangi
variasi kata yang memiliki kata dasar sama.
9

Lucunya
keren
unik
konsepnya

Lucu
keren
unik
konsep

Gambar 4 Stemming
c. Convert Negation
Convert negation adalah proses mengganti negasi
yang terdapat dalam komentar. Negasi adalah sesuatu yang
dikenal dalam semua bahasa dan biasanya negasi digunakan
untuk mengubah polaritas dari suatu pernyataan (Blanco dan
Moldovan, 2011). Kata-kata yang bersifat negasi adalah
“kurang”, “tidak”, “enggak”, “ga”, “nggak”, “tak”, dan
“gak”.
1.5.2.5

Pattern discovery
Pattern discovery merupakan tahap penting untuk
menemukan pola atau pengetahuan (knowledge) dari
keseluruhan teks. Tindakan yang lazim dilakukan pada tahap
ini adalah operasi text mining, dan biasanya menggunakan
teknik-teknik data mining (Yuliana, 2014). Untuk
menentukan pola ini, proses text mining dikombinasikan
dengan proses-proses data mining.

1.5.2.6

Interpretation / Evaluation
Interpretation atau evaluation, hasil dari proses
mining akan diinterpretasikan kedalam bentuk tertentu untuk
kemudian dilakukan proses evaluasi (Yuliana, 2014).
Apabila hasil keluaran dari penemuan pola belum sesuai
untuk aplikasi, dilanjutkan evaluasi dengan melakukan
iterasi ke satu atau beberapa tahap sebelumnya. Sebelum
masuk pada pengembangan model, penting dilakukan
evaluasi dari model yang dihasilkan proses mining. Meninjau
kembali langkah-langkah yang dilakukan dalam membangun
model untuk memastikan itu telah mencapai tujuan bisnis
(Jackson, 2002). Interpretasi yakni, penafsiran pola mining
agar lebih dimengerti oleh pengguna. Hasil interpretasi
10

merupakan tahap akhir dari proses text mining dan akan
disajikan ke pengguna dalam bentuk summarization dan
visualisasi.
1.5.3

Frequent Itemset
Tahap ini digunakan untuk memilih atribut kata
yang akan digunakan pada proses klasifikasi naïve bayes.
Frequent item set mining (FIM) merupakan proses yang
melakukan ekstraksi informasi dari database berdasarkan
seberapa sering suatu event terjadi, yaitu suatu peristiwa atau
suatu set peristiwa (Moens dkk, 2013 ). Frequent itemset
merupakan tahapan awal yang digunakan pada teknik
Association Rules atau sering disebut market basket analysis,
yang digunakan untuk menemukan relasi diantara himpunan
item-item (event). Market basket analysis adalah
analisis dari kebiasaan membeli customer
dengan mencari asosiasi dan korelasi antara
item-item berbeda yang diletakkan customer
dalam keranjang belanjaannya.
Model data market basket sering digunakan untuk
mendeskripsikan bentuk umum dari banyak hubungan
diantara dua objek. Dengan kata lain, ada items dan juga ada
baskets atau disebut juga “transaksi”. Setiap basket berisi
satu set item (an itemset). Itemset yaitu himpunan dari itemitem yang muncul bersama-sama. Setiap satu itemset yang
muncul di banyak basket disebut “frequent”. Frequent
itemset didefinisikan sebagai itemset dimana support-nya
lebih besar atau sama dengan minsupport yang merupakan
ambang yang diberikan oleh user.
Setiap itemset adalah sebuah basket, dan kata-kata
didalamnya adalah items. Kata-kata yang dicari adalah “cat
dog” dan mengambil potongan-potongan dari halaman
populer. Kemunculan kata dua kali pada sebuah basket
dihiraukan, karena as baskets are sets, dan pada prinsip
item-item dapat muncul satu kali.
11

No

Table 3 Contoh Itemset/Basket
Itemset/basket

1

Cat, and, dog, bites

2

Yahoo, news, claims, a, cat, mates, with, a , dog,
and, poduced, viable, offspring

3

Cat, killer, likely, is, a, big, dog

4

Proffesional, free, advice, on, dog, training, puppy,
training
Cat, and, kitten, training, and, behavior

5
6
7
8

Dog, &, cat, provides, dog, training, in, eugene,
oregon
Dog, and, cat, is, a slang term, used, by, police,
officer, for, a, male-female, relationship
Shop, for, you, show, dog, grooming, and, pet,
supplies

1.

Tabel 3 merupakan contoh baskets yang berisi itemitem yang berupa kata-kata. Diantara sets tunggal, secara
jelas kata “cat” dan “dog” banyak muncul (frequent). “dog”
muncul hampir pada semua basket kecuali (5), sehingga nilai
supportnya adalah 7. Sementara itu, “cat” muncul kecuali
12

pada (4) dan (8), sehingga nilai supportnya adalah 6. Kata
“and” juga muncul cukup sering pada (1), (2), (5), (7), dan
(8), sehingga supportnya adalah 5. Kata “a” dan “training”
muncul pada 3 sets, sementara “for” dan “is” masing-masing
muncul dua kali. Selebihnya, tidak ada kata lain yang
muncul lebih dari dua kali. Jika ditentukan ambang
supportnya adalah s = 3. Itu berarti ada lima itemset tunggal
yang sering muncul yaitu, dog,cat, and,a, dan training.

1.5.4
1.5.4.1

Sentimen, Opini dan Analisis Sentimen
Sentimen
Menurut Kamus Besar Bahasa Indonesia
(KBBI), sentimen berarti pendapat atau pandangan yang
didasarkan pada perasaan yang berlebih-lebihan terhadap
sesuatu. Sedangkan menurut Merriam-Webster’s Online
Dictionary, sentimen menunjukkan pendapat tetap(terus
menerus) yang merefleksikan / mencerminkan perasaan
seseorang.

1.5.4.2

Opini
Opini dan konsep terkait seperti sentimen,
evaluasi, tingkah laku, dan emosi merupakan subjek
studi dari analisis sentimen dan opinion mining (Bing
Liu, 2012). Opini atau pendapat merupakan pusat hampir
semua aktivitas manusia dan menjadi pengaruh utama
dari perilaku. Persepsi terhadap realitas untuk
mengevaluasi objek disekitar.
Defenisi Opini menurut Hajmohammadi dkk
dalam jurnal Opinion Mining and Sentiment Analysis: A
Survey pada tahun 2012, yaitu:
1. Pandangan atau penilaian yang terbentuk tentang
sesuatu, tidak selalu berdasarkan fakta atau pengetahuan.

13

2. Keyakinan atau pandangan dari sejumlah besar atau
mayoritas orang-orang tentang hal tertentu.
Secara umum, opini mengacu pada apa yang
orang pikirkan tentang sesuatu. Dengan kata lain, opini
adalah keyakinan subjektif, dan merupakan hasil emosi
atau interpretasi fakta.

1.5.4.3

Analisis Sentimen
Analisis sentimen disebut juga opinion mining,
adalah bidang ilmu yang menganalisa pendapat,
sentimen, evaluasi, penilaian, sikap dan emosi publik
terhadap entitas seperti produk,
jasa, organisasi,
individu, masalah, peristiwa, topik, dan atribut mereka
(Bing Liu, 2012). Analisis sentimen berfokus pada opiniopini yang mengekspresikan atau mengungkapkan
sentimen positif atau negatif.
Secara umum analisis sentimen yang telah
diteliti memiliki tiga tingkat (level), yaitu:
1. Level dokumen: mengklasifikasikan apakah seluruh
dokumen opini mengungkapkan sentimen positif atau
negatif. Analisis mengasumsikan bahwa setiap dokumen
mengungkapkan opini yang objektif tentang suatu entitas
tunggal (misalnya, produk tunggal).
2. Level kalimat: menentukan apakah setiap kalimat
menyatakan opini positif, negatif, atau netral.
3. Level entitas dan aspek: Menemukan sentimen pada
entitas dan / atau aspeknya. Sebagai contoh, kalimat
"kualitas panggilan iPhone baik, tetapi daya tahan
baterai pendek". Ada dua aspek evaluasi, kualitas
panggilan dan baterai kehidupan, dari iPhone (entitas).
Sentimen pada kualitas panggilan iPhone adalah positif,
tapi sentimen pada hidup baterai negatif. Kualitas

14

panggilan dan daya tahan baterai iPhone adalah target
pendapat.
Analisis sentimen merupakan salah satu cabang
penelitian text mining (Purwanto dan Santoso, 2015).
Analisis sentimen hadir untuk menangani kondisi
ledakan informasi teks yang tidak terstruktur. Seperti
yang diprediksi Putten (2002) pada penelitiannya,
kondisi ledakan informasi semakin menyulitkan proses
data mining karena bentuk data tidak terstuktur dan
jumlahnya sangat banyak.
1.5.5

Naïve Bayes Classifier
Naïve bayes classifier membuat asumsi yang sangat
kuat (naif) akan independensi dari masing-masing kelas
kejadian yang diberikan label (Han dkk, 2012). Naive
bayes classifer digunakan untuk klasifikasi sentimen
dari data komentaryang telah diperoleh. Naive bayes juga
digunakan oleh Hidayatullah (2014) untuk menentukan
sentimen terhadap toko publik yang disampaikan melalui
tweet berbahasa Indonesia.
Naïve bayes merupakan metode pembelajaran mesin
yang memiliki model dalam membentuk probalilitas dan
peluang. Maka dari itu, naïve bayes akan menghitung
probabilitas kemunculan fitur yang mempresentasikan
komentar berdasarkan kelas positif maupun negatif.
Persamaan naïve bayes yang digunakan untuk menentukan
kelas dari komentas ditunjukkan dalam persamaan berikut.
n

V MAP=argmax v ϵv P ( v j ) ∏ P ( ai|v j )
j

i=1

Keterangan :
ai = atribut atau fitur ke-i
vj = kelas ke-j (positif atau negatif)
15

……...[1]

V = himpunan kelas target
VMAP = kelas sentimen suatu komentar
Menghitung probabilitas P(vj) ditentukan pada saat
pelatihan, yang nilainya didekati dengan:

P ( v j ) =¿ doc j∨

¿

|contoh|

¿

…………...[2]

Dimana |docj| adalah banyaknya dokumen yang
memiliki kategori j dalam pelatihan dan |contoh| adalah
banyaknya dokumen dalam contoh yang digunakan untuk
pelatihan. Untuk nilai P(ai | vj), yaitu menentukan
probabilitas kata ai dalam kategori j ditentukan dengan
persamaan berikut :

ni +1
P ( ai|v j ¿= n+¿ vocabulary∨¿
¿

…………...[3]

Berdasarkan persamaan, ni adalah frekuensi
munculnya kata ai dalam dokumen berkategori vj, sedangkan
nilai n adalah banyaknya seluruh kata dalam berkategori v j,
dan |vocabulary| adalah banyaknya kata dalam contoh
pelatihan.
Berdasarakan persamaan diatas, dapat dilihat bahwa
setiap atribut atau fitur diasumsikan tidak memiliki
keterhubungan satu sama lainnya. Naïve bayes menggunakan
asumsi dalam sebuah dokumen kemunculan kata tidak
mempengaruhi kemunculan kata yang lain. Meskipun asumsi
ini bertentangan dengan aturan bahasa, namun tidak
mengurangi keakuratan metode naïve bayes (Nur, 2011).

1.5.6

K-Nearest Neighbor
Klasifikasi nearest-neighbor didasarkan pada
pembelajaran dengan analogi, yaitu dengan membandingkan
data testing ddengan data training yang mirip (Han dkk,
16

2012). K-Nearest Neighbor merupakan salah satu metode
machine learning yang melakukan klasifikasi terhadap objek
berdasarkan data pembelajaran yang jaraknya paling dekat
dengan objek tersebut (Putri, 2014). Adapun rumus k-NN
yang digunakan :
n

d ( x i , x j)=

√∑
r=1

( ar ( xi )−ar ( x j ) )

2

……...[4]

Keterangan:

d (x i , x j) = Jarak Euclidean (Euclidean Distance)
( x ¿ ¿ i)¿

= record ke-i

( x ¿ ¿ j)¿

= record ke-j

(a ¿ ¿ r) ¿

= data ke-r

i, j

= 1, 2, 3, … , n

Berikut
merupakan
langkah-langkah
menghitung metode Algoritma k-NN :

dalam

1. Menentukan Parameter K (Jumlah tetangga paling
dekat).
2. Menghitung kuadrat jarak euclid (queri instance)
masing-masing objek terhadap data sampel yang
diberikan.
3. Kemudian mengurutkan objek-objek tersebut ke dalam
kelompok yang mempunyai jarak euclid terkecil.
4. Mengumpulkan kategori Y (Klasifikasi Nearest
Neighbor).
Dengan menggunakan kategori Nearest Neighbor
yang paling mayoritas maka dapat diprediksi nilai query
instance yang telah dihitung.

17

1.5.7

Decision Tree
Decision
tree
merupakan
metode
yang
menyimpulkan pernyataan-pernyataan dari sebuah label data
testing pada data training, untuk menemukan masalahmasalah yang mengarah dalam membuat sebuah keputusan
(Han & Kamber, 2006). Decision tree adalah model prediksi
berupa miniatur struktur pohon dimana terdapat node
internal (bukan daun) yang mendeskripsikan atribu-atribut,
setiap cabang menggambarkan hasil dari atribut yang diuji,
dan setiap daun menggambarkan kelas. Adapun rumus yang
digunakan pada algoritma decision tree sebagai berikut.
c

Entropy ( S ) =∑ pi log 2 p i

……………...[5]

i=1

Keterangan :
C = jumlah nilai yang ada pada attribut target (jumlah kelas
klasifikasi).
Pi = jumlah proporsi sampel (peluang) untuk kelas i
Entropy merupakan suatu parameter untuk
mengukur tingkat keberagaman (heterogenitas) dari
kumpulan data. Semakin heterogen, nilai entropy semakin
besar. Menghitung nilai Gain ialah untuk mengetahui ukuran
efektifitas suatu atribut dalam mengklasifikasikan data.

Sv
S Entropy ( S v )
vϵValues (A )


Gain ( S , A ) =Entropy ( S )−



…………...[6]
A = attribut.
V = nilai yang mungkin untuk atribut A
Values(A) = himpunan nilai yang mungkin untuk attribut A.
|Sv | = jumlah sampel untuk nilai v.
18

|S| = jumlah seluruh sampel data.
Entropy(Sv ) = Entropy untuk sampel yang memiliki nilai v

1.5.8
1.5.8.1

Pengujian / Pengukuran Akurasi
K-Fold Cross Validation
Cross validation digunakan sebagai metode evaluasi
hasil klasifikasi (Alvino, 2013). Pengujian dilakukan untuk
memprediksi error rate. Training data dibagi menjadi K
buah subset secara acak dengan ukuran yang sama, satu
diantara subset acak tersebut digunakan sebagai testing data.
Setelah itu dilakukan iterasi sebanyak K kali dan dilakukan
perhitungan error rate tiap subset. Kemudian hitung error
rate pada setiap subset. Berdasarkan hasil error rate tiap
subset, dihitung rata-ratanya untuk mendapatkan nilai error
rate keseluruhan.
Pada proses evaluasi k-fold cross validation, perlu
dibentuk k subset dari data sets yang ada. Misalnya, 5-fold
cross validation berarti 4 subsets digunakan sebagai data
training dan 2 subset digunakan sebagai data testing,
dilakukan 5 kali iterasi. Hasil pengukuran adalah nilai ratarata dari 5 kali pengujian, seperti ilustrasi pada Gambar 5
berikut.

Gambar 5 Prosedur 5-fold cross validation (Bramer, 2007)
19

1.5.8.2

Confusion Matrix
Salah satu metode evaluasi yang digunakan untuk
klasifikasi naïve bayes adalah confusion matrix. Confusion
matrix adalah salah satu tools penting dalam metode
visualisasi yang digunakan pada mesin pembelajaran yang
biasanya memuat dua kategori atau lebih (Manning dkk,
2009; Horn, 2010). Sebanyak setengah atau dua pertiga dari
data keseluruhan digunakan untuk keperluan proses training
sedangkan sisanya digunakan untuk keperluan testing
(Kantardzic, 2003).
Untuk memperoleh informasi hasil pencarian
akurasi, dilakukan perhitungan recall dan precision.
Precision dapat dianggap sebagai ukuran ketepatan atau
ketelitian, sedangkan recall adalah kesempurnaan (Yuliana,
2014).
Confusion matrix merupakan tabel yang digunakan
untuk mengevaluasi kinerja dari suatu model klasifikasi.
Tabel terdiri atas banyaknya baris data uji yang diprediksi
bernar atau tidak benar dari model klasifikasi. Berikut
contoh perhitungan akurasi tabel confusion matrix:

Table 4 Contoh Tabel Confusion Matrix Prediksi Dua Kelas
Prediksi
Positi
Negati
f
f
Aktual
Positif
TP
FN
Negatif
FP
TN
Dimana TP merupakan jumlah prediksi yang
benar dari contoh negatif, FN adalah jumlah prediksi
20

yang salah dari contoh positif, FP adalah jumlah prediksi
yang salah prediksi dari contoh negatif dan TN adalah
jumlah prediksi yang benar dari contoh positif.
Rumus Accuracy (AC) adalah jumlah prediksi
yang benar. Ini ditentukan dengan persamaan :

AC=

TP+TN
TP+ FP +TN + FN

…….……………

[7]
Recall atau true positif rate (TP) adalah proporsi
dari kasus positif yang telah diidentifikasi dengan benar,
rumus mencari Recall:

True Positive / Recall=

TP
TP+TN

…………………[8]

True negative rate (TN) adalah proporsi dari
kasus negatif yang telah diidentifikasi dengan benar,
rumus TN:

True Negative=
1.5.9

TN
TN + FN

…………………[9]

Ms. Excel dan Power Query
Microsoft Excel adalah sebuah program aplikasi
lembar kerja dikembangkan yang dibuat oleh Microsoft
Corporation pada sistem operasi Microsoft Windows dan
Mac OS. Kemampuan aplikasi ini di fokuskan untuk
pengolahan data, baik data angka, karakter (string), maupun
waktu (jam dan tanggal).
Power query merupakan fitur analisis data yang
tersedia untuk Excel yang memungkinkan pengguna
menemukan, menggabungkan dan memperbaiki data. Power
query memungkinkan mentransformasikan data web dan
menambahkan query ke model data ke worksheet yang ada.
Pada penelitian ini power query akan digunakan
pada proses crawling teks. Crawling dilakukan untuk
21

mengambil data postingan dan komentar pada fanpage toko
online. Power query merupakan ekstensi dari Ms.Excel yang
dapat melakukan crawling text pada suatu website.

22

BAB III
PERANCANGAN
2.1

Perancangan Alur Analisis Sentimen

Perancangan alur analisis sentimen merupakan gambaran
umum terkait alur penelitian yang akan dilakukan pada tugas akhir
ini. Alur kerja dari analisis sentimen dapat dilihat pada Gambar 3.1
berikut:
Collecting Data

Crawling
Comments

Filtering

Training Data
Selection

Stemming

Preprocessing

Functuation &
Number Filter

Convert
Negation

Attribut
Selection

Case
Folding

Measurement
Accuration

Compare Classification :
k-NN, Naïve Bayes &
Decision Tree

Featured Selection

Gambar 6 Alur Perancangan Analisis Sentimen
Alur pertama dari analisis sentimen ialah mendapatkan data
komentar dengan melakukan crawling data dan pemilihan training
data. Langkah kedua, dilakukan preprocessing utama data komentar
yang terdiri dari dua tahap, yaitu functuation and number filtering
dan case folding. Langkah ketiga, yakni featured selection dengan
tiga tahapan, filtering, stemming dan convet negation. Selanjutnya
menentukan atribut sebelum masuk ke proses klasifikasi dengan
metode frequent itemset. Setelah didapat atribut-atribut yang sering
muncul, barulah dilakukan proses klasifikasi dengan metode
klasifikasi naïve bayes, k-NN dan decision tree. Hasil dari klasifikasi
selanjutnya diukur keakuratannya dengan kombinasi metode K-fold
cross validation dan confusion matrix.

23

2.1.1

Sumber Data

Gambar 7 Contoh Penggunaan Power Query Editor

Gambar 8 Contoh Hasil Crawling Menggunakan Power Query
Sumber data teks yang akan diolah pada penelitian ini
berasal dari halaman fanpage facebook toko online. Data teks berasal
dari komentar-komentar pengunjung fanpage yang diambil dengan
melakukan crawling text. Crawling text menggunakan adds-in Power
Query Ms.Excel. Power query mampu melakukan pengambilan
feeds fanpage hingga ribuan baris data. Data yang berhasil di load
akan dipindahkan ke dalam sheet Ms.Excel sehingga sumber data
awal akan berekstensi .xls.

24

Berdasarkan data komentar hasil crawling, data training
dikumpulkan dengan menyaring keywords yang berhubungan dengan
pelayanan/produk fashion dikombinasikan dengan kata-kata
sentimen dan atau emoticon. Berikut ketentuan yang digunakan
dalam memilih data training diantara ribuan data komentar yang
hasil crawling :
1. Menentukan target/entitas.
a. Pelayanan, yaitu terkait pelayanan pengiriman dan respon
komplain pelanggan. Keyword terkait pelayanan
diantaranya; kirim, order, pesan, paket, klarifikasi,
komplain, balas, respon, jawab, retur, barang, konfirmasi,
jawab dan retur.
b. Produk fashion, yaitu terkait kualitas produk yang dikirim
apakah bentuk, ukuran, jenis, motif ataupun warnanya
sesuai dengan yang dipesan. Keyword yang digunakan
ialah baju, shirt, kaos, kasu, dress, ukuran, warna, size,
sepatu, jam, watch, celana, sandal, sendal, heels, wedges,
tas, koko, kemeja.
2. Menentukan keyword sentimen positif/negatif dan atau
emoticon yang mengiringi suatu kalimat komentar.
a. Pelayanan-sentimen-positif ; sampai, sampe, cepat, cepet,
sudah, datang, mudah, thx, dan terima kasih.
b. Pelayanan-sentimen-negatif ; lama, kecewa, lambat, telat,
susah, sulit, parah, bohong, salah, batal dan maaf.
c. Produk-sentimen-positif ; bagus, percaya, keren, cantik,
cakep, puas, oke dan sesuai.
d. Produk-sentimen-negatif ; kecewa, jelek, rusak, parah,
komplain, salah, ganti, tukar, retur, refund, rongsok dan
bohong.
3. Melakukan filtering kata target/entitas dan sentimen ada
dalam satu kalimat komentar. jika salah satu tidak ada, maka
tidak layak menjadi data training.
No

Table 5 Contoh Komentar Data Training
Komentar

25

1

orderan saya sdh dikirim blm min ? no order 205595279
mau saya cek status di web tp kok tdk ditemukan. thx.

2

4

zalora, saya ingin melakukan pembatalan pemesanan yg
saya lakukan. tapi mengapa CS via telepon hanya bisa
mengecek status order saja. apakah tidak bisa berbicara
langsung?
halo, mau tanya proses retur order 202167159 yg sudah
berminggu2 ga ada kabar :( kalau ga bisa retur kan bisa
kirim balik aja yg kemarin saya kirim :(
thanks ZALORA barangnya udah sampe cepat banget :)

5

Terima kasih ZALORA paketnya sudah sampai,

6

Udah sampai nih zalora pesanan saya, terima kasih ya

7

pelayanan na cepat bgt. selalu konfirmasi. Cuma kemarin
sempat nyebelin krn pake jasa pengiriman yg memiliki
jam terbang yg masih pendek. Tapi berkat kegigihan cs
zalora, semua teratasi. Tq
Mav saya telp cs kok gak bsa untuk pembatalan no order
203387759 soalnya mau ganti barang sma ganti
alamatnya . Mohon konfirmasinya terimakasih
maaf, sy sdh bayar untuk pembelanjaan dgn no order
209342847 tpi sy dpat sms lgi jika belum membayar, sy
bayar atas nama Rohani Sibuea, trus uang sy kemana?
Puas banget belanja di Zalora ...^^ barangnya oke Dan
sesuai dengan gw bangeeeeet.:))

3

8

9

10

2.1.2

Preprocessing

Sebelum melakukan proses klasifikasi, data komentar harus
melalui tahap pre-processing untuk memperoleh format data yang
sesuai. Proses pre-processing ini sangat penting karena format data
26

akan mempengaruhi keoptimalan hasil klasifikasi nantinya. Tahapan
preprocessing terdiri dari tiga tahap. Setiap tahapan akan dijabarkan
pada subab ini. Berdasarkan data komentar pada Tabel 5, berikut
contoh dilakukannya proses preprocessing.

2.1.2.1

Tahap Punctuation dan Number Filter
Table 6 Data Komentar Toko Online
No
Komentar
1

5

orderan saya sudah dikirim order saya status tidak
ditemukan terimakasih
zalora saya ingin melakukan pembatalan pemesanan
saya lakukan tapi mengapa telepon hanya bisa
mengecek status order saja apakah tidak bisa
berbicara langsung
halo mau tanya proses retur order sudah berminggu
tidak ada kabar sedih kalau tidak bisa retur bisa kirim
balik kemarin saya kirim sedih
Terimakasih ZALORA barangnya udah sampe cepat
banget senyum
Terimakasih ZALORA paketnya sudah sampai

6

Sudah sampai zalora pesanan saya terimakasih

7

pelayanan cepat selalu konfirmasi Cuma kemarin
sempat nyebelin pake jasa pengiriman yg memiliki
jam terbang yg masih pendek Tapi berkat kegigihan
zalora semua teratasi terimakasih
Maaf saya telp tidak bisa untuk pembatalan no order
soalnya ganti barang sama ganti alamatnya Mohon
konfirmasinya terimakasih
maaf bayar untuk pembelanjaan order dapat jika
belum membayar bayar atas nama Rohani Sibuea trus
uang kemana
Puas banget belanja di Zalora barangnya oke sesuai
dengan bangeeeeet senyum

2

3

4

8

9

10

27

2.1.2.2

Tahap Case Folding
Pada tahapan ini data komentar akan diubah menjadi
huruf kecil semua dan karakter selain huruf akan
dihilangkan.
N
o
1

Table 7 Penerapan Case Folding dan Tokenizing
Komentar

5

orderan saya sudah dikirim order saya status tidak
ditemukan terima kasih
zalora saya ingin melakukan pembatalan pemesanan
saya lakukan tapi mengapa telepon hanya bisa
mengecek status order saja apakah tidak bisa
berbicara langsung
halo mau tanya proses retur order sudah berminggu
tidak ada kabar sedih kalau tidak bisa retur bisa kirim
balik kemarin saya kirim sedih
terima kasih zalora barangnya udah sampe cepat
banget senyum
terima kasih zalora paketnya sudah sampai

6

sudah sampai zalora pesanan saya terimakasih

7

pelayanan cepat selalu konfirmasi cuma kemarin
sempat nyebelin pake jasa pengiriman yg memiliki
jam terbang masih pendek tapi berkat kegigihan
zalora semua teratasi terimakasih
maaf saya telp tidak bisa untuk pembatalan order
soalnya ganti barang sama ganti alamatnya mohon
konfirmasinya terimakasih
maaf bayar untuk pembelanjaan order dapat jika

2

3

4

8

9

28

belum membayar bayar atas nama rohani sibuea trus
uang kemana
10 puas banget belanja di zalora barangnya bagus sesuai
dengan bangeeeeet senyum
2.1.2.3 Tahap Filtering
Tahap filtering akan menghapus kata-kata yang
sering muncul dan bersifat umum yang terdapat pada
komentar. Contoh penerapan filtering berdasarkan
stopwordlist pada Tabel 8.
No
1
2

3

4
5
6
7

8

9
10

Table 8 Contoh Penerapan Filtering
Komentar
orderan sudah dikirim order status tidak ditemukan
terimakasih
zalora ingin melakukan pembatalan pemesanan
lakukan mengapa telepon bisa mengecek status order
tidak bisa berbicara langsung
proses retur order sudah berminggu tidak ada kabar
sedih kalau tidak bisa retur bisa kirim balik kemarin
kirim sedih
terimakasih zalora barangnya udah sampe cepat
senyum
terimakasih zalora paketnya sudah sampai
sudah sampai zalora pesanan terimakasih
pelayanan cepat selalu konfirmasi kemarin sempat
nyebelin pake jasa pengiriman memiliki terbang
masih pendek berkat kegigihan zalora semua teratasi
terimakasih
maaf telp tidak bisa pembatalan order soalnya ganti
barang ganti alamatnya mohon konfirmasinya
terimakasih
maaf bayar pembelanjaan order dapat belum
membayar bayar rohani sibuea uang kemana
puas
belanja zalora barangnya bagus sesuai
29

bangeeeeet senyum

2.1.2.4

Tahap Stemming
Pada tahap ini kata-kata komentar akan
dikembalikan ke bentuk dasarnya dengan menghilangkan
imbuhan pada setiap kata.
No
1
2
3

4
5
6
7

8
9
10

Table 9 Contoh Penerapan Stemming
Komentar
order sudah kirim order status tidak temu terimakasih
zalora ingin lakukan batal pesan lakukan mengapa
telepon bisa cek status order tidak bisa bicara langsung
proses retur order sudah minggu tidak ada kabar sedih
kalau tidak bisa retur bisa kirim balik kemarin kirim
sedih
terimakasih zalora barang udah sampe cepat senyum
terimakasih zalora paket sudah sampai
sudah sampai zalora pesan terimakasih
layan cepat selalu konfirmasi kemarin sempat nyebelin
pake jasa kirim milik terbang masih pendek berkat
gigih zalora semua atasi terimakasih
maaf telp tidak bisa batal order soal ganti barang ganti
alamat mohon konfirmasi terimakasih
maaf bayar belanja order dapat belum bayar bayar
rohani sibuea uang kemana
puas belanja zalora barang bagus sesuai bangeeeeet
senyum

30

2.1.2.5

Convert Negation
Kata-kata yang bersifat negasi yang akan di lakukan
konversi diantaranya, “kurang”, “tidak”, “enggak”, “ga”,
“nggak”, “tak”, dan “gak”. Contoh penerapan convert
negation seperti pada tabel berikut.
No
1
2

4

order sudahkirim order status tidaktemu terimakasih
zalora ingin lakukan batal pesan lakukan mengapa
telepon bisa cek status order tidakbisa bicara langsung
proses retur order sudah minggu tidakada kabar sedih
kalau tidakbisa retur bisa kirim balik kem