Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan di UPT PUSKOM UNS.

Implementasi Vector Space Model dalam PembangkitanFrequently
Asked Questions Otomatis dan Solusi yang Relevan untuk
Keluhan Pelanggan di UPT PUSKOM UNS
Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu
Program Studi S1 Informatika

Disusun Oleh:
Kartika Permatasari Suryajaya
NIM. M0510029

HALAMAN JUDUL

PROGRAM STUDI S1 INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2015

ii

iii


MOTTO

“… boleh jadi kamu tidak menyenangi sesuatu, padahal itu baik bagimu, dan
boleh jadi kamu menyukai sesuatu, padahal itu tidak baik bagimu. Allah
mengetahui, sedangkan kamu tidak mengetahui”
(Q.S. Al – Baqarah : 216)
“Jadikanlah sabar dan sholat sebagai penolongmu…”
(Q.S. Al – Baqarah :45)
Do what you love, Love what you do

iv

PERSEMBAHAN

Karya ini penulis persembahkan untuk:
“Bapak Muhtadi Suryajaya dan Ibu Wiji Astuti, kedua orang tua yang senantiasa
mendo’akan, memberikan dukungan, mencurahkan cinta, kasih sayang dan
pengorbanan yang tiaratara”
“Achmad Fathony dan Fariz Priehastudy adik-adik tersayang”

“Mas Dhimas Bagus Sudiro Utomo, yang meski terkadang lelah, namun
tetapada”
“Faliharifa Nafis Talita, sahabat kecil yang senantiasa mampu menghadirkan
kebahagiaan dalam kebersamaan”
“Dian Anggraini, sahabat tercinta”
“Sahabat d’brandiez: Aish, April, Eva, Dian, Ika, Maman, Pingky, Shofi yang
sampai kapanpun semoga tetap dipertemukan dalam cinta dan bahagia”
“Mba Putri, Mba Kiki, Mba Restu, Mba Tika, Mba Ita, Mba Rini, Mba Gita dan
Mba Dessy yang selalu menguatkan dalam cinta dan kasih sayang”
“Sahabat IMC, Kumizet 2, Muslimah Zone dan komunitas-komunitas lain yang
tiada pernah lelah untuk bercengkerama dalam cerita, berbagi dan berbahagia”
“Seluruh keluarga, sahabat, kerabat dan semua pihak yang senantiasa
mengharapkan Saya lulus”

v

KATA PENGANTAR

Puji dan syukur penulis panjatkan kepada Allah SWT atas segala limpahan
rahmat, taufik, hidayah dan inayah-Nya, sehingga penulis dapat menyelesaikan

Tugas

Akhir

dengan

judul

“ImplementasiVector

Space

Model

dalam

Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan
untuk Keluhan Pelanggan di UPT PUSKOM UNS”. Penulis memiliki
keterbatasan sehingga banyak bantuan dan bimbingan yang diberikan oleh
berbagai pihakdalam penyusunan Tugas Akhir ini. Oleh karena itu, penulis

mengucapkan terima kasih kepada :
1.

bapak dan ibu yang senantiasa memberikan motivasi, doa dan
dukungannya dalam proses penyusunan Tugas Akhir ini,

2.

bapak Ristu Saptono, S.Si., M.T. selaku Dosen Pembimbing I yang dengan
penuh kesabaran telah memberikan bimbingan dan pengarahan,

3.

bapak Abdul Aziz, S.Kom., M.Cs., selaku Dosen Pembimbing II yang
telah memberikan masukan, kritik dan saran yang membangun,

4.

seluruh Bapak Ibu dosen dan Karyawan Informatika FMIPA UNS,


5.

teman-teman Informatika khususnya angkatan 2010 atas doa dan
semangatnya,

6.

mas Dhimas Bagus Sudiro Utomo atas bantuan, doa dan dukungannya,

7.

sahabat-sahabat yang selalu ada, mendoakan dan memberikan semangat :
Aish, April, Eva, Dian Cahya, Ika, Maman, Pingky, Shofi, Dewi Ika, Dian
Anggraini,

8.

mba Putri, mba Kiki, mba Tika, mba Ita, mba Gita, mba Restu, mba Rini
dan mba Dessy atas semangat, doa dan persahabatan yang tak mengenal
usia, ruang dan waktu,


9.

dansemua pihak yang tidak dapat disebutkan satu persatu.
Semoga Tugas Akhir ini bermanfaat dan memberikan inspirasi bagi semua

pihak yang berkepentingan.
Surakarta, 4 Agustus 2015

Penulis

vi

Implementation of Vector Space Model in Generating Automatic of Frequently
Asked Questions and the Relevant Solutions for Customer’s Complaints in UPT
PUSKOM UNS
Kartika Permatasari Suryajaya
Department of Informatics.Faculty of Mathematics and Natural Science.
Sebelas Maret University
ABSTRACT

UPT PUSKOM UNS as an service unit needs customer’s complaint
handling. Customer’s complaints will be given solutions based on the past
complaints which has similarity with the new complaints. Therefore, a method to
calculate similarity between new complaint dan the past complaints is needed.
The result of the calculation can be used for generating automatic Frequently
Asked Questions (FAQ) and relevant solutions.
There are some methods can be used for calculating document similarity,
such as VSM. VSM is a method that has efficient procedure, easily represented
dan can be implemented in document-matching. Therefore, in this research VSM
in generating automatic FAQ and relevant solutions for customer’s complaint in
UPT PUSKOM UNS will be used. Weighting term usedTerm Frequency-Inverse
Document Frequency (TF-IDF) technique. Compared combinations are TF-IDF it
self, logarithmic modified TF and logarithmic modified IDF. Similarity measure
used cosine similarity.
The results of this research are VSM algorithm with TF-IDF weighting can
be used to generate automatic FAQ and the relevant solutions. Based on the
accuracy calculation of each experiment can be concluded on a threshold 0.5, the
combination of TF-IDF notation which has an average rating of highest accuracy
and precision is TF-IDF, that is respectively 62.09% and 55.15%. Whereas in the
threshold 0.65 that has average rating of the highest accuracy and precision is the

first modification, which is respectively 83.18% and 68.35%. Besides that, the
experiment using 171 data TF-IDF and threshold 0.65 can generate 27 FAQ, that
is percentage70.37% is relevant.

Keyword—Cosine Similarity, Nazief-Adriani, Term Frequency-Inverse Document
Frequency, Text Mining, Vector Space Model

vii

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked
Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan di
UPT PUSKOM UNS
Kartika Permatasari Suryajaya
Jurusan Informatika. Fakultas Matematika dan Ilmu Pengetahuan Alam.
Universitas Sebelas Maret
ABSTRAK
UPT PUSKOM UNS, sebagai salah satu unit pelayanan sangat
memerlukan penanganan keluhan pelanggan. Keluhan-keluhan yang disampaikan
customer akan diberikan solusi
yangdidasarkan pada keluhan-keluhan

sebelumnya yang mempunyai kemiripan dengan keluhan yang baru. Oleh karena
itu diperlukan metode untuk menghitung kemiripan antara keluhan baru dengan
keluhan-keluhan yang telah lampau. Hasil perhitungan kemiripan tersebut dapat
digunakan dalam pembangkitan Frequently Asked Questions otomatis dan solusi
yang relevan.
Terdapat beberapa metode yang dapat digunakan untuk menghitung
kemiripan dokumen, salah satunya adalah Vector Space Model. VSM merupakan
metode yang memiliki cara kerja yang efisien, mudah dalam representasi dan
dapat diimplementasikan dalam document-matching. Oleh karena itu dalam
penelitian ini akan digunakan metode VSMdalam pembangkitan FAQ otomatis
dan solusi yang relevan untuk keluhan pelanggan di UPT PUSKOM
UNS.Pembobotan term dilakukan dengan teknik Term Frequency-Inverse
Document Frequency (TF-IDF).Kombinasi notasi TF-IDF yang dibandingkan
adalah TF-IDF itu sendiri, modifikasi logaritmik TF dan modifikasi logaritmik
IDF.Similarity measure yang digunakan adalah cosine similarity.
Hasil dari penelitian ini adalah algoritma VSM dengan pembobotan TFIDF dapat digunakan untuk membangkitkan FAQ otomatis dan solusi yang
relevan. Berdasarkan hasil perhitungan accuracy pada masing-masing percobaan
dapat disimpulkan bahwa pada threshold 0.5, kombinasi notasi TF-IDF yang
memiliki nilai rata-rata accuracy dan precision tertinggi adalah modifikasi
pertama, yaitu masing-masing sebesar 62.09% dan 55.15%. Sedangkan untuk

threshold 0.65 yang memiliki nilai rata-rata accuracy dan precision tertinggi
adalah TF-IDF, yaitu masing-masing sebesar 83.18% dan 68.35%. Selain itu
percobaan dengan menggunakan 171 data, TF-IDF dan threshold 0.65 dapat
membangkitkan 27 FAQ, yaitu dengan persentase 70.37% relevan.

Kata Kunci—Cosine Similarity,Nazief-Adriani, Term
Document Frequency, Text Mining, Vector Space Model

viii

Frequency-Inverse

DAFTAR ISI
HALAMAN JUDUL ............................................................................................... i
HALAMAN PERSETUJUAN ............................... Error! Bookmark not defined.
HALAMAN PENGESAHAN ............................... Error! Bookmark not defined.
MOTTO ................................................................................................................. iii
PERSEMBAHAN ....................................................................................................v
KATA PENGANTAR............................................................................................. vi
ABSTRACT .......................................................................................................... vii

ABSTRAK ........................................................................................................... viii
DAFTAR ISI .......................................................................................................... ix
DAFTAR TABEL .................................................................................................. xi
DAFTAR GAMBAR ........................................................................................... xiv
DAFTAR LAMPIRAN ..........................................................................................xv
BAB I IPENDAHULUAN .................................... Error! Bookmark not defined.
1.1.

Latar Belakang .................................. Error! Bookmark not defined.

1.2.

Rumusan Masalah ............................. Error! Bookmark not defined.

1.3.

Batasan Masalah ............................... Error! Bookmark not defined.

1.4.

Tujuan Penelitian .............................. Error! Bookmark not defined.

1.5.

Manfaat Penelitian ............................ Error! Bookmark not defined.

1.6.

Sistematika Penulisan ....................... Error! Bookmark not defined.

BAB IITINJAUAN PUSTAKA ............................. Error! Bookmark not defined.
2.1.

Landasan Teori .................................. Error! Bookmark not defined.

2.1.1.

Text Mining........................................ Error! Bookmark not defined.

2.1.2.

Algoritma Nazief & Adriani ............. Error! Bookmark not defined.

2.1.3.

Term Frequency-Inverse Document Frequency (TF-IDF) ........ Error!

Bookmark not defined.
2.1.4.

Vector Space Model (VSM) .............. Error! Bookmark not defined.

2.2.

Penelitian Terkait .............................. Error! Bookmark not defined.

2.3.

Kerangka Pemikiran .......................... Error! Bookmark not defined.

BAB IIIMETODOLOGI PENELITIAN ............... Error! Bookmark not defined.

ix

3.1.

Studi Literatur ................................... Error! Bookmark not defined.

3.2.

Pengumpulan Data ............................ Error! Bookmark not defined.

3.3.

Implementasi ..................................... Error! Bookmark not defined.

3.4.

Analisa Hasil ..................................... Error! Bookmark not defined.

BAB IVHASIL DAN PEMBAHASAN ................ Error! Bookmark not defined.
4.1.

Deskripsi Data ................................... Error! Bookmark not defined.

4.2.

Implementasi ..................................... Error! Bookmark not defined.

4.3.

Analisa Hasil ..................................... Error! Bookmark not defined.

4.3.1.

Menghitung Akurasi .......................... Error! Bookmark not defined.

4.3.2.

Membandingkan Kombinasi Notasi Pembobotan TF-IDF ....... Error!

Bookmark not defined.
4.3.3.

Pembangkitan FAQ ........................... Error! Bookmark not defined.

4.3.4.

Pembahasan ....................................... Error! Bookmark not defined.

BAB VPENUTUP.................................................. Error! Bookmark not defined.
5.1.

KESIMPULAN ................................. Error! Bookmark not defined.

5.2.

SARAN ............................................. Error! Bookmark not defined.

DAFTAR PUSTAKA ............................................. Error! Bookmark not defined.

x

DAFTAR TABEL
Tabel 2.1 Kombinasi Awalan Akhiran yang tidak DiijinkanError! Bookmark not
defined.
Tabel 2.2 Cara Menentukan Tipe Awalan untuk Kata yang Diawali dengan “te-“
........................................................... Error! Bookmark not defined.
Tabel 2.3 Jenis Awalan Berdasarkan Tipe Awalan . Error! Bookmark not defined.
Tabel 2.4 Notasi pada TF-IDF (Yogatama, 2008 dalam Karmayasa & Mahendra,
2012) ................................................. Error! Bookmark not defined.
Tabel 2.5. Keterkaitan Penelitian dengan Penelitian Sebelumnya ................. Error!
Bookmark not defined.
Tabel 3.1 Pembagian Data Training dan Data TestingError!

Bookmark

not

defined.
Tabel 3.2 Rincian Percobaan .................................. Error! Bookmark not defined.
Tabel 3.3 Contingency Table (Fawcett, 2005) ....... Error! Bookmark not defined.
Tabel 4.1 Contoh Keluhan yang Diolah Menggunakan TextPreprocessing... Error!
Bookmark not defined.
Tabel 4.2 Contoh Keluhan yang Diolah Menggunakan Text Transforming... Error!
Bookmark not defined.
Tabel 4.3 Frekuensi Term dari Setiap Dokumen atau Nilai TF pada Kombinasi
N.T .................................................... Error! Bookmark not defined.
Tabel 4.4 Nilai TF pada Kombinasi L.T dan L.N .. Error! Bookmark not defined.
Tabel 4.5 Frekuensi Term dari Seluruh Dokumen . Error! Bookmark not defined.
Tabel 4.6 Model Ruang Vektor pada Kombinasi N.TError!

Bookmark

not

defined.
Tabel 4.7 Model Ruang Vektor pada Kombinasi L.T dan L.TError!

Bookmark

not defined.
Tabel 4.8 Nilai IDF pada Kombinasi N.T .............. Error! Bookmark not defined.
Tabel 4.9 Nilai Bobot dari Setiap Term (TF*IDF) pada Kombinasi N.T ...... Error!
Bookmark not defined.
Tabel 4.10 Nilai Bobot Setiap Term (TF*IDF) pada Kombinasi L.T ............ Error!
Bookmark not defined.

xi

Tabel 4.11 Nilai Bobot Setiap Term (TF*IDF) pada Kombinasi L.N ............ Error!
Bookmark not defined.
Tabel 4.12 Nilai Kemiripan Antar Keluhan ........... Error! Bookmark not defined.
Tabel 4.13 Hasil Perhitungan Accuracy, Precision dan Recall untuk Threshold 0.5
........................................................... Error! Bookmark not defined.
Tabel 4.14 Hasil Perhitungan Accuracy, Precision dan Recall untuk Threshold
0.65.................................................... Error! Bookmark not defined.
Tabel 4.15 Nilai Rata-Rata Accuracy dan Precision Ketiga Kombinasi Notasi TFIDF .................................................... Error! Bookmark not defined.
Tabel 4.16 Perhitungan Similarity ID Keluhan 115 untuk Threshold 0.5 pada
Kombinasi N.T .................................. Error! Bookmark not defined.
Tabel 4.17 Perhitungan Similarity ID Keluhan 115 untuk Threshold 0.5 pada
Kombinasi L.T .................................. Error! Bookmark not defined.
Tabel 4.18 Perhitungan Similarity ID Keluhan 115 untuk Threshold 0.5 pada
Kombinasi L.N .................................. Error! Bookmark not defined.
Tabel A.1 Data Keluhan Pelanggan di UPT PUSKOM UNSError!

Bookmark

not defined.
Tabel B.1 Percobaan 1 pada Kombinasi N.T, Threshold 0.5 ................................ 68
Tabel B.2Percobaan 2 pada Kombinasi N.T, Threshold 0.5 ................................. 72
Tabel B.3Percobaan 3 pada Kombinasi N.T, Threshold 0.5 ................................. 76
Tabel B.4Percobaan 4 pada Kombinasi N.T, Threshold 0.5 ................................. 81
Tabel B.5Percobaan 1 pada Kombinasi L.T, Threshold 0.5 .................................. 86
Tabel B.6Percobaan 2 pada Kombinasi L.T, Threshold 0.5 .................................. 89
Tabel B.7Percobaan 3 pada Kombinasi L.T, Threshold 0.5 .................................. 93
Tabel B.8Percobaan 4 pada Kombinasi L.T, Threshold 0.5 .................................. 98
Tabel B.9Percobaan 1 pada Kombinasi L.N, Threshold 0.5 ............................... 102
Tabel B.10Percobaan 2 pada Kombinasi L.N, Threshold 0.5 ............................. 107
Tabel B.11Percobaan 3 pada Kombinasi L.N, Threshold 0.5 .............................. 111
Tabel B.12Percobaan 4 pada Kombinasi L.N, Threshold 0.5 .............................. 117
Tabel C.1 Percobaan 1 pada Kombinasi N.T, Threshold 0.65 ............................ 126
Tabel C.2 Percobaan 2 pada Kombinasi N.T, Threshold 0.65 ............................ 128
Tabel C.3 Percobaan 3 pada Kombinasi N.T, Threshold 0.65 ............................ 131

xii

Tabel C.4 Percobaan 4 pada Kombinasi N.T, Threshold 0.65 ............................ 134
Tabel C.5 Percobaan 1 pada Kombinasi L.T, Threshold 0.65 ............................. 136
Tabel C.6 Percobaan 2 pada Kombinasi L.T, Threshold 0.65 ............................. 139
Tabel C.7 Percobaan 3 pada Kombinasi L.T, Threshold 0.65 ............................. 141
Tabel C.8 Percobaan 4 pada Kombinasi L.T, Threshold 0.65 ............................. 145
Tabel C.9 Percobaan 1 pada Kombinasi L.N, Threshold 0.65 ............................ 147
Tabel C.10 Percobaan 2 pada Kombinasi L.N, Threshold 0.65 .......................... 150
Tabel C.11 Percobaan 3 pada Kombinasi L.N, Threshold 0.65 .......................... 153
Tabel C.12 Percobaan 4 pada Kombinasi L.N, Threshold 0.65 .......................... 157
Tabel D.1 FAQ yang Berhasil Dibangkitkan ...................................................... 160

xiii

DAFTAR GAMBAR
Gambar 2.1 Ilustrasi Algoritma TF-IDF (Harlian, 2006 dalam Muhajir 2012)
........................................................... Error! Bookmark not defined.
Gambar 2.2 Representasi Dokumentasi dan Query pada Ruang Vektor (Mandala,
Setiawan, 2002)................................. Error! Bookmark not defined.
Gambar 3.1 Metodologi Penelitian ........................ Error! Bookmark not defined.
Gambar 4.1 Contoh Keluhan yang tidak Mempunyai Kemiripan dengan Keluhan
Lain ................................................... Error! Bookmark not defined.
Gambar 4.2 Accuracy untuk threshold 0.5............. Error! Bookmark not defined.
Gambar 4.3 Precision untuk Threshold 0.5 ........... Error! Bookmark not defined.
Gambar 4.4 Accuracy untuk Threshold 0.65 ......... Error! Bookmark not defined.
Gambar 4.5 Precision untuk Threshold 0.65 ......... Error! Bookmark not defined.
Gambar 4.6 Contoh Tampilan Skema 1 dalam Pembangkitan FAQ .............. Error!
Bookmark not defined.
Gambar 4.7 Contoh Tampilan Skema 2 dalam Pembangkitan FAQ .............. Error!
Bookmark not defined.
Gambar 4.8 Contoh Tampilan Penambahan FAQ .. Error! Bookmark not defined.
Gambar 4.9 Contoh Tampilan Skema 3 dalam Pembangkitan FAQ .............. Error!
Bookmark not defined.

xiv

DAFTAR LAMPIRAN

LAMPIRAN ADATA KELUHAN PELANGGAN DI UPT PUSKOM UNSError!
Bookmark not defined.
LAMPIRAN BHASIL PERHITUNGAN KEMIRIPAN PADA THRESHOLD 0.5
....................................................................................................................68
LAMPIRAN CHASIL PERHITUNGAN KEMIRIPAN PADA THRESHOLD 0.65
..................................................................................................................126
LAMPIRAN DFAQ YANG BERHASIL DIBANGKITKAN .............................160

xv