DAFTAR ISI
Halaman HALAMAN JUDUL
i PERSETUJUAN
ii PERNYATAAN ORISINALITAS
iii PERSETUJUAN PUBLIKASI
iv PANITIA PENGUJI
v RIWAYAT HIDUP
vi UCAPAN TERIMA KASIH
vii ABSTRAK
viii
ABSTRACT
ix DAFTAR ISI
x DAFTAR TABEL
xii DAFTAR GAMBAR
xiii BAB 1 PENDAHULUAN
1
1.1. Latar Belakang
1 1.2.
Rumusan Masalah 2
1.3. Batasan Masalah
2 1.4.
Tujuan Penelitian 3
1.5. Manfaat Penelitian
3
BAB 2 LANDASAN TEORI 4
2.1.
Text Mining
4 2.2.
Sentiment Analysis
6 2.3.
Support Vector Machine SVM
11 2.3.1. Konsep
Support Vector Machine SVM
11 2.3.2. Klasifikasi Data
Linear Separable
13 2.3.3. Klasifikasi Data
Linear Non-Separable
14 2.3.4. Klasifikasi Data
Non-Linear
14 2.3.5. Metode Kernel
15 2.3.6. Algoritma
SVM
untuk Menganalisis Dokumen
Web
17 2.3.7. Karakterisitik
Support Vector Machine SVM
18 2.3.8. Kelebihan
Support Vector Machine SVM
19 2.3.9. Kelemahan
Support Vector Machine SVM
19 2.4.
K-Nearest Neighbor K-NN
20 2.4.1. Konsep
K-Nearest Neighbor K-NN
20 2.4.2. Algoritma
K-NN
untuk Menganalisis Dokumen Web 23
2.4.3. Kelebihan
K-Nea rest Neighbor K-NN
23 2.4.4. Kelemahan
K-Nearest Neighbor K-NN
23 2.5.
K-Fold Cross Validation
23 2.6.
Riset Terkait 25
2.7. Perbedaan dengan Riset yang lain
26 2.8.
Kontribusi Riset 26
Universitas Sumatera Utara
BAB 3 METODOLOGI PENELITIAN 27
3.1. Identifikasi Masalah
27 3.2.
Proses Analisis Sentimen pada Dokumen 27
3.3. Pengumpulan Data
28 3.4.
Pre-Processing
29 3.4.1.
Cleaning
29 3.4.2.
Case Folding
30 3.5.
Ekstraksi Fitur 30
3.5.1.
Tokenization
30 3.5.2.
Stopwords Removing
31 3.5.3.
Stemming
32 3.6.
Pembobotan Term 33
3.7. Pembelajaran dan Analisis
36 3.7.1. Rancangan Analisis Dokumen dengan
K-NN
36 3.7.2. Rancangan Analisis Dokumen dengan
SVM
41 3.8.
Validasi dengan
K-Fold Cross Validation
45
BAB 4 HASIL DAN PEMBAHASAN 47
4.1. Tentang Penelitian
47 4.2.
Implementasi Metode
K-NN
dan
Support Vector Machine
48 4.2.1. Persiapan Data
48 4.2.2. Proses Analisis
48 4.2.3. Antar Muka Sistem
49 4.3.
Hasil dan Pembahasan Percobaan 52
4.3.1. Hasil dan Pembahasan Percobaan dengan Metode
K-NN
dan
SVM
untuk data Berbahasa Indonesia 52
4.3.2 Pengaruh Pemilihan Nilai K pada K-NN 65
4.3.3 Akurasi
K-Fold Cross Validation
66
BAB 5 KESIMPULAN DAN SARAN 69
5.1. Kesimpulan
69 5.2.
Saran 70
DAFTAR PUSTAKA 71
LAMPIRAN
74
Universitas Sumatera Utara
DAFTAR TABEL
Halaman Tabel 2.1.
Daftar Prefiks yang Meluluh 9
Tabel 2.2. Daftar Kemungkinan Perubahan Prefiks
9 Tabel 2.3.
Daftar Kombinasi Prefiks dan Sufiks yang Tidak Diperbolehkan 10
Tabel 2.4. Rangkuman Penelitian
Sentiment Analysis
Sebelumnya 25
Tabel 3.1. Jumlah Frekuensi tiap Term
35 Tabel 3.2.
Bobot Term 35
Tabel 3.3. Hitung Perkalian Skalar
39 Tabel 3.3.
Hitung Panjang Vektor 40
Tabel 4.1. Spesifikasi Perangkat Keras
47 Tabel 4.2.
Kata Positif pada Dokumen Positif 53
Tabel 4.3. Kata Negatif pada Dokumen Positif
54 Tabel 4.4.
Kata Positif pada Dokumen Negatif 56
Tabel 4.5. Kata Negatif pada Dokumen Negatif
56 Tabel 4.6.
Kata Positif pada Dokumen Netral 59
Tabel 4.7. Kata Negatif pada Dokumen Netral
59 Tabel 4.8.
Persentase Analisis Sentimen
K-NN
61 Tabel 4.9.
Jumlah Dokumen Hasil Analisis Sentimen
K-NN
61 Tabel 4.10.
Akurasi dan Waktu Proses
K-NN
dalam Menganalisis Sentimen 61
Tabel 4.11. Persentase Analisis Sentimen
SVM
62 Tabel 4.12.
Jumlah Dokumen Hasil Analisis Sentimen
K-NN
62 Tabel 4.13.
Akurasi dan Waktu Proses
SVM
dalam Menganalisis Sentimen 63
Tabel 4.14. Hasil Rata-rata Semua
Fold Cross Validation
pada
SVM
dan
K-NN
Terhadap Akurasi 67
Universitas Sumatera Utara
DAFTAR GAMBAR
Halaman Gambar 2.1.
Hyperplane
Bidang Pemisah 14
Gambar 2.2. Transformasi dari vektor input ke
feature space
15 Gambar 2.3. Suatu Kernel map mengubah
problem
yang tidak linier menjadi Linier dalam space baru
16 Gambar 2.4. Ilustrasi Data dipisahkan dalam kasus XOR
18 Gambar 2.5. Delapan titik dalam satu dimensi dan estimasi densitas
K-NN
dengan k=3 dan k=5 22
Gambar 2.6.
K-NN
mengestimasi densitas dua dimensi dengan k=5 22
Gambar 3.1. Proses Analisis Sentimen 27
Gambar 3.2.
Pseudocode Cra wling
28 Gambar 3.3.
Pseudocode Cleaning
29 Gambar 3.4.
Pseudocode Case Folding
30 Gambar 3.5.
Pseudocode Tokenization
30 Gambar 3.6.
Pseudocode Stopwords Removing
31 Gambar 3.7.
Pseudocode Stemming
32 Gambar 3.8.
Term Documents Matrix
33 Gambar 3.9.
Pseudocode
Pembobotan
Term
34 Gambar 3.10. Diagram Alir
K-NN
37 Gambar 3.11.
Pseudocode
Analisis Menggunakan
K-NN
38 Gambar 3.12. Diagram Alir
SVM
42 Gambar 3.13.
Pseudocode
Analisis Menggunakan
SVM
44 Gambar 3.14. Fungsi Pemisah antara Dokumen Relevan dan Tidak Relevan
45 Gambar 3.15.
Pseudocode K-Fold Cross Validation
46 Gambar 4.1. Tampilan Beranda
49 Gambar 4.2.
Tampilan Sub Menu “Kelola Data” 50
Gambar 4.3. Tampilan Menu “Tambah”
50 Gambar 4.4.
Tampilan Sub Menu “Analisis Sentimen” 51
Gambar 4.5. Dokumen Positif 53
Gambar 4.6. Dokumen Negatif 54
Gambar 4.7. Dokumen Netral 55
Gambar 4.8. Jumlah Dokumen Positif, Negatif dan Netral Hasil Analisis Sentimen
59 Gambar 4.9. Akurasi Rata-Rata
K-NN
dan
SVM
dalam Menganalisis Sentimen 59
Gambar 4.10. Waktu Rata-Rata
K-NN
dan
SVM
Menganalisis Sentimen 60
Gambar 4.11. Pengaruh Nilai k pada
K-NN
terhadap Akurasi 61
Gambar 4.12. Hasil Pengujian Konfigurasi Niilai k pada K-Fold Cross Validation Berdasarkan Hasil Rata-Rata Akurasi
63
Universitas Sumatera Utara
Universitas Sumatera Utara
ABSTRAK
Analisis Sentimen adalah proses menganalisis, memahami, dan mengklasifikasi pendapat, evaluasi, penilaian, sikap, dan emosi terhadap suatu entitas seperti produk, jasa, organisasi,
individu, peristiwa, topik, secara otomatis untuk mendapatkan informasi. Penelitian ini menggunakan teks Bahasa Indonesia yang terdapat di
website
berupa artikel berita, kemudian metode
K-Nearest Neighbor
akan mengklasifikasi secara langsung pada data pembelajaran agar dapat menentukan model yang akan dibentuk oleh metode
Support Vector Machine
untuk menentukan kategori dari data baru yang ingin ditentukan kategori tekstual, yaitu kelas sentimen positif, negatif dan netral. Berdasarkan seluruh hasil pengujian, bahwa pengaruh
nilai k pada
k-fold cross validation
yang terlalu kecil menghasilkan akurasi yang rendah, sedangkan nilai k yang terlalu besar menghasilkan nilai akurasi yang besar, kemudian
Pengaruh nilai k pada K-NN terhadap akurasi, jika n memiliki akurasi rendah pada saat nilai k kecil. Hal ini dikarenakan, data yang masuk pada k tetangga terdekat terlalu sedikit dan
belum bisa merepresentasikan kelas pada data uji.
Kata kunci :
Sentiment Analysis, Support Vector Machine, K-Nearest Neighbor
Universitas Sumatera Utara
SENTIMENT ANALYSIS USING SUPPORT VECTOR MACHINE SVM AND K-NEAREST NEIGHBOR K-NN ON INDONESIAN TEXT
ABSTRACT
Sentiment analysis is the process of analyzing, understanding, and classifying opinions, evaluation, assessment, attitudes, and emotions to an entity such as products, services,
organizations, individuals, events, topics, automatically to obtain the information. This study uses Indonesian text contained in the website in the form of news articles, then the K-Nearest
Neighbor method will classify directly to the learning data in order to determine the model that will be established by the Support Vector Machine method for determining the category
of the new data to be determined categories of textual, the class of sentiment is positive, negative and neutral. Based on the test results, that influence the value of k in the k-fold cross
validation is too small resulting in low accuracy, while too large values of k produce great accuracy value, then the value of k on the Influence of K-NN to accuracy, if n has an
accuracy low when the value of k is small. This is because, the incoming data on the k nearest neighbor too little and can not represent a class on test data.
Keyword :
Sentiment Analysis, Support Vector Machine, K-Nearest Neighbor
Universitas Sumatera Utara
BAB 1 PENDAHULUAN