Sentiment Analysis Pada Teks Bahasa Indonesia Menggunakan Support Vector Machine (SVM) Dan K-Nearest Neighbor (K-NN)
SENTIMENT ANALYSIS
PADA TEKS BAHASA INDONESIA
MENGGUNAKAN
SUPPORT VECTOR MACHINE
(SVM)
DAN
K-NEAREST NEIGHBOR
(K-NN)
TESIS
SYAHFITRI KARTIKA LIDYA
127038007
PROGRAM STUDI MAGISTER (S-2) TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
(2)
SENTIMENT ANALYSIS
PADA TEKS BAHASA INDONESIA
MENGGUNAKAN
SUPPORT VECTOR MACHINE
(SVM)
DAN
K-NEAREST NEIGHBOR
(K-NN)
TESIS
Diajukan sebagai salah satu syarat untuk memperoleh ijazah
Magister (S-2) Teknik Informatika
Syahfitri Kartika Lidya
127038007
PROGRAM STUDI MAGISTER (S-2) TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
(3)
PERSETUJUAN
Judul Tesis : SENTIMENT ANALYSIS PADA TEKS BAHASA INDONESIA MENGGUNAKAN SUPPORT
VECTOR MACHINE (SVM) DAN K-NEAREST NEIGHBOR (K-NN)
Kategori : TESIS
Nama Mahasiswa : SYAHFITRI KARTIKA LIDYA
Nomor Induk Mahasiswa : 127038007
Program Studi : MAGISTER (S-2) TEKNIK INFORMATIKA
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
(FASILKOM-TI) UNIVERSITAS SUMATERA UTARA
Komisi Pembimbing :
Pembimbing 2, Pembimbing 1,
Dr. Syahril Efendi, S.Si M.IT Prof. Dr. Opim Salim Sitompul, M.Sc NIP. 19671110 199602 1 001 NIP. 19610817 198701 1 001
Diketahui/Disetujui Oleh,
Program Studi Magister (S-2) Teknik Informatika, Ketua,
Prof. Dr. Muhammad Zarlis NIP. 19570701 198601 1 003
(4)
PERNYATAAN
SENTIMENT ANALYSIS
PADA TEKS BAHASA INDONESIA
MENGGUNAKAN
SUPPORT VECTOR MACHINE
(SVM)
DAN
K-NEAREST NEIGHBOR
(K-NN)
TESIS
Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 21 Agustus 2014
Syahfitri Kartika Lidya 127038007
(5)
PERNYATAAN PERSETUJUAN PUBLIKASI
KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, Saya yang bertanda tangan di bawah ini :
Nama : Syahfitri Kartika Lidya
NIM : 127038007
Program Studi : Magister (S-2) Teknik Informatika Jenis Karya Ilmiah : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas Tesis Saya yang berjudul.
SENTIMENT ANALYSIS PADA TEKS BAHASA INDONESIA
MENGGUNAKAN SUPPORT VECTOR MACHINE (SVM)
DAN K-NEAREST NEIGHBOR (K-NN)
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, menformat, mengelola, dalam bentuk database, merawat, dan mempublikasikan Tesis Saya tanpa meminta izin dari Saya selama tetap mencantumkan nama Saya sebagai penulis dan sebagai pemegang dan atau sebagai pemilik hak cipta.
Demikian Pernyataan ini dibuat dengan sebenarnya.
Medan, 21 Agustus 2014
Syahfitri Kartika Lidya 127038007
(6)
Telah diuji pada
Tanggal : 21 Agustus 2014
PANITIA PENGUJI TESIS
Ketua : Prof. Dr. Opim Salim Sitompul, M.Sc Anggota : 1. Dr. Syahril Efendi, S.Si M.IT
2. Prof. Dr. Muhammad Zarlis
3. Dr. Erna Budhiarti Nababan, M.IT
(7)
RIWAYAT HIDUP
DATA PRIBADI
Nama lengkap berikut gelar : Syahfitri Kartika Lidya, S.TI Tempat dan Tanggal Lahir : Medan, 21 April 1991 Alamat Rumah : Jl. Denai, Jermal IV No. 15
Telepon / HP : 082167512054
Email : syahfitri_k_l@students.usu.ac.id
DATA PENDIDIKAN
SD : SD Negeri No.091644 Bah Lias Tamat : 2000
SMP : SMP Negeri 1 Bandar Tamat : 2006
SMA : SMA Negeri 3 Medan Tamat : 2008
Strata-1 : Teknologi Informasi USU Tamat : 2012 Strata-2 : Teknik Informatika USU Tamat : 2014
(8)
UCAPAN TERIMA KASIH
Puji syukur saya panjatkan kehadirat Allah SWT, yang telah memberikan rahmat dan hidayah-Nya serta segala sesuatunya dalam hidup, sehingga saya dapat menyelesaikan penyusunan Tesis ini, sebagai syarat untuk memperoleh ijazah Magister Teknik Informatika, Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara. Dalam pengerjaan Tesis ini penulis banyak sekali mendapatkan dukungan, saran, dan nasehat dari berbagai pihak.
Dalam kesempatan ini penulis mengucapkan terima kasih kepada: Bapak Prof. Dr. Opim Salim Sitompul, M.Sc, selaku Dosen Pembimbing I, yang telah bersedia meluangkan waktu dan pikirannya dalam membimbing, memotivasi untuk menyelesaikan Tesis ini. Bapak Dr. Syahril Efendi, S.Si M.IT, selaku Dosen Pembimbing II, yang telah bersedia meluangkan waktu dan pikirannya dalam menyelesaikan Tesis ini, Ucapan terima kasih juga ditujukan kepada Dosen Pembanding Bapak Prof. Dr. Muhammad Zarlis, Ibu Dr. Erna Budhiarti Nababan M.IT, dan Bapak Dr. Benny Benyamin Nasution Dipl. Ing., M. Eng, kemudian ucapan terima kasih untuk Ketua Program Studi Magister Teknik Informatika Bapak Prof. Dr. Muhammad Zarlis dan Sekretaris Program Studi Magister Teknik Informatika Bapak M. Andri Budiman, ST, McompSc, MEM. Serta kepada dosen-dosen Program Studi Magister Teknik Informatika dan pegawai di Program Studi Magister Teknik Informatika, khususnya kak Widya, kak Ines, kak Maya dan bang Ewin yang telah membantu kelancaran proses administrasi.
Segala hormat dan terima kasih secara khusus penulis ucapkan kepada ayahanda Yonnes Hasan dan Ibunda Nova Mustika atas motivasi, kasih sayang, dan dukungan baik secara materi maupun do‟a yang tak pernah putus yang diberikan kepada penulis, tak lupa kepada adik-adik tersayang Vayon Rachmat Ramadhan dan Sabilla Afiya, serta tante dan Om tersayang Julia Reveny, Imsyah Satari, Julia Maulina, Imsyahrial yang telah memberi motivasi dan nasehat serta nenek Syahiar tersayang yang selalu mendoakan. Tidak lupa kepada seluruh sahabat penulis Stambuk 2012 Kom A yang selalu berusaha menjadi sahabat terbaik khususnya kak Ananda, bg Johanes, bg bambang, kak Mawadda dan seluruh Stambuk 2012, kemudian orang terdekat yang selalu disayang, yang selalu memberi motivasi dan nasehat khususnya Karina Ayesha, Alfarisi, Karina Andi, Bowo, Ishri, Cahya, Dika, Mauza, Khalil.
Penulis berharap bahwa Tesis ini bermanfaat terutama kepada penulis maupun para pembaca. Saya menyadari bahwa Tesis ini perlu saran dan kritik yang bersifat membangun demi kesempurnaan Tesis ini sehingga dapat bermanfaat bagi kita semua. Sekali lagi saya ucapkan terima kasih atas segalanya. Semoga segala kebaikan diberikan balasan yang setimpal oleh Allah SWT.
Medan, 21 Agustus 2014
Syahfitri Kartika Lidya 127038007
(9)
ABSTRAK
Analisis Sentimen adalah proses menganalisis, memahami, dan mengklasifikasi pendapat, evaluasi, penilaian, sikap, dan emosi terhadap suatu entitas seperti produk, jasa, organisasi, individu, peristiwa, topik, secara otomatis untuk mendapatkan informasi. Penelitian ini menggunakan teks Bahasa Indonesia yang terdapat di website berupa artikel berita, kemudian metode K-Nearest Neighbor akan mengklasifikasi secara langsung pada data pembelajaran agar dapat menentukan model yang akan dibentuk oleh metode Support Vector Machine
untuk menentukan kategori dari data baru yang ingin ditentukan kategori tekstual, yaitu kelas sentimen positif, negatif dan netral. Berdasarkan seluruh hasil pengujian, bahwa pengaruh nilai k pada k-fold cross validation yang terlalu kecil menghasilkan akurasi yang rendah, sedangkan nilai k yang terlalu besar menghasilkan nilai akurasi yang besar, kemudian Pengaruh nilai k pada K-NN terhadap akurasi, jika n memiliki akurasi rendah pada saat nilai k kecil. Hal ini dikarenakan, data yang masuk pada k tetangga terdekat terlalu sedikit dan belum bisa merepresentasikan kelas pada data uji.
(10)
SENTIMENT ANALYSIS USING SUPPORT VECTOR MACHINE
(SVM) AND K-NEAREST NEIGHBOR (K-NN) ON INDONESIAN TEXT
ABSTRACT
Sentiment analysis is the process of analyzing, understanding, and classifying opinions, evaluation, assessment, attitudes, and emotions to an entity such as products, services, organizations, individuals, events, topics, automatically to obtain the information. This study uses Indonesian text contained in the website in the form of news articles, then the K-Nearest Neighbor method will classify directly to the learning data in order to determine the model that will be established by the Support Vector Machine method for determining the category of the new data to be determined categories of textual, the class of sentiment is positive, negative and neutral. Based on the test results, that influence the value of k in the k-fold cross validation is too small resulting in low accuracy, while too large values of k produce great accuracy value, then the value of k on the Influence of K-NN to accuracy, if n has an accuracy low when the value of k is small. This is because, the incoming data on the k nearest neighbor too little and can not represent a class on test data.
(11)
DAFTAR ISI
Halaman
HALAMAN JUDUL i
PERSETUJUAN ii
PERNYATAAN ORISINALITAS iii
PERSETUJUAN PUBLIKASI iv
PANITIA PENGUJI v
RIWAYAT HIDUP vi
UCAPAN TERIMA KASIH vii
ABSTRAK viii
ABSTRACT ix
DAFTAR ISI x
DAFTAR TABEL xii
DAFTAR GAMBAR xiii
BAB 1 PENDAHULUAN 1
1.1. Latar Belakang 1
1.2. Rumusan Masalah 2
1.3. Batasan Masalah 2
1.4. Tujuan Penelitian 3
1.5. Manfaat Penelitian 3
BAB 2 LANDASAN TEORI 4
2.1. Text Mining 4
2.2. Sentiment Analysis 6
2.3. Support Vector Machine (SVM) 11
2.3.1. Konsep Support Vector Machine (SVM) 11 2.3.2. Klasifikasi Data Linear Separable 13 2.3.3. Klasifikasi Data Linear Non-Separable 14
2.3.4. Klasifikasi Data Non-Linear 14
2.3.5. Metode Kernel 15
2.3.6. Algoritma SVM untuk Menganalisis Dokumen Web 17
2.3.7. Karakterisitik Support Vector Machine (SVM) 18 2.3.8. Kelebihan Support Vector Machine (SVM) 19
2.3.9. Kelemahan Support Vector Machine (SVM) 19
2.4. K-Nearest Neighbor (K-NN) 20
2.4.1. Konsep K-Nearest Neighbor (K-NN) 20 2.4.2. Algoritma K-NN untuk Menganalisis Dokumen Web 23
2.4.3. Kelebihan K-Nea rest Neighbor (K-NN) 23
2.4.4. Kelemahan K-Nearest Neighbor (K-NN) 23
2.5. K-Fold Cross Validation 23
2.6. Riset Terkait 25
2.7. Perbedaan dengan Riset yang lain 26
(12)
BAB 3 METODOLOGI PENELITIAN 27
3.1. Identifikasi Masalah 27
3.2. Proses Analisis Sentimen pada Dokumen 27
3.3. Pengumpulan Data 28
3.4. Pre-Processing 29
3.4.1. Cleaning 29
3.4.2. Case Folding 30
3.5. Ekstraksi Fitur 30
3.5.1. Tokenization 30
3.5.2. Stopwords Removing 31
3.5.3. Stemming 32
3.6. Pembobotan Term 33
3.7. Pembelajaran dan Analisis 36
3.7.1. Rancangan Analisis Dokumen dengan K-NN 36 3.7.2. Rancangan Analisis Dokumen dengan SVM 41 3.8. Validasi dengan K-Fold Cross Validation 45
BAB 4 HASIL DAN PEMBAHASAN 47
4.1. Tentang Penelitian 47
4.2. Implementasi Metode K-NN dan Support Vector Machine 48
4.2.1. Persiapan Data 48
4.2.2. Proses Analisis 48
4.2.3. Antar Muka Sistem 49
4.3. Hasil dan Pembahasan Percobaan 52
4.3.1. Hasil dan Pembahasan Percobaan dengan Metode K-NN dan SVM
untuk data Berbahasa Indonesia 52
4.3.2 Pengaruh Pemilihan Nilai K pada K-NN 65
4.3.3 Akurasi K-Fold Cross Validation 66
BAB 5 KESIMPULAN DAN SARAN 69
5.1. Kesimpulan 69
5.2. Saran 70
DAFTAR PUSTAKA 71
LAMPIRAN 74
(13)
DAFTAR TABEL
Halaman
Tabel 2.1. Daftar Prefiks yang Meluluh 9
Tabel 2.2. Daftar Kemungkinan Perubahan Prefiks 9
Tabel 2.3. Daftar Kombinasi Prefiks dan Sufiks yang Tidak Diperbolehkan 10 Tabel 2.4. Rangkuman Penelitian Sentiment Analysis Sebelumnya 25
Tabel 3.1. Jumlah Frekuensi tiap Term 35
Tabel 3.2. Bobot Term 35
Tabel 3.3. Hitung Perkalian Skalar 39
Tabel 3.3. Hitung Panjang Vektor 40
Tabel 4.1. Spesifikasi Perangkat Keras 47
Tabel 4.2. Kata Positif pada Dokumen Positif 53
Tabel 4.3. Kata Negatif pada Dokumen Positif 54
Tabel 4.4. Kata Positif pada Dokumen Negatif 56
Tabel 4.5. Kata Negatif pada Dokumen Negatif 56
Tabel 4.6. Kata Positif pada Dokumen Netral 59
Tabel 4.7. Kata Negatif pada Dokumen Netral 59
Tabel 4.8. Persentase (%) Analisis Sentimen K-NN 61
Tabel 4.9. Jumlah Dokumen Hasil Analisis Sentimen K-NN 61 Tabel 4.10. Akurasi dan Waktu Proses K-NN dalam Menganalisis Sentimen 61
Tabel 4.11. Persentase (%) Analisis Sentimen SVM 62
Tabel 4.12. Jumlah Dokumen Hasil Analisis Sentimen K-NN 62 Tabel 4.13. Akurasi dan Waktu Proses SVM dalam Menganalisis Sentimen 63 Tabel 4.14. Hasil Rata-rata Semua Fold Cross Validation pada SVM dan K-NN
(14)
DAFTAR GAMBAR
Halaman
Gambar 2.1. Hyperplane (Bidang Pemisah) 14
Gambar 2.2. Transformasi dari vektor input ke feature space 15 Gambar 2.3. Suatu Kernel map mengubah problem yang tidak linier menjadi
Linier dalam space baru 16 Gambar 2.4. Ilustrasi Data dipisahkan dalam kasus XOR 18 Gambar 2.5. Delapan titik dalam satu dimensi dan estimasi densitas
K-NN dengan k=3 dan k=5 22 Gambar 2.6. K-NN mengestimasi densitas dua dimensi dengan k=5 22 Gambar 3.1. Proses Analisis Sentimen 27
Gambar 3.2. Pseudocode Cra wling 28
Gambar 3.3. Pseudocode Cleaning 29
Gambar 3.4. Pseudocode Case Folding 30
Gambar 3.5. Pseudocode Tokenization 30
Gambar 3.6. Pseudocode Stopwords Removing 31
Gambar 3.7. Pseudocode Stemming 32
Gambar 3.8. Term Documents Matrix 33
Gambar 3.9. Pseudocode Pembobotan Term 34
Gambar 3.10. Diagram Alir K-NN 37
Gambar 3.11. Pseudocode Analisis Menggunakan K-NN 38
Gambar 3.12. Diagram Alir SVM 42
Gambar 3.13. Pseudocode Analisis Menggunakan SVM 44 Gambar 3.14. Fungsi Pemisah antara Dokumen Relevan dan Tidak Relevan 45
Gambar 3.15. Pseudocode K-Fold Cross Validation 46
Gambar 4.1. Tampilan Beranda 49
Gambar 4.2. Tampilan Sub Menu “Kelola Data” 50
Gambar 4.3. Tampilan Menu “Tambah” 50
Gambar 4.4. Tampilan Sub Menu “Analisis Sentimen” 51
Gambar 4.5. Dokumen Positif 53
Gambar 4.6. Dokumen Negatif 54
Gambar 4.7. Dokumen Netral 55
Gambar 4.8. Jumlah Dokumen Positif, Negatif dan Netral Hasil Analisis
Sentimen 59
Gambar 4.9. Akurasi Rata-Rata K-NN dan SVM dalam Menganalisis Sentimen 59
Gambar 4.10. Waktu Rata-Rata K-NN dan SVM Menganalisis Sentimen 60 Gambar 4.11. Pengaruh Nilai k pada K-NN terhadap Akurasi 61 Gambar 4.12. Hasil Pengujian Konfigurasi Niilai k pada K-Fold Cross Validation
(15)
(1)
SENTIMENT ANALYSIS USING SUPPORT VECTOR MACHINE
(SVM) AND K-NEAREST NEIGHBOR (K-NN) ON INDONESIAN TEXT
ABSTRACT
Sentiment analysis is the process of analyzing, understanding, and classifying opinions, evaluation, assessment, attitudes, and emotions to an entity such as products, services, organizations, individuals, events, topics, automatically to obtain the information. This study uses Indonesian text contained in the website in the form of news articles, then the K-Nearest Neighbor method will classify directly to the learning data in order to determine the model that will be established by the Support Vector Machine method for determining the category of the new data to be determined categories of textual, the class of sentiment is positive, negative and neutral. Based on the test results, that influence the value of k in the k-fold cross validation is too small resulting in low accuracy, while too large values of k produce great accuracy value, then the value of k on the Influence of K-NN to accuracy, if n has an accuracy low when the value of k is small. This is because, the incoming data on the k nearest neighbor too little and can not represent a class on test data.
(2)
DAFTAR ISI
Halaman
HALAMAN JUDUL i
PERSETUJUAN ii
PERNYATAAN ORISINALITAS iii
PERSETUJUAN PUBLIKASI iv
PANITIA PENGUJI v
RIWAYAT HIDUP vi
UCAPAN TERIMA KASIH vii
ABSTRAK viii
ABSTRACT ix
DAFTAR ISI x
DAFTAR TABEL xii
DAFTAR GAMBAR xiii
BAB 1 PENDAHULUAN 1
1.1. Latar Belakang 1
1.2. Rumusan Masalah 2
1.3. Batasan Masalah 2
1.4. Tujuan Penelitian 3
1.5. Manfaat Penelitian 3
BAB 2 LANDASAN TEORI 4
2.1. Text Mining 4
2.2. Sentiment Analysis 6
2.3. Support Vector Machine (SVM) 11 2.3.1. Konsep Support Vector Machine (SVM) 11 2.3.2. Klasifikasi Data Linear Separable 13 2.3.3. Klasifikasi Data Linear Non-Separable 14
2.3.4. Klasifikasi Data Non-Linear 14
2.3.5. Metode Kernel 15
2.3.6. Algoritma SVM untuk Menganalisis Dokumen Web 17
2.3.7. Karakterisitik Support Vector Machine (SVM) 18 2.3.8. Kelebihan Support Vector Machine (SVM) 19
2.3.9. Kelemahan Support Vector Machine (SVM) 19 2.4. K-Nearest Neighbor (K-NN) 20 2.4.1. Konsep K-Nearest Neighbor (K-NN) 20 2.4.2. Algoritma K-NN untuk Menganalisis Dokumen Web 23
2.4.3. Kelebihan K-Nea rest Neighbor (K-NN) 23
2.4.4. Kelemahan K-Nearest Neighbor (K-NN) 23
2.5. K-Fold Cross Validation 23
2.6. Riset Terkait 25
2.7. Perbedaan dengan Riset yang lain 26
(3)
BAB 3 METODOLOGI PENELITIAN 27
3.1. Identifikasi Masalah 27
3.2. Proses Analisis Sentimen pada Dokumen 27
3.3. Pengumpulan Data 28
3.4. Pre-Processing 29
3.4.1. Cleaning 29
3.4.2. Case Folding 30
3.5. Ekstraksi Fitur 30
3.5.1. Tokenization 30
3.5.2. Stopwords Removing 31
3.5.3. Stemming 32
3.6. Pembobotan Term 33
3.7. Pembelajaran dan Analisis 36
3.7.1. Rancangan Analisis Dokumen dengan K-NN 36 3.7.2. Rancangan Analisis Dokumen dengan SVM 41 3.8. Validasi dengan K-Fold Cross Validation 45
BAB 4 HASIL DAN PEMBAHASAN 47
4.1. Tentang Penelitian 47
4.2. Implementasi Metode K-NN dan Support Vector Machine 48
4.2.1. Persiapan Data 48
4.2.2. Proses Analisis 48
4.2.3. Antar Muka Sistem 49
4.3. Hasil dan Pembahasan Percobaan 52 4.3.1. Hasil dan Pembahasan Percobaan dengan Metode K-NN dan SVM
untuk data Berbahasa Indonesia 52
4.3.2 Pengaruh Pemilihan Nilai K pada K-NN 65
4.3.3 Akurasi K-Fold Cross Validation 66
BAB 5 KESIMPULAN DAN SARAN 69
5.1. Kesimpulan 69
5.2. Saran 70
DAFTAR PUSTAKA 71
LAMPIRAN 74
(4)
DAFTAR TABEL
Halaman
Tabel 2.1. Daftar Prefiks yang Meluluh 9
Tabel 2.2. Daftar Kemungkinan Perubahan Prefiks 9 Tabel 2.3. Daftar Kombinasi Prefiks dan Sufiks yang Tidak Diperbolehkan 10 Tabel 2.4. Rangkuman Penelitian Sentiment Analysis Sebelumnya 25
Tabel 3.1. Jumlah Frekuensi tiap Term 35
Tabel 3.2. Bobot Term 35
Tabel 3.3. Hitung Perkalian Skalar 39
Tabel 3.3. Hitung Panjang Vektor 40
Tabel 4.1. Spesifikasi Perangkat Keras 47
Tabel 4.2. Kata Positif pada Dokumen Positif 53
Tabel 4.3. Kata Negatif pada Dokumen Positif 54
Tabel 4.4. Kata Positif pada Dokumen Negatif 56
Tabel 4.5. Kata Negatif pada Dokumen Negatif 56
Tabel 4.6. Kata Positif pada Dokumen Netral 59
Tabel 4.7. Kata Negatif pada Dokumen Netral 59
Tabel 4.8. Persentase (%) Analisis Sentimen K-NN 61 Tabel 4.9. Jumlah Dokumen Hasil Analisis Sentimen K-NN 61 Tabel 4.10. Akurasi dan Waktu Proses K-NN dalam Menganalisis Sentimen 61 Tabel 4.11. Persentase (%) Analisis Sentimen SVM 62 Tabel 4.12. Jumlah Dokumen Hasil Analisis Sentimen K-NN 62 Tabel 4.13. Akurasi dan Waktu Proses SVM dalam Menganalisis Sentimen 63 Tabel 4.14. Hasil Rata-rata Semua Fold Cross Validation pada SVM dan K-NN
(5)
DAFTAR GAMBAR
Halaman
Gambar 2.1. Hyperplane (Bidang Pemisah) 14
Gambar 2.2. Transformasi dari vektor input ke feature space 15 Gambar 2.3. Suatu Kernel map mengubah problem yang tidak linier menjadi
Linier dalam space baru 16 Gambar 2.4. Ilustrasi Data dipisahkan dalam kasus XOR 18 Gambar 2.5. Delapan titik dalam satu dimensi dan estimasi densitas
K-NN dengan k=3 dan k=5 22 Gambar 2.6. K-NN mengestimasi densitas dua dimensi dengan k=5 22 Gambar 3.1. Proses Analisis Sentimen 27
Gambar 3.2. Pseudocode Cra wling 28
Gambar 3.3. Pseudocode Cleaning 29
Gambar 3.4. Pseudocode Case Folding 30
Gambar 3.5. Pseudocode Tokenization 30
Gambar 3.6. Pseudocode Stopwords Removing 31
Gambar 3.7. Pseudocode Stemming 32
Gambar 3.8. Term Documents Matrix 33
Gambar 3.9. Pseudocode Pembobotan Term 34
Gambar 3.10. Diagram Alir K-NN 37
Gambar 3.11. Pseudocode Analisis Menggunakan K-NN 38
Gambar 3.12. Diagram Alir SVM 42
Gambar 3.13. Pseudocode Analisis Menggunakan SVM 44 Gambar 3.14. Fungsi Pemisah antara Dokumen Relevan dan Tidak Relevan 45 Gambar 3.15. Pseudocode K-Fold Cross Validation 46
Gambar 4.1. Tampilan Beranda 49
Gambar 4.2. Tampilan Sub Menu “Kelola Data” 50
Gambar 4.3. Tampilan Menu “Tambah” 50
Gambar 4.4. Tampilan Sub Menu “Analisis Sentimen” 51
Gambar 4.5. Dokumen Positif 53
Gambar 4.6. Dokumen Negatif 54
Gambar 4.7. Dokumen Netral 55
Gambar 4.8. Jumlah Dokumen Positif, Negatif dan Netral Hasil Analisis
Sentimen 59
Gambar 4.9. Akurasi Rata-Rata K-NN dan SVM dalam Menganalisis Sentimen 59
Gambar 4.10. Waktu Rata-Rata K-NN dan SVM Menganalisis Sentimen 60 Gambar 4.11. Pengaruh Nilai k pada K-NN terhadap Akurasi 61 Gambar 4.12. Hasil Pengujian Konfigurasi Niilai k pada K-Fold Cross Validation
(6)