LANDASAN TEORI 4 METODOLOGI PENELITIAN 27 HASIL DAN PEMBAHASAN 47 KESIMPULAN DAN SARAN 69

DAFTAR ISI Halaman HALAMAN JUDUL i PERSETUJUAN ii PERNYATAAN ORISINALITAS iii PERSETUJUAN PUBLIKASI iv PANITIA PENGUJI v RIWAYAT HIDUP vi UCAPAN TERIMA KASIH vii ABSTRAK viii ABSTRACT ix DAFTAR ISI x DAFTAR TABEL xii DAFTAR GAMBAR xiii BAB 1 PENDAHULUAN 1 1.1. Latar Belakang 1 1.2. Rumusan Masalah 2

1.3. Batasan Masalah

2 1.4. Tujuan Penelitian 3

1.5. Manfaat Penelitian

3

BAB 2 LANDASAN TEORI 4

2.1. Text Mining 4 2.2. Sentiment Analysis 6 2.3. Support Vector Machine SVM 11 2.3.1. Konsep Support Vector Machine SVM 11 2.3.2. Klasifikasi Data Linear Separable 13 2.3.3. Klasifikasi Data Linear Non-Separable 14 2.3.4. Klasifikasi Data Non-Linear 14 2.3.5. Metode Kernel 15 2.3.6. Algoritma SVM untuk Menganalisis Dokumen Web 17 2.3.7. Karakterisitik Support Vector Machine SVM 18 2.3.8. Kelebihan Support Vector Machine SVM 19 2.3.9. Kelemahan Support Vector Machine SVM 19 2.4. K-Nearest Neighbor K-NN 20 2.4.1. Konsep K-Nearest Neighbor K-NN 20 2.4.2. Algoritma K-NN untuk Menganalisis Dokumen Web 23 2.4.3. Kelebihan K-Nea rest Neighbor K-NN 23 2.4.4. Kelemahan K-Nearest Neighbor K-NN 23 2.5. K-Fold Cross Validation 23 2.6. Riset Terkait 25

2.7. Perbedaan dengan Riset yang lain

26 2.8. Kontribusi Riset 26 Universitas Sumatera Utara

BAB 3 METODOLOGI PENELITIAN 27

3.1. Identifikasi Masalah 27 3.2. Proses Analisis Sentimen pada Dokumen 27

3.3. Pengumpulan Data

28 3.4. Pre-Processing 29 3.4.1. Cleaning 29 3.4.2. Case Folding 30 3.5. Ekstraksi Fitur 30 3.5.1. Tokenization 30 3.5.2. Stopwords Removing 31 3.5.3. Stemming 32 3.6. Pembobotan Term 33

3.7. Pembelajaran dan Analisis

36 3.7.1. Rancangan Analisis Dokumen dengan K-NN 36 3.7.2. Rancangan Analisis Dokumen dengan SVM 41 3.8. Validasi dengan K-Fold Cross Validation 45

BAB 4 HASIL DAN PEMBAHASAN 47

4.1. Tentang Penelitian

47 4.2. Implementasi Metode K-NN dan Support Vector Machine 48 4.2.1. Persiapan Data 48 4.2.2. Proses Analisis 48 4.2.3. Antar Muka Sistem 49 4.3. Hasil dan Pembahasan Percobaan 52 4.3.1. Hasil dan Pembahasan Percobaan dengan Metode K-NN dan SVM untuk data Berbahasa Indonesia 52 4.3.2 Pengaruh Pemilihan Nilai K pada K-NN 65 4.3.3 Akurasi K-Fold Cross Validation 66

BAB 5 KESIMPULAN DAN SARAN 69

5.1. Kesimpulan

69 5.2. Saran 70 DAFTAR PUSTAKA 71 LAMPIRAN 74 Universitas Sumatera Utara DAFTAR TABEL Halaman Tabel 2.1. Daftar Prefiks yang Meluluh 9 Tabel 2.2. Daftar Kemungkinan Perubahan Prefiks 9 Tabel 2.3. Daftar Kombinasi Prefiks dan Sufiks yang Tidak Diperbolehkan 10 Tabel 2.4. Rangkuman Penelitian Sentiment Analysis Sebelumnya 25 Tabel 3.1. Jumlah Frekuensi tiap Term 35 Tabel 3.2. Bobot Term 35 Tabel 3.3. Hitung Perkalian Skalar 39 Tabel 3.3. Hitung Panjang Vektor 40 Tabel 4.1. Spesifikasi Perangkat Keras 47 Tabel 4.2. Kata Positif pada Dokumen Positif 53 Tabel 4.3. Kata Negatif pada Dokumen Positif 54 Tabel 4.4. Kata Positif pada Dokumen Negatif 56 Tabel 4.5. Kata Negatif pada Dokumen Negatif 56 Tabel 4.6. Kata Positif pada Dokumen Netral 59 Tabel 4.7. Kata Negatif pada Dokumen Netral 59 Tabel 4.8. Persentase Analisis Sentimen K-NN 61 Tabel 4.9. Jumlah Dokumen Hasil Analisis Sentimen K-NN 61 Tabel 4.10. Akurasi dan Waktu Proses K-NN dalam Menganalisis Sentimen 61 Tabel 4.11. Persentase Analisis Sentimen SVM 62 Tabel 4.12. Jumlah Dokumen Hasil Analisis Sentimen K-NN 62 Tabel 4.13. Akurasi dan Waktu Proses SVM dalam Menganalisis Sentimen 63 Tabel 4.14. Hasil Rata-rata Semua Fold Cross Validation pada SVM dan K-NN Terhadap Akurasi 67 Universitas Sumatera Utara DAFTAR GAMBAR Halaman Gambar 2.1. Hyperplane Bidang Pemisah 14 Gambar 2.2. Transformasi dari vektor input ke feature space 15 Gambar 2.3. Suatu Kernel map mengubah problem yang tidak linier menjadi Linier dalam space baru 16 Gambar 2.4. Ilustrasi Data dipisahkan dalam kasus XOR 18 Gambar 2.5. Delapan titik dalam satu dimensi dan estimasi densitas K-NN dengan k=3 dan k=5 22 Gambar 2.6. K-NN mengestimasi densitas dua dimensi dengan k=5 22 Gambar 3.1. Proses Analisis Sentimen 27 Gambar 3.2. Pseudocode Cra wling 28 Gambar 3.3. Pseudocode Cleaning 29 Gambar 3.4. Pseudocode Case Folding 30 Gambar 3.5. Pseudocode Tokenization 30 Gambar 3.6. Pseudocode Stopwords Removing 31 Gambar 3.7. Pseudocode Stemming 32 Gambar 3.8. Term Documents Matrix 33 Gambar 3.9. Pseudocode Pembobotan Term 34 Gambar 3.10. Diagram Alir K-NN 37 Gambar 3.11. Pseudocode Analisis Menggunakan K-NN 38 Gambar 3.12. Diagram Alir SVM 42 Gambar 3.13. Pseudocode Analisis Menggunakan SVM 44 Gambar 3.14. Fungsi Pemisah antara Dokumen Relevan dan Tidak Relevan 45 Gambar 3.15. Pseudocode K-Fold Cross Validation 46 Gambar 4.1. Tampilan Beranda 49 Gambar 4.2. Tampilan Sub Menu “Kelola Data” 50 Gambar 4.3. Tampilan Menu “Tambah” 50 Gambar 4.4. Tampilan Sub Menu “Analisis Sentimen” 51 Gambar 4.5. Dokumen Positif 53 Gambar 4.6. Dokumen Negatif 54 Gambar 4.7. Dokumen Netral 55 Gambar 4.8. Jumlah Dokumen Positif, Negatif dan Netral Hasil Analisis Sentimen 59 Gambar 4.9. Akurasi Rata-Rata K-NN dan SVM dalam Menganalisis Sentimen 59 Gambar 4.10. Waktu Rata-Rata K-NN dan SVM Menganalisis Sentimen 60 Gambar 4.11. Pengaruh Nilai k pada K-NN terhadap Akurasi 61 Gambar 4.12. Hasil Pengujian Konfigurasi Niilai k pada K-Fold Cross Validation Berdasarkan Hasil Rata-Rata Akurasi 63 Universitas Sumatera Utara Universitas Sumatera Utara ABSTRAK Analisis Sentimen adalah proses menganalisis, memahami, dan mengklasifikasi pendapat, evaluasi, penilaian, sikap, dan emosi terhadap suatu entitas seperti produk, jasa, organisasi, individu, peristiwa, topik, secara otomatis untuk mendapatkan informasi. Penelitian ini menggunakan teks Bahasa Indonesia yang terdapat di website berupa artikel berita, kemudian metode K-Nearest Neighbor akan mengklasifikasi secara langsung pada data pembelajaran agar dapat menentukan model yang akan dibentuk oleh metode Support Vector Machine untuk menentukan kategori dari data baru yang ingin ditentukan kategori tekstual, yaitu kelas sentimen positif, negatif dan netral. Berdasarkan seluruh hasil pengujian, bahwa pengaruh nilai k pada k-fold cross validation yang terlalu kecil menghasilkan akurasi yang rendah, sedangkan nilai k yang terlalu besar menghasilkan nilai akurasi yang besar, kemudian Pengaruh nilai k pada K-NN terhadap akurasi, jika n memiliki akurasi rendah pada saat nilai k kecil. Hal ini dikarenakan, data yang masuk pada k tetangga terdekat terlalu sedikit dan belum bisa merepresentasikan kelas pada data uji. Kata kunci : Sentiment Analysis, Support Vector Machine, K-Nearest Neighbor Universitas Sumatera Utara SENTIMENT ANALYSIS USING SUPPORT VECTOR MACHINE SVM AND K-NEAREST NEIGHBOR K-NN ON INDONESIAN TEXT ABSTRACT Sentiment analysis is the process of analyzing, understanding, and classifying opinions, evaluation, assessment, attitudes, and emotions to an entity such as products, services, organizations, individuals, events, topics, automatically to obtain the information. This study uses Indonesian text contained in the website in the form of news articles, then the K-Nearest Neighbor method will classify directly to the learning data in order to determine the model that will be established by the Support Vector Machine method for determining the category of the new data to be determined categories of textual, the class of sentiment is positive, negative and neutral. Based on the test results, that influence the value of k in the k-fold cross validation is too small resulting in low accuracy, while too large values of k produce great accuracy value, then the value of k on the Influence of K-NN to accuracy, if n has an accuracy low when the value of k is small. This is because, the incoming data on the k nearest neighbor too little and can not represent a class on test data. Keyword : Sentiment Analysis, Support Vector Machine, K-Nearest Neighbor Universitas Sumatera Utara

BAB 1 PENDAHULUAN