Sentiment Analysis Pada Teks Bahasa Indonesia Menggunakan Support Vector Machine (SVM) Dan K-Nearest Neighbor (K-NN)

BAB 1
PENDAHULUAN

1.1. Latar Belakang
Analisis Sentimen adalah proses menganalisis, memahami pendapat, evaluasi, penilaian,
sikap, dan emosi terhadap suatu entitas seperti produk, jasa, organisasi, individu, peristiwa,
topik, secara otomatis untuk mendapatkan informasi (Liu, 2010). Besarnya pengaruh dan
manfaat dari Sentiment Analysis, menyebabkan penelitian ataupun aplikasi mengenai
Sentiment Analysis berkembang pesat, bahkan di Amerika ada kurang lebih 20-30 perusahaan
menggunakan Sentiment Analysis untuk mendapatkan informasi tentang sentimen masyarakat
terhadap pelayanan perusahaan (Sumartini, 2011). Pada dasarnya Sentiment Analysis
merupakan klasifikasi, tetapi kenyataannya tidak semudah proses klasifikasi biasa karena
terkait penggunaan bahasa. Terdapat ambigu dalam penggunaan kata, tidak adanya intonasi
dalam sebuah teks, dan perkembangan dari bahasa itu sendiri (Bo & Lilian, 2008).
Adapun penelitian-penelitian terdahulu yang terkait dengan Sentiment Analysis, antara
lain adalah penelitian (Abbasi et al, 2008) mendeteksi situs website palsu atau asli dengan
klasifikasi artikel berita pada website. Penelitian (Han et al, 2013) menganalisis sentimen
pada teks twitter, dengan menggunakan karakter bahasa n-gram model dan SVM untuk
mengatasi

variasi


leksikal tinggi dalam teks Twitter.

Chandrasekaran, 2012)

Penelitian (Vinodhini

mengembangkan sistem yang dapat

&

mengidentifikasi dan

mengklasifikasikan sentimen masyarakat untuk memprediksi produk yang menarik dalam
pemasaran.
Penelitian ini menggunakan teks Bahasa Indonesia yang terdapat di website berupa
artikel berita, kemudian akan dibagi ke dalam tiga kelas, yaitu kelas sentimen positif, negatif
dan netral. Pada sentiment analysis, metode K-Nearest Neighbor akan menganalisis secara
langsung pada data pembelajaran agar dapat menentukan model yang akan dibentuk. Metode
Support Vector Machine kemudian digunakan untuk menentukan kategori dari data baru yang

ingin ditentukan secara tekstual, yaitu kelas sentimen positif, negatif dan netral. Support
Vector Machine digunakan pada penelitian ini karena memiliki teknik yang berakar pada
teori pembelajaran statistik dan telah menunjukkan hasil yang baik dalam berbagai aplikasi
praktis dari pengenalan digit tulisan tangan sampai kategorisasi teks dan juga bekerja sangat

Universitas Sumatera Utara

baik pada data dengan banyak dimensi dan menghindari kesulitan dari permasalahan
dimensionalitas (Tan & Kumar, 2006). Dipilih k-nearest neighbor karena implementasi yang
sangat sederhana, baik untuk ruang pencarian karena kelas tidak harus dipisahkan linear (Li,
2006). K-NN tangguh terhadap training data yang noise dan efektif apabila training data-nya
besar (Darujati, 2010).
Support Vector Machine (SVM) dan K-Nearest Neighbor (K-NN) dapat melakukan
menganalisis dengan cara belajar dari sekumpulan contoh dokumen yang telah diklasifikasi
sebelumnya. Keuntungan dari metode ini adalah dapat menghemat waktu kerja dan
memperoleh hasil yang lebih baik, tetapi pada Support Vector Machine untuk ekstraksi
informasi dari dokumen teks tidak terstruktur karena jumlah fitur jauh lebih besar daripada
jumlah sampel, metode ini memiliki performansi yang kurang baik, terhadap domain tertentu,
oleh karena itu perlunya K-Nearest Neighbor untuk meminimalkan jumlah fitur yang akan
digunakan untuk analisis sehingga lebih akurat. Kemudian SVM tidak memperhatikan

distribusi data, karena hanya berdasarkan kelas yang memiliki pola berbeda dan dipisahkan
oleh fungsi pemisah, sehingga analisis yang dihasilkan kemungkinan salah, sehingga K-NN
akan mendistribusikan data tersebut dengan berdasarkan jarak data ke beberapa data terdekat,
sehingga analisis yang dihasilkan lebih akurat. Penelitian ini diharapkan dapat mempercepat
upaya mendapatkan informasi yang akurat tentang sentimen pemberitaan media massa pada
suatu hal.

1.2. Rumusan Masalah
Informasi terus bertambah setiap waktu dengan adanya arus informasi yang cepat, yang
dibutuhkan oleh masyarakat. Diantaranya kebutuhan untuk mendapatkan informasi yang
tersedia di Internet berupa informasi dalam bentuk teks. Semakin banyak informasi yang
ingin diketahui, maka dibutuhkan waktu yang cukup lama untuk mendapatkan informasi
tersebut, sehingga analisis sentimen sangat diperlukan, untuk mempercepat proses untuk
mendapatkan informasi.

1.3. Batasan Masalah
Dalam menganalisis sentimen menggunakan algoritma Support Vector Machine (SVM) dan
K-Nearest Neighbor (K-NN) dilakukan beberapa batasan sebagai berikut :

Universitas Sumatera Utara


1. Dataset yang digunakan adalah artikel berita berbahasa Indonesia yang didapatkan
dari web menggunakan crawler
2. Fitur yang digunakan berupa Unigram yaitu token yang terdiri dari satu kata.
3. Dataset hanya berupa teks, tidak menggunakan simbol, angka, tanda baca dan icon
emoticon, untuk menganalisis sentimen.
1.4. Tujuan Penelitian
Tujuan penelitian ini adalah untuk menganalisis sentimen pada artikel berita berbahasa
Indonesia, sehingga mempercepat proses mendapatkan informasi yang diinginkan.

1.5. Manfaat Penelitian
Manfaat dari penelitian ini adalah diharapkan dengan adanya aplikasi dari metode Support
Vector Machine (SVM) dan K-Nearest Neighbor (K-NN) dapat berguna untuk menganalisis
sentimen pada artikel berita berupa teks berbahasa Indonesia, sehingga mempercepat proses
dalam hal mendapatkan informasi yang diinginkan.

Universitas Sumatera Utara

Universitas Sumatera Utara