Analisis Sentimen Naïve Bayes Classifier

8

BAB II TINJAUAN PUSTAKA

2.1 Analisis Sentimen

Opinion Mining atau analisis sentimen merupakan salah satu bidang dari ilmu komputer yang mempelajari komputasi linguistik, pengolahan bahasa alami, dan text mining yang bertujuan untuk menganalisa emosi, penilaian, sikap, pendapat, sentimen, evaluasi seseorang terhadap seorang pembicara atau penulis berkenaan dengan suatu produk, layanan, organisasi, individu, tokoh publik, topik, acara, ataupun kegiatan tertentu Liu, 2012. Proses utama dalam analisis sentimen yaitu mengelompokkan teks yang terdapat dalam sebuah kalimat atau dokumen kemudian menentukan pendapat yang dikemukakan tersebut apakah bersifat positif, negatif, atau netral. Analisis sentimen dapat digunakan untuk mencari pendapat tentang produk, merek atau tokoh publik dan menentukan apakah mereka dilihat positif atau negatif Saraswati, 2011. Hal ini memungkinkan pengguna untuk mencari informasi tentang: 1 Deteksi Flame rants buruk, 2 Persepsi produk baru, 3 Persepsi merek, 4 Manajemen reputasi. Sentimen atau opini mengacu pada fokus topik tertentu, pernyataan pada satu topik mungkin akan berbeda makna dengan pernyataan yang sama pada subject yang berbeda. Alasan tersebut menyebabkan beberapa penelitian terutama pada review produk didahului dengan menentukan elemen dari sebuah produk yang sedang dibicarakan sebelum memulai proses opinion mining Manalu, 2014.

2.2 Naïve Bayes Classifier

Naïve Bayes Classifier adalah salah satu metode klasifikasi yang berakar pada teorema Bayes. Ciri utama dari Naïve Bayes Classifier ini adalah asumsi yang sangat kuat naif terhadap tingkat independensi dari masing-masing kondisi atau kejadian. Terdapat dua tahap klasifikasi dokumen tweet pada penelitian ini. Tahap pertama adalah proses training terhadap dokumen yang 9 sudah diketahui kategorinya. Sedangkan tahap kedua adalah proses testing yaitu mengklasifikasikan dokumen yang belum diketahui kategorinya. Dalam algoritma Naïve Bayes Classifier setiap dokumen direpresentasikan dengan pasangan atrib ut “x 1 , x 2 , x 3 , … x n ” dimana x 1 adalah kata pertama, x 2 adalah kata kedua dan seterusnya. Sedangkan V adalah himpunan kategori tweet sebagai berikut: � |� , … , � = � � � ,…,� � | � � ,…,� � 1 Dimana variabel V merepresentasikan kelas, sementara variabel � , … , � merepresentasikan karakteristik-karakteristik petunjuk yang dibutuhkan untuk melakukan klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang masuknya sampel dengan karakteristik tertentu dalam kelas V posterior adalah peluang munculnya kelas V sebelum masuknya sampel tersebut, disebut prior, dikali dengan peluang kemunculan karakteristik- karakteristik sampel pada kelas V likelihood, dibagi dengan peluang kemunculan karakteristik-karakteristik sampel secara global evidence. Nilai evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari posterior tersebut yang nantinya akan dibandingkan dengan nilai-nilai posterior kelas lainnya untuk menentukan ke kelas apa suatu sampel akan diklasifikasikan. Penjabaran lebih lanjut rumus Naïve Bayes Classifier dapat dilakukan dengan menjabarkan � � , … , � | menggunakan aturan perkalian, menjadi sebagai berikut: � � , … , � | = � � | � � , … , � | , � = � � | � � | , � � � , … , � | , � | , � , � = � � | � � | , � … � � | , � , � , … � − 2 Hasil penjabaran persamaan 2 memperlihatkan semakin banyak dan semakin kompleksnya faktor-faktor syarat yang mempengaruhi nilai probabilitas, sehingga menjadi rumit untuk dianalisa satu-persatu. Akibatnya, perhitungan tersebut menjadi sulit untuk dilakukan. Disinilah digunakan asumsi independensi yang sangat tinggi naif, bahwa masing-masing fitur � , � , … , � saling bebas independent satu sama lain. Dengan asumsi tersebut, maka berlaku suatu kesamaan sebagai berikut: 10 �� |� = � � � � � = � � 3 untuk i ≠ j, sehingga persamaan 3 menjadi �� | , � = � � | 4 Dari persamaan 4 dapat disimpulkan bahwa asumsi independensi naif tersebut membuat syarat peluang menjadi sederhana, sehingga perhitungan menjadi mungkin untuk dilakukan. Selanjutnya, penjabaran � � , … , � | dapat disederhanakan menjadi seperti berikut : � � , … , � | = � � | � � | … � � | � � , … , � | 5 � � , … , � | = ∏ � � | = 6 Dari persamaan 6, persamaan 1 Naïve Bayes Classifier dapat dituliskan sebagai berikut : � |� , … , � = � ∏ � � | � = � � , � …, � � 7 Persamaan 7 merupakan model dari teorema Naïve Bayes Classifier yang selanjutnya akan digunakan dalam proses klasifikasi dokumen tweet Dharmawan, 2014. Pada saat klasifikasi algoritma akan mencari probabilitas tertinggi dari semua kategori dokumen yang diujikan, dimana persamaan 7 menjadi sebagai berikut : � |� , … , � = � ∏ � � | � = � � , � …, � � ∈ � � �� 8 Adapun adalah kategori tweet dimana dalam penelitian ini j 1 = kategori tweet sentimen negatif, j 2 = kategori tweet sentimen positif, dan j 3 = kategori tweet sentimen netral. Sedangkan � � , � … , � merepresentasikan evidence yang nilainya konstan untuk semua kelas pada satu sampel. Penjabaran dari evidence tersebut yaitu : � � , � , � , … � = � � � � … � = � � + � + � + … + � = � � + � � + � � + … + � � = ∑ � � = = 1 11 Sehingga persamaan 8 dapat disederhanakan menjadi sebagai berikut : � |� , … , � = � ∏ � � | = ∈ � � �� 9 Keterangan : V j = Kategori tweet j = 1, 2, 3, … n. Dimana dalam penelitian ini j 1 = kategori tweet sentimen negatif, j 2 = kategori tweet sentimen positif, dan j 3 = kategori tweet sentimen netral Px i |V j = Probabilitas x i pada kategori V j PV j = Probabilitas dari V j Untuk PV j dan Px i |V j persamaannya adalah sebagai berikut : PV j = | | |� | 10 Px i |V j = + +| � � �| 11 Keterangan : |docs j| = jumlah dokumen setiap kategori j |all docs| = jumlah dokumen dari semua kategori n k = jumlah frekuensi kemunculan setiap n-gram kata n = jumlah frekuensi kemunculan n-gram kata dari setiap kategori |kosakata| = jumlah semua n-gram kata dari semua kategori

2.3 Seleksi Fitur Mutual Information