11 Sehingga persamaan 8 dapat disederhanakan menjadi sebagai berikut :
� |� , … , � = �
∏ � � |
= ∈
� � ��
9 Keterangan :
V
j
= Kategori tweet j = 1, 2, 3, … n. Dimana dalam penelitian ini
j
1
= kategori tweet sentimen negatif, j
2
= kategori tweet sentimen positif, dan j
3
= kategori tweet sentimen netral Px
i
|V
j
= Probabilitas x
i
pada kategori V
j
PV
j
= Probabilitas dari V
j
Untuk PV
j
dan Px
i
|V
j
persamaannya adalah sebagai berikut : PV
j
=
| |
|� |
10 Px
i
|V
j
=
+ +|
� � �|
11 Keterangan :
|docs j| = jumlah dokumen setiap kategori j
|all docs| = jumlah dokumen dari semua kategori n
k
= jumlah frekuensi kemunculan setiap n-gram kata n
= jumlah frekuensi kemunculan n-gram kata dari setiap kategori
|kosakata| = jumlah semua n-gram kata dari semua kategori
2.3 Seleksi Fitur Mutual Information
Tahap seleksi fitur feature selection bertujuan untuk mengurangi dimensi suatu kumpulan teks dengan cara menghapus kata-kata yang
dianggap tidak penting sehingga proses pengklasifikasian lebih efektif dan akurat Feldman Sanger, 2007, Blitzer Kogan, 2010. Selain itu,
menurut Manning et al 2009 seleksi fitur biasanya dapat meningkatkan akurasi klasifikasi dengan menghilangkan fitur noise.
Seleksi fitur secara umum dibagi menjadi dua metode, yaitu unsupervised
feature selection
dan supervised
feature selection.
Unsupervised feature selection adalah sebuah metode seleksi fitur yang tidak
12 mengutamakan informasi kelas dalam data pelatihan ketika memilih fitur
untuk classifier, salah satu contohnya adalah IDF. Supervised feature selection adalah metode seleksi fitur yang menggunakan informasi kelas
dalam data latih, sehingga untuk menggunakan seleksi fitur ini harus tersedia sebuah set pre-classied Garnes, 2009.
Mutual Information adalah contoh dari supervised feature selection. Fitur seleksi ini sering digunakan untuk menghitung bobot dari fitur. Mutual
Information menunjukkan seberapa banyak informasi ada atau tidaknya sebuah term memberikan kontribusi dalam membuat keputusan klasifikasi
secara benar atau salah. Nilai dari Mutual Information disimbolkan dengan notasi I, yakni
IU;C = ∑
∑ �
= ��, � = �� ���
∈{ , } ∈{ , }
� = ,�= � =
� �=
12
Sedangkan U adalah variabel acak dengan nilai-nilai et = 1 dokumen berisi term t dan et = 0 dokumen tidak mengandung t, dan C adalah variabel acak
dengan nilai-nilai ec = 1 dokumen di kelas c dan ec = 0 dokumen tidak di kelas c. Nilai dari I juga bisa dijabarkan menjadi
IU;C =
� �
���
�� � �
+
� �
���
�� � �
+
� �
���
�� � �
+
� �
���
�� � �
13
dengan N adalah jumlah dokumen yang memiliki nilai-nilai et dan ec yang ditunjukkan oleh dua subscript. Sebagai contoh, N
10
adalah jumlah dokumen yang mengandung term t e
t
= 1 dan tidak dalam c e
c
= 0. N
1
= N
10
+ N
11
adalah jumlah dokumen yang berisi term t e
t
= 1 dan untuk menghitung dokumen independen keanggotaan kelas e
c
{0,1}. N adalah jumlah total dokumen atau N = N
00
+ N
01
+ N
10
+ N
11
.
2.4 Text Pre-processing