Seleksi Fitur Mutual Information

11 Sehingga persamaan 8 dapat disederhanakan menjadi sebagai berikut : � |� , … , � = � ∏ � � | = ∈ � � �� 9 Keterangan : V j = Kategori tweet j = 1, 2, 3, … n. Dimana dalam penelitian ini j 1 = kategori tweet sentimen negatif, j 2 = kategori tweet sentimen positif, dan j 3 = kategori tweet sentimen netral Px i |V j = Probabilitas x i pada kategori V j PV j = Probabilitas dari V j Untuk PV j dan Px i |V j persamaannya adalah sebagai berikut : PV j = | | |� | 10 Px i |V j = + +| � � �| 11 Keterangan : |docs j| = jumlah dokumen setiap kategori j |all docs| = jumlah dokumen dari semua kategori n k = jumlah frekuensi kemunculan setiap n-gram kata n = jumlah frekuensi kemunculan n-gram kata dari setiap kategori |kosakata| = jumlah semua n-gram kata dari semua kategori

2.3 Seleksi Fitur Mutual Information

Tahap seleksi fitur feature selection bertujuan untuk mengurangi dimensi suatu kumpulan teks dengan cara menghapus kata-kata yang dianggap tidak penting sehingga proses pengklasifikasian lebih efektif dan akurat Feldman Sanger, 2007, Blitzer Kogan, 2010. Selain itu, menurut Manning et al 2009 seleksi fitur biasanya dapat meningkatkan akurasi klasifikasi dengan menghilangkan fitur noise. Seleksi fitur secara umum dibagi menjadi dua metode, yaitu unsupervised feature selection dan supervised feature selection. Unsupervised feature selection adalah sebuah metode seleksi fitur yang tidak 12 mengutamakan informasi kelas dalam data pelatihan ketika memilih fitur untuk classifier, salah satu contohnya adalah IDF. Supervised feature selection adalah metode seleksi fitur yang menggunakan informasi kelas dalam data latih, sehingga untuk menggunakan seleksi fitur ini harus tersedia sebuah set pre-classied Garnes, 2009. Mutual Information adalah contoh dari supervised feature selection. Fitur seleksi ini sering digunakan untuk menghitung bobot dari fitur. Mutual Information menunjukkan seberapa banyak informasi ada atau tidaknya sebuah term memberikan kontribusi dalam membuat keputusan klasifikasi secara benar atau salah. Nilai dari Mutual Information disimbolkan dengan notasi I, yakni IU;C = ∑ ∑ � = ��, � = �� ��� ∈{ , } ∈{ , } � = ,�= � = � �= 12 Sedangkan U adalah variabel acak dengan nilai-nilai et = 1 dokumen berisi term t dan et = 0 dokumen tidak mengandung t, dan C adalah variabel acak dengan nilai-nilai ec = 1 dokumen di kelas c dan ec = 0 dokumen tidak di kelas c. Nilai dari I juga bisa dijabarkan menjadi IU;C = � � ��� �� � � + � � ��� �� � � + � � ��� �� � � + � � ��� �� � � 13 dengan N adalah jumlah dokumen yang memiliki nilai-nilai et dan ec yang ditunjukkan oleh dua subscript. Sebagai contoh, N 10 adalah jumlah dokumen yang mengandung term t e t = 1 dan tidak dalam c e c = 0. N 1 = N 10 + N 11 adalah jumlah dokumen yang berisi term t e t = 1 dan untuk menghitung dokumen independen keanggotaan kelas e c  {0,1}. N adalah jumlah total dokumen atau N = N 00 + N 01 + N 10 + N 11 .

2.4 Text Pre-processing