Desain Penelitian Pengumpulan Data Pengolahan Data Awal

6

1.6.1 Desain Penelitian

Penelitian ini tergolong ke dalam penelitian eksperimental. Objek dalam penelitian ini yaitu sentimen dari tweet pengguna provider telekomunikasi. Sedangkan metode yang digunakan adalah Naïve Bayes Classifier dengan seleksi fitur Mutual Information. Penelitian diawali dengan mengumpulkan data tweet pada Twitter. Setelah data dikumpulkan kemudian data tersebut disimpan ke dalam database. Selanjutnya tahap pre-processing toLowerCase, penghapusan URL, mention, hashtag, tokenisasi, dan menghapus stopword. Tahap penyeleksian fitur dengan seleksi fitur Mutual Information, klasifikasi menggunakan metode Naïve Bayes Classifier. Kemudian hasil dari metode di uji tingkat akurasi dan kecepatan pemrosesannya.

1.6.2 Pengumpulan Data

Data yang digunakan pada penelitian ini adalah data primer yaitu tweet yang ditujukan kepada provider telekomunikasi di Indonesia dari sosial media Twitter. Pengumpulan data menggunakan Twitter Search API dengan memasukkan keyword-keyword yang berhubungan dengan Provider Telekomunikasi yang dikombinasikan dengan kata-kata sentimen. Langkah dalam mengumpulkan data mengikuti penelitian sebelumnya yaitu menggunakan emoticon dan kata sentimen yang digabungkan dengan nama provider telekomunikasi Manalu, 2014. Dalam penelitian ini, data terdiri dari 2 bagian yaitu data tweet dan data stopword.

1.6.3 Pengolahan Data Awal

Teks dokumen yang telah dimasukkan ke dalam database dirubah semua karakter huruf menjadi huruf kecil melalui proses toLowerCase. Kemudian dilakukan penghapusan URL, seperti mention dan hashtag yang ada pada tweet tersebut. Tokenisasi pemotongan string input berdasarkan kata yang menyusunnya dan menghapus stopword kata-kata yang tidak berpengaruh terhadap proses klasifikasi. Dalam penelitian ini sistem mempunyai 2 tahapan proses pengolahan data yaitu tahap pembelajaran training dan tahap pengujian testing. 7 Tujuan dari tahap pembelajaran adalah untuk mencari n-gram kata beserta frekuensinya yang nantinya akan digunakan pada proses testing. Sedangkan untuk tahap pengujian bertujuan untuk mengklasifikasikan tweet yang belum diketahui kategorinya.

1.6.4 Metode yang Digunakan