PENELITIAN TERKAIT METODE Tesis – Mohammad Zoqi Sarwani | Wayan Firdaus Mahmudy OAJIS 28 1578

Copyright © 2015 SESINDO Salah satu cara untuk dapat mengetahui kepribadian seseorang yaitu dengan melakukan tes psikologi. Tes psikologi yang dilakukan saat ini kebanyakan melalui tes tulis ataupun tes wawancara yang memakan banyak waktu serta tempat. Saat ini banyak penelitian tentang kepribadian seseorang dilakukan menggunakan media sosial seperti yang dilakukan oleh Barker,dkk[3]. Tulisan tersebut menganjurkan cara untuk memahami apa yang dinginkan orang lain adalah dengan kita mempelajari perilaku alami sehari-hari. Ada banyak tes psikologi dan salah satu yang dianggap akurat adalah tes psikologi berdasarkan indikator MBTI[4]. Pada tes psikologi berdasrkan MBTI terdapat 16 indikator yang kemudian dapat dikelompokkan menjadi 4 kelompok kepribadian[5]. Penelitian sebelumnya dilakukan oleh Qiu,dkk[2] mengenai analisis untuk mengetahui potensi kepribadian seseorang dengan menggunakan twitter. Penelitian lain yang melakukan analisis twitter untuk sentimen merek produk juga dilakukan oleh Mustofa[6]. Penelitian ini menggunakan twitter sebagai media untuk menganalisis kepribadian seseorang. Penelitian sebelumnya telah menunjukkan potensi twitter untuk dilakukan penelitian tentang kepribadian seseorang [2]. Dalam proses menganlisis kepribadian seseorang melalui twitter dibutuhkan metodologi yang tepat untuk mendapatkan hasil yang akurat. Tweet atau posting pada twitter merupakan kumpulan kata yang tidak baku sehingga dibutuhkan perlakuan khusus untuk mendapatkan data yang bisa diproses. Oleh sebab itu, dalam pengolahan data diperlukan proses pre-processing terlebih dahulu yang kemudian bisa dilakukan pengklasifikasian. Dalam penelitian ini, metode klasifikasi yang dipilih adalah metode klasifikasi Naïve Bayes Classifier. Metode tersebut dipilih karena sederhana dan memberikan kemudahan dalam proses pengolahan data serta memberikan tingkat akurasi yang baik. Meskipun sederhana, Naïve Bayes Classifier terbukti cukup akurat pada permasalahan klasifikasi berbasis teks seperti penelitian yang telah dilakukan oleh Widodo,dkk [7].

2. PENELITIAN TERKAIT

Penelitian tentang twitter pernah dilakukan oleh Mustofa[6] untuk menganalisis sentimen suatu brand. Penelitian tersebut dilakukan dengan mengambil sampel pengguna twitter secara acak. Penelitian lain yang dilakukan oleh Rodiansyah[8] juga menjadikan twitter sebagai media penelitiannya. Penelitian tersebut menggunakan twitter untuk menganalisa kemacetan kota Bandung. Metode yang digunakan dalam penelitian [8] adalah metode Naïve Bayess Classification. Penelitian lain yang juga memanfaatkan twitter sebagai media dilakukan oleh Qiu,dkk[2]. Penelitian tersebut menganalisis twitter untuk mengetahui apakah di dalam twitter terdapat karakter kepribadian pengguna twiter. Hasil yang diperoleh dalam penelitian tersebut menyatakan bahwa karakter kepribadian seseorang bisa diketahui dari twiter mereka.

3. METODE

Penelitian ini menggunakan beberapa metode text mining dan data mining yang telah di rangkum dalam sebuah metodologi. Adapun tahapan yang akan dilakukan dalam penelitian ini adalah sebagai berikut : 3.1 Pengumpulan Data Data yang digunakan pada penelitian ini adalah berupa tweets atau posting yang ada pada twitter. Teknik pengambilan datanya adalah dengan cara scrapping pada twitter berdasarkan user_id twitter. Teknik tersebut digunakan untuk mengambil data tweets atau postingan pengguna tiwtter yang akan dijadikan sebagai data latih maupun data uji. 3.2 Text Mining Text mining merupakan sebuah metode yang digunakan untuk melakukan pemrosesan teks. Pada text mining terdapat beberapa tahapan yang dilakukan yaitu text processing dan future selection. a. Text processing Text Processing menggunakan beberapa tahapan yang harus dilakukan. Pertama, melakukan ToLowerCase yaitu mengubah seluruh data teks menjadi huruf kecil. Setelah itu melakukan Tokennization yaitu memecah data yang berupa kalimat menggunakan delimiter spasi serta menghilangkan angka dan tanda baca lainnya yang tidak berarti apa-apa pada suatu kata[9]. Copyright © 2015 SESINDO b. Future Selection Pada tahap ini dilakukan proses menghilangkan kata yang dianggap stopword. Kemudian dilakukan proses stemming untuk menghilangkan kata-kata yang memiliki imbuhan[10][11]. Stopword adalah kata yang tidak memiliki arti atau makna yang mencirikan suatu document[12], contohnya adalah kata “di”,”dan”,”kamu”,”saya”,”yang”,”oleh” dan seterusnya. Stemming adalah proses yang dilakukan untuk melakukan pemetaan dan penguraian bentuk kata sehingga memiliki kata dasar[11]. 3.3 Naïve Bayes Classification Naïve Bayes Classifer adalah salah satu algoritma yang digunakan untuk klasifikasi teks serta merupakan metode Machine Learning yang menggunakan perhitungan probabilitas dan statistik yang dikemukakan oleh Thomas Bayes. Algoritma tersebut digunakan untuk memprediksi probabilitas di masa depan berdasarkan pengalaman di masa lalu. Dasar dari naïve bayes yang dipakai adalah rumus : P A|B = P B|A ∗ P A P B 1 Pada pengaplikasiannya rumus ini berubah menjadi : P Ci|D = P D|Ci ∗ P Ci P D 2 Naïve Bayes Classifier adalah model penyederhanaan dari metode Bayes yang cocok untuk pengklasifikasian teks atau dokumen. Adapun rumusnya dipaparkan pada Persamaan 3: VMAP = arg max P Vj|a , a , … . . , an 3 Berdasarkan Persamaan 3 dan Persamaan 1 dapat ditulis : V MAP = � � ,� ,….,��|� � � � � ,� ,….,�� � ∈� arg �� 4 Karena � � , � , … . , � konstan, Persamaa 1 dapat ditulis menjadi : V MAP = � � , � , … . , � |� � � � ∈� arg �� 5 Karena � � , � , … . , � |� � � sulit dihitung, diasumsikan setiap kata tidak terkait, maka persamaan tersebut ditulis: V MAP = � � ∏ � � |� � ∈� arg �� 6 Pv j = | | |� ℎ| 7 Pw k |v j = + +|� � �| 8 Dimana : Pv j : probabilitas setiap dokumen terhadap sekumpulan dokumen Proses Data Uji Data Latih database start tweets scapping Text Processing tokenization filtering stemming start tweets scapping Text Processing tokenization filtering stemming Naïve Bayess Klasifikasi Gambar 1, Alur kerja metode yang dilakukan Copyright © 2015 SESINDO Pw k |v j : Probabilitas kemunculan kata w k pada suatu dokumen dengan kategori klas v j . |docs| : frekuensi dokumen pada setiap kategori |Contoh| : jumlah dokumen yang ada N k : Frekuensi kata ke-K pada setiap kategori. Kosakata : jumlah kata pada dokumen tes.

4. STUDI KASUS