Copyright © 2015 SESINDO Salah satu cara untuk dapat mengetahui kepribadian seseorang yaitu dengan melakukan tes psikologi. Tes
psikologi yang dilakukan saat ini kebanyakan melalui tes tulis ataupun tes wawancara yang memakan banyak waktu serta tempat. Saat ini banyak penelitian tentang kepribadian seseorang dilakukan menggunakan media
sosial seperti yang dilakukan oleh Barker,dkk[3]. Tulisan tersebut menganjurkan cara untuk memahami apa yang dinginkan orang lain adalah dengan kita mempelajari perilaku alami sehari-hari. Ada banyak tes psikologi
dan salah satu yang dianggap akurat adalah tes psikologi berdasarkan indikator MBTI[4]. Pada tes psikologi berdasrkan MBTI terdapat 16 indikator yang kemudian dapat dikelompokkan menjadi 4 kelompok
kepribadian[5].
Penelitian sebelumnya dilakukan oleh Qiu,dkk[2] mengenai analisis untuk mengetahui potensi kepribadian seseorang dengan menggunakan twitter. Penelitian lain yang melakukan analisis twitter untuk sentimen merek
produk juga dilakukan oleh Mustofa[6].
Penelitian ini menggunakan twitter sebagai media untuk menganalisis kepribadian seseorang. Penelitian sebelumnya telah menunjukkan potensi twitter untuk dilakukan penelitian tentang kepribadian seseorang [2].
Dalam proses menganlisis kepribadian seseorang melalui twitter dibutuhkan metodologi yang tepat untuk mendapatkan hasil yang akurat. Tweet atau posting pada twitter merupakan kumpulan kata yang tidak baku
sehingga dibutuhkan perlakuan khusus untuk mendapatkan data yang bisa diproses. Oleh sebab itu, dalam pengolahan data diperlukan proses pre-processing terlebih dahulu yang kemudian bisa dilakukan
pengklasifikasian. Dalam penelitian ini, metode klasifikasi yang dipilih adalah metode klasifikasi Naïve Bayes Classifier. Metode tersebut dipilih karena sederhana dan memberikan kemudahan dalam proses pengolahan data
serta memberikan tingkat akurasi yang baik. Meskipun sederhana, Naïve Bayes Classifier terbukti cukup akurat pada permasalahan klasifikasi berbasis teks seperti penelitian yang telah dilakukan oleh Widodo,dkk [7].
2. PENELITIAN TERKAIT
Penelitian tentang twitter pernah dilakukan oleh Mustofa[6] untuk menganalisis sentimen suatu brand. Penelitian tersebut dilakukan dengan mengambil sampel pengguna twitter secara acak. Penelitian lain yang
dilakukan oleh Rodiansyah[8] juga menjadikan twitter sebagai media penelitiannya.
Penelitian tersebut menggunakan twitter untuk menganalisa kemacetan kota Bandung. Metode yang digunakan dalam penelitian [8] adalah metode Naïve Bayess Classification.
Penelitian lain yang juga memanfaatkan twitter sebagai media dilakukan oleh Qiu,dkk[2]. Penelitian tersebut menganalisis twitter untuk mengetahui apakah di dalam twitter terdapat karakter kepribadian pengguna twiter.
Hasil yang diperoleh dalam penelitian tersebut menyatakan bahwa karakter kepribadian seseorang bisa diketahui dari twiter mereka.
3. METODE
Penelitian ini menggunakan beberapa metode text mining dan data mining yang telah di rangkum dalam sebuah metodologi. Adapun tahapan yang akan dilakukan dalam penelitian ini adalah sebagai berikut :
3.1 Pengumpulan Data
Data yang digunakan pada penelitian ini adalah berupa tweets atau posting yang ada pada twitter. Teknik pengambilan datanya adalah dengan cara scrapping pada twitter berdasarkan user_id twitter. Teknik tersebut
digunakan untuk mengambil data tweets atau postingan pengguna tiwtter yang akan dijadikan sebagai data latih maupun data uji.
3.2
Text Mining Text mining merupakan sebuah metode yang digunakan untuk melakukan pemrosesan teks. Pada text mining
terdapat beberapa tahapan yang dilakukan yaitu text processing dan future selection. a.
Text processing Text Processing menggunakan beberapa tahapan yang harus dilakukan. Pertama, melakukan ToLowerCase yaitu
mengubah seluruh data teks menjadi huruf kecil. Setelah itu melakukan Tokennization yaitu memecah data yang berupa kalimat menggunakan delimiter spasi serta menghilangkan angka dan tanda baca lainnya yang tidak
berarti apa-apa pada suatu kata[9].
Copyright © 2015 SESINDO b.
Future Selection Pada tahap ini dilakukan proses menghilangkan kata yang dianggap stopword. Kemudian dilakukan proses
stemming untuk menghilangkan kata-kata yang memiliki imbuhan[10][11]. Stopword adalah kata yang tidak memiliki
arti atau
makna yang
mencirikan suatu
document[12], contohnya
adalah kata
“di”,”dan”,”kamu”,”saya”,”yang”,”oleh” dan seterusnya. Stemming adalah proses yang dilakukan untuk melakukan pemetaan dan penguraian bentuk kata sehingga memiliki kata dasar[11].
3.3 Naïve Bayes Classification
Naïve Bayes Classifer adalah salah satu algoritma yang digunakan untuk klasifikasi teks serta merupakan metode Machine Learning yang menggunakan perhitungan probabilitas dan statistik yang dikemukakan oleh
Thomas Bayes. Algoritma tersebut digunakan untuk memprediksi probabilitas di masa depan berdasarkan pengalaman di masa lalu.
Dasar dari naïve bayes yang dipakai adalah rumus : P A|B = P B|A ∗ P A P B
1 Pada pengaplikasiannya rumus ini berubah menjadi :
P Ci|D = P D|Ci ∗ P Ci P D 2
Naïve Bayes Classifier adalah model penyederhanaan dari metode Bayes yang cocok untuk pengklasifikasian teks atau dokumen. Adapun rumusnya dipaparkan pada Persamaan 3:
VMAP = arg max P Vj|a , a , … . . , an 3
Berdasarkan Persamaan 3 dan Persamaan 1 dapat ditulis : V
MAP
=
� � ,� ,….,��|� � � � � ,� ,….,��
� ∈� arg ��
4 Karena
� � , � , … . , � konstan, Persamaa 1 dapat ditulis menjadi : V
MAP
= � � , � , … . , � |� � �
� ∈� arg ��
5 Karena
� � , � , … . , � |� � � sulit dihitung, diasumsikan setiap kata tidak terkait, maka persamaan tersebut ditulis:
V
MAP
= � � ∏ � � |�
� ∈� arg ��
6 Pv
j
=
| |
|� ℎ|
7 Pw
k
|v
j
=
+ +|�
� �|
8 Dimana :
Pv
j
: probabilitas setiap dokumen terhadap sekumpulan dokumen Proses Data Uji
Data Latih
database start
tweets
scapping Text Processing
tokenization filtering
stemming start
tweets
scapping Text Processing
tokenization filtering
stemming
Naïve Bayess Klasifikasi
Gambar 1, Alur kerja metode yang dilakukan
Copyright © 2015 SESINDO Pw
k
|v
j
: Probabilitas kemunculan kata w
k
pada suatu dokumen dengan kategori klas v
j
. |docs|
: frekuensi dokumen pada setiap kategori |Contoh|
: jumlah dokumen yang ada N
k
: Frekuensi kata ke-K pada setiap kategori. Kosakata
: jumlah kata pada dokumen tes.
4. STUDI KASUS