Prediksi Kepribadian Big 5 Pengguna Twitter dengan Support Vector Regression
Prediksi Kepribadian Big 5 Pengguna Twitter dengan Support Vector Regression
Agnes Theresia Damanik Masayu Leylia Khodra
Institut Teknologi Bandung Institut Teknologi Bandung
13510100@std.stei.itb.ac.id masayu@stei.itb.ac.id
ABSTRAK hendak diprediksi kepribadiannya untuk menjawab pertanyaan-
Informasi biografi dan tweets dari pengguna Twitter dapat pertanyaan kuesioner dan orang sering tidak mengetahui dimanfaatkan untuk menggambarkan kepribadian Big 5, yang
kecenderungan sifatnya sehingga menyebabkan hasil prediksi terdiri
dari openness,
conscientiousness,
extraversion,
kurang valid.
agreeableness, dan neuroticism. Makalah ini membahas Kepribadian berhubungan dan mempengaruhi beberapa aspek dari penggunaan infomasi pengguna Twitter untuk membentuk suatu
linguistik. Prediksi berdasarkan linguistik dilakukan dengan model pembelajaran prediksi kepribadian Big 5. Fitur yang
menganalisis pemilihan kata-kata dan letak kata-kata tersebut di digunakan sebagai eksperimen terdiri dari dua fitur utama, yaitu
dalam kategori yang ditentukan sesuai dengan bahasa yang fitur perilaku sosial dan linguistik. Fitur linguistik yang digunakan
digunakan. Analisis linguistik telah dilakukan terhadap esai bebas, terbagi atas 2 bagian besar, yaitu fitur kategori kata dari kamus
alamat email, profil Facebook, blog, penggunaan bahasa sehari- yang dibangun secara manual dan fitur yang diekstrak langsung
hari, pesan singkat, dll. Para psikolog telah mendokumentasikan dari data pada Twitter. Dari eksperimen dan pengujian yang
keberadaan hubungan kepribadian-linguistik dengan menemukan dilakukan dengan metode Support Vector Regression (SVR),
korelasi berbagai variabel linguistik dengan kepribadian. didapatkan bahwa secara keseluruhan model pembelajaran yang
paling baik dalam memprediksi kepribadian pengguna Twitter Beberapa perusahaan, khususnya perusahaan industri menengah adalah model yang menggunakan gabungan fitur perilaku sosial
media sosial untuk dan linguistik bigram. Model tersebut menghasilkan nilai Mean
mempertimbangkan penerimaan pegawai baru, selain hasil tes Absolute Error (MAE) terkecil 0.2739, sedangkan nilai Pearson-
psikologi formal yang selalu dilakukan (CareerBuilder, 2012). correlation terbesar 0.8559 didapatkan untuk kepribadian
Berdasarkan hal ini, kepribadian seseorang dapat diprediksi Extraversion.
berdasarkan informasi pada akun media sosialnya, seperti Facebook atau Twitter. Gosling (2007) menemukan bahwa profil Kata Kunci Facebook memberikan nilai yang konsisten terhadap kepribadian
fitur perilaku sosial, fitur linguistik, kepribadian Big 5, SVR,
Big 5 terutama untuk E dan O.
twitter. Makalah ini bertujuan untuk membangun model prediksi
1. PENDAHULUAN kepribadian Big 5 dari pengguna twitter dengan menggunakan
Kepribadian Big 5 merupakan salah satu metode yang dikenal Support Vector Regression (SVR). Saat ini belum ada penelitian dalam dunia psikologi untuk menginterpretasi kepribadian
yang memprediksi kepribadian Big 5 untuk pengguna Twitter. seseorang, terutama untuk menemukan hubungan kepribadian
Pada makalah ini dilakukan analisis terhadap perilaku sosial dengan lingkungan pekerjaan. Kepribadian Big 5 terdiri dari
pengguna Twitter dan penggunaan linguistik ketika menuliskan openness (O), conscientiousness (C), extraversion (E),
tweet dan biografinya untuk menemukan fitur-fitur yang paling agreeableness (A), dan neuroticism (N) (Costa dkk, 1991).
sesuai membentuk model pembelajaran memprediksi kepribadian Kepribadian O memiliki imajinasi yang aktif, kepekaan terhadap
pengguna. Untuk menemukan fitur dari penggunaan linguistiknya, estetika, kepedulian terhadap perasaan pribadi, ketertarikan
penelitian ini menggunakan dua pendekatan yang selama ini terhadap perbedaan, keingintahuan intelektual, dan kebebasan
dilakukan secara terpisah dalam penelitian lain. Pendekatan
pertama adalah closed-vocabulary, yaitu menggunakan kamus mengendalikan impulse, pengendalian diri demi perencanaan
berpendapat. Kepribadian C berhubungan erat dengan
kata dan pendekatan kedua adalah open-vocabulary, yaitu yang matang, pengaturan, dan pengerjaan tugas-tugas.
mengekstrak fitur dari data yang digunakan. Model pembelajaran Kepribadian E percayadiri, aktif, cerewet, optimis, serta menyukai
akan dibentuk menggunakan masing-masing fitur dan pada kesenangan dan selalu merasa ceria secara alami. Kepribadian A
akhirnya seluruh fitur akan digabung.
mengutamakan orang lain, simpatik terhadap orang lain, dan suka Pada bagian berikutnya akan dibahas tentang kajian yang menolong. Kepribadian N cenderung mengalami perasaan-
dilakukan terhadap penelitian terkait linguistik dan Twitter perasaan negatif seperti ketakutan, kesedihan, rasa canggung,
terhadap kepribadian Big 5. Bagian berikutnya membahas tentang kemarahan, rasa bersalah, dan rasa benci atau jijik.
sistem prediksi kepribadian yang dibangun. Bagian 4 membahas Pengukuran kepribadian Big 5 dapat dilakukan dengan
eksperimen yang dilakukan, selanjutnya bagian berikutnya menggunakan berbagai metode. Salah satu metodenya adalah
memberikan kesimpulan dan saran yang didapatkan dari metode BFI (John et al, 1991) berupa kuesioner berisi 44
penelitian yang dilakukan.
pertanyaan berisi sifat-sifat berbentuk skala dari paling tidak setuju sampai paling setuju dengan setiap sifat menggambarkan
2. KAJIAN TERKAIT
Model kepribadian Big 5 Goldberg (1981) terbukti mempengaruhi setiap kepribadian Big 5. Jawaban kuesioner dikalkukasi dengan
rumus sesuai dengan metode yang dipilih. Cara ini memiliki
lingkungannya, seperti kekurangan, yaitu dibutuhkannya partisipasi aktif dari orang yang
mempengaruhi keahlian berdagang seorang sales (Furnham dkk., 1999), kemampuan dan motivasi akademis (Furnham & Mitchell,
14 Agnes Theresia Damanik, Masayu Leylia Khodra
Jurnal Cybermatika | Vol. 3 No. 1 | Juni 2015 | Artikel 3 15
1991; Komarraju & Karau, 2005), kemampuan memimpin (Hogan dkk., 1994), dan mempengaruhi kinerja pekerjaan (Furnham dkk., 1999). Salah satu pengukuran Big 5 yang paling sederhana adalah pengukuran BFI (John dkk, 1991). BFI merupakan kuesioner berisi 44 pertanyaan yang mengandung sifat-sifat yang menggambarkan kepribadian Big 5.
Kepribadian Big 5 adalah berikut (Costa dkk, 1991). Openness
(O)
O adalah imajinasi yang aktif, kepekaan terhadap estetika, kepedulian terhadap perasaan pribadi, ketertarikan terhadap perbedaan, keingintahuan intelektual, dan kebebasan berpendapat.
Conscientiousness (C)
C berhubungan erat dengan pengendalian diri demi perencanaan yang matang, pengaturan, dan pengerjaan tugas-tugas. Biasanya C berhubungan dengan prestasi dalam bidang akademik dan karier.
Extraversion (E)
E adalah
sosialis yaitu
menyukai
perkumpulan dan berkumpul. E percaya diri, aktif, cerewet, optimis.
Agreeableness (A)
A adalah tendensi untuk berinteraksi. Kepribadian A mengutamakan orang lain, simpatik terhadap orang lain, dan suka menolong.
Neuroticism (N)
N cenderung mengalami perasaan-perasaan negatif seperti ketakutan, kesedihan, rasa canggung, kemarahan, rasa bersalah, dan rasa benci atau jijik. Kepribadian N bernilai rendah menandakan emosi yang stabil, tenang.
2.1 Kepribadian Berdasarkan Linguistik
Pennebaker dan King (1999) melakukan analisis terhadap esai yang ditulis oleh sejumlah mahasiswa dan membandingkan hasil yang didapatkan dengan hasil kuesioner yang diisi mahasiswa- mahasiswa tersebut sebelumnya. Penelitian ini memanfaatkan kakas LIWC untuk penghitungan kategori kata. Hasil yang didapat adalah bahwa N sering menggunakan kata ganti orang pertama tunggal dan kata bermakna negatif dibandingkan dengan kata bermakna positif. A lebih sering menggunakan kata bermakna positif dibandingkan dengan kata bermakna negatif dan sedikit menggunakan articles. Sedikit dari C ditemukan menggunakan kata negasi, kata bermakna negatif, dan kata diskrepansi (contoh: seharusnya, seandainya). O ditemukan menulis kalimat yang panjang dan kalimat yang mengekspresikan tentatif (contoh: mungkin). Sedikit dari O menggunakan kata ganti orang pertama tunggal dan bentuk present tense.
Nowson (2006) melakukan analisis linguistik terhadap blog dan menemukan hubungan linguistik dan kepribadian Big 5. E sering menggunakan kata-kata di kategori social process, dan human serta jarang menggunakan kata-kata di kategori occupation, achievement, discrepancy, school , dan TV. A cenderung menulis kalimat yang terdiri dari 6 kata atau lebih dan sering menggunakan articles serta jarang menggunakan kata discrepancy dan negation. Sedikit dari C yang menggunakan kata-kata di kategori death. N menggunakan kata-kata di kategori discrepancy, work, anciety, future tense verb, eating, dan physical state serta jarang menggunakan kata-kata di kategori human. Dan O menggunakan kalimat berjumlah 6 kata atau lebih, kata-kata di
kategori positive emotion, grooming, inclusive, dan preposition seta jarang menggunakan kata-kata di kategori school dan occupation .
Watson & Clark (1992) menemukan E dan C berhubungan erat dengan emosi positif, N berkorelasi positif dengan emosi negatif, dan A berkorelasi negatif dengan emosi negatif. Mehl (2006) menemukan bahwa O sering menggunakan kalimat yang membuka wawasan dan A berkorelasi negatif dengan penggunaan kata-kata umpatan/caci maki (swear words). Penelitian di atas menggunakan kamus kategori-kata yang bernama Linguistic Inquiry and Word Count (LIWC).
Schwartz (2013) menggunakan pendekatan data-driven atau dikenal sebagai pendekatan open-vocabulary untuk melakukan analisis linguistik dan menemukan bahwa E menggunakan n-gram bermakna sosial (‘love you’, ‘party’, ‘boys’, ‘ladies’) dan N menggunakan ‘depression’, ‘sick of’, ‘I hate’.
Iacobelli (2011) menggunakan pendekatan open-vocabulary dan menemukan bahwa E menggunakan kata sumpah serapah yang kasar (‘you f**ck’, ‘b**ch I’,’ was f**k’), lokasi (‘i’m at’), dan kata bermakna sosial dan positif (‘dance i’, ‘a club’, ‘fun anyway’). A menggunakan kata sumpah serapah yang lebih halus daripada E (‘like s**t’, ‘the hell’) dan kata bermakna positif (‘even better’, ‘of beauty’). Dan C menggunakan kata-kata yang mencerminkan perencanaan, prestasi, dan evaluasi diri (‘to study’, ‘on track’, ‘succeed in’)
2.1.1 Pendekatan Closed-Vocabulary
Pendekatan closed-vocabulary adalah metode yang umum digunakan dalam menganalisis hubungan antara bahasa dan variabel-variabel
psikologi. Pendekatan
closed-vocabulary bergantung pada penghitungan kata di dalam suatu kategori tertentu. Pengelompokan kata tersebut dilakukan oleh beberapa pakar.
LIWC (Linguistic Inquiry and Word Count) adalah kakas yang dikembangkan Pennebaker sejak tahun 2007 yang berfungsi sebagai program penghitung kata otomatis berdasarkan kategorinya. LIWC memiliki 64 kategori teks. Versi terakhir dari LIWC adalah LIWC2007 dan telah melalui tahapan yang berlangsung bertahun-tahun karena domain kategori-kata dianggap semakin berkembang seiring dengan bertambahnya waktu. Tahapan yang dilakukan untuk membangun kamus LIWC dibagi menjadi 4 langkah yaitu koleksi kata, fase peratingan oleh pakar, evaluasi psikometrika, serta perubahan dan ekspansi.
Tabel 1 menampilkan seluruh fitur LIWC2007 serta korelasinya terhadap linguistik berdasarkan penelitian Yarkoni (2010) yang menggunakan analisis LIWC terhadap penggunaan kata para blogger (ns = not significant pada p<.05).
2.1.2 Pendekatan Open-Vocabulary
Pendekatan open-vocabulary merupakan kebalikan dari pendekatan closed-vocabulary. Perbedaan yang paling jelas adalah pendekatan open-vocabulary tidak membutuhkan kamus kata dan pengelompokan kosakata ke dalam kategori tertentu.
Pada pendekatan open-vocabulary, data melakukan eksplorasi sendiri terhadap penggunaan kata untuk menemukan hubungan antar kata dengan kepribadian. Hasil yang didapatkan dari pendekatan open-vocabulary adalah pengetahuan baru mengenai kaitan bahasa dan kepribadian, contoh pada penelitian yang dilakukan Schwartz (2013) ditemukan bahwa orang yang memiliki kepribadian N paling rendah sering menggunakan kata bertemakan olahraga.
Kata-kata tidak dibatasi pada kata yang berada di dalam daftar
kata tertentu. Fitur linguistik seperti kata dan frasa ditentukan secara otomatis dari data yang digunakan. Hal ini menyebabkan
Tabel 1. Kategori LIWC dan nilai korelasi Yarkoni (2010)
LIWC Category
jumlah data latih yang diperlukan harus sangat banyak.
Total function words
Discriminating
Total pronouns
Personal pronouns 1 st
Langsung menemukan fitur linguistik utama, yaitu kata dan frasa
person singular
1 st person plural
yang mencerminkan kepribadian.
2 nd rd person
3 person singular
3 rd rd person plural
3 person overall
Pembentukan fitur dilakukan dengan cara yang sederhana yaitu
Impersonal pronouns
fitur ngram.
Common verbs
Langkah-langkah yang dilakukan dalam melakukan pendekatan
Auxiliary verbs
open-vocabulary adalah melakukan ekstraksi fitur linguistik
Past tense
Present tense
dilanjutkan dengan melakukan seleksi fitur. Ekstraksi fitur
Future tense
linguistik dilakukan dengan cara memecah kalimat ke dalam
Adverbs
0.17 beberapa kata dan frasa (sekuens dari dua hingga tiga kata)
dengan menggunakan n-gram dengan maksimal n=3. Iacobelli
(2011) mendapatkan hasil yang terbaik dengan bigram sedangkan
Quantifiers
Schwartz menggunakan n=1 sampai n=3. Ketika melakukan
ekstraksi kata dan frasa, kata dan frasa diberi bobot dengan
Swear words
Social Processes
pembobotan TF*IDF.
Seleksi fitur bertujuan untuk menjelaskan data dengan cara yang
lebih sederhana karena fitur yang redundant dibuang, mengurangi
Affective Processes
collinearity yang disebabkan oleh terlalu banyaknya variabel yang
Positive Emotions
Negative Emotions
melakukan pekerjaan yang sama, dan menghemat waktu dalam
pembentukan model pembelajaran
2.2 Kepribadian Berdasarkan Perilaku Sosial
Cognitive Processes
Perilaku sosial mendefinisikan kepribadian melalui frekuensi
penggunaan media sosial dan tingkat keaktifan antar pengguna
(Golbeck dkk, 2011). Fitur yang menunjukkan tingkat perilaku
sosial pengguna Twitter berdasarkan penelitian yang dilakukan
Golbeck (2011) adalah sebagai berikut.
Follower adalah pengguna Twitter lain yang
Perceptual Processes
mengikuti pengguna yang diacu. Follower
dapat melihat tweet pengguna yang diacu
pada halaman muka akun Twitter mereka.
Biological Processes
Friend adalah pengguna yang diacu menjadi
Health
follower
dari pengguna lain.
Jumlah mention:
Mention
yang ditandai dengan ‘@username’
Relativity
menunjukkan tingkat interaksi pengguna
Twitter dengan pengguna lain.
Jumlah hashtag:
Hashtag menunjukkan keterlibatan pengguna
0.14 ns ns
dengan isu/topik yang sedang dibahas.
Leisure
0.08 0.15 ns
ns -0.17
Hashtag ditandai den gan karakter ‘#’.
ns -0.2
Jumlah reply:
Reply adalah mention dari pengguna lain
ns 0.15 kepada pengguna Twitter yang diacu.
ns -0.11
Nonfluencies
Jumlah URL:
URL adalah tautan berupa informasi
Fillers
website/blog yang dicantumkan pengguna.
Tweet adalah tulisan yang terdiri dari Dengan demikian pengetahuan baru yang didapatkan adalah
Jumlah kata
kumpulan kata dengan panjang maksimal 140 olahraga dapat menjadikan keadaan emosional seseorang lebih
dalam tweet:
karakter. Jumlah kata dalam tweet adalah total stabil. Ilustrasi mengenai hal tersebut dapat dilihat pada Gambar
kata yang menyusun tweet itu.
II.2. Dalam penelitian Golbeck (2012) ditemukan bahwa kepribadian
Karakteristik dari pendekatan open-vocabulary adalah sebagai N berkorelasi positif dengan standar deviasi dari panjang teks berikut.
yang tinggi. Kepribadian E ditemukan berkorelasi positif dengan
1. Kamus kata yang tidak terbatas
16 Agnes Theresia Damanik, Masayu Leylia Khodra 16 Agnes Theresia Damanik, Masayu Leylia Khodra
pembelajaran yang diperbolehkan di luar rentang dimulai dari Selain delapan komponen di atas, terdapat komponen dari Twitter
prediksi regresi.
yang dapat dijadikan pertimbangan dalam melakukan analisis Penggunaan kernel menjadi salah satu keunggulan SVR karena pemilihan fitur yang menunjukkan tingkat keaktifan perilaku
kesulitan dalam menggunakan fungsi linier pada feature space sosial pengguna Twitter sebagai berikut.
berdimensi lebih tinggi dapat dihindari (Vapnik, 1999). Favourites
Performansi SVR ditentukan juga oleh pengaturan meta- :
C, ԑ, dan kernelnya, sama seperti persoalan klasifikasi menggunakan metode SV. Retweeted :
Favourites adalah tweet pengguna lain yang
parameter dari parameter
difavoritkan oleh pengguna yang diacu.
Retweeted adalah jumlah pengguna lain melakukan retweet terhadap tweet yang ditulis sendiri oleh
2.4 Sistem Prediksi Kepribadian
pengguna yang diacu. Sistem yang dibangun terdiri dari tiga bagian, yaitu crawler, predictor, dan interface. Keterhubungan antara ketiga bagian
Retweet : Retweet yang ditandai dengan ‘RT’ menunjukkan diacu pada Gambar 1. Crawler adalah bagian yang berfungsi pengguna yang diacu mengulangi tweet pengguna
sebagai pengumpul data Twitter. Crawler memanfaatkan Twitter lain.
API untuk mengumpulkan data. Predictor adalah bagian yang berfungsi sebagai penginterpretasi kepribadian Big 5 pengguna. Interface
adalah bagian yang berfungsi sebagai presentasi hasil
kepribadian Big 5 dan penggunaan Twitter pengguna. Selain itu, Model pembentuk kepribadian yang dibangun menggunakan
2.3 Support Vector Regression (Svr)
interface juga menampilkan kamus kategori yang digunakan regresi adalah model yang sangat akurat (Mairesse, 2007). Tujuan
untuk pendekatan closed-vocabulary dan pengguna sistem dapat utama dari persoalan regresi adalah menunjukkan hubungan
menambahkan atau membuang kata di dalam kamus tersebut. antara dua variabel. Variabel yang satu, sebagai predictor,
digunakan untuk memprediksi nilai variabel yang lainnya, sebagai response . Meskipun hasil prediksi variabel response dari variabel predictor tidak selalu sempurna, response yang dihasilkan akan lebih akurat apabila melihat hubungan antara kedua variabel dibandingkan dengan tanpa menggunakan variabel predictor. Sehingga dapat dituliskan untuk x sebagai predictor dan y sebagai response :
Untuk himpunan
Model regresi menunjukkan hubungan sebab akibat antara x dan y, x dapat digunakan untuk memprediksi y dan y dapat digunakan
untuk memprediksi x. Sehingga untuk sepasang variabel terjadi
Gambar 1. Sistem prediksi kepribadian Big 5 pengguna
dua kemungkinan regresi (Lavine, 2013). Hubungan sebab akibat
kedua variabel dapat diukur dengan menghitung keeratan hubungan keduanya atau korelasi. Korelasi juga menunjukkan
Berdasarkan studi terhadap kajian terkait, makalah ini seberapa baik predictor menentukan nilai response.
menggunakan dua fitur utama, yaitu fitur linguistik dan fitur Inti dari metode Support Vector (SV) adalah memetakan data
perilaku sosial. Berdasarkan metode linguistik yang dijelaskan pembelajaran yang tidak linier ke dalam feature space (dot
pada bagian kajian terkait, maka fitur linguistik dibedakan product space ) F melalui Φ (non-linear map), dan membangun
menjadi dua bagian besar, yaitu fitur linguistik closed-vocabulary sebuah pemisah (separating hyperlane) di dalam dimensi yang
dan fitur linguistik open-vocabulary.
lebih tinggi tersebut. Keadaan ini menciptakan sebuah pembatas Penentuan fitur linguistik closed-vocabulary dengan cara nonlinier pada input space. Untuk menghitung separating
hyperplane mengambil kategori kata LIWC yang menunjukkan nilai korelasi
tanpa secara eksplis it memasukkan Φ ke dalam F, kita paling signifikan terhadap setiap kepribadian Big 5. Nilai korelasi
menggunakan fungsi kernel k. yang paling signifikan dibatasi untuk kategori yang memperoleh Untuk data pembelajaran {( ) ( )} ; korelasi lebih besar dari 0.1.
Hal ini dilakukan dengan tujuan mengambil beberapa kategori ( ) ( ( ) ( )) yang paling dapat membedakan kepribadian saja dengan harapan
hasil yang diperoleh tidak akan berbeda jauh dengan hasil yang Dalam menyelesaikan permasalahan regresi, algoritma SVR akan
diperoleh ketika menggunakan seluruh kategori LIWC. Selain itu membangun sebuah fungsi linier di dalam feature space sehingga
hal ini dilakukan karena penentuan kosakata tidak akan nilai dari data pembelajaran berada pada rentang
melibatkan pakar di bidang bahasa, dengan demikian menentukan menggunakan persamaan suku dua (quadratic) sebagai kernel,
. Dengan
kosakata untuk beberapa kategori kata yang paling signifikan permasalahan prediksi regresi dirumuskan sebagai berikut,
dirasa lebih mudah dibandingkan menentukan kosakata untuk seluruh kategori LIWC. Nilai korelasi yang digunakan diperoleh
() ∑ dari penelitian yang dilakukan terhadap blog sesuai dengan yang
diacu pada Subbab 2.1.1. Alasan menggunakan nilai korelasi tersebut adalah karena penelitian tersebut juga dilakukan
Pada rumusan tersebut, kita dapat memilih apakah menentukan
memanfaatkan LIWC.
nilai secara spesifik terlebih dahulu atau nilai dihitung secara
Jurnal Cybermatika | Vol. 3 No. 1 | Juni 2015 | Artikel 3 17
Pada kepribadian C, kategori yang memberikan nilai korelasi di Data tahap pertama didapatkan dari pengisian kuesioner BFI atas 0.1 hanya satu kategori sementara kepribadian lainnya dapat
seperti yang dijelaskan pada bagian Kajian Terkait. Sebanyak 119 memperoleh empat hingga lima kategori kata. Oleh karena itu,
pengguna Twitter yang secara sukarela mengisi kuesioner agar tidak terlalu sulit dibedakan dari kepribadian lainnya, pada
memiliki latar belakang mahasiswa dan sarjana muda yang berada kepribadian C batas nilai korelasi diturunkan menjadi 0.09
pada kisaran usia 19 hingga 25 tahun. Hal tersebut terjadi karena sehingga dengan demikian didapatkan tiga kategori kata yang
penyebaran kuesioner dilakukan oleh orang yang telah mengisi dapat membedakan kepribadian C dengan kepribadian lainnya.
kuesioner sebelumnya sehingga persebaran usia dan latar Tabel 2 menampilkan 20 kategori yang didapatkan. Kosakata
belakangnya tidak terlalu luas.
yang dimasukkan ke dalam kategori kata yang ditentukan ditentukan tanpa melibatkan pakar di bidang bahasa. Apabila
Data pada tahap kedua didapatkan dari isi Twitter dari pengisi melibatkan pakar bidang bahasa dalam pembangunan kamus
kuesioner sebelumnya. Tweet pengguna yang diambil adalah 200 maka kamus yang dihasilkan lebih baik dan terpercaya. Hal tweet terbaru termasuk mention, retweet, dan reply. Sebanyak 10
tersebut tidak dapat digunakan karena kekurangan sumber daya data kuesioner dipisahkan dari data keseluruhan untuk digunakan manusia. Untuk menutupi kekurangan tersebut, kosakata yang
dalam pengujian terhadap model pembelajaran yang terbentuk dimasukkan ke dalam kamus berasal dari contoh kata yang
melalui eksperimen.
diberikan pada situs resmi LIWC, situs bertemakan linguistik, dan definisinya dalam bahasa Indonesia dan bahasa Inggris. Bahasa
Tabel 3 Fitur linguistik Inggris turut disertakan karena pengguna menulis tweet dalam closed-vocabulary bahasa Indonesia dan bahasa Inggris.
Fitur
Keterangan
Selain kategori LIWC tersebut, terdapat fitur yang tidak tercakup
Fitur biografi. Menjelaskan jumlah kata di dalam kategori LIWC. Tabel 3 merangkum fitur-fitur tersebut.
bio_length
yang digunakan pengguna untuk membentuk biografi
Mengacu pada Subbab 2.1.2, penentuan fitur linguistik untuk
Fitur tweet. Menjelaskan jumlah angka metode open-vocabulary dilakukan dengan ekstraksi fitur, yaitu
numbers
dalam tweet
dengan cara memecah isi tweet ke dalam beberapa kata dan frasa
Fitur tweet. Menjelaskan jumlah kata yang (dibatasi menjadi sekuens dari dua kata) dengan menggunakan
long_word
diperpanjang
Fitur tweet. Menjelaskan jumlah emoticon dilakukan terhadap hasil ekstraksi yang didapatkan. Penentuan
ngram dengan n dari 1 sampai 2. Selanjutnya seleksi fitur
positiv_emoticon
bermakna positif, contoh: ^^,:),:-) fitur perilaku sosial dilakukan dengan menganalisis fitur yang
Fitur tweet. Menjelaskan jumlah emoticon diacu pada Subbab 2.2. Tabel 4 menampilkan keseluruhan fitur.
negative_emoticon
bermakna negatif, contoh: vv,:(,:-(
2.5 Pengumpulan Data
Tabel 4 Fitur perilaku sosial
Pengumpulan data dilakukan dengan dua tahapan. Data yang
Fitur
Keterangan
didapat di tahap pertama digunakan sebagai pelabelan untuk data
Follower
Follower
yang dikumpulkan pada tahap kedua dan selanjutnya digunakan
Friend
Friend
sebagai data pembelajaran.
Jumlah status yang di-retweet pengguna lain
Retweet
Fraksi tweet berupa retweet
Tabel 2. Kategori LIWC yang memberikan signifikan pada
Not_Retweet
Fraksi tweet bukan retweet
nilai korelasi ρ di atas 0.1
URL
Rata-rata jumlah URL di dalam tweet
Big 5 Kategori LIWC
Korelasi ( ρ)
Contoh kata
Hashtag
Rata-rata jumlah hashtag dalam tweet
prepositions
0.17 dengan, di atas
Mention
Rata-rata jumlah mention dalam tweet
death
0.15 bunuh, makam
Length
Rata-rata panjang tweet
articles
0.2 sang, si, para inclusive 0.11 dan, juga, semua
C achievement
0.14 rencana, tugas
Tujuan pengambilan data kuesioner adalah menggunakan hasilnya
time
0.09 jam, menit, detik
sebagai pelabelan data pembelajaran. Pada awalnya terdapat dua
articles 0.09 sang, kaum, umat
pertimbangan cara pelabelan data pembelajaran, yaitu
E 2 nd person
0.16 anda, kamu, kau
menggunakan hasil kuesioner dan menggunakan hasil interpretasi
social processes
0.15 manusia, public
friends
0.15 pacar, rival
kepribadian oleh psikolog. Cara pertama memiliki beberapa
sexual
0.17 hasrat, cinta, suka
kekurangan, yaitu pengisi kuesioner bisa berbohong, tidak
biological processes st 0.14 perut, sakit, makan
dan tidak mengenali
A 1 person plural
0.18 kami, kita, us
kepribadiannya. Cara kedua adalah cara yang lebih baik daripada
family
0.19 ibu, daging, pulang
yang pertama karena melibatkan pakar namun cara kedua tidak
positive emotion
0.18 semangat, keren
inclusive
0.18 dan, juga, semua
dapat digunakan pada penelitian ini karena tidak tersedianya
home 0.19 privasi, tenang
sumber daya manusia yang mencukupi dengan jumlah data.
negative emotions
0.16 bosan, kasar
anxiety
0.17 galau, pucat, panik
Pengujian terhadap model pembelajaran dilakukan dengan
anger
0.13 cuek, frustrasi
menggunakan 10 data yang dipisahkan dari keseluruhan data yang
discrepancy
0.13 andai, kalau, dong
digunakan dalam pembelajaran. Hasil perhitungan kepribadian
certainty 0.13 yakin, pasti, pernah
Big 5 versi BFI dari kesepuluh data pengujian ditampilkan pada Tabel 5. Rangkuman hasil perhitungan kuesioner BFI dirumuskan
dalam bentuk hasil interpretasi yang diberikan oleh pakar psikolog
18 Agnes Theresia Damanik, Masayu Leylia Khodra 18 Agnes Theresia Damanik, Masayu Leylia Khodra
Dominan O dari hasil penghitungan kuesioner data pengujian dengan hasil
10 Dominan A
interpretasi yang diberikan oleh pakar psikolog terhadap data Twitter pengguna yang akan digunakan sebagai pembelajaran,
2.6 Praproses Data
yaitu jumlah follower, friend, favourites, retweeted, biografi, dan Praproses bertujuan untuk mengubah data tweet mentah ke dalam isi dari 200 tweet ditampilkan pada Tabel 6.
bentuk yang lebih sederhana sehingga dapat diekstraksi fitur- Menurut Tabel 6, psikolog menginterpretasikan kepribadian
fiturnya. Praproses yang dilakukan terhadap isi tweet adalah seseorang sebagai nilai yang paling dominan diantara kelima
sebagai berikut.
variabel kepribadian yang ada. Dengan merangkum hasil Menghapus retweet. Retweet adalah tweet pengguna lain kuesioner ke dalam bentuk interpretasi psikolog maka ditemukan
yang dikutip oleh pengguna. Hal tersebut menyebabkan isi bahwa tiga dari sepuluh data memenuhi interpretasi psikolog,
retweet tidak dapat menunjukkan kepribadian pengguna yaitu data ke-2, ke-5, dan ke-9. Selain itu ada dua data lain yang
secara langsung. Retweet dihilangkan dari tweet agar tweet memenuhi sebagian interpretasi psikolog, yaitu data ke-1 dan ke-
berisikan opini pengguna saja. Penghitungan penggunaan
3. Dikatakan memenuhi sebagian interpretasi psikolog adalah retweet tetap dihitung meskipun kontennya dibuang. karena sebenarnya psikolog menemukan dua kepribadian dominan
dari data tersebut namun kedua kepribadian tersebut hanya
Menghapus mention
memenuhi satu kepribadian diantara dua kepribadian dominan yang ditemukan apabila merumuskan hasil kuesioner BFI
Menghapus hashtag
berdasarkan dua kepribadian yang memperoleh nilai paling tinggi.
Menghapus URL
Perbandingan tersebut menunjukkan bahwa mungkin model
Casefolding
pembelajaran yang dibentuk akan berbeda apabila seluruh data pembelajaran murni dilabeli dengan hasil interpretasi pakar.
Mengubah seluruh huruf dalam tweet menjadi huruf kecil Model pembelajaran tersebut mungkin akan menunjukkan hasil yang lebih baik. Selain itu interpretasi dari psikolog pada Tabel 6.
Mengganti seluruh angka dengan common token ‘numbers’ memberikan wawasan bahwa dunia psikologi memandang
Mengganti seluruh ekspresi tawa dengan common token kepribadian seseorang dapat didefinisikan sebagai satu atau dua
‘laughter’
kepribadian yang paling dominan saja. Hal ini menunjukkan bahwa nilai riil setiap kepribadian tidak terlalu penting. Yang
Menghapus karakter khusus (contoh: !$*&^)(-_=-‘:) terpenting adalah perbandingan nilai yang diperoleh antar kelima
Bagian biografi pengguna bisa berisi dan kosong. Oleh karena itu, kepribadian tersebut.
bagian biografi diwakili oleh panjangnya saja, yaitu jumlah kata pembentuk biografi.
Tabel 5. Hasil kuesioner data pengujian beserta rangkuman
hasil
3. EKSPERIMEN
Data Hasil perhitungan BFI
Pelabelan
Eksperimen dilakukan dengan memisahkan dataset yang sudah
1 3.6 3.77 3.5 3.88 3 Dominan A dan C
diberi label menjadi dua bagian. Bagian pertama data digunakan
2 3.5 2.77 3.75 3.44 3.12 Dominan E
sebagai data pembelajaran untuk membentuk model pembelajaran
3 2.9 2.66 3.62 2.66 3.6 Dominan E dan N
dan bagian kedua data digunakan sebagai pengujian model
4 3.6 3.44 3.37 4.33 1.75 Dominan A
pembelajaran yang telah terbentuk. Eksperimen dilakukan
5 4.6 3.33 3.5 3.44 2.75 Dominan O
menggunakan kakas Weka yang menyediakan algoritma Support
6 4.1 3.33 4.5 4.33 3.75 Dominan E
Vector Regression (SVR). Kemudian model pembelajaran yang
7 3.7 3 2.62 3.33 3.5 Dominan O
sudah dibentuk dievaluasi dengan skema 10 fold cross validation,
8 3.5 4 4.12 3.88 1.25 Dominan C dan E
ukuran kinerja model pembelajaran ditentukan melalui
9 3.6 3.11 3 3.33 3 Dominan O
pengukuran Mean Absolute Error (MAE) dan Pearson-correlation
10 3.2 2.55 3.37 4.11 2.62 Dominan A
r yang tersedia pada Weka.
Eksperimen terdiri dari tiga tahapan besar, yaitu eksperimen
Tabel 6. Perbandingan rangkuman hasil kuesioner data
menggunakan fitur perilaku sosial, eksperimen menggunakan fitur
pengujian dengan interpretasi psikolog
linguistik, dan eksperimen menggunakan gabungan fitur.
Data Rangkuman
Interpretasi psikolog
Eksperimen mengunakan fitur linguistik dibagi menjadi dua
pelabelan
(terhadap data Twitter)
bagian, yaitu eksperimen menggunakan metode closed- vocabulary dan eksperimen menggunakan metode open-
1 Dominan A dan C
Dominan C dan E
vocabulary . Eksperimen menggunakan gabungan fitur juga dibagi
2 Dominan E
Dominan E
menjadi dua bagian, yaitu eksperimen menggunakan gabungan
3 Dominan E dan N
Dominan A dan N
fitur dengan metode closed-vocabulary dan eksperimen
4 Dominan A
Dominan E
menggunakan gabungan fitur dengan metode open-vocabulary.
5 Dominan O
Dominan O
Berdasarkan hasil eksperimen, seringkali hasil kepribadian yang
6 Dominan E
Dominan O
ditunjukkan pada pengujian tidak memberikan hasil yang sesuai
7 Dominan O
Dominan E
dengan eksperimen. Hal ini dapat disebabkan oleh dua hal, yaitu
8 Dominan C dan E
Dominan C dan E
kemungkinan pengguna tidak mengisi kuesioner yang digunakan
9 Dominan O
Dominan O
sebagai pelabelan dengan baik dan kata-kata di dalam kamus tidak tepat mewakili kategorinya atau jumlah kata masih kurang. Selain
Jurnal Cybermatika | Vol. 3 No. 1 | Juni 2015 | Artikel 3 19 Jurnal Cybermatika | Vol. 3 No. 1 | Juni 2015 | Artikel 3 19
kepribadian Big 5 pengguna.
fitur unigram adalah sama, yaitu menunjukkan bahwa korelasi kedua fitur tersebut paling positif untuk kepribadian A. Hal yang
Satu hal lagi yang perlu diperhatikan, terutama ketika sama juga terjadi pada eksperimen menggunakan fitur linguistik
membandingkan hasil pengujian model pembelajaran dengan bigram dan gabungan fitur bigram, yaitu memperoleh korelasi
pelabelan data pengujian, bahwa pelabelan data dilakukan tanpa paling positif untuk kepribadian E. Kedua hal ini bukanlah hal
melibatkan pakar dan pengambilan data untuk pelabelan tidak yang aneh karena hasil seleksi fitur pada pembentukan model
dilakukan secara kolektif. Hal-hal ini menyebabkan pelabelan pembelajarannya adalah mirip. Perbedaan hanya terletak pada
mungkin tidak valid untuk beberapa data dan valid untuk gabungan fitur, yaitu terdapat satu fitur dari fitur perilaku sosial
beberapa data. Selain itu, hal ini juga mempersulit penentuan yang turut membentuk model pembelajarannya.
model pembelajaran yang terbaik apabila didasarkan pada hasil pengujian.
Dari hasil seleksi fitur linguistik open-vocabulary ditemukan bahwa jumlah favourites mempengaruhi kepribadian O, rata-rata
penggunaan retweet mempengaruhi kepribadian C, dan jumlah friend mempengaruhi kepribadian A, hal ini sesuai dengan
4. HASIL DAN PEMBAHASAN
model pembelajaran yang lolos seleksi fitur adalah jumlah favourites, fraksi retweet,
definisi dan hasil analisis kepribadian A. Fitur perilaku sosial
menggunakan fitur perilaku sosial (PS), model fitur linguistik closed-vocabulary (LC), model fitur linguistik open-vocabulary
dan jumlah friend. Selain fitur-fitur tersebut, fitur perilaku sosial tidak digunakan untuk memprediksi kepribadian pada model
unigram (LOuni) dan bigram (LObi), model gabungan fitur pembelajaran gabungan fitur. Dengan demikian berdasarkan data closed-vocabulary (GC), dan model gabungan fitur open- vocabulary unigram (GOuni) dan bigram (GObi). Tabel 7
yang digunakan pada penelitian ini dapat disimpulkan bahwa fitur
menampilkan hasil dari eksperimen.
Tabel 7. Hasil eksperimen terhadap kombinasi fitur serta perolehan eror (MAE) dan korelasi ( r)
No Model O C E A N r
Tweet pengguna 1, yang mendapatkan hasil pengujian dominan Berdasarkan hasil eksperimen yang diperoleh, dari seluruh model
kepribadian A, bernuansa positif ditunjukkan dengan banyaknya yang dibangun kepribadian O memiliki korelasi paling positif
penggunaan token laughter. Contoh tweet pengguna 1 misalnya dengan model GObi. Kepribadian C memiliki korelasi paling
adalah ‘haha apeu banget, masak puding busa tapi positif dengan model GOuni. Kepribadian E memiliki korelasi
penampilannya kayak brownies bakar amanda HAHAHAHA ’,’ paling positif dengan model GObi. Kepribadian A memiliki
indah banget pagi ini. cerah, sejuk, tenang, ada suara burung2 ’. korelasi paling positif dengan model LObi. Yang terakhir
kepribadian N memiliki korelasi paling positif dengan model GObi.
Tabel 8. Hasil pengujian model pembelajaran menggunakan gabungan fitur bigram
Secara keseluruhan semua model yang memiliki korelasi positif
dengan setiap kepribadian adalah model yang dibangun dengan Hasil pengujian pendekatan open-vocabulary dibandingkan pendekatan closed-
Data
Pelabelan
vocabulary dengan nilai korelasi yang berbeda sangat jauh.
Penelitian sebelumnya memang telah menunjukkan bahwa
pendekatan open-vocabulary menunjukkan hasil yang lebih
memuaskan dibandingkan dengan pendekatan closed-vocabulary,
namun bukan berarti pendekatan closed-vocabulary akan
menghasilkan hasil yang sangat jelek. Hasil yang tidak cukup baik
dari eksperimen ini mungkin disebabkan kurangnya kata-kata di
dalam kamus kategori yang dibangun.
10 A O
Tabel 8 menampilkan perbandingan antara rangkuman pelabelan
dan hasil pengujian yang diperoleh menggunakan model Gobi. Pada tweet pengguna 3, yang mendapatkan hasil pengujian berupa Kepribadian A yang ditunjukkan oleh hasil pengujian memiliki
dominan kepribadian O, banyak ditemukan token numbers dan jumlah friend yang tergolong tinggi berdasarkan pada data
URL yang dianalisis sebagai sarana untuk memberikan informasi pembelajaran, yaitu berkisar pada 300-400 orang.
tambahan pada pengguna lain yang membaca tweet-nya. Beberapa contoh tweet dari pengguna 3 adalah ‘My Wet n Wild Megalast Matte Lipstick in "Just Peachy". Gw beli harga 58rb di
20 Agnes Theresia Damanik, Masayu Leylia Khodra
Tokopedia, nama tokonya… http://t.co/w62f77ZFQF’,’ "You (Ed.), Review of Personality and Social Psychology: Vol.2 (pp. can't lose what you never had." Yes, I agree. It'd (perhaps) better
141-165). Beverly Hills, CA: Sage.
to
be just friends
Gosling, S.D. (2007). Personality Impressions based on Facebook https://t.co/yfZCC0aK3Y ’, dan ‘I use Pure Skin facial wash! Mau harga
lebih mura h??? Profiles. #oriflame #oriflamemurah…
http://t.co/hZBAvgx5MX ’. Hearst, Marti A. (1998). Trends and Controversies Support Vector Machines. IEEE Intelligent Systems.
Pengguna 7 memperoleh hasil pengujian berupa dominan kepribadian E. Tweet pengguna menunjukkan sifat ekstraversi
Hogan, R., Curphy, G. J., & Hogan, J. (1994). What we know yang berfokus pada dunia luar dan pengalaman diri sendiri.
about leadership: Effectiveness and personality. American Beberapa contoh tweet-nya ad alah ‘baru sadar hari ini ada UN!
Psychologist, 49 (6), 493 –504.
semangat buat semuanya, sukses yaaak semoga bs ngerjain http://www.careerbuilder.co.id diakses tanggal 12 November dengan baik :") ’,’ dan baru menyadari kalau pipi saya terlalu
pukul 03.26 WIB.
tembem belakangan ini T_T ’, dan ‘aku kangen donut yg biasa mama masak sore2
’. Iacobelli, F., Gill, AJ., Nowson, S., Oberlander, J. (2011). Large scale personality classification of bloggers. Affective Computing and Intelligent Interaction.
5. KESIMPULAN DAN SARAN John, O. P., Donahue, E. M., & Kentle, R. L. (1991). The Big
Five Inventory--Versions 4a and 54. Berkeley, CA: University of Berdasarkan analisis, implementasi, eksperimen, dan pengujian
California, Berkeley, Institute of Personality and Social Research. yang telah dilakukan, kesimpulan yang dapat ditarik adalah secara
keseluruhan untuk dataset eksperimen penelitian ini, kepribadian Komarraju, M., & Karau, S. J. (2005). The relationship between Big 5 pengguna Twitter dapat diprediksi dengan baik
the Big Five personality traits and academic motivation. menggunakan model gabungan fitur perilaku sosial dan fitur
Personality and Individual Differences, 39, 557 –567. linguistik dengan metode open-vocabulary bigram. Selain itu
Mairesse, François., Marilyn A. Walker, Matthias R. Mehl, & dapat disimpulkan pula bahwa fitur linguistik lebih dapat
Roger K. Moore. (2007). Using Linguistic Cues for the Automatic mengenali kepribadian pengguna dibandingkan dengan fitur
Recognition of Personality in Conversation and Text. Journal of perilaku sosial. Perlu diingat bahwa hasil prediksi bergantung
Artificial Intelligence Research, 30, 457-500 pada eksperimen yang dilakukan sehingga penelitian lain yang
sejenis dapat menghasilkan hasil akhir yang berbeda sesuai Mehl, M. R., Gosling, S. D., & Pennebaker, J. W. (2006). dengan parameter eksperimen yang digunakan.
Personality in its natural habitat: Manifestations and implicit folk theories of personality in daily life. Journal of Personality and
Saran untuk pengembangan penelitian ini di kemudian hari adalah
Social Psychology, 90, 862 –877.
bahwa untuk menggunakan
Newman, M. L., Pennebaker, J. W., Berry, D. S., & Richards, J. pembangunan kamus kata perlu melibatkan pakar di bidang
metode
closed-vocabulary ,
M. (2003). Lying words: Predicting deception from linguistic linguistik, khususnya bahasa Indonesia dan bahasa Inggris. Selain
style. Personality and Social Psychology Bulletin, 29, 665 itu waktu pembangunannya dapat diperpanjang sehingga lebih
–675 banyak kosakata yang dicakup. Selain itu saran untuk
Pennebaker, J. W., & King, L. A. (1999). Linguistic styles: mendapatkan pelabelan data yang lebih baik adalah pengumpulan
Language use as an individual difference. Journal of Personality data kuesioner yang digunakan sebagai pelabelan sebaiknya
and Social Psychology, 77, 1296 –1312. dilakukan secara kolektif di bawah arahan pakar.
Riggio, R. E., Salinas, C., & Tucker, J. (1988). Personality and deception ability. Personality and Individual Differences, 9 (1),
6. REFERENSI
Smith, B. L., Brown, B. L., Strong, W. J., & Rencher, A. C. Atkinson, Rita, L., Richard C. Atkinson, Edward E. Smith, Daryl
(1975). Effects of speech rate on personality perception. Language J. Bem, & Susan Nolen-Hoeksema. (2000). Hilgard's Introduction
and Speech, 18, 145 –152.
to Psychology (13th ed.). Orlando, Florida: Harcourt College Publishers. p. 437.
Schacter, Gilbert, Wegner. (2011). Psychology (2nd ed.). Worth. pp. 474 –475.
Costa, P.T.,Jr., & McCrae, R.R. (1992). Revised NEO Personality Scherer, K. R. (2003). Vocal communication of emotion: A Inventory (NEO-PI-R) and NEO Five-Factor Inventory (NEO-
FFI) manual. Odessa, FL: Psychological Assessment Resources. review of research paradigms. Speech Communication, 40 (1-2), 227 –256.
Furnham, A., Jackson, C. J., & Miller, T. (1999). Personality, Schwartz, HA., Eichstaedt, JC., Kern, ML., Dziurzynski, L., Learning Style and Work Performance. Personality and Individual
Differences, 27, 1113-1122. Ramones, SM. (2013). Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach.
Furnham, A., & Mitchell, J. (1991). Personality, Needs, social PLoS ONE 8(9): e73791. doi:10.1371/journal.pone.0073791 skills and academic achieve-ment: A longitudinal study. Personality and Individual Differences, 12, 1067
–1073. Wald, Randall., Taghi Khoshgoftaar, & Chris Sumner. (2012). Machine Prediction of Personality from Facebook Profiles. IRI, Golbeck, Jennifer., Cristina Robles, & Karen Turner. (2011).
page 109-115. IEEE.
Predicting Personality with Social Media. CHI 2011, May 7-12, 2011, Vancouver, BC, Canada.
Watson, D., & Clark, L. A. (1992). On traits and temperament: General and specific factors of emotional experience and their
Goldberg, L. R. (1981). Language and Individual Differences: relation to the five factor model. Journal of Personality, 60 (2), The Search for Universals in Personality Lexicons. In L. Wheeler
Jurnal Cybermatika | Vol. 3 No. 1 | Juni 2015 | Artikel 3 21
Yarkoni, Tal. (2010). Personality in 100.000 Words: A large scale analysis of personality and word use among bloggers. J Res Pers, 2010 June 1; 44(3), 363-373.
Yu, Sheng. & Subhash Kak. (2012). A Survey of Prediction Using Social Media. CoRR abs/1203.1647.