Prediksi Kepribadian Big 5 Pengguna Twitter dengan Support Vector Regression

Prediksi Kepribadian Big 5 Pengguna Twitter dengan Support Vector Regression

Agnes Theresia Damanik Masayu Leylia Khodra

Institut Teknologi Bandung Institut Teknologi Bandung

13510100@std.stei.itb.ac.id masayu@stei.itb.ac.id

ABSTRAK hendak diprediksi kepribadiannya untuk menjawab pertanyaan-

Informasi biografi dan tweets dari pengguna Twitter dapat pertanyaan kuesioner dan orang sering tidak mengetahui dimanfaatkan untuk menggambarkan kepribadian Big 5, yang

kecenderungan sifatnya sehingga menyebabkan hasil prediksi terdiri

dari openness,

conscientiousness,

extraversion,

kurang valid.

agreeableness, dan neuroticism. Makalah ini membahas Kepribadian berhubungan dan mempengaruhi beberapa aspek dari penggunaan infomasi pengguna Twitter untuk membentuk suatu

linguistik. Prediksi berdasarkan linguistik dilakukan dengan model pembelajaran prediksi kepribadian Big 5. Fitur yang

menganalisis pemilihan kata-kata dan letak kata-kata tersebut di digunakan sebagai eksperimen terdiri dari dua fitur utama, yaitu

dalam kategori yang ditentukan sesuai dengan bahasa yang fitur perilaku sosial dan linguistik. Fitur linguistik yang digunakan

digunakan. Analisis linguistik telah dilakukan terhadap esai bebas, terbagi atas 2 bagian besar, yaitu fitur kategori kata dari kamus

alamat email, profil Facebook, blog, penggunaan bahasa sehari- yang dibangun secara manual dan fitur yang diekstrak langsung

hari, pesan singkat, dll. Para psikolog telah mendokumentasikan dari data pada Twitter. Dari eksperimen dan pengujian yang

keberadaan hubungan kepribadian-linguistik dengan menemukan dilakukan dengan metode Support Vector Regression (SVR),

korelasi berbagai variabel linguistik dengan kepribadian. didapatkan bahwa secara keseluruhan model pembelajaran yang

paling baik dalam memprediksi kepribadian pengguna Twitter Beberapa perusahaan, khususnya perusahaan industri menengah adalah model yang menggunakan gabungan fitur perilaku sosial

media sosial untuk dan linguistik bigram. Model tersebut menghasilkan nilai Mean

mempertimbangkan penerimaan pegawai baru, selain hasil tes Absolute Error (MAE) terkecil 0.2739, sedangkan nilai Pearson-

psikologi formal yang selalu dilakukan (CareerBuilder, 2012). correlation terbesar 0.8559 didapatkan untuk kepribadian

Berdasarkan hal ini, kepribadian seseorang dapat diprediksi Extraversion.

berdasarkan informasi pada akun media sosialnya, seperti Facebook atau Twitter. Gosling (2007) menemukan bahwa profil Kata Kunci Facebook memberikan nilai yang konsisten terhadap kepribadian

fitur perilaku sosial, fitur linguistik, kepribadian Big 5, SVR,

Big 5 terutama untuk E dan O.

twitter. Makalah ini bertujuan untuk membangun model prediksi

1. PENDAHULUAN kepribadian Big 5 dari pengguna twitter dengan menggunakan

Kepribadian Big 5 merupakan salah satu metode yang dikenal Support Vector Regression (SVR). Saat ini belum ada penelitian dalam dunia psikologi untuk menginterpretasi kepribadian

yang memprediksi kepribadian Big 5 untuk pengguna Twitter. seseorang, terutama untuk menemukan hubungan kepribadian

Pada makalah ini dilakukan analisis terhadap perilaku sosial dengan lingkungan pekerjaan. Kepribadian Big 5 terdiri dari

pengguna Twitter dan penggunaan linguistik ketika menuliskan openness (O), conscientiousness (C), extraversion (E),

tweet dan biografinya untuk menemukan fitur-fitur yang paling agreeableness (A), dan neuroticism (N) (Costa dkk, 1991).

sesuai membentuk model pembelajaran memprediksi kepribadian Kepribadian O memiliki imajinasi yang aktif, kepekaan terhadap

pengguna. Untuk menemukan fitur dari penggunaan linguistiknya, estetika, kepedulian terhadap perasaan pribadi, ketertarikan

penelitian ini menggunakan dua pendekatan yang selama ini terhadap perbedaan, keingintahuan intelektual, dan kebebasan

dilakukan secara terpisah dalam penelitian lain. Pendekatan

pertama adalah closed-vocabulary, yaitu menggunakan kamus mengendalikan impulse, pengendalian diri demi perencanaan

berpendapat. Kepribadian C berhubungan erat dengan

kata dan pendekatan kedua adalah open-vocabulary, yaitu yang matang, pengaturan, dan pengerjaan tugas-tugas.

mengekstrak fitur dari data yang digunakan. Model pembelajaran Kepribadian E percayadiri, aktif, cerewet, optimis, serta menyukai

akan dibentuk menggunakan masing-masing fitur dan pada kesenangan dan selalu merasa ceria secara alami. Kepribadian A

akhirnya seluruh fitur akan digabung.

mengutamakan orang lain, simpatik terhadap orang lain, dan suka Pada bagian berikutnya akan dibahas tentang kajian yang menolong. Kepribadian N cenderung mengalami perasaan-

dilakukan terhadap penelitian terkait linguistik dan Twitter perasaan negatif seperti ketakutan, kesedihan, rasa canggung,

terhadap kepribadian Big 5. Bagian berikutnya membahas tentang kemarahan, rasa bersalah, dan rasa benci atau jijik.

sistem prediksi kepribadian yang dibangun. Bagian 4 membahas Pengukuran kepribadian Big 5 dapat dilakukan dengan

eksperimen yang dilakukan, selanjutnya bagian berikutnya menggunakan berbagai metode. Salah satu metodenya adalah

memberikan kesimpulan dan saran yang didapatkan dari metode BFI (John et al, 1991) berupa kuesioner berisi 44

penelitian yang dilakukan.

pertanyaan berisi sifat-sifat berbentuk skala dari paling tidak setuju sampai paling setuju dengan setiap sifat menggambarkan

2. KAJIAN TERKAIT

Model kepribadian Big 5 Goldberg (1981) terbukti mempengaruhi setiap kepribadian Big 5. Jawaban kuesioner dikalkukasi dengan

rumus sesuai dengan metode yang dipilih. Cara ini memiliki

lingkungannya, seperti kekurangan, yaitu dibutuhkannya partisipasi aktif dari orang yang

mempengaruhi keahlian berdagang seorang sales (Furnham dkk., 1999), kemampuan dan motivasi akademis (Furnham & Mitchell,

14 Agnes Theresia Damanik, Masayu Leylia Khodra

Jurnal Cybermatika | Vol. 3 No. 1 | Juni 2015 | Artikel 3 15

1991; Komarraju & Karau, 2005), kemampuan memimpin (Hogan dkk., 1994), dan mempengaruhi kinerja pekerjaan (Furnham dkk., 1999). Salah satu pengukuran Big 5 yang paling sederhana adalah pengukuran BFI (John dkk, 1991). BFI merupakan kuesioner berisi 44 pertanyaan yang mengandung sifat-sifat yang menggambarkan kepribadian Big 5.

Kepribadian Big 5 adalah berikut (Costa dkk, 1991). Openness

(O)

O adalah imajinasi yang aktif, kepekaan terhadap estetika, kepedulian terhadap perasaan pribadi, ketertarikan terhadap perbedaan, keingintahuan intelektual, dan kebebasan berpendapat.

Conscientiousness (C)

C berhubungan erat dengan pengendalian diri demi perencanaan yang matang, pengaturan, dan pengerjaan tugas-tugas. Biasanya C berhubungan dengan prestasi dalam bidang akademik dan karier.

Extraversion (E)

E adalah

sosialis yaitu

menyukai

perkumpulan dan berkumpul. E percaya diri, aktif, cerewet, optimis.

Agreeableness (A)

A adalah tendensi untuk berinteraksi. Kepribadian A mengutamakan orang lain, simpatik terhadap orang lain, dan suka menolong.

Neuroticism (N)

N cenderung mengalami perasaan-perasaan negatif seperti ketakutan, kesedihan, rasa canggung, kemarahan, rasa bersalah, dan rasa benci atau jijik. Kepribadian N bernilai rendah menandakan emosi yang stabil, tenang.

2.1 Kepribadian Berdasarkan Linguistik

Pennebaker dan King (1999) melakukan analisis terhadap esai yang ditulis oleh sejumlah mahasiswa dan membandingkan hasil yang didapatkan dengan hasil kuesioner yang diisi mahasiswa- mahasiswa tersebut sebelumnya. Penelitian ini memanfaatkan kakas LIWC untuk penghitungan kategori kata. Hasil yang didapat adalah bahwa N sering menggunakan kata ganti orang pertama tunggal dan kata bermakna negatif dibandingkan dengan kata bermakna positif. A lebih sering menggunakan kata bermakna positif dibandingkan dengan kata bermakna negatif dan sedikit menggunakan articles. Sedikit dari C ditemukan menggunakan kata negasi, kata bermakna negatif, dan kata diskrepansi (contoh: seharusnya, seandainya). O ditemukan menulis kalimat yang panjang dan kalimat yang mengekspresikan tentatif (contoh: mungkin). Sedikit dari O menggunakan kata ganti orang pertama tunggal dan bentuk present tense.

Nowson (2006) melakukan analisis linguistik terhadap blog dan menemukan hubungan linguistik dan kepribadian Big 5. E sering menggunakan kata-kata di kategori social process, dan human serta jarang menggunakan kata-kata di kategori occupation, achievement, discrepancy, school , dan TV. A cenderung menulis kalimat yang terdiri dari 6 kata atau lebih dan sering menggunakan articles serta jarang menggunakan kata discrepancy dan negation. Sedikit dari C yang menggunakan kata-kata di kategori death. N menggunakan kata-kata di kategori discrepancy, work, anciety, future tense verb, eating, dan physical state serta jarang menggunakan kata-kata di kategori human. Dan O menggunakan kalimat berjumlah 6 kata atau lebih, kata-kata di

kategori positive emotion, grooming, inclusive, dan preposition seta jarang menggunakan kata-kata di kategori school dan occupation .

Watson & Clark (1992) menemukan E dan C berhubungan erat dengan emosi positif, N berkorelasi positif dengan emosi negatif, dan A berkorelasi negatif dengan emosi negatif. Mehl (2006) menemukan bahwa O sering menggunakan kalimat yang membuka wawasan dan A berkorelasi negatif dengan penggunaan kata-kata umpatan/caci maki (swear words). Penelitian di atas menggunakan kamus kategori-kata yang bernama Linguistic Inquiry and Word Count (LIWC).

Schwartz (2013) menggunakan pendekatan data-driven atau dikenal sebagai pendekatan open-vocabulary untuk melakukan analisis linguistik dan menemukan bahwa E menggunakan n-gram bermakna sosial (‘love you’, ‘party’, ‘boys’, ‘ladies’) dan N menggunakan ‘depression’, ‘sick of’, ‘I hate’.

Iacobelli (2011) menggunakan pendekatan open-vocabulary dan menemukan bahwa E menggunakan kata sumpah serapah yang kasar (‘you f**ck’, ‘b**ch I’,’ was f**k’), lokasi (‘i’m at’), dan kata bermakna sosial dan positif (‘dance i’, ‘a club’, ‘fun anyway’). A menggunakan kata sumpah serapah yang lebih halus daripada E (‘like s**t’, ‘the hell’) dan kata bermakna positif (‘even better’, ‘of beauty’). Dan C menggunakan kata-kata yang mencerminkan perencanaan, prestasi, dan evaluasi diri (‘to study’, ‘on track’, ‘succeed in’)

2.1.1 Pendekatan Closed-Vocabulary

Pendekatan closed-vocabulary adalah metode yang umum digunakan dalam menganalisis hubungan antara bahasa dan variabel-variabel

psikologi. Pendekatan

closed-vocabulary bergantung pada penghitungan kata di dalam suatu kategori tertentu. Pengelompokan kata tersebut dilakukan oleh beberapa pakar.

LIWC (Linguistic Inquiry and Word Count) adalah kakas yang dikembangkan Pennebaker sejak tahun 2007 yang berfungsi sebagai program penghitung kata otomatis berdasarkan kategorinya. LIWC memiliki 64 kategori teks. Versi terakhir dari LIWC adalah LIWC2007 dan telah melalui tahapan yang berlangsung bertahun-tahun karena domain kategori-kata dianggap semakin berkembang seiring dengan bertambahnya waktu. Tahapan yang dilakukan untuk membangun kamus LIWC dibagi menjadi 4 langkah yaitu koleksi kata, fase peratingan oleh pakar, evaluasi psikometrika, serta perubahan dan ekspansi.

Tabel 1 menampilkan seluruh fitur LIWC2007 serta korelasinya terhadap linguistik berdasarkan penelitian Yarkoni (2010) yang menggunakan analisis LIWC terhadap penggunaan kata para blogger (ns = not significant pada p<.05).

2.1.2 Pendekatan Open-Vocabulary

Pendekatan open-vocabulary merupakan kebalikan dari pendekatan closed-vocabulary. Perbedaan yang paling jelas adalah pendekatan open-vocabulary tidak membutuhkan kamus kata dan pengelompokan kosakata ke dalam kategori tertentu.

Pada pendekatan open-vocabulary, data melakukan eksplorasi sendiri terhadap penggunaan kata untuk menemukan hubungan antar kata dengan kepribadian. Hasil yang didapatkan dari pendekatan open-vocabulary adalah pengetahuan baru mengenai kaitan bahasa dan kepribadian, contoh pada penelitian yang dilakukan Schwartz (2013) ditemukan bahwa orang yang memiliki kepribadian N paling rendah sering menggunakan kata bertemakan olahraga.

Kata-kata tidak dibatasi pada kata yang berada di dalam daftar

kata tertentu. Fitur linguistik seperti kata dan frasa ditentukan secara otomatis dari data yang digunakan. Hal ini menyebabkan

Tabel 1. Kategori LIWC dan nilai korelasi Yarkoni (2010)

LIWC Category

jumlah data latih yang diperlukan harus sangat banyak.

Total function words

Discriminating

Total pronouns

Personal pronouns 1 st

Langsung menemukan fitur linguistik utama, yaitu kata dan frasa

person singular

1 st person plural

yang mencerminkan kepribadian.

2 nd rd person

3 person singular

3 rd rd person plural

3 person overall

Pembentukan fitur dilakukan dengan cara yang sederhana yaitu

Impersonal pronouns

fitur ngram.

Common verbs

Langkah-langkah yang dilakukan dalam melakukan pendekatan

Auxiliary verbs

open-vocabulary adalah melakukan ekstraksi fitur linguistik

Past tense

Present tense

dilanjutkan dengan melakukan seleksi fitur. Ekstraksi fitur

Future tense

linguistik dilakukan dengan cara memecah kalimat ke dalam

Adverbs

0.17 beberapa kata dan frasa (sekuens dari dua hingga tiga kata)

dengan menggunakan n-gram dengan maksimal n=3. Iacobelli

(2011) mendapatkan hasil yang terbaik dengan bigram sedangkan

Quantifiers

Schwartz menggunakan n=1 sampai n=3. Ketika melakukan

ekstraksi kata dan frasa, kata dan frasa diberi bobot dengan

Swear words

Social Processes

pembobotan TF*IDF.

Seleksi fitur bertujuan untuk menjelaskan data dengan cara yang

lebih sederhana karena fitur yang redundant dibuang, mengurangi

Affective Processes

collinearity yang disebabkan oleh terlalu banyaknya variabel yang

Positive Emotions

Negative Emotions

melakukan pekerjaan yang sama, dan menghemat waktu dalam

pembentukan model pembelajaran

2.2 Kepribadian Berdasarkan Perilaku Sosial

Cognitive Processes

Perilaku sosial mendefinisikan kepribadian melalui frekuensi

penggunaan media sosial dan tingkat keaktifan antar pengguna

(Golbeck dkk, 2011). Fitur yang menunjukkan tingkat perilaku

sosial pengguna Twitter berdasarkan penelitian yang dilakukan

Golbeck (2011) adalah sebagai berikut.

Follower adalah pengguna Twitter lain yang

Perceptual Processes

mengikuti pengguna yang diacu. Follower

dapat melihat tweet pengguna yang diacu

pada halaman muka akun Twitter mereka.

Biological Processes

Friend adalah pengguna yang diacu menjadi

Health

follower

dari pengguna lain.

Jumlah mention:

Mention

yang ditandai dengan ‘@username’

Relativity

menunjukkan tingkat interaksi pengguna

Twitter dengan pengguna lain.

Jumlah hashtag:

Hashtag menunjukkan keterlibatan pengguna

0.14 ns ns

dengan isu/topik yang sedang dibahas.

Leisure

0.08 0.15 ns

ns -0.17

Hashtag ditandai den gan karakter ‘#’.

ns -0.2

Jumlah reply:

Reply adalah mention dari pengguna lain

ns 0.15 kepada pengguna Twitter yang diacu.

ns -0.11

Nonfluencies

Jumlah URL:

URL adalah tautan berupa informasi

Fillers

website/blog yang dicantumkan pengguna.

Tweet adalah tulisan yang terdiri dari Dengan demikian pengetahuan baru yang didapatkan adalah

Jumlah kata

kumpulan kata dengan panjang maksimal 140 olahraga dapat menjadikan keadaan emosional seseorang lebih

dalam tweet:

karakter. Jumlah kata dalam tweet adalah total stabil. Ilustrasi mengenai hal tersebut dapat dilihat pada Gambar

kata yang menyusun tweet itu.

II.2. Dalam penelitian Golbeck (2012) ditemukan bahwa kepribadian

Karakteristik dari pendekatan open-vocabulary adalah sebagai N berkorelasi positif dengan standar deviasi dari panjang teks berikut.

yang tinggi. Kepribadian E ditemukan berkorelasi positif dengan

1. Kamus kata yang tidak terbatas

16 Agnes Theresia Damanik, Masayu Leylia Khodra 16 Agnes Theresia Damanik, Masayu Leylia Khodra

pembelajaran yang diperbolehkan di luar rentang dimulai dari Selain delapan komponen di atas, terdapat komponen dari Twitter

prediksi regresi.

yang dapat dijadikan pertimbangan dalam melakukan analisis Penggunaan kernel menjadi salah satu keunggulan SVR karena pemilihan fitur yang menunjukkan tingkat keaktifan perilaku

kesulitan dalam menggunakan fungsi linier pada feature space sosial pengguna Twitter sebagai berikut.

berdimensi lebih tinggi dapat dihindari (Vapnik, 1999). Favourites

Performansi SVR ditentukan juga oleh pengaturan meta- :

C, ԑ, dan kernelnya, sama seperti persoalan klasifikasi menggunakan metode SV. Retweeted :

Favourites adalah tweet pengguna lain yang

parameter dari parameter

difavoritkan oleh pengguna yang diacu.

Retweeted adalah jumlah pengguna lain melakukan retweet terhadap tweet yang ditulis sendiri oleh

2.4 Sistem Prediksi Kepribadian

pengguna yang diacu. Sistem yang dibangun terdiri dari tiga bagian, yaitu crawler, predictor, dan interface. Keterhubungan antara ketiga bagian

Retweet : Retweet yang ditandai dengan ‘RT’ menunjukkan diacu pada Gambar 1. Crawler adalah bagian yang berfungsi pengguna yang diacu mengulangi tweet pengguna

sebagai pengumpul data Twitter. Crawler memanfaatkan Twitter lain.

API untuk mengumpulkan data. Predictor adalah bagian yang berfungsi sebagai penginterpretasi kepribadian Big 5 pengguna. Interface

adalah bagian yang berfungsi sebagai presentasi hasil

kepribadian Big 5 dan penggunaan Twitter pengguna. Selain itu, Model pembentuk kepribadian yang dibangun menggunakan

2.3 Support Vector Regression (Svr)

interface juga menampilkan kamus kategori yang digunakan regresi adalah model yang sangat akurat (Mairesse, 2007). Tujuan

untuk pendekatan closed-vocabulary dan pengguna sistem dapat utama dari persoalan regresi adalah menunjukkan hubungan

menambahkan atau membuang kata di dalam kamus tersebut. antara dua variabel. Variabel yang satu, sebagai predictor,

digunakan untuk memprediksi nilai variabel yang lainnya, sebagai response . Meskipun hasil prediksi variabel response dari variabel predictor tidak selalu sempurna, response yang dihasilkan akan lebih akurat apabila melihat hubungan antara kedua variabel dibandingkan dengan tanpa menggunakan variabel predictor. Sehingga dapat dituliskan untuk x sebagai predictor dan y sebagai response :

Untuk himpunan

Model regresi menunjukkan hubungan sebab akibat antara x dan y, x dapat digunakan untuk memprediksi y dan y dapat digunakan

untuk memprediksi x. Sehingga untuk sepasang variabel terjadi

Gambar 1. Sistem prediksi kepribadian Big 5 pengguna

dua kemungkinan regresi (Lavine, 2013). Hubungan sebab akibat

Twitter

kedua variabel dapat diukur dengan menghitung keeratan hubungan keduanya atau korelasi. Korelasi juga menunjukkan

Berdasarkan studi terhadap kajian terkait, makalah ini seberapa baik predictor menentukan nilai response.

menggunakan dua fitur utama, yaitu fitur linguistik dan fitur Inti dari metode Support Vector (SV) adalah memetakan data

perilaku sosial. Berdasarkan metode linguistik yang dijelaskan pembelajaran yang tidak linier ke dalam feature space (dot

pada bagian kajian terkait, maka fitur linguistik dibedakan product space ) F melalui Φ (non-linear map), dan membangun

menjadi dua bagian besar, yaitu fitur linguistik closed-vocabulary sebuah pemisah (separating hyperlane) di dalam dimensi yang

dan fitur linguistik open-vocabulary.

lebih tinggi tersebut. Keadaan ini menciptakan sebuah pembatas Penentuan fitur linguistik closed-vocabulary dengan cara nonlinier pada input space. Untuk menghitung separating

hyperplane mengambil kategori kata LIWC yang menunjukkan nilai korelasi

tanpa secara eksplis it memasukkan Φ ke dalam F, kita paling signifikan terhadap setiap kepribadian Big 5. Nilai korelasi

menggunakan fungsi kernel k. yang paling signifikan dibatasi untuk kategori yang memperoleh Untuk data pembelajaran {( ) ( )} ; korelasi lebih besar dari 0.1.

Hal ini dilakukan dengan tujuan mengambil beberapa kategori ( ) ( ( ) ( )) yang paling dapat membedakan kepribadian saja dengan harapan

hasil yang diperoleh tidak akan berbeda jauh dengan hasil yang Dalam menyelesaikan permasalahan regresi, algoritma SVR akan

diperoleh ketika menggunakan seluruh kategori LIWC. Selain itu membangun sebuah fungsi linier di dalam feature space sehingga

hal ini dilakukan karena penentuan kosakata tidak akan nilai dari data pembelajaran berada pada rentang

melibatkan pakar di bidang bahasa, dengan demikian menentukan menggunakan persamaan suku dua (quadratic) sebagai kernel,

. Dengan

kosakata untuk beberapa kategori kata yang paling signifikan permasalahan prediksi regresi dirumuskan sebagai berikut,

dirasa lebih mudah dibandingkan menentukan kosakata untuk seluruh kategori LIWC. Nilai korelasi yang digunakan diperoleh

() ∑ dari penelitian yang dilakukan terhadap blog sesuai dengan yang

diacu pada Subbab 2.1.1. Alasan menggunakan nilai korelasi tersebut adalah karena penelitian tersebut juga dilakukan

Pada rumusan tersebut, kita dapat memilih apakah menentukan

memanfaatkan LIWC.

nilai secara spesifik terlebih dahulu atau nilai dihitung secara

Jurnal Cybermatika | Vol. 3 No. 1 | Juni 2015 | Artikel 3 17

Pada kepribadian C, kategori yang memberikan nilai korelasi di Data tahap pertama didapatkan dari pengisian kuesioner BFI atas 0.1 hanya satu kategori sementara kepribadian lainnya dapat

seperti yang dijelaskan pada bagian Kajian Terkait. Sebanyak 119 memperoleh empat hingga lima kategori kata. Oleh karena itu,

pengguna Twitter yang secara sukarela mengisi kuesioner agar tidak terlalu sulit dibedakan dari kepribadian lainnya, pada

memiliki latar belakang mahasiswa dan sarjana muda yang berada kepribadian C batas nilai korelasi diturunkan menjadi 0.09

pada kisaran usia 19 hingga 25 tahun. Hal tersebut terjadi karena sehingga dengan demikian didapatkan tiga kategori kata yang

penyebaran kuesioner dilakukan oleh orang yang telah mengisi dapat membedakan kepribadian C dengan kepribadian lainnya.

kuesioner sebelumnya sehingga persebaran usia dan latar Tabel 2 menampilkan 20 kategori yang didapatkan. Kosakata

belakangnya tidak terlalu luas.

yang dimasukkan ke dalam kategori kata yang ditentukan ditentukan tanpa melibatkan pakar di bidang bahasa. Apabila

Data pada tahap kedua didapatkan dari isi Twitter dari pengisi melibatkan pakar bidang bahasa dalam pembangunan kamus

kuesioner sebelumnya. Tweet pengguna yang diambil adalah 200 maka kamus yang dihasilkan lebih baik dan terpercaya. Hal tweet terbaru termasuk mention, retweet, dan reply. Sebanyak 10

tersebut tidak dapat digunakan karena kekurangan sumber daya data kuesioner dipisahkan dari data keseluruhan untuk digunakan manusia. Untuk menutupi kekurangan tersebut, kosakata yang

dalam pengujian terhadap model pembelajaran yang terbentuk dimasukkan ke dalam kamus berasal dari contoh kata yang

melalui eksperimen.

diberikan pada situs resmi LIWC, situs bertemakan linguistik, dan definisinya dalam bahasa Indonesia dan bahasa Inggris. Bahasa

Tabel 3 Fitur linguistik Inggris turut disertakan karena pengguna menulis tweet dalam closed-vocabulary bahasa Indonesia dan bahasa Inggris.

Fitur

Keterangan

Selain kategori LIWC tersebut, terdapat fitur yang tidak tercakup

Fitur biografi. Menjelaskan jumlah kata di dalam kategori LIWC. Tabel 3 merangkum fitur-fitur tersebut.

bio_length

yang digunakan pengguna untuk membentuk biografi

Mengacu pada Subbab 2.1.2, penentuan fitur linguistik untuk

Fitur tweet. Menjelaskan jumlah angka metode open-vocabulary dilakukan dengan ekstraksi fitur, yaitu

numbers

dalam tweet

dengan cara memecah isi tweet ke dalam beberapa kata dan frasa

Fitur tweet. Menjelaskan jumlah kata yang (dibatasi menjadi sekuens dari dua kata) dengan menggunakan

long_word

diperpanjang

Fitur tweet. Menjelaskan jumlah emoticon dilakukan terhadap hasil ekstraksi yang didapatkan. Penentuan

ngram dengan n dari 1 sampai 2. Selanjutnya seleksi fitur

positiv_emoticon

bermakna positif, contoh: ^^,:),:-) fitur perilaku sosial dilakukan dengan menganalisis fitur yang

Fitur tweet. Menjelaskan jumlah emoticon diacu pada Subbab 2.2. Tabel 4 menampilkan keseluruhan fitur.

negative_emoticon

bermakna negatif, contoh: vv,:(,:-(

2.5 Pengumpulan Data

Tabel 4 Fitur perilaku sosial

Pengumpulan data dilakukan dengan dua tahapan. Data yang

Fitur

Keterangan

didapat di tahap pertama digunakan sebagai pelabelan untuk data

Follower

Follower

yang dikumpulkan pada tahap kedua dan selanjutnya digunakan

Friend

Friend

sebagai data pembelajaran.

Jumlah status yang di-retweet pengguna lain

Retweet

Fraksi tweet berupa retweet

Tabel 2. Kategori LIWC yang memberikan signifikan pada

Not_Retweet

Fraksi tweet bukan retweet

nilai korelasi ρ di atas 0.1

URL

Rata-rata jumlah URL di dalam tweet

Big 5 Kategori LIWC

Korelasi ( ρ)

Contoh kata

Hashtag

Rata-rata jumlah hashtag dalam tweet

prepositions

0.17 dengan, di atas

Mention

Rata-rata jumlah mention dalam tweet

death

0.15 bunuh, makam

Length

Rata-rata panjang tweet

articles

0.2 sang, si, para inclusive 0.11 dan, juga, semua

C achievement

0.14 rencana, tugas

Tujuan pengambilan data kuesioner adalah menggunakan hasilnya

time

0.09 jam, menit, detik

sebagai pelabelan data pembelajaran. Pada awalnya terdapat dua

articles 0.09 sang, kaum, umat

pertimbangan cara pelabelan data pembelajaran, yaitu

E 2 nd person

0.16 anda, kamu, kau

menggunakan hasil kuesioner dan menggunakan hasil interpretasi

social processes

0.15 manusia, public

friends

0.15 pacar, rival

kepribadian oleh psikolog. Cara pertama memiliki beberapa

sexual

0.17 hasrat, cinta, suka

kekurangan, yaitu pengisi kuesioner bisa berbohong, tidak

biological processes st 0.14 perut, sakit, makan

dan tidak mengenali

A 1 person plural

0.18 kami, kita, us

kepribadiannya. Cara kedua adalah cara yang lebih baik daripada

family

0.19 ibu, daging, pulang

yang pertama karena melibatkan pakar namun cara kedua tidak

positive emotion

0.18 semangat, keren

inclusive

0.18 dan, juga, semua

dapat digunakan pada penelitian ini karena tidak tersedianya

home 0.19 privasi, tenang

sumber daya manusia yang mencukupi dengan jumlah data.

negative emotions

0.16 bosan, kasar

anxiety

0.17 galau, pucat, panik

Pengujian terhadap model pembelajaran dilakukan dengan

anger

0.13 cuek, frustrasi

menggunakan 10 data yang dipisahkan dari keseluruhan data yang

discrepancy

0.13 andai, kalau, dong

digunakan dalam pembelajaran. Hasil perhitungan kepribadian

certainty 0.13 yakin, pasti, pernah

Big 5 versi BFI dari kesepuluh data pengujian ditampilkan pada Tabel 5. Rangkuman hasil perhitungan kuesioner BFI dirumuskan

dalam bentuk hasil interpretasi yang diberikan oleh pakar psikolog

18 Agnes Theresia Damanik, Masayu Leylia Khodra 18 Agnes Theresia Damanik, Masayu Leylia Khodra

Dominan O dari hasil penghitungan kuesioner data pengujian dengan hasil

10 Dominan A

interpretasi yang diberikan oleh pakar psikolog terhadap data Twitter pengguna yang akan digunakan sebagai pembelajaran,

2.6 Praproses Data

yaitu jumlah follower, friend, favourites, retweeted, biografi, dan Praproses bertujuan untuk mengubah data tweet mentah ke dalam isi dari 200 tweet ditampilkan pada Tabel 6.

bentuk yang lebih sederhana sehingga dapat diekstraksi fitur- Menurut Tabel 6, psikolog menginterpretasikan kepribadian

fiturnya. Praproses yang dilakukan terhadap isi tweet adalah seseorang sebagai nilai yang paling dominan diantara kelima

sebagai berikut.

variabel kepribadian yang ada. Dengan merangkum hasil  Menghapus retweet. Retweet adalah tweet pengguna lain kuesioner ke dalam bentuk interpretasi psikolog maka ditemukan

yang dikutip oleh pengguna. Hal tersebut menyebabkan isi bahwa tiga dari sepuluh data memenuhi interpretasi psikolog,

retweet tidak dapat menunjukkan kepribadian pengguna yaitu data ke-2, ke-5, dan ke-9. Selain itu ada dua data lain yang

secara langsung. Retweet dihilangkan dari tweet agar tweet memenuhi sebagian interpretasi psikolog, yaitu data ke-1 dan ke-

berisikan opini pengguna saja. Penghitungan penggunaan

3. Dikatakan memenuhi sebagian interpretasi psikolog adalah retweet tetap dihitung meskipun kontennya dibuang. karena sebenarnya psikolog menemukan dua kepribadian dominan

dari data tersebut namun kedua kepribadian tersebut hanya

 Menghapus mention

memenuhi satu kepribadian diantara dua kepribadian dominan yang ditemukan apabila merumuskan hasil kuesioner BFI

 Menghapus hashtag

berdasarkan dua kepribadian yang memperoleh nilai paling tinggi.

 Menghapus URL

Perbandingan tersebut menunjukkan bahwa mungkin model

 Casefolding

pembelajaran yang dibentuk akan berbeda apabila seluruh data pembelajaran murni dilabeli dengan hasil interpretasi pakar.

Mengubah seluruh huruf dalam tweet menjadi huruf kecil Model pembelajaran tersebut mungkin akan menunjukkan hasil yang lebih baik. Selain itu interpretasi dari psikolog pada Tabel 6.

 Mengganti seluruh angka dengan common token ‘numbers’ memberikan wawasan bahwa dunia psikologi memandang

 Mengganti seluruh ekspresi tawa dengan common token kepribadian seseorang dapat didefinisikan sebagai satu atau dua

‘laughter’

kepribadian yang paling dominan saja. Hal ini menunjukkan bahwa nilai riil setiap kepribadian tidak terlalu penting. Yang

 Menghapus karakter khusus (contoh: !$*&^)(-_=-‘:) terpenting adalah perbandingan nilai yang diperoleh antar kelima

Bagian biografi pengguna bisa berisi dan kosong. Oleh karena itu, kepribadian tersebut.

bagian biografi diwakili oleh panjangnya saja, yaitu jumlah kata pembentuk biografi.

Tabel 5. Hasil kuesioner data pengujian beserta rangkuman

hasil

3. EKSPERIMEN

Data Hasil perhitungan BFI

Pelabelan

Eksperimen dilakukan dengan memisahkan dataset yang sudah

1 3.6 3.77 3.5 3.88 3 Dominan A dan C

diberi label menjadi dua bagian. Bagian pertama data digunakan

2 3.5 2.77 3.75 3.44 3.12 Dominan E

sebagai data pembelajaran untuk membentuk model pembelajaran

3 2.9 2.66 3.62 2.66 3.6 Dominan E dan N

dan bagian kedua data digunakan sebagai pengujian model

4 3.6 3.44 3.37 4.33 1.75 Dominan A

pembelajaran yang telah terbentuk. Eksperimen dilakukan

5 4.6 3.33 3.5 3.44 2.75 Dominan O

menggunakan kakas Weka yang menyediakan algoritma Support

6 4.1 3.33 4.5 4.33 3.75 Dominan E

Vector Regression (SVR). Kemudian model pembelajaran yang

7 3.7 3 2.62 3.33 3.5 Dominan O

sudah dibentuk dievaluasi dengan skema 10 fold cross validation,

8 3.5 4 4.12 3.88 1.25 Dominan C dan E

ukuran kinerja model pembelajaran ditentukan melalui

9 3.6 3.11 3 3.33 3 Dominan O

pengukuran Mean Absolute Error (MAE) dan Pearson-correlation

10 3.2 2.55 3.37 4.11 2.62 Dominan A

r yang tersedia pada Weka.

Eksperimen terdiri dari tiga tahapan besar, yaitu eksperimen

Tabel 6. Perbandingan rangkuman hasil kuesioner data

menggunakan fitur perilaku sosial, eksperimen menggunakan fitur

pengujian dengan interpretasi psikolog

linguistik, dan eksperimen menggunakan gabungan fitur.

Data Rangkuman

Interpretasi psikolog

Eksperimen mengunakan fitur linguistik dibagi menjadi dua

pelabelan

(terhadap data Twitter)

bagian, yaitu eksperimen menggunakan metode closed- vocabulary dan eksperimen menggunakan metode open-

1 Dominan A dan C

Dominan C dan E

vocabulary . Eksperimen menggunakan gabungan fitur juga dibagi

2 Dominan E

Dominan E

menjadi dua bagian, yaitu eksperimen menggunakan gabungan

3 Dominan E dan N

Dominan A dan N

fitur dengan metode closed-vocabulary dan eksperimen

4 Dominan A

Dominan E

menggunakan gabungan fitur dengan metode open-vocabulary.

5 Dominan O

Dominan O

Berdasarkan hasil eksperimen, seringkali hasil kepribadian yang

6 Dominan E

Dominan O

ditunjukkan pada pengujian tidak memberikan hasil yang sesuai

7 Dominan O

Dominan E

dengan eksperimen. Hal ini dapat disebabkan oleh dua hal, yaitu

8 Dominan C dan E

Dominan C dan E

kemungkinan pengguna tidak mengisi kuesioner yang digunakan

9 Dominan O

Dominan O

sebagai pelabelan dengan baik dan kata-kata di dalam kamus tidak tepat mewakili kategorinya atau jumlah kata masih kurang. Selain

Jurnal Cybermatika | Vol. 3 No. 1 | Juni 2015 | Artikel 3 19 Jurnal Cybermatika | Vol. 3 No. 1 | Juni 2015 | Artikel 3 19

kepribadian Big 5 pengguna.

fitur unigram adalah sama, yaitu menunjukkan bahwa korelasi kedua fitur tersebut paling positif untuk kepribadian A. Hal yang

Satu hal lagi yang perlu diperhatikan, terutama ketika sama juga terjadi pada eksperimen menggunakan fitur linguistik

membandingkan hasil pengujian model pembelajaran dengan bigram dan gabungan fitur bigram, yaitu memperoleh korelasi

pelabelan data pengujian, bahwa pelabelan data dilakukan tanpa paling positif untuk kepribadian E. Kedua hal ini bukanlah hal

melibatkan pakar dan pengambilan data untuk pelabelan tidak yang aneh karena hasil seleksi fitur pada pembentukan model

dilakukan secara kolektif. Hal-hal ini menyebabkan pelabelan pembelajarannya adalah mirip. Perbedaan hanya terletak pada

mungkin tidak valid untuk beberapa data dan valid untuk gabungan fitur, yaitu terdapat satu fitur dari fitur perilaku sosial

beberapa data. Selain itu, hal ini juga mempersulit penentuan yang turut membentuk model pembelajarannya.

model pembelajaran yang terbaik apabila didasarkan pada hasil pengujian.

Dari hasil seleksi fitur linguistik open-vocabulary ditemukan bahwa jumlah favourites mempengaruhi kepribadian O, rata-rata

penggunaan retweet mempengaruhi kepribadian C, dan jumlah friend mempengaruhi kepribadian A, hal ini sesuai dengan

4. HASIL DAN PEMBAHASAN

model pembelajaran yang lolos seleksi fitur adalah jumlah favourites, fraksi retweet,

definisi dan hasil analisis kepribadian A. Fitur perilaku sosial

menggunakan fitur perilaku sosial (PS), model fitur linguistik closed-vocabulary (LC), model fitur linguistik open-vocabulary

dan jumlah friend. Selain fitur-fitur tersebut, fitur perilaku sosial tidak digunakan untuk memprediksi kepribadian pada model

unigram (LOuni) dan bigram (LObi), model gabungan fitur pembelajaran gabungan fitur. Dengan demikian berdasarkan data closed-vocabulary (GC), dan model gabungan fitur open- vocabulary unigram (GOuni) dan bigram (GObi). Tabel 7

yang digunakan pada penelitian ini dapat disimpulkan bahwa fitur

menampilkan hasil dari eksperimen.

Tabel 7. Hasil eksperimen terhadap kombinasi fitur serta perolehan eror (MAE) dan korelasi ( r)

No Model O C E A N r

Tweet pengguna 1, yang mendapatkan hasil pengujian dominan Berdasarkan hasil eksperimen yang diperoleh, dari seluruh model

kepribadian A, bernuansa positif ditunjukkan dengan banyaknya yang dibangun kepribadian O memiliki korelasi paling positif

penggunaan token laughter. Contoh tweet pengguna 1 misalnya dengan model GObi. Kepribadian C memiliki korelasi paling

adalah ‘haha apeu banget, masak puding busa tapi positif dengan model GOuni. Kepribadian E memiliki korelasi

penampilannya kayak brownies bakar amanda HAHAHAHA ’,’ paling positif dengan model GObi. Kepribadian A memiliki

indah banget pagi ini. cerah, sejuk, tenang, ada suara burung2 ’. korelasi paling positif dengan model LObi. Yang terakhir

kepribadian N memiliki korelasi paling positif dengan model GObi.

Tabel 8. Hasil pengujian model pembelajaran menggunakan gabungan fitur bigram

Secara keseluruhan semua model yang memiliki korelasi positif

dengan setiap kepribadian adalah model yang dibangun dengan Hasil pengujian pendekatan open-vocabulary dibandingkan pendekatan closed-

Data

Pelabelan

vocabulary dengan nilai korelasi yang berbeda sangat jauh.

Penelitian sebelumnya memang telah menunjukkan bahwa

pendekatan open-vocabulary menunjukkan hasil yang lebih

memuaskan dibandingkan dengan pendekatan closed-vocabulary,

namun bukan berarti pendekatan closed-vocabulary akan

menghasilkan hasil yang sangat jelek. Hasil yang tidak cukup baik

dari eksperimen ini mungkin disebabkan kurangnya kata-kata di

dalam kamus kategori yang dibangun.

10 A O

Tabel 8 menampilkan perbandingan antara rangkuman pelabelan

dan hasil pengujian yang diperoleh menggunakan model Gobi. Pada tweet pengguna 3, yang mendapatkan hasil pengujian berupa Kepribadian A yang ditunjukkan oleh hasil pengujian memiliki

dominan kepribadian O, banyak ditemukan token numbers dan jumlah friend yang tergolong tinggi berdasarkan pada data

URL yang dianalisis sebagai sarana untuk memberikan informasi pembelajaran, yaitu berkisar pada 300-400 orang.

tambahan pada pengguna lain yang membaca tweet-nya. Beberapa contoh tweet dari pengguna 3 adalah ‘My Wet n Wild Megalast Matte Lipstick in "Just Peachy". Gw beli harga 58rb di

20 Agnes Theresia Damanik, Masayu Leylia Khodra

Tokopedia, nama tokonya… http://t.co/w62f77ZFQF’,’ "You (Ed.), Review of Personality and Social Psychology: Vol.2 (pp. can't lose what you never had." Yes, I agree. It'd (perhaps) better

141-165). Beverly Hills, CA: Sage.

to

be just friends

Gosling, S.D. (2007). Personality Impressions based on Facebook https://t.co/yfZCC0aK3Y ’, dan ‘I use Pure Skin facial wash! Mau harga

lebih mura h??? Profiles. #oriflame #oriflamemurah…

http://t.co/hZBAvgx5MX ’. Hearst, Marti A. (1998). Trends and Controversies Support Vector Machines. IEEE Intelligent Systems.

Pengguna 7 memperoleh hasil pengujian berupa dominan kepribadian E. Tweet pengguna menunjukkan sifat ekstraversi

Hogan, R., Curphy, G. J., & Hogan, J. (1994). What we know yang berfokus pada dunia luar dan pengalaman diri sendiri.

about leadership: Effectiveness and personality. American Beberapa contoh tweet-nya ad alah ‘baru sadar hari ini ada UN!

Psychologist, 49 (6), 493 –504.

semangat buat semuanya, sukses yaaak semoga bs ngerjain http://www.careerbuilder.co.id diakses tanggal 12 November dengan baik :") ’,’ dan baru menyadari kalau pipi saya terlalu

pukul 03.26 WIB.

tembem belakangan ini T_T ’, dan ‘aku kangen donut yg biasa mama masak sore2

’. Iacobelli, F., Gill, AJ., Nowson, S., Oberlander, J. (2011). Large scale personality classification of bloggers. Affective Computing and Intelligent Interaction.

5. KESIMPULAN DAN SARAN John, O. P., Donahue, E. M., & Kentle, R. L. (1991). The Big

Five Inventory--Versions 4a and 54. Berkeley, CA: University of Berdasarkan analisis, implementasi, eksperimen, dan pengujian

California, Berkeley, Institute of Personality and Social Research. yang telah dilakukan, kesimpulan yang dapat ditarik adalah secara

keseluruhan untuk dataset eksperimen penelitian ini, kepribadian Komarraju, M., & Karau, S. J. (2005). The relationship between Big 5 pengguna Twitter dapat diprediksi dengan baik

the Big Five personality traits and academic motivation. menggunakan model gabungan fitur perilaku sosial dan fitur

Personality and Individual Differences, 39, 557 –567. linguistik dengan metode open-vocabulary bigram. Selain itu

Mairesse, François., Marilyn A. Walker, Matthias R. Mehl, & dapat disimpulkan pula bahwa fitur linguistik lebih dapat

Roger K. Moore. (2007). Using Linguistic Cues for the Automatic mengenali kepribadian pengguna dibandingkan dengan fitur

Recognition of Personality in Conversation and Text. Journal of perilaku sosial. Perlu diingat bahwa hasil prediksi bergantung

Artificial Intelligence Research, 30, 457-500 pada eksperimen yang dilakukan sehingga penelitian lain yang

sejenis dapat menghasilkan hasil akhir yang berbeda sesuai Mehl, M. R., Gosling, S. D., & Pennebaker, J. W. (2006). dengan parameter eksperimen yang digunakan.

Personality in its natural habitat: Manifestations and implicit folk theories of personality in daily life. Journal of Personality and

Saran untuk pengembangan penelitian ini di kemudian hari adalah

Social Psychology, 90, 862 –877.

bahwa untuk menggunakan

Newman, M. L., Pennebaker, J. W., Berry, D. S., & Richards, J. pembangunan kamus kata perlu melibatkan pakar di bidang

metode

closed-vocabulary ,

M. (2003). Lying words: Predicting deception from linguistic linguistik, khususnya bahasa Indonesia dan bahasa Inggris. Selain

style. Personality and Social Psychology Bulletin, 29, 665 itu waktu pembangunannya dapat diperpanjang sehingga lebih

–675 banyak kosakata yang dicakup. Selain itu saran untuk

Pennebaker, J. W., & King, L. A. (1999). Linguistic styles: mendapatkan pelabelan data yang lebih baik adalah pengumpulan

Language use as an individual difference. Journal of Personality data kuesioner yang digunakan sebagai pelabelan sebaiknya

and Social Psychology, 77, 1296 –1312. dilakukan secara kolektif di bawah arahan pakar.

Riggio, R. E., Salinas, C., & Tucker, J. (1988). Personality and deception ability. Personality and Individual Differences, 9 (1),

6. REFERENSI

Smith, B. L., Brown, B. L., Strong, W. J., & Rencher, A. C. Atkinson, Rita, L., Richard C. Atkinson, Edward E. Smith, Daryl

(1975). Effects of speech rate on personality perception. Language J. Bem, & Susan Nolen-Hoeksema. (2000). Hilgard's Introduction

and Speech, 18, 145 –152.

to Psychology (13th ed.). Orlando, Florida: Harcourt College Publishers. p. 437.

Schacter, Gilbert, Wegner. (2011). Psychology (2nd ed.). Worth. pp. 474 –475.

Costa, P.T.,Jr., & McCrae, R.R. (1992). Revised NEO Personality Scherer, K. R. (2003). Vocal communication of emotion: A Inventory (NEO-PI-R) and NEO Five-Factor Inventory (NEO-

FFI) manual. Odessa, FL: Psychological Assessment Resources. review of research paradigms. Speech Communication, 40 (1-2), 227 –256.

Furnham, A., Jackson, C. J., & Miller, T. (1999). Personality, Schwartz, HA., Eichstaedt, JC., Kern, ML., Dziurzynski, L., Learning Style and Work Performance. Personality and Individual

Differences, 27, 1113-1122. Ramones, SM. (2013). Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach.

Furnham, A., & Mitchell, J. (1991). Personality, Needs, social PLoS ONE 8(9): e73791. doi:10.1371/journal.pone.0073791 skills and academic achieve-ment: A longitudinal study. Personality and Individual Differences, 12, 1067

–1073. Wald, Randall., Taghi Khoshgoftaar, & Chris Sumner. (2012). Machine Prediction of Personality from Facebook Profiles. IRI, Golbeck, Jennifer., Cristina Robles, & Karen Turner. (2011).

page 109-115. IEEE.

Predicting Personality with Social Media. CHI 2011, May 7-12, 2011, Vancouver, BC, Canada.

Watson, D., & Clark, L. A. (1992). On traits and temperament: General and specific factors of emotional experience and their

Goldberg, L. R. (1981). Language and Individual Differences: relation to the five factor model. Journal of Personality, 60 (2), The Search for Universals in Personality Lexicons. In L. Wheeler

Jurnal Cybermatika | Vol. 3 No. 1 | Juni 2015 | Artikel 3 21

Yarkoni, Tal. (2010). Personality in 100.000 Words: A large scale analysis of personality and word use among bloggers. J Res Pers, 2010 June 1; 44(3), 363-373.

Yu, Sheng. & Subhash Kak. (2012). A Survey of Prediction Using Social Media. CoRR abs/1203.1647.

22 Agnes Theresia Damanik, Masayu Leylia Khodra