Klasifikasi Spammer Pada Twitter Berdasarkan Perilaku Pengguna Menggunakan Algoritme C5.0.

KLASIFIKASI SPAMMER PADA TWITTER BERDASARKAN
PERILAKU PENGGUNA MENGGUNAKAN
ALGORITME C5.0

TANTRIYANA PUSPA ANGGITASARI

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2016

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Spammer
pada Twitter Berdasarkan Perilaku Pengguna Menggunakan Algoritme C5.0
adalah benar karya saya dengan arahan dari komisi pembimbing dan belum
diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Januari 2016
Tantriyana Puspa Anggitasari
NIM G64134036

ABSTRAK
TANTRIYANA PUSPA ANGGITASARI. Klasifikasi Spammer pada Twitter
Berdasarkan Perilaku Pengguna Menggunakan Algoritme C5.0. Dibimbing oleh
IMAS SUKAESIH SITANGGANG dan HUSNUL KHOTIMAH.
Twitter menjadi salah satu media sosial yang populer di dunia maya. Twitter
dapat dijadikan sarana penyebaran informasi dalam status pengguna, hal ini
membuka peluang bagi beberapa pihak untuk menyebarkan spam. Penelitian ini
bertujuan untuk mengidentifikasi karakteristik perilaku spammer di Twitter.
Penelitian ini difokuskan terhadap perilaku pengguna bukan pada isi konten tweet
pada Twitter. Algoritme klasifikasi yang digunakan adalah algoritme C5.0 yang
menghasilkan model klasifikasi pohon keputusan dan berbasis aturan. Klasifikasi
dilakukan dengan data Twitter pada periode Januari 2015–Agustus 2015.
Penelitian ini menggunakan 11 atribut yang menunjukan perilaku pengguna
Twitter. Klasifikasi spammer menggunakan algoritme C5.0 telah berhasil

dilakukan. Untuk model berbasis pohon keputusan menghasilkan 4 aturan dengan
akurasi 91%, sedangkan model berbasis aturan menghasilkan 3 buah aturan
dengan akurasi 91%. Atribut yang muncul pada aturan pohon keputusan dan
berbasis aturan adalah usia akun dan rataan tweet per hari.
Kata kunci: C5.0, klasifikasi spammer, perilaku spammer, spammer, Twitter

ABSTRACT
TANTRIYANA PUSPA ANGGITASARI. Classification of Spammers on the
Twitter Based on User Behaviour using C5.0 Algorithm. Supervised by IMAS
SUKAESIH SITANGGANG and HUSNUL KHOTIMAH.
Twitter has became one of the most popular social media in the internet.
Twitter could be used as a facility to spread message in the form of user status.
This situation opens the chance for some people to spread spam. The purpose of
this research is to identify the spammer‟s behaviors on Twitter. This research
focused on user‟s behavior rather than the tweet content of Twitter. The
classification algorithm used is C5.0 that produces tree-based classification model
and rule based model. Classification was performed on the Twitter data in the
period of January 2015–August 2015. This research used 11 attributes that
indicate user‟s behavior. Spammer classification that uses the C5.0 algorithm was
successfully performed. Decision tree based models produce 4 classification rules

with accuracy 91%, whereas the rule based model produce 3 classification rules
with accuracy 91%. The attributes that appeared on the tree and the rule based
model are user‟s age and average tweet per day.
Keywords: behavior of spammers, C5.0, spammer classification, spammer,
Twitter

KLASIFIKASI SPAMMER PADA TWITTER BERDASARKAN
PERILAKU PENGGUNA MENGGUNAKAN
ALGORITME C5.0

TANTRIYANA PUSPA ANGGITASARI

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR
BOGOR
2016

Penguji:
1. Muhammad Asyhar Agmalaro, SSi, MKom

Judul Skripsi : Klasifikasi Spammer pada Twitter Berdasarkan Perilaku Pengguna
Menggunakan Algoritme C5.0
Nama
: Tantriyana Puspa Anggitasari
NIM
: G64134036

Disetujui oleh

Dr Imas Sukaesih Sitanggang, SSi, MKom
Pembimbing I

Husnul Khotimah, SKomp, MKom

Pembimbing II

Diketahui oleh

Dr Ir Agus Buono, MSi, MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul
“Klasifikasi Spammer pada Twitter Berdasarkan Perilaku Pengguna
Menggunakan Algoritme C5.0”.
Skripsi ini disusun sebagai syarat mendapatkan gelar Sarjana Komputer
(SKomp) pada Program Sarjana Ilmu Komputer di Fakultas Matematika dan Ilmu
Pengetahuan Alam Institut Pertanian Bogor (IPB). Penulis menyadari bahwa
selama mengerjakan tugas akhir ini mengalami berbagai kendala. Akan tetapi
berkat kerja sama dan bimbingan dari berbagai pihak dan atas berkat rahmat Allah
subhanahu wa ta’ala kendala yang dihadapi dapat diselesaikan dengan baik.

Untuk itu penulis ucapkan terima kasih kepada mamah, papah, serta seluruh
keluarga atas segala dukungan, doa dan kasih sayangnya. Penulis juga ucapkan
terima kasih kepada Ibu Dr Imas Sukaesih Sitanggang, SSi, MKom dan Ibu
Husnul Khotimah, SKomp, MKom selaku pembimbing yang telah sabar, tulus,
dan ikhlas meluangkan waktu, tenaga, dan pikiran dalam memberikan bimbingan,
motivasi, arahan dan saran yang bermanfaat bagi penulis. Penulis juga ucapkan
terima kasih kepada Bapak Muhammad Asyhar Agmalaro, SSi, MKom selaku
penguji atas saran dan masukan yang diberikan. Begitu pula rasa terima kasih
penulis kepada rekan-rekan Program Alih Jenis angkatan 8 yang menjadi bagian
hidup penulis selama menempuh pendidikan di Program Alih Jenis Ilmu
Komputer FMIPA IPB.
Semoga karya ilmiah ini bermanfaat.

Bogor, Januari 2016
Tantriyana Puspa Anggitasari

DAFTAR ISI
DAFTAR TABEL

ix


DAFTAR GAMBAR

ix

DAFTAR LAMPIRAN

ix

PENDAHULUAN

1

Latar Belakang

1

Perumusan Masalah

2


Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2

TINJAUAN PUSTAKA

3

Microblogging

3


Twitter

3

Spammer Detection

3

Algoritme C5.0

4

METODE

5

Tahapan Penelitian

5


Pengumpulan Data

6

Praproses Data

6

Pembangunan Model Klasifikasi menggunakan Algoritme C5.0

7

Perhitungan Akurasi

7

Analisis dan Evaluasi Model Klasifikasi

8


Lingkungan Pengembangan

8

HASIL DAN PEMBAHASAN

8

Pengumpulan Data

8

Praproses Data

10

Pembuatan Model Klasifikasi menggunakan Algoritme C5.0

14

Karakteristik Spammer

15

Analisis dan Evaluasi Model Klasifikasi

17

SIMPULAN DAN SARAN
Simpulan

18
18

Saran

18

DAFTAR PUSTAKA

18

RIWAYAT HIDUP

29

DAFTAR TABEL
1
2
3
4
5
6
7

Confusion matrix hasil klasifikasi
Hasil seleksi pada fungsi getUser
Contoh beberapa dataset pada fungsi userTimeline
Hasil seleksi pada fungsi userTimeline
Hasil penggabungan fungsi getUser dan userTimeline
Penggunaan atribut dalam model klasifikasi
Confusion matrix untuk model deteksi spammer

7
11
11
11
12
15
17

DAFTAR GAMBAR
1
2
3
4
5
6

Tahapan penelitian
Tahapan praproses data
Tampilan aplikasi pengelolaan pada Twitter
Model pohon keputusan untuk klasifikasi spammer dan nonspammer
Sebaran usia akun
Sebaran rataan tweet per hari

6
6
9
15
16
17

DAFTAR LAMPIRAN
1 Fungsi pada package twitteR yang digunakan pada penelitian
2 Dataset sebanyak 120 akun Twitter yang digunakan pada penelitian
3 Contoh penggunaan algoritme C5.0
4 Visualisasi sebaran data 9 atribut yang tidak muncul pada tree

20
21
23
26

PENDAHULUAN
Latar Belakang
Twitter merupakan sebuah situs microblogging yang populer (Hu et al.
2013). Twitter menjadi salah satu media sosial yang populer di Indonesia.
Kemenkominfo (2013) menyatakan bahwa pengguna Internet di Indonesia
mencapai 63 juta orang, 95% di antaranya mengakses media sosial. Indonesia
menempati peringkat ke-5 untuk pengguna terbanyak Twitter. Twitter digandrungi
oleh semua usia mulai dari remaja hingga dewasa. Twitter dapat mengirimkan
pesan pendek dengan jumlah karakter maksimal 140 karakter. Pesan tersebut biasa
disebut dengan tweet. Twitter dikategorikan sebagai microblogging service.
Microblogging merupakan blog yang memungkinkan penggunanya untuk
mengirimkan sebuah pesan teks (status) yang singkat, baik untuk dilihat semua
orang atau kelompok terbatas yang dipilih oleh pengguna tersebut.
Twitter menyediakan informasi begitu besar. Ada banyak informasi dalam
Twitter yang sifatnya up to date dan informasi tersebut sangat bermanfaat bagi
sebagian orang. Namun, meskipun menarik dengan adanya kemudahan dalam
penyebaran berita dan memungkinkan pengguna untuk membahas berita tersebut
dalam status mereka, layanan ini juga membuka peluang adanya spam
(Benevenuto et al. 2010).
Penelitian deteksi spammer pada Twitter dapat dilakukan 2 cara yaitu
berdasarkan perilaku pengguna dan berdasarkan konten isi dari tweet. Penelitian
yang menyajikan deteksi spammer berdasarkan konten terdapat pada penelitian
Ghosh et al. (2012) mengenai fungsi search pada Twitter yang memudahkan
pencarian trending topic dan berita terkini yang menarik perhatian spammer.
Tweet spammer biasanya mendorong pengguna untuk menyebarkan informasi
dengan cara mengirim tautan URL dengan tujuan agar pengguna Twitter
mengunjungi URL (Song et al. 2011) selain itu spammer juga melakukan banyak
mention ke akun non followers. Hasil penelitian Grier et al. (2011) juga
menyebutkan bahwa Twitter spam lebih berhasil memaksa pengguna untuk
mengklik URL dibanding email spam dengan rasio klik 0.13%. Perkembangan
spamming tidak terhenti hanya mengirimkan tweet sampah, tetapi sudah menjurus
ke arah penipuan. Spam yang terkirim kepada pengguna dapat menimbulkan
ketidaknyamanan bagi penerimanya. Hal ini dapat diantisipasi dengan mendeteksi
akun yang merupakan spammer.
Benevenuto et al. (2010) telah melakukan deteksi spammer berdasarkan
perilaku pengguna dan konten atribut dengan menggunakan algoritme Support
Vector Machine. Penelitian tersebut fokus terhadap pendeteksian spammer pada
tweets yang termasuk spam. Data yang digunakan dalam penelitian ini adalah
tweets yang mengemukakan trending topic pada tahun 2009, yaitu Michael
Jakcson‟ death, Susan Boyle‟s emergence, dan #musicmonday. Atribut yang
digunakan dalam penelitian ini meliputi 39 atribut berupa konten tweets dan 23
atribut tentang perilaku user. Pada penelitian ini, berhasil mengenal kelas spammer
sebesar 70% dan 96% kelas nonspammer. Penelitian ini berfokus pada klasifikasi
spammer berdasarkan perilaku pengguna bukan pada isi konten tweet pada Twitter.
Karena dalam melakukan penyeleksian berdasarkan perilaku pengguna lebih

2
mudah dan lebih cepat dibandingkan penyeleksian berdasarkan konten atribut.
Penyeleksian berdasarkan konten atribut perlu memperhatikan satu per satu kata
dalam teks yang di posting oleh user, sedangkan penyeleksian berdasarkan perilaku
hanya melihat sifat dari user seperti jumlah followers, jumlah following, jumlah
tweet, rasio followers per following, usia akun pengguna, rataan tweet per hari,
jumlah reply, rataan, median, minimum, dan maksimum selang waktu antara tweet.
Model klasifikasi dibangun dengan menggunakan bahasa R dengan package C50.
Algoritme C5.0 adalah salah satu algoritme data untuk melakukan klasifikasi
dengan pemodelan pohon keputusan (decision tree) dan pemodelan berbasis aturan
(rule based). Model klasifikasi ini diharapkan dapat memberikan informasi
karakteristik perilaku pengguna spammer dan nonspammer.
Perumusan Masalah
Perumusan masalah dalam penelitian ini adalah:
1 Bagaimana mengklasifikasikan spammer atau nonspammer pada Twitter
degan menggunakan algoritme C5.0?
2 Bagaimana karakteristik perilaku spammer pada akun Twitter?
Tujuan Penelitian
Tujuan penelitian ini adalah:
1 Membuat model klasifikasi perilaku akun spammer atau nonspammer di
Twitter menggunakan metode pohon keputusan dan berbasis aturan.
2 Menentukan karakteristik perilaku spammer berdasarkan pemodelan algoritme
C5.0.
Manfaat Penelitian
Penelitian ini bisa menghasilkan pemodelan klasifikasi spammer dan dapat
mengetahui karakteristik perilaku pengguna akun spammer atau nonspammer
pada Twitter.
Ruang Lingkup Penelitian
Ruang lingkup pada penelitian ini antara lain:
1 Penelitian ini dilakukan pada media sosial Twitter dengan jumlah 120 akun
Twitter.
2 Penelitian ini fokus terhadap perilaku user, bukan pada isi konten tweet pada
Twitter dan menggunakan 11 atribut yaitu jumlah followers, jumlah following,
jumlah tweet, rasio followers per following, usia akun pengguna, rataan tweet
per hari, jumlah reply, rataan, median, minimum, dan maksimum selang waktu
antara tweet.
3 Implementasi algoritme C5.0 yang tersedia pada R.

3

TINJAUAN PUSTAKA
Microblogging
Microblogging adalah salah satu jenis komunikasi. Pengguna dapat menulis
dan mempublikasikan status (kurang dari 200 karakter) yang dikirim melalui
instant messaging, email atau web (Java et al. 2007). Salah satu microblog yang
banyak dipakai oleh pengguna adalah Twitter. Situs web jejaringan sosial yang
memiliki fitur microblog selain Twitter adalah Facebook dan MySpace. Beberapa
layanan microblogging menawarkan fitur seperti pengaturan privasi untuk
mengontrol siapa saja yang dapat membaca microblog pengguna. Penelitian ini
hanya mengambil data yang bersifat publik.
Twitter
Twitter merupakan salah satu contoh microblogging yang banyak dipakai.
Pada Twitter, pengguna tidak hanya bisa membaca tweet tetapi pengguna bisa
memberi tautan tweet melalui antarmuka situs web, pesan singkat, atau melalui
aplikasi untuk perangkat lunak seluler. Twitter mengalami perkembangan yang
sangat pesat. Twitter dapat mengirimkan pesan pendek dengan jumlah karakter
maksimal 140 karakter untuk setiap tweet (Benevenuto et al. 2010).
Twitter menyediakan Application Programming Interface (API) yang
memudahkan setiap orang untuk mengambil data dari Twitter. Twitter API terdiri
dari dua komponen yang berbeda: REST dan SEARCH API. REST API
memungkinkan developer Twitter untuk mengakses data core Twitter (tweet,
timeline, user data). SEARCH API digunakan untuk membuat query tweet,
termasuk menyediakan informasi tentang trending topics (Wang 2010).
Spammer Detection
Spam adalah pesan atau email yang dikirimkan secara massal tanpa
dikehendaki oleh penerimanya. Arti dari “secara massal“ yaitu pesan yang
merupakan bagian dari sekumpulan pesan yang memiliki isi yang sama
(Spamhaus 2004). Tindakan menyebarkan spam disebut dengan spamming,
sedangkan orang yang melakukan spamming disebut spammer.
Drucker et al. (1999) mengartikan spam merupakan pesan yang tidak
diinginkan oleh penerimanya tanpa menyebutkan secara detail apa pesan tersebut
dikirimkan secara massal atau tidak. Fitur yang digunakan pada penelitian
Benevenuto et al. (2010) adalah jumlah followers, jumlah following, rasio
folowers per following, jumlah tweet, usia akun pengguna, jumlah mention, jumlah
tweet yang dibalas user, jumlah tweet user membalas seseorang, jumlah followers
yang di dalam following, jumlah tweet yang diterima following, jumlah tweet yang
di post per hari dan per minggu, nilai rataan jangka waktu antara tweet, nilai
median jangka waktu antara tweet, nilai minimum jangka waktu antara tweet, dan
nilai maksimum jangka waktu antara tweet.

4
Algoritme C5.0
Algoritme C5.0 merupakan perluasan dari algoritme C4.5. Algoritme C5.0
adalah salah satu algoritme klasifikasi yang terdapat dalam data mining yang
khususnya diterapkan pada decision tree. C5.0 adalah algoritme klasifikasi yang
dapat menangani kumpulan data besar. Govindarajan (2007) menyatakan bahwa
algoritme C5.0 meningkatkan kecepatan sekitar 90% antara 5.7 sampai dengan
240 kali lebih cepat daripada C4.5. Algoritme C5.0 lebih baik daripada C4.5
dalam hal akurasi, kecepatan dan memori (Rulequest 2012). Menurut Patil et al.
(2012) pemilihan atribut dalam algoritme C5.0 diproses dengan menghitung
besarnya nilai information gain. Dalam memilih atribut untuk memecahkan objek
harus dipilih atribut yang menghasilkan information gain paling besar.
Model klasifikasi yang digunakan adalah pohon keputusan (decision tree)
dan berbasis aturan (rule based). Model pohon keputusan merupakan suatu
diagram yang mirip dengan struktur pohon seperti flowchart yang masing-masing
simpul merupakan atribut, masing-masing cabang menunjukan nilai dari atribut,
dan masing-masing simpul daun menunjukan label kelas. Pada model berbasis
aturan terdiri atas kondisi if-then yang merupakan penurunan dari model pohon
keputusan (Han et al. 2012).
Algoritme Generate_decision_tree adalah sebagai berikut:
1 D, merupakan dataset yang telah ditentukan label kelasnya.
2 Attribute_list, merupakan atribut kandidat yang menggambarkan suatu dataset.
3 Attribute_selection_method, merupakan suatu prosedur untuk memilih atribut
yang mengolah tuple yang diberikan berdasarkan kelas masing-masing.
Algoritme klasifikasi pohon keputusan adalah sebagai berikut (Han et al. 2012):
1 Buat simpul N.
2 Jika tuple di D memiliki kelas yang sama yaitu C maka jadikan N sebagai
simpul daun dan beri label C.
3 Jika attribute_list kosong, maka jadikan simpul N sebagai simpul daun dan
diberi label dengan kelas yang terbanyak.
4 Terapkan attribute_selection_attribute untuk mendapatkan atribut split yang
terbaik.
5 Beri label simpul N dengan atribut split.
6 Jika atribut split bernilai diskret dan dapat dipisahkan, maka
7 Attribute_list