DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI TWEET-BASED FEATURES.

perpustakaan.uns.ac.id

digilib.uns.ac.id

DETEKSI SPAMMER DI TWITTER
DENGAN MEMPELAJARI TWEET-BASED FEATURES
SKRIPSI
Diajukan untuk memenuhi sebagian persyaratan mendapatkan
gelar Strata Satu
Jurusan Informatika

disusun oleh:

YULIA WARDHANI
M0508012

JURUSAN INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2012

commit to user

perpustakaan.uns.ac.id

digilib.uns.ac.id

commit to user

ii

perpustakaan.uns.ac.id

digilib.uns.ac.id

MOTTO

”If you have God on your side, everything becomes clear.”
(Ayrton Senna )
“True heroism is minutes, hours, weeks, year upon year of the quiet, precise, judicious
exercise of probity and care—with no one there to see or cheer. This is the world.”

(David Foster Wallace, The Pale King)
“Mengalah bukan berarti kalah, hanya orang-orang besarlah yang berani mengalah untuk
mencapai kemenangan yang hakiki.”
(Ali Bin Abi Thalib)

commit to user

iii

perpustakaan.uns.ac.id

digilib.uns.ac.id

PERSEMBAHAN

Untuk Ibu, Bapak,dan Kakak-kakakku...

commit to user

iv


perpustakaan.uns.ac.id

digilib.uns.ac.id

KATA PENGANTAR

Puji syukur penulis ucapkan pada Allah SWT, yang telah membimbing dan
menemani penulis hingga dapat menyelesaikan skripsi yang berjudul ”Deteksi
Spammer di Twitter dengan mempelajari Tweet-Based Features” yang disusun

sebagai persyaratan mendapatkan gelar Starata Satu jurusan Informatika Universitas
Sebelas Maret.
Penyusunan skripsi ini juga tak lepas dari bimbingan dan bantuan yang tidak ada
habisnya dari segenap pihak. Untuk itu perkenankan penulis mengucapkan
terimakasih yang sebesar-besarnya kepada:
1. Bapak dan Ibu di rumah, atas dukungan, doa restu, dan kepercayaan yang telah
diberikan selama ini,
2. Ibu Dewi Wisnu Wardani, S. Kom, M. S, selaku dosen pembimbing I yang
selalu mengarahkan penulis ke arah yang benar dan selalu menimbulkan sikap

optimis pada penulis akan selesainya skripsi ini,
3. Bapak Didiek S. Wiyono, S. T, M. T, selaku dosen pembimbing II yang selalu
membimbing dan memberikan ide maupun koreksi pada penulis sehingga
mampu mewujudkan skripsi ini,
4. Ibu Sari Widya Sihwi, S. Kom, M. TI, selaku penguji I dan Bapak Meiyanto
Eko Sulistyo, S. T, M. Eng, selaku penguji II yang telah meluangkan waktunya
dan memberikan saran untuk perbaikan skripsi ini,
5. Ibu Umi Salamah, S. Si, M. Kom, selaku pembimbing akademik, yang selalu
memberikan dorongan semangat dan bimbingannya.
6. Kakak-kakakku, @playgroundpilot khususnya, untuk doa, dorongan, bantuan
yang tiada henti.
7. Teman-teman,

@ndrer

atas

mottonya,

@christinethuel,


@rikybagoes,

@agathariyadi, @ifantraadindo, bintang7, tbcfamily, dan teman-teman
informatika UNS atas dukungan tiada henti.
commit to user

v

perpustakaan.uns.ac.id

digilib.uns.ac.id

8. Semua pihak yang turut terlibat baik secara langsung maupun tidak langsung
dalam penulisan skripsi ini yang tidak dapat disebutkan satu persatu,
terimakasih banyak atas semua bantuannya.
Semoga Allah SWT membalas budi baik semua pihak yang telah membantu dalam
penulisan skripsi ini, Amin ya robbal ’alamin. Penulis menyadari bahwa kemampuan
dan pengalaman penulis masih sangat terbatas. Akan tetapi penulis berharap skripsi ini
dapat bermanfaat bagi semua pihak.


Penulis

commit to user

vi

perpustakaan.uns.ac.id

digilib.uns.ac.id

DETEKSI SPAMMER DI TWITTER
DENGAN MEMPELAJARI TWEET-BASED FEATURES

Yulia Wardhani
Jurusan Informatika. Fakultas Matematika dan Ilmu Pengetahuan Alam.
Universitas Sebelas Maret

ABSTRAK
Spam merupakan penyalahgunaan dalam pengiriman berita dari jaringan

komunikasi dan memiliki berbagai bentuk dan definisi yang berbeda tergantung pada
jenis jaringannya. Dengan jutaan pengguna di seluruh dunia, Twitter menyediakan
berbagai berita dan peristiwa yang terjadi. Namun, dengan adanya kemudahan dalam
penyebaran berita dan memungkinkan pengguna untuk membahas berita tersebut
dalam status mereka, layanan ini juga membuka peluang terbentuknya spam.
Pada penelitian ini dilakukan deteksi spammer untuk mengklasifikasikan akun ke
dalam spammer atau nonspammer dengan mempelajari tweet-based features (jumlah
follower, following, URL, @mention dan #hashtag).
Hasil penelitian menunjukkan bahwa algoritma yang dibangun mempunyai
kesalahan (error) lebih sedikit dibanding dengan algoritma pembandingnya (algoritma
C5.0), yaitu sebesar 11% untuk dataset 1, 14% untuk dataset 2, dan 6,3% untuk
dataset 3. Ketelitian mengklasifikasikan sebesar 87,8% untuk dataset 1, 82,35% untuk
dataset 2, dan 92,10% untuk dataset 3. Keakurasian sebesar 89% untuk dataset 1, 86%
untuk dataset 2, dan 93,67% untuk dataset 3.

Kata Kunci: Algoritma C5.0, Deteksi Spammer, Tweet-based Features, Twitter.

commit to user

vii


perpustakaan.uns.ac.id

digilib.uns.ac.id

DETECTING SPAMMERS ON TWITER
BY IDENTIFYING TWEET-BASED FEATURES

Yulia Wardhani
Department of Informatics. Mathematic and Science Faculty.
Sebelas Maret University

ABSTRACT
Spam is the abuse in the delivery of news and communication networks. It has
different shapes and different definitions depending on the type of network. With
millions of users worldwide, Twitter provides a variety of news and events. However,
with the ease of dissemination of news, and allow users to discuss the stories in their
status, these services also open opportunities for another kind of spam.
In this study, spammer detection algorithm is applied to classify accounts into a
spammer or non spammer by identifying tweet-based features (number of followers,

followings, URLs, @mentions and #hashtags).
The results showed that the algorithm has constructed an error 11% (dataset 1),
14% (dataset 2), 6,3% (dataset 3) is less than the comparison algorithm (C5.0
algorithm),

achieve 87.8% precision (dataset 1), 82,35% precision (dataset 2),

92,10% precision (dataset 3) and 89% accuracy (dataset 1), 86% accuracy (dataset 2),
93,67% accuracy (dataset 3).

Keywords: C.50 Algorithm, Spammer Detection, Tweet-based Features, Twitter.

commit to user

viii

perpustakaan.uns.ac.id

digilib.uns.ac.id


DAFTAR ISI
Halaman
HALAMAN JUDUL..............................................................................................

i

HALAMAN PENGESAHAN ................................................................................

ii

HALAMAN MOTTO ............................................................................................

iii

HALAMAN PERSEMBAHAN.............................................................................

iv

KATA PENGANTAR ...........................................................................................


v

ABSTRAK .............................................................................................................

vii

ABSTRACT ...........................................................................................................

viii

DAFTAR ISI ..........................................................................................................

ix

DAFTAR GAMBAR .............................................................................................

xi

DAFTAR TABEL ..................................................................................................

xii

DAFTAR LAMPIRAN ..........................................................................................

xiii

BAB I

1

PENDAHULUAN ..................................................................................

1.1

Latar Belakang Masalah........................................................

1

1.2

Perumusan Masalah...............................................................

2

1.3

Batasan Masalah...................................................................

2

1.4

Tujuan dan Manfaat Penelitian.............................................

3

1.4.1

Tujuan Penelitian.......................................................

3

1.4.2

Manfaat Penelitian.....................................................

3

Sistematika Penulisan............................................................

3

BAB II LANDASAN TEORI.............................................................................. .

5

2.1 Dasar Teori................................................................................

5

2.1.1. Microbloging..................................................................

5

2.1.1.1 Twitter................................................................

5

2.1.1.2 Twitter API.........................................................

6

2.1.2 Spam...............................................................................

6

2.1.2.1 Spam di Twitter ..................................................

7

2.1.3. Metode Pendeteksian Spammer di Twitter.....................

8

2.1.3.1 Web Crawler .......................................................

8

2.1.3.2 Pemilihan Fitur untuk Pendeteksian Spammer ...
commit
to user
2.1.3.3 Decision Tree
....................................................

9

1.5

ix

10

perpustakaan.uns.ac.id

digilib.uns.ac.id

2.1.3.3.1

Algoritma C5.0 .................................

10

2.1.4. Evaluasi….....................................................................

11

2.2 Penelitian Terkait…….............................................................

12

2.2.1. Detecting Spammers on Twitter ...................................

12

2.2.2. Mutually Reinforcing Spam Detection on Twitter
and Web………………………………………………..

13

2.2.3. Detecting Spam Bots in Online Social Networking
Sites: A Machine Learning Approach ...........................

14

2.3 Rencana Penelitian ……..........................................................

15

BAB III METODE PENELITIAN .......................................................................

16

3.1 Kerangka Pemikiran….............................................................

16

3.1.1

Studi Pustaka............................................................

16

3.1.2

Perancangan Web Crawler ........................................

16

3.1.3

Pengumpulan Data....................................................

17

3.1.4

Eksperimen…............................................................

17

3.1.5

Evaluasi.....................................................................

19

BAB IV HASIL DAN PEMBAHASAN. .............................................................

20

4.1 Perancangan Web Crawler ........................................……........

20

4.2 Pengumpulan Data…………………………………..……......

24

4.3 Eksperimen…………………………………………...…….....

25

4.3.1 Anotasi Data……..........................................................

25

4.3.2 Proses Pendeteksian.......................................................

26

4.3.2.1 Algoritma Pendeteksian Spammer…………….

26

4.3.2.2 Algoritma C5.0………………………………..

28

Features Importance Analysis…….….

28

4.4 Evaluasi….…………………………………………...…….....

32

4.3.2.2.1

BAB V KESIMPULAN DAN SARAN ..............................................................

35

5.1 Kesimpulan……......................................................................

35

5.2 Saran……................................................................................

35

DAFTAR PUSTAKA ............................................................................................

37

LAMPIRAN ...........................................................................................................
commit to user

39

x

perpustakaan.uns.ac.id

digilib.uns.ac.id

DAFTAR GAMBAR
Halaman
Gambar 2.1 Klasifikasi sebagai pemetaan sebuah atribut input x

ke dalam label kelas........................................................................

10

Gambar 2.2 Confusion Matrix................................................................................

12

Gambar 2.3 Twitter Graph.. ...................................................................................

14

Gambar 3.1 Kerangka Pemikiran Penelitian ..........................................................

16

Gambar 3.2 Gambaran umum sistem deteksi spam di Twitter ..............................

17

Gambar 4.1 Interface aplikasi web-based untuk labeling data .......................

26

Gambar 4.2 Grafik distribusi berdasar ishashtag ..............................................

27

Gambar 4.3 Grafik distribusi berdasar ismention .............................................

27

Gambar 4.4 Grafik distribusi berdasar URL......................................................

28

Gambar 4.5 Grafik distribusi berdasar friend ....................................................

28

Gambar 4.6 Hasil Klasifikasi dengan algoritma C5 menggunakan

weka classifier dalam bentuk decision tree .................................

commit to user

xi

31

perpustakaan.uns.ac.id

digilib.uns.ac.id

DAFTAR TABEL
Halaman
Tabel 4.1 Keterangan atribut Friends, Isurl,

Ismention, Ishashtag .......................................................................... 25
Tabel 4.2 Contoh instances dengan atribut terpilih .......................................... 25
Tabel 4.3 Contoh data dengan kelas spammer dan nonspammer berdasar

atribut Ishashtag ................................................................................. 29
Tabel 4.4 Confusion Matrix: Deteksi spammer dengan menggunakan

algoritma pendeteksi spammer (Data testing 1, 100 records) ..... 32
Tabel 4.5 Confusion Matrix: Deteksi spammer dengan menggunakan

algoritma pendeteksi spammer (Data testing 2, 150 records)..... 32
Tabel 4.6 Confusion Matrix: Deteksi spammer dengan menggunakan
algoritma pendeteksi spammer (Data testing 3, 300 records) ..... 32
Tabel 4.7 Confusion Matrix: Deteksi spammer dengan menggunakan

algoritma C5.0 (Data testing 1, 100 records) ................................ 33
Tabel 4.8 Confusion Matrix: Deteksi spammer dengan menggunakan

algoritma C5.0 (Data testing 2, 150 records) .............................. 33
Tabel 4.9 Confusion Matrix: Deteksi spammer dengan menggunakan
algoritma C5.0 (Data testing 3, 300 records) ................................ 33
Tabel 4.10 Persentase hasil klasifikasi berdasarkan alat ukur evaluasi
confussion matrix............................................................................... 34

commit to user

xii

perpustakaan.uns.ac.id

digilib.uns.ac.id

DAFTAR LAMPIRAN
Halaman

Hasil Klasifikasi: Algoritma Pendeteksian Spammer (data testing 1)……. 38
Hasil Klasifikasi: Algoritma Pendeteksian Spammer (data testing 2).......... 40
Hasil Klasifikasi: Algoritma Pendeteksian Spammer (data testing 3).......... 44
Hasil Klasifikasi: Algoritma C5.0 (data testing 1) .......................................... 51
Hasil Klasifikasi: Algoritma C5.0 (data testing 2) .......................................... 54
Hasil Klasifikasi: Algoritma C5.0 (data testing 3) .......................................... 58

commit to user

xiii

perpustakaan.uns.ac.id

digilib.uns.ac.id

commit to user