DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI TWEET-BASED FEATURES

  

DETEKSI SPAMMER DI TWITTER

DENGAN MEMPELAJARI TWEET-BASED FEATURES

SKRIPSI

Diajukan untuk memenuhi sebagian persyaratan mendapatkan

gelar Strata Satu

Jurusan Informatika

disusun oleh:

  

YULIA WARDHANI M0508012

JURUSAN INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

2012 commit to user commit to user

MOTTO

  

commit to user

  ”If you have God on your side, everything becomes clear.” (Ayrton Senna )

“True heroism is minutes, hours, weeks, year upon year of the quiet, precise, judicious

exercise of probity and care

  —with no one there to see or cheer. This is the world.” (David Foster Wallace, The Pale King)

“Mengalah bukan berarti kalah, hanya orang-orang besarlah yang berani mengalah untuk

mencapai kemenangan yang hakiki.

   (Ali Bin Abi Thalib) commit to user PERSEMBAHAN Untuk Ibu, Bapak,dan Kakak-kakakku...

Puji syukur penulis ucapkan pada Allah SWT, yang telah membimbing dan menemani penulis hingga dapat menyelesaikan skripsi yang berjudul ”Deteksi

  Spammer di Twitter dengan mempelajari Tweet-Based Features

  ” yang disusun sebagai persyaratan mendapatkan gelar Starata Satu jurusan Informatika Universitas Sebelas Maret.

  Penyusunan skripsi ini juga tak lepas dari bimbingan dan bantuan yang tidak ada habisnya dari segenap pihak. Untuk itu perkenankan penulis mengucapkan terimakasih yang sebesar-besarnya kepada:

  1. Bapak dan Ibu di rumah, atas dukungan, doa restu, dan kepercayaan yang telah diberikan selama ini,

  2. Ibu Dewi Wisnu Wardani, S. Kom, M. S, selaku dosen pembimbing I yang selalu mengarahkan penulis ke arah yang benar dan selalu menimbulkan sikap optimis pada penulis akan selesainya skripsi ini,

  3. Bapak Didiek S. Wiyono, S. T, M. T, selaku dosen pembimbing II yang selalu membimbing dan memberikan ide maupun koreksi pada penulis sehingga mampu mewujudkan skripsi ini,

  4. Ibu Sari Widya Sihwi, S. Kom, M. TI, selaku penguji I dan Bapak Meiyanto Eko Sulistyo, S. T, M. Eng, selaku penguji II yang telah meluangkan waktunya dan memberikan saran untuk perbaikan skripsi ini,

  5. Ibu Umi Salamah, S. Si, M. Kom, selaku pembimbing akademik, yang selalu memberikan dorongan semangat dan bimbingannya.

  6. Kakak-kakakku, @playgroundpilot khususnya, untuk doa, dorongan, bantuan yang tiada henti.

  7. Teman-teman, @ndrer atas mottonya, @christinethuel, @rikybagoes, @agathariyadi, @ifantraadindo, bintang7, tbcfamily, dan teman-teman informatika UNS atas dukungan tiada henti.

  commit to user commit to user

  8. Semua pihak yang turut terlibat baik secara langsung maupun tidak langsung dalam penulisan skripsi ini yang tidak dapat disebutkan satu persatu, terimakasih banyak atas semua bantuannya. Semoga Allah SWT membalas budi baik semua pihak yang telah membantu dalam penulisan skripsi ini, Amin ya robbal ’alamin. Penulis menyadari bahwa kemampuan dan pengalaman penulis masih sangat terbatas. Akan tetapi penulis berharap skripsi ini dapat bermanfaat bagi semua pihak.

  Penulis

  

DETEKSI SPAMMER DI TWITTER

DENGAN MEMPELAJARI TWEET-BASED FEATURES

Yulia Wardhani

Jurusan Informatika. Fakultas Matematika dan Ilmu Pengetahuan Alam.

  Universitas Sebelas Maret

ABSTRAK

  Spam merupakan penyalahgunaan dalam pengiriman berita dari jaringan komunikasi dan memiliki berbagai bentuk dan definisi yang berbeda tergantung pada jenis jaringannya. Dengan jutaan pengguna di seluruh dunia, Twitter menyediakan berbagai berita dan peristiwa yang terjadi. Namun, dengan adanya kemudahan dalam penyebaran berita dan memungkinkan pengguna untuk membahas berita tersebut dalam status mereka, layanan ini juga membuka peluang terbentuknya spam.

  Pada penelitian ini dilakukan deteksi spammer untuk mengklasifikasikan akun ke dalam spammer atau nonspammer dengan mempelajari tweet-based features (jumlah follower, following, URL, @mention dan #hashtag).

  Hasil penelitian menunjukkan bahwa algoritma yang dibangun mempunyai kesalahan (error) lebih sedikit dibanding dengan algoritma pembandingnya (algoritma C5.0), yaitu sebesar 11% untuk dataset 1, 14% untuk dataset 2, dan 6,3% untuk dataset 3. Ketelitian mengklasifikasikan sebesar 87,8% untuk dataset 1, 82,35% untuk dataset 2, dan 92,10% untuk dataset 3. Keakurasian sebesar 89% untuk dataset 1, 86% untuk dataset 2, dan 93,67% untuk dataset 3.

  Kata Kunci: Algoritma C5.0, Deteksi Spammer, Tweet-based Features, Twitter. commit to user

  

DETECTING SPAMMERS ON TWITER

BY IDENTIFYING TWEET-BASED FEATURES

Yulia Wardhani

Department of Informatics. Mathematic and Science Faculty.

  Sebelas Maret University

ABSTRACT

  Spam is the abuse in the delivery of news and communication networks. It has different shapes and different definitions depending on the type of network. With millions of users worldwide, Twitter provides a variety of news and events. However, with the ease of dissemination of news, and allow users to discuss the stories in their status, these services also open opportunities for another kind of spam.

  In this study, spammer detection algorithm is applied to classify accounts into a spammer or non spammer by identifying tweet-based features (number of followers, followings, URLs, @mentions and #hashtags).

  The results showed that the algorithm has constructed an error 11% (dataset 1), 14% (dataset 2), 6,3% (dataset 3) is less than the comparison algorithm (C5.0 algorithm), achieve 87.8% precision (dataset 1), 82,35% precision (dataset 2), 92,10% precision (dataset 3) and 89% accuracy (dataset 1), 86% accuracy (dataset 2), 93,67% accuracy (dataset 3).

  Keywords: C.50 Algorithm, Spammer Detection, Tweet-based Features, Twitter. commit to user

  

DAFTAR ISI

Halaman

  HALAMAN JUDUL .............................................................................................. i HALAMAN PENGESAHAN ................................................................................ ii HALAMAN MOTTO ............................................................................................ iii HALAMAN PERSEMBAHAN ............................................................................. iv KATA PENGANTAR ........................................................................................... v ABSTRAK ............................................................................................................. vii ABSTRACT ........................................................................................................... viii DAFTAR ISI .......................................................................................................... ix DAFTAR GAMBAR ............................................................................................. xi DAFTAR TABEL .................................................................................................. xii DAFTAR LAMPIRAN .......................................................................................... xiii BAB I PENDAHULUAN ..................................................................................

  1 1.1 Latar Belakang Masalah........................................................

  1 1.2 Perumusan Masalah...............................................................

  2 1.3 Batasan Masalah...................................................................

  2 1.4 Tujuan dan Manfaat Penelitian.............................................

  3 1.4.1 Tujuan Penelitian.......................................................

  3 1.4.2 Manfaat Penelitian.....................................................

  3 1.5 Sistematika Penulisan............................................................

  3 BAB II LANDASAN TEORI.............................................................................. .

  5

  2.1 Dasar Teori................................................................................

  5

  2.1.1 . Microbloging..................................................................

  5

  2.1.1.1 Twitter................................................................

  5

  2.1.1.2 Twitter API.........................................................

  6

  2.1.2 Spam...............................................................................

  6

  2.1.2.1 Spam di Twitter ..................................................

  7

  2.1.3 . Metode Pendeteksian Spammer di Twitter.....................

  8

  2.1.3.1 Web Crawler.......................................................

  8

  2.1.3.2 Pemilihan Fitur untuk Pendeteksian Spammer...

  9

  commit to user

  2.1.3.3 Decision Tree ....................................................

  10

  2.1.3.3.1 Algoritma C5.0 .................................

  10

  2.1.4 . Evaluasi….....................................................................

  11

  2.2 Penelitian Terkait…….............................................................

  12 2.2.1. Detecting Spammers on Twitter ...................................

  12

  2.2.2. Mutually Reinforcing Spam Detection on Twitter

   and Web

  13 ………………………………………………..

  2.2.3. Detecting Spam Bots in Online Social Networking

Sites: A Machine Learning Approach ...........................

  14

  2.3 Rencana Penelitian ……..........................................................

  15 BAB III METODE PENELITIAN .......................................................................

  16

  3.1 Kerangka Pemikiran….............................................................

  16 3.1.1 Studi Pustaka............................................................

  16 3.1.2 Perancangan Web Crawler........................................

  16 3.1.3 Pengumpulan Data....................................................

  17

  3.1.4

  17 Eksperimen…............................................................

  3.1.5 Evaluasi.....................................................................

  19 BAB IV HASIL DAN PEMBAHASAN. .............................................................

  20

  4.1 Perancangan Web Crawler........................................……........

  20

  4.2 Pengumpulan Data…………………………………..……......

  24

  4.3 Eksperimen…………………………………………...…….....

  25

  4.3.1 Anotasi Data…….......................................................... 25

  4.3.2 Proses Pendeteksian.......................................................

  26

  4.3.2.1 Algoritma Pendeteksian Spammer…………….

  26

  4.3.2.2 Algoritma C5.0………………………………..

  28

  4.3.2.2.1

  28 Features Importance Analysis …….….

  4.4 Evaluasi….…………………………………………...…….....

  32 BAB V KESIMPULAN DAN SARAN ..............................................................

  35

  5.1 Kesimpulan……......................................................................

  35

  5.2 Saran……................................................................................

  35 DAFTAR PUSTAKA ............................................................................................

  37 LAMPIRAN ........................................................................................................... commit to user

  39

  commit to user

DAFTAR GAMBAR

   Halaman

Gambar 2.1 Klasifikasi sebagai pemetaan sebuah atribut input x ke dalam label kelas ........................................................................

  10 Gambar 2.2 Confusion Matrix ................................................................................

  12 Gambar 2.3 Twitter Graph.. ...................................................................................

  14 Gambar 3.1 Kerangka Pemikiran Penelitian ..........................................................

  16 Gambar 3.2 Gambaran umum sistem deteksi spam di Twitter ..............................

  17 Gambar 4.1 Interface aplikasi web-based untuk labeling data .......................

  26 Gambar 4.2 Grafik distribusi berdasar ishashtag ..............................................

  27 Gambar 4.3 Grafik distribusi berdasar ismention .............................................

  27 Gambar 4.4 Grafik distribusi berdasar URL ......................................................

  28 Gambar 4.5

  Grafik distribusi berdasar friend ....................................................

  28 Gambar 4.6 Hasil Klasifikasi dengan algoritma C5 menggunakan weka classifier dalam bentuk decision tree .................................

  31

  

DAFTAR TABEL

Halaman

Tabel 4.1 Keterangan atribut Friends, Isurl,

  Ismention, Ishashtag .......................................................................... 25

Tabel 4.2 .......................................... 25

  Contoh instances dengan atribut terpilih

Tabel 4.3 Contoh data dengan kelas spammer dan nonspammer berdasar

  atribut Ishashtag ................................................................................. 29

  Tabel 4.4 Confusion Matrix : Deteksi spammer dengan menggunakan algoritma pendeteksi spammer (Data testing 1, 100 records) .....

  32 Tabel 4.5 Confusion Matrix : Deteksi spammer dengan menggunakan

  algoritma pendeteksi spammer (Data testing 2, 150 records)..... 32

Tabel 4.6 Confusion Matrix: Deteksi spammer dengan menggunakan algoritma pendeteksi spammer (Data testing 3, 300 records) ..... 32Tabel 4.7 Confusion Matrix : Deteksi spammer dengan menggunakan ................................

  33

  algoritma C5.0 (Data testing 1, 100 records)

Tabel 4.8 Confusion Matrix : Deteksi spammer dengan menggunakan

  algoritma C5.0 (Data testing 2, 150 records) .............................. 33

Tabel 4.9 Confusion Matrix: Deteksi spammer dengan menggunakan algoritma C5.0 (Data testing 3, 300 records) ................................ 33Tabel 4.10 Persentase hasil klasifikasi berdasarkan alat ukur evaluasi

  ............................................................................... 34 confussion matrix commit to user

  commit to user

DAFTAR LAMPIRAN

   Halaman

  Hasil Klasifikasi: Algoritma Pendeteksian Spammer (data testing 1) ……. 38

  Hasil Klasifikasi

  :

  Algoritma Pendeteksian Spammer (data testing 2)

  .......... 40

  Hasil Klasifikasi

  :

  Algoritma Pendeteksian Spammer (data testing 3) .......... 44 Hasil Klasifikasi

  :

  Algoritma C5.0 (data testing 1) .......................................... 51 Hasil Klasifikasi

  :

  Algoritma C5.0 (data testing 2) .......................................... 54 Hasil Klasifikasi

  :

  Algoritma C5.0 (data testing 3) .......................................... 58

  commit to user