S KOM 1100948 Chapter1

1

BAB I
PENDAHULUAN

Dalam bab ini akan dibahas latar belakang dilaksanakannya penelitian,
rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian

dan

sistematika penulisan.
1.1

Latar Belakang
Media sosial online mengalami pertumbuhan dengan sangat cepat dan

menjadi populer dikalangan masyarakat dalam beberapa tahun terakhir ini.
Berawal dari Friendster dan MySpace yang banyak digunakan di zamannya
sampai media sosial yang mempunyai jutaan bahkan miliaran pengguna seperti
Facebook


dan

Twitter.

berkomunikasi dengan

Orang-orang

teman

dan

menggunakan

keluarga,

media

mencari berita,


sosial

untuk

menyebarkan

informasi, dan lain lain.
Twitter merupakan salah satu media sosial yang lahir pada tahun 2006.
Twitter kini telah dihuni 645 juta pengguna terdaftar pada 2014, mempunyai 115
juta pengguna aktif setiap bulannya dengan 58 juta tweet dikirim setiap hari dan
pencarian lebih dari 2,1 juta miliar pencarian perharinya (Statisticbrain, 2014).
Indonesia menjadi negara ke-5 terbesar yang menghuni Twitter dengan 24,9 juta
pengguna dan Jakarta merupakan kota yang paling aktif dengan menghasilkan
lebih dari 2% tweet yang ada di Twitter (Semiocast, 2012).
Dengan statistik tersebut, Twitter termasuk media yang sangat populer
digunakan baik itu dalam penyebaran informasi maupun media diskusi tentang
banyak hal seperti berita, kejadian, lelucon, iklan bahkan ungkapan perasaan.
Twitter memberikan layanan yang dapat mengirimkan pesan singkat sebanyak
140 karakter untuk setiap tweet -nya, maka dari itu Twitter juga sering disebut
microblogging.


Penyebaran informasi di Twitter memiliki dampak positif maupun negatif.
Dampak positif yang terjadi yaitu informasi yang lebih cepat serta mudah
disebarkan

dan

didapatkan.

Namun,

banyaknya

informasi

dan

cepatnya

Dion Ajie Poetra, 2016

SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN
ALGORITMA C4.5
Universitas Pendidikan Indonesia | repository.upi.edu| perpustakaan.upi.edu

2

penyebaran tentu ada dampak negatif yang ditimbulkan seperti keakuratan
informasi dan spamming.
Dampak negatif tersebut ditimbukan oleh orang orang yang memanfaatkan
Twitter sebagai media untuk melakukan cyber crime. Cyber crime di Twitter
meliputi spamming, hijacking (pembajakan), pencurian identitas dan lain lain
(Chu, dkk, 2012).
Spam merupakan salah satu dampak negatif di twiter. Spam secara umum

dapat digambarkan sebagai sesuau yang tidak diminta dan tindakan berulang yang
berdampak negatif terhadap pengguna lain termasuk berbagai bentuk interaksi dan
perilaku akun otomatis serta upaya untuk menyesatkan atau menipu pengguna
(Twitter, 2015). Sebanyak 9,3% tweet adalah spam (Networked Insights, 2014).
Salah satu kasus populer yang terjadi tentang spam Twitter adalah akun palsu
yang berusaha melakukan spamming untuk menciptakan trending topic berbau

pornografi yang dimulai oleh situs meme populer 4chan. Wiki menunjukkan
bahwa mereka menggunakan script , yang ditulis untuk melakukan spam hashtag
(CNET, 2009).
Para pelaku cyber crime menggunakan akun yang sengaja dibuat untuk
tujuan spam. Pelaku yang melakukan spam bisa disebut sebagai spammer .
Spammer menyebarkan malicious, phising, atau konten iklan yang tidak sesuai

dalam tweet-nya. Dalam penyebaran spam, pelaku menggunakan bot . Di Twitter
bot melakukan follow secara acak terhadap beberapa pengguna dengan harapan

mendapat follow back dan kemudian tweet spam akan muncul di linimasa
pengguna. Bot berisi tweet yang mengandung konten yang menarik dengan tautan
dalam tweet-nya yang mana tautan tersebut biasanya tidak sesuai dengan konten
yang

ditulis

didalam tweet

yang


dikirimkan

bot .

Tautan

tersebut

akan

mengantarkan pengguna ke situs situs berbahaya atau spam. Hal ini tentu
mengganggu pengguna.
Berdasarkan aturan Twitter, indikator dari profil spam dapat dilihat dari
perilaku mengikuti banyak pengguna dalam periode pendek. Tweet berisi banyak
tautan dan hashtag (#) populer yang digunakan dalam tweet yang tidak terkait
Dion Ajie Poetra, 2016
SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN
ALGORITMA C4.5
Universitas Pendidikan Indonesia | repository.upi.edu| perpustakaan.upi.edu


3

dengan informasi didalamnya juga merupakan salah satu dari sekian banyak
indikator (Twitter, 2015).
Twitter memiliki layanan yang memfasilitasi pengguna untuk melaporkan
spam account ke Twitter yaitu dengan melakukan post tweet ke akun @spam.

Namun dalam peraturan Twitter tidak ada indikasi jelas dari proses, apakah proses
dilakukan secara otomatis atau administrator mengandalkan laporan pengguna.
Walaupun diyakini bahwa pendekatan yang digunakan adalah keduanya (Verma,
M., dkk., 2014).
Twitter berusaha dengan serius untuk melawan spam. Twitter memiliki
tim anti-spam yang terus berkembang untuk menanggapi bentuk-bentuk baru dari
spam agar tercipta lingkungan yang bebas spam di Twitter (Twitter, 2015).

Namun terlepas dari sistem anti-spam

Twitter yang hanya dapat


digunakan oleh internal Twitter dan keterbatasan pengguna yang hanya terlibat
dalam melaporkan spam ke pihak Twitter, tidak ada

sistem lain yang bisa

digunakan untuk mengkategorikan spammer dan non-spammer di Twitter.
Melakukan prediksi terhadap spam account bisa dilakukan secara otomatis
dengan menggunakan teknik data mining. Data mining merupakan proses dalam
menggali

pengetahuan

baru

dari

sekumpulan

data


yang

besar.

Dengan

menggunakan kumpulan data dari akun-akun palsu, kita bisa menemukan pola
dari kumpulan data dan menemukan pengetahuan baru didalamnya. Dan dengan
metode klasifikasi, kita bisa memprediksi jenis akun, apakah merupakan spammer
atau non-spammer.
Sebuah sistem yang dapat melakukan klasifikasi spam account tentu
sangat berguna bagi para pengguna awam untuk melakukan pencegahan dini dari
spam. Sistem ini juga dapat dikembangkan untuk tujuan lain yang masih

berhubungan dengan antisipasi spam dan peningkatan efektifitas dan efisiensi dari
pencegahan spam.
Beberapa

penelitian


sebelumnya

tentang

klasifikasi

spammer

menunjukkan hasil akurasi yang cukup baik. Dengan memilih fitur berdasarkan
Dion Ajie Poetra, 2016
SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN
ALGORITMA C4.5
Universitas Pendidikan Indonesia | repository.upi.edu| perpustakaan.upi.edu

4

konten tweet dan pengguna, hasil akurasi yang didapat yaitu 87,6 % dengan
menggunakan SVM (Support Vector Machine) classifier (Benevenuto, F, dkk.
2010).


Penelitian yang menggunakan Bayesian classifier untuk klasifikasi spam,

mendapatkan akurasi sebesar 88,6 % berdasarkan 18 fitur yang dipilih (Yang, C.,
2011). Penelitian lain yang memilih hanya 2 fitur yaitu URL rate dan interaction
rate mendapatkan akurasi sebesar 86% menggunakan algoritma J48 (Lin, P., dkk,

2013).
Dalam penelitian ini, penulis menggunakan algoritma C4.5 dalam proses
klasifikasi. Algoritma C4.5 adalah salah satu algoritma Decision Tree (pohon
keputusan) yang merupakan peningkatan dari algoritma ID3. Peningkatan pada
C.45 salah satunya adalah penanganan numeric attribute. Tentu ini sangat berguna
karena banyaknya fitur yang akan digunakan bersifat numerik. Selain itu pohon
keputusan yang dihasilkan akan memberikan representasi dari konsep yang
menarik karena membuat proses klasifikasi lebih jelas.
1.2

Rumusan Masalah
Rumusan masalah yang akan dibahas pada penelitian ini adalah sebagai

berikut.
1.

Apa saja karakteristik yang dimiliki oleh sebuah akun twitter yang
tergolong sebagai akun spam dan akun non-spam

2.

Bagaimana membangun sistem klasifikasi akun dengan menggunakan
algoritma C4.5.

3.

Bagaimana kinerja sistem dalam melakukan klasifikasi akun ke dalam
kategori akun spam dan akun non-spam.

1.3

Batasan Masalah
Batasan masalah dalam penelitian ini adalah sebagai berikut.

1.4

1.

Sumber data diperoleh dari media sosial Twitter.

2.

Data diambil dari beberapa kumpulan akun Twitter.

Tujuan
Tujuan dari penelitian ini adalah sebagai berikut.

Dion Ajie Poetra, 2016
SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN
ALGORITMA C4.5
Universitas Pendidikan Indonesia | repository.upi.edu| perpustakaan.upi.edu

5

1.

Mengetahui karakteristik yang dimiliki sebuah akun Twitter yang
termasuk kategori akun spam dan akun non-spam.

2.

Membangun sistem yang dapat melakukan klasifikasi akun Twitter ke
dalam kategori akun spam dan akun non-spam

3.

Mengetahui kinerja sistem dalam melakukan klasifikasi akun ke
dalam kategori akun spam dan akun non-spam.

1.5

Manfaat Penelitian
Dengan dilakukannya penelitian ini diharapkan dapat memberikan manfaat

sebagai berikut :
1.

Membuat standarisasi untuk karakteristik dari akun spammer dan nonspammer di Twitter.

2.

Memberikan sistem yang dapat melakukan klasifikasi akun Twitter
spammer dan non-spammer secara lebih mudah, cepat dan akurat

3.

Dapat menjadi acuan dalam penentuan efektifitas sebuah kampanye
(campaign) produk maupun kejadian di media sosial Twitter.

4.

Dapat menjadi rujukan bagi penelitian selanjutnya yang memiliki
keterkaitan dengan penelitian ini baik secara langsung maupun tidak
langsung.

1.6

Sistematika Penulisan

Sistematika penulisan dalam penelitian ini adalah sebagai berikut.:
BAB 1 PENDAHULUAN
Bab ini berisi latar belakang penelitian, identifikasi masalah, tujuan
penelitian,

manfaat

penelitian,

dan

sistematika

penulisan

dokumen

proposal tugas akhir ini.
BAB 2 TINJAUAN PUSTAKA
Bab ini berisi materi-materi hasil literature, teori-teori tentang Twitter dan
data mining, definisi kutipan dan istilah yang digunakan dalam penelitian.
BAB 3 METODOLOGI PENELITIAN

Dion Ajie Poetra, 2016
SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN
ALGORITMA C4.5
Universitas Pendidikan Indonesia | repository.upi.edu| perpustakaan.upi.edu

6

Bab ini berisi penjelasan langkah-langkah yang akan dilakukan dalam
penelitian.
BAB IV HASIL PENELITIAN DAN PEMBAHASAN
Bab ini berisi uraian tentang hasil penelitian dan pembahasan terhadap
hasil penelitian yang dilakukan
BAB V KESIMPULAN DAN SARAN
Bab

ini

berisi kesimpulan

dari keseluruhan

penelitian

yang

telah

dilakukan, serta saran dari penulis untuk kegiatan penelitian selanjutnya
terkait dengan topik yang sedang dibahas.

Dion Ajie Poetra, 2016
SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN
ALGORITMA C4.5
Universitas Pendidikan Indonesia | repository.upi.edu| perpustakaan.upi.edu