S KOM 1100948 Chapter3

38

BAB III
METODE PENELITIAN
3.1

Desain Penelitian
Desain penelitian adalah tahapan atau gambaran yang akan dilakukan

dalam penelitian. Berikut merupakan langkah langkah yang akan dilakukan dalam
melakukan penelitian:

Gambar 3. 1 Desain Penelitian

Dion Ajie Poetra, 2016
SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN
ALGORITMA C4.5
Universitas Pendidikan Indonesia | repository.upi.edu| perpustakaan.upi.edu

39


1.

Pengumpulan Data
Dalam pengumpulan data, hal pertama yang dilakukan adalah pemilihan

akun-akun yang akan dijadikan dataset. Akun-akun tersebut akan diberi label
sesuai kategori masing-masing. Setelah pemberian label, maka akun akan dibagi
menjadi 2 bagian, yaitu data pelatihan dan data uji. Selanjutnya dilakukan proses
crawling pada masing-masing data dengan melakukan permintaan (request )

menggunakan Twitter REST API. Berikut request yang dikirimkan.
No
1

Jenis Request

Contoh request

GET statuses/user_timeline


https://api.twitter.com/1.1/statu
ses/user_timeline.json?screen_nam
e=dionajie&count=200

2

GET users/lookup

https://api.twitter.com/1.1/users
/lookup.json?screen_name=dionajie

Tabel 3. 1 Jenis request

Berikut adalah atribut yang diambil:

Atribut

No

Keterangan


1

Username

Nama pengguna

2

followers_count

Jumlah pengikut/follower pengguna

3

friends_count

Jumlah teman/following pengguna

4


verified

Status verifikasi akun

5

description

Deskripsi biodata pengguna

6

url

Deskripsi tautan website pengguna

7

location


Deskripsi lokasi pengguna

Dion Ajie Poetra, 2016
SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN
ALGORITMA C4.5
Universitas Pendidikan Indonesia | repository.upi.edu| perpustakaan.upi.edu

40

8

created_at

Tanggal registrasi akun

9

status_count


Jumlah tweet pengguna

10

last_update_date

Tanggal status terakhir pengguna

11

taken_tweet

Jumlah tweet yang diambil

12

taken_tweet_date

Tanggal diambilnya data pengguna


13

start_taken_tweet_data Tanggal tweet pertama yang diambil dari

pengguna
14

last_taken_tweet_date

Tanggal tweet terakhir yang diambil dari
pengguna

15

mention_number

Jumlah mention tweet yang terdapat dalam
tweet yang diambil dari pengguna

16


retweet_number

Jumlah retweet yang terdapat dalam tweet
yang diambil dari pengguna

17

hashtag_number

Jumlah hashtag yang terdapat dalam tweet
yang diambil dari pengguna

18

url_number

Jumlah url yang terdapat dalam tweet yang
diambil dari pengguna
Tabel 3. 2 Features hasil crawling


2.

Praproses Data
Pada tahap ini dilakukan transformasi data dengan metode attribute
construction (pembuatan atribut). Setelah melakukan tahap praproses maka

atribut yang didapat adalah sebagai berikut.
No
1

Atribut
follower_rate

Keterangan
Jumlah pengikut/follower pengguna

Dion Ajie Poetra, 2016
SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN
ALGORITMA C4.5

Universitas Pendidikan Indonesia | repository.upi.edu| perpustakaan.upi.edu

41

2

following_rate

Jumlah friends/following pengguna

3

account_age

Umur akun (dalam bulan)

4

last_update


Jeda antara waktu data diambil dengan tweet
terakhir (dalam satuan bulan)

5

tweet_average

Jumlah tweet perhari

6

account_reputation

Reputasi akun pengguna

7

mention_ratio

Ratio mention dalam tweet yang diambil

8

hashtag_ratio

Rasio hashtag dalam tweet yang diambil

9

url_ratio

Rasio tautan dalam tweet yang diambil

10

retweet_ratio

Rasio retweet dalam tweet yang diambil

11

interval_all_tweet

Interval waktu yang dibutuhkan untuk
menghasilkan jumlah tweet yang diambil
(dalam satuan jam)

12

interval_one_tweet

Interval waktu yang dibutuhkan untuk
menghasilkan satu tweet

13

is_spam

Kategori/label akun yang menunjukkan akun
twitter merupakan akun spam atau non-spam
Tabel 3. 3 Features hasil praproses data

3.

Membangun model dan evaluasi
Pada tahap ini dilakukan pembuatan model pohon keputusan dengan
menggunakan algoritma C4.5. Setelah pembuatan model, akurasi model akan
dievaluasi. Evaluasi menggunakan metode 10-fold cross validation untuk
menentukan akurasi dari sebuah model menggunakan data pelatihan. Setelah
melakukan evaluasi langkah selanjutnya yaitu melakukan pruning tree
(pemangkasan pohon). Pada tahap pruning, model yang telah dibuat akan

Dion Ajie Poetra, 2016
SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN
ALGORITMA C4.5
Universitas Pendidikan Indonesia | repository.upi.edu| perpustakaan.upi.edu

42

dilakukan pemangkasan untuk mendapatkan model yang lebih ramping
dengan hasil maksimal.
Proses

terakhir

dari

membangun

model dan

evaluasi adalah

klasifikasi data uji. Klasifikasi dengan data uji untuk mengukur akurasi
model terhadap data diluar data pengujian.Tingkat akurasi model yang
dihasilkan sebelum dan setelah melakukan pruning akan dibandingkan hasil
akurasinya. Model dengan akurasi paling baik akan menjadi model yang
digunakan dalam penerapan.

4.

Penerapan model
Membuat sistem yang dapat melakukan prediksi kategori akun yang
belum

diketahui

kategorinya

berdasarkan

model

yang

telah

dibuat

sebelumnya.

1.2

Metode Penelitian
Metode penelitian ini dibagi menjadi dua, yaitu metode pengumpulan data

dan metode pengembangan perangkat lunak.
1.2.1

Metode Pengumpulan Data
Data yang diambil dalam penelitian ini merupakan data akun yang diambil

dari Twitter. Pemberian label pada akun-akun tersebut ditentukan berdasarkan
karakteristik spam account yang telah dijelaskan oleh Twitter sebelumnya.
Selanjutnya pengambilan data akun akan dilakukan dengan memanfaatkan REST
API Twitter. Data inilah yang akan dijadikan dataset untuk penelitian.
1.2.2

Metode Pengembangan Perangkat Lunak
Proses

dalam pengembangan

perangkat

lunak

dalam penelitian ini

menggunakan model waterfall. Model waterfall adalah sebuah contoh dari proses
perencanaan, dimana semua proses kegiatan harus terlebih dahulu direncanakan
dan

dijadwalkan

sebelum dikerjakan (Sommerville,

2011).

Berikut adalah

tahapan-tahapannya :

Dion Ajie Poetra, 2016
SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN
ALGORITMA C4.5
Universitas Pendidikan Indonesia | repository.upi.edu| perpustakaan.upi.edu

43

Gambar 3. 2 Model Waterfall (Sommerville,2011)

1.

Requirements definition (Definisi kebutuhan)

Mengumpulkan kebutuhan,

penetapan fitur, kendala dan tujuan sistem

melalui konsultasi dengan pengguna sistem. Semua hal tersebut akan
ditetapkan secara rinci dan berfungsi sebagai spesifikasi sistem.
2.

System and software design (Desain sistem dan perangkat lunak)

Dalam tahapan ini akan dibentuk suatu arsitektur sistem berdasarkan
persyaratan

yang

telah

ditetapkan.

Dan

juga

mengidentifikasi

dan

menggambarkan abstraksi dasar sistem perangkat lunak dan hubunganhubungannya.
3.

Implementation and unit tesing (Tes implementasi dan unit )

Hasil dari desain perangkat lunak akan direalisasikan sebagai satu set
program atau unit program. Setiap unit akan diuji apakah sudah memenuhi
spesifikasinya.
4.

Integration and unit tesing (Tes integrasi dan unit )

Setiap unit program akan diintegrasikan satu sama lain dan diuji sebagai satu
sistem yang utuh untuk memastikan sistem sudah memenuhi persyaratan
yang ada. Setelah itu sistem akan dikirim ke pengguna sistem.

Dion Ajie Poetra, 2016
SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN
ALGORITMA C4.5
Universitas Pendidikan Indonesia | repository.upi.edu| perpustakaan.upi.edu

44

5.

Operation and maintenance (Operasi dan maintenance)

Dalam Operation and maintenance, sistem diinstal dan mulai digunakan.
Selain itu juga memperbaiki error yang tidak ditemukan pada tahap
pembuatan. Dalam tahap ini juga dilakukan pemeliharaan software serta
pengembangan sistem seperti penambahan fitur dan fungsi baru.
1.3

Alat dan Bahan Penelitian
Berdasarkan kebutuhan-kebutuhan di atas, maka ditentukan bahwa alat

dan bahan yang digunakan pada penelitian ini adalah sebagai berikut:
1.3.1

Alat Penelitian
Dalam penelitian ini, peneliti menggunakan bebagai alat bantu penunjang

baik berupa perangkat keras maupun perangkat lunak. Adapun perangkat keras
yang

digunakan adalah seperangkat komputer yang mempunyai spesifikasi

sebagai berikut:
1. Processor Intel Core i5 2.4Ghz
2. RAM 4 GB
3. Hardisk 500GB
4. Monitor 14 inch
5. Mouse dan Keyboard

Sedangkan perangkat lunak yang digunakan yaitu :
1. Sistem operasi Ubuntu 14.04
2. Sublime text 3.0
3. Python 2.7.0
4. XAMPP 1.8.3
5. Google Chrome

1.3.2

Bahan Penelitian
Bahan Penelitian dilakukan dengan menggunakan dataset yang dibagi

menjadi dua bagian:
1. Data pelatihan

Dion Ajie Poetra, 2016
SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN
ALGORITMA C4.5
Universitas Pendidikan Indonesia | repository.upi.edu| perpustakaan.upi.edu

45

Jumlah akun yang dijadikan data pelatihan adalah 1391 akun
dengan 442 akun kategori akun spam account dan 949 akun kategori nonspam account . Data pelatihan akan digunakan untuk membangun model

dan validasi menggunakan k-fold cross validation.
2. Data uji
Jumlah akun pada data uji adalah sebanyak 100 akun dengan 50
akun kategori spam account dan 50 akun kategori kategori non-spam
account. Data uji akan digunakan untuk menghitung akurasi sebenarnya

dari model yang telah dibuat.

Dion Ajie Poetra, 2016
SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN
ALGORITMA C4.5
Universitas Pendidikan Indonesia | repository.upi.edu| perpustakaan.upi.edu