DETEKSI AKTIVITAS DENGAN MEMANFAATKAN DATA LAYANAN JEJARING SOSIAL BERBASIS LOKASI TWITTER.

(1)

DETEKSI AKTIVITAS DENGAN MEMANFAATKAN DATA LAYANAN JEJARING SOSIAL BERBASIS LOKASI TWITTER

SKRIPSI

Diajukan untuk memenuhi sebagian dari Syarat untuk memperoleh Gelar Sarjana Komputer

Program Studi Ilmu Komputer

Oleh:

Muhammad Haryadi Futra 1002484

PROGRAM STUDI ILMU KOMPUTER

FAKULTAS PENDIDIKAN MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS PENDIDIKAN INDONESIA

BANDUNG 2014


(2)

DETEKSI AKTIVITAS DENGAN MEMANFAATKAN DATA LAYANAN JEJARING SOSIAL BERBASIS LOKASI TWITTER

Oleh

Muhammad Haryadi Futra

Sebuah skripsi yang diajukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana pada Fakultas Pendidikan Matematika dan Ilmu Pengetahuan Alam

© Muhammad Haryadi Futra 2014 Universitas Pendidikan Indonesia

Desember 2014

Hak Cipta dilindungi undang-undang.

Skripsi ini tidak boleh diperbanyak seluruhya atau sebagian, dengan dicetak ulang, difoto kopi, atau cara lainnya tanpa ijin dari penulis.


(3)

LEMBAR PENGESAHAN

DETEKSI AKTIVITAS DENGAN MEMANFAATKAN DATA LAYANAN JEJARING SOSIAL BERBASIS LOKASI TWITTER

Oleh:

Muhammad Haryadi Futra 1002484

DISETUJUI DAN DISAHKAN OLEH: Pembimbing 1

Yudi Wibisono, MT NIP. 197507072003121003

Pembimbing 2

Rizky Rachman J.P, M.Kom NIP. 197711252006041002

Mengetahui

Ketua Program Studi Ilmu Komputer

Jajang Kusnendar, MT NIP. 197506012008121001


(4)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

DETEKSI AKTIVITAS DENGAN MEMANFAATKAN DATA LAYANAN JEJARING SOSIAL BERBASIS LOKASI TWITTER

ABSTRAK

Twitter merupakan salah satu layanan jejaring sosial berbasis lokasi yang kini sangat populer di kalangan masyarakat pengguna internet. Twitter menjadi sumber data yang sangat bermanfaat sekaligus menjadi salah satu pusat penyedia informasi yang bersifat real-time. Pada jurnal ini penulis menitikberatkan penelitian pada pendeteksian aktivitas dengan memanfaatkan kumpulan tweet para pengguna Twitter. Untuk melakukan penelitian ini digunakan metode-metode seperti metode klasifikasi dengan algoritma Naive Bayes dan metode clustering dengan algoritma K-Means. Metode klasifikasi digunakan untuk memisahkan kumpulan tweet ke dalam kelas-kelas yang telah ditentukan, dan metode

clustering digunakan untuk mengelompokkan kumpulan tweet yang telah

diklasifikasi ke dalam cluster-nya masing-masing berdasarkan informasi aktivitas yang terdapat di dalamnya, dan setiap cluster mewakili satu aktivitas. Deteksi aktivitas dengan metode klasifikasi dan clustering memberikan hasil yang terbilang baik, dibuktikan dengan nilai F-Measure yang diperoleh untuk metode klasifikasi dengan algoritma Naive Bayes yaitu sebesar 77,068 %, dan nilai purity untuk metode clusering dengan algoritma K-Means yaitu sebesar 0,599.

Kata Kunci: Aktivitas, Twitter, Tweet, Klasifikasi, Clustering, Naive Bayes, K-Means, Purity.


(5)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

ACTIVITY DETECTION USING DATA OF LOCATION-BASED SOCIAL NETWORK SERVICE TWITTER

ABSTRACT

Twitter is a location-based social networking service that is now very popular among netizens. Twitter is a very useful source of data and become one of the central provider of real time information. In this paper the authors study focuses on detecting activity by utilizing a collection of Twitter users tweet. To conduct this study, used methods such as the method of classification with Naive Bayes algorithm and method of clustering with K-Means algorithm. Classification method is used to separate the tweet into classes that have been determined, and the clustering method is used to classify tweets that have been classified into each cluster based on the information about the activities contained in it. Each cluster represents a single event. Activity detection with classification and clustering methods give fairly good results, evidenced by the value obtained for the F-Measure of the naive Bayes classification method of 77.068%, and the value of purity for clusering method with K-Means algorithm by 0.599.

Keywords: Activity, Twitter, Tweet, Classification, Clustering, Naive Bayes, K-Means, Purity.


(6)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

DAFTAR ISI

KATA PENGANTAR ... Error! Bookmark not defined. UCAPAN TERIMAKASIH ... Error! Bookmark not defined. ABSTRAK ... Error! Bookmark not defined. DAFTAR ISI ...v DAFTAR TABEL ... Error! Bookmark not defined. DAFTAR GAMBAR ... Error! Bookmark not defined. BAB I PENDAHULUAN ... Error! Bookmark not defined. 1.1. Latar Belakang ... Error! Bookmark not defined. 1.2. Rumusan Masalah ... Error! Bookmark not defined. 1.3. Batasan Masalah ... Error! Bookmark not defined. 1.4. Tujuan Penelitian ... Error! Bookmark not defined. 1.5. Manfaat Penelitian ... Error! Bookmark not defined. 1.6. Sistematika Penulisan ... Error! Bookmark not defined. BAB II KAJIAN PUSTAKA ... Error! Bookmark not defined. 2.1. Layanan Jejaring Sosial Berbasis Lokasi Error! Bookmark not defined. 2.2. Twitter ... Error! Bookmark not defined.

2.3. Data Mining ... Error! Bookmark not defined.

2.4. Text Mining... Error! Bookmark not defined. 2.5. Klasifikasi ... Error! Bookmark not defined. 2.6. Clustering ... Error! Bookmark not defined. BAB III METODOLOGI PENELITIAN ... Error! Bookmark not defined. 3.1. Rancangan Penelitian ... Error! Bookmark not defined.


(7)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

3.2. Metode Penelitian ... Error! Bookmark not defined. 3.3. Alat dan Badan Penelitian ... Error! Bookmark not defined. BAB IV HASIL PENELITIAN DAN PEMBAHASAN ... Error! Bookmark not

defined.

4.1. Pengembangan Perangkat Lunak ... Error! Bookmark not defined. 4.2. Pembahasan Eksperimen ... Error! Bookmark not defined. 4.3. Eksperimen ... Error! Bookmark not defined. 4.4. Hasil Eksperimen ... Error! Bookmark not defined. 4.5. Pembahasan Hasil Eksperimen ... Error! Bookmark not defined. BAB V KESIMPULAN DAN SARAN... Error! Bookmark not defined. 5.1. Kesimpulan ... Error! Bookmark not defined. 5.2. Saran ... Error! Bookmark not defined. DAFTAR PUSTAKA ... Error! Bookmark not defined. LAMPIRAN ... Error! Bookmark not defined.


(8)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

BAB I PENDAHULUAN

1.1. Latar Belakang

Twitter merupakan salah satu layanan jejaring sosial berbasis lokasi yang kini menjadi sangat populer di kalangan masyarakat pengguna internet. Twitter memungkin para penggunanya untuk menulis apapun yang mereka inginkan, seperti pengalaman hidup, pendapat, pandangan terhadap topik populer, hingga apapun yang sedang mereka lakukan. Twitter menamai tulisan para penggunanya itu dengan istilah tweet.

Berdasarkan data yang dikeluarkan pada April 2014, diketahui bahwa pada kuartal kedua tahun 2014 Twitter memiliki pengguna aktif sebanyak 271 juta jiwa per bulannya (Statista, 2014), dan memiliki jumlah total pengguna aktif sebanyak 645 juta jiwa, dengan jumlah rata-rata tweet yang dihasilkan sebanyak 58 juta

tweet per hari (Statisticbrain, 2014). Sebagai sumber informasi, Twitter terbukti

menyediakan data yang berjumlah sangat besar dan mudah didapat. Selain itu informasi yang disediakan oleh Twitter terdiri dari beranekaragam topik, ini membuat Twitter sebagai jejaring sosial berbasis lokasi menjadi salah satu pusat informasi ter-up-to-date yang sangat berkualitas, sehingga banyak pengetahuan baru dapat diambil darinya.

Informasi dan pengetahuan baru yang diperoleh dari Twitter dapat digunakan untuk berbagai macam keperluan, salah satunya pada penelitian ini.

Tweet dari Twitter digunakan untuk mendeteksi aktivitas yang sedang dilakukan

oleh para pengguna Twitter di lokasi-lokasi yang ditentukan. Hal ini nantinya dapat digunakan untuk memetakan perilaku pengguna Twitter pada kehidupan nyatanya dengan mengetahui aktivitas yang mereka lakukan dalam kurun waktu tertentu.


(9)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

Untuk mendapatkan informasi-informasi yang diinginkan tersebut, perlu dilakukan pemrosesan awal terhadap tweet yang akan dijadikan sumber data. Ini dikarenakan pola penulisan tweet yang beraneka ragam, dimana banyak ditemukan hal-hal yang sangat jarang digunakan seperti kata tidak baku, pengulangan kata yang berlebihan, penggunaan kata-kata gaul, dan pengguna karakter-karakter yang tidak memiliki arti. Hal-hal tersebut harus dihilangkan dari

tweet agar dapat dihasilkan informasi yang tepat dan bermanfaat.

Penelitian ini melakukan analisis terhadap tweet untuk mendeteksi informasi-informasi mengenai aktivitas dengan menggunakan metode Klasifikasi dan metode clustering.Metode klasifikasi digunakan untuk memisahkan tweet ke dalam tiga kelas yang ditentukan, yaitu aktivitas_lokasi untuk tweet yang berisi informasi mengenai aktivitas dan lokasi, non_aktivitas_non_lokasi untuk tweet yang tidak berisi informasi mengenai aktivitas dan lokasi, dan kelas lokasi_non_aktivitas untuk tweet yang tidak berisi informasi mengenai aktivitas tetapi mengindikasikan pemiliki tweet sedang berada di lokasi yang ditentukan. Metode clustering digunakan untuk mengelompokkan tweet dalam kelas aktivitas_lokasi berdasarkan informasi aktivitasyang ada di dalamnya.

Klasifikasi dilakukan dengan menggunakan algoritma Naive Bayes. Naive Bayes merupakan salah satu metode machine learning yang menggunakan konsep dasar Teorema Bayes, yaitu melakukan klasifikasi dengan perhitungan nilai probabilitas (Trisedya dan Jais, 2009: 2). Naive Bayes dalam berbagai penelitian empiris terbukti memiliki performa pengklasifikasian yang cukup tinggi, selain itu algoritma ini sangat mudah di implememtasikan ke dalam berbagai studi kasus sehingga cocok digunakan untuk mengklasifikasikan tweet.

Metode Clustering yang akan dilakukan menggunakan algoritma K-Means yang mempartisi data ke dalam cluster (kelompok) sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan yang memiliki karakteristik yang berbeda dikelompokkan pada kelompok yang


(10)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

lain (Narwati, 2010: 2). Algoritma ini memiliki performa yang cukup baik, sangat mudah diadaptasi dan diimplementasikan ke berbagai kasus, selain itu waktu yang diperlukan untuk proses clustering-nya pun cukup singkat, sehingga cocok digunakan untuk mendeteksi aktivitas dari sekumpulan tweet yang diberikan.

Pemilihan aktivitas sebagai objek pada penelitian ini didasarkan pada perubahan pola hidup manusia yang kini mengarah pada perilaku mobilitas yang tinggi, yang mengakibatkan mereka sering berpindah-pindah lokasi dalam melakukan aktivitas kesehariannya. Karenanya penelitian ini dilakukan untuk dapat menggambarkan perilaku mobilitas manusia tersebut, agar nantinya dapat diketahui apa saja aktivitas yang dilakukan, dan dimana lokasi tempat aktivitas tersebut dilakukan, agar nantinya dapat digunakan sebagai informasi dan pengetahuan baru yang bermanfaat dan tepat guna.

1.2. Rumusan Masalah

Berdasarkan latar belakang masalah yang telah diuraikan di atas maka permasalahan yang akan diidentifikasi dalam penelitian ini adalah:

1. Bagaimana algoritma Naive Bayes Classifier dapat membantu memisahkan tweet yang berisi informasi mengenai aktivitas dan yang tidak.

2. Bagaimana algoritma clustering K-Means dapat membantu mengelompokkan informasi mengenai aktivitas dari data kumpulan tweet.

3. Bagaimana mengetahui aktivitas yang sedang berlangsung di tempat-tempat tertentu dengan memanfaatkan kumpulan tweet para pengguna layanan jejaring sosial berbasis lokasi Twitter.


(11)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

Berdasarkan identifikasi masalah serta dengan mempertimbangkan banyak aspek seperti waktu, kemampuan peneliti dan kepentingan penelitian, maka permasalahan dibatasi pada hal-hal sebagai berikut:

1. Layanan jejaring sosial berbasis lokasi yang penulis gunakan sebagai sumber data hanya satu, yaitu Twitter.

2. Data yang diambil dari Twitter merupakan kumpulan tweet dari para pengguna yang berlokasi di Indonesia.

3. Data yang diambil dari Twitter merupakan kumpulan tweet yang mengandung kata kunci berupa nama-nama lokasi yang telah ditentukan dan dibatasi sebelumnya.

1.4. Tujuan Penelitian

Adapun tujuan yang hendak dicapai dari penelitian ini adalah:

1. Untuk mengetahui cara dan kinerja algoritma Naive Bayes Classifier dalam memisahkan tweet yang berisi informasi mengenai aktivitas dan yang tidak.

2. Untuk mengetahui cara dan kinerja algoritma clustering K-Means dalam mengelompokkan informasi mengenai aktivitas dari data kumpulan tweet.

3. Untuk mengetahui aktivitas yang sedang berlangsung di tempat-tempat tertentu dengan memanfaatkan kumpulan tweet para pengguna layanan jejaring sosial berbasis lokasi Twitter.

1.5. Manfaat Penelitian

Hasil dari penelitian ini diharapkan mampu menjadi media informasi yang tepat guna bagi siapapun yang membutuhkan, terutama bagi mereka yang memiliki mobilitas cukup tinggi yang membutuhkan informasi dan rekomendasi


(12)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

mengenai tempat-tempat yang sedang ramai dikunjungi untuk didatangi, juga diharapkan dapat menjadi media informasi yang membantu penggunanya untuk menentukan apakah suatu tempat layak dikunjungi atau malah sebaiknya dihindari, selain itu juga diharapkan bisa memberikan informasi historis mengenai tempat-tempat tersebut bagi para pengguna yang membutuhkan.

1.6. Sistematika Penulisan

Adapun sistematika penulisan penelitian ini dibagi kedalam lima bab, dan masing-masing bab terdiri dari beberapa sub bab, yaitu:

BAB I Pendahuluan

Bab ini berisi Latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaat Penelitian, dan sistematika penulisan.

BAB II Kajian Pustaka

Bab ini berisi penjelasan tentang teori-teori dan konsep algoritma yang digunakan dalam penelitian.

BAB III Metode Penelitian

Bab ini berisi penjelasan langkah-langkah yang akan dilakukan dalam penelitian

BAB IV Hasil Penelitian dan Pembahasan

Bab ini berisi uraian tentang hasil penelitian dan pembahasan terhadap hasil penelitian yang dilakukan.


(13)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

Bab ini berisi kesimpulan dari keseluruhan penelitian yang telah dilakukan, serta saran dari penulis untuk kegiatan penelitian selanjutnya terkait dengan topik yang sedang dibahas.


(14)

26

BAB III

METODOLOGI PENELITIAN

1.1. Rancangan Penelitian

Rancangan penelitian adalah rencana dan struktur penyelidikan yang disusun sedemikian rupa sehingga penelitian akan memperoleh jawaban untuk pertanyaan-pertanyaan penelitiannya (Kerlinger, 1990: 483). Desain penelitian merupakan tahapan-tahapan yang akan dilakukan oleh penulis dalam penelitian. Berikut tahapan penelitian yang akan dilakukan:

Gambar 3.1 Desain Penelitian Pengumpulan Data  Crawling Clustering  Pembobotan  K-Means  Evaluasi Clustering  Klasifikasi

(Naive Bayes)

 Pembobotan

Training

 Evaluasi (K-Fold Cross Validation) Preprocessing

Text Cleaning

Case Folding

Stopword EliminationSynonym Replacement Klasifikasi (Naive Bayes)  Testing Visualisasi Informasi Pelabelan Model Klasifikasi Hasil Klasifikasi


(15)

27

Penjelasan lebih rinci dari rancangan penelitian diatas adalah sebagai berikut: 1) Pengumpulan Data

Data yang digunakan dalam penelitian ini diambil dari layanan jejaring sosial berbasis lokasi Twitter. Data yang diperoleh merupakan kumpulan tweet yang didapatkan dengan menggunakan Twitter API dengan keywords nama-nama pusat perbelanjaan yang terdapat di kota Bandung, adapun rinciannya adalah sebagai berikut:

2) Preprocessing

Proses yang dilakukan dalam tahapan ini adalah sebagai berikut:

a) Text Cleaning, yaitu menghilangkan tanda baca, menghilangkan URL

dan string-string khusus pada Twitter seperti user (@username), tanda

retweet (RT),dan hashtag (#hashtag).

b) Case Folding, yaitu untuk menyeragamkan bentuk huruf.

c) Stopword Elimination, yaitu proses pembuangan kata-kata yang dianggap

tidak memiliki value, seperti imbuhan, akhiran, dan kata sambung.

d) Synonym Replacement, yaitu proses penggantian kata ke dalam bentuk

sinonimnya.

Hasil yang diperoleh dari tahapan ini adalah kumpulan tweet yang sudah bersih dari hal-hal yang tidak diperlukan, sebagaimana penjelasan di atas. 3) Pelabelan adalah tahapan dimana tweet diberi label yang nantinya akan

digunakan pada proses training di tahap klasifikasi. Terdapat tiga label yang disediakan yaitu aktivitas_lokasi untuk tweet yang berisi informasi mengenai aktivitas dan lokasi, non_aktivitas_non_lokasi untuk tweet yang tidak berisi informasi mengani aktivitas dan lokasi, dan lokasi_non_aktivitas untuk yang hanya berisi informasi mengenai lokasi saja. Pelabelan dilakukan dengan menggunakan program aplikasi Microsoft Excel. Hasil dari tahapan ini adalah kumpulan tweet yang memiliki label.

4) Klasifikasi


(16)

28

a. Training, proses ini digunakan untuk melatih algoritma klasifikasi yang

digunakan yaitu algoritma Naive Bayes agar mampu melakukan prosesnya sesuai dengan yang diharapkan. Pada tahap ini pertama-tama akan dilakukan proses pembobotan terhadap kumpulan tweet hasil pelabelan menggunakan perhitungan TF-IDF dengan hanya menghitung TF (term

frequncy)-nya saja dan dilanjutkan dengan perhitungan Add-One (Laplace)

Smoothing. Selanjutnya akan dihasilkan model klasifikasi yang nantinya

digunakan pada tahap testing. Pada tahap ini juga akan dilakukan proses validasi dan evaluasi terhadap kinerja model klasifikasi yang dihasilkan dengan menghitung nilai F-Measure menggunakan teknik K-Fold Cross

Validation. Perhitungan nilai F-Measure melibatkan perhitungan nilai

Precission dan Recall.

b. Testing, proses ini dilakukan untuk melakukan pengklasifikasian terhadap

dataset dengan memanfaatkan model klasifikasi yang dihasilkan pada proses training. Hasil pada tahap ini adalah kumpulan tweet yang telah diklasifikasikan ke dalam kelas aktivitas_lokasi yang akan digunakan pada tahapan berikutnya yaitu Clustering.

5) Clustering

Pada tahap ini data hasil klasifikasi pertama-tama dilakukan pembobotan menggunakan perhitungan TF-IDF dengan hanya menghitung TF (term

frequncy)-nya saja. Selanjutnya dilakukan proses clustering dengan algoritma

K-Means untuk mengelompokkan data sesuai dengan informasi aktivitas yang ada di dalamnya. Pada tahap ini juga sekaligus dilakukan proses validasi dan evaluasi kualitas hasil dari clustering dengan algoritma K-Means. Validasi dan evaluasi menggunakan perhitungan nilai purity.

6) Visualisasi Informasi

Pada tahap ini informasi yang dihasilkan dari proses clustering selanjutnya akan divisualisasikan ke dalam format yang mudah dimengerti oleh para pengguna.


(17)

29

1.2. Metode Penelitian

Metode penelitian yang digunakan dalam penelitian ini dibedakan menjadi dua, diantaranya dijelaskan sebagai berikut:

1.2.1. Proses Pengumpulan Data

Data yang digunakan dalam penelitian ini diambil dari layanan jejaring sosial berbasis lokasi Twitter dengan memanfaatkan Streaming API melalui alamat: https://stream.twitter.com/1.1/statuses/filter.json.

1.2.2. Proses Pengembangan Perangkat Lunak

Untuk keperluan perancangan, dibutuhkan sebuah metode sebagai acuan proses pengembangan perangkat lunak. Maka dari itu metode perancangan yang digunakan adalah Waterfall model (Pressman, 2010).

Gambar 3.2 Model Waterfall

Integration and system testing Implementation

and unit testing Requirements

Definition

Operational and maintenance System and


(18)

30

1) Requirement Definiton

Mengumpulkan kebutuhan secara lengkap kemudian dianalisis dan didefinisikan kebutuhan yang harus dipenuhi oleh software yang akan dibangun.

2) System and Software Design

Proses pencarian kebutuhan diintensifkan dan difokuskan pada software. Bertujuan untuk memudahkan dalam pemahaman terhadap proses yang terjadi, menjelaskan alur sistem dalam perangkat lunak tersebut. Pada proses ini terdapat empat atribut diantaranya struktur data, arsitektur perangkat lunak, representasi antarmuka, dan algoritma prosedural.

3) Implementation and Unit Testing

Desain program diterjemahkan ke dalam kode-kode dengan menggunakan bahasa pemrograman yang sudah ditentukan. Program yang dibangun langsung diuji tiap unit.

4) Integration and System Testing

Tahap ini merupakan implementasi dari tahap design yang secara teknis nantinya dikerjakan oleh programmer. Penyatuan unit-unit program kemudian diuji secara keseluruhan (system testing).

5) Operation and Maintenance

Tahap ini adalah tahap pemastian software bebas dari error, dan hasilnya harus benar-benar sesuai dengan kebutuhan yang sudah didefiniskan sebelumnya, terakhir dilakukan pemeliharaan software.

1.3. Alat dan Badan Penelitian

Alat yang digunakan dalam penelitian ini adalah seperangkat komputer beserta perangkat lunaknya. Sedangkan bahan penelitian yang digunakan merupakan data yang diperoleh dari layanan jejaring sosial berbasis lokasi Twitter yaitu berupa kumpulan tweet.


(19)

31

1.3.1. Alat Penelitian

Alat penelitian yang digunakan dibagi ke dalam dua jenis, yaitu perangkat keras dan perangkat lunak.

1) Perangkat Keras

a) Intel® Pentium® Dual-Core processor T 4500 (2.3GHz, 1MB L2 Cache, 800MHz FSB)

b) RAM 4 GHz c) Harddisk 500 GB

d) Monitor Resolusi 1366 x 768, 64 bit colour quality

e) Mouse dan Keyboard

2) Perangkat Lunak

a) Windows 8 Profesional b) Netbeans 8.0

c) Java SE 7 d) XAMPP 1.7.1 e) Notepad++ 1.3.2. Bahan Penelitian

Bahan penelitian yang digunakan dalam penelitian ini adalah data kumpulan tweet yang diperoleh dari Twitter melalui Streaming API dengan kumpulan kata kunci (key word) berupa nama-nama lokasi yang telah ditentukan sebelumnya. Selain itu digunakan juga data kumpulan sinonim dan stopword.


(20)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

BAB V

KESIMPULAN DAN SARAN

5.1. Kesimpulan

Berdasarkan hasil penelitian, pengamatan dan eksperimen yang telah dilakukan, penulis dapat menarik beberapa kesimpulan yang dijelaskan sebagai berikut:

1) Dari eksperimen yang telah dilakukan pada penelitian ini diketahui bahwa algoritma klasifikasi Naive Bayes melakukan pemisahan tweet melalui dua tahapan yaitu training dan testing, dimana tahapan training digunakan untuk membentuk model pengklasifikasian yang akan digunakan pada tahapan

testing. Nilai F-Measure dari kinerja pengklasifikasian Naive Bayes yang

dihasilkan pada eksperimen ini yaitu sebesar 77,068%. Nilai tersebut membuktikan bahwa kinerja dari algoritma Naive Bayes dalam melakukan pengklasifikasian sudah terbilang cukup baik.

2) Adapun hasil eksperimen yang dilakukan pada penelitian ini menunjukkan bahwa algoritma clustering K-Means melakukan pengelompokkan tweet dengan cara membagi data ke dalam jumlah cluster k yang ditentukan, dan memanfaatkan perhitungan jarak untuk mengukur kemiripan antar data. Pemilihan jumlah cluster (k) sangat mempengaruhi hasil clustering dan nilai

purity. Semakin besar jumlah cluster (k) mengakibatkan nilai purity yang

dihasilkanpun semakin baik. Hasil eksperimen menujukkan bahwa parameter jumlah cluster (k) sebesar 130 menghasilkan nilai purity yang paling baik, yakni sebesar 0,599.

3) Pendeteksian informasi mengenai aktivitas pada kumpulan tweet dapat dilakukan dengan cara mengambil satu kata yang memiliki nilai terbesar


(21)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

diantara kata lainnya di setiap centroid akhir yang dihasilkan oleh algoritma K-Means untuk setiap cluster yang terbentuk.

5.2. Saran

Adapun saran untuk pengembangan yang lebih lanjut dari penelitian ini adalah sebagai berikut:

1) Perlu dilakukan proses text preprocessing yang lebih baik agar data yang dihasilkan jauh lebih berkualitas, banyak cara yang bisa dilakukan seperti membuat kamus kata baku, membuat daftar stop word yang lebih lengkap, dan melakukan pendataan terhadap karakter-karakter khusus yang harus dihilangkan. Hal-hal tersebut perlu dilakukan dengan lebih baik lagi agar proses text preprocessing pun menjadi semakin baik pula.

2) Perlu dilakukan penelitian lebih lanjut terhadap penggunaan algoritma klasifikasi dan clustering lainnya sebagai perbandingan untuk hasil klasifikasi

dan clustering yang lebih baik, yakni dengan akurasi dan kualitas yang lebih


(22)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

DAFTAR PUSTAKA

Feldman, R. dan James, S. (2007). The Text Mining Handbook. New York: Cambridge.

Fitton, L., Michael E Gruen., dan Leslie Poston. (2010). Twitter For Dummies, 2

nd

ed. Indianapolis: Wiley Publishing Inc.

Hamzah, Amir. (2012). “Klasifikasi Teks dengan Naive Bayes Classifier (NBC)

untuk Pengelompokkan Teks Berita dan Abstract Akademis”. Jurnal

Prosiding Seminar Nasional Aplikasi Sains & Teknologi Periode III.

Han, Jiawei. dan Kamber, Micheline. (2006). Data Mining Concepts and

Techniques, 2nd ed. San Francisco: Morgan Kaufmann Publisher.

Hermawati, F.A. (2013). Data Mining. Yogyakarta: Penerbit Andi.

Kumar, A.A. dan Chandrasekhar, S. (2012). “Text Data Pre-processing and Dimensionality Reduction Techniques for Document Clustering”.

International Journal of Engineering Research & Technology. 1, 1-6.

Narwati. (2010). “Pengelompokkan Mahasiswa Menggunakan Algoritma K-Means”.

Rendy. Wibisono, Y. dan Sukamto, R.S. (2013). “Event Detection Banjir pada Microblogging Twitter dengan Algoritma DBSCAN”. Jurnal Ilmu Komputer

Universitas Pendidikan Indonesia.

Saputra, Agus. (2014). Buku Sakti Para Pengembang Web. Cirebon: CV. ASFA Solution.

Statisticbrain (2014, Juli). Twitter Statistic [Online]. Tersedia di: http://www.statisticbrain.com/twitter-statistics/

Statista (2014, April). Statisticand Facts About Twitter [Online]. Tersedia di: http://www.statista.com/topics/737/twitter/.

Ting, K.M (2010). Precision and Recall [Online]. Tersedia di: http://link.springer.com/10.1007/978-0-387-30164-8_652.


(23)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter

Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

Trisedya, B.D. dan Hardinal Jais. (2009). “Klasifikasi Dokumen Menggunakan Algoritma Naïve Bayes dengan Penambahan Parameter Probabilitas Parent Category”. Laporan Fasilkom UI.

Turney, P.D. dan Pantel, P. (2010). “From Frequency to Meaning: Vecto r Space Models of Semantics”. Journal of Atificial Intelligence Research. 37, 141-188.

Wagstaff, Kiri. et al. (2001). “Constrained K-Means Clustering with Background Knowledge”.DaimlerChrysler Research and Technology Center.

Widiastuti, Dwi. “Analisa Perbandingan Algoritma SVM, Naive Bayes, dan

Decision Tree dalam Mengklasifikasikan Serangan (Attacks) pada Sistem

Pendeteksi Intrusi”. Jurnal Sistem Informasi Universitas Gunadarma.


(1)

30 1) Requirement Definiton

Mengumpulkan kebutuhan secara lengkap kemudian dianalisis dan didefinisikan kebutuhan yang harus dipenuhi oleh software yang akan dibangun.

2) System and Software Design

Proses pencarian kebutuhan diintensifkan dan difokuskan pada software.

Bertujuan untuk memudahkan dalam pemahaman terhadap proses yang terjadi, menjelaskan alur sistem dalam perangkat lunak tersebut. Pada proses ini terdapat empat atribut diantaranya struktur data, arsitektur perangkat lunak, representasi antarmuka, dan algoritma prosedural.

3) Implementation and Unit Testing

Desain program diterjemahkan ke dalam kode-kode dengan menggunakan bahasa pemrograman yang sudah ditentukan. Program yang dibangun langsung diuji tiap unit.

4) Integration and System Testing

Tahap ini merupakan implementasi dari tahap design yang secara teknis nantinya dikerjakan oleh programmer. Penyatuan unit-unit program kemudian diuji secara keseluruhan (system testing).

5) Operation and Maintenance

Tahap ini adalah tahap pemastian software bebas dari error, dan hasilnya harus benar-benar sesuai dengan kebutuhan yang sudah didefiniskan sebelumnya, terakhir dilakukan pemeliharaan software.

1.3. Alat dan Badan Penelitian

Alat yang digunakan dalam penelitian ini adalah seperangkat komputer beserta perangkat lunaknya. Sedangkan bahan penelitian yang digunakan merupakan data yang diperoleh dari layanan jejaring sosial berbasis lokasi Twitter yaitu berupa kumpulan tweet.


(2)

31 1.3.1. Alat Penelitian

Alat penelitian yang digunakan dibagi ke dalam dua jenis, yaitu perangkat keras dan perangkat lunak.

1) Perangkat Keras

a) Intel® Pentium® Dual-Core processor T 4500 (2.3GHz, 1MB L2 Cache, 800MHz FSB)

b) RAM 4 GHz c) Harddisk 500 GB

d) Monitor Resolusi 1366 x 768, 64 bit colour quality

e) Mouse dan Keyboard

2) Perangkat Lunak

a) Windows 8 Profesional b) Netbeans 8.0

c) Java SE 7 d) XAMPP 1.7.1 e) Notepad++

1.3.2. Bahan Penelitian

Bahan penelitian yang digunakan dalam penelitian ini adalah data kumpulan tweet yang diperoleh dari Twitter melalui Streaming API dengan kumpulan kata kunci (key word) berupa nama-nama lokasi yang telah ditentukan sebelumnya. Selain itu digunakan juga data kumpulan sinonim dan stopword.


(3)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

BAB V

KESIMPULAN DAN SARAN

5.1. Kesimpulan

Berdasarkan hasil penelitian, pengamatan dan eksperimen yang telah dilakukan, penulis dapat menarik beberapa kesimpulan yang dijelaskan sebagai berikut:

1) Dari eksperimen yang telah dilakukan pada penelitian ini diketahui bahwa algoritma klasifikasi Naive Bayes melakukan pemisahan tweet melalui dua tahapan yaitu training dan testing, dimana tahapan training digunakan untuk membentuk model pengklasifikasian yang akan digunakan pada tahapan

testing. Nilai F-Measure dari kinerja pengklasifikasian Naive Bayes yang dihasilkan pada eksperimen ini yaitu sebesar 77,068%. Nilai tersebut membuktikan bahwa kinerja dari algoritma Naive Bayes dalam melakukan pengklasifikasian sudah terbilang cukup baik.

2) Adapun hasil eksperimen yang dilakukan pada penelitian ini menunjukkan bahwa algoritma clustering K-Means melakukan pengelompokkan tweet

dengan cara membagi data ke dalam jumlah cluster k yang ditentukan, dan memanfaatkan perhitungan jarak untuk mengukur kemiripan antar data.

Pemilihan jumlah cluster (k) sangat mempengaruhi hasil clustering dan nilai

purity. Semakin besar jumlah cluster (k) mengakibatkan nilai purity yang dihasilkanpun semakin baik. Hasil eksperimen menujukkan bahwa parameter jumlah cluster (k) sebesar 130 menghasilkan nilai purity yang paling baik, yakni sebesar 0,599.

3) Pendeteksian informasi mengenai aktivitas pada kumpulan tweet dapat dilakukan dengan cara mengambil satu kata yang memiliki nilai terbesar


(4)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

diantara kata lainnya di setiap centroid akhir yang dihasilkan oleh algoritma K-Means untuk setiap cluster yang terbentuk.

5.2. Saran

Adapun saran untuk pengembangan yang lebih lanjut dari penelitian ini adalah sebagai berikut:

1) Perlu dilakukan proses text preprocessing yang lebih baik agar data yang dihasilkan jauh lebih berkualitas, banyak cara yang bisa dilakukan seperti membuat kamus kata baku, membuat daftar stop word yang lebih lengkap, dan melakukan pendataan terhadap karakter-karakter khusus yang harus dihilangkan. Hal-hal tersebut perlu dilakukan dengan lebih baik lagi agar proses text preprocessing pun menjadi semakin baik pula.

2) Perlu dilakukan penelitian lebih lanjut terhadap penggunaan algoritma klasifikasi dan clustering lainnya sebagai perbandingan untuk hasil klasifikasi dan clustering yang lebih baik, yakni dengan akurasi dan kualitas yang lebih baik pula.


(5)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

DAFTAR PUSTAKA

Feldman, R. dan James, S. (2007). The Text Mining Handbook. New York: Cambridge.

Fitton, L., Michael E Gruen., dan Leslie Poston. (2010). Twitter For Dummies, 2

nd

ed. Indianapolis: Wiley Publishing Inc.

Hamzah, Amir. (2012). “Klasifikasi Teks dengan Naive Bayes Classifier (NBC)

untuk Pengelompokkan Teks Berita dan Abstract Akademis”. Jurnal

Prosiding Seminar Nasional Aplikasi Sains & Teknologi Periode III.

Han, Jiawei. dan Kamber, Micheline. (2006). Data Mining Concepts and Techniques, 2nd ed. San Francisco: Morgan Kaufmann Publisher.

Hermawati, F.A. (2013). Data Mining. Yogyakarta: Penerbit Andi.

Kumar, A.A. dan Chandrasekhar, S. (2012). “Text Data Pre-processing and

Dimensionality Reduction Techniques for Document Clustering”. International Journal of Engineering Research & Technology. 1, 1-6.

Narwati. (2010). “Pengelompokkan Mahasiswa Menggunakan Algoritma K-Means”.

Rendy. Wibisono, Y. dan Sukamto, R.S. (2013). “Event Detection Banjir pada

Microblogging Twitter dengan Algoritma DBSCAN”. Jurnal Ilmu Komputer Universitas Pendidikan Indonesia.

Saputra, Agus. (2014). Buku Sakti Para Pengembang Web. Cirebon: CV. ASFA Solution.

Statisticbrain (2014, Juli). Twitter Statistic [Online]. Tersedia di: http://www.statisticbrain.com/twitter-statistics/

Statista (2014, April). Statisticand Facts About Twitter [Online]. Tersedia di: http://www.statista.com/topics/737/twitter/.

Ting, K.M (2010). Precision and Recall [Online]. Tersedia di: http://link.springer.com/10.1007/978-0-387-30164-8_652.


(6)

Muhammad Haryadi Futra, 2014

Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu

Trisedya, B.D. dan Hardinal Jais. (2009). “Klasifikasi Dokumen Menggunakan Algoritma Naïve Bayes dengan Penambahan Parameter Probabilitas Parent Category”. Laporan Fasilkom UI.

Turney, P.D. dan Pantel, P. (2010). “From Frequency to Meaning: Vecto r Space

Models of Semantics”. Journal of Atificial Intelligence Research. 37, 141-188.

Wagstaff, Kiri. et al. (2001). “Constrained K-Means Clustering with Background Knowledge”.DaimlerChrysler Research and Technology Center.

Widiastuti, Dwi. “Analisa Perbandingan Algoritma SVM, Naive Bayes, dan

Decision Tree dalam Mengklasifikasikan Serangan (Attacks) pada Sistem

Pendeteksi Intrusi”. Jurnal Sistem Informasi Universitas Gunadarma.