DETEKSI AKTIVITAS DENGAN MEMANFAATKAN DATA LAYANAN JEJARING SOSIAL BERBASIS LOKASI TWITTER.
DETEKSI AKTIVITAS DENGAN MEMANFAATKAN DATA LAYANAN JEJARING SOSIAL BERBASIS LOKASI TWITTER
SKRIPSI
Diajukan untuk memenuhi sebagian dari Syarat untuk memperoleh Gelar Sarjana Komputer
Program Studi Ilmu Komputer
Oleh:
Muhammad Haryadi Futra 1002484
PROGRAM STUDI ILMU KOMPUTER
FAKULTAS PENDIDIKAN MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS PENDIDIKAN INDONESIA
BANDUNG 2014
(2)
DETEKSI AKTIVITAS DENGAN MEMANFAATKAN DATA LAYANAN JEJARING SOSIAL BERBASIS LOKASI TWITTER
Oleh
Muhammad Haryadi Futra
Sebuah skripsi yang diajukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana pada Fakultas Pendidikan Matematika dan Ilmu Pengetahuan Alam
© Muhammad Haryadi Futra 2014 Universitas Pendidikan Indonesia
Desember 2014
Hak Cipta dilindungi undang-undang.
Skripsi ini tidak boleh diperbanyak seluruhya atau sebagian, dengan dicetak ulang, difoto kopi, atau cara lainnya tanpa ijin dari penulis.
(3)
LEMBAR PENGESAHAN
DETEKSI AKTIVITAS DENGAN MEMANFAATKAN DATA LAYANAN JEJARING SOSIAL BERBASIS LOKASI TWITTER
Oleh:
Muhammad Haryadi Futra 1002484
DISETUJUI DAN DISAHKAN OLEH: Pembimbing 1
Yudi Wibisono, MT NIP. 197507072003121003
Pembimbing 2
Rizky Rachman J.P, M.Kom NIP. 197711252006041002
Mengetahui
Ketua Program Studi Ilmu Komputer
Jajang Kusnendar, MT NIP. 197506012008121001
(4)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
DETEKSI AKTIVITAS DENGAN MEMANFAATKAN DATA LAYANAN JEJARING SOSIAL BERBASIS LOKASI TWITTER
ABSTRAK
Twitter merupakan salah satu layanan jejaring sosial berbasis lokasi yang kini sangat populer di kalangan masyarakat pengguna internet. Twitter menjadi sumber data yang sangat bermanfaat sekaligus menjadi salah satu pusat penyedia informasi yang bersifat real-time. Pada jurnal ini penulis menitikberatkan penelitian pada pendeteksian aktivitas dengan memanfaatkan kumpulan tweet para pengguna Twitter. Untuk melakukan penelitian ini digunakan metode-metode seperti metode klasifikasi dengan algoritma Naive Bayes dan metode clustering dengan algoritma K-Means. Metode klasifikasi digunakan untuk memisahkan kumpulan tweet ke dalam kelas-kelas yang telah ditentukan, dan metode
clustering digunakan untuk mengelompokkan kumpulan tweet yang telah
diklasifikasi ke dalam cluster-nya masing-masing berdasarkan informasi aktivitas yang terdapat di dalamnya, dan setiap cluster mewakili satu aktivitas. Deteksi aktivitas dengan metode klasifikasi dan clustering memberikan hasil yang terbilang baik, dibuktikan dengan nilai F-Measure yang diperoleh untuk metode klasifikasi dengan algoritma Naive Bayes yaitu sebesar 77,068 %, dan nilai purity untuk metode clusering dengan algoritma K-Means yaitu sebesar 0,599.
Kata Kunci: Aktivitas, Twitter, Tweet, Klasifikasi, Clustering, Naive Bayes, K-Means, Purity.
(5)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
ACTIVITY DETECTION USING DATA OF LOCATION-BASED SOCIAL NETWORK SERVICE TWITTER
ABSTRACT
Twitter is a location-based social networking service that is now very popular among netizens. Twitter is a very useful source of data and become one of the central provider of real time information. In this paper the authors study focuses on detecting activity by utilizing a collection of Twitter users tweet. To conduct this study, used methods such as the method of classification with Naive Bayes algorithm and method of clustering with K-Means algorithm. Classification method is used to separate the tweet into classes that have been determined, and the clustering method is used to classify tweets that have been classified into each cluster based on the information about the activities contained in it. Each cluster represents a single event. Activity detection with classification and clustering methods give fairly good results, evidenced by the value obtained for the F-Measure of the naive Bayes classification method of 77.068%, and the value of purity for clusering method with K-Means algorithm by 0.599.
Keywords: Activity, Twitter, Tweet, Classification, Clustering, Naive Bayes, K-Means, Purity.
(6)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
DAFTAR ISI
KATA PENGANTAR ... Error! Bookmark not defined. UCAPAN TERIMAKASIH ... Error! Bookmark not defined. ABSTRAK ... Error! Bookmark not defined. DAFTAR ISI ...v DAFTAR TABEL ... Error! Bookmark not defined. DAFTAR GAMBAR ... Error! Bookmark not defined. BAB I PENDAHULUAN ... Error! Bookmark not defined. 1.1. Latar Belakang ... Error! Bookmark not defined. 1.2. Rumusan Masalah ... Error! Bookmark not defined. 1.3. Batasan Masalah ... Error! Bookmark not defined. 1.4. Tujuan Penelitian ... Error! Bookmark not defined. 1.5. Manfaat Penelitian ... Error! Bookmark not defined. 1.6. Sistematika Penulisan ... Error! Bookmark not defined. BAB II KAJIAN PUSTAKA ... Error! Bookmark not defined. 2.1. Layanan Jejaring Sosial Berbasis Lokasi Error! Bookmark not defined. 2.2. Twitter ... Error! Bookmark not defined.
2.3. Data Mining ... Error! Bookmark not defined.
2.4. Text Mining... Error! Bookmark not defined. 2.5. Klasifikasi ... Error! Bookmark not defined. 2.6. Clustering ... Error! Bookmark not defined. BAB III METODOLOGI PENELITIAN ... Error! Bookmark not defined. 3.1. Rancangan Penelitian ... Error! Bookmark not defined.
(7)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
3.2. Metode Penelitian ... Error! Bookmark not defined. 3.3. Alat dan Badan Penelitian ... Error! Bookmark not defined. BAB IV HASIL PENELITIAN DAN PEMBAHASAN ... Error! Bookmark not
defined.
4.1. Pengembangan Perangkat Lunak ... Error! Bookmark not defined. 4.2. Pembahasan Eksperimen ... Error! Bookmark not defined. 4.3. Eksperimen ... Error! Bookmark not defined. 4.4. Hasil Eksperimen ... Error! Bookmark not defined. 4.5. Pembahasan Hasil Eksperimen ... Error! Bookmark not defined. BAB V KESIMPULAN DAN SARAN... Error! Bookmark not defined. 5.1. Kesimpulan ... Error! Bookmark not defined. 5.2. Saran ... Error! Bookmark not defined. DAFTAR PUSTAKA ... Error! Bookmark not defined. LAMPIRAN ... Error! Bookmark not defined.
(8)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
BAB I PENDAHULUAN
1.1. Latar Belakang
Twitter merupakan salah satu layanan jejaring sosial berbasis lokasi yang kini menjadi sangat populer di kalangan masyarakat pengguna internet. Twitter memungkin para penggunanya untuk menulis apapun yang mereka inginkan, seperti pengalaman hidup, pendapat, pandangan terhadap topik populer, hingga apapun yang sedang mereka lakukan. Twitter menamai tulisan para penggunanya itu dengan istilah tweet.
Berdasarkan data yang dikeluarkan pada April 2014, diketahui bahwa pada kuartal kedua tahun 2014 Twitter memiliki pengguna aktif sebanyak 271 juta jiwa per bulannya (Statista, 2014), dan memiliki jumlah total pengguna aktif sebanyak 645 juta jiwa, dengan jumlah rata-rata tweet yang dihasilkan sebanyak 58 juta
tweet per hari (Statisticbrain, 2014). Sebagai sumber informasi, Twitter terbukti
menyediakan data yang berjumlah sangat besar dan mudah didapat. Selain itu informasi yang disediakan oleh Twitter terdiri dari beranekaragam topik, ini membuat Twitter sebagai jejaring sosial berbasis lokasi menjadi salah satu pusat informasi ter-up-to-date yang sangat berkualitas, sehingga banyak pengetahuan baru dapat diambil darinya.
Informasi dan pengetahuan baru yang diperoleh dari Twitter dapat digunakan untuk berbagai macam keperluan, salah satunya pada penelitian ini.
Tweet dari Twitter digunakan untuk mendeteksi aktivitas yang sedang dilakukan
oleh para pengguna Twitter di lokasi-lokasi yang ditentukan. Hal ini nantinya dapat digunakan untuk memetakan perilaku pengguna Twitter pada kehidupan nyatanya dengan mengetahui aktivitas yang mereka lakukan dalam kurun waktu tertentu.
(9)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
Untuk mendapatkan informasi-informasi yang diinginkan tersebut, perlu dilakukan pemrosesan awal terhadap tweet yang akan dijadikan sumber data. Ini dikarenakan pola penulisan tweet yang beraneka ragam, dimana banyak ditemukan hal-hal yang sangat jarang digunakan seperti kata tidak baku, pengulangan kata yang berlebihan, penggunaan kata-kata gaul, dan pengguna karakter-karakter yang tidak memiliki arti. Hal-hal tersebut harus dihilangkan dari
tweet agar dapat dihasilkan informasi yang tepat dan bermanfaat.
Penelitian ini melakukan analisis terhadap tweet untuk mendeteksi informasi-informasi mengenai aktivitas dengan menggunakan metode Klasifikasi dan metode clustering.Metode klasifikasi digunakan untuk memisahkan tweet ke dalam tiga kelas yang ditentukan, yaitu aktivitas_lokasi untuk tweet yang berisi informasi mengenai aktivitas dan lokasi, non_aktivitas_non_lokasi untuk tweet yang tidak berisi informasi mengenai aktivitas dan lokasi, dan kelas lokasi_non_aktivitas untuk tweet yang tidak berisi informasi mengenai aktivitas tetapi mengindikasikan pemiliki tweet sedang berada di lokasi yang ditentukan. Metode clustering digunakan untuk mengelompokkan tweet dalam kelas aktivitas_lokasi berdasarkan informasi aktivitasyang ada di dalamnya.
Klasifikasi dilakukan dengan menggunakan algoritma Naive Bayes. Naive Bayes merupakan salah satu metode machine learning yang menggunakan konsep dasar Teorema Bayes, yaitu melakukan klasifikasi dengan perhitungan nilai probabilitas (Trisedya dan Jais, 2009: 2). Naive Bayes dalam berbagai penelitian empiris terbukti memiliki performa pengklasifikasian yang cukup tinggi, selain itu algoritma ini sangat mudah di implememtasikan ke dalam berbagai studi kasus sehingga cocok digunakan untuk mengklasifikasikan tweet.
Metode Clustering yang akan dilakukan menggunakan algoritma K-Means yang mempartisi data ke dalam cluster (kelompok) sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan yang memiliki karakteristik yang berbeda dikelompokkan pada kelompok yang
(10)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
lain (Narwati, 2010: 2). Algoritma ini memiliki performa yang cukup baik, sangat mudah diadaptasi dan diimplementasikan ke berbagai kasus, selain itu waktu yang diperlukan untuk proses clustering-nya pun cukup singkat, sehingga cocok digunakan untuk mendeteksi aktivitas dari sekumpulan tweet yang diberikan.
Pemilihan aktivitas sebagai objek pada penelitian ini didasarkan pada perubahan pola hidup manusia yang kini mengarah pada perilaku mobilitas yang tinggi, yang mengakibatkan mereka sering berpindah-pindah lokasi dalam melakukan aktivitas kesehariannya. Karenanya penelitian ini dilakukan untuk dapat menggambarkan perilaku mobilitas manusia tersebut, agar nantinya dapat diketahui apa saja aktivitas yang dilakukan, dan dimana lokasi tempat aktivitas tersebut dilakukan, agar nantinya dapat digunakan sebagai informasi dan pengetahuan baru yang bermanfaat dan tepat guna.
1.2. Rumusan Masalah
Berdasarkan latar belakang masalah yang telah diuraikan di atas maka permasalahan yang akan diidentifikasi dalam penelitian ini adalah:
1. Bagaimana algoritma Naive Bayes Classifier dapat membantu memisahkan tweet yang berisi informasi mengenai aktivitas dan yang tidak.
2. Bagaimana algoritma clustering K-Means dapat membantu mengelompokkan informasi mengenai aktivitas dari data kumpulan tweet.
3. Bagaimana mengetahui aktivitas yang sedang berlangsung di tempat-tempat tertentu dengan memanfaatkan kumpulan tweet para pengguna layanan jejaring sosial berbasis lokasi Twitter.
(11)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
Berdasarkan identifikasi masalah serta dengan mempertimbangkan banyak aspek seperti waktu, kemampuan peneliti dan kepentingan penelitian, maka permasalahan dibatasi pada hal-hal sebagai berikut:
1. Layanan jejaring sosial berbasis lokasi yang penulis gunakan sebagai sumber data hanya satu, yaitu Twitter.
2. Data yang diambil dari Twitter merupakan kumpulan tweet dari para pengguna yang berlokasi di Indonesia.
3. Data yang diambil dari Twitter merupakan kumpulan tweet yang mengandung kata kunci berupa nama-nama lokasi yang telah ditentukan dan dibatasi sebelumnya.
1.4. Tujuan Penelitian
Adapun tujuan yang hendak dicapai dari penelitian ini adalah:
1. Untuk mengetahui cara dan kinerja algoritma Naive Bayes Classifier dalam memisahkan tweet yang berisi informasi mengenai aktivitas dan yang tidak.
2. Untuk mengetahui cara dan kinerja algoritma clustering K-Means dalam mengelompokkan informasi mengenai aktivitas dari data kumpulan tweet.
3. Untuk mengetahui aktivitas yang sedang berlangsung di tempat-tempat tertentu dengan memanfaatkan kumpulan tweet para pengguna layanan jejaring sosial berbasis lokasi Twitter.
1.5. Manfaat Penelitian
Hasil dari penelitian ini diharapkan mampu menjadi media informasi yang tepat guna bagi siapapun yang membutuhkan, terutama bagi mereka yang memiliki mobilitas cukup tinggi yang membutuhkan informasi dan rekomendasi
(12)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
mengenai tempat-tempat yang sedang ramai dikunjungi untuk didatangi, juga diharapkan dapat menjadi media informasi yang membantu penggunanya untuk menentukan apakah suatu tempat layak dikunjungi atau malah sebaiknya dihindari, selain itu juga diharapkan bisa memberikan informasi historis mengenai tempat-tempat tersebut bagi para pengguna yang membutuhkan.
1.6. Sistematika Penulisan
Adapun sistematika penulisan penelitian ini dibagi kedalam lima bab, dan masing-masing bab terdiri dari beberapa sub bab, yaitu:
BAB I Pendahuluan
Bab ini berisi Latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaat Penelitian, dan sistematika penulisan.
BAB II Kajian Pustaka
Bab ini berisi penjelasan tentang teori-teori dan konsep algoritma yang digunakan dalam penelitian.
BAB III Metode Penelitian
Bab ini berisi penjelasan langkah-langkah yang akan dilakukan dalam penelitian
BAB IV Hasil Penelitian dan Pembahasan
Bab ini berisi uraian tentang hasil penelitian dan pembahasan terhadap hasil penelitian yang dilakukan.
(13)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
Bab ini berisi kesimpulan dari keseluruhan penelitian yang telah dilakukan, serta saran dari penulis untuk kegiatan penelitian selanjutnya terkait dengan topik yang sedang dibahas.
(14)
26
BAB III
METODOLOGI PENELITIAN
1.1. Rancangan Penelitian
Rancangan penelitian adalah rencana dan struktur penyelidikan yang disusun sedemikian rupa sehingga penelitian akan memperoleh jawaban untuk pertanyaan-pertanyaan penelitiannya (Kerlinger, 1990: 483). Desain penelitian merupakan tahapan-tahapan yang akan dilakukan oleh penulis dalam penelitian. Berikut tahapan penelitian yang akan dilakukan:
Gambar 3.1 Desain Penelitian Pengumpulan Data Crawling Clustering Pembobotan K-Means Evaluasi Clustering Klasifikasi
(Naive Bayes)
Pembobotan
Training
Evaluasi (K-Fold Cross Validation) Preprocessing
Text Cleaning
Case Folding
Stopword Elimination Synonym Replacement Klasifikasi (Naive Bayes) Testing Visualisasi Informasi Pelabelan Model Klasifikasi Hasil Klasifikasi
(15)
27
Penjelasan lebih rinci dari rancangan penelitian diatas adalah sebagai berikut: 1) Pengumpulan Data
Data yang digunakan dalam penelitian ini diambil dari layanan jejaring sosial berbasis lokasi Twitter. Data yang diperoleh merupakan kumpulan tweet yang didapatkan dengan menggunakan Twitter API dengan keywords nama-nama pusat perbelanjaan yang terdapat di kota Bandung, adapun rinciannya adalah sebagai berikut:
2) Preprocessing
Proses yang dilakukan dalam tahapan ini adalah sebagai berikut:
a) Text Cleaning, yaitu menghilangkan tanda baca, menghilangkan URL
dan string-string khusus pada Twitter seperti user (@username), tanda
retweet (RT),dan hashtag (#hashtag).
b) Case Folding, yaitu untuk menyeragamkan bentuk huruf.
c) Stopword Elimination, yaitu proses pembuangan kata-kata yang dianggap
tidak memiliki value, seperti imbuhan, akhiran, dan kata sambung.
d) Synonym Replacement, yaitu proses penggantian kata ke dalam bentuk
sinonimnya.
Hasil yang diperoleh dari tahapan ini adalah kumpulan tweet yang sudah bersih dari hal-hal yang tidak diperlukan, sebagaimana penjelasan di atas. 3) Pelabelan adalah tahapan dimana tweet diberi label yang nantinya akan
digunakan pada proses training di tahap klasifikasi. Terdapat tiga label yang disediakan yaitu aktivitas_lokasi untuk tweet yang berisi informasi mengenai aktivitas dan lokasi, non_aktivitas_non_lokasi untuk tweet yang tidak berisi informasi mengani aktivitas dan lokasi, dan lokasi_non_aktivitas untuk yang hanya berisi informasi mengenai lokasi saja. Pelabelan dilakukan dengan menggunakan program aplikasi Microsoft Excel. Hasil dari tahapan ini adalah kumpulan tweet yang memiliki label.
4) Klasifikasi
(16)
28
a. Training, proses ini digunakan untuk melatih algoritma klasifikasi yang
digunakan yaitu algoritma Naive Bayes agar mampu melakukan prosesnya sesuai dengan yang diharapkan. Pada tahap ini pertama-tama akan dilakukan proses pembobotan terhadap kumpulan tweet hasil pelabelan menggunakan perhitungan TF-IDF dengan hanya menghitung TF (term
frequncy)-nya saja dan dilanjutkan dengan perhitungan Add-One (Laplace)
Smoothing. Selanjutnya akan dihasilkan model klasifikasi yang nantinya
digunakan pada tahap testing. Pada tahap ini juga akan dilakukan proses validasi dan evaluasi terhadap kinerja model klasifikasi yang dihasilkan dengan menghitung nilai F-Measure menggunakan teknik K-Fold Cross
Validation. Perhitungan nilai F-Measure melibatkan perhitungan nilai
Precission dan Recall.
b. Testing, proses ini dilakukan untuk melakukan pengklasifikasian terhadap
dataset dengan memanfaatkan model klasifikasi yang dihasilkan pada proses training. Hasil pada tahap ini adalah kumpulan tweet yang telah diklasifikasikan ke dalam kelas aktivitas_lokasi yang akan digunakan pada tahapan berikutnya yaitu Clustering.
5) Clustering
Pada tahap ini data hasil klasifikasi pertama-tama dilakukan pembobotan menggunakan perhitungan TF-IDF dengan hanya menghitung TF (term
frequncy)-nya saja. Selanjutnya dilakukan proses clustering dengan algoritma
K-Means untuk mengelompokkan data sesuai dengan informasi aktivitas yang ada di dalamnya. Pada tahap ini juga sekaligus dilakukan proses validasi dan evaluasi kualitas hasil dari clustering dengan algoritma K-Means. Validasi dan evaluasi menggunakan perhitungan nilai purity.
6) Visualisasi Informasi
Pada tahap ini informasi yang dihasilkan dari proses clustering selanjutnya akan divisualisasikan ke dalam format yang mudah dimengerti oleh para pengguna.
(17)
29
1.2. Metode Penelitian
Metode penelitian yang digunakan dalam penelitian ini dibedakan menjadi dua, diantaranya dijelaskan sebagai berikut:
1.2.1. Proses Pengumpulan Data
Data yang digunakan dalam penelitian ini diambil dari layanan jejaring sosial berbasis lokasi Twitter dengan memanfaatkan Streaming API melalui alamat: https://stream.twitter.com/1.1/statuses/filter.json.
1.2.2. Proses Pengembangan Perangkat Lunak
Untuk keperluan perancangan, dibutuhkan sebuah metode sebagai acuan proses pengembangan perangkat lunak. Maka dari itu metode perancangan yang digunakan adalah Waterfall model (Pressman, 2010).
Gambar 3.2 Model Waterfall
Integration and system testing Implementation
and unit testing Requirements
Definition
Operational and maintenance System and
(18)
30
1) Requirement Definiton
Mengumpulkan kebutuhan secara lengkap kemudian dianalisis dan didefinisikan kebutuhan yang harus dipenuhi oleh software yang akan dibangun.
2) System and Software Design
Proses pencarian kebutuhan diintensifkan dan difokuskan pada software. Bertujuan untuk memudahkan dalam pemahaman terhadap proses yang terjadi, menjelaskan alur sistem dalam perangkat lunak tersebut. Pada proses ini terdapat empat atribut diantaranya struktur data, arsitektur perangkat lunak, representasi antarmuka, dan algoritma prosedural.
3) Implementation and Unit Testing
Desain program diterjemahkan ke dalam kode-kode dengan menggunakan bahasa pemrograman yang sudah ditentukan. Program yang dibangun langsung diuji tiap unit.
4) Integration and System Testing
Tahap ini merupakan implementasi dari tahap design yang secara teknis nantinya dikerjakan oleh programmer. Penyatuan unit-unit program kemudian diuji secara keseluruhan (system testing).
5) Operation and Maintenance
Tahap ini adalah tahap pemastian software bebas dari error, dan hasilnya harus benar-benar sesuai dengan kebutuhan yang sudah didefiniskan sebelumnya, terakhir dilakukan pemeliharaan software.
1.3. Alat dan Badan Penelitian
Alat yang digunakan dalam penelitian ini adalah seperangkat komputer beserta perangkat lunaknya. Sedangkan bahan penelitian yang digunakan merupakan data yang diperoleh dari layanan jejaring sosial berbasis lokasi Twitter yaitu berupa kumpulan tweet.
(19)
31
1.3.1. Alat Penelitian
Alat penelitian yang digunakan dibagi ke dalam dua jenis, yaitu perangkat keras dan perangkat lunak.
1) Perangkat Keras
a) Intel® Pentium® Dual-Core processor T 4500 (2.3GHz, 1MB L2 Cache, 800MHz FSB)
b) RAM 4 GHz c) Harddisk 500 GB
d) Monitor Resolusi 1366 x 768, 64 bit colour quality
e) Mouse dan Keyboard
2) Perangkat Lunak
a) Windows 8 Profesional b) Netbeans 8.0
c) Java SE 7 d) XAMPP 1.7.1 e) Notepad++ 1.3.2. Bahan Penelitian
Bahan penelitian yang digunakan dalam penelitian ini adalah data kumpulan tweet yang diperoleh dari Twitter melalui Streaming API dengan kumpulan kata kunci (key word) berupa nama-nama lokasi yang telah ditentukan sebelumnya. Selain itu digunakan juga data kumpulan sinonim dan stopword.
(20)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
BAB V
KESIMPULAN DAN SARAN
5.1. Kesimpulan
Berdasarkan hasil penelitian, pengamatan dan eksperimen yang telah dilakukan, penulis dapat menarik beberapa kesimpulan yang dijelaskan sebagai berikut:
1) Dari eksperimen yang telah dilakukan pada penelitian ini diketahui bahwa algoritma klasifikasi Naive Bayes melakukan pemisahan tweet melalui dua tahapan yaitu training dan testing, dimana tahapan training digunakan untuk membentuk model pengklasifikasian yang akan digunakan pada tahapan
testing. Nilai F-Measure dari kinerja pengklasifikasian Naive Bayes yang
dihasilkan pada eksperimen ini yaitu sebesar 77,068%. Nilai tersebut membuktikan bahwa kinerja dari algoritma Naive Bayes dalam melakukan pengklasifikasian sudah terbilang cukup baik.
2) Adapun hasil eksperimen yang dilakukan pada penelitian ini menunjukkan bahwa algoritma clustering K-Means melakukan pengelompokkan tweet dengan cara membagi data ke dalam jumlah cluster k yang ditentukan, dan memanfaatkan perhitungan jarak untuk mengukur kemiripan antar data. Pemilihan jumlah cluster (k) sangat mempengaruhi hasil clustering dan nilai
purity. Semakin besar jumlah cluster (k) mengakibatkan nilai purity yang
dihasilkanpun semakin baik. Hasil eksperimen menujukkan bahwa parameter jumlah cluster (k) sebesar 130 menghasilkan nilai purity yang paling baik, yakni sebesar 0,599.
3) Pendeteksian informasi mengenai aktivitas pada kumpulan tweet dapat dilakukan dengan cara mengambil satu kata yang memiliki nilai terbesar
(21)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
diantara kata lainnya di setiap centroid akhir yang dihasilkan oleh algoritma K-Means untuk setiap cluster yang terbentuk.
5.2. Saran
Adapun saran untuk pengembangan yang lebih lanjut dari penelitian ini adalah sebagai berikut:
1) Perlu dilakukan proses text preprocessing yang lebih baik agar data yang dihasilkan jauh lebih berkualitas, banyak cara yang bisa dilakukan seperti membuat kamus kata baku, membuat daftar stop word yang lebih lengkap, dan melakukan pendataan terhadap karakter-karakter khusus yang harus dihilangkan. Hal-hal tersebut perlu dilakukan dengan lebih baik lagi agar proses text preprocessing pun menjadi semakin baik pula.
2) Perlu dilakukan penelitian lebih lanjut terhadap penggunaan algoritma klasifikasi dan clustering lainnya sebagai perbandingan untuk hasil klasifikasi
dan clustering yang lebih baik, yakni dengan akurasi dan kualitas yang lebih
(22)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
DAFTAR PUSTAKA
Feldman, R. dan James, S. (2007). The Text Mining Handbook. New York: Cambridge.
Fitton, L., Michael E Gruen., dan Leslie Poston. (2010). Twitter For Dummies, 2
nd
ed. Indianapolis: Wiley Publishing Inc.
Hamzah, Amir. (2012). “Klasifikasi Teks dengan Naive Bayes Classifier (NBC)
untuk Pengelompokkan Teks Berita dan Abstract Akademis”. Jurnal
Prosiding Seminar Nasional Aplikasi Sains & Teknologi Periode III.
Han, Jiawei. dan Kamber, Micheline. (2006). Data Mining Concepts and
Techniques, 2nd ed. San Francisco: Morgan Kaufmann Publisher.
Hermawati, F.A. (2013). Data Mining. Yogyakarta: Penerbit Andi.
Kumar, A.A. dan Chandrasekhar, S. (2012). “Text Data Pre-processing and Dimensionality Reduction Techniques for Document Clustering”.
International Journal of Engineering Research & Technology. 1, 1-6.
Narwati. (2010). “Pengelompokkan Mahasiswa Menggunakan Algoritma K-Means”.
Rendy. Wibisono, Y. dan Sukamto, R.S. (2013). “Event Detection Banjir pada Microblogging Twitter dengan Algoritma DBSCAN”. Jurnal Ilmu Komputer
Universitas Pendidikan Indonesia.
Saputra, Agus. (2014). Buku Sakti Para Pengembang Web. Cirebon: CV. ASFA Solution.
Statisticbrain (2014, Juli). Twitter Statistic [Online]. Tersedia di: http://www.statisticbrain.com/twitter-statistics/
Statista (2014, April). Statisticand Facts About Twitter [Online]. Tersedia di: http://www.statista.com/topics/737/twitter/.
Ting, K.M (2010). Precision and Recall [Online]. Tersedia di: http://link.springer.com/10.1007/978-0-387-30164-8_652.
(23)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
Trisedya, B.D. dan Hardinal Jais. (2009). “Klasifikasi Dokumen Menggunakan Algoritma Naïve Bayes dengan Penambahan Parameter Probabilitas Parent Category”. Laporan Fasilkom UI.
Turney, P.D. dan Pantel, P. (2010). “From Frequency to Meaning: Vecto r Space Models of Semantics”. Journal of Atificial Intelligence Research. 37, 141-188.
Wagstaff, Kiri. et al. (2001). “Constrained K-Means Clustering with Background Knowledge”.DaimlerChrysler Research and Technology Center.
Widiastuti, Dwi. “Analisa Perbandingan Algoritma SVM, Naive Bayes, dan
Decision Tree dalam Mengklasifikasikan Serangan (Attacks) pada Sistem
Pendeteksi Intrusi”. Jurnal Sistem Informasi Universitas Gunadarma.
(1)
30 1) Requirement Definiton
Mengumpulkan kebutuhan secara lengkap kemudian dianalisis dan didefinisikan kebutuhan yang harus dipenuhi oleh software yang akan dibangun.
2) System and Software Design
Proses pencarian kebutuhan diintensifkan dan difokuskan pada software.
Bertujuan untuk memudahkan dalam pemahaman terhadap proses yang terjadi, menjelaskan alur sistem dalam perangkat lunak tersebut. Pada proses ini terdapat empat atribut diantaranya struktur data, arsitektur perangkat lunak, representasi antarmuka, dan algoritma prosedural.
3) Implementation and Unit Testing
Desain program diterjemahkan ke dalam kode-kode dengan menggunakan bahasa pemrograman yang sudah ditentukan. Program yang dibangun langsung diuji tiap unit.
4) Integration and System Testing
Tahap ini merupakan implementasi dari tahap design yang secara teknis nantinya dikerjakan oleh programmer. Penyatuan unit-unit program kemudian diuji secara keseluruhan (system testing).
5) Operation and Maintenance
Tahap ini adalah tahap pemastian software bebas dari error, dan hasilnya harus benar-benar sesuai dengan kebutuhan yang sudah didefiniskan sebelumnya, terakhir dilakukan pemeliharaan software.
1.3. Alat dan Badan Penelitian
Alat yang digunakan dalam penelitian ini adalah seperangkat komputer beserta perangkat lunaknya. Sedangkan bahan penelitian yang digunakan merupakan data yang diperoleh dari layanan jejaring sosial berbasis lokasi Twitter yaitu berupa kumpulan tweet.
(2)
31 1.3.1. Alat Penelitian
Alat penelitian yang digunakan dibagi ke dalam dua jenis, yaitu perangkat keras dan perangkat lunak.
1) Perangkat Keras
a) Intel® Pentium® Dual-Core processor T 4500 (2.3GHz, 1MB L2 Cache, 800MHz FSB)
b) RAM 4 GHz c) Harddisk 500 GB
d) Monitor Resolusi 1366 x 768, 64 bit colour quality
e) Mouse dan Keyboard
2) Perangkat Lunak
a) Windows 8 Profesional b) Netbeans 8.0
c) Java SE 7 d) XAMPP 1.7.1 e) Notepad++
1.3.2. Bahan Penelitian
Bahan penelitian yang digunakan dalam penelitian ini adalah data kumpulan tweet yang diperoleh dari Twitter melalui Streaming API dengan kumpulan kata kunci (key word) berupa nama-nama lokasi yang telah ditentukan sebelumnya. Selain itu digunakan juga data kumpulan sinonim dan stopword.
(3)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
BAB V
KESIMPULAN DAN SARAN
5.1. Kesimpulan
Berdasarkan hasil penelitian, pengamatan dan eksperimen yang telah dilakukan, penulis dapat menarik beberapa kesimpulan yang dijelaskan sebagai berikut:
1) Dari eksperimen yang telah dilakukan pada penelitian ini diketahui bahwa algoritma klasifikasi Naive Bayes melakukan pemisahan tweet melalui dua tahapan yaitu training dan testing, dimana tahapan training digunakan untuk membentuk model pengklasifikasian yang akan digunakan pada tahapan
testing. Nilai F-Measure dari kinerja pengklasifikasian Naive Bayes yang dihasilkan pada eksperimen ini yaitu sebesar 77,068%. Nilai tersebut membuktikan bahwa kinerja dari algoritma Naive Bayes dalam melakukan pengklasifikasian sudah terbilang cukup baik.
2) Adapun hasil eksperimen yang dilakukan pada penelitian ini menunjukkan bahwa algoritma clustering K-Means melakukan pengelompokkan tweet
dengan cara membagi data ke dalam jumlah cluster k yang ditentukan, dan memanfaatkan perhitungan jarak untuk mengukur kemiripan antar data.
Pemilihan jumlah cluster (k) sangat mempengaruhi hasil clustering dan nilai
purity. Semakin besar jumlah cluster (k) mengakibatkan nilai purity yang dihasilkanpun semakin baik. Hasil eksperimen menujukkan bahwa parameter jumlah cluster (k) sebesar 130 menghasilkan nilai purity yang paling baik, yakni sebesar 0,599.
3) Pendeteksian informasi mengenai aktivitas pada kumpulan tweet dapat dilakukan dengan cara mengambil satu kata yang memiliki nilai terbesar
(4)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
diantara kata lainnya di setiap centroid akhir yang dihasilkan oleh algoritma K-Means untuk setiap cluster yang terbentuk.
5.2. Saran
Adapun saran untuk pengembangan yang lebih lanjut dari penelitian ini adalah sebagai berikut:
1) Perlu dilakukan proses text preprocessing yang lebih baik agar data yang dihasilkan jauh lebih berkualitas, banyak cara yang bisa dilakukan seperti membuat kamus kata baku, membuat daftar stop word yang lebih lengkap, dan melakukan pendataan terhadap karakter-karakter khusus yang harus dihilangkan. Hal-hal tersebut perlu dilakukan dengan lebih baik lagi agar proses text preprocessing pun menjadi semakin baik pula.
2) Perlu dilakukan penelitian lebih lanjut terhadap penggunaan algoritma klasifikasi dan clustering lainnya sebagai perbandingan untuk hasil klasifikasi dan clustering yang lebih baik, yakni dengan akurasi dan kualitas yang lebih baik pula.
(5)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
DAFTAR PUSTAKA
Feldman, R. dan James, S. (2007). The Text Mining Handbook. New York: Cambridge.
Fitton, L., Michael E Gruen., dan Leslie Poston. (2010). Twitter For Dummies, 2
nd
ed. Indianapolis: Wiley Publishing Inc.
Hamzah, Amir. (2012). “Klasifikasi Teks dengan Naive Bayes Classifier (NBC)
untuk Pengelompokkan Teks Berita dan Abstract Akademis”. Jurnal
Prosiding Seminar Nasional Aplikasi Sains & Teknologi Periode III.
Han, Jiawei. dan Kamber, Micheline. (2006). Data Mining Concepts and Techniques, 2nd ed. San Francisco: Morgan Kaufmann Publisher.
Hermawati, F.A. (2013). Data Mining. Yogyakarta: Penerbit Andi.
Kumar, A.A. dan Chandrasekhar, S. (2012). “Text Data Pre-processing and
Dimensionality Reduction Techniques for Document Clustering”. International Journal of Engineering Research & Technology. 1, 1-6.
Narwati. (2010). “Pengelompokkan Mahasiswa Menggunakan Algoritma K-Means”.
Rendy. Wibisono, Y. dan Sukamto, R.S. (2013). “Event Detection Banjir pada
Microblogging Twitter dengan Algoritma DBSCAN”. Jurnal Ilmu Komputer Universitas Pendidikan Indonesia.
Saputra, Agus. (2014). Buku Sakti Para Pengembang Web. Cirebon: CV. ASFA Solution.
Statisticbrain (2014, Juli). Twitter Statistic [Online]. Tersedia di: http://www.statisticbrain.com/twitter-statistics/
Statista (2014, April). Statisticand Facts About Twitter [Online]. Tersedia di: http://www.statista.com/topics/737/twitter/.
Ting, K.M (2010). Precision and Recall [Online]. Tersedia di: http://link.springer.com/10.1007/978-0-387-30164-8_652.
(6)
Muhammad Haryadi Futra, 2014
Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter Universitas Pendidikan Indonesia | repository.upi.edu | perpustakaan.upi.edu
Trisedya, B.D. dan Hardinal Jais. (2009). “Klasifikasi Dokumen Menggunakan Algoritma Naïve Bayes dengan Penambahan Parameter Probabilitas Parent Category”. Laporan Fasilkom UI.
Turney, P.D. dan Pantel, P. (2010). “From Frequency to Meaning: Vecto r Space
Models of Semantics”. Journal of Atificial Intelligence Research. 37, 141-188.
Wagstaff, Kiri. et al. (2001). “Constrained K-Means Clustering with Background Knowledge”.DaimlerChrysler Research and Technology Center.
Widiastuti, Dwi. “Analisa Perbandingan Algoritma SVM, Naive Bayes, dan
Decision Tree dalam Mengklasifikasikan Serangan (Attacks) pada Sistem
Pendeteksi Intrusi”. Jurnal Sistem Informasi Universitas Gunadarma.