Muhammad Haryadi Futra, 2014 Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia
| repository.upi.edu
| perpustakaan.upi.edu
Berdasarkan identifikasi masalah serta dengan mempertimbangkan banyak aspek seperti waktu, kemampuan peneliti dan kepentingan penelitian, maka
permasalahan dibatasi pada hal-hal sebagai berikut: 1.
Layanan jejaring sosial berbasis lokasi yang penulis gunakan sebagai sumber data hanya satu, yaitu Twitter.
2. Data yang diambil dari Twitter merupakan kumpulan tweet dari para
pengguna yang berlokasi di Indonesia. 3.
Data yang diambil dari Twitter merupakan kumpulan tweet yang mengandung kata kunci berupa nama-nama lokasi yang telah
ditentukan dan dibatasi sebelumnya.
1.4. Tujuan Penelitian
Adapun tujuan yang hendak dicapai dari penelitian ini adalah: 1.
Untuk mengetahui cara dan kinerja algoritma Naive Bayes Classifier dalam memisahkan tweet yang berisi informasi mengenai aktivitas dan
yang tidak. 2.
Untuk mengetahui cara dan kinerja algoritma clustering K-Means dalam mengelompokkan informasi mengenai aktivitas dari data
kumpulan tweet. 3.
Untuk mengetahui aktivitas yang sedang berlangsung di tempat-tempat tertentu dengan memanfaatkan kumpulan tweet para pengguna layanan
jejaring sosial berbasis lokasi Twitter.
1.5. Manfaat Penelitian
Hasil dari penelitian ini diharapkan mampu menjadi media informasi yang tepat guna bagi siapapun yang membutuhkan, terutama bagi mereka yang
memiliki mobilitas cukup tinggi yang membutuhkan informasi dan rekomendasi
Muhammad Haryadi Futra, 2014 Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia
| repository.upi.edu
| perpustakaan.upi.edu
mengenai tempat-tempat yang sedang ramai dikunjungi untuk didatangi, juga diharapkan dapat menjadi media informasi yang membantu penggunanya untuk
menentukan apakah suatu tempat layak dikunjungi atau malah sebaiknya dihindari, selain itu juga diharapkan bisa memberikan informasi historis mengenai
tempat-tempat tersebut bagi para pengguna yang membutuhkan.
1.6. Sistematika Penulisan
Adapun sistematika penulisan penelitian ini dibagi kedalam lima bab, dan masing-masing bab terdiri dari beberapa sub bab, yaitu:
BAB I Pendahuluan
Bab ini berisi Latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaat Penelitian, dan sistematika penulisan.
BAB II Kajian Pustaka
Bab ini berisi penjelasan tentang teori-teori dan konsep algoritma yang digunakan dalam penelitian.
BAB III Metode Penelitian
Bab ini berisi penjelasan langkah-langkah yang akan dilakukan dalam penelitian
BAB IV Hasil Penelitian dan Pembahasan
Bab ini berisi uraian tentang hasil penelitian dan pembahasan terhadap hasil penelitian yang dilakukan.
BAB V Kesimpulan dan Saran
Muhammad Haryadi Futra, 2014 Deteksi aktivitas dengan memanfaatkan data layanan jejaring sosial berbasis lokasi twitter
Universitas Pendidikan Indonesia
| repository.upi.edu
| perpustakaan.upi.edu
Bab ini berisi kesimpulan dari keseluruhan penelitian yang telah dilakukan, serta saran dari penulis untuk kegiatan penelitian selanjutnya
terkait dengan topik yang sedang dibahas.
26
BAB III METODOLOGI PENELITIAN
1.1. Rancangan Penelitian
Rancangan penelitian adalah rencana dan struktur penyelidikan yang disusun sedemikian rupa sehingga penelitian akan memperoleh jawaban untuk
pertanyaan-pertanyaan penelitiannya Kerlinger, 1990: 483. Desain penelitian merupakan tahapan-tahapan yang akan dilakukan oleh penulis dalam penelitian.
Berikut tahapan penelitian yang akan dilakukan:
Gambar 3.1 Desain Penelitian
Pengumpulan Data
Crawling
Clustering Pembobotan
K-Means Evaluasi
Clustering
Klasifikasi Naive Bayes
Pembobotan Training
Evaluasi K-
Fold Cross Validation
Preprocessing Text Cleaning
Case Folding Stopword
Elimination Synonym
Replacement
Klasifikasi Naive Bayes
Testing Visualisasi
Informasi Pelabelan
Model Klasifikasi
Hasil Klasifikasi
27
Penjelasan lebih rinci dari rancangan penelitian diatas adalah sebagai berikut: 1
Pengumpulan Data Data yang digunakan dalam penelitian ini diambil dari layanan jejaring sosial
berbasis lokasi Twitter. Data yang diperoleh merupakan kumpulan tweet yang didapatkan dengan menggunakan Twitter API dengan keywords nama-nama
pusat perbelanjaan yang terdapat di kota Bandung, adapun rinciannya adalah sebagai berikut:
2 Preprocessing
Proses yang dilakukan dalam tahapan ini adalah sebagai berikut: a
Text Cleaning, yaitu menghilangkan tanda baca, menghilangkan URL dan string-string khusus pada Twitter seperti user username, tanda
retweet RT, dan hashtag hashtag.
b Case Folding, yaitu untuk menyeragamkan bentuk huruf.
c Stopword Elimination, yaitu proses pembuangan kata-kata yang dianggap
tidak memiliki value, seperti imbuhan, akhiran, dan kata sambung. d
Synonym Replacement, yaitu proses penggantian kata ke dalam bentuk sinonimnya.
Hasil yang diperoleh dari tahapan ini adalah kumpulan tweet yang sudah bersih dari hal-hal yang tidak diperlukan, sebagaimana penjelasan di atas.
3 Pelabelan adalah tahapan dimana tweet diberi label yang nantinya akan
digunakan pada proses training di tahap klasifikasi. Terdapat tiga label yang disediakan yaitu aktivitas_lokasi untuk tweet yang berisi informasi mengenai
aktivitas dan lokasi, non_aktivitas_non_lokasi untuk tweet yang tidak berisi informasi mengani aktivitas dan lokasi, dan lokasi_non_aktivitas untuk yang
hanya berisi informasi mengenai lokasi saja. Pelabelan dilakukan dengan menggunakan program aplikasi Microsoft Excel. Hasil dari tahapan ini adalah
kumpulan tweet yang memiliki label. 4
Klasifikasi Proses klasifikasi dibedakan menjadi dua proses yaitu:
28
a. Training, proses ini digunakan untuk melatih algoritma klasifikasi yang
digunakan yaitu algoritma Naive Bayes agar mampu melakukan prosesnya sesuai dengan yang diharapkan. Pada tahap ini pertama-tama akan
dilakukan proses pembobotan terhadap kumpulan tweet hasil pelabelan menggunakan perhitungan TF-IDF dengan hanya menghitung TF term
frequncy -nya saja dan dilanjutkan dengan perhitungan Add-One Laplace
Smoothing . Selanjutnya akan dihasilkan model klasifikasi yang nantinya
digunakan pada tahap testing. Pada tahap ini juga akan dilakukan proses validasi dan evaluasi terhadap kinerja model klasifikasi yang dihasilkan
dengan menghitung nilai F-Measure menggunakan teknik K-Fold Cross Validation
. Perhitungan nilai F-Measure melibatkan perhitungan nilai Precission
dan Recall. b.
Testing, proses ini dilakukan untuk melakukan pengklasifikasian terhadap dataset dengan memanfaatkan model klasifikasi yang dihasilkan pada
proses training. Hasil pada tahap ini adalah kumpulan tweet yang telah diklasifikasikan ke dalam kelas aktivitas_lokasi yang akan digunakan pada
tahapan berikutnya yaitu Clustering. 5
Clustering Pada tahap ini data hasil klasifikasi pertama-tama dilakukan pembobotan
menggunakan perhitungan TF-IDF dengan hanya menghitung TF term frequncy
-nya saja. Selanjutnya dilakukan proses clustering dengan algoritma K-Means untuk mengelompokkan data sesuai dengan informasi aktivitas
yang ada di dalamnya. Pada tahap ini juga sekaligus dilakukan proses validasi dan evaluasi kualitas hasil dari clustering dengan algoritma K-Means.
Validasi dan evaluasi menggunakan perhitungan nilai purity. 6
Visualisasi Informasi Pada tahap ini informasi yang dihasilkan dari proses clustering selanjutnya
akan divisualisasikan ke dalam format yang mudah dimengerti oleh para pengguna.
29
1.2. Metode Penelitian