Clustering Data Teks Twitter Untuk Kasus Pertanian Di Indonesia
CLUSTERING DATA TEKS TWITTER UNTUK
KASUS PERTANIAN DI INDONESIA
RYAN BUDIMAN DENATARI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Clustering Data Teks
Twitter untuk Kasus Pertanian di Indonesia adalah benar karya saya dengan
arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada
perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya
yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam
teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Agustus 2015
Ryan Budiman Denatari
NIM G64110022
ABSTRAK
RYAN BUDIMAN DENATARI. Clustering Data Teks Twitter untuk Kasus
Pertanian di Indonesia. Dibimbing oleh HARI AGUNG ADRIANTO.
Mayoritas pengguna internet di Indonesia mengakses media sosial. Hal
tersebut menyebabkan masyarakat dapat memperoleh informasi dan
menyebarkannya dengan lebih cepat. Informasi yang beredar melalui media sosial
sangat beragam, termasuk di dalamnya topik pertanian. Hal ini dapat
dimanfaatkan untuk menganalisis kasus pertanian di Indonesia, dengan melakukan
clustering data teks Twitter untuk kasus pertanian di Indonesia. Data yang
digunakan yaitu data teks Twitter berjumlah 102 data. Data teks Twitter terbagi
menjadi 2 jenis, yaitu data tweet sejumlah 51 data dan data konten uniform
resource locator sejumlah 51 data. Kedua jenis data tersebut dibandingkan dan
dikelompokkan dengan algoritme hierarchical clustering untuk mendapatkan
cluster terbaik. Data teks tersebut diukur kemiripannya dengan metode cosine
similarity. Hasil cluster terbaik yang diperoleh yaitu jenis data konten uniform
resource locator pada complete linkage yang terbagi ke dalam 12 cluster, dengan
nilai sum of squared error 0.1499 pada ketinggian 0.032. Data konten uniform
resource locator lebih baik karena memiliki jumlah term yang lebih banyak
sehingga lebih merepresentasikan isi topik dari data. Jumlah data konten uniform
resource locator yang diberi label berjumlah 50 data yang terbagi ke dalam 11
cluster.
Kata kunci: clustering, cosine similarity, hierarchical clustering, twitter
ABSTRACT
RYAN BUDIMAN DENATARI. Twitter Text Data Clustering for Agricultural
Case in Indonesia. Supervised by HARI AGUNG ADRIANTO.
Majority of internet users in Indonesia use social media. Through social
media people obtain and disseminate information more quickly. The information
from social media is very diverse, including agricultural topics. It can be used to
analyze agricultural cases in Indonesia, by performing clustering Twitter text data
for agricultural cases in Indonesia. The data used are 102 Twitter data. Twitter
text data was divided into 2 types, namely 51 tweet data and 51 uniform resource
locators. Both types of data are compared and clustered by hierarchical clustering
algorithm to get the best cluster. The text data similarity is measured using cosine.
Best cluster results obtained are the uniform resource locators in complete linkage
which are divided into 12 clusters, with sum of squared error value of 0.1499 at
height of 0.032. Uniform resource locator data are better because they have more
terms, so that they represent the contents of the data subject more. The data
labeled are 50 uniform resource locators which are divided into 11 clusters.
Keywords: clustering, cosine similarity, hierarchical clustering, twitter
CLUSTERING DATA TEKS TWITTER UNTUK
KASUS PERTANIAN DI INDONESIA
RYAN BUDIMAN DENATARI
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
Penguji:
1 Dr Imas Sukaesih Sitanggang, SSi MKom
2 Husnul Khotimah, SKomp MKom
Judul Skripsi : Clustering Data Teks Twitter untuk Kasus Pertanian di Indonesia
Nama
: Ryan Budiman Denatari
NIM
: G64110022
Disetujui oleh
Hari Agung Adrianto, SKom MSi
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Januari 2015 ini ialah
clustering, dengan judul Clustering Data Teks Twitter untuk Kasus Pertanian di
Indonesia.
Penulis menyadari bahwa dalam proses penulisan skripsi ini banyak
mengalami kendala, namun berkat bantuan, bimbingan, kerjasama dari
berbagai pihak dan berkah dari Allah subhanahu wa ta'ala sehingga kendalakendala yang dihadapi tersebut dapat diatasi. Terima kasih penulis ucapkan
kepada Bapak Hari Agung Adrianto, SKom MSi selaku pembimbing, serta Ibu Dr
Imas Sukaesih Sitanggang, SSi MKom dan Ibu Husnul Khotimah, SKomp MKom
selaku penguji yang telah banyak memberi saran. Ungkapan terima kasih juga
disampaikan kepada ayah, ibu, dan seluruh keluarga, serta teman-teman
Departemen Ilmu Komputer atas segala doa dan kasih sayangnya.
Semoga karya ilmiah ini bermanfaat.
Bogor, Agustus 2015
Ryan Budiman Denatari
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
1
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
2
Data Penelitian
2
Tahapan Penelitian
2
Masukan Term Document Matrix (TDM)
3
Perubahan Term Frequency (TF) Menjadi Bentuk Vektor
3
Perhitungan Cosine Similarity
3
Hierarchical Clustering
4
Analisis Hasil Clustering
4
Lingkungan Pengembangan
5
HASIL DAN PEMBAHASAN
5
Masukan Term Document Matrix (TDM)
5
Perubahan Term Frequency (TF) Menjadi Bentuk Vektor
6
Perhitungan Cosine Similarity
7
Hierarchical Clustering
8
Analisis Hasil Clustering
11
SIMPULAN DAN SARAN
20
Simpulan
20
Saran
20
DAFTAR PUSTAKA
21
DAFTAR TABEL
1
2
3
4
5
6
7
Parameter linkage (Han et al. 2012)
Nilai SSE cluster data tweet
Nilai SSE cluster data konten URL
Daftar term pada cluster (jumlah cluster = 3)
Daftar term pada cluster (jumlah cluster = 6)
Daftar term pada cluster (jumlah cluster = 12)
Label data
4
12
12
14
16
18
19
DAFTAR GAMBAR
1 Tahapan penelitian
2 Term document matrix
3 Vektor term frequency
4 Cosine distance matrix
5 Dendrogram complete linkage
6 Dendrogram single linkage
7 Dendrogram average linkage
8 Grafik perbandingan nilai SSE
9 Dendrogram data konten URL height 0.783
10 Diagram Venn untuk jumlah cluster = 3
11 Dendrogram data konten URL height 0.653
12 Diagram Venn untuk jumlah cluster = 6
13 Dendrogram data konten URL height 0.032
3
6
7
8
9
10
10
13
14
15
16
17
18
PENDAHULUAN
Latar Belakang
Pada tahun 2013, pengguna internet di Indonesia mencapai 63 juta orang
dan 95 persen di antaranya menggunakan internet untuk mengakses media sosial
(Kemenkominfo 2013). Menurut Adler dan Rodman (2006), komunikasi secara
online dianggap lebih murah, cepat, dan mudah. Komunikasi dengan
menggunakan media sosial juga tidak terikat ruang dan waktu sehingga
memudahkan siapapun dalam berinteraksi, berkomunikasi, dan memperoleh
informasi.
Beberapa penelitian menggunakan data dari media sosial telah dilakukan
sebelumnya. Susanto et al. (2014) telah melakukan penelitian menggunakan tweet
berbahasa Indonesia dengan teknik clustering untuk menganalisis sentimen tweet
dengan topik Pemilu 2014. Teknik clustering yang digunakan antara lain
algoritme k-means, cascade k-means, dan self organizing map (SOM) Kohonen.
Penelitian tersebut bertujuan membandingkan masing-masing algoritme, dengan
hasil algoritme cascade k-means sebagai algoritme terbaik dengan nilai SSE
terkecil.
Adityawan (2014) melakukan penelitian tentang analisis sentimen dengan
klasifikasi naive Bayes pada pesan Twitter menggunakan data seimbang.
Penelitian ini bertujuan mengklasifikasikan data tweet dengan jenis data
seimbang pada sentimen yang telah ditentukan menggunakan metode klasifikasi
naive Bayes dengan model multinomial dan Bernoulli.
Pada penelitian ini dilakukan clustering data teks Twitter. Clustering adalah
teknik pengelompokkan beberapa objek data ke dalam cluster. Objek data pada
satu cluster memiliki kesamaan yang tinggi jika dibandingkan dengan objek data
pada cluster lain. Teknik ini dapat menghasilkan label pada suatu objek data (Han
et al. 2012). Algoritme yang digunakan dalam penelitian ini yaitu hierarchical
clustering. Hierarchical clustering adalah algoritme yang dapat digunakan untuk
mengelompokkan data teks atau dokumen. Algoritme tersebut bertujuan membuat
hierarki dari cluster. Hasil dari algoritme hierarchical clustering dapat
divisualisasikan dalam bentuk dendrogram (Han et al. 2012).
Selain dilakukan clustering, antar-tweet juga diukur kemiripannya. Metode
pengukuran kemiripan yang digunakan yaitu cosine similarity. Menurut Sree dan
Murthy (2012), cosine similarity adalah teknik pengukuran kesamaan antara dua
vektor dimensi n dengan mencari cosinus dari sudut antara kedua vektor tersebut.
Metode cosine similarity ini banyak digunakan untuk menghitung kemiripan
(similarity) antardokumen.
Perumusan Masalah
Perumusan masalah pada penelitian ini adalah:
1 Bagaimana melakukan clustering data teks Twitter dengan menggunakan
algoritme hierarchical clustering?
2 Bagaimana menganalisis hasil hierarchical clustering dan memberi label pada
data?
2
Tujuan Penelitian
Tujuan dari penelitian ini adalah melakukan clustering data teks Twitter
dengan menghitung kemiripan (similarity) antardata dan memberi label pada data
tersebut.
Manfaat Penelitian
Manfaat penelitian ini untuk memberikan label pada data teks Twitter
dengan topik pertanian sehingga bermanfaat untuk proses visualisasi data pada
sistem informasi geografis (SIG).
Ruang Lingkup Penelitian
1
2
3
4
Ruang lingkup pada penelitian ini adalah:
Data yang digunakan dalam penelitian berupa data teks Twitter yang terdiri
dari dua jenis, yaitu data tweet dan data konten uniform resource locator
(URL).
Data teks Twitter tersebut sudah melalui tahapan praproses terlebih dahulu
sebelum dilakukan proses clustering.
Algoritme clustering yang digunakan adalah hierarchical clustering.
Metode pengukuran kemiripan antardata yang digunakan adalah cosine
similarity.
METODE
Data Penelitian
Data yang digunakan dalam penelitian ini adalah data teks Twitter
berjumlah total 102 data. Data tersebut dibagi menjadi data tweet dan data konten
URL. Data konten URL diperoleh dari data tweet dan masih berhubungan dengan
tweet tersebut. Data tersebut sudah melalui tahap praproses terlebih dahulu
sehingga diproses dalam bentuk term document matrix (TDM). TDM adalah
matriks yang berisi rincian jumlah term (term frequency) dari masing-masing data.
Data konten URL yang digunakan berjumlah 51 data dan mengandung 728 term,
sedangkan data tweet yang digunakan berjumlah 51 data dan mengandung 66
term.
Tahapan Penelitian
Penelitian ini terdiri dari beberapa tahapan. Masing-masing tahapan tersebut
dapat dilihat pada Gambar 1.
3
Hierarchical clustering
Dendrogram
Perubahan term
frequency (TF) menjadi
bentuk vektor
Masukan term
document matrix
(TDM)
Mulai
Perhitungan
cosine similarity
Cosine distance
matrix
Selesai
Analisis hasil
clustering
Gambar 1 Tahapan penelitian
Masukan Term Document Matrix (TDM)
Data masukan berupa data tweet dan data konten URL. Kedua jenis tweet
tersebut sudah dilakukan praproses sehingga berbentuk term document matrix
(TDM).
Perubahan Term Frequency (TF) Menjadi Bentuk Vektor
Tahapan ini mengubah term frequency (TF) pada TDM menjadi bentuk
vektor. Tujuannya memperoleh TF pada masing-masing data dalam bentuk vektor
dan menghilangkan row names yang berisi term.
Perhitungan Cosine Similarity
Perhitungan cosine similarity antardata menghasilkan cosine distance matrix.
Nilai-nilai yang ada dalam matriks tersebut digunakan sebagai dasar
pengelompokkan data ke dalam bentuk dendrogram. Berikut rumus penghitungan
cosine similarity (Sree dan Murthy 2012):
‖
‖‖
‖
4
dengan:
cos
= ukuran kemiripan cosine,
TFi
= vektor dot product TF data ke-i,
TFj
= vektor dot product TF data ke-j,
||TFi|| = panjang dari vektor TFi, dan
||TFj|| = panjang dari vektor TFj.
Hierarchical Clustering
Tahapan ini mengelompokkan data menggunakan algoritme hierarchical
clustering. Terdapat beberapa parameter linkage (pengukuran jarak) dalam
hierarchical clustering, yaitu complete linkage, single linkage, dan average
linkage. Single linkage menggunakan jarak minimum antaranggota di setiap
cluster sehingga hasil cluster memiliki tingkat kemiripan yang besar
antaranggotanya dalam satu cluster. Complete linkage menggunakan jarak
maksimum antaranggota di setiap cluster sehingga hasil cluster memiliki tingkat
kemiripan yang minimum, tetapi jarak antar-cluster menjadi besar. Average
linkage menggunakan jarak rata-rata antaranggota di setiap cluster. Hasil
clustering divisualisasikan dalam bentuk dendrogram. Rumus perhitungan untuk
ketiga tipe linkage dapat dilihat pada Tabel 1.
Parameter
Single linkage
Complete linkage
Average linkage
dengan:
distmin(Ci, Cj)
distmax(Ci, Cj)
distavg(Ci, Cj)
p
’
Ci
Cj
|p- ’|
ni
nj
Tabel 1 Parameter linkage (Han et al. 2012)
Rumus
distmin(Ci, Cj) =
| - |
a
distmax(Ci, Cj) =
| - |
distavg(Ci, Cj) =
∑
| - |
= jarak minimum antar-cluster,
= jarak maksimum antar-cluster,
= jarak rata-rata antar-cluster,
= objek data p,
= objek data ’,
= cluster ke-i,
= cluster ke-j, dan
= jarak antara dua objek.
= jumlah objek pada cluster ke-i,
= jumlah objek pada cluster ke-j.
Analisis Hasil Clustering
Tahapan ini menganalisis hasil clustering dari dendrogram yang terbentuk.
Proses analisis ini terbagi menjadi dua pendekatan, yaitu analisis objektif dan
analisis subjektif. Analisis objektif dilakukan dengan menghitung nilai sum of
5
squared error (SSE) pada cluster. Analisis subjektif dilakukan dengan melihat
term dominan dan relevan pada masing-masing cluster sebagai dasar pemberian
label pada data. Rumus penghitungan SSE sebagai berikut (Tan et al. 2006):
∑∑
dengan:
= jumlah kelas,
= objek data,
= titik pusat kelas i (digunakan medoid sebagai titik pusat kelas i), dan
= fungsi jarak, yaitu jarak cosine.
Lingkungan Pengembangan
Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk
penelitian ini adalah sebagai berikut:
Perangkat keras:
Processor Intel Core i5-3210M 2.5 GHz
Harddisk 750 GB
RAM 4 GB
Perangkat lunak:
Sistem operasi Windows 7 Ultimate Edition
RStudio versi 0.98.1103
Microsoft Excel 2010
HASIL DAN PEMBAHASAN
Masukan Term Document Matrix (TDM)
Data masukan berupa data tweet dan data konten URL. Data konten URL
diperoleh dari data tweet dan masih berhubungan dengan tweet tersebut. Kedua
jenis tweet tersebut sudah dilakukan praproses sehingga berbentuk TDM. TDM
adalah matriks yang berisi rincian jumlah term dari masing-masing data. TDM
yang diinput sudah dalam bentuk R object. Berikut merupakan contoh tampilan
data masukan berupa TDM yang diberikan pada Gambar 2.
6
a) Term document matrix untuk data tweet
b) Term document matrix untuk data konten URL
Gambar 2 Term document matrix
Pada Gambar 2a dapat dilihat TDM untuk data tweet yang terdiri dari 51
data dan 66 term. Pada Gambar 2b dapat dilihat TDM untuk data konten URL
yang terdiri dari 51 data dan 728 term. Kolom pada TDM berisi keterangan data
tweet atau konten URL. Baris berisi keterangan daftar term yang terdapat pada
data tweet atau konten URL.
Perubahan Term Frequency (TF) Menjadi Bentuk Vektor
Tahapan ini mengubah term frequency (TF) pada TDM menjadi bentuk
vektor. Tujuan dari tahapan ini untuk memperoleh TF pada masing-masing tweet
dalam bentuk vektor dan menghilangkan row names yang berisi term. TF tersebut
harus diubah ke dalam bentuk vektor agar dapat diproses pada tahapan
penghitungan cosine similarity. Penghitungan cosine similarity dilakukan dengan
mengolah R object vectorTF. Pada R object vectorTF ini, berisi gabungan dari
R object TDM[term_awal:term_akhir] pada data awal sampai data terakhir.
Masing-masing TF pada TDM diubah ke dalam bentuk vektor dan digabungkan
dengan menggunakan fungsi cbind agar mudah diolah pada tahapan
penghitungan cosine similarity. Berikut ini merupakan kode implementasinya
pada bahasa R.
7
1
2
3
4
5
vectorTF = cbind(TDM[1:66]) #Angka 1:66 menunjukkan jumlah term
for(i in (2:51)){
#Angka 2:51 menunjukkan data ke-2 sampai 51
vectorTF
KASUS PERTANIAN DI INDONESIA
RYAN BUDIMAN DENATARI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Clustering Data Teks
Twitter untuk Kasus Pertanian di Indonesia adalah benar karya saya dengan
arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada
perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya
yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam
teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Agustus 2015
Ryan Budiman Denatari
NIM G64110022
ABSTRAK
RYAN BUDIMAN DENATARI. Clustering Data Teks Twitter untuk Kasus
Pertanian di Indonesia. Dibimbing oleh HARI AGUNG ADRIANTO.
Mayoritas pengguna internet di Indonesia mengakses media sosial. Hal
tersebut menyebabkan masyarakat dapat memperoleh informasi dan
menyebarkannya dengan lebih cepat. Informasi yang beredar melalui media sosial
sangat beragam, termasuk di dalamnya topik pertanian. Hal ini dapat
dimanfaatkan untuk menganalisis kasus pertanian di Indonesia, dengan melakukan
clustering data teks Twitter untuk kasus pertanian di Indonesia. Data yang
digunakan yaitu data teks Twitter berjumlah 102 data. Data teks Twitter terbagi
menjadi 2 jenis, yaitu data tweet sejumlah 51 data dan data konten uniform
resource locator sejumlah 51 data. Kedua jenis data tersebut dibandingkan dan
dikelompokkan dengan algoritme hierarchical clustering untuk mendapatkan
cluster terbaik. Data teks tersebut diukur kemiripannya dengan metode cosine
similarity. Hasil cluster terbaik yang diperoleh yaitu jenis data konten uniform
resource locator pada complete linkage yang terbagi ke dalam 12 cluster, dengan
nilai sum of squared error 0.1499 pada ketinggian 0.032. Data konten uniform
resource locator lebih baik karena memiliki jumlah term yang lebih banyak
sehingga lebih merepresentasikan isi topik dari data. Jumlah data konten uniform
resource locator yang diberi label berjumlah 50 data yang terbagi ke dalam 11
cluster.
Kata kunci: clustering, cosine similarity, hierarchical clustering, twitter
ABSTRACT
RYAN BUDIMAN DENATARI. Twitter Text Data Clustering for Agricultural
Case in Indonesia. Supervised by HARI AGUNG ADRIANTO.
Majority of internet users in Indonesia use social media. Through social
media people obtain and disseminate information more quickly. The information
from social media is very diverse, including agricultural topics. It can be used to
analyze agricultural cases in Indonesia, by performing clustering Twitter text data
for agricultural cases in Indonesia. The data used are 102 Twitter data. Twitter
text data was divided into 2 types, namely 51 tweet data and 51 uniform resource
locators. Both types of data are compared and clustered by hierarchical clustering
algorithm to get the best cluster. The text data similarity is measured using cosine.
Best cluster results obtained are the uniform resource locators in complete linkage
which are divided into 12 clusters, with sum of squared error value of 0.1499 at
height of 0.032. Uniform resource locator data are better because they have more
terms, so that they represent the contents of the data subject more. The data
labeled are 50 uniform resource locators which are divided into 11 clusters.
Keywords: clustering, cosine similarity, hierarchical clustering, twitter
CLUSTERING DATA TEKS TWITTER UNTUK
KASUS PERTANIAN DI INDONESIA
RYAN BUDIMAN DENATARI
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
Penguji:
1 Dr Imas Sukaesih Sitanggang, SSi MKom
2 Husnul Khotimah, SKomp MKom
Judul Skripsi : Clustering Data Teks Twitter untuk Kasus Pertanian di Indonesia
Nama
: Ryan Budiman Denatari
NIM
: G64110022
Disetujui oleh
Hari Agung Adrianto, SKom MSi
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Januari 2015 ini ialah
clustering, dengan judul Clustering Data Teks Twitter untuk Kasus Pertanian di
Indonesia.
Penulis menyadari bahwa dalam proses penulisan skripsi ini banyak
mengalami kendala, namun berkat bantuan, bimbingan, kerjasama dari
berbagai pihak dan berkah dari Allah subhanahu wa ta'ala sehingga kendalakendala yang dihadapi tersebut dapat diatasi. Terima kasih penulis ucapkan
kepada Bapak Hari Agung Adrianto, SKom MSi selaku pembimbing, serta Ibu Dr
Imas Sukaesih Sitanggang, SSi MKom dan Ibu Husnul Khotimah, SKomp MKom
selaku penguji yang telah banyak memberi saran. Ungkapan terima kasih juga
disampaikan kepada ayah, ibu, dan seluruh keluarga, serta teman-teman
Departemen Ilmu Komputer atas segala doa dan kasih sayangnya.
Semoga karya ilmiah ini bermanfaat.
Bogor, Agustus 2015
Ryan Budiman Denatari
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
1
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
2
Data Penelitian
2
Tahapan Penelitian
2
Masukan Term Document Matrix (TDM)
3
Perubahan Term Frequency (TF) Menjadi Bentuk Vektor
3
Perhitungan Cosine Similarity
3
Hierarchical Clustering
4
Analisis Hasil Clustering
4
Lingkungan Pengembangan
5
HASIL DAN PEMBAHASAN
5
Masukan Term Document Matrix (TDM)
5
Perubahan Term Frequency (TF) Menjadi Bentuk Vektor
6
Perhitungan Cosine Similarity
7
Hierarchical Clustering
8
Analisis Hasil Clustering
11
SIMPULAN DAN SARAN
20
Simpulan
20
Saran
20
DAFTAR PUSTAKA
21
DAFTAR TABEL
1
2
3
4
5
6
7
Parameter linkage (Han et al. 2012)
Nilai SSE cluster data tweet
Nilai SSE cluster data konten URL
Daftar term pada cluster (jumlah cluster = 3)
Daftar term pada cluster (jumlah cluster = 6)
Daftar term pada cluster (jumlah cluster = 12)
Label data
4
12
12
14
16
18
19
DAFTAR GAMBAR
1 Tahapan penelitian
2 Term document matrix
3 Vektor term frequency
4 Cosine distance matrix
5 Dendrogram complete linkage
6 Dendrogram single linkage
7 Dendrogram average linkage
8 Grafik perbandingan nilai SSE
9 Dendrogram data konten URL height 0.783
10 Diagram Venn untuk jumlah cluster = 3
11 Dendrogram data konten URL height 0.653
12 Diagram Venn untuk jumlah cluster = 6
13 Dendrogram data konten URL height 0.032
3
6
7
8
9
10
10
13
14
15
16
17
18
PENDAHULUAN
Latar Belakang
Pada tahun 2013, pengguna internet di Indonesia mencapai 63 juta orang
dan 95 persen di antaranya menggunakan internet untuk mengakses media sosial
(Kemenkominfo 2013). Menurut Adler dan Rodman (2006), komunikasi secara
online dianggap lebih murah, cepat, dan mudah. Komunikasi dengan
menggunakan media sosial juga tidak terikat ruang dan waktu sehingga
memudahkan siapapun dalam berinteraksi, berkomunikasi, dan memperoleh
informasi.
Beberapa penelitian menggunakan data dari media sosial telah dilakukan
sebelumnya. Susanto et al. (2014) telah melakukan penelitian menggunakan tweet
berbahasa Indonesia dengan teknik clustering untuk menganalisis sentimen tweet
dengan topik Pemilu 2014. Teknik clustering yang digunakan antara lain
algoritme k-means, cascade k-means, dan self organizing map (SOM) Kohonen.
Penelitian tersebut bertujuan membandingkan masing-masing algoritme, dengan
hasil algoritme cascade k-means sebagai algoritme terbaik dengan nilai SSE
terkecil.
Adityawan (2014) melakukan penelitian tentang analisis sentimen dengan
klasifikasi naive Bayes pada pesan Twitter menggunakan data seimbang.
Penelitian ini bertujuan mengklasifikasikan data tweet dengan jenis data
seimbang pada sentimen yang telah ditentukan menggunakan metode klasifikasi
naive Bayes dengan model multinomial dan Bernoulli.
Pada penelitian ini dilakukan clustering data teks Twitter. Clustering adalah
teknik pengelompokkan beberapa objek data ke dalam cluster. Objek data pada
satu cluster memiliki kesamaan yang tinggi jika dibandingkan dengan objek data
pada cluster lain. Teknik ini dapat menghasilkan label pada suatu objek data (Han
et al. 2012). Algoritme yang digunakan dalam penelitian ini yaitu hierarchical
clustering. Hierarchical clustering adalah algoritme yang dapat digunakan untuk
mengelompokkan data teks atau dokumen. Algoritme tersebut bertujuan membuat
hierarki dari cluster. Hasil dari algoritme hierarchical clustering dapat
divisualisasikan dalam bentuk dendrogram (Han et al. 2012).
Selain dilakukan clustering, antar-tweet juga diukur kemiripannya. Metode
pengukuran kemiripan yang digunakan yaitu cosine similarity. Menurut Sree dan
Murthy (2012), cosine similarity adalah teknik pengukuran kesamaan antara dua
vektor dimensi n dengan mencari cosinus dari sudut antara kedua vektor tersebut.
Metode cosine similarity ini banyak digunakan untuk menghitung kemiripan
(similarity) antardokumen.
Perumusan Masalah
Perumusan masalah pada penelitian ini adalah:
1 Bagaimana melakukan clustering data teks Twitter dengan menggunakan
algoritme hierarchical clustering?
2 Bagaimana menganalisis hasil hierarchical clustering dan memberi label pada
data?
2
Tujuan Penelitian
Tujuan dari penelitian ini adalah melakukan clustering data teks Twitter
dengan menghitung kemiripan (similarity) antardata dan memberi label pada data
tersebut.
Manfaat Penelitian
Manfaat penelitian ini untuk memberikan label pada data teks Twitter
dengan topik pertanian sehingga bermanfaat untuk proses visualisasi data pada
sistem informasi geografis (SIG).
Ruang Lingkup Penelitian
1
2
3
4
Ruang lingkup pada penelitian ini adalah:
Data yang digunakan dalam penelitian berupa data teks Twitter yang terdiri
dari dua jenis, yaitu data tweet dan data konten uniform resource locator
(URL).
Data teks Twitter tersebut sudah melalui tahapan praproses terlebih dahulu
sebelum dilakukan proses clustering.
Algoritme clustering yang digunakan adalah hierarchical clustering.
Metode pengukuran kemiripan antardata yang digunakan adalah cosine
similarity.
METODE
Data Penelitian
Data yang digunakan dalam penelitian ini adalah data teks Twitter
berjumlah total 102 data. Data tersebut dibagi menjadi data tweet dan data konten
URL. Data konten URL diperoleh dari data tweet dan masih berhubungan dengan
tweet tersebut. Data tersebut sudah melalui tahap praproses terlebih dahulu
sehingga diproses dalam bentuk term document matrix (TDM). TDM adalah
matriks yang berisi rincian jumlah term (term frequency) dari masing-masing data.
Data konten URL yang digunakan berjumlah 51 data dan mengandung 728 term,
sedangkan data tweet yang digunakan berjumlah 51 data dan mengandung 66
term.
Tahapan Penelitian
Penelitian ini terdiri dari beberapa tahapan. Masing-masing tahapan tersebut
dapat dilihat pada Gambar 1.
3
Hierarchical clustering
Dendrogram
Perubahan term
frequency (TF) menjadi
bentuk vektor
Masukan term
document matrix
(TDM)
Mulai
Perhitungan
cosine similarity
Cosine distance
matrix
Selesai
Analisis hasil
clustering
Gambar 1 Tahapan penelitian
Masukan Term Document Matrix (TDM)
Data masukan berupa data tweet dan data konten URL. Kedua jenis tweet
tersebut sudah dilakukan praproses sehingga berbentuk term document matrix
(TDM).
Perubahan Term Frequency (TF) Menjadi Bentuk Vektor
Tahapan ini mengubah term frequency (TF) pada TDM menjadi bentuk
vektor. Tujuannya memperoleh TF pada masing-masing data dalam bentuk vektor
dan menghilangkan row names yang berisi term.
Perhitungan Cosine Similarity
Perhitungan cosine similarity antardata menghasilkan cosine distance matrix.
Nilai-nilai yang ada dalam matriks tersebut digunakan sebagai dasar
pengelompokkan data ke dalam bentuk dendrogram. Berikut rumus penghitungan
cosine similarity (Sree dan Murthy 2012):
‖
‖‖
‖
4
dengan:
cos
= ukuran kemiripan cosine,
TFi
= vektor dot product TF data ke-i,
TFj
= vektor dot product TF data ke-j,
||TFi|| = panjang dari vektor TFi, dan
||TFj|| = panjang dari vektor TFj.
Hierarchical Clustering
Tahapan ini mengelompokkan data menggunakan algoritme hierarchical
clustering. Terdapat beberapa parameter linkage (pengukuran jarak) dalam
hierarchical clustering, yaitu complete linkage, single linkage, dan average
linkage. Single linkage menggunakan jarak minimum antaranggota di setiap
cluster sehingga hasil cluster memiliki tingkat kemiripan yang besar
antaranggotanya dalam satu cluster. Complete linkage menggunakan jarak
maksimum antaranggota di setiap cluster sehingga hasil cluster memiliki tingkat
kemiripan yang minimum, tetapi jarak antar-cluster menjadi besar. Average
linkage menggunakan jarak rata-rata antaranggota di setiap cluster. Hasil
clustering divisualisasikan dalam bentuk dendrogram. Rumus perhitungan untuk
ketiga tipe linkage dapat dilihat pada Tabel 1.
Parameter
Single linkage
Complete linkage
Average linkage
dengan:
distmin(Ci, Cj)
distmax(Ci, Cj)
distavg(Ci, Cj)
p
’
Ci
Cj
|p- ’|
ni
nj
Tabel 1 Parameter linkage (Han et al. 2012)
Rumus
distmin(Ci, Cj) =
| - |
a
distmax(Ci, Cj) =
| - |
distavg(Ci, Cj) =
∑
| - |
= jarak minimum antar-cluster,
= jarak maksimum antar-cluster,
= jarak rata-rata antar-cluster,
= objek data p,
= objek data ’,
= cluster ke-i,
= cluster ke-j, dan
= jarak antara dua objek.
= jumlah objek pada cluster ke-i,
= jumlah objek pada cluster ke-j.
Analisis Hasil Clustering
Tahapan ini menganalisis hasil clustering dari dendrogram yang terbentuk.
Proses analisis ini terbagi menjadi dua pendekatan, yaitu analisis objektif dan
analisis subjektif. Analisis objektif dilakukan dengan menghitung nilai sum of
5
squared error (SSE) pada cluster. Analisis subjektif dilakukan dengan melihat
term dominan dan relevan pada masing-masing cluster sebagai dasar pemberian
label pada data. Rumus penghitungan SSE sebagai berikut (Tan et al. 2006):
∑∑
dengan:
= jumlah kelas,
= objek data,
= titik pusat kelas i (digunakan medoid sebagai titik pusat kelas i), dan
= fungsi jarak, yaitu jarak cosine.
Lingkungan Pengembangan
Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk
penelitian ini adalah sebagai berikut:
Perangkat keras:
Processor Intel Core i5-3210M 2.5 GHz
Harddisk 750 GB
RAM 4 GB
Perangkat lunak:
Sistem operasi Windows 7 Ultimate Edition
RStudio versi 0.98.1103
Microsoft Excel 2010
HASIL DAN PEMBAHASAN
Masukan Term Document Matrix (TDM)
Data masukan berupa data tweet dan data konten URL. Data konten URL
diperoleh dari data tweet dan masih berhubungan dengan tweet tersebut. Kedua
jenis tweet tersebut sudah dilakukan praproses sehingga berbentuk TDM. TDM
adalah matriks yang berisi rincian jumlah term dari masing-masing data. TDM
yang diinput sudah dalam bentuk R object. Berikut merupakan contoh tampilan
data masukan berupa TDM yang diberikan pada Gambar 2.
6
a) Term document matrix untuk data tweet
b) Term document matrix untuk data konten URL
Gambar 2 Term document matrix
Pada Gambar 2a dapat dilihat TDM untuk data tweet yang terdiri dari 51
data dan 66 term. Pada Gambar 2b dapat dilihat TDM untuk data konten URL
yang terdiri dari 51 data dan 728 term. Kolom pada TDM berisi keterangan data
tweet atau konten URL. Baris berisi keterangan daftar term yang terdapat pada
data tweet atau konten URL.
Perubahan Term Frequency (TF) Menjadi Bentuk Vektor
Tahapan ini mengubah term frequency (TF) pada TDM menjadi bentuk
vektor. Tujuan dari tahapan ini untuk memperoleh TF pada masing-masing tweet
dalam bentuk vektor dan menghilangkan row names yang berisi term. TF tersebut
harus diubah ke dalam bentuk vektor agar dapat diproses pada tahapan
penghitungan cosine similarity. Penghitungan cosine similarity dilakukan dengan
mengolah R object vectorTF. Pada R object vectorTF ini, berisi gabungan dari
R object TDM[term_awal:term_akhir] pada data awal sampai data terakhir.
Masing-masing TF pada TDM diubah ke dalam bentuk vektor dan digabungkan
dengan menggunakan fungsi cbind agar mudah diolah pada tahapan
penghitungan cosine similarity. Berikut ini merupakan kode implementasinya
pada bahasa R.
7
1
2
3
4
5
vectorTF = cbind(TDM[1:66]) #Angka 1:66 menunjukkan jumlah term
for(i in (2:51)){
#Angka 2:51 menunjukkan data ke-2 sampai 51
vectorTF