: nilai lama untuk variable X : nilai minimum dalam data set
: nilai maksimum dalam data set
2.4 Euclidean Distance
Euclidean Distance digunakan untuk menghitung nilai kedekatan antara dua dokumen. Perhitungan Euclidean Distance dirumuskan sebagai berikut Prasetyo,
2014 : ,
= √| − | + | − | + … … . + | − | 2.8
Atau ,
= √∑ −
=
2.9 Keterangan :
� : Jumlah atribut
− : Data
2.5 Cosine Similarity
Menurut Prasetyo pada buku Data Mining: Pengelolahan Data menjadi infromasi menggunakan matlab 2014, ukuran kemiripan yang sering digunakan untuk
mengukur kemiripan dua dokumen x dan y adalah Cosine Similarity. Kemiripan yang diberikan adalah 1 jika dua vektor x dan y sama , dan bernilai 0 jika kedua vektor
berbeda. Nilai jarak 1 menyatakan sudut yang dibentuk oleh vektor x day y adalah 0º, yang artinya vektor x dan y adalah sama dalam hal jarak.
Perhitungan Cosine Similarity dirumuskan sebagai berikut :
, = cos ,
=
∙ || |||| ||
2.8 Tanda titik
∙
melambangkan inner-product,
∙ = ∑
� =
2.9
Tanda || || adalah panjang dari vektor
x, dimana :
|| || = √∑
� =
= √ ∙
2.10
2.6 Agglomerative Hierarchical Clustering
Agglomerative Hierarchical Clustering merupakan metode pengelompokkan berbasis hierarki dengan pendekatan bottom up, yaitu proses penggelompokkan dimulai
dari masing-masing data sebagai satu cluster, kemudian secara rekursif mencari cluster terdekat sebagai pasangan untuk bergabung sebagai satu cluster yang lebih besar
Prasetyo,2014. Proses tersebut diulang terus sehingga tampak bergerak ke atas membentuk hierarki.
Kunci operasi metode Agglomerative Hierarchical Clustering adalah penggunaan ukuran kedekatan diantara dua cluster Hartini,2012. Ada tiga teknik yang
dapat digunakan untuk menghitung kedekatan diantara dua cluster dalam metode Agglomerative Hierarchical Clustering yaitu Single linkage, Complete Linkage, dan
Average Linkage. Pada metode Single linkage kedekatan di antara dua cluster ditentukan dari
jarak terdekat terkecil di antara pasangan diantara dua data dari dua cluster berbeda satu dari cluster pertama satu dari cluster yang lain . Dengan menggunakan single
linkage jarak antara dua cluster didefinisikan sebagai berikut : ,
= ���
∈ , ∈
{�
,
} 2.10
Keterangan : {�
,
} : jarak antara data x dan y dari masing – masing Cluster A dan B.
Pada Complete Linkage kedekatan diantara dua cluster ditentukan dari jarak terjauh terbesar diantara pasangan diantara dua data dari dua cluster berbeda satu dari
cluster pertama satu dari cluster yang lain. Dengan menggunakan metode complete lingkage jarak antara dua cluster didefinisikan sebagai berikut :
, = �
∈ , ∈
{�
,
} 2.11
Keterangan : {�
,
} : jarak antara data x dan y dari masing – masing Cluster A dan B.
Pada Average Linkage kedekatan diantara dua cluster ditentukan dari jarak rata- rata diantara pasangan diantara dua data dari dua cluster berbeda satu dari cluster
pertama satu dari cluster yang lain. Dengan menggunakan metode average lingkage jarak antara dua cluster didefinisikan sebagai berikut :
, =
∑ ∑
�{ , }
∈ ∈
2.12 Keterangan :
� : banyaknya data dalam cluster A
� : banyaknya data dalam cluster B
Dengan menggunakan rumus perhitungan-perhitungan diatas akan diketahui jarak antar cluster. Masing
– masing perhitungan dapat menghasilkan dendrogram.
Gambar 2. 1 Dendrogram
Dari penjelasan yang telah dipaparkan diatas, maka secara singkat AHC dapat dimengerti sebagai metode yang dimulai dengan setiap n cluster yang membentuk
cluster masing-masing. Kemudian dua cluster dengan jarak terdekat bergabung. Selanjutnya cluster yang lama akan bergabung dengan cluster yang sudah ada dan
membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar cluster. Proses akan berulang hingga akhirnya membentuk satu cluster yang memuat
keseluruhan cluster.
Sebagai contoh, diketahui data seperti pada tabel dibawah ini Tabel 2. 4 Contoh Data
Data X
Y 2
1 B
1 2
C 3
4 D
4 2
Dengan menggunakan rumus Euclidean Distance setiap obyek data tersebut dihitung similaritasnya sebagai berikut :
, = √ | − | + | − | =
, = √ | − | + | − | = . ,
= √ | − | + | − | = . , = √ | − | + | − | = .
, = √ | − | + | − | =3
, = √ | − | + | − | = .
Berdasarkan perhitungan tersebut dapat dibentuk similarity matriks seperti tabel berikut.
Tabel 2. 5 Similarity Matriks A
b C
d A
1 3.16
2.236 B
1 2.82
3 C
3.16 2.82 0
2.236 D
2.236 3 2.236 0
Karena similarity matriks bersifat simetris maka dapat ditulis seperti dibawah ini dan menjadi matriks jarak:
Tabel 2. 6 Matriks Jarak A
B C
D A
1 3.16
2.236 B
2.82 3
C 2.236
D
1. Single linkage
Dari tabel 2.6 dapat dilihat bahwa jarak obyek yang paling dekat yaitu a dan b,berjarak 1. Kedua obyek data ini menjadi satu cluster pertama. Kemudian untuk
menemukan cluster berikutnya dicari jarak antar obyek data dari sisa yang ada c,d dan berada paling dekat dengan clusterab. Untuk pencarian jarak ini pertama
digunakan Single linkage. = min{
, } = min{ . , . } = .
= min{ ,
} = min{ . , } = .
Kemudian baris – baris dan kolom – kolom matriks jarak yang bersesuaian dengan
cluster a dan b dihapus dan ditambahkan baris dan kolom untuk cluster ab, sehingga matriks jarak menjadi seperti berikut :
Tabel 2. 7 Matriks Jarak pertama Single Linkage Ab
C d
Ab 0 2.82
2.236 C
2.236 D
Berdasarkan pada matriks jarak pertama, dipilih kembali jarak terdekat antar cluster. Ditemukan dua nilai terdekat yaitu abd dan cd dengan nilai 2.236. Maka dapat
dipilih salah satu dari kedua nilai tersebut. Dalam contoh ini cluster yang dipilih yaitu cd. Kemudian hitung jarak cluster cd dengan cluster ab.
= min{ ,
, ,
} = min{ . , . , . , } = .
Kemudian baris – baris dan kolom – kolom matriks jarak yang bersesuaian
dengan cluster c dan d dihapus dan ditambahkan baris dan kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut :
Tabel 2. 8 Matriks Jarak kedua Single Linkage ab
cd ab
2.236 cd
Dengan demikian proses iterasi perhitungan jarak untuk pembentukan cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster ab dan cd digabung menjadi
satu cluster yaitu abcd dengan jarak terdekat 2.236. Berikut ini hasil dendrogram AHC dengan Single linkage:
Gambar 2. 2 Dendrogram Single linkage 2.
Complete Linkage Perhitungan jarak dengan Complete Linkage akan dicari jarak antar cluster
dengan yang paling jauh. Dengan tetap menggunakan tabel matriks jarak tabel 2.7,perhitungan Complete Linkage ini dilakukan. Pada awal perhitungan, cluster ab
tetap digunakan sebagai cluster pertama karena jarak antar obyek yang paling dekat yaitu 1. Berikut akan dilakukan perhitungan jarak antar cluster ab dengan c dan d.
= max{ ,
} = max{ . , . } = . = max{
, } = max{ .
, } =
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster a dan b dihapus dan ditambahkan baris dan kolom untuk cluster ab, sehingga
matriks jarak seperti berikut : Tabel 2. 9 Matriks jarak pertama Complete Linkage
ab c
d ab
3.16 3
c 2.236
d
Berdasarkan tabel diatas dipilih kembali jarak terdekat antar cluster. Ditemukan cluster cd yang paling dekat yaitu 2.236. Kemudian dihitung jarak dengan
cluster ab. = max{
, ,
, } = max{ . , . , .
, } = .
Kemudian baris – baris dan kolom – kolom matriks jarak yang bersesuaian
dengan cluster c dan d dihapus dan ditambahkan baris dan kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut :
Tabel 2. 10 Matriks Jarak kedua Complete Linkage ab
cd ab
3.16 cd
Dengan demikian proses iterasi perhitungan jarak untuk pembentukan cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster ab dan cd digabung menjadi
satu cluster yaitu abcd dengan jarak terdekat 3.16. Berikut ini hasil dendrogram AHC dengan Complete Linkage:
Gambar 2. 3 Dendrogram Complete Linkage
3. Average Linkage
Menggunakan Average Linkage akan dicari jarak antara cluster dengan menghitung nilai rata-rata pasangan setiap cluster. Dengan tetap menggunakan tabel
matriks jarak tabel 2.7, perhitungan Average Linkage ini dilakukan. Pada awal perhitungan, cluster ab teta digunakan sebagai cluster pertama karena jarak antar obyek
yang paling dekat. Berikut ini akan dilakukan perhitungan jarak antara cluster ab dengan c dan d.
= average{ ,
} = average{ . , . } =
. + .
= . = average{
, } = average{ .
, } =
. +
= . Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan
cluster a dan b dihapus dan ditambahkan baris dan kolom untuk cluster ab, sehingga matriks jarak menjadi seperti berikut :
Tabel 2. 11 Matriks Jarak pertama Average Linkage ab
c d
ab 2.99
2.618 c
2.236 d
Berdasarkan pada matriks jarak pertama, dipilih kembali jarak terdekat antar cluster. Ditemukan cluster cd paling dekat, yaitu bernilai 2.236. Kemudian dihitung
jarak dengan cluster ab. = average{
, ,
, } = average{ . , . , .
, } =
. + . + . +
= . Kemudian baris
– baris dan kolom – kolom matriks jarak yang bersesuaian dengan cluster c dan d dihapus dan ditambahkan baris dan kolom untuk cluster cd,
sehingga matriks jarak menjadi seperti berikut :
Tabel 2. 12 Matriks Jarak kedua Average Linkage ab
cd ab
2.804 cd
Dengan demikian proses iterasi perhitungan jarak untuk pembentukan cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster ab dan cd digabung menjadi
satu cluster yaitu abcd dengan jarak terdekat 2.804. Berikut ini hasil dendrogram AHC dengan Average Linkage:
Gambar 2. 4 Dendrogram average linkage
2.5.1 Langkah Algoritma Agglomerative Hierarchical Clustering
Algoritma Agglomerative Hierarchical Clustering untuk mengelompokkan n obyek adalah sebagai berikut Tan, Steinbach dan Kumar,2006 :
1. Hitung matriks kedekatan berdasarkan jenis jarak yang digunakan.
2. Ulangi langkat 3 sampai 4, hingga hanya satu kelompok yang tersisa
3. Gabungkan dua cluster terdekat berdasarkan parameter kedekatan yang ditentukan.
4. Perbarui matriks kedekatan untuk merepresentasikan kedekatan diantara kelompok
baru dan kelompok yang tersisa.
5. Selesai
2.5.2 Flowchart Agglomerative Hierarchical Clustering
1. Single Linkage
Gambar 2. 5 Flowchart Single Linkage
2. Complete Linkage
Gambar 2. 6 Flowchart Complete Linkage
3. Average Linkage
Gambar 2. 7 Flowchart Average Linkage
2.7 Confusion Matriks
Confusion Matriks merupakan metode external evaluasi yang berisi informasi yang actual dan dapat diprediksi Kohavi dan Provost, 1998, dimana kinerja sistem
dapat di evaluasi menggunakan perbandingan hasil luaran sistem dengan label data. Tabel dibawah ini menunjukkan Confusion Matriks untuk dua class Kohavi
dan Provost, 1998: Tabel 2. 13 Tabel Confusion Matriks
Predicted Negatif
Positif Actual
Negatif a
b Positif
c d
Keterangan : a : jumlah prediksi yang salah bahwa contoh bersifat negatif
b : jumlah prediksi yang benar bahwa contoh bersifat negatif c : jumlah prediksi yang salah bahwa contoh bersifat positif
d : jumlah prediksi yang benar bahwa contoh bersifat positif
Perhitungan akurasi dirumuskan sebagai berikut : =
+ + + +
2.13
34
BAB III METODE PENELITIAN
Bab ini berisi perancangan penelitian yang akan dibuat oleh penulis meliputi data, kebutuhan system, tahapan penelitian, desain interface, skenario sistem, dan
desain pengujian.
3.1 Data
Data yang digunakan pada penelitian ini adalah tweet berbahasa Indonesia yang ditulis oleh para pengguna Twitter. Tweet yang dikumpulkan berupa tweet-tweet yang
mengandung emosi cinta, senang, marah, takut, dan sedih. Dari masing- masing emosi, diambil 100 data per emosi sehingga total tweet yang digunakan sebagai data berjumlah
500 . Pencarian data dilakukan dengan menggunakan hashtag cinta, senang,
takut, dan sedih pada website www.netlytic.org. Pemilihan data secara manual yaitu memilih kalimat-kalimat tweet yang berbahasa Indonesia dan tidak mengandung
gambar. Tweet yang telah dipilih kemudian di simpan ke file teks. Setiap tweet diletakkan pada setiap baris pada file teks. File teks berisi tweet tersebut kemudian
dijadikan input pada sistem untuk diolah lebih lanjut. Berikut contoh tweet dengan emosi cinta. Penulis tweet mengungkapkan
perasaan cintanya pada seseorang atau sesuatu melalui kata-kata yang ditulis.
Gambar 3. 1 Tweet Cinta