Euclidean Distance Cosine Similarity Confusion Matriks

: nilai lama untuk variable X : nilai minimum dalam data set : nilai maksimum dalam data set

2.4 Euclidean Distance

Euclidean Distance digunakan untuk menghitung nilai kedekatan antara dua dokumen. Perhitungan Euclidean Distance dirumuskan sebagai berikut Prasetyo, 2014 : , = √| − | + | − | + … … . + | − | 2.8 Atau , = √∑ − = 2.9 Keterangan : � : Jumlah atribut − : Data

2.5 Cosine Similarity

Menurut Prasetyo pada buku Data Mining: Pengelolahan Data menjadi infromasi menggunakan matlab 2014, ukuran kemiripan yang sering digunakan untuk mengukur kemiripan dua dokumen x dan y adalah Cosine Similarity. Kemiripan yang diberikan adalah 1 jika dua vektor x dan y sama , dan bernilai 0 jika kedua vektor berbeda. Nilai jarak 1 menyatakan sudut yang dibentuk oleh vektor x day y adalah 0º, yang artinya vektor x dan y adalah sama dalam hal jarak. Perhitungan Cosine Similarity dirumuskan sebagai berikut : , = cos , = ∙ || |||| || 2.8 Tanda titik ∙ melambangkan inner-product, ∙ = ∑ � = 2.9 Tanda || || adalah panjang dari vektor x, dimana : || || = √∑ � = = √ ∙ 2.10

2.6 Agglomerative Hierarchical Clustering

Agglomerative Hierarchical Clustering merupakan metode pengelompokkan berbasis hierarki dengan pendekatan bottom up, yaitu proses penggelompokkan dimulai dari masing-masing data sebagai satu cluster, kemudian secara rekursif mencari cluster terdekat sebagai pasangan untuk bergabung sebagai satu cluster yang lebih besar Prasetyo,2014. Proses tersebut diulang terus sehingga tampak bergerak ke atas membentuk hierarki. Kunci operasi metode Agglomerative Hierarchical Clustering adalah penggunaan ukuran kedekatan diantara dua cluster Hartini,2012. Ada tiga teknik yang dapat digunakan untuk menghitung kedekatan diantara dua cluster dalam metode Agglomerative Hierarchical Clustering yaitu Single linkage, Complete Linkage, dan Average Linkage. Pada metode Single linkage kedekatan di antara dua cluster ditentukan dari jarak terdekat terkecil di antara pasangan diantara dua data dari dua cluster berbeda satu dari cluster pertama satu dari cluster yang lain . Dengan menggunakan single linkage jarak antara dua cluster didefinisikan sebagai berikut : , = ��� ∈ , ∈ {� , } 2.10 Keterangan : {� , } : jarak antara data x dan y dari masing – masing Cluster A dan B. Pada Complete Linkage kedekatan diantara dua cluster ditentukan dari jarak terjauh terbesar diantara pasangan diantara dua data dari dua cluster berbeda satu dari cluster pertama satu dari cluster yang lain. Dengan menggunakan metode complete lingkage jarak antara dua cluster didefinisikan sebagai berikut : , = � ∈ , ∈ {� , } 2.11 Keterangan : {� , } : jarak antara data x dan y dari masing – masing Cluster A dan B. Pada Average Linkage kedekatan diantara dua cluster ditentukan dari jarak rata- rata diantara pasangan diantara dua data dari dua cluster berbeda satu dari cluster pertama satu dari cluster yang lain. Dengan menggunakan metode average lingkage jarak antara dua cluster didefinisikan sebagai berikut : , = ∑ ∑ �{ , } ∈ ∈ 2.12 Keterangan : � : banyaknya data dalam cluster A � : banyaknya data dalam cluster B Dengan menggunakan rumus perhitungan-perhitungan diatas akan diketahui jarak antar cluster. Masing – masing perhitungan dapat menghasilkan dendrogram. Gambar 2. 1 Dendrogram Dari penjelasan yang telah dipaparkan diatas, maka secara singkat AHC dapat dimengerti sebagai metode yang dimulai dengan setiap n cluster yang membentuk cluster masing-masing. Kemudian dua cluster dengan jarak terdekat bergabung. Selanjutnya cluster yang lama akan bergabung dengan cluster yang sudah ada dan membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar cluster. Proses akan berulang hingga akhirnya membentuk satu cluster yang memuat keseluruhan cluster. Sebagai contoh, diketahui data seperti pada tabel dibawah ini Tabel 2. 4 Contoh Data Data X Y 2 1 B 1 2 C 3 4 D 4 2 Dengan menggunakan rumus Euclidean Distance setiap obyek data tersebut dihitung similaritasnya sebagai berikut : , = √ | − | + | − | = , = √ | − | + | − | = . , = √ | − | + | − | = . , = √ | − | + | − | = . , = √ | − | + | − | =3 , = √ | − | + | − | = . Berdasarkan perhitungan tersebut dapat dibentuk similarity matriks seperti tabel berikut. Tabel 2. 5 Similarity Matriks A b C d A 1 3.16 2.236 B 1 2.82 3 C 3.16 2.82 0 2.236 D 2.236 3 2.236 0 Karena similarity matriks bersifat simetris maka dapat ditulis seperti dibawah ini dan menjadi matriks jarak: Tabel 2. 6 Matriks Jarak A B C D A 1 3.16 2.236 B 2.82 3 C 2.236 D 1. Single linkage Dari tabel 2.6 dapat dilihat bahwa jarak obyek yang paling dekat yaitu a dan b,berjarak 1. Kedua obyek data ini menjadi satu cluster pertama. Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari sisa yang ada c,d dan berada paling dekat dengan clusterab. Untuk pencarian jarak ini pertama digunakan Single linkage. = min{ , } = min{ . , . } = . = min{ , } = min{ . , } = . Kemudian baris – baris dan kolom – kolom matriks jarak yang bersesuaian dengan cluster a dan b dihapus dan ditambahkan baris dan kolom untuk cluster ab, sehingga matriks jarak menjadi seperti berikut : Tabel 2. 7 Matriks Jarak pertama Single Linkage Ab C d Ab 0 2.82 2.236 C 2.236 D Berdasarkan pada matriks jarak pertama, dipilih kembali jarak terdekat antar cluster. Ditemukan dua nilai terdekat yaitu abd dan cd dengan nilai 2.236. Maka dapat dipilih salah satu dari kedua nilai tersebut. Dalam contoh ini cluster yang dipilih yaitu cd. Kemudian hitung jarak cluster cd dengan cluster ab. = min{ , , , } = min{ . , . , . , } = . Kemudian baris – baris dan kolom – kolom matriks jarak yang bersesuaian dengan cluster c dan d dihapus dan ditambahkan baris dan kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut : Tabel 2. 8 Matriks Jarak kedua Single Linkage ab cd ab 2.236 cd Dengan demikian proses iterasi perhitungan jarak untuk pembentukan cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster ab dan cd digabung menjadi satu cluster yaitu abcd dengan jarak terdekat 2.236. Berikut ini hasil dendrogram AHC dengan Single linkage: Gambar 2. 2 Dendrogram Single linkage 2. Complete Linkage Perhitungan jarak dengan Complete Linkage akan dicari jarak antar cluster dengan yang paling jauh. Dengan tetap menggunakan tabel matriks jarak tabel 2.7,perhitungan Complete Linkage ini dilakukan. Pada awal perhitungan, cluster ab tetap digunakan sebagai cluster pertama karena jarak antar obyek yang paling dekat yaitu 1. Berikut akan dilakukan perhitungan jarak antar cluster ab dengan c dan d. = max{ , } = max{ . , . } = . = max{ , } = max{ . , } = Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster a dan b dihapus dan ditambahkan baris dan kolom untuk cluster ab, sehingga matriks jarak seperti berikut : Tabel 2. 9 Matriks jarak pertama Complete Linkage ab c d ab 3.16 3 c 2.236 d Berdasarkan tabel diatas dipilih kembali jarak terdekat antar cluster. Ditemukan cluster cd yang paling dekat yaitu 2.236. Kemudian dihitung jarak dengan cluster ab. = max{ , , , } = max{ . , . , . , } = . Kemudian baris – baris dan kolom – kolom matriks jarak yang bersesuaian dengan cluster c dan d dihapus dan ditambahkan baris dan kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut : Tabel 2. 10 Matriks Jarak kedua Complete Linkage ab cd ab 3.16 cd Dengan demikian proses iterasi perhitungan jarak untuk pembentukan cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster ab dan cd digabung menjadi satu cluster yaitu abcd dengan jarak terdekat 3.16. Berikut ini hasil dendrogram AHC dengan Complete Linkage: Gambar 2. 3 Dendrogram Complete Linkage 3. Average Linkage Menggunakan Average Linkage akan dicari jarak antara cluster dengan menghitung nilai rata-rata pasangan setiap cluster. Dengan tetap menggunakan tabel matriks jarak tabel 2.7, perhitungan Average Linkage ini dilakukan. Pada awal perhitungan, cluster ab teta digunakan sebagai cluster pertama karena jarak antar obyek yang paling dekat. Berikut ini akan dilakukan perhitungan jarak antara cluster ab dengan c dan d. = average{ , } = average{ . , . } = . + . = . = average{ , } = average{ . , } = . + = . Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster a dan b dihapus dan ditambahkan baris dan kolom untuk cluster ab, sehingga matriks jarak menjadi seperti berikut : Tabel 2. 11 Matriks Jarak pertama Average Linkage ab c d ab 2.99 2.618 c 2.236 d Berdasarkan pada matriks jarak pertama, dipilih kembali jarak terdekat antar cluster. Ditemukan cluster cd paling dekat, yaitu bernilai 2.236. Kemudian dihitung jarak dengan cluster ab. = average{ , , , } = average{ . , . , . , } = . + . + . + = . Kemudian baris – baris dan kolom – kolom matriks jarak yang bersesuaian dengan cluster c dan d dihapus dan ditambahkan baris dan kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut : Tabel 2. 12 Matriks Jarak kedua Average Linkage ab cd ab 2.804 cd Dengan demikian proses iterasi perhitungan jarak untuk pembentukan cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster ab dan cd digabung menjadi satu cluster yaitu abcd dengan jarak terdekat 2.804. Berikut ini hasil dendrogram AHC dengan Average Linkage: Gambar 2. 4 Dendrogram average linkage

2.5.1 Langkah Algoritma Agglomerative Hierarchical Clustering

Algoritma Agglomerative Hierarchical Clustering untuk mengelompokkan n obyek adalah sebagai berikut Tan, Steinbach dan Kumar,2006 : 1. Hitung matriks kedekatan berdasarkan jenis jarak yang digunakan. 2. Ulangi langkat 3 sampai 4, hingga hanya satu kelompok yang tersisa 3. Gabungkan dua cluster terdekat berdasarkan parameter kedekatan yang ditentukan. 4. Perbarui matriks kedekatan untuk merepresentasikan kedekatan diantara kelompok baru dan kelompok yang tersisa. 5. Selesai 2.5.2 Flowchart Agglomerative Hierarchical Clustering 1. Single Linkage Gambar 2. 5 Flowchart Single Linkage 2. Complete Linkage Gambar 2. 6 Flowchart Complete Linkage 3. Average Linkage Gambar 2. 7 Flowchart Average Linkage

2.7 Confusion Matriks

Confusion Matriks merupakan metode external evaluasi yang berisi informasi yang actual dan dapat diprediksi Kohavi dan Provost, 1998, dimana kinerja sistem dapat di evaluasi menggunakan perbandingan hasil luaran sistem dengan label data. Tabel dibawah ini menunjukkan Confusion Matriks untuk dua class Kohavi dan Provost, 1998: Tabel 2. 13 Tabel Confusion Matriks Predicted Negatif Positif Actual Negatif a b Positif c d Keterangan : a : jumlah prediksi yang salah bahwa contoh bersifat negatif b : jumlah prediksi yang benar bahwa contoh bersifat negatif c : jumlah prediksi yang salah bahwa contoh bersifat positif d : jumlah prediksi yang benar bahwa contoh bersifat positif Perhitungan akurasi dirumuskan sebagai berikut : = + + + + 2.13 34

BAB III METODE PENELITIAN

Bab ini berisi perancangan penelitian yang akan dibuat oleh penulis meliputi data, kebutuhan system, tahapan penelitian, desain interface, skenario sistem, dan desain pengujian.

3.1 Data

Data yang digunakan pada penelitian ini adalah tweet berbahasa Indonesia yang ditulis oleh para pengguna Twitter. Tweet yang dikumpulkan berupa tweet-tweet yang mengandung emosi cinta, senang, marah, takut, dan sedih. Dari masing- masing emosi, diambil 100 data per emosi sehingga total tweet yang digunakan sebagai data berjumlah 500 . Pencarian data dilakukan dengan menggunakan hashtag cinta, senang, takut, dan sedih pada website www.netlytic.org. Pemilihan data secara manual yaitu memilih kalimat-kalimat tweet yang berbahasa Indonesia dan tidak mengandung gambar. Tweet yang telah dipilih kemudian di simpan ke file teks. Setiap tweet diletakkan pada setiap baris pada file teks. File teks berisi tweet tersebut kemudian dijadikan input pada sistem untuk diolah lebih lanjut. Berikut contoh tweet dengan emosi cinta. Penulis tweet mengungkapkan perasaan cintanya pada seseorang atau sesuatu melalui kata-kata yang ditulis. Gambar 3. 1 Tweet Cinta