35
Langkah-langkah K-Means Clustering: 1.
Initialization: pilih K input vector data sebagai inisialisasi pusat cluster. Centroid awal cluster didapat dari tahap variance
initialization. 2.
Nearest-neighbor search: untuk setiap input vector, temukan pusat cluster terdekat, dan masukkan input vector pada cluster
terdekat. Kemiripan antara tweet dengan centroid dihitung menggunakan metode cosine similarity.
3. Mean update: update pusat cluster menggunakan rata-rata
centroid vector yang tergabung dalam setiap cluster. 4.
Stopping rule: ulangi langkah 2 dan 3 sampai tidak ada perubahan nilai rata-rata mean.
Tahap Hitung Akurasi
Pada tahap hitung akurasi, sistem akan membandingkan label cluster hasil prediksi sistem dengan label cluster yang ditentukan penulis kemudian
merepresentasikan ke dalam sebuah confusion matrix. Kemudian sistem akan menghitung akurasi sistem menggunakan confusion matrix.
Langkah-langkah Uji Akurasi: 1.
Baca label aktual tweet berdasarkan hashtag yang diberikan penulis tweet.
2. Baca label tweet hasil prediksi.
36
3. Representasikan label aktual dan prediksi ke dalam confusion
matrix. 4.
Hitung akurasi dengan cara membagi jumlah tweet yang tepat dikenali dengan jumlah seluruh data kemudian dikalikan
dengan 100 .
Tahap Uji Data Baru
Pada tahap uji data baru, sistem akan menentukan tweet baru masuk ke cluster cinta, sedih, senang, marah, atau takut menggunakan centroid akhir
hasil pengujian sistem. Langkah-langkah Uji Data Baru:
1. Masukkan data tweet baru
2. Tentukan centroid akhir tahap clustering sebagai penentu data
baru termasuk cluster cinta, marah, sedih, senang, dan takut. 3.
Lakukan tahap preprocessing, pembobotan dan normalisasi sehingga didapat vector data tweet baru.
4. Hitung kemiripan data baru dengan lima centroid menggunakan
metode cosine similarity. 5.
Tentukan emosi tweet berdasarkan kedekatan atau kemiripan tweet dengan centroid cluster emosi.
37
3.3 Model Analisis
Pengumpulan Data Preprocessing
Pembobotan tf-idf
Normalisasi K-Means Clustering
Hitung Akurasi
Gambar 3.6 Diagram Blok
3.3.1 Preprocessing
Tahap preprocessing meliputi tahap tokenizing, stopword removal, dan stemming. Penjelasan tahap preprocessing adalah sebagai
berikut:
3.3.1.1 Tokenizing
Tokenizing bertujuan untuk memenggal kalimat tweet menjadi tiap-tiap kata. Gambar-gambar di bawah menunjukkan contoh
perlakuan tokenizing terhadap kalimat tweet cinta, marah, sedih, senang, dan takut.
38
Tokenizing tweet cinta
Cnta itu indah.. Seindah senyuman candaan Cinta
itu memeluk hati ke2 insan.. Menyatukan nya dalam 1
ikatan
cnta itu
indah seindah
senyuman candaan
cinta itu
memeluk hati
ke insan
menyatukan nya
dalam ikatan
Gambar 3.7 Tokenizing Tweet Cinta Gambar 3.7 menunjukkan contoh kalimat tweet yang dikenai
proses tokenizing. Kalimat tweet yang digunakan pada gambar di atas adalah tweet yang mengandung emosi cinta.
Tokenizing tweet marah
Huuhh ... Lagi2 dibuat marah sama si dia . punya kerjaan yg
laen ap selain gangguin ak ? Sebel Jengkel PUASA
huuhh
lagi dibuat
marah sama
si dia
punya kerjaan
yg laen
ap selain
gangguin ak
sebel jengkel
puasa
Gambar 3.8 Tokenizing Tweet Marah Gambar 3.8 menunjukkan contoh kalimat tweet yang dikenai
proses tokenizing. Kalimat tweet yang digunakan pada gambar di atas adalah tweet yang mengandung emosi marah.
39
Tokenizing tweet sedih
Inilah saat terakhirku melihat passus, jatuh air mataku
menangis pilu. Hanya mampu ucapkan
selamat jalan
passus,,, :
inilah saat
terakhirku melihat
passus jatuh
air mataku
menangis pilu
hanya mampu
ucapkan selamat
jalan passus
Gambar 3.9 Tokenizing Tweet Sedih Gambar 3.9 menunjukkan contoh kalimat tweet yang dikenai
proses tokenizing. Kalimat tweet yang digunakan pada gambar di atas adalah tweet yang mengandung emosi sedih.
Tokenizing tweet senang
Mempunyai Sahabat Seperti Dia Menyenangkan _ _
Bisa
Bekerja Sama,Jalan
Bersama,Dan Selalu Bahagia _ _
mempunyai
sahabat seperti
dia menyenangkan
bisa bekerja
sama jalan
bersama dan
selalu bahagia
Gambar 3.10 Tokenizing Tweet Senang Gambar 3.10 menunjukkan contoh kalimat tweet yang dikenai
proses tokenizing. Kalimat tweet yang digunakan pada gambar di atas adalah tweet yang mengandung emosi senang.
40
Tokenizing tweet takut
dpat kbar kalau ad ank kampus
yg di
begal,astafirullah..jdi takut
sndri kalau kluar mlm,..
dpat kbar
kalau ad
ank kampus
yg di
begal astafirullah
jdi takut
sndri kalau
kluar mlm
Gambar 3.11 Tokenizing Tweet Takut Gambar 3.11 menunjukkan contoh kalimat tweet yang dikenai
proses tokenizing. Kalimat tweet yang digunakan pada gambar di atas adalah tweet yang mengandung emosi takut.
3.3.1.2 Stopword Removal
Stopword removal bertujuan untuk menghilangkan kata-kata yang memiliki nilai kecil dalam membantu pemilihan dokumen yang
sesuai dengan kebutuhan pengguna. Stopword removal dilakukan dengan cara mencocokkan tiap kata dalam dokumen dengan sebuah
daftar stopword. Jika kata pada dokumen sama dengan kata yang ada pada daftar stopword, kata tersebut akan dihapus. Gambar-gambar di
bawah menunjukkan contoh perlakuan stopword removal terhadap kalimat tweet cinta, marah, sedih, senang, dan takut.
41
Stopword removal tweet cinta
cnta itu
indah seindah
senyuman candaan
cinta itu
memeluk hati
ke insan
menyatukan nya
dalam ikatan
cnta
indah seindah
senyuman candaan
cinta memeluk
hati insan
menyatukan ikatan
Gambar 3.12 Stopword Removal Tweet Cinta Gambar 3.12 menunjukkan contoh kalimat tweet yang dikenai
proses stopword removal. Kalimat tweet yang digunakan pada gambar di atas adalah tweet yang mengandung emosi cinta.
Stopword removal tweet marah
huuhh lagi
dibuat marah
sama si
dia punya
kerjaan yg
laen ap
selain gangguin
ak sebel
jengkel puasa
marah
sama kerjaan
gangguin sebel
jengkel puasa
Gambar 3.13 Stopword Removal Tweet Marah Gambar 3.13 menunjukkan contoh kalimat tweet yang dikenai
proses stopword removal. Kalimat tweet yang digunakan pada gambar di atas adalah tweet yang mengandung emosi marah.
42
Stopword removal tweet sedih
inilah saat
terakhirku melihat
passus jatuh
air mataku
menangis pilu
hanya mampu
ucapkan selamat
jalan passus
terakhirku
melihat passus
jatuh air
mataku menangis
pilu ucapkan
selamat jalan
passus
Gambar 3.14 Stopword Removal Tweet Sedih Gambar 3.14 menunjukkan contoh kalimat tweet yang dikenai
proses stopword removal. Kalimat tweet yang digunakan pada gambar di atas adalah tweet yang mengandung emosi sedih.
Stopword removal tweet senang
sahabat seperti
dia menyenangkan
bisa bekerja
sama jalan
bersama dan
selalu bahagia
sahabat
menyenangkan bekerja
sama jalan
bersama bahagia
Gambar 3.15 Stopword Removal Tweet Senang Gambar 3.15 menunjukkan contoh kalimat tweet yang dikenai
proses stopword removal. Kalimat tweet yang digunakan pada gambar di atas adalah tweet yang mengandung emosi senang.