Stopword removal filtering Text Operation
31
Dokumen ketiga percintaan :
mencoba jiwaku
mengerti arti
ku hadirmu
mengerti mengerti
diriku sinar
memang diwajahmu
untuk mengerti
kau tenangnya
miliki mencoba
jiwa mengerti
hadir mengerti
mengerti sinar
diwajah mengerti
tenangnya miliki
Gambar 3.8. Stopword dokumen ketiga
Pada gambar 3.8 merupakan contoh lirik lagu yang mengalami proses stopword,
lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema percintaan.
Dokumen keempat persahabatan :
kau teman sejati kita teman sejati
hadapilan dunia genggam tanganku
sejati teman
hadapilah sejati
dunia genggam
teman tangan
Gambar 3.9. Stopword dokumen keempat
Pada gambar 3.9 merupakan contoh lirik lagu yang mengalami proses stopword,
lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema persahabatan.
32
3.3.1.1.3.Stemming
Pada proses selanjutnya ialah proses stemming dimana mencari kata dasar dari data lirik lagu yang diperoleh. Dibawah ini merupakan contoh
data lirik lagu yang mengalami proses stemming:
Dokumen pertama perjuangan :
garuda rakyat
pancasila adil
makmur pendukung
sentosa patriot
pribadi proklamasi
bangsa sedia
ayo berkorban
maju maju
pancasila ayo
dasar maju
negara maju
ayo maju
maju garuda
rakyat pancasila
adil makmur
dukung sentosa
patriot pribadi
proklamasi bangsa
sedia ayo
korban maju
maju pancasila
ayo dasar
maju negara
maju ayo
maju maju
Gambar 3.10. Stemming dokumen pertama Pada gambar 3.10 merupakan contoh lirik lagu yang mengalami proses
stemming, lirik lagu yang digunakan pada gambar diatas adalah contoh lirik
lagu dengan tema perjuangan.
Dokumen kedua religi :
bukakan pinta
mencari bapa
bapa ketuk
pintu kekal
buka pinta
cari bapa
bapa ketuk
pintu kekal
Gambar 3.11. Stemming dokumen kedua
33
Pada gambar 3.11 merupakan contoh lirik lagu yang mengalami proses stemming,
lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema religi.
Dokumen ketiga percintaan :
mencoba jiwa
mengerti hadir
mengerti mengerti
sinar diwajah
mengerti tenangnya
miliki coba
jiwa mengerti
hadir mengerti
mengerti sinar
wajah mengerti
tenang milik
Gambar 3.12. Stemming dokumen ketiga Pada gambar 3.12 merupakan contoh lirik lagu yang mengalami proses
stemming, lirik lagu yang digunakan pada gambar diatas adalah contoh lirik
lagu dengan tema percintaan.
Dokumen keempat persahabatan :
sejati teman
hadapilah sejati
dunia genggam
teman tangan
sejati teman
hadapi sejati
dunia genggam
teman tangan
Gambar 3.13. Stemming dokumen keempat Pada gambar 3.13 merupakan contoh lirik lagu yang mengalami proses
stemming, lirik lagu yang digunakan pada gambar diatas adalah contoh lirik
lagu dengan tema persahabatan.
34
3.3.1.1.4.Pembobotan Kata
Pada proses pembobotan kata, tahapan yang dilakukan adalah memberikan nilai frekuensi suatu kata sebagai bobot, yang nantinya dapat
diproses pada K-means clustering. Dibawah ini merupakan contoh proses pembobotan kata:
Menghitung TF Term Frequency
garuda rakyat
pancasila adil
makmur dukung
sentosa patriot
pribadi proklamasi
bangsa sedia
ayo korban
maju maju
pancasila ayo
dasar maju
negara maju
ayo maju
maju
D
1
TF garuda = 1
pancasila = 2 dukung = 1
patriot = 1 proklamasi = 1
sedia=1 korban=1
dasar=1 negara=1
rakyat=1 adil=1
makmur=1 sentosa=1
pribadi=1 bangsa=1
ayo=3 maju=6
Gambar 3.14. Pembobotan kata dokumen pertama Pada gambar 3.14 merupakan contoh lirik lagu yang mengalami proses
penghitungan term frequency, lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema perjuangan.
buka pinta
cari bapa
bapa ketuk
pintu kekal
D
2
TF pinta=1
cari=1 ketuk=1
pintu=1 buka=1
bapa=2 kekal=1
Gambar 3.15. Pembobotan kata dokumen kedua
35
Pada gambar 3.15 merupakan contoh lirik lagu yang mengalami proses penghitungan term frequency, lirik lagu yang digunakan pada gambar diatas
adalah contoh lirik lagu dengan tema religi.
coba jiwa
mengerti hadir
mengerti mengerti
sinar wajah
mengerti tenang
milik
D
3
TF coba=1
mengerti=4 hadir=1
sinar=1 wajah=1
tenang=1 jiwa=1
milik=1
Gambar 3.16. Pembobotan kata dokumen ketiga
Pada gambar 3.16 merupakan contoh lirik lagu yang mengalami proses penghitungan term frequency, lirik lagu yang digunakan pada gambar diatas
adalah contoh lirik lagu dengan tema percintaan.
sejati teman
hadapi sejati
dunia genggam
teman tangan
D
4
TF teman=2
sejati=2 hadapi=1
dunia=1 genggam=1
tangan=1
Gambar 3.17. Pembobotan kata dokumen keempat
Pada gambar 3.17 merupakan contoh lirik lagu yang mengalami proses penghitungan term frequency, lirik lagu yang digunakan pada gambar diatas
adalah contoh lirik lagu dengan tema persahabatan.
36
Menghitung DF Document Frequency Tabel 3.1. Tabel menghitung DF
ID word
DF
1 Garuda
1 21
pintu 1
2 pancasila
2 22
buka 1
3 dukung
1 23
bapa 2
4 Patriot
1 24
kekal 1
5 proklamasi 1
25 coba
1 6
Sedia 1
26 mengerti 4
7 Korban
1 27
hadir 1
8 Dasar
1 28
sinar 1
9 Negara
1 29
wajah 1
10 Rakyat 1
30 tenang
1 11 Adil
1 31
jiwa 1
12 makmur 1
32 milik
1 13 sentosa
1 33
teman 2
14 pribadi 1
34 sejati
2 15 Bangsa
1 35
hadapi 1
16 Ayo 3
36 dunia
1 17 Maju
6 37
genggam 1 18 Pinta
1 38
tangan 1
19 Cari 1
20 Ketuk 1
Pada Tabel 3.1 merupakan contoh penghitungan document frequency,
document frequency merupakan banyaknya bobot term frequency yang
terkandung dalam seluruh data lirik.
Menghitung IDF Inverse Document Frequency
Tabel 3.2. Tabel menghitung IDF
ID word
DF IDF
1 garuda
1 1.7243
2 pancasila
2 1.4232
3 dukung
1 1.7243
4 patriot
1 1.7243
5 proklamasi
1 1.7243
6 sedia
1 1.7243
7 korban
1 1.7243
8 dasar
1 1.7243
9 negara
1 1.7243
10 rakyat 1
1.7243
37
Tabel 3.2. Tabel menghitung IDF Lanjutan
ID word
DF IDF
11 adil 1
1.7243 12 makmur
1 1.7243
13 sentosa 1
1.7243 14 pribadi
1 1.7243
15 bangsa 1
1.7243 16 ayo
3 1.2472
17 maju 6
0.9461 18 pinta
1 1.7243
19 cari 1
1.7243 20 ketuk
1 1.7243
21 pintu 1
1.7243 22 buka
1 1.7243
23 bapa 2
1.4232 24 kekal
2 1.4232
25 coba 1
1.7243 26 mengerti
4 1.1222
27 hadir 1
1.7243 28 sinar
1 1.7243
29 wajah 1
1.7243 30 tenang
1 1.7243
31 jiwa 1
1.7243 32 milik
1 1.7243
33 teman 2
1.4232 34 sejati
2 1.4232
35 hadapi 1
1.7243 36 dunia
1 1.7243
37 genggam 1
1.7243 38 tangan
1 1.7243
Pada Tabel 3.2 merupakan contoh penghitungan inverse document frequency.
Menghitung W
ij
Langkah selanjutnya ialah menghitung bobot Wij yang terdapat pada masing-masing data lagu. Dimana Wij didapat dari hasil perkalian antara
38
term frequency dengan inverse document frequency. Dibawah ini merupakan
contoh data lagu yang melakukan proses penghitungan Wij.
Menghitung bobot pertama Tabel 3.3. Tabel menghitung bobot pertama
ID word
DF IDF
Wij
1 garuda
1 1.72427587 1.7242759
2 pancasila
2 1.423245874 2.8464917 3
dukung 1
1.72427587 1.7242759 4
patriot 1
1.72427587 1.7242759 5
proklamasi 1
1.72427587 1.7242759 6
sedia 1
1.72427587 1.7242759 7
korban 1
1.72427587 1.7242759 8
dasar 1
1.72427587 1.7242759 9
negara 1
1.72427587 1.7242759 10 rakyat
1 1.72427587 1.7242759
11 adil 1
1.72427587 1.7242759 12 makmur
1 1.72427587 1.7242759
13 sentosa 1
1.72427587 1.7242759 14 pribadi
1 1.72427587 1.7242759
15 bangsa 1
1.72427587 1.7242759 16 ayo
3 1.247154615 3.7414638 17 maju=6
6 0.946124619 5.6767477 Total Wij
36.404565 Pada Tabel 3.3 merupakan contoh penghitungan Wij yang terkandung
dalam setiap data lirik. Lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema perjuangan.
Menghitung bobot kedua Tabel 3.4. Tabel menghitung bobot kedua
ID word
DF IDF
Wij
18 pinta 1
1.72427587 1.7242759 19 cari
1 1.72427587 1.7242759
20 ketuk 1
1.72427587 1.7242759 21 pintu
1 1.72427587 1.7242759
22 buka 1
1.72427587 1.7242759 23 bapa
2 1.423245874 2.8464917 24 kekal
1 1.72427587 1.7242759
Total Wij 13.19215
39
Pada Tabel 3.4 merupakan contoh penghitungan Wij yang terkandung dalam setiap data lirik. Lirik lagu yang digunakan pada gambar diatas adalah
contoh lirik lagu dengan tema religi.
Menghitung bobot ketiga Tabel 3.5. Tabel menghitung bobot ketiga
ID word
DF IDF
Wij
25 coba 1
1.72427587 1.7242759 26 mengerti
4 1.122215878 4.4888635 27 hadir
1 1.72427587 1.7242759
28 sinar 1
1.72427587 1.7242759 29 wajah
1 1.72427587 1.7242759
30 tenang 1
1.72427587 1.7242759 31 jiwa
1 1.72427587 1.7242759
32 milik 1
1.72427587 1.7242759 Total Wij
16.558795
Pada Tabel 3.5 merupakan contoh penghitungan Wij yang terkandung dalam setiap data lirik. Lirik lagu yang digunakan pada gambar diatas adalah
contoh lirik lagu dengan tema percintaan.
Menghitung bobot keempat Tabel 3.6. Tabel menghitung bobot keempat
ID word
DF IDF
Wij
33 teman 2 1.423245874 2.8464917
34 sejati 2 1.423245874 2.8464917
35 hadapi 1
1.72427587 1.7242759 36 dunia
1 1.72427587 1.7242759
37 genggam 1
1.72427587 1.7242759 38 tangan
1 1.72427587 1.7242759
Total Wij 12.590087
40
Pada Tabel 3.6 merupakan contoh penghitungan Wij yang terkandung dalam setiap data lirik. Lirik lagu yang digunakan pada gambar diatas adalah
contoh lirik lagu dengan tema persahabatan.
3.3.1.1.5.Penggabungan Kata Sinonim
Penggabungan Kata dilihat dari sinonim yang bersumber dari Kamus Besar Bahasa Indonesia KBBI. Menurut Kamus Besar Bahasa Indonesia
KBBI sinonim adalah bentuk bahasa yang maknanya mirip atau sama dengan bentuk bahasa lain, maka pada proses penggabungan kata dapat
dilakukan ketika terdapat kata berbeda namun memiliki arti sama, maka dapat digabungkan menjadi satu kata, tanpa mengubah nilai frekuensi.
Dibawah ini adalah contoh kata yang mengalami proses penggabungan kata Lihat tabel 3.7 dan 3.8:
Tabel 3.7. Tabel contoh data belum mengalami penggabungan kata
kata tf
kangen 1
kawan 1
rindu 1
sahabat 1
teman 1
Tabel 3.8. Tabel contoh data telah mengalami penggabungan kata
kata tf
rindu 2
teman 3
Berdasarkan contoh data diatas, terdapat lima kata yang masing-masing memiliki tf=1, tetapi ketika mengalami proses penggabungan kata, kata
tersebut kemudian dicek dengan sinonim, dan ternyata hanya terdapat dua
41
kata yang memiliki makna berbeda, sedangkan kata lainnya masuk kedalam dua kata tersebut.
3.3.1.1.6.Normalisasi Z-Score
Setelah menemukan pembobotan, langkah selanjutnya adalah proses normalisasi menggunakan z-score, yang berfungsi supaya kata hasil
pembobotan yang satu dengan yang lainnya dapat dibandingkan. Dibawah ini merupakan langkah-langkah untuk mendapatkan hasil normalisasi:
1. Hasil Pembobotan yang telah mengalami proses tokenizing, stopword dan stemming.
Lihat tabel 3.9. Tabel 3.9. Tabel Pembobotan
cinta bendera
tuhan teman
Dokumen 1 0.60206
Dokumen 2 0.60206
Dokumen 3 0 0.823909
Dokumen 4 5.20412
Dokumen 5 0.60206
0 1.124939 Dokumen 6
0 1.124939 Dokumen 7
0 2.40824 Dokumen 8
0 0.60206
Berdasarkan Tabel 3.9 telah mengalami proses pembobotan. Sebagai contoh pada kata cinta di Dokumen 1, Bobot Wij sebesar 0.60206 yang
didapat dari Term Frequency yang bernilai 1, dikalikan dengan inverse document frequency
yang bernilai 0.60206. Proses tersebut dilakukan pada masing-masing data di seluruh
dokumen
.
42
2. Mencari nilai standar deviasi dari masing-masing data lirik. Lihat tabel 3.10.
Tabel 3.10. Tabel Standar Deviasi Per Lirik
STD
Dokumen 1 0.30103
Dokumen 2 0.30103
Dokumen 3 0.411954
Dokumen 4 2.60206
Dokumen 5 0.54232
Dokumen 6 0.562469
Dokumen 7 1.20412
Dokumen 8 0.30103
Pada Tabel 3.10 masing-masing
dokumen
dicari nilai standar deviasi, untuk dapat diproses pada tahapan normalisasi.
3. Mencari nilai mean dari masing-masing data lirik. Lihat Tabel 3.11. Tabel 3.11. Tabel Mean
MEAN
Dokumen 1 0.150515
Dokumen 2 0.150515
Dokumen 3 0.205977
Dokumen 4 1.30103
Dokumen 5 0.43175
Dokumen 6 0.281235
Dokumen 7 0.60206
Dokumen 8 0.150515
Pada Tabel 3.11 masing-masing
dokumen
dicari nilai mean, untuk dapat diproses pada tahapan normalisasi.
4. Hasil normalisasi, berdasarkan perhitungan rumus yang telah dipaparkan pada bab sebelumnya. Lihat Tabel 3.12.
43
Tabel 3.12. Tabel Normalisasi cinta
bendera tuhan
teman Dokumen 1
1.5 -0.5
-0.5 -0.5
Dokumen 2 1.5
-0.5 -0.5
-0.5 Dokumen 3
-0.5 1.5
-0.5 -0.5
Dokumen 4 -0.5
1.5 -0.5
-0.5 Dokumen 5
0.31404 -0.79612 1.278192
-0.79612 Dokumen 6
-0.5 -0.5
1.5 -0.5
Dokumen 7 -0.5
-0.5 -0.5
1.5 Dokumen 8
-0.5 -0.5
-0.5 1.5
Berdasarkan Tabel 3.12 mengalami proses normalisasi dengan
menggunakan Z-Score, nilai yang diperoleh pada tabel diatas adalah data dikurangi dengan rata-rata mean lalu dibagi dengan standar deviasi, maka
diperoleh nilai masing-masing normalisasi pada setiap dokumen.