Stopword removal filtering Text Operation

31 Dokumen ketiga percintaan : mencoba jiwaku mengerti arti ku hadirmu mengerti mengerti diriku sinar memang diwajahmu untuk mengerti kau tenangnya miliki mencoba jiwa mengerti hadir mengerti mengerti sinar diwajah mengerti tenangnya miliki Gambar 3.8. Stopword dokumen ketiga Pada gambar 3.8 merupakan contoh lirik lagu yang mengalami proses stopword, lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema percintaan. Dokumen keempat persahabatan : kau teman sejati kita teman sejati hadapilan dunia genggam tanganku sejati teman hadapilah sejati dunia genggam teman tangan Gambar 3.9. Stopword dokumen keempat Pada gambar 3.9 merupakan contoh lirik lagu yang mengalami proses stopword, lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema persahabatan. 32 3.3.1.1.3.Stemming Pada proses selanjutnya ialah proses stemming dimana mencari kata dasar dari data lirik lagu yang diperoleh. Dibawah ini merupakan contoh data lirik lagu yang mengalami proses stemming: Dokumen pertama perjuangan : garuda rakyat pancasila adil makmur pendukung sentosa patriot pribadi proklamasi bangsa sedia ayo berkorban maju maju pancasila ayo dasar maju negara maju ayo maju maju garuda rakyat pancasila adil makmur dukung sentosa patriot pribadi proklamasi bangsa sedia ayo korban maju maju pancasila ayo dasar maju negara maju ayo maju maju Gambar 3.10. Stemming dokumen pertama Pada gambar 3.10 merupakan contoh lirik lagu yang mengalami proses stemming, lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema perjuangan. Dokumen kedua religi : bukakan pinta mencari bapa bapa ketuk pintu kekal buka pinta cari bapa bapa ketuk pintu kekal Gambar 3.11. Stemming dokumen kedua 33 Pada gambar 3.11 merupakan contoh lirik lagu yang mengalami proses stemming, lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema religi. Dokumen ketiga percintaan : mencoba jiwa mengerti hadir mengerti mengerti sinar diwajah mengerti tenangnya miliki coba jiwa mengerti hadir mengerti mengerti sinar wajah mengerti tenang milik Gambar 3.12. Stemming dokumen ketiga Pada gambar 3.12 merupakan contoh lirik lagu yang mengalami proses stemming, lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema percintaan. Dokumen keempat persahabatan : sejati teman hadapilah sejati dunia genggam teman tangan sejati teman hadapi sejati dunia genggam teman tangan Gambar 3.13. Stemming dokumen keempat Pada gambar 3.13 merupakan contoh lirik lagu yang mengalami proses stemming, lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema persahabatan. 34 3.3.1.1.4.Pembobotan Kata Pada proses pembobotan kata, tahapan yang dilakukan adalah memberikan nilai frekuensi suatu kata sebagai bobot, yang nantinya dapat diproses pada K-means clustering. Dibawah ini merupakan contoh proses pembobotan kata: Menghitung TF Term Frequency garuda rakyat pancasila adil makmur dukung sentosa patriot pribadi proklamasi bangsa sedia ayo korban maju maju pancasila ayo dasar maju negara maju ayo maju maju D 1 TF garuda = 1 pancasila = 2 dukung = 1 patriot = 1 proklamasi = 1 sedia=1 korban=1 dasar=1 negara=1 rakyat=1 adil=1 makmur=1 sentosa=1 pribadi=1 bangsa=1 ayo=3 maju=6 Gambar 3.14. Pembobotan kata dokumen pertama Pada gambar 3.14 merupakan contoh lirik lagu yang mengalami proses penghitungan term frequency, lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema perjuangan. buka pinta cari bapa bapa ketuk pintu kekal D 2 TF pinta=1 cari=1 ketuk=1 pintu=1 buka=1 bapa=2 kekal=1 Gambar 3.15. Pembobotan kata dokumen kedua 35 Pada gambar 3.15 merupakan contoh lirik lagu yang mengalami proses penghitungan term frequency, lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema religi. coba jiwa mengerti hadir mengerti mengerti sinar wajah mengerti tenang milik D 3 TF coba=1 mengerti=4 hadir=1 sinar=1 wajah=1 tenang=1 jiwa=1 milik=1 Gambar 3.16. Pembobotan kata dokumen ketiga Pada gambar 3.16 merupakan contoh lirik lagu yang mengalami proses penghitungan term frequency, lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema percintaan. sejati teman hadapi sejati dunia genggam teman tangan D 4 TF teman=2 sejati=2 hadapi=1 dunia=1 genggam=1 tangan=1 Gambar 3.17. Pembobotan kata dokumen keempat Pada gambar 3.17 merupakan contoh lirik lagu yang mengalami proses penghitungan term frequency, lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema persahabatan. 36 Menghitung DF Document Frequency Tabel 3.1. Tabel menghitung DF ID word DF 1 Garuda 1 21 pintu 1 2 pancasila 2 22 buka 1 3 dukung 1 23 bapa 2 4 Patriot 1 24 kekal 1 5 proklamasi 1 25 coba 1 6 Sedia 1 26 mengerti 4 7 Korban 1 27 hadir 1 8 Dasar 1 28 sinar 1 9 Negara 1 29 wajah 1 10 Rakyat 1 30 tenang 1 11 Adil 1 31 jiwa 1 12 makmur 1 32 milik 1 13 sentosa 1 33 teman 2 14 pribadi 1 34 sejati 2 15 Bangsa 1 35 hadapi 1 16 Ayo 3 36 dunia 1 17 Maju 6 37 genggam 1 18 Pinta 1 38 tangan 1 19 Cari 1 20 Ketuk 1 Pada Tabel 3.1 merupakan contoh penghitungan document frequency, document frequency merupakan banyaknya bobot term frequency yang terkandung dalam seluruh data lirik. Menghitung IDF Inverse Document Frequency Tabel 3.2. Tabel menghitung IDF ID word DF IDF 1 garuda 1 1.7243 2 pancasila 2 1.4232 3 dukung 1 1.7243 4 patriot 1 1.7243 5 proklamasi 1 1.7243 6 sedia 1 1.7243 7 korban 1 1.7243 8 dasar 1 1.7243 9 negara 1 1.7243 10 rakyat 1 1.7243 37 Tabel 3.2. Tabel menghitung IDF Lanjutan ID word DF IDF 11 adil 1 1.7243 12 makmur 1 1.7243 13 sentosa 1 1.7243 14 pribadi 1 1.7243 15 bangsa 1 1.7243 16 ayo 3 1.2472 17 maju 6 0.9461 18 pinta 1 1.7243 19 cari 1 1.7243 20 ketuk 1 1.7243 21 pintu 1 1.7243 22 buka 1 1.7243 23 bapa 2 1.4232 24 kekal 2 1.4232 25 coba 1 1.7243 26 mengerti 4 1.1222 27 hadir 1 1.7243 28 sinar 1 1.7243 29 wajah 1 1.7243 30 tenang 1 1.7243 31 jiwa 1 1.7243 32 milik 1 1.7243 33 teman 2 1.4232 34 sejati 2 1.4232 35 hadapi 1 1.7243 36 dunia 1 1.7243 37 genggam 1 1.7243 38 tangan 1 1.7243 Pada Tabel 3.2 merupakan contoh penghitungan inverse document frequency. Menghitung W ij Langkah selanjutnya ialah menghitung bobot Wij yang terdapat pada masing-masing data lagu. Dimana Wij didapat dari hasil perkalian antara 38 term frequency dengan inverse document frequency. Dibawah ini merupakan contoh data lagu yang melakukan proses penghitungan Wij.  Menghitung bobot pertama Tabel 3.3. Tabel menghitung bobot pertama ID word DF IDF Wij 1 garuda 1 1.72427587 1.7242759 2 pancasila 2 1.423245874 2.8464917 3 dukung 1 1.72427587 1.7242759 4 patriot 1 1.72427587 1.7242759 5 proklamasi 1 1.72427587 1.7242759 6 sedia 1 1.72427587 1.7242759 7 korban 1 1.72427587 1.7242759 8 dasar 1 1.72427587 1.7242759 9 negara 1 1.72427587 1.7242759 10 rakyat 1 1.72427587 1.7242759 11 adil 1 1.72427587 1.7242759 12 makmur 1 1.72427587 1.7242759 13 sentosa 1 1.72427587 1.7242759 14 pribadi 1 1.72427587 1.7242759 15 bangsa 1 1.72427587 1.7242759 16 ayo 3 1.247154615 3.7414638 17 maju=6 6 0.946124619 5.6767477 Total Wij 36.404565 Pada Tabel 3.3 merupakan contoh penghitungan Wij yang terkandung dalam setiap data lirik. Lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema perjuangan.  Menghitung bobot kedua Tabel 3.4. Tabel menghitung bobot kedua ID word DF IDF Wij 18 pinta 1 1.72427587 1.7242759 19 cari 1 1.72427587 1.7242759 20 ketuk 1 1.72427587 1.7242759 21 pintu 1 1.72427587 1.7242759 22 buka 1 1.72427587 1.7242759 23 bapa 2 1.423245874 2.8464917 24 kekal 1 1.72427587 1.7242759 Total Wij 13.19215 39 Pada Tabel 3.4 merupakan contoh penghitungan Wij yang terkandung dalam setiap data lirik. Lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema religi.  Menghitung bobot ketiga Tabel 3.5. Tabel menghitung bobot ketiga ID word DF IDF Wij 25 coba 1 1.72427587 1.7242759 26 mengerti 4 1.122215878 4.4888635 27 hadir 1 1.72427587 1.7242759 28 sinar 1 1.72427587 1.7242759 29 wajah 1 1.72427587 1.7242759 30 tenang 1 1.72427587 1.7242759 31 jiwa 1 1.72427587 1.7242759 32 milik 1 1.72427587 1.7242759 Total Wij 16.558795 Pada Tabel 3.5 merupakan contoh penghitungan Wij yang terkandung dalam setiap data lirik. Lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema percintaan.  Menghitung bobot keempat Tabel 3.6. Tabel menghitung bobot keempat ID word DF IDF Wij 33 teman 2 1.423245874 2.8464917 34 sejati 2 1.423245874 2.8464917 35 hadapi 1 1.72427587 1.7242759 36 dunia 1 1.72427587 1.7242759 37 genggam 1 1.72427587 1.7242759 38 tangan 1 1.72427587 1.7242759 Total Wij 12.590087 40 Pada Tabel 3.6 merupakan contoh penghitungan Wij yang terkandung dalam setiap data lirik. Lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema persahabatan. 3.3.1.1.5.Penggabungan Kata Sinonim Penggabungan Kata dilihat dari sinonim yang bersumber dari Kamus Besar Bahasa Indonesia KBBI. Menurut Kamus Besar Bahasa Indonesia KBBI sinonim adalah bentuk bahasa yang maknanya mirip atau sama dengan bentuk bahasa lain, maka pada proses penggabungan kata dapat dilakukan ketika terdapat kata berbeda namun memiliki arti sama, maka dapat digabungkan menjadi satu kata, tanpa mengubah nilai frekuensi. Dibawah ini adalah contoh kata yang mengalami proses penggabungan kata Lihat tabel 3.7 dan 3.8: Tabel 3.7. Tabel contoh data belum mengalami penggabungan kata kata tf kangen 1 kawan 1 rindu 1 sahabat 1 teman 1 Tabel 3.8. Tabel contoh data telah mengalami penggabungan kata kata tf rindu 2 teman 3 Berdasarkan contoh data diatas, terdapat lima kata yang masing-masing memiliki tf=1, tetapi ketika mengalami proses penggabungan kata, kata tersebut kemudian dicek dengan sinonim, dan ternyata hanya terdapat dua 41 kata yang memiliki makna berbeda, sedangkan kata lainnya masuk kedalam dua kata tersebut. 3.3.1.1.6.Normalisasi Z-Score Setelah menemukan pembobotan, langkah selanjutnya adalah proses normalisasi menggunakan z-score, yang berfungsi supaya kata hasil pembobotan yang satu dengan yang lainnya dapat dibandingkan. Dibawah ini merupakan langkah-langkah untuk mendapatkan hasil normalisasi: 1. Hasil Pembobotan yang telah mengalami proses tokenizing, stopword dan stemming. Lihat tabel 3.9. Tabel 3.9. Tabel Pembobotan cinta bendera tuhan teman Dokumen 1 0.60206 Dokumen 2 0.60206 Dokumen 3 0 0.823909 Dokumen 4 5.20412 Dokumen 5 0.60206 0 1.124939 Dokumen 6 0 1.124939 Dokumen 7 0 2.40824 Dokumen 8 0 0.60206 Berdasarkan Tabel 3.9 telah mengalami proses pembobotan. Sebagai contoh pada kata cinta di Dokumen 1, Bobot Wij sebesar 0.60206 yang didapat dari Term Frequency yang bernilai 1, dikalikan dengan inverse document frequency yang bernilai 0.60206. Proses tersebut dilakukan pada masing-masing data di seluruh dokumen . 42 2. Mencari nilai standar deviasi dari masing-masing data lirik. Lihat tabel 3.10. Tabel 3.10. Tabel Standar Deviasi Per Lirik STD Dokumen 1 0.30103 Dokumen 2 0.30103 Dokumen 3 0.411954 Dokumen 4 2.60206 Dokumen 5 0.54232 Dokumen 6 0.562469 Dokumen 7 1.20412 Dokumen 8 0.30103 Pada Tabel 3.10 masing-masing dokumen dicari nilai standar deviasi, untuk dapat diproses pada tahapan normalisasi. 3. Mencari nilai mean dari masing-masing data lirik. Lihat Tabel 3.11. Tabel 3.11. Tabel Mean MEAN Dokumen 1 0.150515 Dokumen 2 0.150515 Dokumen 3 0.205977 Dokumen 4 1.30103 Dokumen 5 0.43175 Dokumen 6 0.281235 Dokumen 7 0.60206 Dokumen 8 0.150515 Pada Tabel 3.11 masing-masing dokumen dicari nilai mean, untuk dapat diproses pada tahapan normalisasi. 4. Hasil normalisasi, berdasarkan perhitungan rumus yang telah dipaparkan pada bab sebelumnya. Lihat Tabel 3.12. 43 Tabel 3.12. Tabel Normalisasi cinta bendera tuhan teman Dokumen 1 1.5 -0.5 -0.5 -0.5 Dokumen 2 1.5 -0.5 -0.5 -0.5 Dokumen 3 -0.5 1.5 -0.5 -0.5 Dokumen 4 -0.5 1.5 -0.5 -0.5 Dokumen 5 0.31404 -0.79612 1.278192 -0.79612 Dokumen 6 -0.5 -0.5 1.5 -0.5 Dokumen 7 -0.5 -0.5 -0.5 1.5 Dokumen 8 -0.5 -0.5 -0.5 1.5 Berdasarkan Tabel 3.12 mengalami proses normalisasi dengan menggunakan Z-Score, nilai yang diperoleh pada tabel diatas adalah data dikurangi dengan rata-rata mean lalu dibagi dengan standar deviasi, maka diperoleh nilai masing-masing normalisasi pada setiap dokumen.

3.3.1.2. K-Means Clustering

Setelah melakukan proses text operation selanjutnya langkah pengelompokkan menggunakan K-Means Clustering. Centroid awal=4 centroid, dipilih empat centroid dikarenakan sudah dibatasi dengan pengelompokan topik yang diasumsikan menjadi empat kelompokcluster yaitu percintaan, perjuangan, persahabatan dan religi, selanjutnya untuk penentuan centroid menggunakan variance initialization, dicari variance terbesar, kemudian lirik di sort menggunakan hasil variance terbesar dan lirik yang sudah di sort dibagi menjadi empat bagian, setiap bagian pada kelompokcluster dicari rata-ratamean, maka itulah centroid awal. Setelah menemukan centroid awal langkah selanjutnya adalah mencari kedekatan 44 antara centroid dengan masing-masing dokumen menggunakan Euclidean distance. Penjelasan dari langkah kerja Metode K-Means : 1. Menentukan banyaknya cluster k 2. Menentukan centroid menggunakan Variance Initialization. 3. Menghitung centroid cluster ke-i 4. Menghitung jarak objek ke masing-masing centroid pada tiap- tiap cluster menggunakan Euclidean Distance. 5. Pengalokasian objek ke dalam tiap-tiap cluster. Pada tabel 3.12 menunjukkan contoh dokumen lagu yang telah mengalami proses normalisasi, kemudian dicari variance menggunakan persamaan2.7: Berikut ini contoh dokumen yang telah mengalami proses variance. Lihat tabel 3.13. Tabel 3.13. Tabel Variance cinta bendera tuhan teman Dokumen 1 1.5 -0.5 -0.5 -0.5 Dokumen 2 1.5 -0.5 -0.5 -0.5 Dokumen 3 -0.5 1.5 -0.5 -0.5 Dokumen 4 -0.5 1.5 -0.5 -0.5 Dokumen 5 0.31404 -0.79612 1.278192 -0.79612 Dokumen 6 -0.5 -0.5 1.5 -0.5 Dokumen 7 -0.5 -0.5 -0.5 1.5 Dokumen 8 -0.5 -0.5 -0.5 1.5 Variance 0.823684 0.910406 0.768232 0.910406 45 Setelah mendapatkan nilai dari variance, maka mencari variance terbesar, lalu sort dokumen berdasarkan variance terbesar. Pada data diatas, variance terbesar berada pada kata : bendera didokumen 3 dan 4, serta teman didokumen 7 dan 8, sebagai acuan diambil pada kata bendera didokumen 3, maka sort dokumen 3 yang memiliki variance terbesar. Lihat tabel 3.14. Tabel 3.14. Tabel Sort Lirik Cinta bendera tuhan teman Dokumen 3 -0.5 1.5 -0.5 -0.5 Dokumen 4 -0.5 1.5 -0.5 -0.5 Dokumen 1 1.5 -0.5 -0.5 -0.5 Dokumen 2 1.5 -0.5 -0.5 -0.5 Dokumen 6 -0.5 -0.5 1.5 -0.5 Dokumen 7 -0.5 -0.5 -0.5 1.5 Dokumen 8 -0.5 -0.5 -0.5 1.5 Dokumen 5 0.31404 -0.79612 1.278192 -0.79612 Selanjutnya untuk mencari centroid langkahnya adalah bagi jumlah data dokumen menjadi empat bagian, lalu cari rata-rata mean pada tiap-tiap bagian, maka itulah centroid awal yang didapat. Lihat Tabel 3.15. Tabel 3.15. Tabel Centroid cinta bendera tuhan teman Dokumen 3 -0.5 1.5 -0.5 -0.5 Dokumen 4 -0.5 1.5 -0.5 -0.5 Dokumen 1 1.5 -0.5 -0.5 -0.5 Dokumen 2 1.5 -0.5 -0.5 -0.5 Dokumen 6 -0.5 -0.5 1.5 -0.5 Dokumen 7 -0.5 -0.5 -0.5 1.5 Dokumen 8 -0.5 -0.5 -0.5 1.5 Dokumen 5 0.31404 -0.79612 1.278192 -0.79612 C1 -0.5 1.5 -0.5 -0.5 C2 1.5 -0.5 -0.5 -0.5 C3 -0.5 -0.5 0.5 0.5 C4 -0.09298 -0.64806 0.389096 0.351942