Pembobotan kata dengan TF-IDF

Hasil dari proses stemming ditunjukan pada tabel 3.7 Tabel 3.5 Tahapan Hasil Stemming sungguh jatuh Sulit cinta bagas kaki Wanita cinta Jalan orang pergi benua Iman agama Kuat buta kota agama Wanita atur Cinta va istanbul hidup Iman lagi Murni bagas turki damping Tarik hindar Kuat jalan idap cinta Hati nggak Nikah tantang kanker pisah Meni diputusin Satu berat sarang cinta Wanita sakit Iman akan paru hidup Iman komitmen Moga restu cita Iman umur Timbang cinta jejak

3. Pembobotan kata dengan TF-IDF

Proses pembobotan kata adalah proses pemberian nilai atau bobot ke sebuah kata berdasarkan kemunculannya pada suatu dokumen teks Baeza-Yates et al, 1999. Pada proses sebelumnya atau proses Text Processing akan didapat kumpulan kata atau term yang kemudian direpresentasikan kedalam sebuah terms vector. Terms vector suatu dokumen teks a adalah tuple bobot semua term pada a. Nilai bobot sebuah term inilah yang nantinya akan merepresentasikan dokumen teks. Pada penelitian ini proses pembobotan kata menggunakan metode Term Frequency-Inverse Document Frequency TF-IDF. Term Frequency-Inverse document frequency TF-IDF adalah suatu metode pembobotan kata dengan menghitung nilai TF dan juga menghitung kemunculan sebuah kata pada dokumen teks. Pada pembobotan ini, jika kemunculan term pada sebuah dokumen teks tinggi dan kemunculan term tersebut pada dokumen teks yang lain rendah, maka bobotnya akan semakin besar. Sedangkan jika kemunculan term pada dokumen teks lain tinggi, maka bobotnya akan semakin kecil. Tujuan penghitungan IDF adalah untuk mencari kata-kata yang benar-benar merepresentasikan dokumen teks pada suatu koleksi. Metode ini merupakan metode Universitas Sumatera Utara paling baik dalam perolehan informasi Khodra et al, 2005. Adapun rumus dari TF- IDF dapat di lihat pada persamaan berikut Salton, 1983. 1 Dengan tfi,j adalah frekuensi kemunculan term j pada dokumen teks d i  D, dimana i = 1,2,3,.....,N, dfj adalah frekuensi dokumen yang mengandung term j dari semua koleksi dokumen, dan N adalah jumlah seluruh dokumen yang ada di koleksi dokumen. Berdasarkan rumus diatas berapapun besarnya nilai tfi,j, apabila N= dfj maka akan didapatkan hasil 0 nol untuk perhitungan idf. Untuk itu dapat ditambahkan nilai 1 pada sisi idf, sehingga perhitungan untuk pembobotan dapat dilihat pada rumus persamaan 2. +1 2 Pada penelitian ini, proses klasifikasi dokumen text berupa novel dilakukan setelah melakukan pembobotan kata.. Proses klasifikasi dilakukan dengan memetakan kata pada novel ke daftar kata yang mewakili dari genre yang ada di dalam data resource, kemudian dihitung nilai kemiripan kata yang didapat dari proses TF-IDF dengan menjumlahkan bobot setiap kata yang sama dengan daftar kata pada data resource,dan Kemudian akan diklasifikasikan tepat ke salah satu genre yang memiliki nilai kemiripan tertinggi atau terbesar. Hasil dari tahapan pembobotan kata menggunakan TF-IDF dapat dilihat pada tabel 3.8 dan hasil pengklasifikasian dapat dilihat pada tabel 3.9. Tabel 3.6 Hasil Pembobotan Kata. kata tf Df n logndf+1=idf tfidf = tf idf tf idf sungguh 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 tarik 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 hati 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 meni 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 jatuh 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 atur 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 lagi 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 hindar 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 Universitas Sumatera Utara nggak 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 diputusin 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 komitmen 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 umur 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 sulit 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 murni 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 nikah 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 moga 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 timbang 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 orang 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 buta 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 va 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 tantang 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 berat 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 akan 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 restu 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 pergi 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 kota 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 istanbul 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 turki 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 idap 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 kanker 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 sarang 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 jejak 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 kaki 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 benua 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 damping 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 satu 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 pisah 1 1 12 log121+1=2.0792 12.0792 =2.0792 2.0792 agama 2 2 12 log122+1=1.7781 21.7781 =3.5563 3.5563 sakit 1 1 12 Log121+1=2.0792 12.0792 =2.0792 2.0792 hidup 2 2 12 log122+1=1.7781 21.7781 =3.5563 3.5563 Universitas Sumatera Utara jalan 2 2 12 log122+1=1.7781 21.7781 =3.5563 3.5563 kuat 2 1 12 log121+1=2.0791 22.0791 =4.1584 4.1584 bagas 2 2 12 log122+1=1.7781 21.7781 =3.5563 3.5563 Paru 2 1 12 log121+1=2.0791 22.0791 =4.1584 4.1584 Cita 2 1 12 log121+1=2.0791 22.0791 =4.1584 4.1584 wanita 3 2 12 log122+1=1.7781 31.7781 =5.3345 5.3345 cinta 5 5 12 log125+1=1.3802 51.3802 =6.9011 6.9011 iman 5 3 12 log123+1=1.6020 51.6020 =8.0103 8.0103 Tabel 3.7 Hasil Pengklasifikasian Genre Novel. No Kata TF-IDF Horor inspiratif misteri romantis 1 Sungguh 2.0792 2 Tarik 2.0792 3 Hati 2.0792 2.0792 4 Meni 2.0792 5 Jatuh 2.0792 6 Atur 2.0792 2.0792 7 Lagi 2.0792 8 Hindar 2.0792 9 Nggak 2.0792 10 Diputusin 2.0792 11 Komitmen 2.0792 2.0792 12 Umur 2.0792 13 Sulit 2.0792 2.0792 14 Murni 2.0792 15 Nikah 2.0792 2.0792 16 Moga 2.0792 17 Timbang 2.0792 18 Orang 2.0792 19 Buta 2.0792 20 Va 2.0792 Universitas Sumatera Utara 21 Tantang 2.0792 22 Berat 2.0792 23 Akan 2.0792 24 Restu 2.0792 25 Pergi 2.0792 26 Kota 2.0792 27 Istanbul 2.0792 28 Turki 2.0792 29 Idap 2.0792 30 Kanker 2.0792 31 Sarang 2.0792 32 Jejak 2.0792 33 Kaki 2.0792 34 Benua 2.0792 35 Damping 2.0792 36 Satu 2.0792 37 Pisah 2.0792 38 Agama 2.0792 39 Sakit 2.0792 40 Hidup 3.5563 41 Jalan 3.5563 3.5563 42 Kuat 4.1584 43 Bagas 3.5563 44 Paru 4.1584 45 Cita 4.1584 4.1584 46 Wanita 5.3345 47 Iman 8.0103 48 Cinta 6.9011 6.9011 Total 7.7147 4.1584 13.1386 Universitas Sumatera Utara Dari hasil tabel 3.7 dapat dilihat hasil dari pengklasifikasian genre dengan menghasilkan genre romantis sebagai hasil dari pengklasifikasian,karena memiliki nilai tertinggi dari hasil kemiripan antara TF-IDF dengan data resource. 3.3.Perancangan Tampilan Antarmuka Perancangan tampilan antarmuka bertujuan untuk menggambarkan ide tampilan dari sistem yang dibuat. 3.3.1. Rancangan tampilan halaman utama. Rancangan halaman utama ini berfungsi untuk menampilkan halaman utama yang berisikan menubar, seperti home, data resource, about. Dibagian atas terdapat sliding picture dan button lanjut proses untuk masuk ke halaman proses. Pada rancangan halaman utama ini nantinya akan terdapat penjelasan singkat tentang novel dan penjelasan stemming dan TF-IDF. Dapat dilihat pada gambar 3.6. Gambar 3.6 Rancangan Tampilan Halaman Utama Selamat Datang Penjelasan Novel Penjelasan TF- IDF Penjelasan Stemming Footer Lanjut Proses Title Menu Bar 1 Menu Bar 2 Menu Bar 3 Sliding pictures Universitas Sumatera Utara 3.3.2. Rancangan tampilan halaman data resource. Rancangan tampilan data resource berfungsi untuk menampilkan kata-kata yang mewakili dari setiap genre yang ada. Kemudian ditampilkan dalam bentuk tree. Rancangan tampilan halaman data resource dapat dilihat pada gambar 3.9. Gambar 3.7 Rancangan Halaman Data Resource 3.3.3. Rancangan tampilan halaman about. Rancangan tampilan halaman about berfungsi untuk menampilkan perkenalan singkat pembuat sistem serta penjelasan singkat tentang sistem tersebut. Rancangan halaman about dapat dilihat pada gambar 3.10 Gambar 3.8 Rancangan Tampilan Halaman About. Sub Menu Data Resource Title Menu bar 1 Menu bar 2 Menu bar 3 Footer Description of picture pictures Footer Title Menu bar 1 Menu bar 2 Menu bar 3 Universitas Sumatera Utara 3.3.4. Rancangan tampilan halaman proses. Rancangan tampilan proses berfungsi untuk melakukan proses serta melihat hasil proses. Pada halaman ini terdapat form untuk mengisi judul novel, pengarang novel, dan sinopsis dari novel tersebut dan terdapat juga tombol submit untuk melakukan proses setelah mengisi semua form. Rancangan tampilan halaman proses dapat dilihat pada gambar 3.11. setelah melakukan pengisian form dan menekan tombol submit maka akan diproses untuk mendapatkan hasil. Rancangan tampilan hasil proses dapat dilihat pada gambar 3.12 dan rancangan tampilan halaman detail hasil dapat dilihat pada gambar 3.13.

3.9 Rancangan Tampilan Halaman Proses Title