Klasifikasi Novel Sesuai dengan Genre Menggunakan TF-IDF
KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF
SKRIPSI
RUDYANTO BUDIMAN P 091402084
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2015
(2)
KLASIFIKASI NOVEL SESUAI DENGAN GENRE
MENGGUNAKAN TF-IDF
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Teknologi Informasi
RUDYANTO BUDIMAN P 091402084
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2015
(3)
ii
PERSETUJUAN
Judul : KLASIFIKASI NOVEL SESUAI DENGAN GENRE
MENGGUNAKAN TF-IDF
Kategori : SKRIPSI
Nama : RUDYANTO BUDIMAN P
Nomor Induk Mahasiswa : 091402084
Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI
INFORMASI (FASILKOM-TI) UNIVERSITAS SUMATERA UTARA
Diluluskan di Medan, Juni 2015
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
Baihaqi Siregar, S.Si.,M.T Mohammad Fadly Syahputra, B.Sc, M.Sc.IT
NIP. 197902082010121002 NIP. 198301292009121003
Diketahui / Disetujui oleh
Program Studi S1 Teknologi Informasi Ketua,
Muhammad Anggia Muchtar, S.T., M.M.I.T. NIP. 198001102008011010
(4)
PERNYATAAN
KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, Juni 2015
RUDYANTO BUDIMAN P 091402084
(5)
iv
UCAPAN TERIMA KASIH
Segala puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus atas segala berkat dan pengasihanNya yang sungguh berlimpah, sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Teknologi Informasi Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.
Penyelesaian skripsi ini tidak terlepas dari bantuan dari berbagai pihak, untuk itu, penulis ingin mengucapkan terima kasih yang sebesar-besarnya kepada:
1. Kedua orangtua penulis yang telah memberikan dukungan moril dan spiritual, alm Ir.Nelson Eddy Siahaan.(+) dan almh Dra.Bonur Rulyanna Sitorus.(+) yang terlebih dahulu meninggalkan dunia saat masa akhir perkuliahan penulis, kedua adik saya Stephany Novianty Siahaan SE, dan Silvia Pratiwi Yunisari Siahaan yang terus memberikan motivasi dan dukungan.
2. Bapak M.Fadly Syahputra B.Sc.,M.Sc.,IT dan Bapak Baihaqi Siregar,S.Si.,MT selaku pembimbing yang telah banyak meluangkan waktu dan pikirannya, memotivasi dan memberikan kritik dan saran kepada penulis.
3. Bapak M. Anggia Muchtar ST.,MM.IT dan Bapak Dani Gunawan,ST.,M.T yang telah bersedia menjadi dosen pembanding yang telah memberikan kritik dan saran kepada penulis.
4. Ketua dan Sekretaris Program Studi Teknologi Informasi, Bapak M. Anggia Muchtar, ST.,MM.IT dan Bapak M. Fadly Syahputra, B.Sc.,M.Sc.IT.
5. Seluruh Dosen dan Staff pegawai di Program Studi S1 Teknologi Informasi
6. Terima kasih juga penulis ucapkan kepada teman-teman: Fernando, Alex, Christop, Alman, Andi, Suando, Tony, Leo, Ranap, Juki, Salman, Icha, Amira, Fadullah, Fadli, Yanna, seluruh teman angkatan 09 Teknologi Informasi, seluruh abang kakak dan adik di jurusan Teknologi Informasi yang tidak dapat disebutkan satu per satu, Vanesa Felicia, Bruno, Karina, Mewati, J.sirait. Junnie hutabarat, dan Leonardi sitanggang,
Akhir kata, penulis ucapkan terimakasih kepada semua pihak yang telah membantu menyelesaian skripsi ini yang tidak bisa penulis sebutkan satu persatu. Semoga Tuhan Yang Maha Esa membalas kebaikan kalian semua.
(6)
ABSTRAK
Novel memiliki beberapa genre antara lain genre romantis, horror, misteri, inspiratif dan masih banyak lagi. Namun pada saat ini pengklasifikasian novel kedalam genre-genre masih dilakukan secara manual. Oleh sebab itu dibutuhkan suatu sistem yang dapat mengklasifikasikan novel kedalam genrenya masing-masing secara otomatis. Hal ini dilakukan karena banyaknya genre dari novel tersebut, sehingga sistem ini nantinya dapat membantu pembaca, penerbit dan penulis yang hendak membuat dan membaca novel untuk mengetahui secara singkat genre novel yang sedang dibaca atau ditulisnya. Penelitian ini menggunakan text mining dan TF-IDF untuk proses pengklasifikasian novel. Text
mining dapat diartikan sebagai penemuan informasi yang baru yang sebelumnya
tidak diketahui oleh komputer dengan mengekstrak informasi secara otomatis dari sumber yang berbeda. Sedangkan data resource digunakan sebagai acuan dalam mengklasifikasi novel. Pada penelitian ini novel dibagi menjadi 4 kategori: horor,inspiratif,misteri dan romantis. Text yang dimasukan berupa judul, penulis, dan sinopsis. Sinopsis inilah yang akan diproses untuk menghasilkan klasifikasi genre novel. Proses pertama adalah proses persiapan dokumen dan seleksi dokumen. Kemudian dilanjutkan dengan proses pembobotan kata menggunakan
TF-IDF, kemudian klasifikasi dilakukan dengan membandingkan nilai kemiripan
diantara teks dan sebuah node yang ada di data resource. Teks yang diperoleh akan diklasifikasikan dalam sebuah genre atau node yang ada jika memiliki nilai kemiripan paling tinggi di salah satu node di data resource. Pengujian sistem dilakukan dengan mengambil 100 sinopsis novel online secara acak dan menghasilkan tingkat akurasi sebesar 75%.
(7)
vi
NOVEL CLASSIFICATION BASED ON GENRE USING TF-IDF
ABSTRACT
Novel has many genres such as romantic, horror, mystery, inspirational, and many more. However, today the classification of novel into genre is done manually. Therefore, we need a novel classification system which can classify novels into their each genre automatically. A novel classification system is needed because novel has many genres, so this system will help the reader, the publisher, and the writer who writing and reading a novel to know shortly about the genre of novel that they read or write. This research is using text mining method with TF-IDF method for classifying the novel. Text mining is a process to discover new information which is not known by the computer before by extracting the information automatically from the different sources. Whereas, data resource is used a as reference for classifying novel. This research will divide novel into four categories : horror, inspirational, mystery, and romantic. The text which is entered into the program such as title, writer, and synopsis. The synopsis will be processed to classify the genre of novel. The first step is preparing the document and selecting the document. The next step is giving a weight into word using TF-IDF
method, then comparing the similarity between text and a node in data resource to do the classification process. The text that has been obtained will be classified into a genre or an existing node if it has the highest similarity value in one node in data
resource. The system testing collects randomly 100 synopsis from electronic novel
and the result is 75% accuracy rate from the testing.
(8)
DAFTAR ISI
Hal
Persetujuan ii
Pernyataan iii
Ucapan Terima Kasih iv
Abstrak v
Abstract vi
Daftar Isi vii
Daftar Tabel x
Daftar Gambar xi
Bab 1 PENDAHULUAN 1
1.1 Latar Belakang 1
1.2 Rumusan Masalah 3
1.3 Batasan Masalah 3
1.4 Tujuan Penelitian 4
1.5 Manfaat Penelitian 4
1.6 Metodologi Penelitian 4
1.7 Sistematika Penulisan 5
Bab 2 LANDASAN TEORI
2.1 Text Mining 7
2.1.1 Tahapan Text mining 7
(9)
viii
2.4 Novel 13
2.5 Tesaurus Bahasa Indonesia 14
2.6 Penelitian Terdahulu 15
Bab 3 ANALISIS DAN PERANCANGAN
3.1 Analisis Data 17
3.1.1 Novel 17
3.1.2 Data Resource 18
3.2 Analisis Sistem 19
3.2.1 Data Set 20
3.2.2 Proses Persiapan dan seleksi dokumen 21
3.3.2.1 Tokenisasi 21
3.3.2.2 Pembuangan Stopword 23
3.3.2.3 Stemming 27
3.3.3 Pembobotan Kata dengan TF-IDF 30
3.3 Perancangan Tampilan Antarmuka 35
3.3.1 Rancangan Tampilan Halaman Utama 35
3.3.2 Rancangan Tampilan Halaman Data Resource 36
3.3.3 Rancangan Tampilan Halaman About 36 3.3.4 Rancangan Tampilan Halaman Proses 37
Bab 4 IMPLEMENTASI DAN PENGUJIAN
4.1 Implementasi Sistem 39
4.1.1 Spesifikasi perangkat keras dan perangkat lunak 39 4.1.2 Tampilan Halaman Utama 40
4.1.3 Tampilan Halaman Data Resource 40
4.1.4 Tampilan Halaman About 41 4.1.5 Tampilan Halaman Proses 42
4.2 Hasil Pengujian Sistem 44
Bab 5 KESIMPULAN DAN SARAN
(10)
5.2 Saran 54
(11)
x
DAFTAR TABEL
Hal
Tabel 2.1 Tabel kombinasi awalan akhiran yang tidak diijinkan 10
Tabel 2.2 Tabel aturan peluruhan kata dasar 10
Tabel 2.3 Tabel Penelitian Terdahulu 16
Tabel 3.1 Tabel Data Resource 18
Tabel 3.2 Tabel Tokenisasi 22
Tabel 3.3 Stopword list 24
Tabel 3.4 Hasil Filtering Proses Stopword 26
Tabel 3.5 Tahapan Hasil Stemming 30
Tabel 3.6 Hasil Pembobotan Kata 31
Tabel 3.7 Hasil Pengklasifikasian Genre Novel 33
(12)
DAFTAR GAMBAR
Halaman
Gambar 3.1 Arsitektur Umum 20
Gambar 3.2 Input Sinopsis Novel 20
Gambar 3.3 Flowchart Proses Tokenisasi 21
Gambar 3.4 Flowchart Proses Stopword 24
Gambar 3.5 Flowchart Proses Steeming 27
Gambar 3.6 Rancangan Tampilan Halaman Utama 35
Gambar 3.7 Rancangan Tampilan Data Resource 36
Gambar 3.8 Rancangan Tampilan Halaman About 36
Gambar 3.9 Rancangan Tampilan Halaman Proses 37
Gambar 3.10 Rancangan Tampilan Halaman Hasil Proses 38
Gambar 3.11 Rancangan Tampilan Halaman Detail Proses 38
Gambar 4.1 Tampilan halaman utama 40
Gambar 4.2 Tampilan Halaman Data Resource 41
Gambar 4.3 Tampilan halaman about 41
Gambar 4.4 Tampilan halaman proses 42
Gambar 4.5 Tampilan halaman hasil proses 43
(13)
v
ABSTRAK
Novel memiliki beberapa genre antara lain genre romantis, horror, misteri, inspiratif dan masih banyak lagi. Namun pada saat ini pengklasifikasian novel kedalam genre-genre masih dilakukan secara manual. Oleh sebab itu dibutuhkan suatu sistem yang dapat mengklasifikasikan novel kedalam genrenya masing-masing secara otomatis. Hal ini dilakukan karena banyaknya genre dari novel tersebut, sehingga sistem ini nantinya dapat membantu pembaca, penerbit dan penulis yang hendak membuat dan membaca novel untuk mengetahui secara singkat genre novel yang sedang dibaca atau ditulisnya. Penelitian ini menggunakan text mining dan TF-IDF untuk proses pengklasifikasian novel. Text
mining dapat diartikan sebagai penemuan informasi yang baru yang sebelumnya
tidak diketahui oleh komputer dengan mengekstrak informasi secara otomatis dari sumber yang berbeda. Sedangkan data resource digunakan sebagai acuan dalam mengklasifikasi novel. Pada penelitian ini novel dibagi menjadi 4 kategori: horor,inspiratif,misteri dan romantis. Text yang dimasukan berupa judul, penulis, dan sinopsis. Sinopsis inilah yang akan diproses untuk menghasilkan klasifikasi genre novel. Proses pertama adalah proses persiapan dokumen dan seleksi dokumen. Kemudian dilanjutkan dengan proses pembobotan kata menggunakan
TF-IDF, kemudian klasifikasi dilakukan dengan membandingkan nilai kemiripan
diantara teks dan sebuah node yang ada di data resource. Teks yang diperoleh akan diklasifikasikan dalam sebuah genre atau node yang ada jika memiliki nilai kemiripan paling tinggi di salah satu node di data resource. Pengujian sistem dilakukan dengan mengambil 100 sinopsis novel online secara acak dan menghasilkan tingkat akurasi sebesar 75%.
(14)
NOVEL CLASSIFICATION BASED ON GENRE USING TF-IDF
ABSTRACT
Novel has many genres such as romantic, horror, mystery, inspirational, and many more. However, today the classification of novel into genre is done manually. Therefore, we need a novel classification system which can classify novels into their each genre automatically. A novel classification system is needed because novel has many genres, so this system will help the reader, the publisher, and the writer who writing and reading a novel to know shortly about the genre of novel that they read or write. This research is using text mining method with TF-IDF method for classifying the novel. Text mining is a process to discover new information which is not known by the computer before by extracting the information automatically from the different sources. Whereas, data resource is used a as reference for classifying novel. This research will divide novel into four categories : horror, inspirational, mystery, and romantic. The text which is entered into the program such as title, writer, and synopsis. The synopsis will be processed to classify the genre of novel. The first step is preparing the document and selecting the document. The next step is giving a weight into word using TF-IDF
method, then comparing the similarity between text and a node in data resource to do the classification process. The text that has been obtained will be classified into a genre or an existing node if it has the highest similarity value in one node in data
resource. The system testing collects randomly 100 synopsis from electronic novel
and the result is 75% accuracy rate from the testing.
(15)
BAB I PENDAHULUAN
1.1 Latar Belakang
Di zaman yang serba teknologi seperti saat ini, informasi menjadi salah satu kebutuhan
yang sangat penting bagi masyarakat. Perkembangan akan informasi tersebut menuntut
adanya suatu media penyedia informasi yang dapat diakses dan dinikmati oleh setiap orang
secara mudah, tepat, dan cepat. Informasi tersebut biasanya dapat kita peroleh dari
beberapa sumber, seperti media cetak maupun media eletronik.
Media cetak biasanya kita peroleh melalui koran, majalah, dan lain lain. Sedangkan
untuk media eletronik biasanya dapat kita peroleh dari televisi, radio, internet, dan lain
lain. Salah satu media pencarian informasi yang paling populer saat ini adalah penggunaan
internet. Internet sering digunakan dalam pencarian informasi mengenai jurnal, artikel
ilmiah, komik, novel dan lain-lain.
Kata novel berasal dari bahasa Italia, novella, yang berarti "sebuah kisah atau sepotong berita". Dalam Kamus Besar Bahasa Indonesia novel adalah karangan prosa yang
panjang mengandung rangkaian cerita kehidupan seseorang dengan orang di sekelilingnya
dengan menonjolkan watak dan sifat tiap pelaku. Penulis novel disebut dengan novelis
.
Novel lebih panjang (setidaknya 40.000 kata) dan lebih kompleks dari cerpen, dan tidak dibatasi keterbatasan struktural dan metrikal sandiwara atau sajak. Novel
(16)
memiliki beberapa genre antara lain genre romantis, horror, misteri,, inspiratif dan
masih banyak lagi. Namun didalam membagi novel kedalam genre-genre tersebut saat
ini masih dilakukan secara manual. Oleh sebab itu dibutuhkan suatu sistem yang dapat
mengklasifikasikan novel kedalam genrenya masing-masing secara otomatis
dikarenakan banyaknya genre dari novel tersebut, sehingga nantinya dapat membantu
pembaca, penerbit dan penulis yang hendak membuat novel untuk mengetahui secara
singkat genre novel yang sedang dibaca atau ditulisnya.
Beberapa penelitian telah dilakukan untuk sistem pengklsifikasian antara lain
metode Ontologi (Basnur Wira Prajna.,Sensuse Indra Dana.,2010, Pengklasifikasian
otomatis berbasis Ontologi untuk artikel berita berbahasa Indonesia), metode Naive
Bayes (Kurniawan, B, dkk. 2012, Klasifikasi konten berita dengan metode text
mining), (Wibisono, Y.,2005,Klasifikasi berita berbahasa indonesia menggunakan
Naïve Bayes classifier internal). Pada sistem yang akan dibangun, penulis
menggunakan metode TF-IDF.
Dari latar belakang di atas, maka penulis akan membangun suatu sistem yang
berfungsi untuk mengklasifikasikan novel sesuai genre nya masing-masing memakai
TF-IDF , dengan judul “Klasifikasi Novel Sesuai Dengan Genre Menggunakan
TF-IDF”. Diharapkan sistem yang akan dibuat dapat menghemat waktu dan dapat
memudahkan pembaca, penulis novel dan penerbit dalam mengklasifikasikan novel
(17)
3
1.2 Rumusan Masalah
Dengan banyaknya genre novel, maka proses pengklasifikasian novel sesuai genre
akan semakin sulit. Maka diperlukan cara untuk menglasifikasikan novel sesuai
dengan genrenya secara otomatis.
1.3 Batasan Masalah
Batasan masalah pada penelitian ini yaitu :
1. Genre dibatasi 4 jenis genre yaitu genre horror, inspiratif, misteri, romantis.
2. Novel yang digunakan adalah novel dalam Bahasa Indonesia.
3. Novel yang diambil dari media novel online.
4. Text yang akan dimasukan berupa judul, nama penulis, dan sinopsis dari novel
tersebut.
1.4 Tujuan Penelitian
Penelitian ini bertujuan untuk menghasilkan suatu sistem yang berfungsi untuk
mengklasifikasikan novel sesuai dengan genre menggunakan Metode TF-IDF. Sistem
ini nantinya diharapkan dapat membantu dan mempermudah bagi seorang penulis
maupun seorang pembaca dalam hal penentuan genre novel yang sedang ditulis atau
dibacanya.
1.5 Manfaat Penelitian
Manfaat penelitian ini adalah sebagai berikut :
1. Mempermudah dalam pengklasifikasian novel berdasarkan genre
(18)
2. Sistem yang dibangun dapat meminimkan waktu untuk menentukan genre dari
suatu novel tanpa harus membaca novel secara keseluruhan.
1.6 Metodologi Penelitian
Tahapan - tahapan yang akan dilakukan pada penulisan skripsi ini adalah sebagai
berikut :
1. Studi Literatur
Studi literatur dilakukan dengan cara mengumpulkan bahan referensi yaitu
berupa buku, artikel, paper, jurnal, makalah, maupun situs-situs dari internet.
Studi literatur yang dilakukan berkaitan dengan sistem klasifikasi dan metode
TF-IDF yang berkaitan dengan judul skripsi.
2. Identifikasi Masalah
Pada tahap ini, dilakukan identifikasi masalah yang akan diselesaikan pada
aplikasi yang akan dibangun.
3. Analisis dan Perancangan
Pada tahap ini dilakukan analisis dan perancangan terhadap permasalahan
yang ada dan batasan masalah
4. Implementasi Sistem
Pada tahap ini dilakukan proses implementasi pengkodean program dalam
aplikasi komputer menggunakan bahasa pemrograman yang telah dipilih yang
(19)
5
5. Pengujian sistem
Pada tahap ini dilakukan proses pengujian dan percobaan terhadap sistem
sesuai dengan kebutuhan yang ditentukan sebelumnya serta memastikan
program yang dibuat berjalan seperti yang diharapkan.
6. Dokumentasi
Pada tahap ini dilakukan pembuatan dokumentasi dalam bentuk laporan tugas
akhir.
1.7Sistematika Penulisan
Penulisan skripsi ini terdiri dari lima bab dengan masing-masing bab secara singkat
dijelaskan sebagai berikut:
Bab 1 : Pendahuluan
Bab ini berisi berisikan latar belakang, rumusan masalah, batasan masalah, tujuan
penelitian, manfaat penelitian, metodologi penelitian, dan sistematika penulisan.
Bab 2 : Landasan Teori
Pada bab ini dibahas mengenai teori-teori pendukung penelitian skrispsi yaitu teori
Text Mining dan metode TF-IDF
Bab 3 : Analisis dan Perancangan Sistem
Pada bab ini berisikan paparan analisis terhadap permasalahan dan penyelesaian
persoalan terhadap metode TF-IDF serta identifikasi kebutuhan perancangan sistem.
Bab 4 : Implementasi dan Pengujian Sistem
Pada bab ini berisi implementasi perancangan sistem dari hasil analisis dan
perancangan yang sudah dibuat, serta menguji sistem untuk menemukan kelebihan
(20)
Bab 5 : Kesimpulan dan Saran
Pada bab ini berisikan kesimpulan yang didapatkan terhadap hasil penelitian skripsi
(21)
BAB 2
LANDASAN TEORI
Bab ini akan membahas landasan teori, penelitian terdahulu, kerangka pikir, dan hipotesis yang mendasari penyelesaian permasalahan dalam pengklasifikasian novel menggunakan TF-IDF.
2.1Text mining
Text mining dapat diartikan sebagai penemuan informasi yang baru yang sebelumnya
tidak diketahui oleh komputer dengan mengekstrak informasi secara otomatis dari sumber yang berbeda. Kunci dari proses ini adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber (Hearst, 2003). Sedangkan menurut (Harlian, 2006) text mining didefinisikan sebagai data yang berupa teks yang biasanya sumber data didapatkan dari dokumen, dengan tujuan adalah mencari kata-kata yang dapat mewakili isi dari dokumen tersebut yang nantinya dapat dilakukan analisa hubungan antar dokumen.
2.1.1 Tahapan Text mining
Tahapan text mining secara umum dibagi menjadi beberapa tahapan umum (Triawati, 2009).
1. Text Preprocessing
Text Preprocessing merupakan tahapan awal dari text mining yang bertujuan
mempersiapakan teks menjadi data yang akan mengalami pengolahan pada tahap selanjutnya. Pada text mining, data mentah yang berisi informasi memiliki struktur yang sembarang, sehingga diperlukan proses pengubahan bentuk menjadi data yang
(22)
terstruktur sesuai kebutuhan, yaitu biasanya akan mejadi nilai-nilai numerik. Proses ini disebut Text Preprocessing (Triawati, 2009).
Pada tahap ini, tindakan yang dilakukan adalah toLowerCase, dengan mengubah semua karakter huruf menjadi huruf kecil, dan tokenizing yaitu proses penguraian deskripsi yang semula berupa kalimat mejadi kata-kata kemudian menghilangkan delimiter-delimiter seperti tanda koma (,), tanda titik (.), spasi, dan karakter angka yang terdapat pada kata tersebut.(Weiss et al, 2005).
2. Seleksi fitur (Feature Selection)
Pada tahap ini akan dilakukan seleksi dengan mengurangi jumlah kata-kata yang dianggap tidak penting dalam dokumen tersebut untuk menghasilkan proses pengklasifikasian yang lebih efektif dan akurat (Do et al, 2006., Feldman & Sanger,2007., Berry et al ,2007). Tahapan ini adalah dengan melakukan penghilangan
stopword dan juga mengubah kata-kata kedalam bentuk dasar terhadap kata yang
berimbuhan (Berry et al, 2010), (Feldman et al, 2007)
Stopword merupakan kosakata yang bukan merupakan ciri atau kata unik dari
suatu dokumen seperti kata sambung (Dragut et al, 2009). Yang termasuk stopword
yaitu “ di”, “pada”, ”sebuah”, ”karena”, ”oleh” dan sebagainya. Sebelum memasuki
tahapan penghilang stopword, daftar stopword harus dibuat terlebih dahulu. Jika kata-kata yang termasuk stopword masuk dalam stoplist, maka kata tersebut akan dihapus dari deskripsi sehingga sisanya dianggap sebagai kata-kata yang mencirikan isi dokumen atau keywords. Setelah melalui tahap penghilangan stopword, tahap selanjutnya adalah stemming. Stemming adalah proses pemetaan dan penguraian berbagai bentuk dari suatu kata menjadi kata dasarnya (Tala, 2003). Tujuan dilakukannya proses stemming adalah menghilangkan imbuhan-imbuhan berupa prefix, suffix, maupun konfiks yang terdapat pada setiap kata. Apabila imbuhan tadi tidak dihilangkan maka setiap kata akan disimpan didalam database, sehingga nantinya akan menjadi beban di dalam database. Bahasa Indonesia memiliki aturan morfologi maka proses stemming harus berdasarkan aturan morfologi bahasa Indonesia.
(23)
9
Proses stemming biasanya menggunakan algoritma. Algoritma stemming telah dikembangkan untuk beberapa bahasa, seperti Algoritma Porter untuk teks bahasa Inggris, Algoritma Porter untuk teks bahasa Indonesia, dan Algoritma Nazief dan Adriani untuk teks bahasa Indonesia (Nazief & Adriani, 1996). Algoritma Nazief & Adriani memiliki keakuratan yang lebih besar dibandingkan Algoritma Porter untuk
stemming dalam bahasa Indonesia (Agusta, 2009).
2.2Algoritma Nazief & Adriani
Algoritma Nazief & Adriani adalah salah satu algoritma untuk stemming bahasa Indonesia. Adapun tahapan yang dimiliki dalam algoritma ini adalah (Nazief & Adriani,1996):
1. Cari kata yang akan di stemming didalam kamus. Jika ditemukan maka diasumsikan kata tersebut adalah root word maka algoritma berhenti.
2. Infection suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika
berupa partikel (“-lah”, “-kah”, “-tah”, atau “-pun”) maka langkah ini diulangi untuk menghapus Passive Pronouns(“-ku”, “-mu”, atau “-nya”), jika ada
3. Hapus derivation suffixes (“-i”, “-an”, atau “-kan”). Jika kata ditemukan dikamus, maka algoritma berhenti. Jika tidak, maka dilanjutkan ke langkah 3a
a. Jika “-an” telah dihapus dalam huruf terakhir dari kata tersebut ditemukan dalam kamus, maka algoritma berhenti. Jika tidak, akan dilanjutkan ke langkah 3b.
b. Akhiran yang dihapus (“-i”, “-an”, atau “-kan”) dikembalikan ke tahap 4. Hapus derivation prefix. 9”di-“ ,”ke-“, “se-“, “te-“, “be-“, dan “me-“) jika
pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.
a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan seperti pada tabel 2.1. jika ditemukan, maka algoritma berhenti, jika tidak pergi ke langkah 4b.
b. For I=1 to 3, tentukan tipe awalan kemudian hapus awalan dan lakukan perubahan pada kata dasar sesuai tabel peluruhan 2.2 jika root
(24)
algoritma berhenti. Jika awalan kedua sama dengan awalan pertama maka algoritma berhenti.
5. Melakukan recoding.
6. Jika semua langkah selesai tetapi masih tidak berhasil, maka kata awal diasumsikan sebagai root word. Proses selesai.
Tabel 2.1 Tabel kombinasi awalan akhiran yang tidak diijinkan (Adriani et al, 2007)
Awalan Akhiran yang tidak diijinkan
be- -i
di- -an
ke- -i, -kan
me- -an
se- -i, -kan
Tabel 2.2 Tabel aturan peluruhan kata dasar (Adriani et al, 2007)
Aturan Awalan Peluruhan
1 berV... ber-V..| be-rV..
2 belajar bel-ajar
3 berClerC2 Be-ClerC2.. dimana C1!= {'r'|'l'}
4 terV... ter-V... | te-rV...
5 terCer... ter-Cer... dimana C!==’r’
6 teClerC2 te-CleC2... dimana C1!=’r’
7 me{I|r|w|y}V... me-{I|r|w|y}V...
8 mem{b|f|v}... mem-{b|f|v}...
9 Mempe... m-pe...
(25)
11
11 men{c|d|j|z} men-{c|d|j|z}...
12 menV... me-nV...|me-tV...
13 meng{g|h|q|k}... meng-{g|h|q|k}...
14 mengV... meng-V...|meng-kV...
15 mengeC Meng-C
16 menyV... me-ny...| men-sV...
17 memV... mem-pV...
18 pe{w|y}V... pe-{w|y}V...
19 perV... per-V...|pe-rV...
20 pem{b|f|v}... pem-{b|f|v}...
21 pem{rV|V}... pe-m{rV|V}...|pe-p{rV|V}
22 pen{c|d|j|z}... pen-{c|d|j|z}...
23 penV... pe-nV... | pe-tV...
24 Peng{g|h|q} peng-{g|h|q}
25 pengV peng-V |peng-kV
26 penyV pe-nya|peny-sV
27 pelV pe-IV...; kecuali untuk kata “pelajar”
28 PeCP pe-CP...dimana C!={r|w|y|I|m|n}
dan P!=’er’
29 perCerV per-CerV... dimana C!={r|w|y|I|m|n}
Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan-aturan dibawah ini:
1. Aturan untuk reduplikasi.
a. Jika kedua kata yang dihubungkan penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh :” buku-buku” root wood-nya adalah “buku”
b. Kata lain misalnya “bolak-balik”, “berbalas-balasan”, dan “seolah-olah”. Untuk mendapatkan root word nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word nya yang sama maka diubah menjadi
(26)
bentuk tunggal, contoh: kata “ berbalas-balasan”, “berbalas” dan “balasan” memiliki root word yang sama yaitu “balas”, maka root wood “berbalas
-balasan” adalah “balas”. Sebaliknya, pada kata “bolak-balik”, “bolak” dan
“balik” memiliki root word yang berbeda, maka root word-nya adalah
“bolak-balik”.
2. Tambahan bentuk awalan dan akhiran serta aturannya.
a. Tipe awalan “mem-“, kata yang diawali dengan awalan “ memp-“ memiliki
tipe awalan “mem-“.
b. Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-“
memiliki tipe awalan “meng-“..
2.3 Term Frequency-Inverse Document Frequency (TF-IDF)
TF-IDF (Term Frequency-Inverse Document Frequency) merupakan metode statistic
numeric yang mencerminkan seberapa pentingnya sebuah kata dalam sebuah
dokumen atau korpus (Rajaraman et al, 2011). Hal ini sering digunakan sebagai faktor bobot dalam pencarian informasi dan penambangan teks (text mining). Nilai TF-IDF
meningkat secara proporsional berdasarkan jumlah atau banyaknya kata yang muncul pada dokumen, tetapi diimbangi dengan frekuensi kata dalam korpus. Variasi dari skema pembobotanTF-IDFsering digunakan oleh mesin pencari sebagai alat utama dalam mencetak nilai (scoring) dan peringkat (ranking) sebuah relevansi dokumen yang diberikan user.
Term Frequency-Inverse document frequency (TF-IDF) adalah suatu metode
pembobotan kata dengan menghitung nilai TF dan juga menghitung kemunculan sebuah kata pada dokumen teks. Pada pembobotan ini, jika kemunculan term pada sebuah dokumen teks tinggi dan kemunculan term tersebut pada dokumen teks yang lain rendah, maka bobotnya akan semakin besar. Sedangkan jika kemunculan term
pada dokumen teks lain tinggi, maka bobotnya akan semakin kecil. Tujuan penghitungan IDF adalah untuk mencari kata-kata yang benar-benar merepresentasikan dokumen teks pada suatu koleksi. Metode ini merupakan metode
(27)
13
(1)
Dengan tf(i,j) adalah frekuensi kemunculan term j pada dokumen teks d i D*, dimana i = 1,2,3,...,N, df(j) adalah frekuensi dokumen yang mengandung term j dari semua koleksi dokumen, dan N adalah jumlah seluruh dokumen yang ada di koleksi dokumen. Berdasarkan rumus diatas berapapun besarnya nilai tf(i,j), apabila N= df(j) maka akan didapatkan hasil 0 (nol) untuk perhitungan idf. Untuk itu dapat ditambahkan nilai 1 pada sisi idf, sehingga perhitungan untuk pembobotan dapat dilihat pada rumus persamaan 2.
+1) (2)
2.4 Novel
Dari sekian banyak bentuk karya sastra yang ada saat ini seperti esai, novel, cerpen dan lain-lain. Novel merupakan karya sastra yang paling populer, novel selalu memiliki penggemar, baik itu remaja hingga dewasa, Menurut Kamus Besar Bahasa Indonesia (KBBI), novel adalah karangan prosa yang panjang, mengandung rangkaian cerita kehidupan seseorang dengan orang di sekelilingnya dengan menonjolkan watak dan sifat setiap pelaku. Orang yang menulis novel adalah novelis. Novel memiliki beberapa ciri yang paling utama, yaitu :
1. Memiliki alur/plot yang kompleks. Berbagai peristiwa dalam novel ditampilkan saling berkaitan sehingga novel dapat bercerita panjang lebar, membahas persoalan secara luas, dan lebih mendalam.
2. Tema dalam novel tidak hanya satu, tetapi muncul tema-tema sampingan. Oleh karena itu, pengarang novel dapat membahas hampir semua segi persoalan.
Genre merupakan cara penerbit, pembaca, atau penulis, membagi karya seni berdasarkan kategori tertentu yang telah disepakati. Penerbit membutuhkan genre agar mereka mudah menentukan pangsa pasar, serta bagaimana memasarkan sebuah buku. Setiap genre mempunyai kategori masing-masing, serta formulanya yang berbeda satu sama lain. Novel dibagi kedalam beberapa genre dintaranya (Forbes, Jamie M, 1998) :
(28)
a. Horror adalah novel yang satu ini berisi cerita yang menegangkan, seram, dan membuat pembaca berdebar-debar, pada umumnya bercerita tentang hal-hal yang mistis atau seputar dunia gaib.
b. Inspiratif adalah adalah novel yang ceritanya mampu menginspirasi banyak orang. Pada umumnya novel ini mempunyai pesan moral atau hikmah tertentu yang dapat diambil oleh si pembaca novel. Sehingga pembaca akan termotivasi atau mempunyai dorongan untuk melakukan hal yang lebih baik.
c. Misteri adalah sebuah novel yang memiliki cerita lebih rumit karena akan menimbulkan rasa penasaran oleh si pembaca hingga akhir cerita.
d. Romantis adalah novel yang berceritakan seputar percintaan dan kasih sayang dari awal cerita hingga akhir cerita.
2.5 Tesaurus Bahasa Indonesia
Kata tesaurus berasal dari bahasa Yunani, thesauros yang bermakna ‘khazanah’. Tesaurus mengalami perkembangan makna yakni ‘buku yang dijadikan sumber informasi’. Di dalam buku “Tesaurus Bahasa Indonesia Pusat Bahasa”, tesaurus berisi
seperangkat kata yang saling berhubungan maknanya. Pada dasarnya tesaurus merupakan sarana yang digunakan untuk mengalihkan gagasan ke dalam sebuah kata atau sebaliknya. Oleh sebab itu, tesaurus disusun berdasarkan gagasan atau tema. Namun, untuk memudahkan pengguna dalam pencarian kata, tesaurus pun berkembang, dan kini banyak tesaurus yang dikemas berdasarkan abjad.
Tesaurus berbeda dengan kamus, jika pada kamus informasi yang didapat adalah tentang makna kata, sedangkan pada tesaurus sendiri dapat dicari kata yang akan digunakan untuk mengungkapkan gagasan pengguna. Dengan demikian tesaurus dapat membantu penggunanya dalam mengekspresikan atau mengungkapkan gagasan sesuai dengan apa yang dimaksud. Sebagai contoh, pencarian kata lain untuk kata
“hewan”, pengguna tesaurus dapat mencari pada lema hewan. Hewan n binatang, dabat,fauna,sato,satwa
Kata diatas tersebut merupakan sederetan kata yang terdapat pada kata hewan, sehingga dapat dilihat sederetan kata tesebut menunjukkan bahwa kata tersebut
(29)
15
ini berguna juga dalam pengajaran bahasa. Di dalam buku tesaurus bahasa indonesia pusat bahasa ini, hiponim dicantumkan pula karena didalam tesaurus biasanya memuat makna yang saling bertalian atau berhubungan. Sehingga, pengguna dapat dengan mudah memperoleh kata yang tepat sesuai dengan yang dikehendaki sehingga pengguna dapat memanfaatkan kata itu untuk keperluan pragmatis.
2.6 Penelitian Terdahulu
Dalam melakukan penelitian, penulis membutuhkan beberapa bahan penelitian yang sudah pernah dilakukan peneliti-peneliti lainnya mengenai masalah teknik pengklasifikasian dan metode Ontologi.
(Februariyanti, 2012) berhasil mengimplementasikan metode ontologi dan hasil eksperimen didapat struktur direktory dan struktur halaman web sesuai dengan struktur ontology.
(Kurniawan, 2012) berhasil melakukan proses klasifikasi data berita secara otomatis dan proses klasifikasi semakin akurat jika data latih yang digunakan dalam pembelajaran berjumlah banyak. Untuk penelitian yang dilakukan oleh peneliti sebelumnya, dapat dilihat pada Tabel 2.3.
(30)
Tabel 2.3.Tabel Penelitian Terdahulu
No Peneliti Tahun Judul penelitian Keterangan 1 Herny
Februariyanti
2012 Klasifikasi dokumen berita teks bahasa Indonesia
menggunakan Ontologi
- klasifikasi menggunakan TF-IDF dengan menghitung nilai similaritas dengan file yang ada pada file ontologi
- hasil dari pengklasifikasian disimpan di directory local dengan mengikuti struktur ontology.
2 Bambang
Kurniawan
2012 Klasifikasi Konten Berita Dengan Metode Text Mining
- Klasifikasi data berita secara otomatis dan proses klasifikasi semakin akurat jika data latih
yang digunakan dalam
pembelajaran berjumlah banyak.
(31)
BAB 3
ANALISIS DAN PERANCANGAN SISTEM
Dalam bab ini berisi beberapa hal diantaranya seperti data yang digunakan, penerapan algoritma dan analisis perancangan sistem dalam mengimplementasikan TF-IDF
dalam pengklasifikasian novel.
3.1. Analisis Data
Dalam penelitian ini data yang digunakan adalah data yang berhubungan dengan novel seperti judul, sinopsis, dan pengarang novel tersebut. Dalam penelitian ini data sinopsis dari novel tersebut akan diproses untuk menghasilkan klasifikasi novel berdasarkan genre, seperti horor, misteri, romantis, dan inspiratif dengan menggunakan TF-IDF. Data yang digunakan dalam penelitian ini adalah data yang didapat dari media novel online dan Kamus Tesaurus Pusat Bahasa sebagai data resource.
3.1.1. Novel
Novel merupakan karangan prosa yang panjang, mengandung rangkaian cerita kehidupan seseorang dengan orang di sekelilingnya dengan menonjolkan watak dan sifat setiap pelaku. Novel juga merupakan karya sastra yang paling populer dibaca. Novel memiliki banyak genre, diantaranya adalah horor, inspiratif, misteri dan romantis. Genre merupakan pengkategorian tanpa batas-batas yang jelas yang dibuat oleh penerbit untuk mengkategorikan novel-novel yang ada
Novel dipilih karena novel merupakan karya sastra yang paling populer dari karya sastra yang lain sehingga layak untuk dijadikan domain dalam penelitian ini. Untuk data yang di input pada penelitian ini adalah berupa sinopsis novel, judul novel, dan penulis novel.
(32)
3.1.2. Data resource
Data resource digunakan sebagai keyword atau kata kunci dalam proses hitung
kemiripan yang berupa kata dasar. Keyword atau kata kunci didapat dari Tesaurus Bahasa Indonesia Pusat Bahasa sebagai acuan untuk mencari kata-kata yang dapat mewakili dari genre-genre novel yang diteliti. Berikut daftar kata kunci yang dapat mewakili dari genre-genre novel yang didapat dari Tesaurus Bahasa Indonesia Pusat Bahasa. Data resource dapat dilihat pada tabel 3.1.
Tabel 3.1Data Resource
No Genre
novel
Kata kunci /keyword
1 horor Ajaib,ancam,aneh,angker,arwah,asing,bencana,bimbang,buruk,cemas ,ciut,curiga,darah,dedemit,diam,gaib,gelap,gelisah,gemetar,
gentar,hantu,hening,heran,histeria,hitam,horor,huni,iblis,intimidasi, jahat,jasad,jeri,jin,kosong,kuatir,malam,mantra,mati,maut,ngeri, nyawa,panik,resah,rinding,roh,sangar,senyap,sepi,seram,setan,sunyi ,takut ,takwa,tampak,teror,tewas,tinggal.
2 inspirasi Ahli,ajar,akal,ambisi,andai,baik,belajar,benak,bijak,,budi, capai,cemerlang, cendikiawan, cerdas, cerdik, cita, citra, coba, damba,dapat, didik,diri, gagah, gagasan, gemar, genius, harap, ,hasil, hasrat, ide,ideologi, ilham, ilmu, imajinatif, impi, impresi, ingat, ingin,inpresi,intelek, inisiatif, inspirasi, intensi, jadi, jago, jalan, juara, jujur,kabul, kenang, kesan, khayal,kiat,kompak, konsep,kreasi,
kreatif, kreativitas,kunci,lihai,logika,luang,lulus, mahir, masalah, master, mau, menang, mimpi, niat, opini,paham,pakar, pandai, pandang, patuh, persepsi,
pikir,pimpin,pintar,prakarsa,prestasi,prinsip,profesional,prospek, rencana,rintang,sarjana,semangat,sempat,serah,setia,simpati,solid, spesialis,sukses,taat,tabah, teguh,tekad,teknikus, teliti, tuju, tunjuk,ulet,ulung,unggul,upaya, usaha,wangsit,yakin
(33)
19
durhaka, enigma, hebat, hilang, hukum, ikhtiar,intai, isyarat, jadi,jahat,jasus,jelek,kasus, kejam, kode, komplikasi,kondisi, kriminal, kunci, malam, mirakel, misteri, mistik,
muslihat,pelaku,periksa ,peristiwa,perkara,primitif,problem, rahasia,residivis, rongsok, rusak,sandi,siasat,skandal,soa, sulit,susah,suluk,taktik, tebak,terjadi,trik, tuduh,urus
4 Romantis Akad,asih, asmara, bahagia, berahi, ceria, cerita, cinta, emosional,
hasrat, hati, hubung, iba, ikat, ingin, ikhlas, jalin, jodoh, jujur, juwita,
kagum, kangen, kasih, kasmaran, kawin, kekasih, kisah, komitmen,
komunikasi, kontak, manis, mesra, minat, nafsu naksir, pacar, pasang,
pesona, pikat, polos,prihatin,puja,putih,putus,rajut, rayu, rela, rindu,
risau, roman,sayang,sedih,sejati, senang,sentuh, setia, sosok, suci,
suka, teman,temu,tulus
3.2. Analisis Sistem
Analisis sistem bertujuan untuk mengindentifikasi permasalahan yang ada pada sistem. Analisis ini sangat diperlukan sebagai dasar perancangan sistem. Yang tercakup dalam analisis sistem adalah desain data, deskripsi data, deskripsi sistem, dan implementasi desain. Sebelum masuk ke dalam tahap perancangan sebuah sistem, perlu dilakukan analisis sistem yang akan dibangun. Analisis sistem merupakan istilah yang secara kolektif mendeskripsikan fase-fase awal pengembangan sistem. Analisis sistem bertujuan untuk mengindentifikasi permasalahan yang ada pada sistem. Dalam tahap ini menjabarkan kebutuhan-kebutuhan yang berguna untuk perancangan sistem agar sistem yang dibangun sesuai dengan masalah yang akan diselesaikan.
Penelitian ini memiliki beberapa tahapan yaitu input novel, Text Processing
(Tokenisasi, pembuangan stopword, dan proses stemming), pembobotan kata (term),
dan mengklasifikasikannya dengan menghitung nilai similaritas termnya dengan data yang ada pada data resource. Berikut rancangan sistem yang ditampilkan dalam bentuk gambar arsitektur umum pada gambar 3.1
(34)
Dokumen berupa novel
Proses persiapan dan seleksi
dokumen
Pembobotan kata
Hitung kemiripan
Hasil klasifikasi
Data Resource
Gambar 3.1 Arsitektur Umum
Keterangan gambar 3.1 dapat dilihat dibawah ini:
1. Data Set
Pada bagian ini data yang dimasukan adalah berupa judul novel, penulis novel dan sinopsis novel. Namun data yang diproses nantinya adalah data yang diperoleh dari sinopsis novel tersebut. Input sinopsis novel dapat dilihat pada gambar 3.2
Gambar 3.2 Input Sinopsis Novel
Sesungguhnya wanita yang seiman dengan kamu lebih baik daripada wanita yang tidak seiman dengan kamu, walaupun ia menarik hatimu. Jangan pernah kamu menikah dengan wanita yang tidak seiman hingga mereka seiman denganmu. Terus, bagaimana jika jatuh cinta itu datang tiba-tiba. Agama tidak mengaturnya, bukan? Selagi bisa dihindari, kenapa nggak? Lebih baik sakit karena diputusin daripada sakit setelah melakukan komitmen bersama seumur hidup, nyatanya sulit untuk dijalankan. Kekuatan cinta, tidak akan pernah semurni dan sekuat pernikahan karena satu iman. Semoga itu bisa jadi pertimbangan kamu. Tapi cinta sering membuat orang buta. Vanya dan Bagas tetap menjalankannya walau dengan tantangan berat. Entah kenapa, seakan ada hal yang tidak merestui cinta mereka. Bagas yang ingin pergi ke Kota Istanbul, Turki, mengidap kanker yang bersarang di paru-parunya. Cita-citanya itu ingin menjejakkan kaki dari dua benua dan dua agama yang pernah hidup berdampingan. Lalu, apakah cinta mereka tetap menyatu? Atau, mereka justru terpisahkan oleh keadaan?
(35)
21
2. Proses Persiapan dan seleksi dokumen
Pada bagian ini sinopsis yang sudah diinput akan melalui proses persiapan dan seleksi dokumen dimana tahapan ini bertujuan untuk mempersiapkan text menjadi data yang akan mengalami pengolahan menjadi data untuk proses pengklasifikasian. Tahapan ini memiliki beberapa tahapan yaitu: tokenisasi (tokenization), pembuangan stopword(stopword removal) dan yang terahir proses stemming.
2.1. Tokenisasi
Sebelum kata dipisahkan dari kalimat, terlebih dahulu dibersihkan dari tanda baca, tag html dan angka. Proses ini dilakukan sebelum proses tokenisasi supaya dapat memperkecil hasil dari tokenisasi tersebut. Pada proses tokenisasi akan dibaca dokumen berupa teks yang selanjutnya akan dilakukan proses pemotongan string
input berdasarkan tiap kata yang menyusunnya. Umumnya setiap kata akan terpisahkan dengan kata yang lain oleh karakter spasi, sehingga proses tokenisasi mengandalkan karakter spasi pada dokumen teks tersebut untuk melakukan pemisahan kata.
start
masukkan
Hapus tag HTML
Hapus angka
Hapus tanda baca
token
Finished
(36)
Seperti pada gambar 3.5 proses tokenisasi, semua term dalam dokumen teks yang di masukan akan dihapus tag htmlnya, kemudian term yang sudah dihapus tag htmlnya akan dicek lagi untuk menghapus angka yang ada pada teks tersebut, kemudian proses terakhir dari tokenisasi adalah dilakukannya penghapusan tanda baca. Sehingga hasilnya adalah term menjadi token-token yang terpisah. Hasil proses tokenisasi dapat dilihat pada tabel 3.4
Tabel 3.2 Tokenisasi
Sesungguhnya kamu Tidak hidup jadi seakan di mereka
wanita menikah Mengaturny
a
nyatanya Pertimban gan
ada
Paru-paruny a
tetap
Yang dengan Bukan Sulit kamu hal
Cita-citanya
menyatu
seiman wanita Selagi untuk Tapi yang itu atau
dengan yang Bisa dijalankan Cinta tidak ingin mereka
kamu tidak Dihindari kekuatan sering merestui menjeja
kkan
justru
Lebih seiman Kenapa Cinta membuat cinta kaki terpisahk
an
daripada hingga Nggak tidak orang mereka dari oleh
wanita mereka Lebih akan Buta Bagas dua keadaan
Yang seiman Baik pernah Vanya yang benua
tidak denganmu Sakit semurni Dan ingin dan
seiman terus Karena Dan Bagas pergi dua
dengan bagaimana Diputusin sekuat Tetap ke agama
kamu jika Daripada pernikahan Menjalank
annya
Kota yang
walaupun jatuh Sakit karena walau Istanbul pernah
Ia cinta Setelah Satu dengan Turki hidup
menarik itu Melakukan iman tantangan mengidap berdam
pingan
hatimu datang Komitmen Semoga Berat kanker Lalu
Jangan tiba-tiba Bersama Itu Entah yang apakah
(37)
23
2.2.Pembuangan Stopword
Sebelum dilakukan stopword harus dilakukan normalisasi dengan mengubah semua huruf kapital menjadi huruf kecil. Proses pembuangan stopword merupakan proses pembuangan term yang tidak memiliki arti atau relevan. Term tersebut diperoleh setelah tahap tokenisasi, kemudian dicek kedalam daftar stopword, jika kata tersebut masuk ke dalam daftar stopword maka kata tersebut tidak akan diproses lebih lanjut. Sedangkan jika sebuah kata tidak termasuk ke dalam daftar stopword maka kata tersebut akan masuk ke proses berikutnya. Dalam penelitian ini daftar stopword yang digunakan adalah daftar stopword yang digunakan oleh (Tala, 2003) . flowchart proses stopword dapat dilihat pada gambar 3.6.
(38)
Start
Arrray term/ token
Inisialisasi awal i = 0 Ambil term ke-i
Term i = stopword
Tambahkan term i ke array hasil
i= (len array -1)
Return array hasil
Stop
ya
tidak
tidak
ya
i + 1
Gambar 3.4 Flowchart Proses Stopword
Sedangkan tabel stopword yang diperoleh dapat dilihat pada tabel 3.5.dan hasil filtering dari proses stopword dapat dilihat pada tabel 3.6.
Tabel 3.3 stopword list
dengan tiba-tiba dan apakah
kamu Selagi tetap atau
lebih Bisa walau mereka
daripada Kenapa dengan justru
(39)
25
dengan Karena yang keadaan
kamu Daripada tidak
walaupun Setelah mereka
ia Melakukan yang
jangan Bersama ingin
pernah Untuk ke
yang Tidak yang
tidak Akan itu
hingga Pernah ingin
mereka Dan dari
dengan Karena dua
terus Satu dan
bagaimana Itu dua
jika Bisa yang
itu Tapi pernah
(40)
Tabel 3.4 Hasil Filtering Proses Stopword
sesungguhnya Jatuh Seumur pertimbangan cinta menjejakkan
wanita Cinta Hidup Cinta bagas kaki
seiman Agama Sulit orang pergi benua
wanita mengaturnya Dijalankan Buta kota agama
seiman Selagi Kekuatan vanya istanbul hidup
menarik dihindari Cinta bagas turki berdampingan
hatimu Nggak Semurni Menjalankan
nya
mengidap Cinta
menikah Sakit Sekuat tantangan kanker Menyatu
wanita diputusin Pernikahan berat bersarang Terpisahkan
seiman Sakit Iman seakan
Paru-parunya seiman komitmen Semoga merestui Cita-citanya
(41)
27 2.3.Stemming Kata Apakah kata dasar? Menghapus Inflection Suffixes (kah, lah, tah, pun,
ku, mu, nya)
Apakah kata dasar? Menghapus Derivation Suffixes (-kan) Apakah kata dasar? Tidak Tidak
Kembalikan akhiran -kan yg dihapus kemudian menghapus
Derivation Suffixes (-an, -I, -kan)
Tidak
Apakah kata dasar?
Menghapus awalan di-, ke-,
se-Menghapus Derivation Suffixes (-an, -I, -kan)
Menghapus awalan diper-, keber-,
keter-Apakah kata dasar? Apakah kata dasar? Tidak Tidak Tidak Apakah kata dasar? Kata Dasar Pencarian Kata tidak ditemukan Tidak Ya Ya Ya Ya Ya Ya Ya Menghapus Derivation Suffixes (-an, -I, -kan)
Menghapus awalan te-,
be-Menghapus awalan ber-, ter-ber-, bel-ber-,
tel-Apakah kata dasar? Tidak Apakah kata dasar? Ya Ya Menghapus Derivation Suffixes (-an, -I, -kan)
Menghapus awalan me-,
pe-Menghapus Derivation Suffixes (-an, -I, -kan)
Menghapus awalan memper-, meng-,
peng-, meny-peng-, peny-peng-, mel-peng-, pel-, mer-, per-, men-, pen-, mem-,
pem-Apakah kata dasar? Apakah kata dasar? Tidak Tidak Apakah kata dasar? Ya Ya Ya Menghapus Derivation Suffixes (-an, -I, -kan) Tidak
Penghapusan afiks 1 Penghapusan afiks 2 Penghapusan afiks 3 Start
Stop
(42)
Stemming bertujuan untuk menghasilkan bentuk dasar dari sebuah term atau kata. Term yang sudah melewati proses pembuangan stopword yang akan menjadi input dalam proses ini. Algoritma yang digunakan dalam proses stemming ini adalah algoritma Nazief & Andriani. Algoritma ini digunakan karena algoritma Nazief & Andriani memiliki keakuratan yang baik dalam proses stemming Bahasa Indonesia. Berikut penjelasan dari flowchart proses stemming menggunakan algoritma Nazief & Andriani:
1. Pertama-tama adalah kata yang diterima dalam proses stemming dicek apakah kata tersebut terdapat didalam list kata dasar. Jika kata tersebut terdapat dalam list kata dasar maka proses berhenti tetapi jika tidak proses berlanjut.
2. Proses selanjutnya adalah melakukan penghapusan Inflection Suffix. Akhiran ini berupa akhiran –lah, -kah, -mu, -ku, -tah, -pun dan –nya. Setelah dihapus, maka dilakukan pengecekan kembali apakah kata tersebut terdapat di list kata dasar. Jika ada, maka proses berhenti jika tidak berlanjut ke point ke-3.
3. Proses ini akan melakukan penghapusan Derivation Suffix. Akhirannya berupa akhiran –i, -an, -kan.
a. Pertama-tama akan dihapus akhiran –kan kemudian dicek dalam list kata dasar. Jika ditemukan di list kata dasar, maka proses berhenti jika tidak, akhiran –kan yang dihapus dikembalikan dan dilanjutkan dengan penghapusan akhiran –i dan –an. Jika ditemukan di list kata dasar, proses berhenti jika tidak dilanjutkan ke point 3.b.
b. Akhiran yang sudah dihapus dikembalikan ke kata sebelumnya dan dilanjutkan ke point 4.
4. Selanjutnya akan dilakukan proses penghapusan Derivation Prefix. Proses ini memiliki 3 tahap penghapusan prefiks. Jika pada langkah sebelumnya ada sufiks yang dihapus, maka proses dilanjutkan ke point 4a.
a. Periksa apakah kata memiliki imbuhan yang terdapat dalam daftar kombinasi awalan dan imbuhan yang tidak diizinkan. Jika ditemukan maka proses berhenti jika tidak dilanjutkan.
b. Dilakukan proses penghapusan afiks yang pertama. Awalan yang dihapus pertama kali adalah awalan di-, ke-, se-.
(43)
29
i. Pertama-tama awalan di-, ke-, se- dihapus kemudian dicek apakah kata tersebut terdapat dalam list kata dasar. Jika ditemukan, proses berhenti, jika tidak dilanjukan.
ii. Dilakukan proses penghapusan derivation suffix kembali. Jika kata tersebut adalah kata dasar proses berhenti jika tidak bentuk kata dikembalikan ke semula dan proses dilanjutkan.
iii. Dilakukan proses penghapusan awalan diper-, keber, keter- dan dilanjutkan dengan penghapusan derication suffix. Kemudian kata dicek kembali apakah kata tersebut kata dasar. Jika ya, proses berhenti jika tidak kata dikembalikan ke bentuk semula dan proses dilanjutkan.
c. Dilakukan proses penghapusan afiks yang kedua. Awalan yang akan dihapus adalah awalan te- dan be-.
i. Pertama-tama dilakukan penghapusan awalan te- dan ber- kemudian dicek apakah kata tersebut kata dasar. Jika ya, proses berhenti jika tidak, kata dikembalikan ke bentuk semula dan proses dilanjutkan.
ii. Dilakukan penghapusan awalan ber-, bel-, ter-, tel- dan dilanjutkan dengan penghapusan derivation suffix. Jika kata adalah kata dasar, proses berhenti jika tidak kata dikembalikan ke bentuk semula dan proses dilanjutkan. d. Dilakukan prose penghapusan afiks yang ketiga. Awalan yang akan dihapus
adalah awalan me- dan pe-. Awalan ini adalah awalan yang memilik banyak perubahan bentuk awalan jika digabungkan dengan kata dasar. Oleh sebab itu akan banyak dilakukan pengecekan terhadap seluruh perubahan awalan.
i. Pertama-tama dilakukan penghapusan awalan me- dan pe- kemudian dicek apakah kata tersebut kata dasar. Jika iya, proses berhenti, jika tidak proses dilanjutkan.
ii. Dilakukan penghapusan derivation suffix dan kemudian dicek kembali apakah kata tersebut kata dasar. Jika ya, maka proses berhenti, jika tidak kata dikembalikan ke bentuk semula dan proses dilanjutkan.
Dilakukan proses penghapusan awalan yang mengalami perubahan bentuk seperti memper-, meng-, meny-, mel-, mer-, men-, mem-, peng-, peny-, pel, per-, pen-, pem-. Kemudian proses dilanjutkan dengan penghapusan derivation suffix dan dicek apakah kata tersebut adalah kata dasar, jika maka proses berhenti jika tidak kata diasumsikan adalah kata dasar dan proses berhenti.
(44)
Hasil dari proses stemming ditunjukan pada tabel 3.7
Tabel 3.5 Tahapan Hasil Stemming
sungguh jatuh Sulit cinta bagas kaki
Wanita cinta Jalan orang pergi benua
Iman agama Kuat buta kota agama
Wanita atur Cinta va istanbul hidup
Iman lagi Murni bagas turki damping
Tarik hindar Kuat jalan idap cinta
Hati nggak Nikah tantang kanker pisah
Meni diputusin Satu berat sarang cinta
Wanita sakit Iman akan paru hidup
Iman komitmen Moga restu cita
Iman umur Timbang cinta jejak
3. Pembobotan kata dengan TF-IDF
Proses pembobotan kata adalah proses pemberian nilai atau bobot ke sebuah kata berdasarkan kemunculannya pada suatu dokumen teks (Baeza-Yates et al, 1999). Pada proses sebelumnya atau proses Text Processing akan didapat kumpulan kata atau term
yang kemudian direpresentasikan kedalam sebuah terms vector. Terms vector suatu dokumen teks a adalah tuple bobot semua term pada a. Nilai bobot sebuah term inilah yang nantinya akan merepresentasikan dokumen teks. Pada penelitian ini proses pembobotan kata menggunakan metode Term Frequency-Inverse Document
Frequency (TF-IDF).
Term Frequency-Inverse document frequency (TF-IDF) adalah suatu metode
pembobotan kata dengan menghitung nilai TF dan juga menghitung kemunculan sebuah kata pada dokumen teks. Pada pembobotan ini, jika kemunculan term pada sebuah dokumen teks tinggi dan kemunculan term tersebut pada dokumen teks yang lain rendah, maka bobotnya akan semakin besar. Sedangkan jika kemunculan term
pada dokumen teks lain tinggi, maka bobotnya akan semakin kecil. Tujuan penghitungan IDF adalah untuk mencari kata-kata yang benar-benar
(45)
31
paling baik dalam perolehan informasi (Khodra et al, 2005). Adapun rumus dari TF-IDF dapat di lihat pada persamaan berikut (Salton, 1983).
(1)
Dengan tf(i,j) adalah frekuensi kemunculan term j pada dokumen teks d i
D*, dimana i = 1,2,3,...,N, df(j) adalah frekuensi dokumen yang mengandung term j dari semua koleksi dokumen, dan N adalah jumlah seluruh dokumen yang ada di koleksi dokumen. Berdasarkan rumus diatas berapapun besarnya nilai tf(i,j), apabila N= df(j) maka akan didapatkan hasil 0 (nol) untuk perhitungan idf. Untuk itu dapat ditambahkan nilai 1 pada sisi idf, sehingga perhitungan untuk pembobotan dapat dilihat pada rumus persamaan 2.
+1) (2)
Pada penelitian ini, proses klasifikasi dokumen text berupa novel dilakukan setelah melakukan pembobotan kata.. Proses klasifikasi dilakukan dengan memetakan kata pada novel ke daftar kata yang mewakili dari genre yang ada di dalam data
resource, kemudian dihitung nilai kemiripan kata yang didapat dari proses TF-IDF
dengan menjumlahkan bobot setiap kata yang sama dengan daftar kata pada data
resource,dan Kemudian akan diklasifikasikan tepat ke salah satu genre yang memiliki
nilai kemiripan tertinggi atau terbesar. Hasil dari tahapan pembobotan kata menggunakan TF-IDF dapat dilihat pada tabel 3.8 dan hasil pengklasifikasian dapat dilihat pada tabel 3.9.
Tabel 3.6 Hasil Pembobotan Kata.
kata tf Df n log(n/df)+1=idf tf*idf = tf idf tf idf sungguh 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 tarik 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 hati 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 meni 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 jatuh 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 atur 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 lagi 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 hindar 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792
(46)
nggak 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 diputusin 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 komitmen 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 umur 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 sulit 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 murni 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 nikah 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 moga 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 timbang 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 orang 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 buta 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792
va 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792
tantang 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 berat 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 akan 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 restu 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 pergi 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 kota 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 istanbul 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 turki 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 idap 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 kanker 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 sarang 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 jejak 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 kaki 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 benua 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 damping 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 satu 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 pisah 1 1 12 log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792 agama 2 2 12 log(12/2)+1=1.7781 2*1.7781 =3.5563 3.5563 sakit 1 1 12 Log(12/1)+1=2.0792 1*2.0792 =2.0792 2.0792
(47)
33
jalan 2 2 12 log(12/2)+1=1.7781 2*1.7781 =3.5563 3.5563 kuat 2 1 12 log(12/1)+1=2.0791 2*2.0791 =4.1584 4.1584 bagas 2 2 12 log(12/2)+1=1.7781 2*1.7781 =3.5563 3.5563 Paru 2 1 12 log(12/1)+1=2.0791 2*2.0791 =4.1584 4.1584 Cita 2 1 12 log(12/1)+1=2.0791 2*2.0791 =4.1584 4.1584 wanita 3 2 12 log(12/2)+1=1.7781 3*1.7781 =5.3345 5.3345 cinta 5 5 12 log(12/5)+1=1.3802 5*1.3802 =6.9011 6.9011 iman 5 3 12 log(12/3)+1=1.6020 5*1.6020 =8.0103 8.0103
Tabel 3.7 Hasil Pengklasifikasian Genre Novel.
No Kata TF-IDF Horor inspiratif misteri romantis
1 Sungguh 2.0792 0 0 0 0
2 Tarik 2.0792 0 0 0 0
3 Hati 2.0792 0 0 0 2.0792
4 Meni 2.0792 0 0 0 0
5 Jatuh 2.0792 0 0 0 0
6 Atur 2.0792 0 0 2.0792 0
7 Lagi 2.0792 0 0 0 0
8 Hindar 2.0792 0 0 0 0
9 Nggak 2.0792 0 0 0 0
10 Diputusin 2.0792 0 0 0 0
11 Komitmen 2.0792 0 0 0 2.0792
12 Umur 2.0792 0 0 0 0
13 Sulit 2.0792 0 0 2.0792 0
14 Murni 2.0792 0 0 0 0
15 Nikah 2.0792 0 0 0 2.0792
16 Moga 2.0792 0 0 0 0
17 Timbang 2.0792 0 0 0 0
18 Orang 2.0792 0 0 0 0
19 Buta 2.0792 0 0 0 0
(48)
21 Tantang 2.0792 0 0 0 0
22 Berat 2.0792 0 0 0 0
23 Akan 2.0792 0 0 0 0
24 Restu 2.0792 0 0 0 0
25 Pergi 2.0792 0 0 0 0
26 Kota 2.0792 0 0 0 0
27 Istanbul 2.0792 0 0 0 0
28 Turki 2.0792 0 0 0 0
29 Idap 2.0792 0 0 0 0
30 Kanker 2.0792 0 0 0 0
31 Sarang 2.0792 0 0 0 0
32 Jejak 2.0792 0 0 0 0
33 Kaki 2.0792 0 0 0 0
34 Benua 2.0792 0 0 0 0
35 Damping 2.0792 0 0 0 0
36 Satu 2.0792 0 0 0 0
37 Pisah 2.0792 0 0 0 0
38 Agama 2.0792 0 0 0 0
39 Sakit 2.0792 0 0 0 0
40 Hidup 3.5563 0 0 0 0
41 Jalan 3.5563 0 3.5563 0 0
42 Kuat 4.1584 0 0 0 0
43 Bagas 3.5563 0 0 0 0
44 Paru 4.1584 0 0 0 0
45 Cita 4.1584 0 4.1584 0 0
46 Wanita 5.3345 0 0 0 0
47 Iman 8.0103 0 0 0 0
48 Cinta 6.9011 0 0 0 6.9011
(49)
35
Dari hasil tabel 3.7 dapat dilihat hasil dari pengklasifikasian genre dengan
menghasilkan genre romantis sebagai hasil dari pengklasifikasian,karena memiliki nilai tertinggi dari hasil kemiripan antara TF-IDF dengan dataresource.
3.3.Perancangan Tampilan Antarmuka
Perancangan tampilan antarmuka bertujuan untuk menggambarkan ide tampilan dari sistem yang dibuat.
3.3.1. Rancangan tampilan halaman utama.
Rancangan halaman utama ini berfungsi untuk menampilkan halaman utama yang berisikan menubar, seperti home, data resource,about. Dibagian atas terdapat sliding
picture dan button lanjut proses untuk masuk ke halaman proses. Pada rancangan
halaman utama ini nantinya akan terdapat penjelasan singkat tentang novel dan penjelasan stemming dan TF-IDF. Dapat dilihat pada gambar 3.6.
Gambar 3.6 Rancangan Tampilan Halaman Utama
Selamat Datang
Penjelasan
Novel
Penjelasan
TF-IDF
Penjelasan
Stemming
Footer
Lanjut Proses
Title Menu Bar 1 Menu Bar 2 Menu Bar 3
(50)
3.3.2. Rancangan tampilan halaman dataresource.
Rancangan tampilan data resource berfungsi untuk menampilkan kata-kata yang mewakili dari setiap genre yang ada. Kemudian ditampilkan dalam bentuk tree.
Rancangan tampilan halaman dataresource dapat dilihat pada gambar 3.9.
Gambar 3.7 Rancangan Halaman Data Resource
3.3.3. Rancangan tampilan halaman about.
Rancangan tampilan halaman about berfungsi untuk menampilkan perkenalan singkat pembuat sistem serta penjelasan singkat tentang sistem tersebut. Rancangan halaman about dapat dilihat pada gambar 3.10
Gambar 3.8 Rancangan Tampilan Halaman About. Sub Menu
Data Resource
Title Menu bar
1
Menu bar 2
Menu bar 3
Footer
Description of picture
pictures
Footer
(51)
37
3.3.4. Rancangan tampilan halaman proses.
Rancangan tampilan proses berfungsi untuk melakukan proses serta melihat hasil proses. Pada halaman ini terdapat form untuk mengisi judul novel, pengarang novel, dan sinopsis dari novel tersebut dan terdapat juga tombol submit untuk melakukan proses setelah mengisi semua form. Rancangan tampilan halaman proses dapat dilihat pada gambar 3.11. setelah melakukan pengisian form dan menekan tombol submit maka akan diproses untuk mendapatkan hasil. Rancangan tampilan hasil proses dapat dilihat pada gambar 3.12 dan rancangan tampilan halaman detail hasil dapat dilihat pada gambar 3.13.
3.9 Rancangan Tampilan Halaman Proses
Title Menu Bar 1 Menu Bar 2 Menu Bar 3
Footer Input Judul Novel
Input Pengarang
Input Sinopsis
(52)
3.10 Rancangan Tampilan Halaman Hasil Proses
3.11 Rancangan Tampilan Halaman Detail Proses
Pada rancangan tampilan halaman detail proses diatas, terdapat kolom-kolom yang menunjukan genre dari hasil klasifikasi, disini juga terdapat kolom untuk menampilkan perhitungan dari hasil klasifikasi yang didapat tersebut.
result
horror inspiratif misteri romantis
no kata TF-IDF horror inspirasi misteri romantis
keluar ok
Judul Pengara Sinopsis
Genre Horor
Horror Inspiratif Misteri Romantis
keluar ok AAAA
Aaaaaaaaaaaaaaaaaaaaaaaaaaa bbbbbbbbbbbbbbbbbbbbbbbbb ccccccccccccccccccccccccccccccccc dddddddddddddddddddddddddddddddd BBBB
(53)
BAB 4
IMPLEMENTASI DAN PENGUJIAN
Tahapan yang dilakukan setelah analisis dan perancangan sistem adalah implementasi dan pengujian sistem. Tahapan ini diperlukan untuk mengetahui apakah media Teknologi Informasi tersebut berhasil atau tidak. Berikut merupakan hasil implementasi dan pengujian dari sistem yang sudah dibangun.
4.1Implementasi Sistem
Sesuai dengan hasil analisis dan perancangan sistem yang telah dibuat, dilakukan implementasi perancangan menjadi aplikasi pembelajaran yang ditujukan untuk membantu pengklasifikasian novel sesuai dengan genre menggunakan metode TF-IDF, dengan bahasa pemrograman C#.
4.1.1 Spesifikasi Perangkat Keras dan Perangkat Lunak yang Digunakan
Sistem dibuat di dalam lingkungan perangkat keras yang memiliki spesifikasi sebagai berikut:
1. Processor intel® Core(TM)2 Solo CPU U3500 @1.40GHz 2. Memory RAM yang digunakan 4 GB.
3. Kapasitas Hardisk 500 GB.
Selain perangkat keras, sistem juga dibuat dalam lingkungan spesifikasi perangkat lunak sebagai berikut:
1. Windows 7 Ultimate.
2. Software Microsoft Visual Studio 2010.
3. Bahasa pemrograman C#, menggunakan framework ASP.NET MVC.net versi 3 4. Database MySql
(54)
4.1.2 Tampilan Halaman utama
Tampilan halaman utama aplikasi merupakan tampilan desain user interface ketika aplikasi dijalankan. Pada tampilan utama terdapat 3 menu bar yaitu home, data
resource, dan about. Pada halaman ini terdapat juga image slider dimana terdapat
button lanjut proses untuk masuk ke halaman input data novel. Pada halaman ini juga terdapat penjelasan mengenai novel, TF-IDF dan stemming. tampilannya dapat dilihat pada gambar 4.1.
Gambar 4.1 Tampilan Halaman Utama
4.1.3 Tampilan halaman data resource
Pada halaman data resource terdapat sebuah tree yang berisikan kata-kata yang mewakili dari setiap genre novel yang diperoleh dari Kamus Tesaurus Pusat Bahasa. Tampilannya dapat dilihat pada gambar 4.2
(55)
41
4.2Tampilan Halaman Data Resource
4.1.4 Tampilan halaman about
Pada halaman ini berisikan tentang profil dari pembuat sistem klasifikasi novel berdasarkan genre. Tampilannya dapat dilihat pada gambar 4.3.
(56)
4.1.5 Tampilan halaman proses
Pada halaman ini terdapat form untuk menginput data novel berupa judul novel, pengarang dan sinopsis dari novel. Pengguna harus mengisi form judul, pengarang dan sinopsis novel dengan lengkap untuk selanjutnya diproses oleh sistem dengan menekan tombol submit. Tampilan halaman proses dapat dilihat pada gambar 4.4
Gambar 4.4 Tampilan Halaman Proses
Setelah semua form terisi dan tombol submit ditekan maka hasilnya akan ditampilkan secara pop up. Pada halaman ini terdapat empat kotak yang merupakan genre dari novel. Hasil klasifikasi genre yang dimaksud akan ditunjukan oleh kotak yang berwarna hijau. Dan terdapat hasil perhitungan dari jumlah kata dasar pada sinopsis yang mewakili dari genre tersebut. Tampilan hasil dapat dilihat pada gambar 4.5
(57)
43
Gambar 4.5 Tampilan Hasil Proses
Setelah tampilan hasil proses muncul, maka kita dapat melihat detail dari hasil tersebut dengan mengklik point yang terdapat pada panel hasil yang terpilih sebagai hasil genre (panel yang berwarna hijau). Berikut tampilan detail hasil pada gambar 4.6.
(58)
4.2Hasil Pengujian Sistem
Pengujian sistem dilakukan dengan mengambil 100 novel online secara acak, Setelah diproses maka diperoleh hasil berupa genre novel. Hasil pengujian dapat dilihat pada tabel 4.1
Tabel 4.1 Pengujian Sistem No Judul novel Genre
Horr or
Inspir atif
Misteri Romantis True /False
1 Beda tapi cinta
romantis 0 8 4 13 True
2 Hantu kamar kos
Horror 8 6 8 9 False
3 Inikah cinta? romantis 0 7 0 15 True
4 Beb,aku sakau.
romantis 0 3 0 15 True
5 I love a witch
romantis 2 6 2 10 True
6 Serambi cinta di negeri cahaya
romantis 2 14 0 22 True
7 Tahun anjing hiena (year of the hyenas)
Misteri 8 8 4 0 False
8 Menanti sebuah jawaban
romantis 0 5 0 8 True
9 Malaikat kegelapan
Misteri 7 4 2 4 False
10 Negeri 5 inspiratif 15 16 6 4 True
(59)
45
11 Pangeran Diponegoro: Menuju Sosok Khalifah
inspiratif 0 10 5 3 True.
12 Petak umpet minako
Horor 4 0 0 15 False
13 Misteri patung garam
Horor 16 0 2 10 True
14 Laskar pelangi
inspiratif 2 24 0 7 True
15 Gerbang dialog danur
Horor 7 2 0 2 True
16 skandal Misteri 0 4 9 8 True
17 Nightmare at hospital
Horror 15 2 0 4 True
18 Berikutnya kau yang mati
Horor 13 2 0 4 True
19 Garuda di dadaku
inspiratif 0 44 0 17 True
20 Sherlock holmes koleksi 2
Misteri 6 0 9 6 True
21 Almost is Never Enough
Romantis 2 4 28 13 True
22 I Need You Romantis 2 7 9 10 True
23 Lelaki Terakhir Yang Menangis Di Bumi
Romantis 4 4 0 2 False
24 Happy Tummy
Romantis 0 8 0 4 False
25 Perempuan-Perempuan
(60)
Tersayang
26 Buku Seri Love Cycle + TTD Penulis + Tas Edisi Love Cycle
Romantis 0 4 2 6 True
27 Dibawah Langit yang sama
Romantis 4 0 0 25 True
28 Sweet Karma Romantis 0 4 0 12 True
29 Senja, Hujan, dan Cerita yang Telah Usai
Romantis 4 4 2 11 True
30 Catatan Indigo
Horror 5 0 2 3 True
31 MIDNIGHT STORIES 3
Horror 9 2 0 4 True
32 KUNCUNG POCONG; CERITA SERAM DARI TANAH LARANGA N
Horror 4 3 0 6 False
33 Nightmare Side #2
Horror 4 2 0 2 True
34 Horor 13 Horror 3 0 0 6 False
35 Jangan Login Sendirian Lewat Tengah Malam
Horror 8 2 2 8 True
36 Sebuah Cerita Horor
Horror 2 0 5 4 False
(61)
47
NGESOT SAMPAI SUNDEL BOLONG
38 Terjebak di Dunia Lain
Horror 2 4 0 7 False
39 Tangan Kelima
Horror 4 7 6 21 False
40 Bukan Cinta Cinderella
Romantis 0 0 0 9 True
41 Takkan Pernah Pudar
Romantis 4 6 4 10 True
42 VANDARIA SAGA: WINTERFL AME
Romantis 0 2 2 3 True
43 Stolen Songbird (Negeri Troll yang Hilang)
Romantis 4 7 0 12 True
44 MARRY NOW, SORRY LATER
Romantis 0 8 2 24 True
45 Marshmallo w Skye : The Chocolate Box Grils
Romantis 0 5 0 11 True
46 Dear Sister Romantis 0 12 2 15 True
47 Bitter Winner
Romantis 2 9 2 14 True
48 Wind Leading to Love
Romantis 7 2 4 5 False
49 Who Are You
Romantis 6 9 0 13 True
50 A Dandelion Wish
Romantis 6 3 4 7 True
(62)
Harimau
52 Proyek Maut Misteri 2 0 3 0 True
53 Days of Terror
Misteri 11 4 0 16 False
54 Nyawa Misteri 2 0 2 2 False
55 Fantasteen The End
Misteri 4 2 5 2 True
56 Sherlock Holmes: Koleksi Kasus 2 -Edisi Hard Cover
Misteri 6 0 9 6 True
57 Cermin: Saat Bayangan Merenggut Cinta
Misteri 2 6 2 8 False
58 Malaikat Kegelapan
Misteri 7 4 4 4 False
59 Pembunuhan di
Mesopotamia - Murder in Mesopotamia
Misteri 16 9 0 10 False
60 Sang Nyai 2 : Bumi yang Tersembunyi
Misteri 3 5 0 5 False
61 Saat untuk membunuh
Misteri 3 4 5 2 True
62 The Maestro - Genius Penjerat Wanita
Misteri 6 7 8 2 True
(63)
49
Kematian - Origin in Death
64 Hilang Misteri 8 2 2 0 False
65 Lingkar Romantis 0 2 3 2 True
66 Inikah Cinta? Romantis 0 7 0 15 True
67 With Love Romantis 0 2 0 19 True
68 Satu Cerita Tentang Cinta
Romantis 2 4 0 12 True
69 Catatan Pendek untuk Cinta yang Panjang
Romantis 0 0 0 2 True
70 Sakitnya di Sini
Romantis 0 6 0 7 True
71 Bukan Tentang Cinta
Romantis 0 3 2 10 True
72 jejak Hati Romantis 2 0 0 22 True
73 Walking After You
Romantis 8 4 2 16 True
74 Dua Keping Cinta
Romantis 2 0 4 9 True
75 Dreams Come True
Romantis 0 8 2 9 True
76 Kania Romantis 4 4 2 6 True
77 Melodi : Cinta Yang Melintasi Waktu
Romantis 2 4 2 11 True
78 ANGKER; Dari Lawang Sewu
(64)
Sampai Lubang Buaya
79 Our Notebook
Romantis 0 12 2 7 False
80 This is How I Do
Romantis 0 0 0 6 True
81 Ocean Melody
Romantis 0 23 0 7 False
82 Semestinya Cinta
Romantis 0 8 0 14 True
83 Cheeky Romance (repackaged)
Romantis 0 0 4 0 False
84 Single Ville Romantis 7 4 6 8 True
85 Bila Romantis 0 7 0 17 True
86 STAY WITH ME
Romantis 4 23 2 6 False
87 Kota Lama & Sepotong Cerita Cinta
Romantis 0 11 0 12 True
88 Serambi Cinta Di Negeri Cahaya
Romantis 2 14 0 22 True
89 Sesuatu Yang Indah
Romantis 2 10 0 12 True
90 Time after Time
Romantis 0 12 10 4 False
91 BLUE HEAVEN
Romantis 0 5 0 6 True
92 First Love Romantis 0 4 2 11 True
93 Melepaskan mu
(65)
51
94 00:00 Saat Hantu Muncul
Horror 2 0 0 0 True
95 Hantu Penari Horror 6 0 0 2 True
96 Pasien Terakhir
Horror 7 0 0 0 True
97 The Bastard Legacy; Warisan Legendaris para Bedebah
Horror 12 4 16 7 False
98 Death on Camera
Horror 8 0 4 2 True
99 Berikutnya Kau yang Mati
Horror 13 2 0 4 True
100 R.I.S.A.R.A Horror 11 0 2 7 True
Dari tabel 4.1 terlihat bahwa hasil klasifikasi tidak sepenuhnya akurat. Rata-rata tingkat akurasi keberhasilan klasifikasi dapat dilihat dengan perhitungan :
(66)
BAB 5
KESIMPULAN DAN SARAN
8.1Kesimpulan
Dari hasil analisis dan pengujian yang dilakukan pada aplikasi dari bab sebelumnya, dapat disimpulkan bahwa :
1. Metode TF-IDF dapat digunakan dalam membentuk pengklasifikasian novel berdasarkan genre.
2. Text Mining dengan gabungan metode TF-IDF dapat menghitung nilai
similaritas dengan genre yang ada didalam data resource. Untuk menghasilkan pengklasifikasian novel sesuai genre.
3. Hasil klasifikasi genre novel sangat bergantung pada daftar kata yang ada pada
data resource. Kata-kata yang tidak mewakili genre dengan baik dapat
menghasilkan klasifikasi yang salah.
8.2Saran
Adapun saran-saran yang untuk penelitian maupun pengembangan berikutnya adalah :
1. Dalam menginput kata yang mewakili genre harus menggunakan kata-kata yang sangat spesifik agar hasil dari pengklasifikasian dapat lebih baik lagi.
2. Ada baiknya untuk penelitian selanjutnya pengklasifikasian genre tidak hanya dilakukan berdasarkan sinopsis saja.
3. Pada penelitian selanjutnya juga dapat diterapkan teknik-teknik yang lain untuk dapat mendukung pengklasifikasian novel sesuai genre yang ada dengan hasil yang lebih baik lagi.
(1)
50
Sampai Lubang Buaya 79 Our
Notebook
Romantis 0 12 2 7 False
80 This is How I Do
Romantis 0 0 0 6 True
81 Ocean Melody
Romantis 0 23 0 7 False
82 Semestinya Cinta
Romantis 0 8 0 14 True
83 Cheeky Romance (repackaged)
Romantis 0 0 4 0 False
84 Single Ville Romantis 7 4 6 8 True
85 Bila Romantis 0 7 0 17 True
86 STAY WITH ME
Romantis 4 23 2 6 False
87 Kota Lama & Sepotong Cerita Cinta
Romantis 0 11 0 12 True
88 Serambi Cinta Di Negeri Cahaya
Romantis 2 14 0 22 True
89 Sesuatu Yang Indah
Romantis 2 10 0 12 True
90 Time after Time
Romantis 0 12 10 4 False
91 BLUE HEAVEN
Romantis 0 5 0 6 True
92 First Love Romantis 0 4 2 11 True
93 Melepaskan mu
(2)
94 00:00 Saat Hantu Muncul
Horror 2 0 0 0 True
95 Hantu Penari Horror 6 0 0 2 True
96 Pasien Terakhir
Horror 7 0 0 0 True
97 The Bastard Legacy; Warisan Legendaris para Bedebah
Horror 12 4 16 7 False
98 Death on Camera
Horror 8 0 4 2 True
99 Berikutnya Kau yang Mati
Horror 13 2 0 4 True
100 R.I.S.A.R.A Horror 11 0 2 7 True
Dari tabel 4.1 terlihat bahwa hasil klasifikasi tidak sepenuhnya akurat. Rata-rata tingkat akurasi keberhasilan klasifikasi dapat dilihat dengan perhitungan :
(3)
BAB 5
KESIMPULAN DAN SARAN
8.1Kesimpulan
Dari hasil analisis dan pengujian yang dilakukan pada aplikasi dari bab sebelumnya, dapat disimpulkan bahwa :
1. Metode TF-IDF dapat digunakan dalam membentuk pengklasifikasian novel berdasarkan genre.
2. Text Mining dengan gabungan metode TF-IDF dapat menghitung nilai similaritas dengan genre yang ada didalam data resource. Untuk menghasilkan pengklasifikasian novel sesuai genre.
3. Hasil klasifikasi genre novel sangat bergantung pada daftar kata yang ada pada data resource. Kata-kata yang tidak mewakili genre dengan baik dapat menghasilkan klasifikasi yang salah.
8.2Saran
Adapun saran-saran yang untuk penelitian maupun pengembangan berikutnya adalah :
1. Dalam menginput kata yang mewakili genre harus menggunakan kata-kata yang sangat spesifik agar hasil dari pengklasifikasian dapat lebih baik lagi.
2. Ada baiknya untuk penelitian selanjutnya pengklasifikasian genre tidak hanya dilakukan berdasarkan sinopsis saja.
3. Pada penelitian selanjutnya juga dapat diterapkan teknik-teknik yang lain untuk dapat mendukung pengklasifikasian novel sesuai genre yang ada dengan hasil yang lebih baik lagi.
(4)
DAFTAR PUSTAKA
Agusta, L. 2009 . Perbandingan Algoritma Stemming Porter Dengan Algoritma Nazief dan Adriani untuk Stemming Dokumen Teks Bahasa Indonesia. KonferensiNasional Sistem dan Informatika 31:196-198.
Berry, M.W. & Kogan, J. 2010. Text Mining Aplication and theory. WILEY: United Kingdom.
Do, D. T., Hui, C. S., & Fong, A.C.M. 2006. Associative Feature Selection for Text Mining. International Journal of Information Technology 12(4): 59-58.
Februariyanti, Herny. 2012. Klasifikasi Dokumen Berita Teks Bahasa Indonesia Menggunakan Ontologi.
Feldman, R & Sanger, J. 2007. The Text Mining Handbook: Advanced Approaches In Analyzing Unstructured Data. Cambridge University Press: New York.
Forbes, Jamie M. (1998). "Fiction Dictionary". In Herman, Jeff, Writer's Guide to Book Editors, Publishers, and Literary Agents 1999–2000, pp. 861–871. Rocklin, California: Prima Publishing.
Harlian, Milka. 2006. Machine Learning Text Kategorization. Austin : University of Texas.
Hearst, Marti. 2003. What Is Text Minning?. SIMS,UC Berkeley.
http://www.sims.berkeley.edu/~hearst/text.mining.html . Diakses tanggal 25 Juni 2009.
(5)
54
Kurniawan, B. 2012 . Klasifikasi Konten Berita dengan Metode Text Mining. Skripsi. Universitas Sumatera Utara
L.M. Khodra, Y. Wibisono, Clustering Berita Berbahasa Indonesia. Internal
Publication, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Pendidikan Indonesia, Bandung, Indonesia, 2005.
M. Salton, Introduction to Modern Information Retrieval, McGraw Hill, New York, 1983.
Nazief, B. A. A. & Adriani, M. (1996), Con_xstripping: Approach to Stemming Algorithm for Bahasa Indonesia. Internal publication, Faculty of Computer Science, University of Indonesia, Depok, Jakarta
R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, New York, 1999.
Rajaraman, A., Ullman,J.D. 2011. Mining of Massive Datasets. Cambridge University Press : United Kingdom
Susanto, S., 2006, Pengklasifikasian dokumen berita menggunakan naïve bayes classifier, Skripsi, Fakultas Ilmu Komputer, Universitas Indonesia, Depok,Jakarta.
Tala, F. Z. 2003. A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. Institute for Logic, Language and Computation, Universiteit van Amsterdam, The Netherlands.
Triawati, C. 2009. Metode Pembobotan Statistical Concept Based untuk Klastering dan Kategorisasi Dokumen Berbahasa Indonesia.Skripsi. IT Telkom
(6)
Weiss, S.M., Indurkhya, N., Zhang, T., Damerau, F.J. 2005. Text Mining: Predictive Methods fo Analyzing Unstructered Information. Springer: New York
Wibisono, Y., 2005, Klasifikasi berita berbahasa Indonesia menggunakan naïve
bayes classifier Internal, Publication,Fakultas Matematika dan Ilmu