KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF SKRIPSI RUDYANTO BUDIMAN P 091402084
KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF SKRIPSI RUDYANTO BUDIMAN P 091402084 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2015
KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF
SKRIPSI Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana
Teknologi Informasi RUDYANTO BUDIMAN P
091402084 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN
2015
PERSETUJUAN
Judul : KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF
Kategori : SKRIPSI Nama : RUDYANTO BUDIMAN P Nomor Induk Mahasiswa : 091402084 Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Fakultas : ILMU KOMPUTER DAN TEKNOLOGI
INFORMASI (FASILKOM-TI) UNIVERSITAS SUMATERA UTARA Diluluskan di Medan, Juni 2015
Komisi Pembimbing : Pembimbing 2 Pembimbing 1 Baihaqi Siregar, S.Si.,M.T Mohammad Fadly Syahputra, B.Sc, M.Sc.IT NIP. 197902082010121002 NIP. 198301292009121003 Diketahui / Disetujui oleh Program Studi S1 Teknologi Informasi Ketua, Muhammad Anggia Muchtar, S.T., M.M.I.T.
NIP. 198001102008011010
PERNYATAAN
KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, Juni 2015 RUDYANTO BUDIMAN P 091402084
UCAPAN TERIMA KASIH
Segala puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus atas segala berkat dan pengasihanNya yang sungguh berlimpah, sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Teknologi Informasi Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.
Penyelesaian skripsi ini tidak terlepas dari bantuan dari berbagai pihak, untuk itu, penulis ingin mengucapkan terima kasih yang sebesar-besarnya kepada:
1. Kedua orangtua penulis yang telah memberikan dukungan moril dan spiritual, alm Ir.Nelson Eddy Siahaan.(+) dan almh Dra.Bonur Rulyanna Sitorus.(+) yang terlebih dahulu meninggalkan dunia saat masa akhir perkuliahan penulis, kedua adik saya Stephany Novianty Siahaan SE, dan Silvia Pratiwi Yunisari Siahaan yang terus memberikan motivasi dan dukungan.
2. Bapak M.Fadly Syahputra B.Sc.,M.Sc.,IT dan Bapak Baihaqi Siregar,S.Si.,MT selaku pembimbing yang telah banyak meluangkan waktu dan pikirannya, memotivasi dan memberikan kritik dan saran kepada penulis.
3. Bapak M. Anggia Muchtar ST.,MM.IT dan Bapak Dani Gunawan,ST.,M.T yang telah bersedia menjadi dosen pembanding yang telah memberikan kritik dan saran kepada penulis.
4. Ketua dan Sekretaris Program Studi Teknologi Informasi, Bapak M. Anggia Muchtar, ST.,MM.IT dan Bapak M. Fadly Syahputra, B.Sc.,M.Sc.IT.
5. Seluruh Dosen dan Staff pegawai di Program Studi S1 Teknologi Informasi 6.
Terima kasih juga penulis ucapkan kepada teman-teman: Fernando, Alex, Christop, Alman, Andi, Suando, Tony, Leo, Ranap, Juki, Salman, Icha, Amira, Fadullah, Fadli, Yanna, seluruh teman angkatan 09 Teknologi Informasi, seluruh abang kakak dan adik di jurusan Teknologi Informasi yang tidak dapat disebutkan satu per satu, Vanesa Felicia, Bruno, Karina, Mewati, J.sirait. Junnie hutabarat, dan Leonardi sitanggang, Akhir kata, penulis ucapkan terimakasih kepada semua pihak yang telah membantu menyelesaian skripsi ini yang tidak bisa penulis sebutkan satu persatu.
Semoga Tuhan Yang Maha Esa membalas kebaikan kalian semua.
ABSTRAK Novel memiliki beberapa genre antara lain genre romantis, horror, misteri, inspiratif dan masih banyak lagi. Namun pada saat ini pengklasifikasian novel kedalam genre-genre masih dilakukan secara manual. Oleh sebab itu dibutuhkan suatu sistem yang dapat mengklasifikasikan novel kedalam genrenya masing- masing secara otomatis. Hal ini dilakukan karena banyaknya genre dari novel tersebut, sehingga sistem ini nantinya dapat membantu pembaca, penerbit dan penulis yang hendak membuat dan membaca novel untuk mengetahui secara singkat genre novel yang sedang dibaca atau ditulisnya. Penelitian ini menggunakan text mining dan TF-IDF untuk proses pengklasifikasian novel. Text
mining dapat diartikan sebagai penemuan informasi yang baru yang sebelumnya
tidak diketahui oleh komputer dengan mengekstrak informasi secara otomatis dari sumber yang berbeda. Sedangkan data resource digunakan sebagai acuan dalam mengklasifikasi novel. Pada penelitian ini novel dibagi menjadi 4 kategori: horor,inspiratif,misteri dan romantis. Text yang dimasukan berupa judul, penulis, dan sinopsis. Sinopsis inilah yang akan diproses untuk menghasilkan klasifikasi genre novel. Proses pertama adalah proses persiapan dokumen dan seleksi dokumen. Kemudian dilanjutkan dengan proses pembobotan kata menggunakan
TF-IDF , kemudian klasifikasi dilakukan dengan membandingkan nilai kemiripan
diantara teks dan sebuah node yang ada di data resource. Teks yang diperoleh akan diklasifikasikan dalam sebuah genre atau node yang ada jika memiliki nilai kemiripan paling tinggi di salah satu node di data resource. Pengujian sistem dilakukan dengan mengambil 100 sinopsis novel online secara acak dan menghasilkan tingkat akurasi sebesar 75%. Kata kunci : Klasifikasi, Novel, Text Mining , TF-IDF
NOVEL CLASSIFICATION BASED ON GENRE USING TF-IDF
ABSTRACT Novel has many genres such as romantic, horror, mystery, inspirational, and many more. However, today the classification of novel into genre is done manually. Therefore, we need a novel classification system which can classify novels into their each genre automatically. A novel classification system is needed because novel has many genres, so this system will help the reader, the publisher, and the writer who writing and reading a novel to know shortly about the genre of novel that they read or write. This research is using text mining method with TF-
IDF method for classifying the novel. Text mining is a process to discover new
information which is not known by the computer before by extracting the information automatically from the different sources. Whereas, data resource is used a as reference for classifying novel. This research will divide novel into four categories : horror, inspirational, mystery, and romantic. The text which is entered into the program such as title, writer, and synopsis. The synopsis will be processed to classify the genre of novel. The first step is preparing the document and selecting the document. The next step is giving a weight into word using TF-IDF method, then comparing the similarity between text and a node in data resource to do the classification process. The text that has been obtained will be classified into a genre or an existing node if it has the highest similarity value in one node in data
resource . The system testing collects randomly 100 synopsis from electronic novel
and the result is 75% accuracy rate from the testing.Keywords: Classification, Novel, Text Mining, TF-IDF
DAFTAR ISI
Hal Persetujuan ii
Pernyataan iii
Ucapan Terima Kasih iv
Abstrak v
Abstract vi
Daftar Isi vii
Daftar Tabel x
Daftar Gambar xi
Bab 1 PENDAHULUAN
1
1.1 Latar Belakang
1
1.2 Rumusan Masalah
3
1.3 Batasan Masalah
3
1.4 Tujuan Penelitian
4
1.5 Manfaat Penelitian
4
1.6 Metodologi Penelitian
4
1.7 Sistematika Penulisan
5 Bab 2 LANDASAN TEORI
2.1 Text Mining
7
2.1.1
7 Tahapan Text mining
2.2 Algoritma Nazief & Adriani
9
2.3 Term Frequency-Inverse Document Frequency (TF-IDF) 12
2.4 Novel
39
35
3.3.2 Rancangan Tampilan Halaman Data Resource
36
3.3.3 Rancangan Tampilan Halaman About
36
3.3.4 Rancangan Tampilan Halaman Proses 37
Bab 4 IMPLEMENTASI DAN PENGUJIAN
4.1 Implementasi Sistem
39
4.1.1 Spesifikasi perangkat keras dan perangkat lunak
4.1.2 Tampilan Halaman Utama
35
40
4.1.3 Tampilan Halaman Data Resource
40
4.1.4 Tampilan Halaman About
41
4.1.5 Tampilan Halaman Proses
42
4.2 Hasil Pengujian Sistem
44 Bab 5 KESIMPULAN DAN SARAN
5.1 Kesimpulan
3.3.1 Rancangan Tampilan Halaman Utama
3.3 Perancangan Tampilan Antarmuka
13
19
2.5 Tesaurus Bahasa Indonesia 14
2.6 Penelitian Terdahulu
15 Bab 3 ANALISIS DAN PERANCANGAN
3.1 Analisis Data
17
3.1.1 Novel
17
3.1.2 Data Resource
18
3.2 Analisis Sistem
3.2.1 Data Set
30
20
3.2.2 Proses Persiapan dan seleksi dokumen
21
3.3.2.1 Tokenisasi
21
3.3.2.2 Pembuangan Stopword
23
3.3.2.3 Stemming
27
3.3.3 Pembobotan Kata dengan TF-IDF
52
5.2 Saran
54 DATAR PUSTAKA
55
DAFTAR TABEL
Hal
Tabel 2.1 Tabel kombinasi awalan akhiran yang tidak diijinkan10 Tabel 2.2 Tabel aturan peluruhan kata dasar
10 Tabel 2.3 Tabel Penelitian Terdahulu
16 Tabel 3.1 Tabel Data Resource
18 Tabel 3.2 Tabel Tokenisasi
22 Tabel 3.3 Stopword list
24 Tabel 3.4 Hasil Filtering Proses Stopword
26 Tabel 3.5 Tahapan Hasil Stemming
30 Tabel 3.6 Hasil Pembobotan Kata
31 Tabel 3.7 Hasil Pengklasifikasian Genre Novel
33 Tabel 4.1 Pengujian Sistem
44
DAFTAR GAMBAR
36 Gambar 3.9 Rancangan Tampilan Halaman Proses
42 Gambar 4.5 Tampilan halaman hasil proses
41 Gambar 4.4 Tampilan halaman proses
41 Gambar 4.3 Tampilan halaman about
40 Gambar 4.2 Tampilan Halaman Data Resource
38 Gambar 4.1 Tampilan halaman utama
38 Gambar 3.11 Rancangan Tampilan Halaman Detail Proses
37 Gambar 3.10 Rancangan Tampilan Halaman Hasil Proses
36 Gambar 3.8 Rancangan Tampilan Halaman About
Halaman
35 Gambar 3.7 Rancangan Tampilan Data Resource
27 Gambar 3.6 Rancangan Tampilan Halaman Utama
24 Gambar 3.5 Flowchart Proses Steeming
21 Gambar 3.4 Flowchart Proses Stopword
20 Gambar 3.3 Flowchart Proses Tokenisasi
20 Gambar 3.2 Input Sinopsis Novel
Gambar 3.1 Arsitektur Umum43 Gambar 4.6 Tampilan Halaman detail hasil proses 43