KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF SKRIPSI RUDYANTO BUDIMAN P 091402084

  KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF SKRIPSI RUDYANTO BUDIMAN P 091402084 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2015

  KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF

  SKRIPSI Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana

  Teknologi Informasi RUDYANTO BUDIMAN P

  091402084 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN

  2015

  

PERSETUJUAN

  Judul : KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF

  Kategori : SKRIPSI Nama : RUDYANTO BUDIMAN P Nomor Induk Mahasiswa : 091402084 Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Fakultas : ILMU KOMPUTER DAN TEKNOLOGI

  INFORMASI (FASILKOM-TI) UNIVERSITAS SUMATERA UTARA Diluluskan di Medan, Juni 2015

  Komisi Pembimbing : Pembimbing 2 Pembimbing 1 Baihaqi Siregar, S.Si.,M.T Mohammad Fadly Syahputra, B.Sc, M.Sc.IT NIP. 197902082010121002 NIP. 198301292009121003 Diketahui / Disetujui oleh Program Studi S1 Teknologi Informasi Ketua, Muhammad Anggia Muchtar, S.T., M.M.I.T.

  NIP. 198001102008011010

  

PERNYATAAN

  KLASIFIKASI NOVEL SESUAI DENGAN GENRE MENGGUNAKAN TF-IDF SKRIPSI

  Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

  Medan, Juni 2015 RUDYANTO BUDIMAN P 091402084

UCAPAN TERIMA KASIH

  Segala puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus atas segala berkat dan pengasihanNya yang sungguh berlimpah, sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Teknologi Informasi Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.

  Penyelesaian skripsi ini tidak terlepas dari bantuan dari berbagai pihak, untuk itu, penulis ingin mengucapkan terima kasih yang sebesar-besarnya kepada:

  1. Kedua orangtua penulis yang telah memberikan dukungan moril dan spiritual, alm Ir.Nelson Eddy Siahaan.(+) dan almh Dra.Bonur Rulyanna Sitorus.(+) yang terlebih dahulu meninggalkan dunia saat masa akhir perkuliahan penulis, kedua adik saya Stephany Novianty Siahaan SE, dan Silvia Pratiwi Yunisari Siahaan yang terus memberikan motivasi dan dukungan.

  2. Bapak M.Fadly Syahputra B.Sc.,M.Sc.,IT dan Bapak Baihaqi Siregar,S.Si.,MT selaku pembimbing yang telah banyak meluangkan waktu dan pikirannya, memotivasi dan memberikan kritik dan saran kepada penulis.

  3. Bapak M. Anggia Muchtar ST.,MM.IT dan Bapak Dani Gunawan,ST.,M.T yang telah bersedia menjadi dosen pembanding yang telah memberikan kritik dan saran kepada penulis.

  4. Ketua dan Sekretaris Program Studi Teknologi Informasi, Bapak M. Anggia Muchtar, ST.,MM.IT dan Bapak M. Fadly Syahputra, B.Sc.,M.Sc.IT.

  5. Seluruh Dosen dan Staff pegawai di Program Studi S1 Teknologi Informasi 6.

  Terima kasih juga penulis ucapkan kepada teman-teman: Fernando, Alex, Christop, Alman, Andi, Suando, Tony, Leo, Ranap, Juki, Salman, Icha, Amira, Fadullah, Fadli, Yanna, seluruh teman angkatan 09 Teknologi Informasi, seluruh abang kakak dan adik di jurusan Teknologi Informasi yang tidak dapat disebutkan satu per satu, Vanesa Felicia, Bruno, Karina, Mewati, J.sirait. Junnie hutabarat, dan Leonardi sitanggang, Akhir kata, penulis ucapkan terimakasih kepada semua pihak yang telah membantu menyelesaian skripsi ini yang tidak bisa penulis sebutkan satu persatu.

  Semoga Tuhan Yang Maha Esa membalas kebaikan kalian semua.

  ABSTRAK Novel memiliki beberapa genre antara lain genre romantis, horror, misteri, inspiratif dan masih banyak lagi. Namun pada saat ini pengklasifikasian novel kedalam genre-genre masih dilakukan secara manual. Oleh sebab itu dibutuhkan suatu sistem yang dapat mengklasifikasikan novel kedalam genrenya masing- masing secara otomatis. Hal ini dilakukan karena banyaknya genre dari novel tersebut, sehingga sistem ini nantinya dapat membantu pembaca, penerbit dan penulis yang hendak membuat dan membaca novel untuk mengetahui secara singkat genre novel yang sedang dibaca atau ditulisnya. Penelitian ini menggunakan text mining dan TF-IDF untuk proses pengklasifikasian novel. Text

  

mining dapat diartikan sebagai penemuan informasi yang baru yang sebelumnya

  tidak diketahui oleh komputer dengan mengekstrak informasi secara otomatis dari sumber yang berbeda. Sedangkan data resource digunakan sebagai acuan dalam mengklasifikasi novel. Pada penelitian ini novel dibagi menjadi 4 kategori: horor,inspiratif,misteri dan romantis. Text yang dimasukan berupa judul, penulis, dan sinopsis. Sinopsis inilah yang akan diproses untuk menghasilkan klasifikasi genre novel. Proses pertama adalah proses persiapan dokumen dan seleksi dokumen. Kemudian dilanjutkan dengan proses pembobotan kata menggunakan

  

TF-IDF , kemudian klasifikasi dilakukan dengan membandingkan nilai kemiripan

  diantara teks dan sebuah node yang ada di data resource. Teks yang diperoleh akan diklasifikasikan dalam sebuah genre atau node yang ada jika memiliki nilai kemiripan paling tinggi di salah satu node di data resource. Pengujian sistem dilakukan dengan mengambil 100 sinopsis novel online secara acak dan menghasilkan tingkat akurasi sebesar 75%. Kata kunci : Klasifikasi, Novel, Text Mining , TF-IDF

NOVEL CLASSIFICATION BASED ON GENRE USING TF-IDF

  ABSTRACT Novel has many genres such as romantic, horror, mystery, inspirational, and many more. However, today the classification of novel into genre is done manually. Therefore, we need a novel classification system which can classify novels into their each genre automatically. A novel classification system is needed because novel has many genres, so this system will help the reader, the publisher, and the writer who writing and reading a novel to know shortly about the genre of novel that they read or write. This research is using text mining method with TF-

  

IDF method for classifying the novel. Text mining is a process to discover new

  information which is not known by the computer before by extracting the information automatically from the different sources. Whereas, data resource is used a as reference for classifying novel. This research will divide novel into four categories : horror, inspirational, mystery, and romantic. The text which is entered into the program such as title, writer, and synopsis. The synopsis will be processed to classify the genre of novel. The first step is preparing the document and selecting the document. The next step is giving a weight into word using TF-IDF method, then comparing the similarity between text and a node in data resource to do the classification process. The text that has been obtained will be classified into a genre or an existing node if it has the highest similarity value in one node in data

  

resource . The system testing collects randomly 100 synopsis from electronic novel

and the result is 75% accuracy rate from the testing.

  Keywords: Classification, Novel, Text Mining, TF-IDF

DAFTAR ISI

  Hal Persetujuan ii

  Pernyataan iii

  Ucapan Terima Kasih iv

  Abstrak v

  Abstract vi

  Daftar Isi vii

  Daftar Tabel x

  Daftar Gambar xi

  Bab 1 PENDAHULUAN

  1

  1.1 Latar Belakang

  1

  1.2 Rumusan Masalah

  3

  1.3 Batasan Masalah

  3

  1.4 Tujuan Penelitian

  4

  1.5 Manfaat Penelitian

  4

  1.6 Metodologi Penelitian

  4

  1.7 Sistematika Penulisan

  5 Bab 2 LANDASAN TEORI

  2.1 Text Mining

  7

  2.1.1

  7 Tahapan Text mining

  2.2 Algoritma Nazief & Adriani

  9

2.3 Term Frequency-Inverse Document Frequency (TF-IDF) 12

  2.4 Novel

  39

  35

  3.3.2 Rancangan Tampilan Halaman Data Resource

  36

  3.3.3 Rancangan Tampilan Halaman About

  36

  3.3.4 Rancangan Tampilan Halaman Proses 37

  Bab 4 IMPLEMENTASI DAN PENGUJIAN

  4.1 Implementasi Sistem

  39

  4.1.1 Spesifikasi perangkat keras dan perangkat lunak

  4.1.2 Tampilan Halaman Utama

  35

  40

  4.1.3 Tampilan Halaman Data Resource

  40

  4.1.4 Tampilan Halaman About

  41

  4.1.5 Tampilan Halaman Proses

  42

  4.2 Hasil Pengujian Sistem

  44 Bab 5 KESIMPULAN DAN SARAN

  5.1 Kesimpulan

  3.3.1 Rancangan Tampilan Halaman Utama

  3.3 Perancangan Tampilan Antarmuka

  13

  19

  2.5 Tesaurus Bahasa Indonesia 14

  2.6 Penelitian Terdahulu

  15 Bab 3 ANALISIS DAN PERANCANGAN

  3.1 Analisis Data

  17

  3.1.1 Novel

  17

  3.1.2 Data Resource

  18

  3.2 Analisis Sistem

  3.2.1 Data Set

  30

  20

  3.2.2 Proses Persiapan dan seleksi dokumen

  21

  3.3.2.1 Tokenisasi

  21

  3.3.2.2 Pembuangan Stopword

  23

  3.3.2.3 Stemming

  27

  3.3.3 Pembobotan Kata dengan TF-IDF

  52

  5.2 Saran

  54 DATAR PUSTAKA

  55

  

DAFTAR TABEL

  Hal

Tabel 2.1 Tabel kombinasi awalan akhiran yang tidak diijinkan

  10 Tabel 2.2 Tabel aturan peluruhan kata dasar

  10 Tabel 2.3 Tabel Penelitian Terdahulu

  16 Tabel 3.1 Tabel Data Resource

  18 Tabel 3.2 Tabel Tokenisasi

  22 Tabel 3.3 Stopword list

  24 Tabel 3.4 Hasil Filtering Proses Stopword

  26 Tabel 3.5 Tahapan Hasil Stemming

  30 Tabel 3.6 Hasil Pembobotan Kata

  31 Tabel 3.7 Hasil Pengklasifikasian Genre Novel

  33 Tabel 4.1 Pengujian Sistem

  44

  

DAFTAR GAMBAR

  36 Gambar 3.9 Rancangan Tampilan Halaman Proses

  42 Gambar 4.5 Tampilan halaman hasil proses

  41 Gambar 4.4 Tampilan halaman proses

  41 Gambar 4.3 Tampilan halaman about

  40 Gambar 4.2 Tampilan Halaman Data Resource

  38 Gambar 4.1 Tampilan halaman utama

  38 Gambar 3.11 Rancangan Tampilan Halaman Detail Proses

  37 Gambar 3.10 Rancangan Tampilan Halaman Hasil Proses

  36 Gambar 3.8 Rancangan Tampilan Halaman About

  Halaman

  35 Gambar 3.7 Rancangan Tampilan Data Resource

  27 Gambar 3.6 Rancangan Tampilan Halaman Utama

  24 Gambar 3.5 Flowchart Proses Steeming

  21 Gambar 3.4 Flowchart Proses Stopword

  20 Gambar 3.3 Flowchart Proses Tokenisasi

  20 Gambar 3.2 Input Sinopsis Novel

Gambar 3.1 Arsitektur Umum

  43 Gambar 4.6 Tampilan Halaman detail hasil proses 43