2.1 Text mining - Klasifikasi Novel Sesuai dengan Genre Menggunakan TF-IDF

BAB 2 LANDASAN TEORI Bab ini akan membahas landasan teori, penelitian terdahulu, kerangka pikir, dan

  hipotesis yang mendasari penyelesaian permasalahan dalam pengklasifikasian novel menggunakan TF-IDF.

2.1 Text mining

  

Text mining dapat diartikan sebagai penemuan informasi yang baru yang sebelumnya

  tidak diketahui oleh komputer dengan mengekstrak informasi secara otomatis dari sumber yang berbeda. Kunci dari proses ini adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber (Hearst, 2003). Sedangkan menurut (Harlian, 2006) text mining didefinisikan sebagai data yang berupa teks yang biasanya sumber data didapatkan dari dokumen, dengan tujuan adalah mencari kata-kata yang dapat mewakili isi dari dokumen tersebut yang nantinya dapat dilakukan analisa hubungan antar dokumen.

2.1.1 Tahapan Text mining

  Tahapan text mining secara umum dibagi menjadi beberapa tahapan umum (Triawati, 2009).

1. Text Preprocessing

  Text Preprocessing

  merupakan tahapan awal dari text mining yang bertujuan mempersiapakan teks menjadi data yang akan mengalami pengolahan pada tahap selanjutnya. Pada text mining, data mentah yang berisi informasi memiliki struktur yang sembarang, sehingga diperlukan proses pengubahan bentuk menjadi data yang terstruktur sesuai kebutuhan, yaitu biasanya akan mejadi nilai-nilai numerik. Proses ini disebut Text Preprocessing (Triawati, 2009).

  Pada tahap ini, tindakan yang dilakukan adalah toLowerCase, dengan mengubah semua karakter huruf menjadi huruf kecil, dan tokenizing yaitu proses penguraian deskripsi yang semula berupa kalimat mejadi kata-kata kemudian menghilangkan delimiter-delimiter seperti tanda koma (,), tanda titik (.), spasi, dan karakter angka yang terdapat pada kata tersebut.(Weiss et al, 2005).

2. Seleksi fitur (Feature Selection)

  Pada tahap ini akan dilakukan seleksi dengan mengurangi jumlah kata-kata yang dianggap tidak penting dalam dokumen tersebut untuk menghasilkan proses pengklasifikasian yang lebih efektif dan akurat (Do et al, 2006., Feldman & Sanger,2007., Berry et al ,2007). Tahapan ini adalah dengan melakukan penghilangan

  

stopword dan juga mengubah kata-kata kedalam bentuk dasar terhadap kata yang

  berimbuhan (Berry et al, 2010), (Feldman et al, 2007)

  Stopword

  merupakan kosakata yang bukan merupakan ciri atau kata unik dari suatu dokumen seperti kata sambung (Dragut et al, 2009). Yang termasuk stopword yaitu “ di”, “pada”, ”sebuah”, ”karena”, ”oleh” dan sebagainya. Sebelum memasuki tahapan penghilang stopword, daftar stopword harus dibuat terlebih dahulu. Jika kata- kata yang termasuk stopword masuk dalam stoplist, maka kata tersebut akan dihapus dari deskripsi sehingga sisanya dianggap sebagai kata-kata yang mencirikan isi dokumen atau keywords. Setelah melalui tahap penghilangan stopword, tahap selanjutnya adalah stemming. Stemming adalah proses pemetaan dan penguraian berbagai bentuk dari suatu kata menjadi kata dasarnya (Tala, 2003). Tujuan dilakukannya proses stemming adalah menghilangkan imbuhan-imbuhan berupa prefix, suffix, maupun konfiks yang terdapat pada setiap kata. Apabila imbuhan tadi tidak dihilangkan maka setiap kata akan disimpan didalam database, sehingga nantinya akan menjadi beban di dalam database. Bahasa Indonesia memiliki aturan morfologi maka proses stemming harus berdasarkan aturan morfologi bahasa Indonesia. Proses stemming biasanya menggunakan algoritma. Algoritma stemming telah dikembangkan untuk beberapa bahasa, seperti Algoritma Porter untuk teks bahasa Inggris, Algoritma Porter untuk teks bahasa Indonesia, dan Algoritma Nazief dan Adriani untuk teks bahasa Indonesia (Nazief & Adriani, 1996). Algoritma Nazief & Adriani memiliki keakuratan yang lebih besar dibandingkan Algoritma Porter untuk stemming dalam bahasa Indonesia (Agusta, 2009).

2.2 Algoritma Nazief & Adriani

  Algoritma Nazief & Adriani adalah salah satu algoritma untuk stemming bahasa Indonesia. Adapun tahapan yang dimiliki dalam algoritma ini adalah (Nazief & Adriani,1996): 1.

  Cari kata yang akan di stemming didalam kamus. Jika ditemukan maka diasumsikan kata tersebut adalah root word maka algoritma berhenti.

2. Infection suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika

  berupa partikel (“-lah”, “-kah”, “-tah”, atau “-pun”) maka langkah ini diulangi untuk menghapus Passive Pronouns (“-ku”, “-mu”, atau “-nya”), jika ada 3.

   Hapus derivation suffixes (“-i”, “-an”, atau “-kan”). Jika kata ditemukan

  dikamus, maka algoritma berhenti. Jika tidak, maka dilanjutkan ke langkah 3a a.

  Jika “-an” telah dihapus dalam huruf terakhir dari kata tersebut ditemukan dalam kamus, maka algoritma berhenti. Jika tidak, akan dilanjutkan ke langkah 3b.

  b.

  Akhiran yang dihapus (“-i”, “-an”, atau “-kan”) dikembalikan ke tahap 4. Hapus derivation prefix. 9”di-“ ,”ke-“, “se-“, “te-“, “be-“, dan “me-“) jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.

  a.

  Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan seperti pada tabel 2.1. jika ditemukan, maka algoritma berhenti, jika tidak pergi ke langkah 4b.

  b.

  For I=1 to 3, tentukan tipe awalan kemudian hapus awalan dan lakukan perubahan pada kata dasar sesuai tabel peluruhan 2.2 jika root

  word belum juga ditemukan lakukan langkah 5, jika sudah maka

  algoritma berhenti. Jika awalan kedua sama dengan awalan pertama maka algoritma berhenti.

  5. Melakukan recoding.

  6. Jika semua langkah selesai tetapi masih tidak berhasil, maka kata awal diasumsikan sebagai root word. Proses selesai.

Tabel 2.1 Tabel kombinasi awalan akhiran yang tidak diijinkan (Adriani et al,

  2007) Awalan Akhiran yang tidak diijinkan be- -i di- -an ke- -i, -kan me- -an se- -i, -kan

Tabel 2.2 Tabel aturan peluruhan kata dasar (Adriani et al, 2007)

  Aturan Awalan Peluruhan 1 berV... ber-V..| be-rV..

  2 belajar bel-ajar 3 berClerC2 Be-ClerC2.. dimana C1!= {'r'|'l'} 4 terV... ter-V... | te-rV... 5 terCer... ter-

  Cer... dimana C!==’r’ 6 teClerC2 te- CleC2... dimana C1!=’r’ 7 me{I|r|w|y}V... me-{I|r|w|y}V... 8 mem{b|f|v}... mem-{b|f|v}...

  9 Mempe... m-pe... 10 mem{r|V|V}... me-m{rV|V}...|me-p{rV|V}...

  11 men{c|d|j|z} men-{c|d|j|z}... 12 menV... me-nV...|me-tV... 13 meng{g|h|q|k}... meng-{g|h|q|k}... 14 mengV... meng-V...|meng-kV... 15 mengeC Meng-C 16 menyV... me-ny...| men-sV...

  17 memV... mem-pV... 18 pe{w|y}V... pe-{w|y}V... 19 perV... per-V...|pe-rV... 20 pem{b|f|v}... pem-{b|f|v}... 21 pem{rV|V}... pe-m{rV|V}...|pe-p{rV|V} 22 pen{c|d|j|z}... pen-{c|d|j|z}...

  23 penV... pe-nV... | pe-tV...

  24 Peng{g|h|q} peng-{g|h|q} 25 pengV peng-V |peng-kV 26 penyV pe-nya|peny-sV 27 pelV pe-

  IV...; kecuali untuk kata “pelajar”

  28 PeCP pe-CP...dimana C!={r|w|y|I|m|n} dan P!=’er’ 29 perCerV per-CerV... dimana C!={r|w|y|I|m|n}

  Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan- aturan dibawah ini:

  1. Aturan untuk reduplikasi.

  a.

  Jika kedua kata yang dihubungkan penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh :” buku-buku” root wood- nya adalah “buku” b. Kata lain misalnya “bolak-balik”, “berbalas-balasan”, dan “seolah-olah”.

  Untuk mendapatkan root word nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word nya yang sama maka diubah menjadi

  bentuk tunggal, contoh : kata “ berbalas-balasan”, “berbalas” dan “balasan” memiliki root word yang sama yaitu “balas”, maka root wood “berbalas- balasan” adalah “balas”. Sebaliknya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word yang berbeda, maka root word-nya adalah “bolak-balik”.

2. Tambahan bentuk awalan dan akhiran serta aturannya.

  a.

  Tipe awalan “mem-“, kata yang diawali dengan awalan “ memp-“ memiliki tipe awalan “mem-“.

  b.

  Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-“ memiliki tipe awalan “meng-“..

2.3 Term Frequency-Inverse Document Frequency (TF-IDF)

  

TF-IDF (Term Frequency-Inverse Document Frequency) merupakan metode statistic

numeric yang mencerminkan seberapa pentingnya sebuah kata dalam sebuah

  dokumen atau korpus (Rajaraman et al, 2011). Hal ini sering digunakan sebagai faktor bobot dalam pencarian informasi dan penambangan teks (text mining). Nilai TF-IDF meningkat secara proporsional berdasarkan jumlah atau banyaknya kata yang muncul pada dokumen, tetapi diimbangi dengan frekuensi kata dalam korpus. Variasi dari skema pembobotanTF-IDFsering digunakan oleh mesin pencari sebagai alat utama dalam mencetak nilai (scoring) dan peringkat (ranking) sebuah relevansi dokumen yang diberikan user.

  Term Frequency-Inverse document frequency (TF-IDF) adalah suatu metode

  pembobotan kata dengan menghitung nilai TF dan juga menghitung kemunculan sebuah kata pada dokumen teks. Pada pembobotan ini, jika kemunculan term pada sebuah dokumen teks tinggi dan kemunculan term tersebut pada dokumen teks yang lain rendah, maka bobotnya akan semakin besar. Sedangkan jika kemunculan term pada dokumen teks lain tinggi, maka bobotnya akan semakin kecil. Tujuan penghitungan

  IDF adalah untuk mencari kata-kata yang benar-benar merepresentasikan dokumen teks pada suatu koleksi. Metode ini merupakan metode paling baik dalam perolehan informasi (Khodra et al, 2005). Adapun rumus dari TF- IDF dapat di lihat pada persamaan berikut (Salton, 1983).

  (1)

  

  Dengan tf(i,j) adalah frekuensi kemunculan term j pada dokumen teks d i D*, dimana i = 1,2,3,.....,N, df(j) adalah frekuensi dokumen yang mengandung term j dari semua koleksi dokumen, dan N adalah jumlah seluruh dokumen yang ada di koleksi dokumen. Berdasarkan rumus diatas berapapun besarnya nilai tf(i,j), apabila N= df(j) maka akan didapatkan hasil 0 (nol) untuk perhitungan idf. Untuk itu dapat ditambahkan nilai 1 pada sisi idf, sehingga perhitungan untuk pembobotan dapat dilihat pada rumus persamaan 2.

  • 1) (2)

2.4 Novel

  Dari sekian banyak bentuk karya sastra yang ada saat ini seperti esai, novel, cerpen dan lain-lain. Novel merupakan karya sastra yang paling populer, novel selalu memiliki penggemar, baik itu remaja hingga dewasa, Menurut Kamus Besar Bahasa Indonesia (KBBI), novel adalah karangan prosa yang panjang, mengandung rangkaian cerita kehidupan seseorang dengan orang di sekelilingnya dengan menonjolkan watak dan sifat setiap pelaku. Orang yang menulis novel adalah novelis. Novel memiliki beberapa ciri yang paling utama, yaitu :

  1. Memiliki alur/plot yang kompleks. Berbagai peristiwa dalam novel ditampilkan saling berkaitan sehingga novel dapat bercerita panjang lebar, membahas persoalan secara luas, dan lebih mendalam.

2. Tema dalam novel tidak hanya satu, tetapi muncul tema-tema sampingan.

  Oleh karena itu, pengarang novel dapat membahas hampir semua segi persoalan. Genre merupakan cara penerbit, pembaca, atau penulis, membagi karya seni berdasarkan kategori tertentu yang telah disepakati. Penerbit membutuhkan genre agar mereka mudah menentukan pangsa pasar, serta bagaimana memasarkan sebuah buku. Setiap genre mempunyai kategori masing-masing, serta formulanya yang berbeda satu sama lain. Novel dibagi kedalam beberapa genre dintaranya (Forbes, Jamie M, 1998) : a.

  Horror adalah novel yang satu ini berisi cerita yang menegangkan, seram, dan membuat pembaca berdebar-debar, pada umumnya bercerita tentang hal-hal yang mistis atau seputar dunia gaib.

  b.

  Inspiratif adalah adalah novel yang ceritanya mampu menginspirasi banyak orang. Pada umumnya novel ini mempunyai pesan moral atau hikmah tertentu yang dapat diambil oleh si pembaca novel. Sehingga pembaca akan termotivasi atau mempunyai dorongan untuk melakukan hal yang lebih baik.

  c.

  Misteri adalah sebuah novel yang memiliki cerita lebih rumit karena akan menimbulkan rasa penasaran oleh si pembaca hingga akhir cerita.

  d.

  Romantis adalah novel yang berceritakan seputar percintaan dan kasih sayang dari awal cerita hingga akhir cerita.

2.5 Tesaurus Bahasa Indonesia Kata tesaurus berasal dari bahasa Yunani, thesauros yang bermakna ‘khazanah’.

  Tesaurus mengalami perkembangan makna yakni ‘buku yang dijadikan sumber informasi’. Di dalam buku “Tesaurus Bahasa Indonesia Pusat Bahasa”, tesaurus berisi seperangkat kata yang saling berhubungan maknanya. Pada dasarnya tesaurus merupakan sarana yang digunakan untuk mengalihkan gagasan ke dalam sebuah kata atau sebaliknya. Oleh sebab itu, tesaurus disusun berdasarkan gagasan atau tema. Namun, untuk memudahkan pengguna dalam pencarian kata, tesaurus pun berkembang, dan kini banyak tesaurus yang dikemas berdasarkan abjad.

  Tesaurus berbeda dengan kamus, jika pada kamus informasi yang didapat adalah tentang makna kata, sedangkan pada tesaurus sendiri dapat dicari kata yang akan digunakan untuk mengungkapkan gagasan pengguna. Dengan demikian tesaurus dapat membantu penggunanya dalam mengekspresikan atau mengungkapkan gagasan sesuai dengan apa yang dimaksud. Sebagai contoh, pencarian kata lain untuk kata “hewan”, pengguna tesaurus dapat mencari pada lema hewan.

  Hewan n binatang, dabat,fauna,sato,satwa Kata diatas tersebut merupakan sederetan kata yang terdapat pada kata hewan, sehingga dapat dilihat sederetan kata tesebut menunjukkan bahwa kata tersebut bersinonim sehingga dapat saling menggantikan sesuai dengan konteksnya. Tesaurus ini berguna juga dalam pengajaran bahasa. Di dalam buku tesaurus bahasa indonesia pusat bahasa ini, hiponim dicantumkan pula karena didalam tesaurus biasanya memuat makna yang saling bertalian atau berhubungan. Sehingga, pengguna dapat dengan mudah memperoleh kata yang tepat sesuai dengan yang dikehendaki sehingga pengguna dapat memanfaatkan kata itu untuk keperluan pragmatis.

2.6 Penelitian Terdahulu

  Dalam melakukan penelitian, penulis membutuhkan beberapa bahan penelitian yang sudah pernah dilakukan peneliti-peneliti lainnya mengenai masalah teknik pengklasifikasian dan metode Ontologi.

  (Februariyanti, 2012) berhasil mengimplementasikan metode ontologi dan hasil eksperimen didapat struktur direktory dan struktur halaman web sesuai dengan struktur ontology.

  ( Kurniawan, 2012) berhasil melakukan proses klasifikasi data berita secara

  otomatis dan proses klasifikasi semakin akurat jika data latih yang digunakan dalam pembelajaran berjumlah banyak. Untuk penelitian yang dilakukan oleh peneliti sebelumnya, dapat dilihat pada Tabel 2.3.

Tabel 2.3. Tabel Penelitian Terdahulu

  No Peneliti Tahun Judul penelitian Keterangan

  1 Herny 2012 Klasifikasi dokumen - klasifikasi menggunakan TF- Februariyanti berita teks bahasa

  IDF dengan menghitung nilai

  Indonesia similaritas dengan file yang menggunakan ada pada file ontologi Ontologi

  • hasil dari pengklasifikasian disimpan di directory local dengan mengikuti struktur ontology.

  2 Bambang 2012 Klasifikasi Konten - Klasifikasi data berita secara Berita Dengan

  Kurniawan otomatis dan proses klasifikasi Metode Text Mining semakin akurat jika data latih yang digunakan dalam pembelajaran berjumlah banyak.

Dokumen yang terkait

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah - Analisis Partikel Pemarkah Emotif Bahasa Jepang ; Satu Kajian Pragmatik

0 0 9

BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Teoritis 2.1.1 Pasar Modal - Analisis Perbedaan Return Saham , Trading Volume Activity Dan Variance Sebelum dan Sesudah Stock Split (Studi Kasus Pada Perusahaan yang Terdaftar di Bursa Efek Indonesia Periode 2011-2013)

0 0 24

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah - Analisis Perbedaan Return Saham , Trading Volume Activity Dan Variance Sebelum dan Sesudah Stock Split (Studi Kasus Pada Perusahaan yang Terdaftar di Bursa Efek Indonesia Periode 2011-2013)

0 1 10

I. Identitas Responden - Pengaruh Gaya Hidup, Harga, Dan Kelompok Referensi Terhadap Keputusan Pembelian Samsung Smartphone Pada Mahasiswa/I Fakultas Ekonomi Universitas Sumatera Utara

0 0 25

BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Perilaku konsumen - Pengaruh Gaya Hidup, Harga, Dan Kelompok Referensi Terhadap Keputusan Pembelian Samsung Smartphone Pada Mahasiswa/I Fakultas Ekonomi Universitas Sumatera Utara

0 0 19

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah - Pengaruh Gaya Hidup, Harga, Dan Kelompok Referensi Terhadap Keputusan Pembelian Samsung Smartphone Pada Mahasiswa/I Fakultas Ekonomi Universitas Sumatera Utara

0 0 8

BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori - Pengaruh Struktur Good Corporate Governance dan Ukuran Perusahaan terhadap Kinerja Keuangan Perusahaan Manufaktur yang terdaftar di BEI

0 0 25

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah - Pengaruh Struktur Good Corporate Governance dan Ukuran Perusahaan terhadap Kinerja Keuangan Perusahaan Manufaktur yang terdaftar di BEI

0 0 10

BAB II PELAKSANAAN PENGANGKATAN ANAK PADA MASYARAKAT ETNIS TIONGHOA SUKU HAINAN DI KOTA MEDAN A. Dasar Hukum Pengangkatan Anak - Kedudukan Anak Angkat Perempuan Terhadap Harta Warisan Di Kalangan Etnis Tionghoa Suku Hainan Di Kota Medan

0 0 49

BAB I PENDAHULUAN A. Latar Belakang Masalah - Kedudukan Anak Angkat Perempuan Terhadap Harta Warisan Di Kalangan Etnis Tionghoa Suku Hainan Di Kota Medan

0 0 31