Prediksi Rating Otomatis pada Ulasan Produk Kecantikan dengan Metode Naïve Bayes dan N-gram

  

Vol. 2, No. 11, November 2018, hlm. 4421-4427 http://j-ptiik.ub.ac.id

Prediksi Rating Otomatis pada Ulasan Produk Kecantikan dengan Metode

  

Naïve Bayes dan N-gram

1 2 3 Irma Pujadayanti , Moch. Ali Fauzi , Yuita Arum Sari

  Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya 1 3 Email: 135150201111243@ub.ac.id.id, yuita@ub.ac.id

  

Abstrak

  Maraknya produk kecantikan bermunculan juga menggempur Indonesia khususnya produk impor. Hal ini memicu persaingan yang ketat antar pelaku industri produk kecantikan lokal maupun luar negeri. Oleh karena itu, perlu adanya inovasi pada produk mereka. Banyaknya data ulasan dalam berbagai sumber online berguna sebagai bahan kajian bagi pihak produsen untuk melakukan inovasi pada produk mereka. Bagi Konsumen data tersebut berguna sebagai informasi sebelum membeli produk. Data ulasan tak jarang juga belum disertai dengan rating sehingga membuat produsen mengalami kesulitan dalam mengkategorikan ulasan kedalam sentiment tertentu. Pada penelitian ini membantu mempercepat pengkategorian ulasan kedalam sentiment yang berbentuk rating. Sistem yang dibangun pada penelitian ini menggunakan metode klasifikasi naïve bayes dan penambahan metode n-gram pada pre-processing. Penggunaan n-gram meliputi unigram, bigram dan kombinasi unigram dan bigram bertujuan meningkatkan hasil klasifikasi. Pada pengujian sistem hasil terbaik pada skenario full pre-processing pada semua n-gram. Akurasi unigram 50%, 93%, 93% sedangkan akurasi bigram adalah 39%, 87%, 83% dan akurasi tertinggi adalah kombinasi 49%, 97%, 96% dengan model pengujian toleransi 0, toleransi 1 dan sentiment ulasan. Hasil pengujian menunjukkan penggunaan kombinasi n-gram cukup efektif dalam menyelesaikan masalah dalam penelitian.

  Kata kunci: prediksi rating, ulasan, naïve bayes, n-gram

Abstract

  

The rise of beauty products also pound Indonesia especially imported products. This has triggered

intense competition between local and foreign beauty products industry players. Therefore, the need for

innovation in their products. The large number of review data in various online sources is useful as a

review material for producers to innovate their products. For Consumer the data is useful as information

before buying the product. The review data is often also has not been accompanied by a rating that

makes manufacturers have difficulty in categorizing into a certain sentiment. In this study helps to

accelerate the categorization of reviews into sentiment in the form of rating. The system built on this

research uses the naïve bayes classification method and the addition of n-gram method to pre-

processing. The use of n-grams including unigram, bigram and combination of unigram and bigram

aims to improve the classification results. On testing the best result system in full pre-processing

scenario on all n-grams. Accuracy of 50%, 93%, 93% unigram while the accuracy of bigram is 39%,

87%, 83% and the highest accuracy is a combination of 49%, 97%, 96% with tolerance 0, tolerance 1

and sentiment reviews. The results showed that the use of n-grams was enough effective in solving the

problems in the study.

  Keywords: rating prediction, review, naïve bayes, n-gram

  Pada era teknologi sekarang ini segala informasi 1. mudah untuk didapatkan termasuk kemudahan

   PENDAHULUAN

  untuk mendapatkan informasi produk Produk kecantikan saat ini begitu populer di kecantikan agar tidak salah dalam pembelian kalangan wanita pada segala usia, mulai dari produk akibatnya berefek negatif pada kulit. perawatan kulit, perawatan rambut, maupun

  Melimpahnya informasi produk kecantikan tidak make-up untuk tampil lebih segar setiap harinya.

  Fakultas Ilmu Komputer Universitas Brawijaya

4421 lepas dari jasa mereka yang membagi pengalamannya setelah memakai produk kecantikan melalui media sosial, blog pribadi mereka atau website yang secara khusus terdapat fitur untuk mengulas produk-produk kecantikan.

  Femaledaily.com merupakan salah satu

  klasifikasi dokumen ke dalam sentiment positif atau negatif. Kesalahan klasifikasi sentiment pada penelitian ini disebabkan fitur term tunggal. Kata-kata yang mencerminkan polaritas positif atau negatif tidak selalu kata tunggal. Fitur term tunggal yang termasuk kedalam kelas positif tidak sepenuhnya positif begitu pula dengan

  2.1 DATA

  2. METODE PENELITIAN

  Penggunaan n-gram pada penelitian ini bukan hanya untuk menangkap kata negasi tetapi juga kata adverbia yang terkandung pada dokumen ulasan. Pada penelitian ini, sistem akan memberikan prediksi rating secara otomatis pada ulasan konsumen sehingga diharapkan bisa membatu menemukan kelemahan produk dengan waktu yang singkat dari sudut pandang konsumen sebagai bahan untuk meningkatkan kualitas produk.

  Otomatis pada Ulasan Produk Kecantikan dengan Metode Naïve Bayes dan N-gram.

  Berdasarkan uraian penjelasan di atas, mendorong peneliti untuk mengusulkan sebuah penelitian yang berjudul Prediksi Rating

  bigram pada n-gram (Thiel, 2016).

  kata negasi. Selain itu, pada contoh kata “bagus” termasuk sentiment positif menjadi kata “tidak bagus” yang masuk kelas sentiment negatif apabila berdampingan dengan kata negasi. Oleh sebab itu, penerapan n-gram diharapkan mampu menangani permasalahan tersebut. Terbukti dengan penerapan n-gram pada penelitian ini akurasi yang didapatkan untuk fitur kata tunggal 70% meningkat menjadi 84% setelah menerapkan penggabungan fitur unigram dan

  sentiment positif apabila berdampingan dengan

  negatif. Misalnya kata “buruk” merupakan kata yang termasuk sentiment negatif akan tetapi bisa menjadi kata “tidak buruk” dan masuk ke dalam

  term tunggal kelas negatif tidak sepenuhnya

  sentiment analysis with n-gram menggunakan n- gram untuk menyelesaikan permasalahan

  website khusus wanita yang terkenal di

  Pada penelitian Thiel yang berjudul

  processing . Hasil klasifikasi terbaik diperoleh oleh metode NBC (Hidayatullah, 2016).

  hasil akurasi tertinggi adalah metode NBC (Jong, 2011). Naïve bayes merupakan metode sederhana, cepat dan memiliki akurasi tinggi ketika diterapkan. Penelitian selanjutnya yang membahas tentang penerapan text mining dalam klasfikasi judul skripsi membandingkan metode klasifikasi NBC dengan SVM dan menerapkan fitur n-gram yang dilakukan setelah pre-

  vector machines, dan learning word vectors,

  Pada penelitian sebelumnya yang membahas prediksi rating pada ulasan restoran dekat kampus dengan membandingkan tiga metode yaitu naïve bayes classifiers, support

  Salah satu metode pembelajaran yang digunakan dalam prediksi adalah Naïve Bayes merupakan metode berbasis peluang. Perhitungan pada metode ini meliputi perhitungan conditional probability yaitu menghitung peluang kemunculan term kata pada suatu kelas kemudian prior yaitu menghitung peluang kemunculan dokumen pada suatu kelas. Perhitungan terakhir adalah posterior merupakan perkalian conditional probability dengan prior. Hasil klasifikasi diperoleh dari posterior tertinggi (Manning, et al., 2009).

  evaluasi dan tindakan untuk meningkatkan kualitas produk.

  rating sehingga dari hasil tersebut bisa dilakukan

  mengalami kesulitan untuk mengkategorikan ulasan kedalam rating untuk mengetahui kualitas produk. Oleh karena itu, perlu adanya sistem untuk membantu mempercepat prediksi

  rating membuat pihak produsen tak jarang juga

  Indonesia dengan konten-konten yang berisi seputar dunia kecantikan berupa artikel serta ulasan produk kecantikan. Pada website ini terdapat 10.000 produk kecantikan siap untuk diulas oleh konsumen yang ingin membagikan pengalamannya selama menggunakan produk- produk tersebut. Bagi produsen masukan dari konsumen sangatlah penting untuk perbaikan produk mereka kedepannya. Ulasan produk kecantikan pada website femaledaily.com sudah disertai dengan rating. Rating merupakan representasi tingkat kepuasan dari pengalaman seorang pengulas (Jong, 2011). Adanya rating yang diberikan oleh pengulas merupakan cerminan kualitas dari produk itu sendiri dari sudut pandang konsumen. Melimpahnya data terkait ulasan produk kecantikan dari beberapa sumber yang belum disertai dengan adanya

  Penelitian ini mengggunakan data set offline dari website femaledaily.com. Data yang diambil adalah ulasan beserta rating. Pengambilan data dilakukan secara manual oleh peneliti. Data tersebut digunakan untuk pelatihan dan data uji. Data yang digunakan pelatihan sebesar 900 data dan data uji 100 data. Jumlah rating dalam data latih sebesar 180 rating untuk rating 1 sampai

  rating 5 dengan jumlah rating yang sama pada

2.2 DESKRIPSI UMUM SISTEM

  “The cat sat on the mat” menjadi “the cat sat”, “cat sat on”, “sat on the” dan “on the mat” apabila terdapat sebuah punctuation seperti koma, semi kolon, dan sebagainya maka pada proses n-gram tidak melewatinya melainkan membuat n-gram baru dengan kata setelah karakter tersebut misalnya pada kalimat

  ‘aku suka’, ‘suka banget’, ‘banget produk’, ‘produk cleanser’, ‘cleanser ini’ Kombinasi: ‘aku’, ‘suka’, ‘banget’, ‘produk’, ‘cleanser’, ‘ini’, ‘aku suka’, ‘suka banget’,

  Bigram:

  ‘aku’, ‘suka’, ‘banget’, ‘produk’, ‘cleanser’, ‘ini’.

  Unigram:

  ulasan dengan n=1 atau term tunggal, bigram adalah pemecahan n-kata pada kalimat ulasan dengan n=2, dan kombinasi merupakan gabungan dari unigram dan bigram. Berikut ilustrasi penerapan n-gram pada kalimat “aku suka banget produk cleanser ini.” (Prasanti, et al., 2017):

  unigram adalah pemecahan kata pada kalimat

  penelitian ini menerapkan n-gram dengan pemecahan kata pada kalimat ulasan meliputi

  “three blind mice”, “see how they” dan “how they run” (Ha, et al., 2003). Pada

  menjadi

  “Three blind mice, see how they run” untuk trigram

  mengandung informasi tersendiri, contoh penerapan n-gram khususnya trigram pada kalimat

  masing-masing rating setidaknya peluang informasi ulasan data uji pada data latih adalah sama

  n- gram dengan masing -masing kata tersebut

  Bahasa tidak terbentuk dari kata-kata individu, tetapi terdiri dari urutan kata individu dan frase 2, 3 atau lebih kata yang lebih dikenal

  2.2.1.1 N-GRAM

  dianggap penting sehingga keberadaannya pada dokumen tetap dipertahankan (Destuardi & Sumpeno, 2009). Kata adverbia merupakan kata- kata yang menjelaskan verba, adjektiva, atau adverbia lainnya contoh kata ‘amat’, ‘sangat’, ‘sekali’,dll, (Alwi, et al., 2010). Kata negasi menyebabkan perubahan polaritas dari suatu pernyataan. Contoh kata negasi adalah kata ‘tidak’, ‘bukan’, ‘tanpa’ (Destuardi & Sumpeno, 2009). Setelah itu, dilakukan proses stemming menghilangkan kata imbuhan term kata. Proses terakhir adalah proses n-gram.

  stopword . Pada penelitian ini kata tersebut

  dianggap tidak penting termasuk pada kamus

  stopword. Kata adverbia dan kata negasi

  Proses ini merupakan tahap awal dari sebuah pemrosesan teks. Hasil pre-processing akan digunakan untuk proses selanjutnya dalam penelitian ini akan digunakan dalam proses klasifikasi rating . Menurut Aris menjelaskan bahwa pre-processing adalah sebuah proses pengurangan kata-kata tidak penting, tidak mempunyai arti dari database teks atau dokumen, sehingga membuat data lebih terstruktur dan siap untuk diolah (Harjanta, 2015), untuk mendapatkan teks terstruktur maka dalam penelitian ini tahap pre-processing meliputi case folding yaitu mengubah semua huruf kapital menjadi huruf kecil, tokenizing yaitu menghilangkan tanda baca, angka, karakter selain alphabet dan dilakukan pemecahan kata menjadi kata tunggal, filtering yaitu proses menghilangkan kata noise berdasarkan kamus

  terstruktur. Hasil dari pre-processing digunakan untuk proses klasifikasi ke dalam kelas rating dengan menggunakan metode naïve bayes.

  processing untuk mendapat term kata-kata yang

  Pada gambar proses prediksi rating pada ulasan produk kecantikan diawali dengan pre-

  Gambar 1. Diagram alir sistem

2.2.1 PRE-PROCESSING

  ‘banget produk’, ‘produk cleanser’, ‘cleanser ini’.

2.3 NAÏVE BAYES CLASSIFIER(NBC)

  Stemming Unigram 35% 76% 74% Bigram 22% 64% 64% Kombinasi 38% 72% 71% Tanpa Pre- processing Unigram 38% 73% 70%

  3. HASIL DAN PEMBAHASAN

  Tabel 1. Hasil akurasi sistem

  Skenario pengujian N-gram

  Model Pengujian Tole ransi (0)

  Tole ransi (1)

  Senti ment ulasa n

  Full Pre- processing Unigram 50% 93% 93% Bigram 39% 87% 83% Kombinasi 49% 97% 96%

  Tanpa Filtering Unigram 46% 89% 88%

  Bigram 20% 41% 39% Kombinasi 26% 54% 52% Tanpa

  Bigram 20% 42% 43% Kombinasi 30% 54% 54%

  | |

  Grafik di atas merupakan hasil pengujian n-

  gram dari berbagai skenario pengujian beserta

  model pengujian. Hasil tertinggi adalah pada skenario pertama yaitu full pre-processing untuk semua n-gram. Keunggulan dari skenario tersebut adalah mampu mengurangi dimensi yang tinggi pada data uji sehingga kata-kata yang diproses pada klasifikasi sebagian besar adalah kata-kata yang memiliki informasi berguna untuk menentukan kelas rating dengan benar. Skenario kedua adalah pengujian tanpa

  filtering dan hasil akurasi yang diperoleh

  mengalami penurunan dari full pre-processing untuk semua klasifikasi n-gram. Penurunan disebabkan menghilangkan proses filter kata menghasilkan banyak kata noise sehingga hasil proses klasifikasi banyak terjadi kesalahan. Skenario pengujian ketiga yaitu skenario tanpa proses stemming pada pre-processing dan hasil

  (1)

  ( | ) = ( ) ∏ ( | )

  1≤ ≤ (3)

  (2)

  = menghitung kata unik pada seluruh dokumen

  = menghitung jumlah seluruh kata kelas j

  Bayesian classifier lebih dikenal dengan algoritme naïve bayes classifier merupakan

  Keterangan: = jumlah dokumen latih pada kelas j

  teknik klasifikasi dapat bekerja lebih cepat dengan akurasi yang tinggi pada jumlah data yang besar, NBC ini mengasumsikan bahwa efek dari nilai attribut pada kelas tertentu tidak tergantung pada nilai attribut lainnya. Persamaan umum metode naïve bayes (Manning, et al., 2009): Keterangan:

  ( | )

  = posterior merupakan menghitung peluang kemunculan kelas dimana j = 1,2,3 . . . m dengan syarat adalah kumpulan dari term kata dengan i = 1,2,3 . . .n

  ( | )

  = conditional probability adalah menghitung peluang kemunculan term kata pada kelas ke j. Perhitungan ini untuk semua term kata hasil pre-processing dari token kata ke i sampai

  token kata terakhir nd.

  ( )

  = prior adalah menghitung peluang kemunculan dokumen kelas j pada data latih Perhitungan peluang kemunculan dokumen kelas j pada data latih yang lebih dikenal dengan

  prior pada persamaan 2 (Manning, et al., 2009)

  = jumlah seluruh dokumen latih

  ( , )

  Pada tipe

  multinomial naïve bayes

  merupakan perhitungan bersifat positional

  independence tidak tergantung pada posisi

  atupun urutan kata. Pada prosesnya menghitung jumlah kata pada seluruh posisi kata pada dokumen. Proses keseluruhan pada metode ini tidak jauh berbeda dengan NBC yaitu perhitungan prior, conditional dan posterior akan tetapi untuk conditional probability terdapat perubahan (Manning, et al., 2009).

  Keterangan:

  ( | )

  = conditional probability

  ( , )

  = menghitung jumlah kata dengan i = 1,2,3.. m pada kelas j dengan j = 1,2,3,…n

2.3.1 MULTINOMIAL NAÏVE BAYES

  akurasi juga mengalami penurunan dari full pre-

  Skenario pengujian n-gram bertujuan untuk menguji seberapa efektif n-gram untuk meningkatkan klasifikasi dengan metode naïve

  proccesing menjadi

  Penggunaan unigram misalnya kalimat “produk ini tidak cocok pada kulit aku dan hasilnya kurang bagus” setelah dilakukan pre-

  bigram data uji bahkan tidak dikenali oleh data latih.

  variasi sehingga dengan pengaruh berbagai skenario pengujian akan membuat hasil bigram mengalami penurunan frekuensi kata pada

  unigram . Hasil bigram menghasilkan banyak

  tersebut memilki kelebihan informasi lebih banyak dibandingkan n-gram lainnya sehingga dapat meminimalisir kesalahan. Pada unigram merupakan kata tunggal dan lebih mudah dijumpai pada data latih sehingga unigram memperoleh frekuensi kata lebih tinggi dibandingkan bigram. Proses bigram merupakan pengambilan n kata dengan n=2. Pada prosesnya diharapkan hasil penggabungan kata adverbia dengan kata lain bukan noise dan kata negasi dapat memperoleh hasil tinggi dibandingkan

  unigram dan bigram. Penggabungan n-gram

  . Hasil akurasi unigram dan kombinasi sangat kompetitif akan tetapi hasil tertinggi adalah kombinasi n-gram merupakan gabungan

  bayes

  hanya menggunakan dua kategori, positif dan negatif saja.

  processing untuk semua n-gram dan tanpa filtering untuk unigram. Menghilangkan proses stemming pada pre-processing maka kata

  sentiment dengan performa yang baik ketika

  Kesalahan prediksi disebabkan antar rating yang berdekatan, misalnya rating 1 dengan rating 2 atau rating 4 dengan rating 5 memiliki kemiripan yang ditandai dengan kemunculan kata yang sama. Hal ini terbukti ketika dilakukan pengujian dengan toleransi 1, sistem menunjukkan peningkatan akurasi yang signifikan. Model pengujian toleransi 1 merupakan model pengujian mentolerir hasil prediksi dengan selisih satu. Pada pengujian dengan toleransi 1, akurasi terbaik yang didapatkan adalah 97%. Model pengujian terakhir adalah pengujian dengan informasi sentiment ulasan melalui rating yang diberikan. Hasil pengujian juga menunjukkan akurasi yang bagus yakni 96%. Hal ini membuktikan sistem yang dibangun juga mampu melakukan analisis

  rating hasil prediksi oleh sistem dan rating sebenarnya cuma terpaut 1 tingkat rating.

  Hasil skenario pengujian dimodelkan dengan tiga model pengujian yaitu toleransi 0, toleransi 1 dan sentiment ulasan. Ketiga model pengujian yang telah diterapkan bertujuan untuk mengetahui performa dari sistem yang telah dibangun secara lebih dalam. Model pengujian pertama toleransi 0 adalah hasil rating prediksi sistem dengan rating data uji harus sama. Hasil akurasi toleransi 0 sangat rendah. Akurasi terbaik pada pengujian toleransi 0 ini hanya 50%. Akan tetapi, hasil prediksi rating oleh sistem sebenarnya sudah mendekati rating sebenarnya. Kebanyakan perbedaan antara

  penurunan. Hasil akurasi terjadi banyak kesalahan dikarena menghilangkan proses filter kata dan stemming menyebabkan kata noise lebih banyak dibandingkan skenario sebelumnya.

  pre-processing , tanpa stemming untuk semua n- gram dan filtering untuk unigram mengalami

  yang memperhatikan jumlah kemunculan kata pada kelas. Semakin besar frekuensi kata-kata yang diklasifikasikan pada kelas tertentu maka hasil prediksi akan lebih condong pada kelas tersebut, sehingga menghilangkan proses stemming akan berdampak pada hasil prediksi. Skenario pengujian terakhir hasil akurasinya juga mengalami penurunan disebabkan data uji yang diklasifikasikan tidak diproses sepenuhnya dengan proses pre-processing. Proses yang dilakukan pada pre-processing pengujian ini adalah casefolding dan tokenizing, hasil akurasi yang didapatkan terus menurun dari skenario full

  multinomial naïve bayes merupakan metode

  berimbuhan tidak dihilangkan imbuhannya, sehingga akan mengurangi frekuensi kata. Hal ini menyebabkan kata yang sebenarnya sama dianggap oleh sistem berbeda dikarenakan adanya imbuhan yang melekat pada kata tersebut mengubah strukturnya. Pada dasarnya metode

  “produk”, ”tidak”, ”cocok”, ”kulit”, ”kurang”, ”bagus”. Fitur unigram bisa menyebabkan kesalahan prediksi disebabkan “cocok”, “bagus” kata tersebut lebih banyak ditemukan pada rating 4 atau 5 cenderung positif akan tetapi sebenarnya adanya kata negasi menyebabkan kata “cocok”, “kulit” menjadi negatif. Pada fitur tunggal mendapatkan frekuensi tinggi karena lebih mudah ditemukan pada data latih . Kemudian menaikan nilai n menjadi n=2 atau bigram menjadi “produk tidak”, “tidak cocok”, “cocok kulit”, “kulit kurang“, kurang bagus”. Pada bigram sebenarnya mampu menangkap kata-kata negasi seperti “tidak cocok” dan kata adverbia “ kurang cocok” akan tetapi hasil dari bigram memunculkan kata tidak revel an seperti “produk tidak”, “kulit kurang”. Kata tidak relevan tersebut akan bertambah jika kata hasil pre-

  processing dengan jumlah lebih besar. Pada

  gram banyak menghasilkan fitur-fitur yang

  kombinasi menggabungkan keduanya menjadi “produk”, ”tidak”, ”cocok”, ”kulit”, ”kurang”, ”bagus”, “produk tidak”, “tidak cocok”, “cocok kulit”, “kulit kurang“, kurang bagus” memiliki keunggulan lebih banyak informasi yang didapatkan sehingga membantu mengklasifikasikan dengan tepat.

  kurang relevan. Perlu adanya penambahan metode yang mampu memilih kata-kata penting yang diklasifikasi sehingga memperoleh hasil yang lebih baik. Salah satunya adalah metode seleksi fitur. Untuk pengembangan penelitian selanjutnya disarankan untuk menggunakan metode POS Tagging untuk menandai kata-kata negasi dan adverbia.

4. KESIMPULAN

  processing berpengaruh positif pada klasifikasi

  Harjanta, A. T. J., 2015. Preprocessing Text untuk Meminimalisir Kata yang Tidak Berarti. Jurnal Informatika Upgris. Hidayatullah, A. F., 2016. Penerapan Text Mining dalam Klasifikasi Judul Skripsi.

  .knime.com/blog/sentiment-analysis- with-n-grams [diakses 2 Desember

  gram. [Online] tersedia di: https://www

  Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer. Thiel, K., 2016. Sentiment Analysis with N-

  (2017). Klasifikasi Teks Pengaduan Pada Sambat Online Menggunakan Metode N-gram dan Neighbor Weight K-Nearnest Neighbor (NW-KNN).

  Prasanti, A.A., Ali, M. F., & Furqon, M. T.

  Retrieval. Cambridge: Cambridge University Press.

  2009. An Introduction to Information

  tersedia di: https://scholar.google.co.id/ [diakses 2 Maret 2017]. Manning, C. D., Raghavan, P. & Schütze, H.,

  Analysis. [Online]

  Jong, J., 2011. Predicting Rating with Sentiment

  Seminar Nasional Aplikasi Teknologi Informasi.

  Computational Linguistics and Chinese Language Processing.

  dengan metode naïve bayes dan n-gram. Adapun hasil tertinggi adalah full pre-processing dengan akurasi 97% pada model pengujian toleransi 1 sedangkan 96% pada model pengujian sentiment ulasan dan hasil terendah pada pengujian toleransi 0 sebesar 50%. Penggunaan bigram sebenarnya berpengaruh positif karena mampu menangkap kata-kata adverbia dan negasi pada dokumen yang diklasifikasikan akan tetapi menjadi negatif pada klasifikasi disebabkan pada prosesnya banyak menghasilkan kata-kata tidak relevan serta jumlah kata yang diklasifikasikan meningkat, sedangkan penggunaan unigram dan kombinasi pada prediksi rating memiliki hasil akurasi sangat kompetitif. Adapun hasil akurasi tertinggi adalah kombinasi dengan akurasi 49%,97%,96% pada skenario full pre-

  Smith, F. J., 2003. Extension of Zipf's Law to Word and Character. Journal of

  Prediksi rating pada ulasan produk kecantikan dapat dilakukan dengan menggunakan metode naïve bayes dan n-gram. Adapun langkah-langkahnya adalah tahapan proses pre-processing mulai dari casefolding,

  seminar Nasional Pascasarjana.

  Departemen Pendidikan dan Kebudayaan, Republik Indonesia. Destuardi, I. & Sumpeno, S., 2009. Klasifikasi emosi untuk teks bahasa Indonesia menggunakan metode Naive Bayes.

  Alwi, H., Dardjowidjojo, S., Lapoliwa, H. & Moeliono, a. M., 2010. Tata Bahasa Baku Indonesia. ketiga ed. Jakarta:

  5. DAFTAR PUSTAKA

  tokenizing, filtering, stemming dan n-gram

  setelah itu hasil pre-processing dilakukan proses klasifikasi dengan naïve bayes. Proses pre-

  Pada penelitian yang sudah dilakukan terdapat beberapa kekurangan yang mempengaruhi hasil klasifikasi. Sebaiknya melakukan perbaikan data ulasan yang diperoleh dari website femaledaily.com sebab banyak dijumpai kata-kata tidak baku seperti kata keseharian pengulas dan kesalahan ejaan sehingga bisa mempengaruhi hasil klasifikasi. Oleh karena itu, diperlukan sebuah metode yang mampu melakukan perbaikan data tersebut secara otomatis dengan menambahkan proses pengecekkan kata tidak baku dan mengubahnya menjadi baku sesuai kamus kata baku. Salah satunya adalah metode Levenshtein Distance. N-

  dengan akurasi 20%, 41% dan 39% pada skenario tanpa filtering untuk model pengujian toleransi 0, toleransi 1 dan sentiment ulasan.

  processing dan hasil terendah adalah bigram

  Ha, L. Q., Sicilia-Garcia, E. I., Ming, . J. & .

  2017]