PEMBENTUKAN THESAURUS YANG SENSITIF TERHADAP TINGKAT POLARITAS REVIEW PADA CROSS-DOMAIN SENTIMENT CLASSIFICATION Putu Praba Santika, Agus Zainal Arifin, Diana Purwitasari

  

PEMBENTUKAN THESAURUS YANG SENSITIF TERHADAP TINGKAT

POLARITAS REVIEW PADA CROSS-DOMAIN SENTIMENT CLASSIFICATION

Putu Praba Santika, Agus Zainal Arifin , Diana Purwitasari

  Jurusan Teknik Informatika, Institut Teknologi Sepuluh Nopember Kampus ITS Keputih, Sukolilo, Surabaya 60111, Jawa Timur, Indonesia

  

Email: [email protected]

ABSTRAK

  Ketidaksesuaian antara isi opini dan rating yang diberikan pada review produk mungkin terjadi karena diberikan secara terpisah. Pendekatan Machine Learning dapat dilakukan untuk klasifikasi sentimen yang terdapat pada opini untuk mendapatkan rating. Idealnya classifier dilatih dengan data yang sudah diketahui polaritasnya dari domain yang sama dengan domain yang akan diuji, sehingga diperlukan data latih tersendiri. Pelabelan secara manual pada pembuatan data latih sangat menghabiskan waktu dan biaya. Untuk menghidari pelabelan secara manual, dilakukan dengan pendekatan cross-domain sentiment

  classification .

  Pendekatan ini hanya membedakan polaritas opini menjadi positif dan negatif. Hal ini menyebabkan kerancuan, sehingga perlu digunakan rentang nilai untuk menunjukkan tingkat polaritas suatu opini. Penelitian ini bertujuan untuk mengusulkan pendekatan pengukuran tingkat polaritas review pada cross-domain sentiment classification agar dapat melakukan klasifikasi pada domain yang berbeda. Metode yang digunakan adalah membuat thesaurus yang sensitif terhadap tingkat polaritas sentimen digunakan dalam features expansion untuk menambahkan feature baru pada Review. Review yang sudah ditambah feature baru digunakan pada training dan testing.

  Hasil pengujian menunjukkan bahwa rata-rata akurasi pada pengujian cross-domain

  

sentiment classification yang menerapkan features expansion dengan memanfaatkan

thesaurus yang sensitif terhadap sentiment 8.17% lebih baik dari pada yang tidak

  menerapkan features expansion. Penelitian ini membuktikan bahwa klasifikasi pada domain yang berbeda dapat dilakukan dengan menerapkan features expansion dengan memanfaatkan

  thesaurus yang sensitif terhadap tingkat polaritas sentiment.

  Kata kunci: cross-domain, machine learning, sentiment classification, tingkat polaritas.

  (D’Avanzo & Pilato, 2014). Sebanyak

1. Pendahuluan

  80% calon pembeli mempertimbangkan Tren berbelanja secara online review sebelum memutuskan untuk membuat pembeli produk atau jasa membeli atau menggunakan produk atau mengekpresikan opini mengenai produk jasa (Pang & Lee, 2008) (D'avanzo & atau jasa dengan menuliskan review secara Kuflik, 2013).

  online pula. Calon pembeli dapat

  Banyaknya ulasan membutuhkan memanfaatkan review dari pembeli produk banyak waktu untuk membaca, sehingga atau jasa sebelumnya sebagai diperlukan sebuah mekanisme untuk pertimbangan sebelum memutuskan membantu mengetahui secara singkat opini menggunakan produk atau jasa tersebut pengguna terhadap sebuah produk atau layanan. Saat ini, rating atau penilain tingkat kepuasan pengguna terhadap suatu produk harus diberikan secara manual oleh penulis opini. Ketidaksesuaian antara isi opini dan nilai tingkat kepuasan mungkin terjadi, sehingga diperlukan pemberian tingkat kepuasan secara otomatis terhadap opini tersebut. Opinion Mining adalah suatu cara untuk mengidentifikasi opini terhadap suatu subjek kemudian mengevaluasi polaritas dari opini tersebut (Tsytsarau & Palpanas, 2012). Dengan

  opinion mining dapat diketahui polaritas

  data latih yang sudah diketahui polaritasnya. Untuk masing-masing domain diperlukan data latih tersendiri (Blitzer, Dredze, & Pereira, 2007).

  Sentiment Sensitive Thesaurus . Sentiment Sensitive Thesaurus berisi kumpulan kata

  Whitehead (Whitehead & Yaeger, 2009) melakukan penelitian dengan menggunakan data dari beberapa domain berbeda digabungkan untuk digunakan sebagai data latih. Penggunaan gabungan data dari beberapa domain terbukti meningkatkan akurasi namun tidak terlalu signifikan. Penggunaan gabungan data dari beberapa domain berbeda sangat terpengaruh oleh kesamaan antara fitur pada data latih hasil penggabungan dengan fitur yang terdapat pada data dari domain yang akan diuji. Metode lain untuk menangani masalah cross-domain adalah dengan memanfaatkan feature expansion (Bollegala, Weir, & Carroll, 2013). Ketidak cocokan fitur pada domain yang berbeda ditangani dengan membuat

  data berlabel dari domain sumber ditambah data yang belum berlabel dari domain target untuk melakukan transfer learning .

  sentiment classification memanfaatkan

  menganalisa data dari sebuah domain kemudian hasilnya digunakan untuk melakukan klasifikasi pada domain yang berbeda. Secara umum Cross-domain

  Cross-domain classification atau transfer learning berfokus pada

  Pelabelan fitur secara manual pada pembuatan data latih sangat menghabiskan waktu dan biaya. Untuk menghidari pelabelan secara manual, dilakukan penelitian agar dapat menggunakan data latih dari domain yang sudah tersedia untuk menangani klasifikasi pada domain yang berbeda. Klasifikasi sentimen dengan menggunakan data latih dari domain yang berbeda dengan domain data yang akan diuji disebut cross-domain sentiment classification .

  mining atau sentiment analysis diperlukan

  sebuah ulasan produk. Polaritas review menunjukkan apakah ulasan tersebut mengandung opini positif atau negatif. Klasifikasi dapat dilakukan berdasarkan sentimen yang terdapat pada opini tersebut. Turney melakukan klasifikasi terhadap review untuk merekomendasikan atau tidak suatu produk dilakukan dengan cara menghitung rata-rata nilai orientasi semantiknya (Turney, 2002). Orientasi simantik dihitung berdasarkan kedekatan dengan kata “excellent” dikurangi kedekatan dengan “poor”. Machine

  Untuk dapat melakukan opinion

  data yang sudah diketahui polaritasnya dari domain yang sama dengan domain yang akan diuji. Classifier yang dilatih kemudian diuji dengan data dari domain yang berbeda akan memberikan hasil yang buruk (Whitehead & Yaeger, 2009). Hal ini terjadi karena fitur yang terdapat pada domain sumber (domain yang digunakan untuk pelatihan) tidak cocok dengan fitur yang terdapat pada domain tujuan (domain yang diuji).

  learning idealnya classifier dilatih dengan

  Pada pendekatan machine

  akurasi yang lebih tinggi. (Pang, Lee, & Vaithyanathan, 2002).

  Machine Learning memberikan tingkat

  klasifikasi terhadap sentimen. Metode

  Learning juga digunakan untuk melakukan

  yang berbeda namun menunjukkan sentimen yang sama, pada domain yang berbeda. Fitur-fitur yang berkaitan ditambahkan pada vektor fitur untuk menjembatani domain sumber dan domain tujuan.

  Penelitian tersebut hanya membedakan polaritas opini menjadi dua, yaitu positif dan negatif. Walaupun opini sebenarnya hanya bernada sedikit positif, namun jika menggunakan pendekatan tersebut, opini akan dianggap menjadi positif sehingga menimbulkan kerancuan (Okanohara & Tsujii, 2005). Untuk mengatasi kerancuan ini perlu digunakan rentang nilai untuk menunjukkan tinggkat polaritas suatu opini.

  data mining

  Kinerja yang buruk tersebut disebabkan oleh beberapa penyebab. Pertama, setiap domain memiliki kata-kata khusus yaitu kata yang hanya terdapat pada domain tersebut. Kata-kata khusus pada suatu domain berbeda dengan kata- kata khusus domain lain. Kedua, kata-kata yang memiliki korelasi tinggi dengan label kelas tertentu dalam domain yang digunakan sebagai data latih mungkin tidak memiliki

  data yang sudah diketahui polaritasnya dari domain yang sama dengan domain yang akan diuji. Classifier yang dilatih kemudian diuji dengan data dari domain yang berbeda akan memberikan hasil yang buruk (Whitehead & Yaeger, 2009). Hal ini terjadi karena fitur yang terdapat pada domain sumber (domain yang digunakan untuk pelatihan) tidak cocok dengan fitur yang pada domain tujuan (domain yang diuji).

  learning idealnya classifier dilatih dengan

  Pada pendekatan machine

  2.2 Cross-Domain Sentiment Classification

  Salah satu penerapan sentiment analysis adalah pada pemberian rating produk. Pengguna dapat secara tidak sengaja memberikan rating rendah, padahal review yang diberikan sangat positif. Kesalahan ini dapat diatasi dengan melakukan klasifikasi terhadap sentiment review, sehingga dapat memberikan rating secara otomatis (Pang & Lee, 2008).

  . Fokus utama dari analisis sentimen untuk menentukan sikap pembicara atau penulis terhadap beberapa topik, atau polaritas kontekstual keseluruhan dokumen. Sikap dapat berupa penilaian atau evaluasi yang dilakukan oleh penulis, atau efek emosional. (Kurian, 2014)

  informasi subjektif dari dokumen tekstual menggunakan pengolahan bahasa alami (natural language processing) dan teknik

  Pada penelitian ini dikembangkan metode yang dapat menunjukkan tingkat poaritas opini suatu produk, tanpa harus memberikan label terhadap data latih pada domain tersebut. Sebelum dilakukan klasifikasi, review mengalami feature

  Sentiment analysis mengidentifikasi

  analisis sentiment (Khan, Baharudin, Khan, & Malik, 2009). Sentiment analysis juga dapat menyatakan perasaan emosional sedih, gembira, atau marah.

  Opinion mining juga disebut sebagai

  Tujuan dari Opinion mining adalah untuk membuat komputer mampu mengenali dan mengekspresikan emosi. Tugas dasar dalam analisis sentimen adalah mengelompokkan teks kalimat atau dokumen dan menentukan pendapat yang dikemukakan dalam kalimat atau dokumen tersebut apakah bersifat positif atau negatif. Sebuah pikiran, pandangan, atau sikap berdasarkan emosi, disebut sentimen. Jadi

  pendapat yang dikemukakan pada suatu subjek tertentu dan mengevaluasi polaritas pendapat ini. Polaritas sentimen adalah titik pada skala evaluasi yang sesuai dengan evaluasi positif atau negatif tentang makna sentimen ini.

  Opinion mining / Sentiment analysis bertujuan untuk mengidentifikasi

  yang sensitif terhadap tingkat polaritas sentimen.

  expansion dengan memanfaatkan thesaurus

2. Tinjauan Pustaka

2.1. Opinion Mining

  tingkat korelasi yang sama dengan label

  2.1 Tahap Preprocessing

  kelas yang sama di target domain (Kurian, Pada tahap preprocessing, review 2014). dipecah menjadi kalimat. Selanjutnya kata-

  Tantangan yang terdapat pada kata dalam kalimat tersebut ditandai sesuai pendekatan machine learning adalah dengan jenis katanya. Tahapan penandaan bagaimana memanfaatkan data yang telah jenis kata ini disebut Part-of-Speech memiliki label sentimen dalam satu domain .

  Tagging

  (yaitu domain sumber) agar dapat digunakan Untuk setiap kata yang sudah ditandai untuk melakukan klasifikasi sentimen di jenis katanya kemudian dicek apakah kata domain lain (yaitu domain target). Konsep tersebut sudah tidak mengandung angka dan

  

cross-domain sentiment classification karakter khusus, bukan merupakan

  digunakan untuk menangani masalah ini. , dan jenis katannya atau Part-of-

  stopword

  Data dari sebuah domain dianalisis Speech nya sudah sesuai dengan jenis kata kemudian hasilnya digunakan untuk yang akan digunakan pada tahap melakukan klasifikasi pada domain yang pembentukan thesaurus yang sensitif berbeda. terhadap tingkat polaritas sentiment. Jika semua syarat tersebut terpenuhi maka kata tersebut dimasukkan kedalam daftar

3. Desain Sistem unigram yang berbentuk list, banyaknya

  Proses-proses yang dilalui pada kemunculan kata ini dalam kalimat juga pengukuran tingkat polaritas review pada disimpan dalam list terpisah.

  Setelah terbentuk unigram, kemudian

  cross-domain sentiment classification

  disusun sesuai framework pada Gambar 1. dilanjutkan dengan dengan membentuk

  bigram . Bigram dibentuk dengan

  menggabungkan dua buah unigram yang berurutan. Bigram dan dan banyaknya

  Review 1 Review 2

  kemunculan bigram dalam kalimat juga disimpan dalam list yang sebelumnya sudah

  Review n Review …

  berisi unigram. ID dari setiap elemen list ini merupakan kode dari unigram atau bigram tersebut. Kode unigram, bigram serta

  Preprocessing

  banyak kemunculannya dalam dokumen

  review dicatat sebagai kode penyusun teks review tersebut.

  Membentuk Thesaurus Yang Sensitif Terhadap

  3.2 Tahap Pembentukan Thesaurus yang Tingkat Polaritas

  Sensitif Terhadap Tingkat Polaritas Sentimen

  Sentimen Thesaurus yang sensitif terhadap

  tingkat polaritas sentiment didapat dengan

  Feature Expansion mencari hubungan antar lexical elements.

  Tahapan yang dilakukan untuk membentuk

  Klasifikasi Tingkat thesaurus yang sensitif terhadap tingkat Polaritas Opini

  polaritas sentiment adalah menghitung banyaknya kemunculan masing-masing

  lexical elements dengan sentiment emlement Gambar 1. Tahapan Klasifikasi Tingkat dalam review. Polaritas Opini Banyaknya kemunculan antara lexical

  elements

  }, vektor ini disebut sebagai d’. Nilai N elemen pertama pada

  ( , ) =

  ∑ ( , ) =1

  ∑ =1

  (4) Skor u i diurutkan secara menurun, kemudian dipilih k buah yang terbaik. Base

  entry yang terpilih untuk review d

  dilambangkan dengan dengan nilai r berupa rentang dari 1 sampai k. Vektor review d yang awalnya hanya berisi {w

  1 , w 2, …, w

  N

  } digabungkan dengan base entry yang terpilih, sehingga menjadi {w

  1 , w 2, …, w N ,

  1 , 2 , … ,

  d’ sama

  j

  dengan nilai N elemen pertama pada vektor

  d yaitu banyaknya kemunculan w i

  pada review d. Sedangkan untuk elemen ke N+1 sampai k pada vektor

  d’ berisi nilai skor

  yang dihasilkan pada Persamaan 4 untuk masing masing base entry yang terpilih.

  3.4 Tahap Klasifikasi Tingkat Polaritas Opini

  Untuk mengetahui tingkat polaritas suatu review dilakukan melalui metode klasifikasi multi class. Untuk melakukan klasifikasi digunakan L1 regularized logistic

  regression . Class yang ingin dibentuk

  adalah class sesuai dengan tingkatan polaritasnya yaitu (1,2,3,4,5).

  Untuk melakukan klasifikasi, terdapat dua langkah yang harus dilakukan, yaitu

  training dan testing. Tahap training, classifier dilatih dengan vektor d’ yang

  merupakan vektor review digabungkan dengan vektor hasil ekspansi nya. Langkah selanjutnya adalah menggunakan classifier yang telah dilatih untuk menentukan class dari review yang diuji.

  pada review d. Kandidat yang akan digunakan untuk melakukan ekspansi terhadap semua base entry dihitung dengan persamaan 4.

  adalah banyaknya kemunculan unigram atau bigram w

  u dan sentiment elements w dilambangkan dengan c(u,w). Banyaknya kemunculan antara lexical elements u dan

  Pointwise Mutual Information

  sentiment elements w digunakan untuk

  menghitung Pointwise Mutual Information (PMI) antara lexical elements u dan

  sentiment elements w dilambangkan dengan f(u,w) sesuai persamaan 1.

  ( , ) = log (

  ( , ) ∑ ( , ) =1

  × ∑ ( , ) =1

  ), (1) Dengan banyaknya lexical element u dan

  sentiment element w dinotasikan dengan n

  dan m. Sedangkan N dihitung dengan menggunakan persamaan 2, = ∑

  ∑ ( , )

  =1 =1 .

  (2)

  digunakan untuk mengetahui keterkaitan antara sebuah lexical elements dan sentiment

  d j

  elements . Selanjutnya, nilai keterkaitan

  anatara sebuah lexical elements dan

  sentiment elements digunakan untuk

  melakukan perhitungan nilai kemiripan antar lexical elements.

  Untuk menghitung kemiripan antara lexical element u dan lexical element v digunakan persamaan 3

  ( , ) =

  ∑ ( , ) ∈{ | ( , )>0 ∑ ( , )

  ∈{ | ( , )>0

  (3) dimana f(u,w) pada persamaan 3 dihitung sesuai dengan persamaan 1.

  Sebuah review d dimodelkan dalam set {w

  1 , w 2, …, w N } dimana w 1 merupakan

  unigram atau bigram pada review d. dimana

3.3 Tahap Feature Expansion

4. HASIL UJI COBA DAN PEMBAHASAN

  feature expansion dengan memanfaatkan thesaurus yang sensitif terhadap tingkat

  {1, 2, 3, … , 100}

  C {1, 2, 3, 4, 5, 6, 7, 8, 9, 10,

  11, 12, 13, 14, 15, 16, 17, 18, 19, 20}

  Eps { 0,01; 0,02; 0,03; 0,04; 0,05;

  0,06; 0,07; 0,08; 0,09; 0,1} Pengujian pertama bertujuan untuk mendapatkan nilai akurasi maksimum untuk masing-masing kombinasi domain sumber dan target pada kasus cross-domain

  sentiment classification

  yang menerapkan

  polaritas sentimen. Nilai ketiga parameter dikombinasikan dan digunakan dalam melakukan cross-domain sentiment

  Tabel 1. Parameter yang Dioptimasi dan Nilainya Parameter Nilai Parameter

  classification untuk masing-masing

  kombinasi domain yang tersedia, yaitu

  Book , CDs & Vinyl, Electronics, Home & Kitchen . Masing-masing akurasi dicatat,

  kemudian diurutkan berdasarkan nilai akurasi secara menurun. Hasil akurasi maksimum dan kombinasi nilai parameter untuk masing-masing kombinasi domain ditunjukkan pada Tabel 2.

  Tabel 2 menunjukkan akurasi maksimum didapat pada kombinasi domain

  Home & Kitchen sebagai domain sumber dan domain Book sebagai domain target.

  Akurasi yang diperoleh sebesar 68%.

  K

  Pada ujicoba ini digunakan data review produk pada web Amazon yang telah diambil dan digunakan dalam penelitian yang dilakukan oleh McAuley (McAuley & Leskovec, 2013) , kemudian diperbaharui pada penelitian (McAuley, Pandey, & Leskovec, 2015). Domain yang dipilih adalah Book, CDs & Vinyl, Electronics,

  Home & Kitchen karena memiliki komentar

  Ketiga variable ini diberikan nilai awal seperti ditunjukkan pada tabel 1.

  terbanyak. Keempat domain ini digunakan sebagai domain sumber dan domain tujuan secara bergantian, sehingga didapat 12 kombinasi domain sumber dan domain target.

  Untuk masing-masing domain produk diambil secara acak 100 review yang memiliki rating 1, 100 review yang memiliki rating 2, 100 review yang memiliki rating 3, 100 review yang memiliki rating 4, 100 review yang memiliki rating 5. Sehingga terdapat 500 review yang terbagi dalam 5 rating yang berbeda. Review ini disebut sebagai labeled

  review karena telah memiliki tingkat

  polaritas. Selain itu diambil 1000 review lain tanpa memperhatikan rating dari review tersebut. Review ini disebut sebagai

  unlabeled review , karena dianggap tidak memiliki tingkat polaritas.

  Dalam pengujian terdapat tiga buah parameter yang dikombinasikan untuk mencapai akurasi maksimal. Ketiga parameter tersebut adalah k yaitu banyaknya fitur atau lexical elements yang akan diambahkan pada review, c yaitu

  regularization parameter , dan eps yaitu kriteria terminasi pada proses training.

  Banyaknya fitur atau lexical element yang akan diambahkan pada review (k) ditentukan pada rentang antara 1 sampai 100 dengan kenaikan 1 karena penambahan

  parameter yang telalu kecil menyebabkan

  lexical element yang terlalu banyak pada review akan menyebabkan akurasi menurun.

  Akurasi menurun karena semakin banyak

  lexical element yang ditambahkan, maka

  semakin besar kemungkinan terdapat lexical

  element yang sebenarnya tidak memiliki

  kaitan erat dengan review, namun ikut ditambahkan pada review. Nilai

  regularization parameter (c) ditetapkan

  pada rentang antara 1 sampai 20 dengan kenaikan 1 karena nilai regularization

  model klasifikasi yang terbentuk pada saat training menjadi overfiting, sebaliknya jika terlalu besar, maka akan terbentuk model klasifikasi yang underfiting. Sedangkan akurasi terendah didapat pada kombinasi domain CDs & Vinyl sebagai domain sumber dan domain Home &

  Kitchen sebagai domain target. Akurasi

  nilai parameter yang telah disebutkan sebelumnya. Untuk pengujian pada kasus

  Classification tanpa Menerapkan Feature Expansion Domai n

  Tabel 3. Hasil Cross-Domain Sentiment

  nilai parameter k selalu bernilai 0. Parameter k bernilai 0 berarti tidak ada lexical elements yang ditambahkan pada review tersebut. Masing-masing akurasi dicatat, kemudian diurutkan berdasarkan nilai akurasi secara menurun. Hasil akurasi maksimum dan kombinasi nilai parameter untuk masing- masing kombinasi domain ditunjukkan pada tabel 3.

  feature expansion

  menerapkan

  cross-domain sentiment classification tanpa

  Kitchen dengan menggunakan kombinasi

  Optimal Akura si (%) k C Eps

  , CDs & Vinyl, Electronics, Home &

  Book

  kombinasi domain yang tersedia, yaitu

  classification untuk masing-masing

  . Nilai ketiga parameter dikombinasikan dan digunakan dalam melakukan cross-domain sentiment

  sentiment classification tanpa menerapkan feature expansion

  Sumb er Domai n Tujuan Nilai Parameter

  Book CDs & Vinyl

  49 Rata-rata 48,7

  Electr onics 8 0,05

  48

  9 0,01

  33 Electr onics Book

  6 0,01

  Home & Kitche n

  30 CDs & Vinyl

  37 CDs & Vinyl

  18 0,03

  Book 14 0,02

  40 CDs & Vinyl

  1 0,03

  43 Book Home & Kitche n

  8 0,06

  57 Book Electr onics

  mendapatkan nilai akurasi maksimum untuk masing-masing kombinasi domain sumber dan target pada kasus cross-domain

  30 11 0,07

  yang diperoleh sebesar 30%. Rata-rata akurasi pada pengujian cross-domain

  Book CDs & Vinyl

  34 CDs & Vinyl Book

  1 2 0,07

  46 Book Home & Kitchen

  1 1 0,04

  58 Book Electroni cs

  27 9 0,06

  Akur asi (%) k c eps

  65 CDs & Vinyl Electroni cs

  Domain Tujuan Nilai Parameter Optimal

  Classification dengan Menerapkan Feature Expansion Domain Sumber

  untuk semua kombinasi domain adalah 48.75%. Tabel 2. Hasil Cross-Domain Sentiment

  features expansion dengan memanfaatkan thesaurus yang sensitif terhadap sentiment

  yang menerapkan

  sentiment classification

  86 13 0,1

  68 13 0,06

  48 Home & Kitchen Electroni cs

  Kitchen

  37 12 0,06

  Vinyl

  68 Home & Kitchen CDs &

  16 19 0,07

  37 Home & Kitchen Book

  17 13 0,06

  49 Electroni cs Home &

  38 CDs & Vinyl Home &

  42 18 0,06

  Vinyl

  63 Electroni cs CDs &

  11 8 0,06

  30 Electroni cs Book

  1 12 0,01

  Kitchen

5 Pengujian kedua bertujuan untuk

  Electr onics CDs & Vinyl

  kandidat tersebut termasuk dalam k lexical

  sebagai domain sumber dan domain Home & Kitchen sebagai domain target sangat rendah disebabkan oleh kurangnya informasi sentiment element, sehingga belum mampu memunculkan keterkaitan antara lexical element penyusun

  review dengan lexical element kandidat

  yang ditambahkan pada review dalam proses

  feature expansion . Hal ini akan

  menyebabkan skor keterkaitan menjadi rendah. Dalam prosesnya, feature expansion akan mengurutkan skor keterkaitan antara

  lexical element penyusun review dengan lexical element yang menjadi kandidat.

  Kemudian dipilih sebanyak k lexical

  element

  baru dengan skor tertinggi yang digunakan untuk ditambahkan pada review. Walaupun skor keterkaitan untuk lexical

  element kandidat kecil, jika lexical element

  element

  Akurasi yang didapat pada kombinasi

  kandidat dengan nilai tertinggi, maka terpaksa fitur tersebut digunakan.

  Lexical element terpaksa ditambahkan pada review tersebut juga tampak dari nilai

  parameter k yaitu parameter yang menyatakan banyaknya jumlah lexical element yang harus ditambah. Pada kombinasi CDs & Vinyl sebagai domain sumber dan domain Home & Kitchen sebagai domain target akurasi maksimal didapat pada parameter k bernilai 1. Nilai k sangat kecil, yaitu hanya bernilai 1 karena ternyata penambahan lebih banyak lexical

  element pada review malah menurunkan

  nilai akurasi. Lexical element dengan skor keterkaitan rendah terhadap review, berarti

  lexical element tersebut tidak memiliki hubungan rengan review tersebut.

  Penambahan lexical element yang tidak memiliki berkaitan dengan review malah menyebabkan hasil klasifikasi menurun. Hal ini dapat dilihat pada salah satu contoh

  review pada kombinasi CDs & Vinyl sebagai

  domain sumber dan domain Home &

  Kitchen sebagai domain target. Sebagai

  CDs & Vinyl

  tanpa menerapkan features expansion , yaitu 28%.

  2 0,05

  Akurasi terbaik yang diperoleh sebesar 57%. Akurasi terbaik didapat pada kombinasi domain Book sebagai domain sumber dan domain CDs & Vinyl sebagai domain target dan juga kombinasi domain

  22 Electr onics Home

  & Kitche n

  7 0,07

  34 Home & Kitche n Book

  1 0,04

  57 Home & Kitche n CDs &

  Vinyl 1 0,03

  43 Home & Kitche n Electr onics

  14 0,02

  43 Rata-rata 40,58

  Home & Kitchen sebagai domain sumber dan domain Book sebagai domain target.

  sentiment classification

  Sedangkan akurasi terendah didapat pada kombinasi domain Electronics sebagai domain sumber dan domain CDs & Vinyl sebagai domain target. Akurasi yang diperoleh sebesar 22%. Rata-rata akurasi pada pengujian cross-domain sentiment

  classification tanpa menerapkan features expansion untuk semua kombinasi domain

  adalah 40,58%.

  Pada pengujian cross-domain

  sentiment classification

  yang menerapkan

  features expansion dengan memanfaatkan thesaurus yang sensitif terhadap tingkat

  polaritas sentimen, kombinasi CDs &

  Vinyl sebagai domain sumber dan Electronics

  sebagai domain target, menghasilkan nilai akurasi yang sangat rendah, akurasi yang didapat hanya sebesar 26%. Nilai akurasi ini bahkan lebih rendah dibandingkan pengujian cross-domain

  contoh sepuluh lexical element dengan skor tertinggi yang ditambahkan pada review

  0615391206A388T8QB30Y6U11 ditunjukkan pada Tabel 4. Tabel 4. Lexical Element Dengan Skor

  Pada paper ini diusulkan cross-domain

  menerapkan fture expansion dengan memanfaatkan thesaurus yang sensitif terhadap tingkat polaritas sentiment dapat memperbaiki akurasi pada kasus cross-

  classification tanpa menerapkan fture expansion . Ini membuktikan bahwa dengan

  menerapkan fture expansion dengan memanfaatkan thesaurus yang sensitif terhadap tingkat polaritas sentiment memiliki rata-rata akurasi 8.17% lebih baik daripada cross-domain sentiment

  domain sentiment classification yang

  digunakan untuk menghitung keterkaitan review dengan lexical elements. Cross-

  elements. Keterkaitan antar lexical elements

  dihitung dengan membagi jumlah nilai keterkaitan sentiment elements yang pernah muncul bersama kedua lexical elements dibagi dengan jumlah semua nilai keterkaitan dengan semua sentiment

  elements. Keterkaitan antar lexical elements

  polaritas sentiment. Thesaurus yang sensitif terhadap tingkat polaritas sentiment dibentuk dengan menghitung keterkaitan anatara lexical elements dan sentiment

  sentiment classification yang menerapkan feature expansion dengan memanfaatkan thesaurus yang sensitif terhadap tingkat

   KESIMPULAN

  Tertinggi pada Review 0615391206A388T8QB30Y6U11

  1 Kode lexical element Skor Keterkaitan 4970 5.504 3640 1.793 17287 1.4212 2303 0.7981 2306 0.7534 2308 0.5544 4969 0.5415 3634 0.5384 1 0.4506 4966 0.3424 5.

  Tabel 5. Lexical Element Dengan Skor Tertinggi pada Review 0001714384A19HM4UCA0MC9R

  membantu proses training dan testing pada tahap klasifikasi.

  lexical element tersebut. Tambahan lexical element yang memiliki keterkaitan erat akan

  Pada contoh review dari kombinasi domain Home & Kitchen sebagai domain sumber dan Book sebagai domain target, skor keterkaitan antara lexical element yang ditambahkan memiliki keterkaitan yang erat dengan review, hal ini ditunjukkan dengan skor keterkaitan yang tinggi. Keterkaitan antara review dan lexical element tidak harus memiliki kesamaan arti, atau sinonim, namun kedekatan lebih pada kesamaan tingkat polaritas antara review dengan

  Pada kombinasi domain Home & Kitchen sebagai domain sumber dan Book sebagai domain target, sepuluh lexical element dengan skor tertinggi pada review 0001714384A19HM4UCA0MC9R1 ditunjukkan pada tabel 5

  4971 0,0057 2303 0,0056 30266 0,005

  3639 0,0099 17286 0,0097 30260 0,0076 17281 0,0066

  Skor Keterkaitan 17289 0,0606 17284 0,0328 3640 0,0113

  element

  Kode lexical

  domain sentiment classification untuk pengukuran tingkat polaritas review.

  Science and Information Engineering (pp. 472-476). IEEE.

  [9] McAuley, J., & Leskovec, J. (2013).

  Building a General Purpose Cross- Domain Sentiment Mining Model. [17] World Congress on Computer

  [16] Whitehead, M., & Yaeger, L. (2009).

  Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (pp. 417- 424). Stroudsburg.

  [15] Turney, P. D. (2002). Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. ACL '02

  (2012). Survey on Mining Subjective Data on the Web. Data Mining and Knowledge Discovery , 478-514.

  79-86). ACM. [14] Tsytsarau, M., & Palpanas, T.

  [13] Pang, B., Lee, L., & Vaithyanathan, S. (2002). Thumbs up?: sentiment classification using machine learning techniques. Empirical Methods in Natural Language Processing (pp.

  Foundations and Trends in Information Retrieval , 1-135.

  [12] Pang, B., & Lee, L. (2008). Opinion Mining and Sentiment Analysis.

  Assigning Polarity Scores to Reviews Using Machine Learning Techniques. Lecture Notes in Computer Science , 314-325.

  Leskovec, J. (2015). Inferring networks of substitutable and complementary products. Knowledge Discovery and Data Mining . [11] Okanohara, D., & Tsujii, J. (2005).

  (pp. 165-172). New York: ACM. [10] McAuley, J., Pandey, R., &

  7th ACM conference on Recommender systems

  Hidden factors and hidden topics: understanding rating dimensions with review text.

  [8] Liu, B. (2010). Sentiment Analysis: A Multi-Faceted Problem. IEEE Intelligent Systems .

  DAFTAR PUSTAKA [1] Blitzer, J., Dredze, M., & Pereira, F.

  Meeting of the Association of Computational Linguistics (pp. 440

  (2007). Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification. The 45th Annual

  • – 447). Prague: Association for Computational Linguistics.

  [6] Khan, K., Baharudin, B., Khan, A., & Malik, F. (2009). Mining Opinion from Text Documents: A Survey.

  D. (2003). Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews. WWW2003. Budapest: ACM.

  [5] Dave, K., Lawrence, S., & Pennock,

  of Information Technology & Decision Making .

  Advanced Research in Computer Engineering & Technology (IJARCET) , 1747-1750.

  Mining social network users opinions to aid buyers shopping decisions. Computers in Human Behavior . [4] D'avanzo, E., & Kuflik, T. (2013). E-

  [3] D’Avanzo, E., & Pilato, G. (2014).

  IEEE Transactions On Knowledge And Data Engineering , 1719-1731.

  (2013). Cross-Domain Sentiment Classification Using a Sentiment Sensitive Thesaurus.

  [2] Bollegala, D., Weir, D., & Carroll, J.

  IEEE International Conference on Digital Ecosystems and Technologies (pp. 217-222). IEEE.

  [7] Kurian, N. (2014). Cross Domain Sentiment Classification: Current Solutions. International Journal of

  Commerce Websites Services Versus Buyers Expectations: An Empirical Analysis Of The Online Marketplace. International Journal

Dokumen yang terkait

REKAYASA PERANGKAT LUNAK PENILAIAN KINERJA DOSEN PADA STMIK AKBA

0 1 8

Ahmad Hidayat, Chandra Kurniawan Fakultas Psikologi, Universitas Islam Riau Psychology.consulting7gmail.com Abstract - PENGARUH KONSEP DIRI DAN KEPERCAYAAN DIRI TERHADAP PERILAKU KONSUMTIF PEMBELIAN GADGET PADA MAHASISWA FAKULTAS HUKUM NON REGULER UNIVERS

0 0 10

SISTEM PENDUKUNG KEPUTUSAN KENAIKAN JABATAN DENGAN MENGGUNAKAN METODE PROFILE MATCHING PADA STIA LAN MAKASSAR Rosdiana, Ashari

0 0 8

PENGARUH RESPON KOGNITIF AUDIENCE KAMPANYE IKLAN DI TELEVISI TERHADAP KEPUTUSAN VOTERS DALAM MEMILIH CALON PRESIDEN DAN WAKIL PRESIDEN PADA PEMILU 2004 (Studi di Kelurahan Maguwoharjo Kecamatan Depok Kabupaten Sleman Propinsi Daerah Istimewa Yogya

0 0 14

PENERAPAN ALGORITMA ANFIS DALAM PENGAMBILAN KEPUTUSAN PERPINDAHAN LAMPU LALU LINTAS PADA SISTEM TRANSPORTASI CERDAS Elly Warni Ellywarni82gmail.com Dosen Teknik Informatika, Jurusan Teknik Elektro, Fakultas Teknik, Universitas Hasanuddin ABSTRAK - Penerap

0 0 6

ANALISIS TINJAUAN PERBANDINGAN AKUNTANSI PERPAJAKAN DENGAN AKUNTANSI KOMERSIAL DALAM PELAPORAN SURAT PEMBERITAHUAN TAHUNAN PADA KANTOR PELAYANAN PAJAK PRATAMA PEKANBARU SENAPELAN

0 0 16

STRATEGI PENGURANGAN ANGKA PENGANGGURAN BERDASARKAN TINGKAT PENDIDIKAN MELALUI KEWIRAUSAHAAN

0 0 10

ANALISIS PENGARUH SINYAL 3G PADA SMARTPHONE YANG MENYEBABKAN BATERAI CEPAT DROPLOWBAT Aminah H. Umar Teknik Elektro, Universitas Sawerigading Makassar amina.usman7578gmail.com Abstrak - Analisis Pengaruh Sinyal 3G Pada Smartphone yang Menyebabkan Baterai

0 0 9

PENERAPAN TEKNOLOGI AUGMENTED REALITY PADA KAMPUS TEKNIK GOWA

0 0 8

PERANCANGAN APLIKASI PEMERIKSAAN LISTING PROGRAM PHP PADA E-LEARNING

0 1 7