PEMBENTUKAN THESAURUS YANG SENSITIF TERHADAP TINGKAT POLARITAS REVIEW PADA CROSS-DOMAIN SENTIMENT CLASSIFICATION Putu Praba Santika, Agus Zainal Arifin, Diana Purwitasari
PEMBENTUKAN THESAURUS YANG SENSITIF TERHADAP TINGKAT
POLARITAS REVIEW PADA CROSS-DOMAIN SENTIMENT CLASSIFICATION
Putu Praba Santika, Agus Zainal Arifin , Diana Purwitasari
Jurusan Teknik Informatika, Institut Teknologi Sepuluh Nopember Kampus ITS Keputih, Sukolilo, Surabaya 60111, Jawa Timur, Indonesia
Email: [email protected]
ABSTRAK
Ketidaksesuaian antara isi opini dan rating yang diberikan pada review produk mungkin terjadi karena diberikan secara terpisah. Pendekatan Machine Learning dapat dilakukan untuk klasifikasi sentimen yang terdapat pada opini untuk mendapatkan rating. Idealnya classifier dilatih dengan data yang sudah diketahui polaritasnya dari domain yang sama dengan domain yang akan diuji, sehingga diperlukan data latih tersendiri. Pelabelan secara manual pada pembuatan data latih sangat menghabiskan waktu dan biaya. Untuk menghidari pelabelan secara manual, dilakukan dengan pendekatan cross-domain sentiment
classification .
Pendekatan ini hanya membedakan polaritas opini menjadi positif dan negatif. Hal ini menyebabkan kerancuan, sehingga perlu digunakan rentang nilai untuk menunjukkan tingkat polaritas suatu opini. Penelitian ini bertujuan untuk mengusulkan pendekatan pengukuran tingkat polaritas review pada cross-domain sentiment classification agar dapat melakukan klasifikasi pada domain yang berbeda. Metode yang digunakan adalah membuat thesaurus yang sensitif terhadap tingkat polaritas sentimen digunakan dalam features expansion untuk menambahkan feature baru pada Review. Review yang sudah ditambah feature baru digunakan pada training dan testing.
Hasil pengujian menunjukkan bahwa rata-rata akurasi pada pengujian cross-domain
sentiment classification yang menerapkan features expansion dengan memanfaatkan
thesaurus yang sensitif terhadap sentiment 8.17% lebih baik dari pada yang tidak
menerapkan features expansion. Penelitian ini membuktikan bahwa klasifikasi pada domain yang berbeda dapat dilakukan dengan menerapkan features expansion dengan memanfaatkan
thesaurus yang sensitif terhadap tingkat polaritas sentiment.
Kata kunci: cross-domain, machine learning, sentiment classification, tingkat polaritas.
(D’Avanzo & Pilato, 2014). Sebanyak
1. Pendahuluan
80% calon pembeli mempertimbangkan Tren berbelanja secara online review sebelum memutuskan untuk membuat pembeli produk atau jasa membeli atau menggunakan produk atau mengekpresikan opini mengenai produk jasa (Pang & Lee, 2008) (D'avanzo & atau jasa dengan menuliskan review secara Kuflik, 2013).
online pula. Calon pembeli dapat
Banyaknya ulasan membutuhkan memanfaatkan review dari pembeli produk banyak waktu untuk membaca, sehingga atau jasa sebelumnya sebagai diperlukan sebuah mekanisme untuk pertimbangan sebelum memutuskan membantu mengetahui secara singkat opini menggunakan produk atau jasa tersebut pengguna terhadap sebuah produk atau layanan. Saat ini, rating atau penilain tingkat kepuasan pengguna terhadap suatu produk harus diberikan secara manual oleh penulis opini. Ketidaksesuaian antara isi opini dan nilai tingkat kepuasan mungkin terjadi, sehingga diperlukan pemberian tingkat kepuasan secara otomatis terhadap opini tersebut. Opinion Mining adalah suatu cara untuk mengidentifikasi opini terhadap suatu subjek kemudian mengevaluasi polaritas dari opini tersebut (Tsytsarau & Palpanas, 2012). Dengan
opinion mining dapat diketahui polaritas
data latih yang sudah diketahui polaritasnya. Untuk masing-masing domain diperlukan data latih tersendiri (Blitzer, Dredze, & Pereira, 2007).
Sentiment Sensitive Thesaurus . Sentiment Sensitive Thesaurus berisi kumpulan kata
Whitehead (Whitehead & Yaeger, 2009) melakukan penelitian dengan menggunakan data dari beberapa domain berbeda digabungkan untuk digunakan sebagai data latih. Penggunaan gabungan data dari beberapa domain terbukti meningkatkan akurasi namun tidak terlalu signifikan. Penggunaan gabungan data dari beberapa domain berbeda sangat terpengaruh oleh kesamaan antara fitur pada data latih hasil penggabungan dengan fitur yang terdapat pada data dari domain yang akan diuji. Metode lain untuk menangani masalah cross-domain adalah dengan memanfaatkan feature expansion (Bollegala, Weir, & Carroll, 2013). Ketidak cocokan fitur pada domain yang berbeda ditangani dengan membuat
data berlabel dari domain sumber ditambah data yang belum berlabel dari domain target untuk melakukan transfer learning .
sentiment classification memanfaatkan
menganalisa data dari sebuah domain kemudian hasilnya digunakan untuk melakukan klasifikasi pada domain yang berbeda. Secara umum Cross-domain
Cross-domain classification atau transfer learning berfokus pada
Pelabelan fitur secara manual pada pembuatan data latih sangat menghabiskan waktu dan biaya. Untuk menghidari pelabelan secara manual, dilakukan penelitian agar dapat menggunakan data latih dari domain yang sudah tersedia untuk menangani klasifikasi pada domain yang berbeda. Klasifikasi sentimen dengan menggunakan data latih dari domain yang berbeda dengan domain data yang akan diuji disebut cross-domain sentiment classification .
mining atau sentiment analysis diperlukan
sebuah ulasan produk. Polaritas review menunjukkan apakah ulasan tersebut mengandung opini positif atau negatif. Klasifikasi dapat dilakukan berdasarkan sentimen yang terdapat pada opini tersebut. Turney melakukan klasifikasi terhadap review untuk merekomendasikan atau tidak suatu produk dilakukan dengan cara menghitung rata-rata nilai orientasi semantiknya (Turney, 2002). Orientasi simantik dihitung berdasarkan kedekatan dengan kata “excellent” dikurangi kedekatan dengan “poor”. Machine
Untuk dapat melakukan opinion
data yang sudah diketahui polaritasnya dari domain yang sama dengan domain yang akan diuji. Classifier yang dilatih kemudian diuji dengan data dari domain yang berbeda akan memberikan hasil yang buruk (Whitehead & Yaeger, 2009). Hal ini terjadi karena fitur yang terdapat pada domain sumber (domain yang digunakan untuk pelatihan) tidak cocok dengan fitur yang terdapat pada domain tujuan (domain yang diuji).
learning idealnya classifier dilatih dengan
Pada pendekatan machine
akurasi yang lebih tinggi. (Pang, Lee, & Vaithyanathan, 2002).
Machine Learning memberikan tingkat
klasifikasi terhadap sentimen. Metode
Learning juga digunakan untuk melakukan
yang berbeda namun menunjukkan sentimen yang sama, pada domain yang berbeda. Fitur-fitur yang berkaitan ditambahkan pada vektor fitur untuk menjembatani domain sumber dan domain tujuan.
Penelitian tersebut hanya membedakan polaritas opini menjadi dua, yaitu positif dan negatif. Walaupun opini sebenarnya hanya bernada sedikit positif, namun jika menggunakan pendekatan tersebut, opini akan dianggap menjadi positif sehingga menimbulkan kerancuan (Okanohara & Tsujii, 2005). Untuk mengatasi kerancuan ini perlu digunakan rentang nilai untuk menunjukkan tinggkat polaritas suatu opini.
data mining
Kinerja yang buruk tersebut disebabkan oleh beberapa penyebab. Pertama, setiap domain memiliki kata-kata khusus yaitu kata yang hanya terdapat pada domain tersebut. Kata-kata khusus pada suatu domain berbeda dengan kata- kata khusus domain lain. Kedua, kata-kata yang memiliki korelasi tinggi dengan label kelas tertentu dalam domain yang digunakan sebagai data latih mungkin tidak memiliki
data yang sudah diketahui polaritasnya dari domain yang sama dengan domain yang akan diuji. Classifier yang dilatih kemudian diuji dengan data dari domain yang berbeda akan memberikan hasil yang buruk (Whitehead & Yaeger, 2009). Hal ini terjadi karena fitur yang terdapat pada domain sumber (domain yang digunakan untuk pelatihan) tidak cocok dengan fitur yang pada domain tujuan (domain yang diuji).
learning idealnya classifier dilatih dengan
Pada pendekatan machine
2.2 Cross-Domain Sentiment Classification
Salah satu penerapan sentiment analysis adalah pada pemberian rating produk. Pengguna dapat secara tidak sengaja memberikan rating rendah, padahal review yang diberikan sangat positif. Kesalahan ini dapat diatasi dengan melakukan klasifikasi terhadap sentiment review, sehingga dapat memberikan rating secara otomatis (Pang & Lee, 2008).
. Fokus utama dari analisis sentimen untuk menentukan sikap pembicara atau penulis terhadap beberapa topik, atau polaritas kontekstual keseluruhan dokumen. Sikap dapat berupa penilaian atau evaluasi yang dilakukan oleh penulis, atau efek emosional. (Kurian, 2014)
informasi subjektif dari dokumen tekstual menggunakan pengolahan bahasa alami (natural language processing) dan teknik
Pada penelitian ini dikembangkan metode yang dapat menunjukkan tingkat poaritas opini suatu produk, tanpa harus memberikan label terhadap data latih pada domain tersebut. Sebelum dilakukan klasifikasi, review mengalami feature
Sentiment analysis mengidentifikasi
analisis sentiment (Khan, Baharudin, Khan, & Malik, 2009). Sentiment analysis juga dapat menyatakan perasaan emosional sedih, gembira, atau marah.
Opinion mining juga disebut sebagai
Tujuan dari Opinion mining adalah untuk membuat komputer mampu mengenali dan mengekspresikan emosi. Tugas dasar dalam analisis sentimen adalah mengelompokkan teks kalimat atau dokumen dan menentukan pendapat yang dikemukakan dalam kalimat atau dokumen tersebut apakah bersifat positif atau negatif. Sebuah pikiran, pandangan, atau sikap berdasarkan emosi, disebut sentimen. Jadi
pendapat yang dikemukakan pada suatu subjek tertentu dan mengevaluasi polaritas pendapat ini. Polaritas sentimen adalah titik pada skala evaluasi yang sesuai dengan evaluasi positif atau negatif tentang makna sentimen ini.
Opinion mining / Sentiment analysis bertujuan untuk mengidentifikasi
yang sensitif terhadap tingkat polaritas sentimen.
expansion dengan memanfaatkan thesaurus
2. Tinjauan Pustaka
2.1. Opinion Mining
tingkat korelasi yang sama dengan label
2.1 Tahap Preprocessing
kelas yang sama di target domain (Kurian, Pada tahap preprocessing, review 2014). dipecah menjadi kalimat. Selanjutnya kata-
Tantangan yang terdapat pada kata dalam kalimat tersebut ditandai sesuai pendekatan machine learning adalah dengan jenis katanya. Tahapan penandaan bagaimana memanfaatkan data yang telah jenis kata ini disebut Part-of-Speech memiliki label sentimen dalam satu domain .
Tagging
(yaitu domain sumber) agar dapat digunakan Untuk setiap kata yang sudah ditandai untuk melakukan klasifikasi sentimen di jenis katanya kemudian dicek apakah kata domain lain (yaitu domain target). Konsep tersebut sudah tidak mengandung angka dan
cross-domain sentiment classification karakter khusus, bukan merupakan
digunakan untuk menangani masalah ini. , dan jenis katannya atau Part-of-
stopword
Data dari sebuah domain dianalisis Speech nya sudah sesuai dengan jenis kata kemudian hasilnya digunakan untuk yang akan digunakan pada tahap melakukan klasifikasi pada domain yang pembentukan thesaurus yang sensitif berbeda. terhadap tingkat polaritas sentiment. Jika semua syarat tersebut terpenuhi maka kata tersebut dimasukkan kedalam daftar
3. Desain Sistem unigram yang berbentuk list, banyaknya
Proses-proses yang dilalui pada kemunculan kata ini dalam kalimat juga pengukuran tingkat polaritas review pada disimpan dalam list terpisah.
Setelah terbentuk unigram, kemudian
cross-domain sentiment classification
disusun sesuai framework pada Gambar 1. dilanjutkan dengan dengan membentuk
bigram . Bigram dibentuk dengan
menggabungkan dua buah unigram yang berurutan. Bigram dan dan banyaknya
Review 1 Review 2
kemunculan bigram dalam kalimat juga disimpan dalam list yang sebelumnya sudah
Review n Review …
berisi unigram. ID dari setiap elemen list ini merupakan kode dari unigram atau bigram tersebut. Kode unigram, bigram serta
Preprocessing
banyak kemunculannya dalam dokumen
review dicatat sebagai kode penyusun teks review tersebut.
Membentuk Thesaurus Yang Sensitif Terhadap
3.2 Tahap Pembentukan Thesaurus yang Tingkat Polaritas
Sensitif Terhadap Tingkat Polaritas Sentimen
Sentimen Thesaurus yang sensitif terhadap
tingkat polaritas sentiment didapat dengan
Feature Expansion mencari hubungan antar lexical elements.
Tahapan yang dilakukan untuk membentuk
Klasifikasi Tingkat thesaurus yang sensitif terhadap tingkat Polaritas Opini
polaritas sentiment adalah menghitung banyaknya kemunculan masing-masing
lexical elements dengan sentiment emlement Gambar 1. Tahapan Klasifikasi Tingkat dalam review. Polaritas Opini Banyaknya kemunculan antara lexical
elements
}, vektor ini disebut sebagai d’. Nilai N elemen pertama pada
( , ) =
∑ ( , ) =1
∑ =1
(4) Skor u i diurutkan secara menurun, kemudian dipilih k buah yang terbaik. Base
entry yang terpilih untuk review d
dilambangkan dengan dengan nilai r berupa rentang dari 1 sampai k. Vektor review d yang awalnya hanya berisi {w
1 , w 2, …, w
N
} digabungkan dengan base entry yang terpilih, sehingga menjadi {w
1 , w 2, …, w N ,
1 , 2 , … ,
d’ sama
j
dengan nilai N elemen pertama pada vektor
d yaitu banyaknya kemunculan w i
pada review d. Sedangkan untuk elemen ke N+1 sampai k pada vektor
d’ berisi nilai skor
yang dihasilkan pada Persamaan 4 untuk masing masing base entry yang terpilih.
3.4 Tahap Klasifikasi Tingkat Polaritas Opini
Untuk mengetahui tingkat polaritas suatu review dilakukan melalui metode klasifikasi multi class. Untuk melakukan klasifikasi digunakan L1 regularized logistic
regression . Class yang ingin dibentuk
adalah class sesuai dengan tingkatan polaritasnya yaitu (1,2,3,4,5).
Untuk melakukan klasifikasi, terdapat dua langkah yang harus dilakukan, yaitu
training dan testing. Tahap training, classifier dilatih dengan vektor d’ yang
merupakan vektor review digabungkan dengan vektor hasil ekspansi nya. Langkah selanjutnya adalah menggunakan classifier yang telah dilatih untuk menentukan class dari review yang diuji.
pada review d. Kandidat yang akan digunakan untuk melakukan ekspansi terhadap semua base entry dihitung dengan persamaan 4.
adalah banyaknya kemunculan unigram atau bigram w
u dan sentiment elements w dilambangkan dengan c(u,w). Banyaknya kemunculan antara lexical elements u dan
Pointwise Mutual Information
sentiment elements w digunakan untuk
menghitung Pointwise Mutual Information (PMI) antara lexical elements u dan
sentiment elements w dilambangkan dengan f(u,w) sesuai persamaan 1.
( , ) = log (
( , ) ∑ ( , ) =1
× ∑ ( , ) =1
), (1) Dengan banyaknya lexical element u dan
sentiment element w dinotasikan dengan n
dan m. Sedangkan N dihitung dengan menggunakan persamaan 2, = ∑
∑ ( , )
=1 =1 .
(2)
digunakan untuk mengetahui keterkaitan antara sebuah lexical elements dan sentiment
d j
elements . Selanjutnya, nilai keterkaitan
anatara sebuah lexical elements dan
sentiment elements digunakan untuk
melakukan perhitungan nilai kemiripan antar lexical elements.
Untuk menghitung kemiripan antara lexical element u dan lexical element v digunakan persamaan 3
( , ) =
∑ ( , ) ∈{ | ( , )>0 ∑ ( , )
∈{ | ( , )>0
(3) dimana f(u,w) pada persamaan 3 dihitung sesuai dengan persamaan 1.
Sebuah review d dimodelkan dalam set {w
1 , w 2, …, w N } dimana w 1 merupakan
unigram atau bigram pada review d. dimana
3.3 Tahap Feature Expansion
4. HASIL UJI COBA DAN PEMBAHASAN
feature expansion dengan memanfaatkan thesaurus yang sensitif terhadap tingkat
{1, 2, 3, … , 100}
C {1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
11, 12, 13, 14, 15, 16, 17, 18, 19, 20}
Eps { 0,01; 0,02; 0,03; 0,04; 0,05;
0,06; 0,07; 0,08; 0,09; 0,1} Pengujian pertama bertujuan untuk mendapatkan nilai akurasi maksimum untuk masing-masing kombinasi domain sumber dan target pada kasus cross-domain
sentiment classification
yang menerapkan
polaritas sentimen. Nilai ketiga parameter dikombinasikan dan digunakan dalam melakukan cross-domain sentiment
Tabel 1. Parameter yang Dioptimasi dan Nilainya Parameter Nilai Parameter
classification untuk masing-masing
kombinasi domain yang tersedia, yaitu
Book , CDs & Vinyl, Electronics, Home & Kitchen . Masing-masing akurasi dicatat,
kemudian diurutkan berdasarkan nilai akurasi secara menurun. Hasil akurasi maksimum dan kombinasi nilai parameter untuk masing-masing kombinasi domain ditunjukkan pada Tabel 2.
Tabel 2 menunjukkan akurasi maksimum didapat pada kombinasi domain
Home & Kitchen sebagai domain sumber dan domain Book sebagai domain target.
Akurasi yang diperoleh sebesar 68%.
K
Pada ujicoba ini digunakan data review produk pada web Amazon yang telah diambil dan digunakan dalam penelitian yang dilakukan oleh McAuley (McAuley & Leskovec, 2013) , kemudian diperbaharui pada penelitian (McAuley, Pandey, & Leskovec, 2015). Domain yang dipilih adalah Book, CDs & Vinyl, Electronics,
Home & Kitchen karena memiliki komentar
Ketiga variable ini diberikan nilai awal seperti ditunjukkan pada tabel 1.
terbanyak. Keempat domain ini digunakan sebagai domain sumber dan domain tujuan secara bergantian, sehingga didapat 12 kombinasi domain sumber dan domain target.
Untuk masing-masing domain produk diambil secara acak 100 review yang memiliki rating 1, 100 review yang memiliki rating 2, 100 review yang memiliki rating 3, 100 review yang memiliki rating 4, 100 review yang memiliki rating 5. Sehingga terdapat 500 review yang terbagi dalam 5 rating yang berbeda. Review ini disebut sebagai labeled
review karena telah memiliki tingkat
polaritas. Selain itu diambil 1000 review lain tanpa memperhatikan rating dari review tersebut. Review ini disebut sebagai
unlabeled review , karena dianggap tidak memiliki tingkat polaritas.
Dalam pengujian terdapat tiga buah parameter yang dikombinasikan untuk mencapai akurasi maksimal. Ketiga parameter tersebut adalah k yaitu banyaknya fitur atau lexical elements yang akan diambahkan pada review, c yaitu
regularization parameter , dan eps yaitu kriteria terminasi pada proses training.
Banyaknya fitur atau lexical element yang akan diambahkan pada review (k) ditentukan pada rentang antara 1 sampai 100 dengan kenaikan 1 karena penambahan
parameter yang telalu kecil menyebabkan
lexical element yang terlalu banyak pada review akan menyebabkan akurasi menurun.
Akurasi menurun karena semakin banyak
lexical element yang ditambahkan, maka
semakin besar kemungkinan terdapat lexical
element yang sebenarnya tidak memiliki
kaitan erat dengan review, namun ikut ditambahkan pada review. Nilai
regularization parameter (c) ditetapkan
pada rentang antara 1 sampai 20 dengan kenaikan 1 karena nilai regularization
model klasifikasi yang terbentuk pada saat training menjadi overfiting, sebaliknya jika terlalu besar, maka akan terbentuk model klasifikasi yang underfiting. Sedangkan akurasi terendah didapat pada kombinasi domain CDs & Vinyl sebagai domain sumber dan domain Home &
Kitchen sebagai domain target. Akurasi
nilai parameter yang telah disebutkan sebelumnya. Untuk pengujian pada kasus
Classification tanpa Menerapkan Feature Expansion Domai n
Tabel 3. Hasil Cross-Domain Sentiment
nilai parameter k selalu bernilai 0. Parameter k bernilai 0 berarti tidak ada lexical elements yang ditambahkan pada review tersebut. Masing-masing akurasi dicatat, kemudian diurutkan berdasarkan nilai akurasi secara menurun. Hasil akurasi maksimum dan kombinasi nilai parameter untuk masing- masing kombinasi domain ditunjukkan pada tabel 3.
feature expansion
menerapkan
cross-domain sentiment classification tanpa
Kitchen dengan menggunakan kombinasi
Optimal Akura si (%) k C Eps
, CDs & Vinyl, Electronics, Home &
Book
kombinasi domain yang tersedia, yaitu
classification untuk masing-masing
. Nilai ketiga parameter dikombinasikan dan digunakan dalam melakukan cross-domain sentiment
sentiment classification tanpa menerapkan feature expansion
Sumb er Domai n Tujuan Nilai Parameter
Book CDs & Vinyl
49 Rata-rata 48,7
Electr onics 8 0,05
48
9 0,01
33 Electr onics Book
6 0,01
Home & Kitche n
30 CDs & Vinyl
37 CDs & Vinyl
18 0,03
Book 14 0,02
40 CDs & Vinyl
1 0,03
43 Book Home & Kitche n
8 0,06
57 Book Electr onics
mendapatkan nilai akurasi maksimum untuk masing-masing kombinasi domain sumber dan target pada kasus cross-domain
30 11 0,07
yang diperoleh sebesar 30%. Rata-rata akurasi pada pengujian cross-domain
Book CDs & Vinyl
34 CDs & Vinyl Book
1 2 0,07
46 Book Home & Kitchen
1 1 0,04
58 Book Electroni cs
27 9 0,06
Akur asi (%) k c eps
65 CDs & Vinyl Electroni cs
Domain Tujuan Nilai Parameter Optimal
Classification dengan Menerapkan Feature Expansion Domain Sumber
untuk semua kombinasi domain adalah 48.75%. Tabel 2. Hasil Cross-Domain Sentiment
features expansion dengan memanfaatkan thesaurus yang sensitif terhadap sentiment
yang menerapkan
sentiment classification
86 13 0,1
68 13 0,06
48 Home & Kitchen Electroni cs
Kitchen
37 12 0,06
Vinyl
68 Home & Kitchen CDs &
16 19 0,07
37 Home & Kitchen Book
17 13 0,06
49 Electroni cs Home &
38 CDs & Vinyl Home &
42 18 0,06
Vinyl
63 Electroni cs CDs &
11 8 0,06
30 Electroni cs Book
1 12 0,01
Kitchen
5 Pengujian kedua bertujuan untuk
Electr onics CDs & Vinyl
kandidat tersebut termasuk dalam k lexical
sebagai domain sumber dan domain Home & Kitchen sebagai domain target sangat rendah disebabkan oleh kurangnya informasi sentiment element, sehingga belum mampu memunculkan keterkaitan antara lexical element penyusun
review dengan lexical element kandidat
yang ditambahkan pada review dalam proses
feature expansion . Hal ini akan
menyebabkan skor keterkaitan menjadi rendah. Dalam prosesnya, feature expansion akan mengurutkan skor keterkaitan antara
lexical element penyusun review dengan lexical element yang menjadi kandidat.
Kemudian dipilih sebanyak k lexical
element
baru dengan skor tertinggi yang digunakan untuk ditambahkan pada review. Walaupun skor keterkaitan untuk lexical
element kandidat kecil, jika lexical element
element
Akurasi yang didapat pada kombinasi
kandidat dengan nilai tertinggi, maka terpaksa fitur tersebut digunakan.
Lexical element terpaksa ditambahkan pada review tersebut juga tampak dari nilai
parameter k yaitu parameter yang menyatakan banyaknya jumlah lexical element yang harus ditambah. Pada kombinasi CDs & Vinyl sebagai domain sumber dan domain Home & Kitchen sebagai domain target akurasi maksimal didapat pada parameter k bernilai 1. Nilai k sangat kecil, yaitu hanya bernilai 1 karena ternyata penambahan lebih banyak lexical
element pada review malah menurunkan
nilai akurasi. Lexical element dengan skor keterkaitan rendah terhadap review, berarti
lexical element tersebut tidak memiliki hubungan rengan review tersebut.
Penambahan lexical element yang tidak memiliki berkaitan dengan review malah menyebabkan hasil klasifikasi menurun. Hal ini dapat dilihat pada salah satu contoh
review pada kombinasi CDs & Vinyl sebagai
domain sumber dan domain Home &
Kitchen sebagai domain target. Sebagai
CDs & Vinyl
tanpa menerapkan features expansion , yaitu 28%.
2 0,05
Akurasi terbaik yang diperoleh sebesar 57%. Akurasi terbaik didapat pada kombinasi domain Book sebagai domain sumber dan domain CDs & Vinyl sebagai domain target dan juga kombinasi domain
22 Electr onics Home
& Kitche n
7 0,07
34 Home & Kitche n Book
1 0,04
57 Home & Kitche n CDs &
Vinyl 1 0,03
43 Home & Kitche n Electr onics
14 0,02
43 Rata-rata 40,58
Home & Kitchen sebagai domain sumber dan domain Book sebagai domain target.
sentiment classification
Sedangkan akurasi terendah didapat pada kombinasi domain Electronics sebagai domain sumber dan domain CDs & Vinyl sebagai domain target. Akurasi yang diperoleh sebesar 22%. Rata-rata akurasi pada pengujian cross-domain sentiment
classification tanpa menerapkan features expansion untuk semua kombinasi domain
adalah 40,58%.
Pada pengujian cross-domain
sentiment classification
yang menerapkan
features expansion dengan memanfaatkan thesaurus yang sensitif terhadap tingkat
polaritas sentimen, kombinasi CDs &
Vinyl sebagai domain sumber dan Electronics
sebagai domain target, menghasilkan nilai akurasi yang sangat rendah, akurasi yang didapat hanya sebesar 26%. Nilai akurasi ini bahkan lebih rendah dibandingkan pengujian cross-domain
contoh sepuluh lexical element dengan skor tertinggi yang ditambahkan pada review
0615391206A388T8QB30Y6U11 ditunjukkan pada Tabel 4. Tabel 4. Lexical Element Dengan Skor
Pada paper ini diusulkan cross-domain
menerapkan fture expansion dengan memanfaatkan thesaurus yang sensitif terhadap tingkat polaritas sentiment dapat memperbaiki akurasi pada kasus cross-
classification tanpa menerapkan fture expansion . Ini membuktikan bahwa dengan
menerapkan fture expansion dengan memanfaatkan thesaurus yang sensitif terhadap tingkat polaritas sentiment memiliki rata-rata akurasi 8.17% lebih baik daripada cross-domain sentiment
domain sentiment classification yang
digunakan untuk menghitung keterkaitan review dengan lexical elements. Cross-
elements. Keterkaitan antar lexical elements
dihitung dengan membagi jumlah nilai keterkaitan sentiment elements yang pernah muncul bersama kedua lexical elements dibagi dengan jumlah semua nilai keterkaitan dengan semua sentiment
elements. Keterkaitan antar lexical elements
polaritas sentiment. Thesaurus yang sensitif terhadap tingkat polaritas sentiment dibentuk dengan menghitung keterkaitan anatara lexical elements dan sentiment
sentiment classification yang menerapkan feature expansion dengan memanfaatkan thesaurus yang sensitif terhadap tingkat
KESIMPULAN
Tertinggi pada Review 0615391206A388T8QB30Y6U11
1 Kode lexical element Skor Keterkaitan 4970 5.504 3640 1.793 17287 1.4212 2303 0.7981 2306 0.7534 2308 0.5544 4969 0.5415 3634 0.5384 1 0.4506 4966 0.3424 5.
Tabel 5. Lexical Element Dengan Skor Tertinggi pada Review 0001714384A19HM4UCA0MC9R
membantu proses training dan testing pada tahap klasifikasi.
lexical element tersebut. Tambahan lexical element yang memiliki keterkaitan erat akan
Pada contoh review dari kombinasi domain Home & Kitchen sebagai domain sumber dan Book sebagai domain target, skor keterkaitan antara lexical element yang ditambahkan memiliki keterkaitan yang erat dengan review, hal ini ditunjukkan dengan skor keterkaitan yang tinggi. Keterkaitan antara review dan lexical element tidak harus memiliki kesamaan arti, atau sinonim, namun kedekatan lebih pada kesamaan tingkat polaritas antara review dengan
Pada kombinasi domain Home & Kitchen sebagai domain sumber dan Book sebagai domain target, sepuluh lexical element dengan skor tertinggi pada review 0001714384A19HM4UCA0MC9R1 ditunjukkan pada tabel 5
4971 0,0057 2303 0,0056 30266 0,005
3639 0,0099 17286 0,0097 30260 0,0076 17281 0,0066
Skor Keterkaitan 17289 0,0606 17284 0,0328 3640 0,0113
element
Kode lexical
domain sentiment classification untuk pengukuran tingkat polaritas review.
Science and Information Engineering (pp. 472-476). IEEE.
[9] McAuley, J., & Leskovec, J. (2013).
Building a General Purpose Cross- Domain Sentiment Mining Model. [17] World Congress on Computer
[16] Whitehead, M., & Yaeger, L. (2009).
Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (pp. 417- 424). Stroudsburg.
[15] Turney, P. D. (2002). Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. ACL '02
(2012). Survey on Mining Subjective Data on the Web. Data Mining and Knowledge Discovery , 478-514.
79-86). ACM. [14] Tsytsarau, M., & Palpanas, T.
[13] Pang, B., Lee, L., & Vaithyanathan, S. (2002). Thumbs up?: sentiment classification using machine learning techniques. Empirical Methods in Natural Language Processing (pp.
Foundations and Trends in Information Retrieval , 1-135.
[12] Pang, B., & Lee, L. (2008). Opinion Mining and Sentiment Analysis.
Assigning Polarity Scores to Reviews Using Machine Learning Techniques. Lecture Notes in Computer Science , 314-325.
Leskovec, J. (2015). Inferring networks of substitutable and complementary products. Knowledge Discovery and Data Mining . [11] Okanohara, D., & Tsujii, J. (2005).
(pp. 165-172). New York: ACM. [10] McAuley, J., Pandey, R., &
7th ACM conference on Recommender systems
Hidden factors and hidden topics: understanding rating dimensions with review text.
[8] Liu, B. (2010). Sentiment Analysis: A Multi-Faceted Problem. IEEE Intelligent Systems .
DAFTAR PUSTAKA [1] Blitzer, J., Dredze, M., & Pereira, F.
Meeting of the Association of Computational Linguistics (pp. 440
(2007). Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification. The 45th Annual
- – 447). Prague: Association for Computational Linguistics.
[6] Khan, K., Baharudin, B., Khan, A., & Malik, F. (2009). Mining Opinion from Text Documents: A Survey.
D. (2003). Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews. WWW2003. Budapest: ACM.
[5] Dave, K., Lawrence, S., & Pennock,
of Information Technology & Decision Making .
Advanced Research in Computer Engineering & Technology (IJARCET) , 1747-1750.
Mining social network users opinions to aid buyers shopping decisions. Computers in Human Behavior . [4] D'avanzo, E., & Kuflik, T. (2013). E-
[3] D’Avanzo, E., & Pilato, G. (2014).
IEEE Transactions On Knowledge And Data Engineering , 1719-1731.
(2013). Cross-Domain Sentiment Classification Using a Sentiment Sensitive Thesaurus.
[2] Bollegala, D., Weir, D., & Carroll, J.
IEEE International Conference on Digital Ecosystems and Technologies (pp. 217-222). IEEE.
[7] Kurian, N. (2014). Cross Domain Sentiment Classification: Current Solutions. International Journal of
Commerce Websites Services Versus Buyers Expectations: An Empirical Analysis Of The Online Marketplace. International Journal