PEMBENTUKAN THESAURUS YANG SENSITIF TERHADAP TINGKAT POLARITAS REVIEW PADA CROSS-DOMAIN SENTIMENT CLASSIFICATION Putu Praba Santika, Agus Zainal Arifin, Diana Purwitasari

PEMBENTUKAN THESAURUS YANG SENSITIF TERHADAP TINGKAT

POLARITAS REVIEW PADA CROSS-DOMAIN SENTIMENT CLASSIFICATION

Putu Praba Santika, Agus Zainal Arifin , Diana Purwitasari

Jurusan Teknik Informatika, Institut Teknologi Sepuluh Nopember Kampus ITS Keputih, Sukolilo, Surabaya 60111, Jawa Timur, Indonesia

Email: [email protected]

ABSTRAK

Ketidaksesuaian antara isi opini dan rating yang diberikan pada review produk mungkin terjadi karena diberikan secara terpisah. Pendekatan Machine Learning dapat dilakukan untuk klasifikasi sentimen yang terdapat pada opini untuk mendapatkan rating. Idealnya classifier dilatih dengan data yang sudah diketahui polaritasnya dari domain yang sama dengan domain yang akan diuji, sehingga diperlukan data latih tersendiri. Pelabelan secara manual pada pembuatan data latih sangat menghabiskan waktu dan biaya. Untuk menghidari pelabelan secara manual, dilakukan dengan pendekatan cross-domain sentiment

classification .

Pendekatan ini hanya membedakan polaritas opini menjadi positif dan negatif. Hal ini menyebabkan kerancuan, sehingga perlu digunakan rentang nilai untuk menunjukkan tingkat polaritas suatu opini. Penelitian ini bertujuan untuk mengusulkan pendekatan pengukuran tingkat polaritas review pada cross-domain sentiment classification agar dapat melakukan klasifikasi pada domain yang berbeda. Metode yang digunakan adalah membuat thesaurus yang sensitif terhadap tingkat polaritas sentimen digunakan dalam features expansion untuk menambahkan feature baru pada Review. Review yang sudah ditambah feature baru digunakan pada training dan testing.

Hasil pengujian menunjukkan bahwa rata-rata akurasi pada pengujian cross-domain

sentiment classification yang menerapkan features expansion dengan memanfaatkan

thesaurus yang sensitif terhadap sentiment 8.17% lebih baik dari pada yang tidak

menerapkan features expansion. Penelitian ini membuktikan bahwa klasifikasi pada domain yang berbeda dapat dilakukan dengan menerapkan features expansion dengan memanfaatkan

thesaurus yang sensitif terhadap tingkat polaritas sentiment.

Kata kunci: cross-domain, machine learning, sentiment classification, tingkat polaritas.

(D’Avanzo & Pilato, 2014). Sebanyak

1. Pendahuluan

80% calon pembeli mempertimbangkan Tren berbelanja secara online review sebelum memutuskan untuk membuat pembeli produk atau jasa membeli atau menggunakan produk atau mengekpresikan opini mengenai produk jasa (Pang & Lee, 2008) (D'avanzo & atau jasa dengan menuliskan review secara Kuflik, 2013).

online pula. Calon pembeli dapat

Banyaknya ulasan membutuhkan memanfaatkan review dari pembeli produk banyak waktu untuk membaca, sehingga atau jasa sebelumnya sebagai diperlukan sebuah mekanisme untuk pertimbangan sebelum memutuskan membantu mengetahui secara singkat opini menggunakan produk atau jasa tersebut pengguna terhadap sebuah produk atau layanan. Saat ini, rating atau penilain tingkat kepuasan pengguna terhadap suatu produk harus diberikan secara manual oleh penulis opini. Ketidaksesuaian antara isi opini dan nilai tingkat kepuasan mungkin terjadi, sehingga diperlukan pemberian tingkat kepuasan secara otomatis terhadap opini tersebut. Opinion Mining adalah suatu cara untuk mengidentifikasi opini terhadap suatu subjek kemudian mengevaluasi polaritas dari opini tersebut (Tsytsarau & Palpanas, 2012). Dengan

opinion mining dapat diketahui polaritas

data latih yang sudah diketahui polaritasnya. Untuk masing-masing domain diperlukan data latih tersendiri (Blitzer, Dredze, & Pereira, 2007).

Sentiment Sensitive Thesaurus . Sentiment Sensitive Thesaurus berisi kumpulan kata

Whitehead (Whitehead & Yaeger, 2009) melakukan penelitian dengan menggunakan data dari beberapa domain berbeda digabungkan untuk digunakan sebagai data latih. Penggunaan gabungan data dari beberapa domain terbukti meningkatkan akurasi namun tidak terlalu signifikan. Penggunaan gabungan data dari beberapa domain berbeda sangat terpengaruh oleh kesamaan antara fitur pada data latih hasil penggabungan dengan fitur yang terdapat pada data dari domain yang akan diuji. Metode lain untuk menangani masalah cross-domain adalah dengan memanfaatkan feature expansion (Bollegala, Weir, & Carroll, 2013). Ketidak cocokan fitur pada domain yang berbeda ditangani dengan membuat

data berlabel dari domain sumber ditambah data yang belum berlabel dari domain target untuk melakukan transfer learning .

sentiment classification memanfaatkan

menganalisa data dari sebuah domain kemudian hasilnya digunakan untuk melakukan klasifikasi pada domain yang berbeda. Secara umum Cross-domain

Cross-domain classification atau transfer learning berfokus pada

Pelabelan fitur secara manual pada pembuatan data latih sangat menghabiskan waktu dan biaya. Untuk menghidari pelabelan secara manual, dilakukan penelitian agar dapat menggunakan data latih dari domain yang sudah tersedia untuk menangani klasifikasi pada domain yang berbeda. Klasifikasi sentimen dengan menggunakan data latih dari domain yang berbeda dengan domain data yang akan diuji disebut cross-domain sentiment classification .

mining atau sentiment analysis diperlukan

sebuah ulasan produk. Polaritas review menunjukkan apakah ulasan tersebut mengandung opini positif atau negatif. Klasifikasi dapat dilakukan berdasarkan sentimen yang terdapat pada opini tersebut. Turney melakukan klasifikasi terhadap review untuk merekomendasikan atau tidak suatu produk dilakukan dengan cara menghitung rata-rata nilai orientasi semantiknya (Turney, 2002). Orientasi simantik dihitung berdasarkan kedekatan dengan kata “excellent” dikurangi kedekatan dengan “poor”. Machine

Untuk dapat melakukan opinion

data yang sudah diketahui polaritasnya dari domain yang sama dengan domain yang akan diuji. Classifier yang dilatih kemudian diuji dengan data dari domain yang berbeda akan memberikan hasil yang buruk (Whitehead & Yaeger, 2009). Hal ini terjadi karena fitur yang terdapat pada domain sumber (domain yang digunakan untuk pelatihan) tidak cocok dengan fitur yang terdapat pada domain tujuan (domain yang diuji).

learning idealnya classifier dilatih dengan

Pada pendekatan machine

akurasi yang lebih tinggi. (Pang, Lee, & Vaithyanathan, 2002).

Machine Learning memberikan tingkat

klasifikasi terhadap sentimen. Metode

Learning juga digunakan untuk melakukan

yang berbeda namun menunjukkan sentimen yang sama, pada domain yang berbeda. Fitur-fitur yang berkaitan ditambahkan pada vektor fitur untuk menjembatani domain sumber dan domain tujuan.

Penelitian tersebut hanya membedakan polaritas opini menjadi dua, yaitu positif dan negatif. Walaupun opini sebenarnya hanya bernada sedikit positif, namun jika menggunakan pendekatan tersebut, opini akan dianggap menjadi positif sehingga menimbulkan kerancuan (Okanohara & Tsujii, 2005). Untuk mengatasi kerancuan ini perlu digunakan rentang nilai untuk menunjukkan tinggkat polaritas suatu opini.

data mining

Kinerja yang buruk tersebut disebabkan oleh beberapa penyebab. Pertama, setiap domain memiliki kata-kata khusus yaitu kata yang hanya terdapat pada domain tersebut. Kata-kata khusus pada suatu domain berbeda dengan kata- kata khusus domain lain. Kedua, kata-kata yang memiliki korelasi tinggi dengan label kelas tertentu dalam domain yang digunakan sebagai data latih mungkin tidak memiliki

learning idealnya classifier dilatih dengan

Pada pendekatan machine

2.2 Cross-Domain Sentiment Classification

Salah satu penerapan sentiment analysis adalah pada pemberian rating produk. Pengguna dapat secara tidak sengaja memberikan rating rendah, padahal review yang diberikan sangat positif. Kesalahan ini dapat diatasi dengan melakukan klasifikasi terhadap sentiment review, sehingga dapat memberikan rating secara otomatis (Pang & Lee, 2008).

. Fokus utama dari analisis sentimen untuk menentukan sikap pembicara atau penulis terhadap beberapa topik, atau polaritas kontekstual keseluruhan dokumen. Sikap dapat berupa penilaian atau evaluasi yang dilakukan oleh penulis, atau efek emosional. (Kurian, 2014)

informasi subjektif dari dokumen tekstual menggunakan pengolahan bahasa alami (natural language processing) dan teknik

Pada penelitian ini dikembangkan metode yang dapat menunjukkan tingkat poaritas opini suatu produk, tanpa harus memberikan label terhadap data latih pada domain tersebut. Sebelum dilakukan klasifikasi, review mengalami feature

Sentiment analysis mengidentifikasi

analisis sentiment (Khan, Baharudin, Khan, & Malik, 2009). Sentiment analysis juga dapat menyatakan perasaan emosional sedih, gembira, atau marah.

Opinion mining juga disebut sebagai

Tujuan dari Opinion mining adalah untuk membuat komputer mampu mengenali dan mengekspresikan emosi. Tugas dasar dalam analisis sentimen adalah mengelompokkan teks kalimat atau dokumen dan menentukan pendapat yang dikemukakan dalam kalimat atau dokumen tersebut apakah bersifat positif atau negatif. Sebuah pikiran, pandangan, atau sikap berdasarkan emosi, disebut sentimen. Jadi

pendapat yang dikemukakan pada suatu subjek tertentu dan mengevaluasi polaritas pendapat ini. Polaritas sentimen adalah titik pada skala evaluasi yang sesuai dengan evaluasi positif atau negatif tentang makna sentimen ini.

Opinion mining / Sentiment analysis bertujuan untuk mengidentifikasi

yang sensitif terhadap tingkat polaritas sentimen.

expansion dengan memanfaatkan thesaurus

2. Tinjauan Pustaka

2.1. Opinion Mining

tingkat korelasi yang sama dengan label

2.1 Tahap Preprocessing

kelas yang sama di target domain (Kurian, Pada tahap preprocessing, review 2014). dipecah menjadi kalimat. Selanjutnya kata-

Tantangan yang terdapat pada kata dalam kalimat tersebut ditandai sesuai pendekatan machine learning adalah dengan jenis katanya. Tahapan penandaan bagaimana memanfaatkan data yang telah jenis kata ini disebut Part-of-Speech memiliki label sentimen dalam satu domain .

Tagging

(yaitu domain sumber) agar dapat digunakan Untuk setiap kata yang sudah ditandai untuk melakukan klasifikasi sentimen di jenis katanya kemudian dicek apakah kata domain lain (yaitu domain target). Konsep tersebut sudah tidak mengandung angka dan

cross-domain sentiment classification karakter khusus, bukan merupakan

digunakan untuk menangani masalah ini. , dan jenis katannya atau Part-of-

stopword

Data dari sebuah domain dianalisis Speech nya sudah sesuai dengan jenis kata kemudian hasilnya digunakan untuk yang akan digunakan pada tahap melakukan klasifikasi pada domain yang pembentukan thesaurus yang sensitif berbeda. terhadap tingkat polaritas sentiment. Jika semua syarat tersebut terpenuhi maka kata tersebut dimasukkan kedalam daftar

3. Desain Sistem unigram yang berbentuk list, banyaknya

Proses-proses yang dilalui pada kemunculan kata ini dalam kalimat juga pengukuran tingkat polaritas review pada disimpan dalam list terpisah.

Setelah terbentuk unigram, kemudian

cross-domain sentiment classification

disusun sesuai framework pada Gambar 1. dilanjutkan dengan dengan membentuk

bigram . Bigram dibentuk dengan

menggabungkan dua buah unigram yang berurutan. Bigram dan dan banyaknya

Review 1 Review 2

kemunculan bigram dalam kalimat juga disimpan dalam list yang sebelumnya sudah

Review n Review …

berisi unigram. ID dari setiap elemen list ini merupakan kode dari unigram atau bigram tersebut. Kode unigram, bigram serta

Preprocessing

banyak kemunculannya dalam dokumen

review dicatat sebagai kode penyusun teks review tersebut.

Membentuk Thesaurus Yang Sensitif Terhadap

3.2 Tahap Pembentukan Thesaurus yang Tingkat Polaritas

Sensitif Terhadap Tingkat Polaritas Sentimen

Sentimen Thesaurus yang sensitif terhadap

tingkat polaritas sentiment didapat dengan

Feature Expansion mencari hubungan antar lexical elements.

Tahapan yang dilakukan untuk membentuk

Klasifikasi Tingkat thesaurus yang sensitif terhadap tingkat Polaritas Opini

polaritas sentiment adalah menghitung banyaknya kemunculan masing-masing

lexical elements dengan sentiment emlement Gambar 1. Tahapan Klasifikasi Tingkat dalam review. Polaritas Opini Banyaknya kemunculan antara lexical

elements

}, vektor ini disebut sebagai d’. Nilai N elemen pertama pada

( , ) =

∑ ( , ) =1

∑ =1

(4) Skor u i diurutkan secara menurun, kemudian dipilih k buah yang terbaik. Base

entry yang terpilih untuk review d

dilambangkan dengan dengan nilai r berupa rentang dari 1 sampai k. Vektor review d yang awalnya hanya berisi {w

1 , w 2, …, w

} digabungkan dengan base entry yang terpilih, sehingga menjadi {w

1 , w 2, …, w N ,

1 , 2 , … ,

d’ sama

dengan nilai N elemen pertama pada vektor

d yaitu banyaknya kemunculan w i

pada review d. Sedangkan untuk elemen ke N+1 sampai k pada vektor

d’ berisi nilai skor

yang dihasilkan pada Persamaan 4 untuk masing masing base entry yang terpilih.

3.4 Tahap Klasifikasi Tingkat Polaritas Opini

Untuk mengetahui tingkat polaritas suatu review dilakukan melalui metode klasifikasi multi class. Untuk melakukan klasifikasi digunakan L1 regularized logistic

regression . Class yang ingin dibentuk

adalah class sesuai dengan tingkatan polaritasnya yaitu (1,2,3,4,5).

Untuk melakukan klasifikasi, terdapat dua langkah yang harus dilakukan, yaitu

training dan testing. Tahap training, classifier dilatih dengan vektor d’ yang

merupakan vektor review digabungkan dengan vektor hasil ekspansi nya. Langkah selanjutnya adalah menggunakan classifier yang telah dilatih untuk menentukan class dari review yang diuji.

pada review d. Kandidat yang akan digunakan untuk melakukan ekspansi terhadap semua base entry dihitung dengan persamaan 4.

adalah banyaknya kemunculan unigram atau bigram w

u dan sentiment elements w dilambangkan dengan c(u,w). Banyaknya kemunculan antara lexical elements u dan

Pointwise Mutual Information

sentiment elements w digunakan untuk

menghitung Pointwise Mutual Information (PMI) antara lexical elements u dan

sentiment elements w dilambangkan dengan f(u,w) sesuai persamaan 1.

( , ) = log (

( , ) ∑ ( , ) =1

× ∑ ( , ) =1

), (1) Dengan banyaknya lexical element u dan

sentiment element w dinotasikan dengan n

dan m. Sedangkan N dihitung dengan menggunakan persamaan 2, = ∑

∑ ( , )

=1 =1 .

(2)

digunakan untuk mengetahui keterkaitan antara sebuah lexical elements dan sentiment

d j

elements . Selanjutnya, nilai keterkaitan

anatara sebuah lexical elements dan

sentiment elements digunakan untuk

melakukan perhitungan nilai kemiripan antar lexical elements.

Untuk menghitung kemiripan antara lexical element u dan lexical element v digunakan persamaan 3

( , ) =

∑ ( , ) ∈{ | ( , )>0 ∑ ( , )

∈{ | ( , )>0

(3) dimana f(u,w) pada persamaan 3 dihitung sesuai dengan persamaan 1.

Sebuah review d dimodelkan dalam set {w

1 , w 2, …, w N } dimana w 1 merupakan

unigram atau bigram pada review d. dimana

3.3 Tahap Feature Expansion

4. HASIL UJI COBA DAN PEMBAHASAN

feature expansion dengan memanfaatkan thesaurus yang sensitif terhadap tingkat

{1, 2, 3, … , 100}

C {1, 2, 3, 4, 5, 6, 7, 8, 9, 10,

11, 12, 13, 14, 15, 16, 17, 18, 19, 20}

Eps { 0,01; 0,02; 0,03; 0,04; 0,05;

0,06; 0,07; 0,08; 0,09; 0,1} Pengujian pertama bertujuan untuk mendapatkan nilai akurasi maksimum untuk masing-masing kombinasi domain sumber dan target pada kasus cross-domain

sentiment classification

yang menerapkan

polaritas sentimen. Nilai ketiga parameter dikombinasikan dan digunakan dalam melakukan cross-domain sentiment

Tabel 1. Parameter yang Dioptimasi dan Nilainya Parameter Nilai Parameter

classification untuk masing-masing

kombinasi domain yang tersedia, yaitu

Book , CDs & Vinyl, Electronics, Home & Kitchen . Masing-masing akurasi dicatat,

kemudian diurutkan berdasarkan nilai akurasi secara menurun. Hasil akurasi maksimum dan kombinasi nilai parameter untuk masing-masing kombinasi domain ditunjukkan pada Tabel 2.

Tabel 2 menunjukkan akurasi maksimum didapat pada kombinasi domain

Home & Kitchen sebagai domain sumber dan domain Book sebagai domain target.

Akurasi yang diperoleh sebesar 68%.

Pada ujicoba ini digunakan data review produk pada web Amazon yang telah diambil dan digunakan dalam penelitian yang dilakukan oleh McAuley (McAuley & Leskovec, 2013) , kemudian diperbaharui pada penelitian (McAuley, Pandey, & Leskovec, 2015). Domain yang dipilih adalah Book, CDs & Vinyl, Electronics,

Home & Kitchen karena memiliki komentar

Ketiga variable ini diberikan nilai awal seperti ditunjukkan pada tabel 1.

terbanyak. Keempat domain ini digunakan sebagai domain sumber dan domain tujuan secara bergantian, sehingga didapat 12 kombinasi domain sumber dan domain target.

Untuk masing-masing domain produk diambil secara acak 100 review yang memiliki rating 1, 100 review yang memiliki rating 2, 100 review yang memiliki rating 3, 100 review yang memiliki rating 4, 100 review yang memiliki rating 5. Sehingga terdapat 500 review yang terbagi dalam 5 rating yang berbeda. Review ini disebut sebagai labeled

review karena telah memiliki tingkat

polaritas. Selain itu diambil 1000 review lain tanpa memperhatikan rating dari review tersebut. Review ini disebut sebagai

unlabeled review , karena dianggap tidak memiliki tingkat polaritas.

Dalam pengujian terdapat tiga buah parameter yang dikombinasikan untuk mencapai akurasi maksimal. Ketiga parameter tersebut adalah k yaitu banyaknya fitur atau lexical elements yang akan diambahkan pada review, c yaitu

regularization parameter , dan eps yaitu kriteria terminasi pada proses training.

Banyaknya fitur atau lexical element yang akan diambahkan pada review (k) ditentukan pada rentang antara 1 sampai 100 dengan kenaikan 1 karena penambahan

parameter yang telalu kecil menyebabkan

lexical element yang terlalu banyak pada review akan menyebabkan akurasi menurun.

Akurasi menurun karena semakin banyak

lexical element yang ditambahkan, maka

semakin besar kemungkinan terdapat lexical

element yang sebenarnya tidak memiliki

kaitan erat dengan review, namun ikut ditambahkan pada review. Nilai

regularization parameter (c) ditetapkan

pada rentang antara 1 sampai 20 dengan kenaikan 1 karena nilai regularization

model klasifikasi yang terbentuk pada saat training menjadi overfiting, sebaliknya jika terlalu besar, maka akan terbentuk model klasifikasi yang underfiting. Sedangkan akurasi terendah didapat pada kombinasi domain CDs & Vinyl sebagai domain sumber dan domain Home &

Kitchen sebagai domain target. Akurasi

nilai parameter yang telah disebutkan sebelumnya. Untuk pengujian pada kasus

Classification tanpa Menerapkan Feature Expansion Domai n

Tabel 3. Hasil Cross-Domain Sentiment

nilai parameter k selalu bernilai 0. Parameter k bernilai 0 berarti tidak ada lexical elements yang ditambahkan pada review tersebut. Masing-masing akurasi dicatat, kemudian diurutkan berdasarkan nilai akurasi secara menurun. Hasil akurasi maksimum dan kombinasi nilai parameter untuk masing- masing kombinasi domain ditunjukkan pada tabel 3.

feature expansion

menerapkan

cross-domain sentiment classification tanpa

Kitchen dengan menggunakan kombinasi

Optimal Akura si (%) k C Eps

, CDs & Vinyl, Electronics, Home &

Book

kombinasi domain yang tersedia, yaitu

classification untuk masing-masing

. Nilai ketiga parameter dikombinasikan dan digunakan dalam melakukan cross-domain sentiment

sentiment classification tanpa menerapkan feature expansion

Sumb er Domai n Tujuan Nilai Parameter

Book CDs & Vinyl

49 Rata-rata 48,7

Electr onics 8 0,05

9 0,01

33 Electr onics Book

6 0,01

Home & Kitche n

30 CDs & Vinyl

37 CDs & Vinyl

18 0,03

Book 14 0,02

40 CDs & Vinyl

1 0,03

43 Book Home & Kitche n

8 0,06

57 Book Electr onics

mendapatkan nilai akurasi maksimum untuk masing-masing kombinasi domain sumber dan target pada kasus cross-domain

30 11 0,07

yang diperoleh sebesar 30%. Rata-rata akurasi pada pengujian cross-domain

Book CDs & Vinyl

34 CDs & Vinyl Book

1 2 0,07

46 Book Home & Kitchen

1 1 0,04

58 Book Electroni cs

27 9 0,06

Akur asi (%) k c eps

65 CDs & Vinyl Electroni cs

Domain Tujuan Nilai Parameter Optimal

Classification dengan Menerapkan Feature Expansion Domain Sumber

untuk semua kombinasi domain adalah 48.75%. Tabel 2. Hasil Cross-Domain Sentiment

features expansion dengan memanfaatkan thesaurus yang sensitif terhadap sentiment

yang menerapkan

sentiment classification

86 13 0,1

68 13 0,06

48 Home & Kitchen Electroni cs

Kitchen

37 12 0,06

Vinyl

68 Home & Kitchen CDs &

16 19 0,07

37 Home & Kitchen Book

17 13 0,06

49 Electroni cs Home &

38 CDs & Vinyl Home &

42 18 0,06

Vinyl

63 Electroni cs CDs &

11 8 0,06

30 Electroni cs Book

1 12 0,01

Kitchen

5 Pengujian kedua bertujuan untuk

Electr onics CDs & Vinyl

kandidat tersebut termasuk dalam k lexical

sebagai domain sumber dan domain Home & Kitchen sebagai domain target sangat rendah disebabkan oleh kurangnya informasi sentiment element, sehingga belum mampu memunculkan keterkaitan antara lexical element penyusun

review dengan lexical element kandidat

yang ditambahkan pada review dalam proses

feature expansion . Hal ini akan

menyebabkan skor keterkaitan menjadi rendah. Dalam prosesnya, feature expansion akan mengurutkan skor keterkaitan antara

lexical element penyusun review dengan lexical element yang menjadi kandidat.

Kemudian dipilih sebanyak k lexical

element

baru dengan skor tertinggi yang digunakan untuk ditambahkan pada review. Walaupun skor keterkaitan untuk lexical

element kandidat kecil, jika lexical element

element

Akurasi yang didapat pada kombinasi

kandidat dengan nilai tertinggi, maka terpaksa fitur tersebut digunakan.

Lexical element terpaksa ditambahkan pada review tersebut juga tampak dari nilai

parameter k yaitu parameter yang menyatakan banyaknya jumlah lexical element yang harus ditambah. Pada kombinasi CDs & Vinyl sebagai domain sumber dan domain Home & Kitchen sebagai domain target akurasi maksimal didapat pada parameter k bernilai 1. Nilai k sangat kecil, yaitu hanya bernilai 1 karena ternyata penambahan lebih banyak lexical

element pada review malah menurunkan

nilai akurasi. Lexical element dengan skor keterkaitan rendah terhadap review, berarti

lexical element tersebut tidak memiliki hubungan rengan review tersebut.

Penambahan lexical element yang tidak memiliki berkaitan dengan review malah menyebabkan hasil klasifikasi menurun. Hal ini dapat dilihat pada salah satu contoh

review pada kombinasi CDs & Vinyl sebagai

domain sumber dan domain Home &

Kitchen sebagai domain target. Sebagai

CDs & Vinyl

tanpa menerapkan features expansion , yaitu 28%.

2 0,05

Akurasi terbaik yang diperoleh sebesar 57%. Akurasi terbaik didapat pada kombinasi domain Book sebagai domain sumber dan domain CDs & Vinyl sebagai domain target dan juga kombinasi domain

22 Electr onics Home

& Kitche n

7 0,07

34 Home & Kitche n Book

1 0,04

57 Home & Kitche n CDs &

Vinyl 1 0,03

43 Home & Kitche n Electr onics

14 0,02

43 Rata-rata 40,58

Home & Kitchen sebagai domain sumber dan domain Book sebagai domain target.

sentiment classification

Sedangkan akurasi terendah didapat pada kombinasi domain Electronics sebagai domain sumber dan domain CDs & Vinyl sebagai domain target. Akurasi yang diperoleh sebesar 22%. Rata-rata akurasi pada pengujian cross-domain sentiment

classification tanpa menerapkan features expansion untuk semua kombinasi domain

adalah 40,58%.

Pada pengujian cross-domain

sentiment classification

yang menerapkan

features expansion dengan memanfaatkan thesaurus yang sensitif terhadap tingkat

polaritas sentimen, kombinasi CDs &

Vinyl sebagai domain sumber dan Electronics

sebagai domain target, menghasilkan nilai akurasi yang sangat rendah, akurasi yang didapat hanya sebesar 26%. Nilai akurasi ini bahkan lebih rendah dibandingkan pengujian cross-domain

contoh sepuluh lexical element dengan skor tertinggi yang ditambahkan pada review

0615391206A388T8QB30Y6U11 ditunjukkan pada Tabel 4. Tabel 4. Lexical Element Dengan Skor

Pada paper ini diusulkan cross-domain

menerapkan fture expansion dengan memanfaatkan thesaurus yang sensitif terhadap tingkat polaritas sentiment dapat memperbaiki akurasi pada kasus cross-

classification tanpa menerapkan fture expansion . Ini membuktikan bahwa dengan

menerapkan fture expansion dengan memanfaatkan thesaurus yang sensitif terhadap tingkat polaritas sentiment memiliki rata-rata akurasi 8.17% lebih baik daripada cross-domain sentiment

domain sentiment classification yang

digunakan untuk menghitung keterkaitan review dengan lexical elements. Cross-

elements. Keterkaitan antar lexical elements

dihitung dengan membagi jumlah nilai keterkaitan sentiment elements yang pernah muncul bersama kedua lexical elements dibagi dengan jumlah semua nilai keterkaitan dengan semua sentiment

elements. Keterkaitan antar lexical elements

polaritas sentiment. Thesaurus yang sensitif terhadap tingkat polaritas sentiment dibentuk dengan menghitung keterkaitan anatara lexical elements dan sentiment

sentiment classification yang menerapkan feature expansion dengan memanfaatkan thesaurus yang sensitif terhadap tingkat

KESIMPULAN

Tertinggi pada Review 0615391206A388T8QB30Y6U11

1 Kode lexical element Skor Keterkaitan 4970 5.504 3640 1.793 17287 1.4212 2303 0.7981 2306 0.7534 2308 0.5544 4969 0.5415 3634 0.5384 1 0.4506 4966 0.3424 5.

Tabel 5. Lexical Element Dengan Skor Tertinggi pada Review 0001714384A19HM4UCA0MC9R

membantu proses training dan testing pada tahap klasifikasi.

lexical element tersebut. Tambahan lexical element yang memiliki keterkaitan erat akan

Pada contoh review dari kombinasi domain Home & Kitchen sebagai domain sumber dan Book sebagai domain target, skor keterkaitan antara lexical element yang ditambahkan memiliki keterkaitan yang erat dengan review, hal ini ditunjukkan dengan skor keterkaitan yang tinggi. Keterkaitan antara review dan lexical element tidak harus memiliki kesamaan arti, atau sinonim, namun kedekatan lebih pada kesamaan tingkat polaritas antara review dengan

Pada kombinasi domain Home & Kitchen sebagai domain sumber dan Book sebagai domain target, sepuluh lexical element dengan skor tertinggi pada review 0001714384A19HM4UCA0MC9R1 ditunjukkan pada tabel 5

4971 0,0057 2303 0,0056 30266 0,005

3639 0,0099 17286 0,0097 30260 0,0076 17281 0,0066

Skor Keterkaitan 17289 0,0606 17284 0,0328 3640 0,0113

element

Kode lexical

domain sentiment classification untuk pengukuran tingkat polaritas review.

Science and Information Engineering (pp. 472-476). IEEE.

[9] McAuley, J., & Leskovec, J. (2013).

Building a General Purpose Cross- Domain Sentiment Mining Model. [17] World Congress on Computer

[16] Whitehead, M., & Yaeger, L. (2009).

Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (pp. 417- 424). Stroudsburg.

[15] Turney, P. D. (2002). Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. ACL '02

(2012). Survey on Mining Subjective Data on the Web. Data Mining and Knowledge Discovery , 478-514.

79-86). ACM. [14] Tsytsarau, M., & Palpanas, T.

[13] Pang, B., Lee, L., & Vaithyanathan, S. (2002). Thumbs up?: sentiment classification using machine learning techniques. Empirical Methods in Natural Language Processing (pp.

Foundations and Trends in Information Retrieval , 1-135.

[12] Pang, B., & Lee, L. (2008). Opinion Mining and Sentiment Analysis.

Assigning Polarity Scores to Reviews Using Machine Learning Techniques. Lecture Notes in Computer Science , 314-325.

Leskovec, J. (2015). Inferring networks of substitutable and complementary products. Knowledge Discovery and Data Mining . [11] Okanohara, D., & Tsujii, J. (2005).

(pp. 165-172). New York: ACM. [10] McAuley, J., Pandey, R., &

7th ACM conference on Recommender systems

Hidden factors and hidden topics: understanding rating dimensions with review text.

[8] Liu, B. (2010). Sentiment Analysis: A Multi-Faceted Problem. IEEE Intelligent Systems .

DAFTAR PUSTAKA [1] Blitzer, J., Dredze, M., & Pereira, F.

Meeting of the Association of Computational Linguistics (pp. 440

(2007). Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classiﬁcation. The 45th Annual

– 447). Prague: Association for Computational Linguistics.

[6] Khan, K., Baharudin, B., Khan, A., & Malik, F. (2009). Mining Opinion from Text Documents: A Survey.

D. (2003). Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews. WWW2003. Budapest: ACM.

[5] Dave, K., Lawrence, S., & Pennock,

of Information Technology & Decision Making .

Advanced Research in Computer Engineering & Technology (IJARCET) , 1747-1750.

Mining social network users opinions to aid buyers shopping decisions. Computers in Human Behavior . [4] D'avanzo, E., & Kuflik, T. (2013). E-

[3] D’Avanzo, E., & Pilato, G. (2014).

IEEE Transactions On Knowledge And Data Engineering , 1719-1731.

(2013). Cross-Domain Sentiment Classification Using a Sentiment Sensitive Thesaurus.

[2] Bollegala, D., Weir, D., & Carroll, J.

IEEE International Conference on Digital Ecosystems and Technologies (pp. 217-222). IEEE.

[7] Kurian, N. (2014). Cross Domain Sentiment Classification: Current Solutions. International Journal of

Commerce Websites Services Versus Buyers Expectations: An Empirical Analysis Of The Online Marketplace. International Journal

PEMBENTUKAN THESAURUS YANG SENSITIF TERHADAP TINGKAT POLARITAS REVIEW PADA CROSS-DOMAIN SENTIMENT CLASSIFICATION Putu Praba Santika, Agus Zainal Arifin, Diana Purwitasari

1. Pendahuluan

2. Tinjauan Pustaka

2.1. Opinion Mining

3. Desain Sistem unigram yang berbentuk list, banyaknya

3.3 Tahap Feature Expansion

4. HASIL UJI COBA DAN PEMBAHASAN

5 Pengujian kedua bertujuan untuk

Dokumen yang terkait

REKAYASA PERANGKAT LUNAK PENILAIAN KINERJA DOSEN PADA STMIK AKBA

Ahmad Hidayat, Chandra Kurniawan Fakultas Psikologi, Universitas Islam Riau Psychology.consulting7gmail.com Abstract - PENGARUH KONSEP DIRI DAN KEPERCAYAAN DIRI TERHADAP PERILAKU KONSUMTIF PEMBELIAN GADGET PADA MAHASISWA FAKULTAS HUKUM NON REGULER UNIVERS

SISTEM PENDUKUNG KEPUTUSAN KENAIKAN JABATAN DENGAN MENGGUNAKAN METODE PROFILE MATCHING PADA STIA LAN MAKASSAR Rosdiana, Ashari

PENGARUH RESPON KOGNITIF AUDIENCE KAMPANYE IKLAN DI TELEVISI TERHADAP KEPUTUSAN VOTERS DALAM MEMILIH CALON PRESIDEN DAN WAKIL PRESIDEN PADA PEMILU 2004 (Studi di Kelurahan Maguwoharjo Kecamatan Depok Kabupaten Sleman Propinsi Daerah Istimewa Yogya

PENERAPAN ALGORITMA ANFIS DALAM PENGAMBILAN KEPUTUSAN PERPINDAHAN LAMPU LALU LINTAS PADA SISTEM TRANSPORTASI CERDAS Elly Warni Ellywarni82gmail.com Dosen Teknik Informatika, Jurusan Teknik Elektro, Fakultas Teknik, Universitas Hasanuddin ABSTRAK - Penerap

ANALISIS TINJAUAN PERBANDINGAN AKUNTANSI PERPAJAKAN DENGAN AKUNTANSI KOMERSIAL DALAM PELAPORAN SURAT PEMBERITAHUAN TAHUNAN PADA KANTOR PELAYANAN PAJAK PRATAMA PEKANBARU SENAPELAN

STRATEGI PENGURANGAN ANGKA PENGANGGURAN BERDASARKAN TINGKAT PENDIDIKAN MELALUI KEWIRAUSAHAAN

ANALISIS PENGARUH SINYAL 3G PADA SMARTPHONE YANG MENYEBABKAN BATERAI CEPAT DROPLOWBAT Aminah H. Umar Teknik Elektro, Universitas Sawerigading Makassar amina.usman7578gmail.com Abstrak - Analisis Pengaruh Sinyal 3G Pada Smartphone yang Menyebabkan Baterai

PENERAPAN TEKNOLOGI AUGMENTED REALITY PADA KAMPUS TEKNIK GOWA

PERANCANGAN APLIKASI PEMERIKSAAN LISTING PROGRAM PHP PADA E-LEARNING

Dukungan

Links

PEMBENTUKAN THESAURUS YANG SENSITIF TERHADAP TINGKAT POLARITAS REVIEW PADA CROSS-DOMAIN SENTIMENT CLASSIFICATION Putu Praba Santika, Agus Zainal Arifin, Diana Purwitasari

1. Pendahuluan

2. Tinjauan Pustaka

2.1. Opinion Mining

3. Desain Sistem unigram yang berbentuk list, banyaknya

3.3 Tahap Feature Expansion

4. HASIL UJI COBA DAN PEMBAHASAN

5 Pengujian kedua bertujuan untuk

Dokumen yang terkait

REKAYASA PERANGKAT LUNAK PENILAIAN KINERJA DOSEN PADA STMIK AKBA

Ahmad Hidayat, Chandra Kurniawan Fakultas Psikologi, Universitas Islam Riau Psychology.consulting7gmail.com Abstract - PENGARUH KONSEP DIRI DAN KEPERCAYAAN DIRI TERHADAP PERILAKU KONSUMTIF PEMBELIAN GADGET PADA MAHASISWA FAKULTAS HUKUM NON REGULER UNIVERS

SISTEM PENDUKUNG KEPUTUSAN KENAIKAN JABATAN DENGAN MENGGUNAKAN METODE PROFILE MATCHING PADA STIA LAN MAKASSAR Rosdiana, Ashari

PENGARUH RESPON KOGNITIF AUDIENCE KAMPANYE IKLAN DI TELEVISI TERHADAP KEPUTUSAN VOTERS DALAM MEMILIH CALON PRESIDEN DAN WAKIL PRESIDEN PADA PEMILU 2004 (Studi di Kelurahan Maguwoharjo Kecamatan Depok Kabupaten Sleman Propinsi Daerah Istimewa Yogya

PENERAPAN ALGORITMA ANFIS DALAM PENGAMBILAN KEPUTUSAN PERPINDAHAN LAMPU LALU LINTAS PADA SISTEM TRANSPORTASI CERDAS Elly Warni Ellywarni82gmail.com Dosen Teknik Informatika, Jurusan Teknik Elektro, Fakultas Teknik, Universitas Hasanuddin ABSTRAK - Penerap

ANALISIS TINJAUAN PERBANDINGAN AKUNTANSI PERPAJAKAN DENGAN AKUNTANSI KOMERSIAL DALAM PELAPORAN SURAT PEMBERITAHUAN TAHUNAN PADA KANTOR PELAYANAN PAJAK PRATAMA PEKANBARU SENAPELAN

STRATEGI PENGURANGAN ANGKA PENGANGGURAN BERDASARKAN TINGKAT PENDIDIKAN MELALUI KEWIRAUSAHAAN

ANALISIS PENGARUH SINYAL 3G PADA SMARTPHONE YANG MENYEBABKAN BATERAI CEPAT DROPLOWBAT Aminah H. Umar Teknik Elektro, Universitas Sawerigading Makassar amina.usman7578gmail.com Abstrak - Analisis Pengaruh Sinyal 3G Pada Smartphone yang Menyebabkan Baterai

PENERAPAN TEKNOLOGI AUGMENTED REALITY PADA KAMPUS TEKNIK GOWA

PERANCANGAN APLIKASI PEMERIKSAAN LISTING PROGRAM PHP PADA E-LEARNING

Dokumen yang Anda mencari sudah siap untuk unduhkan