OTOMATISASI IDENTIFIKASI KATA GANTI PADA EKSTRAKSI DAN PERANKINGAN FITUR PRODUK

  

OTOMATISASI IDENTIFIKASI KATA GANTI PADA

EKSTRAKSI DAN PERANKINGAN FITUR PRODUK

Yufis Azhar

  

Teknik Informatika Universitas Muhammadiyah Malang

Kontak Person:

  

Yufis Azhar

Kantor Prodi Teknik Informatika GKB III lantai 2 Kampus 3 UMM

Jl. Raya Tlogomas No. 246

  Malang 65144

  

Telp: 085790809961, Fax: 0341-460782, E-mail: yufis.az@gmail.com

Abstrak

  

Ekstraksi fitur produk dalam suatu dokumen review merupakan permasalahan yang telah menarik

perhatian banyak peneliti untuk memecahkannya. Permasalahan utama pada topik ini adalah

bagaimana mengekstrak fitur yang relevan sehingga fitur yang tidak relevan dapat dipisahkan. Salah

satu caranya adalah dengan melakukan perankingan fitur. Akan tetapi, metode perankingan fitur yang

ada sampai saat ini hanya mempertimbangkan fitur dalam dokumen saja tanpa memperhatikan

adanya pronoun. Hal ini mengakibatkan banyak fitur yang tidak relevan muncul karena memiliki skor

yang lebih tinggi dari fitur yang relevan dalam hasil perankingan fitur. Berdasarkan hal tersebut,

dalam penelitian ini diusulkan suatu metode baru untuk mengidentifikasi pronoun dalam suatu

kalimat opini. Metode ini secara otomatis akan menambahkan skor dari pronoun yang berhasil

diidentifikasi kepada fitur yang dirujuk oleh pronoun tersebut. Dengan demikian, skor fitur yang

relevan akan meningkat dan nilai precision dari fitur relevan yang berhasil diekstrak juga akan

meningkat. Hasil uji coba yang dilakukan menunjukkan bahwa metode ini terbukti cukup efektif untuk

mengekstrak fitur yang relevan dengan nilai precision 30% lebih baik dibandingkan metode sejenis

yang tidak memperhatikan kata ganti..

  Kata kunci: identifikasi pronoun, feature-based opinion mining, ekstraksi fitur, perankingan fitur

Pendahuluan

  Website dan blog merupakan suatu media dimana seorang consumer dapat menuliskan komentar mengenai suatu produk yang pernah ia beli. Komentar untuk tiap produk ini dapat diistilahkan dengan dokumen review yang bisa dimanfaatkan oleh consumer lain sebagai acuan dalam memutuskan pembelian suatu barang. Pada kenyataannya dokumen review ini bisa jadi sangat panjang, sementara seorang consumer hanya membutuhkan beberapa informasi mengenai fitur apa yang dikomentari di dalam dokumen tersebut. Fitur yang dimaksud disini berupa komponen atau atribut dari suatu produk. Contoh fitur dari produk camera adalah ukuran layar ataupun battery.

  Permasalahan bagaimana mendapatkan fitur dari suatu dokumen review mengundang banyak peneliti untuk mencoba memecahkannya. Kang [1] menggunakan word-based transation model serta graph algorithm untuk mengukur kedekatan antara kata adjective dan fitur dalam suatu dokumen. Metode ini memiliki kelemahan dalam kompleksitasnya yang cukup tinggi jika dihadapkan pada dokumen yang berukuran besar. Sementara Hu [2, 3] melakukan pendekatan lain dalam ekstraksi fitur dimana semua noun yang sering muncul dalam dokumen akan diekstrak menggunakan association rule dengan cara melihat hubungan antara noun dengan kata adjective dalam suatu kalimat. Noun yang berhasil terekstrak inilah yang kemudian dianggap sebagai fitur produk. Berbeda dengan dua penelitian sebelumnya yang memanfaatkan kamus kata untuk mengekstrak fitur produk, Qiu [4] mengusulkan metode yang diklaim sebagai metode semi unsupervised. Metode ini tidak membutuhkan kamus kata opini secara lengkap, karena metode ini dapat mengexpand kamus katanya secara otomatis. Metode ini dikenal dengan istilah double propagation.

  Setelah penelitian tentang ekstraksi fitur bermunculan, para peneliti mengalami permasalahan lain. Ketika mengekstrak suatu fitur dari suatu kalimat/dokumen, banyak noun yang tidak relevan dengan produk ikut terekstrak dan dianggap sebagai suatu fitur produk. Hal tersebut mengakibatkan

  SENTRA penelitian tentang ekstraksi fitur berkembang. Ekstraksi fitur tidak hanya bertujuan untuk mengkstrak suatu fitur saja, akan tetapi juga bagaimana agar fitur yang terekstrak benar-benar relevan dengan produk tersebut. Zhang [5] melakukan optimasi double propagation dengan cara menambahkan whole- part relation dan no-pattern untuk meningkatkan recall dari fitur yang berhasil diekstrak. Selanjutnya fitur tersebut akan diranking berdasarkan skor tertentu. Menurut Zhang, dengan melakukan perankingan akan memudahkan proses pruning karena fitur yang tidak relevan akan secara otomatis memiliki ranking di bawah fitur yang relevan. Einiraki [6] menggunakan metode HAC (High Adjective Count) dalam melakukan ekstraksi dan perankingan fitur. Metode ini merupakan metode dictionary based yang memerlukan suatu kamus kata adjective untuk mengekstrak dan meranking fitur.

  Dari penelitian-penelitian yang telah ada sebelumnya, metode perankingan fitur yang dilakukan hanya didasarkan pada keterkaitan antara fitur (noun) dengan kata opini (adjective) saja. Sementara dalam dokumen review, adjective yang menjelaskan pronoun bisa jadi memiliki frekuensi lebih banyak daripada noun yang merupakan fitur dalam dokumen. Sebagai contoh, reviewer bisa menyebutkan fitur A suatu produk sekali dalam satu kalimat opini, selebihnya komentar mengenai fitur A diulang dengan dengan menggunakan pronoun yang merujuk fitur A pada kalimat berikutnya. Dengan tidak dilibatkannya pronoun dalam pemberian skor untuk suatu fitur, maka besar kemungkinan fitur yang seharusnya relevan tidak terekstrak oleh system.

  Berdasarkan masalah tersebut, penelitian ini mengusulkan suatu metode baru yaitu otomatisasi pengenalan pronoun dalam pengekstrakan dan perankingan fitur untuk meningkatkan skor fitur produk yang relevan sehingga precision dari fitur relevan yang berhasil diekstrak juga meningkat.

Metode Penelitian

  Metode double propagation adalah metode semi unsupervised yang diusulkan oleh Qiu [4]. Pada dasarnya, metode ini akan mengekstrak kata opini (atau target opini) berulang kali menggunakan kata opini (atau target opini) yang telah diketahui atau telah terekstrak sebelumnya melalui identifikasi relasi syntactic nya. Metode ini disebut semi unsupervised karena masih membutuhkan bantuan dari

  

opinion lexicon (kamus kata opini). Akan tetapi kamus ini tidak harus lengkap, karena dalam

prosesnya kamus kata ini akan dilengkapi secara otomatis.

  Terdapat 4 masalah utama dalam pengekstrakan kata opini dan target opini (dalam hal ini, target opini adalah fitur produk). yang harus ditangani oleh double propagation (DP), yaitu : bagaimana mengekstrak target opini menggunakan kata opini; bagaimana mengekstrak target opini menggunakan target opini; bagaimana mengekstrak kata opini menggunakan target opini; dan bagaimana mengekstrak kata opini menggunakan kata opini. Seperti dapat dilihat dalam keempat permasalahan tersebut, Qiu memfokuskan pengamatan pada kemunculan kata benda (noun), yang dianggap sebagai fitur produk, dan kata sifat (adjective), yang dianggap sebagai kata opini, pada suatu kalimat. Berdasar pada hal tersebut, Qiu menyusun aturan-aturan yang digunakan untuk mengekstrak kata opini dan target opini dalam suatu kalimat [5].

  Metode ini dapat dikatakan sebagai metode yang mendekati sempurna untuk mengekstrak fitur/target opini. Karena metode DP tidak membutuhkan kamus kata yang lengkap dan juga mampu menghilangkan masalah dependency dalam suatu dokumen opini. Akan tetapi, metode DP memiliki suatu kelemahan yaitu masih banyaknya fitur yang tidak relevan yang ikut terekstrak. Fitur-fitur yang tidak relevan tersebut ikut terekstrak karena memenuhi aturan yang didefinisikan oeh DP, salah satunya aturan yang mengatakan bahwa jika terdapat suatu kata benda (noun) memiliki hubungan ketergantungan dengan suatu kata sifat (adjective), maka kata benda tersebut adalah fitur produk/target opini. Maka ketika terdapat kalimat “This is the best one”, kata “one” yang merupakan kata benda, akan terekstrak sebagai fitur produk karena memiliki relasi ketergantungan dengan kata “best”. Permasalahan itulah yang ingin dipecahkan dalam penelitian ini.

  Sistem yang dibangun adalah sistem untuk ekstraksi fitur produk yang dikomentari oleh customer. Input dari sistem ini adalah dokumen yang berisi daftar komentar untuk setiap produk smartphone, sedangkan output yang diharapkan adalah daftar fitur yang dimiliki oleh produk tersebut yang dikomentari oleh customer. Tujuanya adalah untuk mendapatkan fitur apa saja yang disukai dan tidak disukai oleh customer. Alur kerja sistem secara umum dapat dilihat pada Gambar 1.

  SENTRA I - 246

  Gambar 1. Alur kerja system Dalam penelitian ini, metode Double Propagation (DP) dipilih sebagai metode utama yang akan dimodifikasi. Modifikasi dilakukan pada penambahan aturan serta tambahan langkah pengenalan kata ganti sebelum tahap perangkingan fitur positif dan negative. Oleh karena itu secara umum, tahapan- tahapannya mirip dengan metode double propagation.

  Aturan baru yang ditambahkan ke dalam double propagation adalah jika terdapat pronoun yang memiliki tag dependency berupa nsubj atau amod dengan suatu kata sifat (adjective), maka cari target opini sebelum pronoun itu muncul. Jika polaritas opini dari target itu sama dengan polaritas yang dimiliki oleh pronoun, maka target itulah yang paling mungkin ditunjuk oleh pronoun tersebut. Akan tetapi jika polaritas keduanya berbeda, maka cari target opini sebelumnya lagi yang memiliki polaritas opini yang sama. Untuk mengimplementasikan aturan tersebut, perlu diperhatikan beberapa hal sebagai berikut:

  1) Aturan ini akan dijalankan setelah proses double propagation selesai mengekstrak seluruh target opini dari dataset

  2)

Aturan ini dapat bekerja optimal dengan syarat hubungan antara pronoun dan adjective muncul setelah kemunculan target opini yang sebenarnya dalam suatu komentar

  Sementara pemberian bobot terhadap target opini bertujuan untuk mengetahui polaritas dari target opini tersebut (positif atau negatif). Selain itu,pemberian bobot terhadap target opini juga bertujuan untuk merangking fitur produk, sehingga dapat diketahui fitur produk apa yang paling disukai dan paling tidak disukai oleh customer. Proses pemberian bobot ini dilakukan dengan cara yang cukup sederhana, dimana awalnya setiap target opini yang baru terekstrak akan diberikan bobot sama dengan 0. Dan jika target opini tersebut memiliki relasi dependency dengan suatu adjective yang termasuk dalam kategori kata opini positif, maka bobot target opini tersebut akan ditambah 1. Sebaliknya, jika target opini tersebut berelasi dengan kata opini negatif, maka bobotnya akan dikurangi 1. Hal yang sama juga berlaku untuk target opini yang ditunjuk oleh pronoun. Jika pronoun A berelasi dengan adjective B dan pronoun A tersebut merujuk kepada target opini C. Maka diasumsikan bahwa C berelasi dengan B melalui A.

Hasil Penelitian dan Pembahasan

  Uji coba dilakukan dengan menggunakan dataset dari situs amazon.com. Situs ini dipilih karena merupakan salah satu situs jual beli online terbesar dan memiliki customer yang tersebar hampir di seluruh dunia. Dokumen review produk didapatkan melalui metode crawling dengan memanfaatkan API yang sudah disediakan oleh Amazon. Dengan menggunakan API ini, selain dokumen review, juga bisa didapatkan informasi-informasi lain seperti nama produk, rating yang

  SENTRA diberikan customer untuk tiap produk, id member yang memberikan komentar, skor helpful feedbacks dari tiap dokumen review, dan lain sebagainya. Produk yang akan diambil dokumen reviewnya adalah 10 produk smartphone yang memiliki range harga mulai dari $200 hingga $400. Range harga ini dipilih karena produk-produk yang berada pada range harga tersebut memilik jumlah komentar yang cukup banyak. Jumlah komentar untuk kesepuluh produk tersebut berjumlah 1.610 buah dengan masing-masing komentar memiliki minimal 1 kalimat dan paling banyak 5 kalimat.

  Dalam ekstraksi fitur produk, seringkali banyak kata benda yang sebenarnya bukan merupakan fitur produk, akan tetapi ikut te rekstrak. Sebagai contoh pada kalimat “This is my best day. I just buy

  

iphone 5 with 20% discount ”. Dari kalimat tersebut, metode DP akan mengekstrak kata day sebagai

  fitur produk, dikarenakan kata tersebut memenuhi syarat sebagai fitur produk yakni berkedudukan sebagai kata benda dan memiliki relasi ketergantungan dengan kata sifat best yang merupakan kata opini positif. Akan tetapi kata day ini bukanlah fitur yang relevan untuk produk smartphone. Inilah masalah yang seringkali dihadapi dalam proses ekstraksi target opini.

  Untuk mengatasi masalah tersebut, peneliti menerapkan metode pruning. Yakni membuang target opini yang hanya disebut sedikit atau dibawah ambang batas (threshold) yang telah ditentukan sebelumnya. Untuk itu, maka pengenalan kata ganti yang diusulkan akan sangat membantu dalam proses pruning ini. Hal ini dikarenakan fitur produk yang sebenarnya akan seringkali dirujuk oleh beberapa kata ganti dalam suatu dokumen, maka secara otomatis, nilai kemunculannya juga akan bertambah sehingga bisa lolos dari jebakan threshold yang diberikan.

  Untuk mengukur tingkat relevansi metode yang diusulkan, maka dihitung nilai precision untuk tiap 10 besar fitur yang paling sering dikomentari di masing-masing produk. Untuk mendapatkan list fitur yang relevan dengan produk smartphone, 2 orang user diminta untuk melakukan penilaian terhadap fitur-fitur yang berhasil diekstrak oleh metode DP dan metode yang diusulkan. Jika user menemukan ada kata/fitur yang tidak relevan, user diminta untuk menggaris bawahi fitur tersebut. Jika terdapat perbedaan pendapat dari kedua user tersebut, maka kedua user tadi akan berdiskusi untuk menentukan pilihan. Dari proses tersebut, kemudian dilakukan perhitungan precision untuk tiap produk dengan persamaan berikut : Tabel 1 akan menunjukkan hasil perhitungan nilai precision untuk tiap produk dari hasil yang didapatkan metode DP dan metode yang diusulkan.

  Tabel 1. Nilai Precision metode DP dan metode yang diusulkan (PM) Dapat dilihat ada Tabel 1, metode yang diusulkan (PM) terbukti mampu meningkatkan nilai precision dari metode DP hingga 30%. Ini membuktikan bahwa pengenalan kata ganti untuk mengekstrak fitur produk dalam suatu kalimat opini memang diperlukan.

Kesimpulan

  Pengenalan pronoun sangat berpengaruh terhadap perankingan fitur suatu produk. Dalam suatu dokumen review, pengenalan pronoun bertujuan untuk meningkatkan skor fitur (target_score) untuk fitur yang relevan, sehingga ranking dari fitur yang tidak relevan akan lebih rendah dari fitur yang lain sehingga pada akhirnya akan meminimalisir noise fitur untuk suatu produk.

  Pada penelitian ini dapat disimpulkan bahwa metode yang diusulkan mampu meningkatkan performa (kinerja) dari metode double propagation dalam proses pengenalan fitur produk. Hal ini dibuktikan dalam tahap uji coba, dimana metode yang diusulkan mampu meningkatkan nilai precision dari fitur relevan yang diekstrak oleh metode DP hingga mencapai 30%.

  Dari penelitian ini juga diketahui bahwa reviewer seringkali menyebut fitur dari suatu produk hanya sekali dalam suatu dokumen yang memiliki beberapa kalimat opini. Untuk merujuk ke fitur yang bersangkutan, reviewer seringkali menggunakan kata ganti. Sayangnya, metode yang diusulkan

  SENTRA I - 248 pada penelitian ini hanya mampu mengenali kata ganti yang memang berkedudukan sebagai pronoun (seperti it, he, she). Sedangkan kata ganti yang berperan sebagai noun (seperti thing, one) gagal untuk dideteksi. Diharapkan masalah tersebut dapat diatasi dalam penelitian berikutnya.

  Referensi [1] Liu, Kang, Liheng Xu, and Jun Zhao. 2011.

  “Opinion Target Extraction Using Word-Based Translation Model

  ” [2] M. Hu and B. Liu, 2004.

  “Mining and Summarizing Customer Reviews”. Proceedings of the 10th ACM International Conference on Knowledge Discovery and Data Mining (SIGKDD-2004), 8, pp. 168

  • –174.

  [3] M. Hu an

  d B. Liu. 2007. “Mining Opinion Features in Customer Reviews”. Proceedings of the 19th National Conference on A rtificial Intelligence., 7, pp. 755-760.

  [4] Qiu, Guang., Bing, Liu., Jiajun Bu and Chun Chen. 2009.

  “Expanding Domain Sentiment Lexicon through Double Propagation

  ”. In Proceedings of IJCAI

  [5]

  Zhang, Lei, Bing Liu, Suk Hwan Lim, Eamonn O’Brien-Strain. 2010. "Extracting and ranking product features in opinion documents." Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics.

  [6]

  Eirinaki, M., Pisal, S., & Japinder, S. 2011. “Feature-based opinion mining and ranking”. Journal of Computer and System Sciences.

  SENTRA