Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia dengan Pendekatan Grammatical Tagging untuk Visualisasi Trend Produk Brand

  Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104 Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia dengan Pendekatan Grammatical Tagging untuk Visualisasi Trend Produk Brand

  1

  2

  3 Septiyan Andika Isanta , Chastine Fatichah , Diana Purwitasari

  Program Studi Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember

  1

  

   ABSTRAK

  Diketahui bahwa informasi dari twitter banyak mengandung teks yang berisikan produk sebuah brand. Pemilik brand biasanya mengamati kata kunci apa yang sedang populer dalam

  twitter

  . Kata dengan jumlah kemunculan terbesar pada umumnya dijadikan kata kunci. Selain fitur frekuensi tweet, terdapat metadata twitter yang bisa digunakan untuk menganalisa tweet kemunculan kata, kata yang didapatkan belum tentu adalah target dari sebuah tweet. Oleh karena itu, penelitian ini mengusulkan metode ekstraksi kata kunci dari metadata twitter dengan pendekatan grammatical tagging untuk visualisai trend produk brand. Metode dibagi menjadi empat tahap yaitu praproses, ekstraksi kata kunci, ekstraksi target, dan asosiasi serta visualiasi target dengan kata kunci. Berdasarkan pengujian menggunakan tweet dari brand Apple dan Nexus, didapatkan bahwa nilai kemunculan kata lebih berpengaruh dari pada nilai

  retweet

  dan nilai favourite. Metode yang diusulkan dapat mengenali target sebuah tweet, dengan nilai precision 81.3%, serta dapat mengenali dengan baik hubungan antara target dengan kata kunci tweet dengan nilai f-measure 52.5%

  Kata Kunci: Ekstraksi, target, kata kunci, twitter, graph, grammatical tagging, part-of-speech tagging ,association rule.

  ABSTRACT It is known that twitter have text that are contains with a lot of information of a product brand.

  Owner of a brand usually doing some observe about keywords that now happening in twitter. The word with the largest number of occurrences usually become the keyword. Beside frequency of tweet, there is twitter metadata that can be used to analyze those tweets, for example retweet and favorite. Moreover, if only use the number of occurrences of the word, the word obtained is not necessarily the target of a tweet. Therefore in this research, proposed a keyword extraction method form twitter metadata with gramatical tagging approach, for visualization trend of brand products. The method divided into four stages, there are preprocessing, keywords extraction, target extraction, and associations along with visualize the target keywords. Based on testing using tweets from Apple and Nexus, found that the occurrence of the word is more influential than the value of retweet and favorite. The proposed method can identify the target of a tweet, with a precision value 81.3% precision, also can recognize the relationship between the target with the keyword tweet nicely with f- measure value 52.5%.

  Keywords: Extraction, target, keyword, twitter, graph, grammatical tagging, part-of-speech tagging.

  association rule.

  1. twitter biasanya menunjukkan kejadian

   Pendahuluan Twitter merupakan salah satu yang sedang terjadi dan sering disebut

  media sosial yang sedang ramai digunakan sebagai kata kunci. Pemilik brand pada saat ini, kata yang lagi popular dari biasanya mengamati kata kunci apa yang

  

Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging

Untuk Visualisasi Trend Produk Brand

  twitter

  Permasalahan lain yang muncul adalah bagaimana jika set of word yang penting dari sebuah kumpulan tweet lebih dari satu, seperti dalam tweet

  metode Hidden Markov Model untuk mendapatkan grammatical tagging dari dokumen news berbahasa Indonesia, sehingga dapat mengetahui apakah kata dari sebuah dokumen tersebut adalah kata benda, kata kerja, kata sifat dll [12]. Setelah mendapatkan tagging dari sebuah kata dalam tweet, bagaimana menentukan kata yang menjadi target tweet tersebut. Terdapat sebuah penelitian lain yang melakukan ekstraski fitur produk dalam dokumen review yang dilakukan oleh Qiu, dia mengusulkan metode berbasis rule untuk mendapatkan fitur produk dari sebuah kalimat opini [6]. Yang menjadi permasalahan adalah bagaimana menerapkan rule untuk melakukan ekstraksi target tweet dalam twitter berbahasa Indonesia.

  Tagging atau biasa disebut grammatical tag ging. Alfan Farizki menggunakan

  mendapatkan tagging dari tweet berbahasa indonesia [5]. Selain menggunakan named dari kalimat bisa menggunakan POS

  named entity recognition untuk

  menggunakan NLP, metode yang digunakan adalah melakukan ekstraksi

  Untuk mendapatkan infomasi struktur kata dalam tweet , Hasby mengusulkan sebuah metode untuk ekstraksi informasi dalam

  sedang popular dari sebuah produk mereka atau produk kompetitor. Visualisasi kata yang popular tersebut umumnya ditampilkan dalam bentuk grafik batang atau grafik lingkaran. Dengan memvisualisasikan dalam bentuk grafik batang atau grafik lingkaran setiap kata kunci dianggap berdiri sendiri, padahal ada hubungan semantic antara kata kunci tersebut. Sehingga dibutuhkan sebuah visualisasi yang dapat mengetahui hubungan relasi semantics antara kata kunci. visualisasi hubungan antar kata atau

  “@.... did you pre order your iPad”, “@.... discount 5% for pre order iPad ” kata yang penting adalah pre, order dan ipad, sehingga set of word yang dihasilkan adalah “pre order ipad”. Akan tetapi dengan hanya menghitung kemunculan kata, kata kunci yang dihasilkan belum tentu sebuah produk atau target opini dari tweet tersebut, sehingga dibutuhkan sebuah metode natural language processing (NLP) untuk mengetahui target yang dikomentari dari sebuah tweet.

  Sebelum pembentukan relasi antara kata kunci terlebih dahulu diperlukan metode untuk mengeksktraksi kata kunci dan metode untuk merelasasikan kata kunci tersebut. Pada penelitian yang dilakukan Medvet dan Bartoli, mereka menggunakan metode perbandingan frekuensi word dengan jumlah tweet dan riwayat tweet untuk mendapatkan kata kunci yang sedang populer pada suatu event tertentu dari sebuah brand[4]. Dalam penelitian tersebut mereka tidak hanya melakukan ektrasi 1 keyword, melainkan set of word dari kumpulan tweet. Sebagai contoh dalam tweet

  graph[3]. Pada kedua penelitian tersebut dalam pembuatan graph mereka menggunakan fitur frekuensi jumlah kata atau kata kunci yang muncul didalam kumpulan tweet.

  tweet dari twitter stream dalam bentuk

  seperti yang dilakukan oleh Abscal dia melakukan visualisasi hubungan antara hashtag bedasarkan hashtag tertentu [2]. Amma juga melakukan visualisasi topik

  hashtag dalam twitter dalam bentuk graph,

  “ Lazada Buka Pre-Order Xiaomi Redmi Note: Redmi Note dibanderol Rp1,99 juta. ” dan “Xiaomi luncurkan Redmi Note di Indonesia, Mi3 tidak akan dijual”, produk yang dikomentari adalah Redmi Note dan Mi3 sedangkan kata kunci yang penting adalah preorder, lazada. Sehingga dibutuhkan suatu metode untuk

  Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104

  2.2 Ekstraksi target tweetdengan Hidden Markov Model (HMM) ModelPOS Tagging

  banyak digunakan karena beberapa hal seperti portabilitas, mudah digunakan, berisi pesan singkat dan tidak ada batasan pengguna untuk menyebarkan informasi dalam media tersebut. Dari sekian banyak pesan singkat yang dikirimkan tersebut, terdapat tweet yang berisakan opini terhadap sebuah produk dan promo sebuah produk. Untuk mendapatkan kata kunci dalam tweet dapat menggunakan metode statistik seprerti yang digunakan oleh jumlah kemunculan term dalam sekumpulan tweet, term yang memiliki jumlah kemunculan paling tinggi dapat diartikan sebagai kata kunci dalam sekumpulan tweet.

  twitter

  Angka-angka tersebut menujukkan bahwa

  merepresentasikan hubungan antara produk dan kata kunci .

2. Ekstraksi Kata Kunci dan target

  dalam tweet. Oleh sebab itu perlu digunakan grammatical tagging dan rule, untuk mendapatkan target tweet, algoritma yang dipakai untuk ekstraksi tagging dalam penilitian ini adalah Hidden Markov Model (HMM).

  Tweet

  tag atau makna dari masing-masing kata

  produk sebuah brand. Dengan adanya usulan tersebut diharapkan pemilik brand dapat mengetahui produk dan kata kunci apa yang sedang populer dalam brand tersebut.

  contenttweet dengan pendekatan grammatical tag ging untuk visualisasi tren

  Berdasarkan permasalahan tersebut, dalam penelitian ini diusulkan suatu metode untuk ekstraksi kata kunci berdasarkan metadata tweet dan

  tweet tersebut dianggap penting oleh orang lain.

  Fitur favourite dan retweet bisa digunakan untuk mengetahui tweet itu penting atau tidak. Karena jika tweet tersebut di

  tweet contohnya, favourite dan retweet.

  Sebagian besar peneliti yang melakukan penelitian menggunakan twitter hanya menggunakan fitur frekuensi tweet. Padahal selain fitur frekuensi atau jumlah kata kunci dalam tweet, masih banyak metadata twitter yang bisa digunakan untuk menganalisa bobot sebuah

  Metode statistik yang digunakan dalam ektraksi kata kunci tidak bisa digunakan untuk mendapatkan target opini dari sebuah tweet karena untuk mendapatkan target tweet kita perlu tahu

2.1 Ekstraksi Kata Kunci Tweet

  merupakan layanan jejaring social yang memiliki perbedaan dengan jejaring social media yang lain yaitu memiliki ukuran panjang teks terbatas 140 karakter [8]. Batasan tersebut menyebabkan pengguna dengan mudah mengirim tweet dengan cepat tentang informasi yang akan disampaikan. Pengguna bisa mengirim pesan singkat berupa kritik, saran, opini, kabar, berita, suasana hati, peristiwa, fakta dan lain-lain yang tidak terkatagorikan. Pesan yang dikirim cenderung secara singkat dan langsung pada inti dari informasi yang disampaikan.

  Pada kasus Part of Speech

  Tagging , urutan kelas kata tidak dapat

  diamati secara langsung sehingga dijadikan sebagai hidden state dan yang menjadi observed state adalah urutan kata- kata [12]. Dari urutan kata-kata harus dicari urutan kelas kata yang paling tepat. HMM POS Tagger menggunakan dua buah asumsi, asumsi yang pertama adalah probabilitas kemunculan suatu kata hanya tergantung pada tag- nya, dan tidak tergantung dengan kata lain di sekitarnya atau tag lain di sekitarnya. Asumsi yang kedua adalah probabilitas suatu

  Twitter

  Saat ini jumlah pengguna twitter telah mencapi 140 juta pengguna aktif yang rata-rata per hari mengirimkan pesan singkat sejumlah 400 juta pesan [9].

  Kata Asing Word

  Kata Sambung Setara Dan, Atau, tetapi SC Subor-

  Ellipsis Tanda Pengganti ...


  JJ Adjective Kata Sifat
 Baik, Bagus RB Adverb Kata Sementara,

  POS Tag

  Deskripsi (English) Deskripsi (Indonesia) Contoh Keterangan Nanti NN Common

  Noun Kata Benda
 Meja, Kulkas

  NNP Proper Noun Benda Bernama

  Samsung, Sony NNG Genitive Noun

  Benda Berpemilik Handphonenya

  VBI Intransitive Verb Kata Kerja Intransitif

  Pergi


  VBT Transitive verb Kata Kerja Transitif

  Membeli


  IN Preposition Preposisi Di, Dari, Ke MD Modal CC Coor- Conjunction

  Conjunction Kata Sambung Tidak Setara
 Jika, Ketika

  Sentence Terminator Tanda Titik .


  DT Determiner Determiner Para, Ini, Itu
 UH Interjection Interjection
 Wah,

  Aduh, Oi CD Cardinal Number

  Bilangan 1, 2 CDO Ordinal Numerals Kata

  Bilangan Berurut Pertama, Kedua

  CDC Collective Numerals Kata Bilangan Kolektif Berdua

  CDP Primary Numerals Kata Bilangan Pokok Satu, Dua,

  Tiga CDI Irregular Numerals Kata

  Bilangan Tidak Biasa Beberapa PRP Personal pronoun Kata Ganti

  Orang
 Saya, Mereka
 WP Wh- pronoun

  Kata tanya
 Apa, Siapa, PRN Number Pronouns

  Kata Ganti Bilangan Kedua- duanya


  PRL Locative Pronouns Kata Ganti Lokasi

  Sini, Situ
 NEG Negation Negasi
 Bukan, Tidak

  SYM Symbol Simbol
 #,%,^,&,*
 RP Particle Particle
 Pun, Kah
 FW Foreign word

  ,
 Comma Tanda Koma ,


  “ Quotation Tanda Kutip " dan '
 .


  Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging Untuk Visualisasi Trend Produk Brand

  dan probabilitas kemiripan kata (word likelihood) diperlukan koleksi data

  kemunculan tag hanya bergantung dari tag sebelumnya[1]. Dengan kedua buah asumsi teresebut persamaan dari Hidden

  Markov Model untuk kasus Part of Speech Tagging adalah .

  = −1

  (1)

  dimana Tag

  n

  adalah kelas kata yang dicari, tag

  i

  adalah kelas kata dari word ke i yang ada di corpus, word

  i

  adalah kata yang dicari kelas katanya, tag

  i −1

  adalah kelas kata sebelum kelas kata dari word ke i yang ada di corpus dan P adalah nilai probabilitas. Untuk melakukan perhitungan probabilitas transisi tag

  −1

  tweet atau kalimat yang telah diberikan tag

  Semicolon Titik Koma ; :
 Colon Titik Dua :


  sebelumnya (corpus). Untuk menghitungnya dapat digunakan persamaan :

  −1

  = (

  −1

  , ) (

  −1

  ) (2)

  = ,

  (3)

  Tabel 1. POS Tag POS Tag

  Deskripsi (English) Deskripsi (Indonesia) Contoh OP Open Parenthesis

  Kurung Buka ({[ CP Close

  Parenthesis Kurung Tutup )}]

  GM Slash Garis Miring /
 ;


  • Dash Garis -
 ...


  Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104

  = ( , )

  pendekatan grammatical tagging untuk visualisasi trend produk brand. Desain sistem dalam penelitian ini terdiri atas empat bagian utama yaitu: praproses (preprocessing), ekstraksi kata kunci, ekstraksi target tweet, dan asosiasi serta visualisai target dan kata kunci tweet. Diagram desain sistem dapat dilihat pada Gambar 1.

  twitter berbahasa indonesia dengan

  Pada bagian ini akan dibahas tentang ekstraksi kata kunci metadata

  4. Metodologi Penelitian 4.1. Metode yang Diusulkan

  dilakukan dengan menghitung nilai confidence target tweet dan kata kunci. Sehingga kita bisa tahu seberapa besar nilai kedekatan atau relasi antara target dan kata kunci dalam tweet.

  tweet yang mengandung target, dapat

  Pada penelitian ini yang akan diasosiasikan adalah target tweet dan kata kunci hasil ekstraksi tweet, asosiasi tersebut bertujuan untuk mengetahui seberapa kuat relasi antara target tweet dan kata kunci. Agar dapat menghitung seberapa sering kata kunci muncul dalam

  s (A) adalah jumlah transaksi item A.

  secara bersamaan, dan

  s (A, B) total transaksi item A dan B

  dimana c adalah nilai confidence,

  (5)

  ( )

  b) Confidence : suatu ukuran yang menunjukkan hubungan antar 2 item secara conditional (misal, seberapa sering item B dibeli jika orang membeli item A). Adapun rumus yang digunakan untuk menghitung confidence adalah sebagai berikut:

  3. Asosiasi target dan kata kunci tweet dengan algoritma Association Rule

  adalah jumlah transaksi total.

  | T|

  secara bersamaan, dan

  s (A, B) total transaksi item A dan B

  dimana s adalah nilai support,

  (4)

  | |

  = ( , )

  a) Support : suatu ukuran yang menunjukkan seberapa besar tingkat dominasi suatu item/itemset dari keseluruhan transaksi. Ukuran ini akan menentukan apakah suatu item/itemset layak untuk dicari confidence-nya (misal, dari seluruh transaksi yang ada, seberapa besar tingkat dominasi yang menunjukkan bahwa item A dan B dibeli bersamaan) dapat juga digunakan untuk mencari tingkat dominasi item tunggal. Adapun rumus yang digunakan untuk menghitung support adalah sebagai berikut:

  kepercayaan) yang didapatkan dari hasil pengolahan data dengan perhitungan tertentu. Umumnya ada dua ukuran, yaitu:

  interestingness measure (ukuran

  2. Mendefinisikan Condition dan Result Dalam menentukan suatu association rule , terdapat suatu

  Mencari kombinasi yang paling sering terjadi dari suatu itemset.

  Association Rule adalah suatu metode data mining yang bertujuan untuk mencari sekumpulan items yang sering muncul bersamaan. Association rule umumnya mengambil bentuk IF-THEN yang menggabungkan beberapa items menjadi satu, misalnya: IF A THEN B. Association rule meliputi dua tahap : 1.

  Gambar 1. Diagram Metode Penelitian

  

Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging

Untuk Visualisasi Trend Produk Brand

  4. Mengubah kata allay menajdi kata formal berdasarkan dictionary yang didapat dari contonya “ciyus” menjadi serius.

  log ⁡(| |) (| |)

  =

  tweet , persamaan yang digunakan adalah : −

  adalah pemfilteran kata kunci dengan berdasarkan kemunculan kata didalam

  Filtering dan Stemming. Tahapan kedua

  ,

  Tokenizing

  ,

  Case folding

  pertama adalah prepocessing text yang meliputi

  tweet terdapat 2 proses tahapan, tahapan

  Pada tahap ekstraksi kata kunci

  4.1.3. Ekstraksi Kata Kunci tweet

  Dari hasil prepocessing texttweets akan diperoleh data text tweets yang menggunakan kata-kata formal, data tersebut akan dijadikan sebagai text yang akan di proses ke tahapan selanjutnya yaitu ektraksi kata kunci dan ekstraksi target tweet.

  3. Menghapus huruf yang berulang, contohnya adalah kata “tidaaak”, menjadi tidak.

  4.1.1. Data Uji Coba

  4.1.2. Tahap Praproses Data

  Data uji coba yang digunakan dalam penelitian ini berasal dari data tweet atau dokumen tweet dengan memanfaatkan search API yang disediakan oleh twitter. Sebuah aplikasi dibangun untuk mengambil data tweet tersebut dari twitter dengan menggunakan search API dengan query languange ID yang berarti tweet yang berbahasa Indonesia yang diambil. Data tweet hanya dibatasi topik-topik produk dari brand antara lain : Apple dan Nexus. Data tweet dikumpulkan atau Desember 2015 sampai 14 Desember 2015. Seluruh data rawtweets disimpan dalam format json.

  Gambar 2. menunjukkan contoh

  tweet sebuah produk dari brand. Pada suatu tweet tersebut dapat informasi jumlah retweet secara langsung. Contohnya pada tweet yang dilakukan user dari kompas TV,

  dapat diperoleh jumlah retweetsebanyak 7. Berarti tweettersebut sudah di retweetoleh 7 orang. Pada penelitian ini, jumlah

  retweet dan jumlah mention diperoleh dari informasi teks tweet.

  Gambar 2. Contoh Tweet Yang Sebuah Produk

  Setelah diperoleh dataset yang dibutuhkan untuk penelitian ini. Kemudian dilakukan tahap praproses data untuk menyiapkan data tweetagar siap diproses pada tahap selanjutnya. tahap praproses tweet dimulai dengan membaca data tweet dari hasil serach API yang telah disimpan dalam format json Metadatatweet yang digunakan dalam pengujian ini adalah text,

  2. Mengubah angka di dalam text menjadi huruf, contohnya “ga2l” menjadi gagal

  retweet _count dan favourites_count, untuk

  metadata lainnya seperti location, coordinate tidak digunakan. sebelum dilakukan praproses terlebih dahulu dibuat sebuah sistem untuk mengekstrak value dari meta data text, retweet_count dan

  favourite s_count.

  Setiap text tweet dilakukan proses untuk memformalkan text tweet, langkah- langkah yang dilakukan untuk memformalkan text tweet terdapat 4 langkah yaitu:

  Memisahkan angka di depan atau di belakang text dengan text yang mengikutinya. Contohnya

  “2hari”, menjadi 2 hari

  , (6)

  Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104

  tweet tersebut diretweet dan favourite oleh

  threshold akan digunakan sebagai kata

  kunci yang akan diasosiasikan dengan target tweet yang diperoleh pada tahapan ekstraksi target.

  Pemfilteran kata kunci digunakan untuk mereduksi dimensi kata kunci yang didapat pada tahapan selanjutnya sehingga akan mempecepat komputasi dan hanya kata kunci yang sering muncul yang akan dipakai. Kata kunci yang melebihi nilai

  , (7) dimana

  | | | |

  ( ) =

  1

  Pembobotan term tweet adalah menghitung jumlah kemunculan term target yang muncul didalam tweet. Perhitungan bobotnya mengikuti persamaan seperti berikut:

   Pembobotan term tweet

  orang lain, maka tweet tersebut dianggap penting. Persamaan pembobotannya seperti berikut : a.

4.1.4. Ekstraksi target tweet

  NN RB Kata Benda diikuti dengan Kata keterangan

  c. Pembobotan term favourite

  (term

  i

  ) adalah bobot

  retweet

  dari term target ke-i, (term

  i, j

  ), adalah jumlah

  retweet dari term target ke-i pada tweet

  ke-j, dan max_ (term i, j

  ) adalah nilai maksimal dari jumlah retweet sebuah koleksi term ke-i di dalam koleksi tweet.

  Pembobotan term favourite adalah menghitung jumlah favourite dari term target yang terdapat pada tweet . Perhitungan bobotnya mengikuti persamaan seperti berikut: 3

  dimana

  ( ) = log ⁡( (

  , ))

  ∈ log ⁡(

  ∈ ∈ _ ( , )

  ) (9)

  dimana

  3

  (term

  i

  ) adalah bobot dari term target ke-i, (term i, j

  ), adalah jumlah

  2

  _ ( , ) ) (8)

  Iphone 5S, Galaxy s6 NN CD Kata Benda diikuti dengan angka

  menggunakan metode Hidden Markov Model yang telah dijelaskan pada subbab. Tabel 2. Rule Ekstraksi Target

  Iphone 5, Zenfone

  5 NN NNP Kata Benda diikuti dengan Kata Benda

  Bermakna Redmi Note NNP CD

  Kata Benda Bermakna diikuti dengan angka Note 6

  Setelah didapatkan target tweet, selanjutnya adalah pembobotan target. yang diusulkan dalam melakukan tahap pembobotan dalam penelitian ini adalah metode pembobotan term, pembobotan jumlah favourite, dan pembobotan jumlah

  retweet . Pembobotan jumlah favourite dan

  jumlah retweet dimasukkan karena jika

  Kata Benda diikuti dengan Kata Benda Galaxy Note

  Kata Benda Bermakna Iphone, Android NN NN

  NN Kata Benda Laptop, kamera NNG Kata Benda Berpemilik macbooknya NNP

  Rule Arti Contoh

  grammatical

  ⁡( ∈ ∈

  berbasis

  tag

  1

  (term

  i

  Pada tahapan ektraksi target tweet menggunakan grammatical tagging dan penyeleksian term yang didapat menggunakan rula yang di buat pada Ekstraksi

  tweet yang memiliki term target ke-i, dan |D| adalah total dokumen tweet.

  b. Pembobotan term retweet

  Pembobotan term retweet adalah menghitung jumlah Retweet dari term target yang terdapat pada tweet . Perhitungan bobotnya mengikuti persamaan seperti berikut: 2

  ( ) = log ⁡(

  , ∈ ) log

  ) adalah bobot term target ke-i, i

  

Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging

Untuk Visualisasi Trend Produk Brand

  dari term target ke-i pada

  tweet ke-j,

  max_ (term i, j

  ) adalah nilai maksimal dari jumlah retweet sebuah koleksi term ke-i didalam koleksi tweet.

d. Bobot total term

  Berdasarkan 3 pembobotan di atas term, retweet dan favourite, maka nilai total bobot dari term target ke i adalah sebagai berikut.

  • 2 ( ) + ∗ 3 ( )

      ( ) = ∗ 1 (

      (10)

      Nilai bobot , , dan jika di total harus bernilai 1, dimana nanti dalam tahap pengujian dilakukan penentuan bobot a, b, dan c yang optimal, sehingga bisa mengetahui bobot mana yang paling berpengaruh pada ekstrkasi target tweet.

      dan besar kecilnya garis tergantung pada nilai confidence antara produk dan kata kunci.

      t

      Dalam pembuatan graph, node produk di beri warna biru, sedangkan kecilnya node itu berdasarkan pada nilai bobot w

      yang dihasilkan dari relasi kata kunci dan target melebihi nilai threshold yang ditentukan, maka kata kunci dan target tersebut akan divisualisasikan dalam bentuk graph.

      visualisasi graph . Jika nilai confidence

    4.1.5. Asosiasi dan visualisasi relasi target dengan kata kunci atau target lainnya

      2. Menghitung jumlah tweet yang mengandung target dan kata kunci secara bersamaan 3. Menghitung nilai confidence kata kunci ke target, dengan cara membagi jumlah tweet yang mengandung target dan kata kunci secara bersamaan dengan jumlah tweet yang mengadung target

      4.2.1. Pengujian Ekstraksi Target Tweet

      Setalah didapatkan kata kunci dan target dari tweet dilkukakan asosiasi target dengan kata kunci dan target dengan target agar dapat mengetahui apakah kedua kata tersebut berhubungan atau tidak. Perhitungan asosiasi menggunakan nilai

      target tweet yang relevan dari jumlah target tweet ditemukan. Sedangkan recall adalah presentase tingkat keberhasilan system menemukan target tweet yang relevan dari seluruh koleksi target tweet

      recall . precision adalah presentase jumlah

      menggunakan nilaiprecision dan

      tweet

      Evaluiasi ujicoba ekstraksi target

      4.2. Pengujian

      tweet , hal tersebut dapat berarti bahwa

      Gambar 3. Visualisasi trend produk apple

      confidence dari metode Association Rule.

      Tahapan untuk mendapatkan nilai

      confidence dari relasi target dan kata kunci

      adalah sebagai berikut : 1.

      Menghitung jumlah tweet yang mengandung target

      relasi antara target dan kata kunci tersebut kuat. Dalam pemilihan relasi yang akan digunakan untuk visualisasi graph di lakukan pemfilteran nilai confidence, pemfilteran tersebut bertujuan hanya relasi yang kuat saja yang akan digunakan dalam

      Semakin tinggi nilai confidence tersebut maka target dan kata kunci sering muncul bersamaan didalam sekumpulan

      Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104

      yang relevan.Tujuan dari pengujian ini

      Nilai Nilai a Nilai b Nilai c

      adalah untuk mengetahui fitur mana yang

      threshold Precsion (w1) (w2) (w3)

      lebih berpengaruh antaraa (kemunculan), b

      (wt)

      (retweet), danc (favourite) serta sebaragu

      0.7

      0.3 0.2 0.333 bagus ekstraksi target yang dihasilkan.

      0.6

      0.2

      0.2 0.3 0.417

      0.7

      0.2

      0.1 0.2 0.219

      0.5

      0.4

      0.1 0.4 0.385 (11) =

    • 0.5

      0.1

      0.4

      0.3

      0.25 (12)

      0.6

      0.3

      0.1

      0.3

      0.25 = + ..... ..... ..... ..... .....

      0.9

      0.1 0.1 0.022

      0.8

      0.2 0.2 0.015

      4.2.2. Pengujian Asosisasi Target dan kata kunci tweet

      Tabel menampilkan 3 nilai Evaluasi ujicoba Asosisi target dan kombinasi a, b, c dan threshold yang kata kunci juga menggunakan nilai f-

      Tujuan dari uji coba ini adalah untuk

      memilkin nilai f-measure tertinggi dan 2 measure.

      

    mengetahu seberapa baik hasil asosiasi target nilai f-measure terendah yang nilainya

    dan kata kunci yang dihasilkan oleh metode

      bukan 0, untuk kesuluruhan kombinasi a, yang diusulkan.

      b, c dan threshold dapat dilihat di

      lampiran. Dimana f-measure tertinggi

      2( (13) ∗ )

      diperoleh saat nilai a = 0.8, b = 0.2 , c = 0

      − =

    • dan nilai threshold = 0.2, hal ini menunjukkan bahwa nilai kombinasi tersebut memiliki hasil yang lebih baik dari hasil kombinasi lainnya. Nilai a = 0.8,

      5. Hasil dan Pembahasan b

      = 0.2, dan c = 0 menunjukkan bahwa Pada bab ini dijelaskan mengenai nilai kemunculan berpengaruh lebih besar skenario pengujian beserta hasil pengujian pada dari pada nilai retweet dan favourite yang dilakukan dan analisis hasil uji yang pada etraksi target tweet. diperoleh. Pengujian dilakukan untuk mengetahui kualitas ekstrasi target dan

      Tabel 4.Ujicoba asosiasi target dan kata hasil asosiasi target dan kata kunci. kunci brand apple

      Pada uji coba 1 menggunakan

      Nilai

      dataset produk apple dengan Data tweet

      F- threshold Precsion Recall

      yang digunakan adalah tweet dengan

      measure confidence

      keyword produk dari Apple sebanyak

      0.05 0.273 1 0.423

      72.286 tweet, tweet dengan total tweet

      0.1 0.444 0.551 0.492

      yang mengandung nilai retweet sebanyak

      0.15 0.56 0.483

      0.52

      33651 tweet dan yang mengandung nilai

      0.2 0.526 0.345 0.417 favourite sebanyak 2955 tweet. 0.25 0.526 0.345 0.417 0.3 0.643 0.310 0.419

      Tabel 3. Ujicoba ekstrkasi target tweet

      0.35 0.692 0.310 0.429

      brand apple

      0.4 0.7 0.241 0.359

      0.45 1 0.103 0.188 Nilai Nilai a Nilai b Nilai c

      0.55 1 0.103 0.188 threshold Precsion (w1) (w2) (w3)

      0.6 1 0.103 0.188 (wt)

      0.65 1 0.103 0.188

      0.8

      0.2 0.2 0.857

      0.7 1 0.103 0.188

      0.9

      0.1 0.1 0.429

      0.75 1 0.103 0.188

      0.9

      0.1 0.1 0.714

      0.8 1 0.103 0.188

      

    Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging

    Untuk Visualisasi Trend Produk Brand

      Nilai

      kumpulan tweet yang membicarakan

      F- threshold Precsion Recall

      iphone 6s sebanyak 4078 tweet yang juga

      measure confidence

      membicarakan berbalut dan emas 619

      0.85 1 0.0345 0.067 tweet . Sehingga dapat ditarik kesimpulan

      0.9 1 0.0345 0.067 tweet yang membicarakan iphone 6s

      0.95 1 0.0345 0.067

      sebegian kecil pasti juga membicarakan berbalut dan emas iphone. Nilai precission akan cenderung

      Pada uji coba 2 menggunakan meningkat jika nilai threshold semakin dataset produk nexus dengan data tweet besar. Berkebalikan dengan nilai recall, yang digunakan adalah tweet dengan nilai recall cendurung menurun jika keyword produk dari Nexusse banyak

      threshold semakin besar. Untuk nilai f-

      4.486tweet, tweet dengan total tweet yang

      measure akan meningkat jika nilai

      mengandung nilai retweet sebanyak306

      threshold tidak melebihi 0.15, jika lebih

      dari 0.15 maka nilai threshold akan favourite sebanyak105 tweet. menurun jadi nilai optimal untuk threshold

      f-measure adalah 0.15. Precission, recall dan f-measure nilainya hampir sama atau

      selisihnya kecil jika nilai threshold yang digunakanadalah 0.15, itu berarti jumlah tingkat ketepatan antara hasil asosiasi benar yang di dapat dan tingkat keberhasilan sistem dalam menemukan asosiasi benar nilainya sama atau selisihnya kecil, sehingga nilai threshold yang digunakan pada pemfilteran asosiasi asosiasi target dengan kata kunci tweet yang mengandung produk dari brand

      Gambar 4 menunjukkan

      3 kelompok network, kelompok pertama memilki pusat graph iphone, kelompok kedua memilki pusat graph iphone 6s, dan kelompok ketiga memilki pusat graph iphone 7. Pada kelompok pertama iphone berelasi kuat dengan camera ditunjukkan dengan egde yang tebal (nilai confidence 0.98), dan camera juga berelasi kuat dengan selfie dengan egde yang tebal (nilai confidence 0.81), dari kumpulan

      tweet

      yang membicarakan camera sebanyak 3557 tweet yang juga membicarakan iphone 3512 tweet, dan yang membicarakan juga selfie 2889

      tweet . Sehingga dapat ditarik kesimpulan tweet

      yang membicarakan camera sebegian besar pasti juga membicarakan iphone dan Gambar 4. Visualisasi trend produk apple selfie. Pada kelompok ke dua dengan iphone 6s berelasi dengan emas dan berbalut. Nilai edge untuk berbalut dan emas kurang lebih sama yaitu 0.15. dari

      Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104

      28 7 0.184

      0.65

      20 4 0.118

      0.6

      22 4 0.114

      0.55

      23 5 0.141

      0.5

      23 5 0.141

      0.45

      0.4

      0.7

      37 13 0.306

      0.35

      F- measur e

      Nilai threshold confidenc e Jumlah asosiasi yang didapa t Jumla h asosias i yang benar

      42 15 0.333

      0.3

      45 16 0.344

      0.25

      48 19 0.396

      0.2

      17 3 0.092

      12

      27

      threshold semakin besar. Untuk nilai f- measure

      precission = 0.56 , recall= 0.48, dan f- measure = 0.52.

      pemfilteran asosiasi-asosiasi target dengan kata kunci tweet yang mengandung produk dari bran Apple adalah 0.15 dengan nilai

      threshold yang digunakan pada

      berarti jumlah tingkat ketepatan antara hasil asosiasi benar yang di dapat dan tingkat keberhasilan sistem dalam menemukan asosiasi benar nilainya sama atau selisihnya kecil, sehingga nilai

      threshold yang digunakanadalah 0.15, itu

      nilainya hampir sama atau selisihnya kecil jika nilai

      thresholdf-measure adalah 0.15. Precission, recall dan f-measure

      dari 0.15 maka nilai threshold akan menurun jadi nilai optimal untuk

      threshold tidak melebihi 0.15, jika lebih

      akan meningkat jika nilai

      8 1 0.036 nilai precission akan cenderung meningkat jika nilai threshold semakin besar. Berkebalikan dengan nilai recall, nilai recall cendurung menurun jika

      3

      0.95

      8 1 0.036

      0.9

      8 1 0.036

      0.85

      10 2 0.069

      0.8

      11 2 0.068

      0.75

      0.1

      0.54

      52

      Tabel 5. Ujicoba ekstrkasi target tweet brand nexus

      0.2 0.1 0.727

      0.3 0.2 0.778

      0.1

      0.6

      0.1 0.1 0.778

      0.9

      0.1 0.1 0.778

      0.9

      0.4 0.2 0.875

      0.6

      0.8

      0.1

      0.1 0.1 0.625

      0.1

      0.8

      0.2 0.2 0.769

      0.2

      0.6

      Nilai thresho ld bobot Precsion

      Nilai c (w3)

      Nilai b (w2)

      Nilai a (w1)

      0.7

      0.2

      0.15

      b, c

      70 28 0.475

      0.1

      0.05 150 48 0.485

      F- measur e

      Nilai threshold confidenc e Jumlah asosiasi yang didapa t Jumla h asosias i yang benar

      Tabel 6.Ujicoba asosiasi target dan kata kunci brand nexus

      favourite pada ekstraksi target tweet.

      nilai kemunculan berpengaruh lebih besar pada dari pada nilai retweet dan

      b = 0.2, danc = 0.2 menunjukkan bahwa

      dan threshold dapat dilihat di lampiran. Dimana f-measure tertinggi diperoleh saat nilai a = 0.6, b = 0.2 , c = 0.2 dan nilai threshold = 0.2, hal ini menunjukkan bahwa nilai kombinasi tersebut memiliki hasil yang lebih baik dari hasil kombinasi lainnya. Nilai a = 0.6,

      0.1 0.5 0.333 Tabel 6 menampilkan 10 nilai kombinasi a, b, c dan threshold yang memiliki nilai f-measure tertinggi dan 2 nilai f-measure terendah yang nilainya bukan 0, untuk kesuluruhan kombinasi a,

      0.2

      0.5

      0.4

      0.1 0.5 0.333

      0.5

      0.4

      0.45 ..... ..... ..... ..... .....

      0.1

      0.2

      0.8

      1

      Gambar 5 menunjukkan 3 buah kelompok network, kelompok pertama memilki pusat graph nexus 6p, kelompok kedua memilki pusat graph huawei, dan kelompok ketiga memilki pusat graph nexus. Pada kelompok pertama google

      

    Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging

    Untuk Visualisasi Trend Produk Brand

      Daftar Pustaka [1] Rozi, I. F. (2013., April).

      [5] Hasby, M., & Khodra, M. (2013).

      IEEE/WIC/ACM International Conferences on , (hal. 297 - 302).

      Intelligence and Intelligent Agent Technology (WI-IAT), 2012

      [4] Medvet, E., & Bartoli, A. (2012, Dec). Brand-Related Events Detection, Classification and Summarization on Twitter. Web

      Intelligent Systems (SCIS), 2014 Joint 7th International Conference on and Advanced Intelligent Systems (ISIS), 15th International Symposium on , (hal. 3-6).

      [3] Amma, K., Wada, S., Nakayama, K., Akamatsu, Y., Yaguchi, Y., & Naruse, K. (2014). Visualization of spread of topic words on Twitter using stream graphs and relational graphs. Soft Computing and

      Research Challenges in Information Science (RCIS), 2014 IEEE Eighth International Conference on , (hal. 1 - 10).

      [2] Abascal-Mena, R., Lema, R., & Sedes, F. (2014). From tweet to graph: Social network analysis for semantic information extraction.

      Implementasi Rule-Based Document Subjectivity Pada Sistem Opinion Mining. Jurnal ELTEK, 11.

      Pendekatan Grammatical Tagging untuk Visualisasi Trend Produk Brand adalah improvisasi grammatical tagging supaya tidak memakai kata-kata formal.

      berelasi dengan merilis ditunjukkan dengan egde yang ketebalanya sedang (nilai confidence 0.46), dan merilis juga berelasi dengan nexus 6 (nilai confidence 0.5),dan nexus 6p (nilai confidence 0.27). Sehingga dapat ditarik kesimpulan bahwa

      Twitter Berbahasa Indonesia dengan

      Pengembangan selanjutnya dari metode Ekstraksi Kata Kunci Metadata

      7. Saran

      52.5 %, mengindikasikan bahwa dapat mengenali hubungan antara target dengan kata kunci

      f-measure

      Hasil ujicoba asosiasi target dengan kata kunci atau target lain, didapatkan nilai