Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia dengan Pendekatan Grammatical Tagging untuk Visualisasi Trend Produk Brand

Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104 Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia dengan Pendekatan Grammatical Tagging untuk Visualisasi Trend Produk Brand

3 Septiyan Andika Isanta , Chastine Fatichah , Diana Purwitasari

Program Studi Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember

ABSTRAK

Diketahui bahwa informasi dari twitter banyak mengandung teks yang berisikan produk sebuah brand. Pemilik brand biasanya mengamati kata kunci apa yang sedang populer dalam

twitter

. Kata dengan jumlah kemunculan terbesar pada umumnya dijadikan kata kunci. Selain fitur frekuensi tweet, terdapat metadata twitter yang bisa digunakan untuk menganalisa tweet kemunculan kata, kata yang didapatkan belum tentu adalah target dari sebuah tweet. Oleh karena itu, penelitian ini mengusulkan metode ekstraksi kata kunci dari metadata twitter dengan pendekatan grammatical tagging untuk visualisai trend produk brand. Metode dibagi menjadi empat tahap yaitu praproses, ekstraksi kata kunci, ekstraksi target, dan asosiasi serta visualiasi target dengan kata kunci. Berdasarkan pengujian menggunakan tweet dari brand Apple dan Nexus, didapatkan bahwa nilai kemunculan kata lebih berpengaruh dari pada nilai

retweet

dan nilai favourite. Metode yang diusulkan dapat mengenali target sebuah tweet, dengan nilai precision 81.3%, serta dapat mengenali dengan baik hubungan antara target dengan kata kunci tweet dengan nilai f-measure 52.5%

Kata Kunci: Ekstraksi, target, kata kunci, twitter, graph, grammatical tagging, part-of-speech tagging ,association rule.

ABSTRACT It is known that twitter have text that are contains with a lot of information of a product brand.

Owner of a brand usually doing some observe about keywords that now happening in twitter. The word with the largest number of occurrences usually become the keyword. Beside frequency of tweet, there is twitter metadata that can be used to analyze those tweets, for example retweet and favorite. Moreover, if only use the number of occurrences of the word, the word obtained is not necessarily the target of a tweet. Therefore in this research, proposed a keyword extraction method form twitter metadata with gramatical tagging approach, for visualization trend of brand products. The method divided into four stages, there are preprocessing, keywords extraction, target extraction, and associations along with visualize the target keywords. Based on testing using tweets from Apple and Nexus, found that the occurrence of the word is more influential than the value of retweet and favorite. The proposed method can identify the target of a tweet, with a precision value 81.3% precision, also can recognize the relationship between the target with the keyword tweet nicely with f- measure value 52.5%.

Keywords: Extraction, target, keyword, twitter, graph, grammatical tagging, part-of-speech tagging.

association rule.

1. twitter biasanya menunjukkan kejadian

Pendahuluan Twitter merupakan salah satu yang sedang terjadi dan sering disebut

media sosial yang sedang ramai digunakan sebagai kata kunci. Pemilik brand pada saat ini, kata yang lagi popular dari biasanya mengamati kata kunci apa yang

Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging

Untuk Visualisasi Trend Produk Brand

twitter

Permasalahan lain yang muncul adalah bagaimana jika set of word yang penting dari sebuah kumpulan tweet lebih dari satu, seperti dalam tweet

metode Hidden Markov Model untuk mendapatkan grammatical tagging dari dokumen news berbahasa Indonesia, sehingga dapat mengetahui apakah kata dari sebuah dokumen tersebut adalah kata benda, kata kerja, kata sifat dll [12]. Setelah mendapatkan tagging dari sebuah kata dalam tweet, bagaimana menentukan kata yang menjadi target tweet tersebut. Terdapat sebuah penelitian lain yang melakukan ekstraski fitur produk dalam dokumen review yang dilakukan oleh Qiu, dia mengusulkan metode berbasis rule untuk mendapatkan fitur produk dari sebuah kalimat opini [6]. Yang menjadi permasalahan adalah bagaimana menerapkan rule untuk melakukan ekstraksi target tweet dalam twitter berbahasa Indonesia.

Tagging atau biasa disebut grammatical tag ging. Alfan Farizki menggunakan

mendapatkan tagging dari tweet berbahasa indonesia [5]. Selain menggunakan named dari kalimat bisa menggunakan POS

named entity recognition untuk

menggunakan NLP, metode yang digunakan adalah melakukan ekstraksi

Untuk mendapatkan infomasi struktur kata dalam tweet , Hasby mengusulkan sebuah metode untuk ekstraksi informasi dalam

sedang popular dari sebuah produk mereka atau produk kompetitor. Visualisasi kata yang popular tersebut umumnya ditampilkan dalam bentuk grafik batang atau grafik lingkaran. Dengan memvisualisasikan dalam bentuk grafik batang atau grafik lingkaran setiap kata kunci dianggap berdiri sendiri, padahal ada hubungan semantic antara kata kunci tersebut. Sehingga dibutuhkan sebuah visualisasi yang dapat mengetahui hubungan relasi semantics antara kata kunci. visualisasi hubungan antar kata atau

“@.... did you pre order your iPad”, “@.... discount 5% for pre order iPad ” kata yang penting adalah pre, order dan ipad, sehingga set of word yang dihasilkan adalah “pre order ipad”. Akan tetapi dengan hanya menghitung kemunculan kata, kata kunci yang dihasilkan belum tentu sebuah produk atau target opini dari tweet tersebut, sehingga dibutuhkan sebuah metode natural language processing (NLP) untuk mengetahui target yang dikomentari dari sebuah tweet.

Sebelum pembentukan relasi antara kata kunci terlebih dahulu diperlukan metode untuk mengeksktraksi kata kunci dan metode untuk merelasasikan kata kunci tersebut. Pada penelitian yang dilakukan Medvet dan Bartoli, mereka menggunakan metode perbandingan frekuensi word dengan jumlah tweet dan riwayat tweet untuk mendapatkan kata kunci yang sedang populer pada suatu event tertentu dari sebuah brand[4]. Dalam penelitian tersebut mereka tidak hanya melakukan ektrasi 1 keyword, melainkan set of word dari kumpulan tweet. Sebagai contoh dalam tweet

graph[3]. Pada kedua penelitian tersebut dalam pembuatan graph mereka menggunakan fitur frekuensi jumlah kata atau kata kunci yang muncul didalam kumpulan tweet.

tweet dari twitter stream dalam bentuk

seperti yang dilakukan oleh Abscal dia melakukan visualisasi hubungan antara hashtag bedasarkan hashtag tertentu [2]. Amma juga melakukan visualisasi topik

hashtag dalam twitter dalam bentuk graph,

“ Lazada Buka Pre-Order Xiaomi Redmi Note: Redmi Note dibanderol Rp1,99 juta. ” dan “Xiaomi luncurkan Redmi Note di Indonesia, Mi3 tidak akan dijual”, produk yang dikomentari adalah Redmi Note dan Mi3 sedangkan kata kunci yang penting adalah preorder, lazada. Sehingga dibutuhkan suatu metode untuk

Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104

2.2 Ekstraksi target tweetdengan Hidden Markov Model (HMM) ModelPOS Tagging

banyak digunakan karena beberapa hal seperti portabilitas, mudah digunakan, berisi pesan singkat dan tidak ada batasan pengguna untuk menyebarkan informasi dalam media tersebut. Dari sekian banyak pesan singkat yang dikirimkan tersebut, terdapat tweet yang berisakan opini terhadap sebuah produk dan promo sebuah produk. Untuk mendapatkan kata kunci dalam tweet dapat menggunakan metode statistik seprerti yang digunakan oleh jumlah kemunculan term dalam sekumpulan tweet, term yang memiliki jumlah kemunculan paling tinggi dapat diartikan sebagai kata kunci dalam sekumpulan tweet.

twitter

Angka-angka tersebut menujukkan bahwa

merepresentasikan hubungan antara produk dan kata kunci .

2. Ekstraksi Kata Kunci dan target

dalam tweet. Oleh sebab itu perlu digunakan grammatical tagging dan rule, untuk mendapatkan target tweet, algoritma yang dipakai untuk ekstraksi tagging dalam penilitian ini adalah Hidden Markov Model (HMM).

Tweet

tag atau makna dari masing-masing kata

produk sebuah brand. Dengan adanya usulan tersebut diharapkan pemilik brand dapat mengetahui produk dan kata kunci apa yang sedang populer dalam brand tersebut.

contenttweet dengan pendekatan grammatical tag ging untuk visualisasi tren

Berdasarkan permasalahan tersebut, dalam penelitian ini diusulkan suatu metode untuk ekstraksi kata kunci berdasarkan metadata tweet dan

tweet tersebut dianggap penting oleh orang lain.

Fitur favourite dan retweet bisa digunakan untuk mengetahui tweet itu penting atau tidak. Karena jika tweet tersebut di

tweet contohnya, favourite dan retweet.

Sebagian besar peneliti yang melakukan penelitian menggunakan twitter hanya menggunakan fitur frekuensi tweet. Padahal selain fitur frekuensi atau jumlah kata kunci dalam tweet, masih banyak metadata twitter yang bisa digunakan untuk menganalisa bobot sebuah

Metode statistik yang digunakan dalam ektraksi kata kunci tidak bisa digunakan untuk mendapatkan target opini dari sebuah tweet karena untuk mendapatkan target tweet kita perlu tahu

2.1 Ekstraksi Kata Kunci Tweet

merupakan layanan jejaring social yang memiliki perbedaan dengan jejaring social media yang lain yaitu memiliki ukuran panjang teks terbatas 140 karakter [8]. Batasan tersebut menyebabkan pengguna dengan mudah mengirim tweet dengan cepat tentang informasi yang akan disampaikan. Pengguna bisa mengirim pesan singkat berupa kritik, saran, opini, kabar, berita, suasana hati, peristiwa, fakta dan lain-lain yang tidak terkatagorikan. Pesan yang dikirim cenderung secara singkat dan langsung pada inti dari informasi yang disampaikan.

Pada kasus Part of Speech

Tagging , urutan kelas kata tidak dapat

diamati secara langsung sehingga dijadikan sebagai hidden state dan yang menjadi observed state adalah urutan kata- kata [12]. Dari urutan kata-kata harus dicari urutan kelas kata yang paling tepat. HMM POS Tagger menggunakan dua buah asumsi, asumsi yang pertama adalah probabilitas kemunculan suatu kata hanya tergantung pada tag- nya, dan tidak tergantung dengan kata lain di sekitarnya atau tag lain di sekitarnya. Asumsi yang kedua adalah probabilitas suatu

Twitter

Saat ini jumlah pengguna twitter telah mencapi 140 juta pengguna aktif yang rata-rata per hari mengirimkan pesan singkat sejumlah 400 juta pesan [9].

Kata Asing Word

Kata Sambung Setara Dan, Atau, tetapi SC Subor-

Ellipsis Tanda Pengganti ... 

JJ Adjective Kata Sifat  Baik, Bagus RB Adverb Kata Sementara,

POS Tag

Deskripsi (English) Deskripsi (Indonesia) Contoh Keterangan Nanti NN Common

Noun Kata Benda  Meja, Kulkas

NNP Proper Noun Benda Bernama

Samsung, Sony NNG Genitive Noun

Benda Berpemilik Handphonenya

VBI Intransitive Verb Kata Kerja Intransitif

Pergi 

VBT Transitive verb Kata Kerja Transitif

Membeli 

IN Preposition Preposisi Di, Dari, Ke MD Modal CC Coor- Conjunction

Conjunction Kata Sambung Tidak Setara  Jika, Ketika

Sentence Terminator Tanda Titik . 

DT Determiner Determiner Para, Ini, Itu  UH Interjection Interjection  Wah,

Aduh, Oi CD Cardinal Number

Bilangan 1, 2 CDO Ordinal Numerals Kata

Bilangan Berurut Pertama, Kedua

CDC Collective Numerals Kata Bilangan Kolektif Berdua

CDP Primary Numerals Kata Bilangan Pokok Satu, Dua,

Tiga CDI Irregular Numerals Kata

Bilangan Tidak Biasa Beberapa PRP Personal pronoun Kata Ganti

Orang  Saya, Mereka  WP Wh- pronoun

Kata tanya  Apa, Siapa, PRN Number Pronouns

Kata Ganti Bilangan Kedua- duanya 

PRL Locative Pronouns Kata Ganti Lokasi

Sini, Situ  NEG Negation Negasi  Bukan, Tidak

SYM Symbol Simbol  #,%,^,&,*  RP Particle Particle  Pun, Kah  FW Foreign word

,  Comma Tanda Koma , 

“ Quotation Tanda Kutip " dan '  . 

Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging Untuk Visualisasi Trend Produk Brand

dan probabilitas kemiripan kata (word likelihood) diperlukan koleksi data

kemunculan tag hanya bergantung dari tag sebelumnya[1]. Dengan kedua buah asumsi teresebut persamaan dari Hidden

Markov Model untuk kasus Part of Speech Tagging adalah .

= −1

(1)

dimana Tag

adalah kelas kata yang dicari, tag

adalah kelas kata dari word ke i yang ada di corpus, word

adalah kata yang dicari kelas katanya, tag

i −1

adalah kelas kata sebelum kelas kata dari word ke i yang ada di corpus dan P adalah nilai probabilitas. Untuk melakukan perhitungan probabilitas transisi tag

−1

tweet atau kalimat yang telah diberikan tag

Semicolon Titik Koma ; :  Colon Titik Dua : 

sebelumnya (corpus). Untuk menghitungnya dapat digunakan persamaan :

−1

= (

−1

, ) (

−1

) (2)

= ,

(3)

Tabel 1. POS Tag POS Tag

Deskripsi (English) Deskripsi (Indonesia) Contoh OP Open Parenthesis

Kurung Buka ({[ CP Close

Parenthesis Kurung Tutup )}]

GM Slash Garis Miring /  ; 

Dash Garis -  ...

Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104

= ( , )

pendekatan grammatical tagging untuk visualisasi trend produk brand. Desain sistem dalam penelitian ini terdiri atas empat bagian utama yaitu: praproses (preprocessing), ekstraksi kata kunci, ekstraksi target tweet, dan asosiasi serta visualisai target dan kata kunci tweet. Diagram desain sistem dapat dilihat pada Gambar 1.

twitter berbahasa indonesia dengan

Pada bagian ini akan dibahas tentang ekstraksi kata kunci metadata

4. Metodologi Penelitian 4.1. Metode yang Diusulkan

dilakukan dengan menghitung nilai confidence target tweet dan kata kunci. Sehingga kita bisa tahu seberapa besar nilai kedekatan atau relasi antara target dan kata kunci dalam tweet.

tweet yang mengandung target, dapat

Pada penelitian ini yang akan diasosiasikan adalah target tweet dan kata kunci hasil ekstraksi tweet, asosiasi tersebut bertujuan untuk mengetahui seberapa kuat relasi antara target tweet dan kata kunci. Agar dapat menghitung seberapa sering kata kunci muncul dalam

s (A) adalah jumlah transaksi item A.

secara bersamaan, dan

s (A, B) total transaksi item A dan B

dimana c adalah nilai confidence,

(5)

( )

b) Confidence : suatu ukuran yang menunjukkan hubungan antar 2 item secara conditional (misal, seberapa sering item B dibeli jika orang membeli item A). Adapun rumus yang digunakan untuk menghitung confidence adalah sebagai berikut:

3. Asosiasi target dan kata kunci tweet dengan algoritma Association Rule

adalah jumlah transaksi total.

| T|

secara bersamaan, dan

s (A, B) total transaksi item A dan B

dimana s adalah nilai support,

(4)

| |

= ( , )

a) Support : suatu ukuran yang menunjukkan seberapa besar tingkat dominasi suatu item/itemset dari keseluruhan transaksi. Ukuran ini akan menentukan apakah suatu item/itemset layak untuk dicari confidence-nya (misal, dari seluruh transaksi yang ada, seberapa besar tingkat dominasi yang menunjukkan bahwa item A dan B dibeli bersamaan) dapat juga digunakan untuk mencari tingkat dominasi item tunggal. Adapun rumus yang digunakan untuk menghitung support adalah sebagai berikut:

kepercayaan) yang didapatkan dari hasil pengolahan data dengan perhitungan tertentu. Umumnya ada dua ukuran, yaitu:

interestingness measure (ukuran

2. Mendefinisikan Condition dan Result Dalam menentukan suatu association rule , terdapat suatu

Mencari kombinasi yang paling sering terjadi dari suatu itemset.

Association Rule adalah suatu metode data mining yang bertujuan untuk mencari sekumpulan items yang sering muncul bersamaan. Association rule umumnya mengambil bentuk IF-THEN yang menggabungkan beberapa items menjadi satu, misalnya: IF A THEN B. Association rule meliputi dua tahap : 1.

Gambar 1. Diagram Metode Penelitian

Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging

Untuk Visualisasi Trend Produk Brand

4. Mengubah kata allay menajdi kata formal berdasarkan dictionary yang didapat dari contonya “ciyus” menjadi serius.

log ⁡(| |) (| |)

tweet , persamaan yang digunakan adalah : −

adalah pemfilteran kata kunci dengan berdasarkan kemunculan kata didalam

Filtering dan Stemming. Tahapan kedua

Tokenizing

Case folding

pertama adalah prepocessing text yang meliputi

tweet terdapat 2 proses tahapan, tahapan

Pada tahap ekstraksi kata kunci

4.1.3. Ekstraksi Kata Kunci tweet

Dari hasil prepocessing texttweets akan diperoleh data text tweets yang menggunakan kata-kata formal, data tersebut akan dijadikan sebagai text yang akan di proses ke tahapan selanjutnya yaitu ektraksi kata kunci dan ekstraksi target tweet.

3. Menghapus huruf yang berulang, contohnya adalah kata “tidaaak”, menjadi tidak.

4.1.1. Data Uji Coba

4.1.2. Tahap Praproses Data

Data uji coba yang digunakan dalam penelitian ini berasal dari data tweet atau dokumen tweet dengan memanfaatkan search API yang disediakan oleh twitter. Sebuah aplikasi dibangun untuk mengambil data tweet tersebut dari twitter dengan menggunakan search API dengan query languange ID yang berarti tweet yang berbahasa Indonesia yang diambil. Data tweet hanya dibatasi topik-topik produk dari brand antara lain : Apple dan Nexus. Data tweet dikumpulkan atau Desember 2015 sampai 14 Desember 2015. Seluruh data rawtweets disimpan dalam format json.

Gambar 2. menunjukkan contoh

tweet sebuah produk dari brand. Pada suatu tweet tersebut dapat informasi jumlah retweet secara langsung. Contohnya pada tweet yang dilakukan user dari kompas TV,

dapat diperoleh jumlah retweetsebanyak 7. Berarti tweettersebut sudah di retweetoleh 7 orang. Pada penelitian ini, jumlah

retweet dan jumlah mention diperoleh dari informasi teks tweet.

Gambar 2. Contoh Tweet Yang Sebuah Produk

Setelah diperoleh dataset yang dibutuhkan untuk penelitian ini. Kemudian dilakukan tahap praproses data untuk menyiapkan data tweetagar siap diproses pada tahap selanjutnya. tahap praproses tweet dimulai dengan membaca data tweet dari hasil serach API yang telah disimpan dalam format json Metadatatweet yang digunakan dalam pengujian ini adalah text,

2. Mengubah angka di dalam text menjadi huruf, contohnya “ga2l” menjadi gagal

retweet _count dan favourites_count, untuk

metadata lainnya seperti location, coordinate tidak digunakan. sebelum dilakukan praproses terlebih dahulu dibuat sebuah sistem untuk mengekstrak value dari meta data text, retweet_count dan

favourite s_count.

Setiap text tweet dilakukan proses untuk memformalkan text tweet, langkah- langkah yang dilakukan untuk memformalkan text tweet terdapat 4 langkah yaitu:

Memisahkan angka di depan atau di belakang text dengan text yang mengikutinya. Contohnya

“2hari”, menjadi 2 hari

, (6)

Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104

tweet tersebut diretweet dan favourite oleh

threshold akan digunakan sebagai kata

kunci yang akan diasosiasikan dengan target tweet yang diperoleh pada tahapan ekstraksi target.

Pemfilteran kata kunci digunakan untuk mereduksi dimensi kata kunci yang didapat pada tahapan selanjutnya sehingga akan mempecepat komputasi dan hanya kata kunci yang sering muncul yang akan dipakai. Kata kunci yang melebihi nilai

, (7) dimana

| | | |

( ) =

Pembobotan term tweet adalah menghitung jumlah kemunculan term target yang muncul didalam tweet. Perhitungan bobotnya mengikuti persamaan seperti berikut:

Pembobotan term tweet

orang lain, maka tweet tersebut dianggap penting. Persamaan pembobotannya seperti berikut : a.

4.1.4. Ekstraksi target tweet

NN RB Kata Benda diikuti dengan Kata keterangan

c. Pembobotan term favourite

(term

) adalah bobot

retweet

dari term target ke-i, (term

i, j

), adalah jumlah

retweet dari term target ke-i pada tweet

ke-j, dan max_ (term i, j

) adalah nilai maksimal dari jumlah retweet sebuah koleksi term ke-i di dalam koleksi tweet.

Pembobotan term favourite adalah menghitung jumlah favourite dari term target yang terdapat pada tweet . Perhitungan bobotnya mengikuti persamaan seperti berikut: ₃

dimana

( ) = log ⁡( (

, ))

∈ log ⁡(

∈ ∈ _ ( , )

) (9)

dimana

(term

) adalah bobot dari term target ke-i, (term i, j

), adalah jumlah

_ ( , ) ) (8)

Iphone 5S, Galaxy s6 NN CD Kata Benda diikuti dengan angka

menggunakan metode Hidden Markov Model yang telah dijelaskan pada subbab. Tabel 2. Rule Ekstraksi Target

Iphone 5, Zenfone

5 NN NNP Kata Benda diikuti dengan Kata Benda

Bermakna Redmi Note NNP CD

Kata Benda Bermakna diikuti dengan angka Note 6

Setelah didapatkan target tweet, selanjutnya adalah pembobotan target. yang diusulkan dalam melakukan tahap pembobotan dalam penelitian ini adalah metode pembobotan term, pembobotan jumlah favourite, dan pembobotan jumlah

retweet . Pembobotan jumlah favourite dan

jumlah retweet dimasukkan karena jika

Kata Benda diikuti dengan Kata Benda Galaxy Note

Kata Benda Bermakna Iphone, Android NN NN

NN Kata Benda Laptop, kamera NNG Kata Benda Berpemilik macbooknya NNP

Rule Arti Contoh

grammatical

⁡( ∈ ∈

berbasis

tag

(term

Pada tahapan ektraksi target tweet menggunakan grammatical tagging dan penyeleksian term yang didapat menggunakan rula yang di buat pada Ekstraksi

tweet yang memiliki term target ke-i, dan |D| adalah total dokumen tweet.

b. Pembobotan term retweet

Pembobotan term retweet adalah menghitung jumlah Retweet dari term target yang terdapat pada tweet . Perhitungan bobotnya mengikuti persamaan seperti berikut: ₂

( ) = log ⁡(

, ∈ ) log

) adalah bobot term target ke-i, _i

Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging

Untuk Visualisasi Trend Produk Brand

dari term target ke-i pada

tweet ke-j,

max_ (term i, j

) adalah nilai maksimal dari jumlah retweet sebuah koleksi term ke-i didalam koleksi tweet.

d. Bobot total term

Berdasarkan 3 pembobotan di atas term, retweet dan favourite, maka nilai total bobot dari term target ke i adalah sebagai berikut.

( ) = ∗ ¹ (

(10)

Nilai bobot , , dan jika di total harus bernilai 1, dimana nanti dalam tahap pengujian dilakukan penentuan bobot a, b, dan c yang optimal, sehingga bisa mengetahui bobot mana yang paling berpengaruh pada ekstrkasi target tweet.

dan besar kecilnya garis tergantung pada nilai confidence antara produk dan kata kunci.

Dalam pembuatan graph, node produk di beri warna biru, sedangkan kecilnya node itu berdasarkan pada nilai bobot w

yang dihasilkan dari relasi kata kunci dan target melebihi nilai threshold yang ditentukan, maka kata kunci dan target tersebut akan divisualisasikan dalam bentuk graph.

visualisasi graph . Jika nilai confidence

4.1.5. Asosiasi dan visualisasi relasi target dengan kata kunci atau target lainnya

2. Menghitung jumlah tweet yang mengandung target dan kata kunci secara bersamaan 3. Menghitung nilai confidence kata kunci ke target, dengan cara membagi jumlah tweet yang mengandung target dan kata kunci secara bersamaan dengan jumlah tweet yang mengadung target

4.2.1. Pengujian Ekstraksi Target Tweet

Setalah didapatkan kata kunci dan target dari tweet dilkukakan asosiasi target dengan kata kunci dan target dengan target agar dapat mengetahui apakah kedua kata tersebut berhubungan atau tidak. Perhitungan asosiasi menggunakan nilai

target tweet yang relevan dari jumlah target tweet ditemukan. Sedangkan recall adalah presentase tingkat keberhasilan system menemukan target tweet yang relevan dari seluruh koleksi target tweet

recall . precision adalah presentase jumlah

menggunakan nilaiprecision dan

tweet

Evaluiasi ujicoba ekstraksi target

4.2. Pengujian

tweet , hal tersebut dapat berarti bahwa

Gambar 3. Visualisasi trend produk apple

confidence dari metode Association Rule.

Tahapan untuk mendapatkan nilai

confidence dari relasi target dan kata kunci

adalah sebagai berikut : 1.

Menghitung jumlah tweet yang mengandung target

relasi antara target dan kata kunci tersebut kuat. Dalam pemilihan relasi yang akan digunakan untuk visualisasi graph di lakukan pemfilteran nilai confidence, pemfilteran tersebut bertujuan hanya relasi yang kuat saja yang akan digunakan dalam

Semakin tinggi nilai confidence tersebut maka target dan kata kunci sering muncul bersamaan didalam sekumpulan

Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104

yang relevan.Tujuan dari pengujian ini

Nilai Nilai a Nilai b Nilai c

adalah untuk mengetahui fitur mana yang

threshold Precsion (w1) (w2) (w3)

lebih berpengaruh antaraa (kemunculan), b

(wt)

(retweet), danc (favourite) serta sebaragu

0.7

0.3 0.2 0.333 bagus ekstraksi target yang dihasilkan.

0.6

0.2

0.2 0.3 0.417

0.7

0.2

0.1 0.2 0.219

0.5

0.4

0.1 0.4 0.385 (11) =

0.1

0.4

0.3

0.25 (12)

0.6

0.3

0.1

0.3

0.25 = + ..... ..... ..... ..... .....

0.9

0.1 0.1 0.022

0.8

0.2 0.2 0.015

4.2.2. Pengujian Asosisasi Target dan kata kunci tweet

Tabel menampilkan 3 nilai Evaluasi ujicoba Asosisi target dan kombinasi a, b, c dan threshold yang kata kunci juga menggunakan nilai f-

Tujuan dari uji coba ini adalah untuk

memilkin nilai f-measure tertinggi dan 2 measure.

mengetahu seberapa baik hasil asosiasi target nilai f-measure terendah yang nilainya

bukan 0, untuk kesuluruhan kombinasi a, yang diusulkan.

b, c dan threshold dapat dilihat di

lampiran. Dimana f-measure tertinggi

2( (13) ∗ )

diperoleh saat nilai a = 0.8, b = 0.2 , c = 0

− =

dan nilai threshold = 0.2, hal ini menunjukkan bahwa nilai kombinasi tersebut memiliki hasil yang lebih baik dari hasil kombinasi lainnya. Nilai a = 0.8,

5. Hasil dan Pembahasan b

= 0.2, dan c = 0 menunjukkan bahwa Pada bab ini dijelaskan mengenai nilai kemunculan berpengaruh lebih besar skenario pengujian beserta hasil pengujian pada dari pada nilai retweet dan favourite yang dilakukan dan analisis hasil uji yang pada etraksi target tweet. diperoleh. Pengujian dilakukan untuk mengetahui kualitas ekstrasi target dan

Tabel 4.Ujicoba asosiasi target dan kata hasil asosiasi target dan kata kunci. kunci brand apple

Pada uji coba 1 menggunakan

Nilai

dataset produk apple dengan Data tweet

F- threshold Precsion Recall

yang digunakan adalah tweet dengan

measure confidence

keyword produk dari Apple sebanyak

0.05 0.273 1 0.423

72.286 tweet, tweet dengan total tweet

0.1 0.444 0.551 0.492

yang mengandung nilai retweet sebanyak

0.15 0.56 0.483

0.52

33651 tweet dan yang mengandung nilai

0.2 0.526 0.345 0.417 favourite sebanyak 2955 tweet. 0.25 0.526 0.345 0.417 0.3 0.643 0.310 0.419

Tabel 3. Ujicoba ekstrkasi target tweet

0.35 0.692 0.310 0.429

brand apple

0.4 0.7 0.241 0.359

0.45 1 0.103 0.188 Nilai Nilai a Nilai b Nilai c

0.55 1 0.103 0.188 threshold Precsion (w1) (w2) (w3)

0.6 1 0.103 0.188 (wt)

0.65 1 0.103 0.188

0.8

0.2 0.2 0.857

0.7 1 0.103 0.188

0.9

0.1 0.1 0.429

0.75 1 0.103 0.188

0.9

0.1 0.1 0.714

0.8 1 0.103 0.188

Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging

Untuk Visualisasi Trend Produk Brand

Nilai

kumpulan tweet yang membicarakan

F- threshold Precsion Recall

iphone 6s sebanyak 4078 tweet yang juga

measure confidence

membicarakan berbalut dan emas 619

0.85 1 0.0345 0.067 tweet . Sehingga dapat ditarik kesimpulan

0.9 1 0.0345 0.067 tweet yang membicarakan iphone 6s

0.95 1 0.0345 0.067

sebegian kecil pasti juga membicarakan berbalut dan emas iphone. Nilai precission akan cenderung

Pada uji coba 2 menggunakan meningkat jika nilai threshold semakin dataset produk nexus dengan data tweet besar. Berkebalikan dengan nilai recall, yang digunakan adalah tweet dengan nilai recall cendurung menurun jika keyword produk dari Nexusse banyak

threshold semakin besar. Untuk nilai f-

4.486tweet, tweet dengan total tweet yang

measure akan meningkat jika nilai

mengandung nilai retweet sebanyak306

threshold tidak melebihi 0.15, jika lebih

dari 0.15 maka nilai threshold akan favourite sebanyak105 tweet. menurun jadi nilai optimal untuk threshold

f-measure adalah 0.15. Precission, recall dan f-measure nilainya hampir sama atau

selisihnya kecil jika nilai threshold yang digunakanadalah 0.15, itu berarti jumlah tingkat ketepatan antara hasil asosiasi benar yang di dapat dan tingkat keberhasilan sistem dalam menemukan asosiasi benar nilainya sama atau selisihnya kecil, sehingga nilai threshold yang digunakan pada pemfilteran asosiasi asosiasi target dengan kata kunci tweet yang mengandung produk dari brand

Gambar 4 menunjukkan

3 kelompok network, kelompok pertama memilki pusat graph iphone, kelompok kedua memilki pusat graph iphone 6s, dan kelompok ketiga memilki pusat graph iphone 7. Pada kelompok pertama iphone berelasi kuat dengan camera ditunjukkan dengan egde yang tebal (nilai confidence 0.98), dan camera juga berelasi kuat dengan selfie dengan egde yang tebal (nilai confidence 0.81), dari kumpulan

tweet

yang membicarakan camera sebanyak 3557 tweet yang juga membicarakan iphone 3512 tweet, dan yang membicarakan juga selfie 2889

tweet . Sehingga dapat ditarik kesimpulan tweet

yang membicarakan camera sebegian besar pasti juga membicarakan iphone dan Gambar 4. Visualisasi trend produk apple selfie. Pada kelompok ke dua dengan iphone 6s berelasi dengan emas dan berbalut. Nilai edge untuk berbalut dan emas kurang lebih sama yaitu 0.15. dari

Jurnal Inspiraton, Volume 6, Nomor 2, Desember 2016: 92 - 104

28 7 0.184

0.65

20 4 0.118

0.6

22 4 0.114

0.55

23 5 0.141

0.5

23 5 0.141

0.45

0.4

0.7

37 13 0.306

0.35

F- measur e

Nilai threshold confidenc e Jumlah asosiasi yang didapa t Jumla h asosias i yang benar

42 15 0.333

0.3

45 16 0.344

0.25

48 19 0.396

0.2

17 3 0.092

threshold semakin besar. Untuk nilai f- measure

precission = 0.56 , recall= 0.48, dan f- measure = 0.52.

pemfilteran asosiasi-asosiasi target dengan kata kunci tweet yang mengandung produk dari bran Apple adalah 0.15 dengan nilai

threshold yang digunakan pada

berarti jumlah tingkat ketepatan antara hasil asosiasi benar yang di dapat dan tingkat keberhasilan sistem dalam menemukan asosiasi benar nilainya sama atau selisihnya kecil, sehingga nilai

threshold yang digunakanadalah 0.15, itu

nilainya hampir sama atau selisihnya kecil jika nilai

thresholdf-measure adalah 0.15. Precission, recall dan f-measure

dari 0.15 maka nilai threshold akan menurun jadi nilai optimal untuk

threshold tidak melebihi 0.15, jika lebih

akan meningkat jika nilai

8 1 0.036 nilai precission akan cenderung meningkat jika nilai threshold semakin besar. Berkebalikan dengan nilai recall, nilai recall cendurung menurun jika

0.95

8 1 0.036

0.9

8 1 0.036

0.85

10 2 0.069

0.8

11 2 0.068

0.75

0.1

0.54

Tabel 5. Ujicoba ekstrkasi target tweet brand nexus

0.2 0.1 0.727

0.3 0.2 0.778

0.1

0.6

0.1 0.1 0.778

0.9

0.1 0.1 0.778

0.9

0.4 0.2 0.875

0.6

0.8

0.1

0.1 0.1 0.625

0.1

0.8

0.2 0.2 0.769

0.2

0.6

Nilai thresho ld bobot Precsion

Nilai c (w3)

Nilai b (w2)

Nilai a (w1)

0.7

0.2

0.15

b, c

70 28 0.475

0.1

0.05 150 48 0.485

F- measur e

Nilai threshold confidenc e Jumlah asosiasi yang didapa t Jumla h asosias i yang benar

Tabel 6.Ujicoba asosiasi target dan kata kunci brand nexus

favourite pada ekstraksi target tweet.

nilai kemunculan berpengaruh lebih besar pada dari pada nilai retweet dan

b = 0.2, danc = 0.2 menunjukkan bahwa

dan threshold dapat dilihat di lampiran. Dimana f-measure tertinggi diperoleh saat nilai a = 0.6, b = 0.2 , c = 0.2 dan nilai threshold = 0.2, hal ini menunjukkan bahwa nilai kombinasi tersebut memiliki hasil yang lebih baik dari hasil kombinasi lainnya. Nilai a = 0.6,

0.1 0.5 0.333 Tabel 6 menampilkan 10 nilai kombinasi a, b, c dan threshold yang memiliki nilai f-measure tertinggi dan 2 nilai f-measure terendah yang nilainya bukan 0, untuk kesuluruhan kombinasi a,

0.2

0.5

0.4

0.1 0.5 0.333

0.5

0.4

0.45 ..... ..... ..... ..... .....

0.1

0.2

0.8

Gambar 5 menunjukkan 3 buah kelompok network, kelompok pertama memilki pusat graph nexus 6p, kelompok kedua memilki pusat graph huawei, dan kelompok ketiga memilki pusat graph nexus. Pada kelompok pertama google

Isanta,Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia Dengan Pendekatan Grammatical Tagging

Untuk Visualisasi Trend Produk Brand

Daftar Pustaka [1] Rozi, I. F. (2013., April).

[5] Hasby, M., & Khodra, M. (2013).

IEEE/WIC/ACM International Conferences on , (hal. 297 - 302).

Intelligence and Intelligent Agent Technology (WI-IAT), 2012

[4] Medvet, E., & Bartoli, A. (2012, Dec). Brand-Related Events Detection, Classification and Summarization on Twitter. Web

Intelligent Systems (SCIS), 2014 Joint 7th International Conference on and Advanced Intelligent Systems (ISIS), 15th International Symposium on , (hal. 3-6).

[3] Amma, K., Wada, S., Nakayama, K., Akamatsu, Y., Yaguchi, Y., & Naruse, K. (2014). Visualization of spread of topic words on Twitter using stream graphs and relational graphs. Soft Computing and

Research Challenges in Information Science (RCIS), 2014 IEEE Eighth International Conference on , (hal. 1 - 10).

[2] Abascal-Mena, R., Lema, R., & Sedes, F. (2014). From tweet to graph: Social network analysis for semantic information extraction.

Implementasi Rule-Based Document Subjectivity Pada Sistem Opinion Mining. Jurnal ELTEK, 11.

Pendekatan Grammatical Tagging untuk Visualisasi Trend Produk Brand adalah improvisasi grammatical tagging supaya tidak memakai kata-kata formal.

berelasi dengan merilis ditunjukkan dengan egde yang ketebalanya sedang (nilai confidence 0.46), dan merilis juga berelasi dengan nexus 6 (nilai confidence 0.5),dan nexus 6p (nilai confidence 0.27). Sehingga dapat ditarik kesimpulan bahwa

Twitter Berbahasa Indonesia dengan

Pengembangan selanjutnya dari metode Ekstraksi Kata Kunci Metadata

7. Saran

52.5 %, mengindikasikan bahwa dapat mengenali hubungan antara target dengan kata kunci

f-measure

Hasil ujicoba asosiasi target dengan kata kunci atau target lain, didapatkan nilai

Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia dengan Pendekatan Grammatical Tagging untuk Visualisasi Trend Produk Brand

2. Ekstraksi Kata Kunci dan target

2.1 Ekstraksi Kata Kunci Tweet

4.1.4. Ekstraksi target tweet

4.1.5. Asosiasi dan visualisasi relasi target dengan kata kunci atau target lainnya

Dokumen yang terkait

Pengaruh Gaya Kepemimpinan dan Etos Kerja Terhadap Kinerja dengan Locus of Control Sebagai Variabel Intervening pada Pegawai RSUD Pariaman

Pengaruh Kualitas Pelayanan dan Kepuasan Pasien terhadap Loyalitas Pasien dengan Citra Rumah Sakit sebagai Variabel Intervening

NPM. 0910013111078 Diajukan Sebagai Persyaratan untuk Memperoleh Gelar Magister Pendidikan

Sifat Mekanik Kayu Keruing untuk Konstruksi

Analisis Tulangan Optimum untuk mendapatkan Efisiensi Biaya Maksimum terhadap Pekerjaan Balok Lantai (Floor Beam) Gedung Struktur Beton Bertulang

INDONESIA DAN JEPANG DALAM PERSPEKTIF PERBANDINGAN POLITIK Oleh: Moris Adidi Yogia, S.Sos, M.Si Abstract - Indonesia Dan Jepang Dalam Perspektif Perbandingan Politik

PENDAHULUAN 1.1 Latar Belakang - Penentuan Nilai Eigen dari Matriks Jacobian Reduksi Pada Sistem Interkoneksi Sulsel dengan Metode Modal Analysis

Pola Posisi Berbasis Fuzzy dalam Domain Frekuensi dan Pseudopolar Fourier Transform untuk Identifikasi Bintang Baru

Strategi Penentuan Query Region Berdasarkan Posisi Relatif Saliency Region Overlapping Block untuk Region Based Image Retrieval

Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas User Dan Topik Monomorphism Pada Data Twitter untuk Promosi Produk

Dukungan

Links

Ekstraksi Kata Kunci Metadata Twitter Berbahasa Indonesia dengan Pendekatan Grammatical Tagging untuk Visualisasi Trend Produk Brand

2. Ekstraksi Kata Kunci dan target

2.1 Ekstraksi Kata Kunci Tweet

4.1.4. Ekstraksi target tweet

4.1.5. Asosiasi dan visualisasi relasi target dengan kata kunci atau target lainnya

Dokumen yang terkait

Pengaruh Gaya Kepemimpinan dan Etos Kerja Terhadap Kinerja dengan Locus of Control Sebagai Variabel Intervening pada Pegawai RSUD Pariaman

Pengaruh Kualitas Pelayanan dan Kepuasan Pasien terhadap Loyalitas Pasien dengan Citra Rumah Sakit sebagai Variabel Intervening

NPM. 0910013111078 Diajukan Sebagai Persyaratan untuk Memperoleh Gelar Magister Pendidikan

Sifat Mekanik Kayu Keruing untuk Konstruksi

Analisis Tulangan Optimum untuk mendapatkan Efisiensi Biaya Maksimum terhadap Pekerjaan Balok Lantai (Floor Beam) Gedung Struktur Beton Bertulang

INDONESIA DAN JEPANG DALAM PERSPEKTIF PERBANDINGAN POLITIK Oleh: Moris Adidi Yogia, S.Sos, M.Si Abstract - Indonesia Dan Jepang Dalam Perspektif Perbandingan Politik

PENDAHULUAN 1.1 Latar Belakang - Penentuan Nilai Eigen dari Matriks Jacobian Reduksi Pada Sistem Interkoneksi Sulsel dengan Metode Modal Analysis

Pola Posisi Berbasis Fuzzy dalam Domain Frekuensi dan Pseudopolar Fourier Transform untuk Identifikasi Bintang Baru

Strategi Penentuan Query Region Berdasarkan Posisi Relatif Saliency Region Overlapping Block untuk Region Based Image Retrieval

Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas User Dan Topik Monomorphism Pada Data Twitter untuk Promosi Produk

Dokumen yang Anda mencari sudah siap untuk unduhkan