Klasifikasi Video Clickbait pada YouTube Berdasarkan Analisis Sentimen Komentar Menggunakan Learning Vector Quantization (LVQ) dan Lexicon- Based Features

  Vol. 3, No. 2, Januari 2019, hlm. 8772-8777 http://j-ptiik.ub.ac.id

  

Klasifikasi Video Clickbait pada YouTube Berdasarkan Analisis Sentimen

Learning Vector Quantization (LVQ) dan Lexicon-

  Komentar Menggunakan 1 Based Features 2 3 Dwi Wahyu Puji Lestari , Rizal Setya Perdana , Putra Pandu Adikara

  Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya

  1

  2

  3 Email: dwi.lestari2267@gmail.com, rizalespe@ub.ac.id, adikara.putra@ub.ac.id

Abstrak

  

Clickbait adalah suatu konten di media sosial yang bertujuan untuk menarik perhatian dan memikat

  pengunjung situs agar dapat mengunjungi konten mereka dengan cara membuat umpan klik yaitu berupa judul yang menarik atau provokatif tetapi dengan isi konten yang biasanya tidak sesuai. Hal tersebut membuat pengunjung situs merasa tertipu dan kecewa sehingga mereka biasanya melampiaskan rasa kesalnya dengan menuliskan komentar atau opini (dokumen, kata, kalimat) yang bersifat positif ataupun negatif. Dokumen teks yang digunakan pada penelitian ini berasal dari komentar YouTube yang berkaitan dengan konten clickbait dan non clickbait yang berbahasa Indonesia. Penelitian ini menggunakan metode Learning Vector Quantization (LVQ) dan Lexicon-Based Features sebagai pembobotan kata selain menggunakan TF-IDF. Data yang digunakan pada penelitian ini sejumlah 300 data yang terdiri dari dua jenis data yaitu data latih dan data uji dengan perbandingan 70% data latih dan 30% data uji. Akurasi sistem yang diperoleh dari hasil klasifikasi dengan metode Learning Vector

  

Quantization tanpa Lexicon-Based Features sebesar 54,54%, precision sebesar 1, recall sebesar 0,1667,

  dan f-measure sebesar 0,2858. Hasil akurasi sistem dengan menggunakan Learning Vector Quantization dan Lexicon-Based Features sebesar 90,91%, precision sebesar 0,8571, recall sebesar 1, dan f-measure sebesar 0,9231 sehingga dapat disimpulkan bahwa metode Learning Vector Quantization dan Lexicon- Based Features dapat digunakan untuk klasifikasi sentimen.

  

Kata kunci : klasifikasi, video clickbait, YouTube, analisis sentimen, Learning Vector Quantization, Lexicon-

Based Features

  

Abstract

Clickbait is social media content that aims to attract website visitors in order to visit their content by

creating clickbait in form of appealing or provoking title but with irrelevant content. It makes the visitor

decieved and disappointed, so they usually vent their frustation by writing their positive or negative

opinion on the comment section. The document that is used in the research comes from YouTube

comments that is related with Indonesian clickbait and non-clickbait content. This research used

Learning Vector Quantization (LVQ) method and Lexicon-Based Features as word weighting other than

using TF-IDF. This research uses 300 data consisting 2 type of data, training and testing data with the

ratio of 70% training data and 30% testing data. The accuracy of the system that is obtained by

classification using LVQ without Lexicon-Based Features is 54.54%, 1 precission, 0.1667 recall and

0.2858 f-measure. The result of the accuracy of the system using LVQ and Lexicon-Based Features is

90.91%, 0.8571 precission, 1 recall, and 0.9231 f-measure. The conclution is that LVQ method and

Lexicon-Based Features can be used for sentiment classification.

  Keywords : classification, clickbait video, YouTube, sentiment analysis, Learning Vector Quantization, Lexicon-

  Based Features

  6 dunia dengan pengguna internet yang 1.

   PENDAHULUAN mencapai 83,7 juta orang (Kementerian

  Komunikasi dan Informatika, 2014). Dari data Berdasarkan data dari lembaga riset pasar tersebut 95 persen internet digunakan untuk e-Marketer, Indonesia berada pada peringkat ke- mengakses media sosial (Kementerian

  Fakultas Ilmu Komputer Universitas Brawijaya

8772

  Komunikasi dan informatika, 2014). Menurut survei yang dilakukan oleh Asosiasi Penyelenggara Jasa Internet Indonesia (APJII) pada tahun 2016, YouTube

  Penelitian ini membandingkan tiga metode untuk mendeteksi clickbait yaitu metode Support

  Mulai Dokumen Text Preprocessing

  clickbait. Deskripsi umum sistem dapat dilihat pada Gambar 1.

  untuk mencari jumlah kata yang bersentimen positif atau negatif. Selanjutnya dijumlahkan, jika dalam dokumen tersebut banyak bersentimen negatif maka akan masuk kelas clickbait dan jika jumlah sentimen positif lebih banyak maka akan masuk kelas non-

  Quantization

  Klasifikasi video clickbait pada YouTube berdasarkan analisis sentimen komentar menggunakan Learning Vector Quantization (LVQ) dan Lexicon-Based Features memliki beberapa tahapan dalam perancangan sistem. Tahap awal yang dilakukan adalah pengolahan data yang dimulai dari text preprocessing sampai dengan pembobotan kata dan pengecekan kata yang bersentimen negatif maupun positif yang terdapat pada kamus. Kata-kata tersebut diberi nilai dengan cara menghitung jumlah sentimen positif tau negatif. Setelah itu data tersebut akan diolah dengan metode Learning Vector

  2. METODE USULAN

  peranan yang sangat penting dalam analisis sentimen (Siddiqua, Ahsan dan Chy, 2016).

  Quantization (LVQ) dan menggunkan Lexicon- Based Features karena fitur ini memiliki

  Berdasarkan penelitian yang dilakukan oleh Hadnanto (1996 yang disitasi dalam Hariri, et al., 2015 p.129) algortime LVQ memiliki tingkat akurasi yang tinggi dalam klasifikasi dan waktu komputasinya cepat, sehingga penelitian ini membahas mengenai klasifikasi video clickbait pada YouTube berdasarkan analisis sentimen komentar menggunakan Learning Vector

  metode tersebut dengan menggunakan metode SVM dapat memperoleh nilai akurasi tertinggi yaitu 93%.

  Random Forest. Dari perbandingan metode-

  Vector Machine (SVM), Decision Tree, dan 1 https://www.youtube.com/

  Penelitian yang dilakukan oleh Chakraborty,et al., (2016) yaitu mendeteksi dan mencegah clickbait pada berita daring.

  1

  berkaitan dengan deteksi clickbait dan non- clickbait.

  web . Oleh karena itu, terdapat penelitian yang

  terbaik mencapai 88% dengan menggunakan SVM-RBF. Dalam hal ini clickbait memiliki pengaruh yang sangat negatif terhadap pengunjung situs

  measure

  (SVM) dengan Radial Bases Function (RBF), K-Nearest Neighbor (KNN) dan klasifikasi Naïve Bayes Bernoulli dengan nilai f-

  Machine

  sentimen pada sosial media YouTube yaitu yang dilakukan oleh Al-Tamimi, Shatnawi dan Bani- Issa (2017) yaitu analisis sentimen komentar berbahasa Arab pada YouTube. Pada penelitian ini menggunakan metode Support Vector

  clickbait. Penelitian yang terkait dengan analisis

  Agar dapat mengetahui video YouTube yang termasuk clickbait berdasarkan komentar pengguna, maka diperlukan suatu analisis sentimen pada komentar-komentar YouTube yang berkaitan dengan clickbait dan non-

  agar pengunjung mengekliknya, sehingga mereka akan menghasilkan pendapatan dari pengunjung yang sudah mengeklik tersebut (Agrawal, 2016). Hal ini mengakibatkan pengunjung merasa kecewa dan kesal sehingga mereka biasanya melampiaskan rasa kesalnya dengan mengisi kolom komentar. Komentar- komentar tersebut adalah sumber informasi yang dapat digunakan untuk mengelompokkan opini pengunjung yang berupa teks.

  catching yang berguna untuk menarik perhatian

  Semakin populernya media daring saat ini menjadi sebuah ajang perlombaan yang digunakan untuk mencari pendapatan tambahan. Seperti halnya clickbait yang sering kali dijumpai. Clickbait adalah konten di media daring yang bertujuan untuk menarik perhatian dan memikat pengunjung agar mengunjungi konten mereka. Clickbait memiliki ciri salah satunya yaitu dengan menciptakan judul eye

  merupakan media sosial ketiga yang paling banyak dikunjungi oleh pengguna internet Indonesia setelah Instagram dan Facebook (Liputan6, 2016).

  Pembobotan Kata A

  (LVQ). LVQ adalah salah satu dari beberapa algoritme yang ada di Jaringan Saraf Tiruan (JST). Algoritme LVQ adalah suatu algoritme pelatihan yang menerapkan pembelajaran secara terawasi (supervised learning) dan jaringannya memiliki layer tunggal (single layer). Pengklasifikasian vektor-vektor inputan akan secara otomatis dilakukan oleh lapisan kompetitif dengan cara pembelajaran. Lapisan kompetitif tersebut akan menghasilkan kelas-kelas yang tergantung pada jarak antara vektor-vektor inputan. Jika terdapat dua vektor input yang mendekati sama, maka kedua vektor input tersebut akan diletakkan ke dalam kelas yang sama oleh lapisan kompetitif (Hamidi, Furqon dan Rahayudi, 2017).

  lexicon

  Lakukan penambahan nilai iterasi.

  a.

  α > α minimum.

  3. Lakukan a sampai c bila epoch < MaxEpoch atau

  2. Inisialisasi iterasi awal = 0.

  minimum (minimal learning rate yang diperoleh), iterasi maksimum (MaxEpoch) dan bobot awal.

  α), α

  1. Inisialisasi nilai learning rate (α), pengurangan learning rate (dec

  Langkah-langkah pelatihan algoritme LVQ adalah sebagai berikut (Fausett, 1994):

  Gambar 1. Diagram Alir Sistem

  Vector Quantization

  Tahap selanjutnya yang dilakukan adalah proses klasifikasi dengan algoritme Learning

  2.4. Learning Vector Quantization (LVQ)

  atau kamus yang menyimpan kata-kata yang bersentimen positif dan negatif.

  (1) b. Lakukan langkah i sampai iii untuk semua vektor masukan pada indeks ke = 1 sampai . i. Hitung jarak antara data dengan bobot awal setiap kelas dengan Persamaan (2).

  ℎ = ℎ + 1

  Pembobotan Lexicon- Based Features Learning Vector

  Quantization Keluaran: Kelas clickbait atau non-clickbait

  Selesai A

1. Term Frequency (TF)

  Inverse Document Frequency (IDF) 4. Term Frequency

  2. Document Frequency (DF) 3.

  2.2. Pembobotan Kata Pemberian bobot pada setiap kata yang muncul yang terdapat pada suatu dokumen teks adalah tujuan dari pembobotan kata. Pembobotan kata mempunyai tahapan- tahapan yang dilakukan:

  Stemming

  Case folding 3. Filtering 4.

  1. Tokenisasi 2.

  digunakan untuk tujuan mengubah data yang tidak terstruktur menjadi data yang terstruktur (Pabeta, 2016). Pre – processing memiliki beberapa tahapan yaitu:

  text mining adalah pre – processing. Tahap ini

  Tahap awal yang dilakukan dalam proses

  2.1. Pre processing

  Rumus perhitungan iterasi ditunjukkan pada Persamaan (1).

  • – Inverse Document
    • Jika T = C j , maka gunakan Persamaan (3).

  kumpulan kosakata atau istilah yang sudah diketahui dan terkumpul (Desai dan Mehta, 2016). Pembobotan lexicon-based features digunakan untuk memberikan bobot positif atau negatif pada setiap fitur kata yang muncul berdasarkan

  ( ) = √∑ ( − ,

  )

  2 =1

  (2) ii. Tentukan nilai minimal dari setiap jarak kelas sehingga menjadi keluaran C j . iii. Perbarui bobot W j dengan rumus berikut:

  ( ) = ( ) + ( − ( ) (3) Cek Lexicon-Based Features

  lexicon-based features. Lexicon adalah

  Setelah tahap pembobotan kata, tahap selanjutnya yang dilakukan adalah pembobotan

  (TF-IDF)

  Frequency

2.3. Pembobotan Lexicon-Based Features

  • 9 .
  • Jika T ≠ C j , maka gunakan Persamaan (4).
    • T = kategori atau kelas yang benar untuk vektor pelatihan.
    • W
    • C

  • || x-w

  Penelitian ini menggunakan empat jenis pengujian yang dilakukan yaitu pengujian pengaruh parameter LVQ yang berupa pengaruh nilai learning rate, nilai decrement alfa (

  Gambar 3. Pengujian Pengaruh Decrement α

  Berdasarkan dari grafik pada Gambar 3 bahwa akurasi mengalami perubahan, semakin tinggi pengurangan learning rate maka akurasi sistem akan semakin buruk. Akurasi sistem stabil mulai dari nilai

  decα 10

  sampai 10

  3.3. Pengujian Pengaruh Maksimum Epoch

  Pengujian ini menggunakan parameter awal sebagai indikator awal pengujian yaitu nilai

  nilai maksimum epoch (iterasi), dan pengujian pengaruh lexicon-based features.

  decα),

  masukan dan vektor bobot untuk unit keluaran ke- j .

  Parameter awal yang digunakan untuk pengujian ini adalah nilai learning rate = 0,1, maksimum epoch = 50 dan 10 jenis nilai decα. Hasil pengujian ditunjukkan pada Gambar 3.

  j || = jarak Euclidean antara vektor

  j = kategori atau kelas yang ditunjukkan oleh unit keluaran ke-j.

  j = vektor berat untuk unit keluaran ke- j .

  Keterangan tata nama (Fausett, 1994): • x = vektor pelatihan.

  ( ) = × (5 )

  (4) c. Kurangi α dengan Persamaan (5).

  ( ) = ( ) − ( − ( ))

  3.2. Pengujian Pengaruh Decrement Alfa

3. HASIL DAN PEMBAHASAN

  • 1
  • 9 .

3.1. Pengujian Pengaruh Learning Rate

  dan mengalami penurunan yang selanjutnya stabil sampai nilai 10

  Nilai akurasi terbaik yang didapat berdasarkan grafik pada Gambar 2 yang diperoleh dari 10 kali percobaan adalah 90,91%. Pada grafik tersebut menunjukkan bahwa akurasi terbaik didapat pada nilai learning rate sebesar 10

  learning rate . Hasil pengujian ditunjukkan pada Gambar 2.

  = 0,1, maksimum epoch = 50 dan 10 jenis nilai

  decα

  learning rate = 0,1, nilai decα = 0,1 dan 20 kali

  percobaan yang dilakukan. Hasil percobaan ditunjukkan pada Gambar 4.

  Gambar 4. Pengujian Pengaruh Maksimum Epoch

  Nilai akurasi terbaik dihasilkan pada maksimum epoch sebesar 3 sampai 100 dengan nilai akurasi 82%. Pada grafik tersebut menunjukkan perubahan nilai akurasi pada

  epoch 1 dan epoch 2, selanjutnya nilai akurasi

  sama yaitu mulai dari epoch 3 sampai 100 yang telah mencapai konvergen. Hal tersebut dikarenakan pengaruh nilai learning rate dan

  decα yang kecil sehingga nilai pembaruan bobot

  Pada pengujian ini terlebih dahulu menentukan parameter awal yang digunakan untuk indikator awal pengujian yaitu nilai

  Gambar 2. Pengujian Pengaruh Learning Rate

  • 2
kecil.

3.4. Pengujian Pengaruh Lexicon-Based

  7 Non-Clickbait

  2

  13 Clickbait (CB)

  2

  6

  6

  5 Clickbait

  2

  5

  7

  5

  1 Non-Clickbait

  6

  7 Non-Clickbait

  4

  4

  2 Non-Clickbait

  7

  13 Clickbait

  7

  3

  10

  4 Clickbait

  4 Clickbait

  11

  11

  8 Clickbait

  1

  9 Clickbait

  10

  5 Clickbait

  5 Clickbait

  5 Clickbait

  9

  9

  7 Clickbait

  7 Clickbait

  8

  8

  5 Clickbait

  9 Non-Clickbait

  Features

  Pada pengujian kali ini yaitu menguji pengaruh Lexicon-Based Features terhadap hasil klasifikasi berdasarkan analisis sentimen dengan menggunakan Learning Vector Quantization dan dilakukan perbandingan hasil akurasi sistem yang menggunakan Lexicon-Based Features dan tanpa menggunakan Lexicon-Based Features. Parameter yang digunakan pada pengujian ini menggunakan parameter yang telah digunakan pada pengujian sebelumnya yang telah mencapai optimal yaitu learning rate = 0,01,

  1 NCB

  Based Features

  Berdasarkan hasil pengujian yang ditunjukkan pada Gambar 5 menunjukkan bahwa hasil nilai akurasi sistem dengan menggunakan Lexicon-Based Features sangat bagus yaitu sebesar 90,91%, precision sebesar 0,8571, recall sebesar 1, dan f-measure sebesar 0,9231 sedangkan hasil akurasi sistem tanpa menggunakan Lexicon-Based Features yaitu sebesar 54,54%, precision sebesar 1, recall sebesar 0,1667, dan f-measure 0,2858. Hal ini menunjukkan bahwa Lexicon-Based Features cocok digunakan untuk klasifikasi berdasarkan analisis sentimen. Perbandingan antara nilai akurasi sistem yang menggunakan Lexicon-

  1 Recall 1 0,1667 F-Measure 0,9231 0,2858

  0,8571

  5 Accuracy 90,91% 54,54% Precision

  5

  4

  1

  Lexicon-Based Features sangatlah signifikan,

  6

  CB NCB CB NCB Hasil Prediksi CB

  Hasil Sebenarnya Hasil Sebenarnya

  Tanpa Lexicon- Based Features

  Dengan Lexicon- Based Features

  Tabel 1. Hasil Pengujian Pengaruh Lexicon-Based Features

  dan maksimum epoch = 50. Hasil pengujian pengaruh Lexicon-Based Features ditunjukkan pada Tabel 1 dan Gambar 5.

  decα = 0,1

  dan tanpa menggunakan

  namun hasil klasifikasi yang diperoleh pada Tabel 2 menunjukkan bahwa masih terdapat kesalahan dalam analisis sentimen karena terdapat kata yang seharusnya bersentimen positif tetapi masuk ke dalam sentimen negatif sehingga sistem salah dalam mengklasifikasi .

  1 Non-Clickbait

  1

  6

  7 Non-Clickbait

  2

  2

  3 Non-Clickbait

  12

  15 Non-Clickbait (NCB)

  1

  Hasil Klasifikasi No Video Sebenarnya Prediksi Positif Negatif Kelas Positif Negatif Kelas

  Gambar 5.

  Tabel 2.

  menggunakan data teks yang diperoleh dari YouTube Data API v3. Jumlah data yang digunakan sebanyak 300 data yang dibagi menjadi data latih dan data uji dengan perbandingan 70%:30.

  clickbait atau non-clickbait. Penelitian ini

  sentimen komentar dengan hasil klasifikasi

  clickbait pada YouTube berdasarkan analisis

  Berdasarkan dari hasil pengujian sistem klasifikasi video clickbait pada YouTube berdasarkan analisis sentimen komentar menggunakan Learning Vector Quantization dan Lexicon-Based Features dapat disimpulkan bahwa algoritme Learning Vector Quantization dapat digunakankan pada klasifikasi video

   KESIMPULAN

  Pengujian Pengaruh Lexicon-Based Features 4.

  3

5. DAFTAR PUSTAKA

  International Conference on Computer and Information Technology . [daring]

  Nomor Enam Dunia . [daring]

  Kementerian Komunikasi dan Informatika, 2014. Pengguna Internet Indonesia

  <https://www.kominfo.go.id/content/deta il/3415/Kominfo+%3A+Pengguna+Inter net+di+Indonesia+63+Juta+Orang+/0/ber ita_satker> [Diakses 4 Jan 2018].

  internet Indonesia . [daring] Tersedia

  pada: <http://tekno.liputan6.com/read/2634027/ 3-media-sosial-favorit-pengguna- internet-indonesia> [Diakses 4 Jan 2018].

  Pabeta, H.A.M., 2016. Klasifikasi Konten Berita

  Menggunakan Metode Naive Bayes dan K-Nearest Neighbor

  Pembobotan Lexicon-Based Features sangat berpengaruh untuk analisis sentimen pada penelitian ini. Tingkat akurasi sistem lebih tinggi dibandingkan dengan analisis sentimen tanpa menggunakan Lexicon-Based Features, namun masih terdapat kesalahan dalam analisis sentimen.

  . [daring] Bandung: Universitas Widyatama. Tersedia pada: <https://repository.widyatama.ac.id/xmlu i/handle/123456789/8416>.

  Siddiqua, U.A., Ahsan, T. dan Chy, A.N., 2016.

  Combining a Rule-based Classifier with Ensemble of Feature Sets and Machine Learning Techniques for Sentiment Analysis on Microblog. In: 19th

  Dhaka: IEEE, hal.16

  Liputan6, 2016. Media Sosial Favorit Pengguna

  Conference on Computing, Communication and Automation (ICCCA2016) . [daring] Noida: IEEE,

  Desai, M. dan Mehta, M.A., 2016. Techniques for Sentiment Analysis of Twitter Data: A Comprehensive Survey. In: International

  hal.268 –272. Tersedia pada: <http://ieeexplore.ieee.org/document/787 7426/>.

  International Conference on Next Generation Computing Technologies (NGCT-2016) . [daring] Dehradun: IEEE,

  Agrawal, A., 2016. Clickbait Detection using Deep Learning. In: 2016 2nd

  berdasarkan analisis sentimen.

  Vector Quantization dan Lexicon-Based Features baik digunakan untuk klasifikasi video

  bahwa klasifikasi dengan metode Learning

  Lexicon-Based Features menghasilkan nilai accuracy 90,91%, precision sebesar 0,8571, recall sebesar 1 dan F- measure sebesar 0,9231. Hal ini membuktikan

  (LVQ) dan

  Quantization

  Pada penelitian klasifikasi video clickbait pada YouTube berdasarkan analisis sentimen komentar menggunakan Learning Vector

  Kementerian Komunikasi dan Informatika. Tersedia pada: <https://www.kominfo.go.id/content/deta il/4286/pengguna-internet-indonesia- nomor-enam-dunia/0/sorotan_media> [Diakses 4 Jan 2018].

  • –21. Tersedia pada: <http://ieeexplore.ieee.org/document/786 0214/>.

  . [daring] Tersedia pada:

  Kominfo : Pengguna Internet di Indonesia 63 Juta Orang

  Kementerian Komunikasi dan informatika, 2014.

  , [daring] 1(12), hal.1758 – 1763. Tersedia pada: <http://j- ptiik.ub.ac.id/index.php/j- ptiik/article/view/635>.

  Hamidi, R., Furqon, M.T. dan Rahayudi, B., 2017. Implementasi Learning Vector Quantization ( LVQ ) untuk Klasifikasi Kualitas Air Sungai. Jurnal

  Network: Architectures, Algorithms, and Apllication .

  Fausett, L., 1994. Fundamental of Neural

  Tersedia pada: <http://ieeexplore.ieee.org/document/781 3707/>.

  hal.149 –154.

  Pengembangan Teknologi Informasi dan Ilmu Komputer