Penerapan Teknik K Means Clustering pada

Laporan Tugas Akhir MK. Metode Kuantitatif (KOM332), Semester Ganjil
2015/2016

Penerapan
Popularity

Teknik

K-Means

Clustering

pada

Online

News

MUHAMMAD ARIEF KALBU ADI (G64154030)*

PENDAHULUAN

Latar Belakang
Dokumen elektronik sangat mudah untuk ditemui, karena dengan mudah
dapat diakses melalui smartphone. Dokumen ini dapat ditemui melalu mesin pencari
google atau saat berselancar di Facebook. Tiap dokumen pun dapat dikelompokan
pada suatu kategori.
Kemudahan mendapatkan dokumen diimbangi dengan kemudahan pembaca
untuk melakun berbagi informasi. Tidak semua dokumen dari tiap kategori menarik
untuk di shares. Pada penelitian kali ini akan menganalisis kategori mana saja yang
paling banyak di shares. Untuk mengklusterkan dokumen-dokumen tersebut
digunakan algoritme k-means.
Tujuan
Tujuan dari tugas akhir ini adalah :
1. Mengetahui adakah pengaruh dari tipe dokumen terhadap tingkat share
Ruang Lingkup
Ruang lingkup dari pengambilan data adalah:
1. Data yang digunakan merupakan data Online News Popular.
2. Kolom yang digunakan adalah data_lifestyle, data_entertainment, data_bus,
data_socmed, data_tech, data_world, n_tokens_title n_tokens_content, num_keywords,
dan shares.
3. Metode yang digunakan dalam mengolah data adalah klustering dengan algoritme kmeans.

__________________
Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut
Pertanian Bogor, Bogor 16680
*Mahasiswa
Program
Studi
Ilmu
Komputer,
FMIPA-IPB;
Surel:
arief_kalbu49@apps.ipb.ac.id.

TINJAUAN PUSTAKA
Data Mining (Penggalian Data) didefinisikan sebagai sebuah proses untuk
menemukan hubungan, pola dan trend baru yang bermakna dengan menyaring data
yang sangat besar, yang tersimpan dalam penyimpanan, menggunakan teknik
pengenalan pola seperti teknik statistik dan matematika (Poniah, 2001). Hubungan
yang dicari dalam data mining dapat berupa hubungan antara dua atau lebih dalam
satu dimensi, misalnya dalam dimensi produk, kita dapat melihat keterkaitan
pembelian suatu produk dengan produk yang lain. Selain itu hubungan juga dapat

dilihat antara 2 atau lebih atribut dan 2 atau lebih obyek (Pramudiono, 2006).
Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan
atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas
dari suatu objek yang labelnya tidak diketahui. Decision tree adalah salah satu metode
classification yang paling populer karena mudah untuk diinterpretasi oleh manusia
(Pramudiono, 2006).

METODOLOGI
Data
Data yang digunakan dalam tugas akhir ini adalah Online News Popular. Data
tersebut
dapat
diperoleh
dari
website
data
set
(https://archive.ics.uci.edu/ml/datasets/Online+News+Popularity). Data tersebut
memiliki 61 atribut.
Tahapan Kegiatan

Tahapan dalam melakukan analisis data terdiri atas 5 tahapan. Tahapan tesebut
yaitu data selection, data pre-processing, transformation, data mining, dan evaluasi.
Tiap tahapan akan menghasilkan keluaran yang dibutuhkan pada tahap selanjutnya.
1.

Data Selection
Memilih kolom-kolom pada data dalam format .csv. Data dari hasil seleksi
yang digunakan untuk memproses data disimpan dalam format .txt.
2.

Data Pre-Processing
Setelah data diseleksi maka selanjutnya dilakukan praproses data tersebut.
Praproses data terdiri atas mengkodekan tiap kategori kedalam kode unik dan
menghapus pencilan.
3.

Transformation
Setelah dilakukan praproses data maka selanjutnya data akan diubah ke
bentuk yang sesuai dengan format data mining. Hal ini bergantung pada pemakaian
perangkat lunak untuk memproses data. Data yang sebelumnya berformat .csv

menjadi .txt untuk bisa diolah di perangkat lunak R Studio.

4.

Data Mining
Menganalisis data hasil dari klustering pada setiap kategori dokumen terhadap
jumlah share.
5.

Interpretation/Evaluation
Setelah mendapatkan data mining tersebut, data akan
direpresentasikan ke dalam bentuk tabel agar lebih mudah untuk dibaca.

kembali

HASIL DAN PEMBAHASAN
Data Selection
Data yang digunakan adalah data yang diambil dari situs data set. Data yang
diambil berjudul ‘Online News Popular’. Pada data awal, atribut terdiri atas 61
atribut. Atribut yang akan digunakan sebanyak 10 atribut, yaitu data_lifestyle,

data_entertainment, data_bus, data_socmed, data_tech, data_world, n_tokens_title
n_tokens_content, num_keywords, dan shares. Data mentah yang sudah terkumpul
sebanyak 100 records dan 10 atribut. Dari data mentah tersebut beberapa atribut
hanya merepresentasikan data dalam bilangan biner sehingga diperlukan praproses
data.
Data Pre-Processing
Pada tahap ini, beberapa atribut digabungkan menjadi satu atribut.
Penggabungan ini didasarkan bahwa setiap data dalam atribut yang digabungkan
tersebut berbentuk biner. Atribut-atribut yang akan digabungkan tersebut sebanyak 6
yaitu data_lifestyle, data_entertainment, data_bus, data_socmed, data_tech, dan
data_world. Dari 6 atribut tersebut diperkecil menjadi 1 atribut.
Data pada atribut data_lifestyle, data_entertainment, data_bus, data_socmed,
data_tech, dan data_world diberikan kode unik, atribut data_lifestyle diberi nilai 1,
atribut data_entertainment diberi nilai 2, atribut data_bus diberi nilai 3, atribut
data_socmed diberi nilai 4, atribut data_tech diberi nilai 5, dan atribut data_world
diberi nilai 6. Setelah data pada atribut - atribut tersebut sudah dikodekan, tahap
selanjutnya adalah menggabungkan ke 6 atribut tersebut menjadi 1 kolom, kolom ini
diberi nama Data_Kategori.
Hasil penggabungan atribut ini menghasilkan data yang tidak terdefinisi. Data
ini tidak berada di 6 atribut . Pada data ambigu ini diasumsikan mewakili 1 kategori

dokumen yaitu uncategory atau dokumen yang tidak memiliki kategori secara
spesifik. Hasil penggabungan atribut ini dapat dilihat pada Tabel 1.
Pada tahap yang sama, dihapus pencilan pada data shares. Data pencilan yang
dihapus adalah data pencilan dengan rentang atau selisih 4000 terhadap data
sebelumnya. Hasil akhir dari tahap ini menghasilkan 5 atribut, yaitu Data_Kategori,
n_tokens_title, n_tokens_content, num_keywords, dan shares, serta mendapatkan 98
record.

Tabel 1 Hasil Pengkodean Kategori Dokumen

Kategori Dokumen
data_uncategory
data_lifestyle
data_entertainment
data_bus
data_socmed
data_tech
data_world

Kode

0
1
2
3
4
5
6

Transformation
Setelah dilakukan praproses data maka data ditransformasikan ke bentuk yang
sesuai untuk k-means. Data dikonversi formatnya menjadi file .txt untuk bisa
digunakan dan diolah dalam RStudio. Berdasarkan pengolahan data yang dilakukan
RStudio, berikut adalah hasil dari proses data menggunakan algoritme k-means dan
Tabel 2 merupakan hasil dari klustering:
1 data1

Dokumen yang terkait

Analisis komparatif rasio finansial ditinjau dari aturan depkop dengan standar akuntansi Indonesia pada laporan keuanagn tahun 1999 pusat koperasi pegawai

15 355 84

Analisis korelasi antara lama penggunaan pil KB kombinasi dan tingkat keparahan gingivitas pada wanita pengguna PIL KB kombinasi di wilayah kerja Puskesmas Sumbersari Jember

11 241 64

ANALISIS PENGARUH PENERAPAN PRINSIP-PRINSIP GOOD GOVERNANCE TERHADAP KINERJA PEMERINTAH DAERAH (Studi Empiris pada Pemerintah Daerah Kabupaten Jember)

37 330 20

FREKWENSI PESAN PEMELIHARAAN KESEHATAN DALAM IKLAN LAYANAN MASYARAKAT Analisis Isi pada Empat Versi ILM Televisi Tanggap Flu Burung Milik Komnas FBPI

10 189 3

SENSUALITAS DALAM FILM HOROR DI INDONESIA(Analisis Isi pada Film Tali Pocong Perawan karya Arie Azis)

33 290 2

Analisis Sistem Pengendalian Mutu dan Perencanaan Penugasan Audit pada Kantor Akuntan Publik. (Suatu Studi Kasus pada Kantor Akuntan Publik Jamaludin, Aria, Sukimto dan Rekan)

136 695 18

DOMESTIFIKASI PEREMPUAN DALAM IKLAN Studi Semiotika pada Iklan "Mama Suka", "Mama Lemon", dan "BuKrim"

133 700 21

Representasi Nasionalisme Melalui Karya Fotografi (Analisis Semiotik pada Buku "Ketika Indonesia Dipertanyakan")

53 338 50

PENERAPAN MEDIA LITERASI DI KALANGAN JURNALIS KAMPUS (Studi pada Jurnalis Unit Aktivitas Pers Kampus Mahasiswa (UKPM) Kavling 10, Koran Bestari, dan Unit Kegitan Pers Mahasiswa (UKPM) Civitas)

105 442 24

DAMPAK INVESTASI ASET TEKNOLOGI INFORMASI TERHADAP INOVASI DENGAN LINGKUNGAN INDUSTRI SEBAGAI VARIABEL PEMODERASI (Studi Empiris pada perusahaan Manufaktur yang Terdaftar di Bursa Efek Indonesia (BEI) Tahun 2006-2012)

12 142 22