Penerapan Teknik K Means Clustering pada
Laporan Tugas Akhir MK. Metode Kuantitatif (KOM332), Semester Ganjil
2015/2016
Penerapan
Popularity
Teknik
K-Means
Clustering
pada
Online
News
MUHAMMAD ARIEF KALBU ADI (G64154030)*
PENDAHULUAN
Latar Belakang
Dokumen elektronik sangat mudah untuk ditemui, karena dengan mudah
dapat diakses melalui smartphone. Dokumen ini dapat ditemui melalu mesin pencari
google atau saat berselancar di Facebook. Tiap dokumen pun dapat dikelompokan
pada suatu kategori.
Kemudahan mendapatkan dokumen diimbangi dengan kemudahan pembaca
untuk melakun berbagi informasi. Tidak semua dokumen dari tiap kategori menarik
untuk di shares. Pada penelitian kali ini akan menganalisis kategori mana saja yang
paling banyak di shares. Untuk mengklusterkan dokumen-dokumen tersebut
digunakan algoritme k-means.
Tujuan
Tujuan dari tugas akhir ini adalah :
1. Mengetahui adakah pengaruh dari tipe dokumen terhadap tingkat share
Ruang Lingkup
Ruang lingkup dari pengambilan data adalah:
1. Data yang digunakan merupakan data Online News Popular.
2. Kolom yang digunakan adalah data_lifestyle, data_entertainment, data_bus,
data_socmed, data_tech, data_world, n_tokens_title n_tokens_content, num_keywords,
dan shares.
3. Metode yang digunakan dalam mengolah data adalah klustering dengan algoritme kmeans.
__________________
Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut
Pertanian Bogor, Bogor 16680
*Mahasiswa
Program
Studi
Ilmu
Komputer,
FMIPA-IPB;
Surel:
arief_kalbu49@apps.ipb.ac.id.
TINJAUAN PUSTAKA
Data Mining (Penggalian Data) didefinisikan sebagai sebuah proses untuk
menemukan hubungan, pola dan trend baru yang bermakna dengan menyaring data
yang sangat besar, yang tersimpan dalam penyimpanan, menggunakan teknik
pengenalan pola seperti teknik statistik dan matematika (Poniah, 2001). Hubungan
yang dicari dalam data mining dapat berupa hubungan antara dua atau lebih dalam
satu dimensi, misalnya dalam dimensi produk, kita dapat melihat keterkaitan
pembelian suatu produk dengan produk yang lain. Selain itu hubungan juga dapat
dilihat antara 2 atau lebih atribut dan 2 atau lebih obyek (Pramudiono, 2006).
Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan
atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas
dari suatu objek yang labelnya tidak diketahui. Decision tree adalah salah satu metode
classification yang paling populer karena mudah untuk diinterpretasi oleh manusia
(Pramudiono, 2006).
METODOLOGI
Data
Data yang digunakan dalam tugas akhir ini adalah Online News Popular. Data
tersebut
dapat
diperoleh
dari
website
data
set
(https://archive.ics.uci.edu/ml/datasets/Online+News+Popularity). Data tersebut
memiliki 61 atribut.
Tahapan Kegiatan
Tahapan dalam melakukan analisis data terdiri atas 5 tahapan. Tahapan tesebut
yaitu data selection, data pre-processing, transformation, data mining, dan evaluasi.
Tiap tahapan akan menghasilkan keluaran yang dibutuhkan pada tahap selanjutnya.
1.
Data Selection
Memilih kolom-kolom pada data dalam format .csv. Data dari hasil seleksi
yang digunakan untuk memproses data disimpan dalam format .txt.
2.
Data Pre-Processing
Setelah data diseleksi maka selanjutnya dilakukan praproses data tersebut.
Praproses data terdiri atas mengkodekan tiap kategori kedalam kode unik dan
menghapus pencilan.
3.
Transformation
Setelah dilakukan praproses data maka selanjutnya data akan diubah ke
bentuk yang sesuai dengan format data mining. Hal ini bergantung pada pemakaian
perangkat lunak untuk memproses data. Data yang sebelumnya berformat .csv
menjadi .txt untuk bisa diolah di perangkat lunak R Studio.
4.
Data Mining
Menganalisis data hasil dari klustering pada setiap kategori dokumen terhadap
jumlah share.
5.
Interpretation/Evaluation
Setelah mendapatkan data mining tersebut, data akan
direpresentasikan ke dalam bentuk tabel agar lebih mudah untuk dibaca.
kembali
HASIL DAN PEMBAHASAN
Data Selection
Data yang digunakan adalah data yang diambil dari situs data set. Data yang
diambil berjudul ‘Online News Popular’. Pada data awal, atribut terdiri atas 61
atribut. Atribut yang akan digunakan sebanyak 10 atribut, yaitu data_lifestyle,
data_entertainment, data_bus, data_socmed, data_tech, data_world, n_tokens_title
n_tokens_content, num_keywords, dan shares. Data mentah yang sudah terkumpul
sebanyak 100 records dan 10 atribut. Dari data mentah tersebut beberapa atribut
hanya merepresentasikan data dalam bilangan biner sehingga diperlukan praproses
data.
Data Pre-Processing
Pada tahap ini, beberapa atribut digabungkan menjadi satu atribut.
Penggabungan ini didasarkan bahwa setiap data dalam atribut yang digabungkan
tersebut berbentuk biner. Atribut-atribut yang akan digabungkan tersebut sebanyak 6
yaitu data_lifestyle, data_entertainment, data_bus, data_socmed, data_tech, dan
data_world. Dari 6 atribut tersebut diperkecil menjadi 1 atribut.
Data pada atribut data_lifestyle, data_entertainment, data_bus, data_socmed,
data_tech, dan data_world diberikan kode unik, atribut data_lifestyle diberi nilai 1,
atribut data_entertainment diberi nilai 2, atribut data_bus diberi nilai 3, atribut
data_socmed diberi nilai 4, atribut data_tech diberi nilai 5, dan atribut data_world
diberi nilai 6. Setelah data pada atribut - atribut tersebut sudah dikodekan, tahap
selanjutnya adalah menggabungkan ke 6 atribut tersebut menjadi 1 kolom, kolom ini
diberi nama Data_Kategori.
Hasil penggabungan atribut ini menghasilkan data yang tidak terdefinisi. Data
ini tidak berada di 6 atribut . Pada data ambigu ini diasumsikan mewakili 1 kategori
dokumen yaitu uncategory atau dokumen yang tidak memiliki kategori secara
spesifik. Hasil penggabungan atribut ini dapat dilihat pada Tabel 1.
Pada tahap yang sama, dihapus pencilan pada data shares. Data pencilan yang
dihapus adalah data pencilan dengan rentang atau selisih 4000 terhadap data
sebelumnya. Hasil akhir dari tahap ini menghasilkan 5 atribut, yaitu Data_Kategori,
n_tokens_title, n_tokens_content, num_keywords, dan shares, serta mendapatkan 98
record.
Tabel 1 Hasil Pengkodean Kategori Dokumen
Kategori Dokumen
data_uncategory
data_lifestyle
data_entertainment
data_bus
data_socmed
data_tech
data_world
Kode
0
1
2
3
4
5
6
Transformation
Setelah dilakukan praproses data maka data ditransformasikan ke bentuk yang
sesuai untuk k-means. Data dikonversi formatnya menjadi file .txt untuk bisa
digunakan dan diolah dalam RStudio. Berdasarkan pengolahan data yang dilakukan
RStudio, berikut adalah hasil dari proses data menggunakan algoritme k-means dan
Tabel 2 merupakan hasil dari klustering:
1 data1
2015/2016
Penerapan
Popularity
Teknik
K-Means
Clustering
pada
Online
News
MUHAMMAD ARIEF KALBU ADI (G64154030)*
PENDAHULUAN
Latar Belakang
Dokumen elektronik sangat mudah untuk ditemui, karena dengan mudah
dapat diakses melalui smartphone. Dokumen ini dapat ditemui melalu mesin pencari
google atau saat berselancar di Facebook. Tiap dokumen pun dapat dikelompokan
pada suatu kategori.
Kemudahan mendapatkan dokumen diimbangi dengan kemudahan pembaca
untuk melakun berbagi informasi. Tidak semua dokumen dari tiap kategori menarik
untuk di shares. Pada penelitian kali ini akan menganalisis kategori mana saja yang
paling banyak di shares. Untuk mengklusterkan dokumen-dokumen tersebut
digunakan algoritme k-means.
Tujuan
Tujuan dari tugas akhir ini adalah :
1. Mengetahui adakah pengaruh dari tipe dokumen terhadap tingkat share
Ruang Lingkup
Ruang lingkup dari pengambilan data adalah:
1. Data yang digunakan merupakan data Online News Popular.
2. Kolom yang digunakan adalah data_lifestyle, data_entertainment, data_bus,
data_socmed, data_tech, data_world, n_tokens_title n_tokens_content, num_keywords,
dan shares.
3. Metode yang digunakan dalam mengolah data adalah klustering dengan algoritme kmeans.
__________________
Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut
Pertanian Bogor, Bogor 16680
*Mahasiswa
Program
Studi
Ilmu
Komputer,
FMIPA-IPB;
Surel:
arief_kalbu49@apps.ipb.ac.id.
TINJAUAN PUSTAKA
Data Mining (Penggalian Data) didefinisikan sebagai sebuah proses untuk
menemukan hubungan, pola dan trend baru yang bermakna dengan menyaring data
yang sangat besar, yang tersimpan dalam penyimpanan, menggunakan teknik
pengenalan pola seperti teknik statistik dan matematika (Poniah, 2001). Hubungan
yang dicari dalam data mining dapat berupa hubungan antara dua atau lebih dalam
satu dimensi, misalnya dalam dimensi produk, kita dapat melihat keterkaitan
pembelian suatu produk dengan produk yang lain. Selain itu hubungan juga dapat
dilihat antara 2 atau lebih atribut dan 2 atau lebih obyek (Pramudiono, 2006).
Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan
atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas
dari suatu objek yang labelnya tidak diketahui. Decision tree adalah salah satu metode
classification yang paling populer karena mudah untuk diinterpretasi oleh manusia
(Pramudiono, 2006).
METODOLOGI
Data
Data yang digunakan dalam tugas akhir ini adalah Online News Popular. Data
tersebut
dapat
diperoleh
dari
website
data
set
(https://archive.ics.uci.edu/ml/datasets/Online+News+Popularity). Data tersebut
memiliki 61 atribut.
Tahapan Kegiatan
Tahapan dalam melakukan analisis data terdiri atas 5 tahapan. Tahapan tesebut
yaitu data selection, data pre-processing, transformation, data mining, dan evaluasi.
Tiap tahapan akan menghasilkan keluaran yang dibutuhkan pada tahap selanjutnya.
1.
Data Selection
Memilih kolom-kolom pada data dalam format .csv. Data dari hasil seleksi
yang digunakan untuk memproses data disimpan dalam format .txt.
2.
Data Pre-Processing
Setelah data diseleksi maka selanjutnya dilakukan praproses data tersebut.
Praproses data terdiri atas mengkodekan tiap kategori kedalam kode unik dan
menghapus pencilan.
3.
Transformation
Setelah dilakukan praproses data maka selanjutnya data akan diubah ke
bentuk yang sesuai dengan format data mining. Hal ini bergantung pada pemakaian
perangkat lunak untuk memproses data. Data yang sebelumnya berformat .csv
menjadi .txt untuk bisa diolah di perangkat lunak R Studio.
4.
Data Mining
Menganalisis data hasil dari klustering pada setiap kategori dokumen terhadap
jumlah share.
5.
Interpretation/Evaluation
Setelah mendapatkan data mining tersebut, data akan
direpresentasikan ke dalam bentuk tabel agar lebih mudah untuk dibaca.
kembali
HASIL DAN PEMBAHASAN
Data Selection
Data yang digunakan adalah data yang diambil dari situs data set. Data yang
diambil berjudul ‘Online News Popular’. Pada data awal, atribut terdiri atas 61
atribut. Atribut yang akan digunakan sebanyak 10 atribut, yaitu data_lifestyle,
data_entertainment, data_bus, data_socmed, data_tech, data_world, n_tokens_title
n_tokens_content, num_keywords, dan shares. Data mentah yang sudah terkumpul
sebanyak 100 records dan 10 atribut. Dari data mentah tersebut beberapa atribut
hanya merepresentasikan data dalam bilangan biner sehingga diperlukan praproses
data.
Data Pre-Processing
Pada tahap ini, beberapa atribut digabungkan menjadi satu atribut.
Penggabungan ini didasarkan bahwa setiap data dalam atribut yang digabungkan
tersebut berbentuk biner. Atribut-atribut yang akan digabungkan tersebut sebanyak 6
yaitu data_lifestyle, data_entertainment, data_bus, data_socmed, data_tech, dan
data_world. Dari 6 atribut tersebut diperkecil menjadi 1 atribut.
Data pada atribut data_lifestyle, data_entertainment, data_bus, data_socmed,
data_tech, dan data_world diberikan kode unik, atribut data_lifestyle diberi nilai 1,
atribut data_entertainment diberi nilai 2, atribut data_bus diberi nilai 3, atribut
data_socmed diberi nilai 4, atribut data_tech diberi nilai 5, dan atribut data_world
diberi nilai 6. Setelah data pada atribut - atribut tersebut sudah dikodekan, tahap
selanjutnya adalah menggabungkan ke 6 atribut tersebut menjadi 1 kolom, kolom ini
diberi nama Data_Kategori.
Hasil penggabungan atribut ini menghasilkan data yang tidak terdefinisi. Data
ini tidak berada di 6 atribut . Pada data ambigu ini diasumsikan mewakili 1 kategori
dokumen yaitu uncategory atau dokumen yang tidak memiliki kategori secara
spesifik. Hasil penggabungan atribut ini dapat dilihat pada Tabel 1.
Pada tahap yang sama, dihapus pencilan pada data shares. Data pencilan yang
dihapus adalah data pencilan dengan rentang atau selisih 4000 terhadap data
sebelumnya. Hasil akhir dari tahap ini menghasilkan 5 atribut, yaitu Data_Kategori,
n_tokens_title, n_tokens_content, num_keywords, dan shares, serta mendapatkan 98
record.
Tabel 1 Hasil Pengkodean Kategori Dokumen
Kategori Dokumen
data_uncategory
data_lifestyle
data_entertainment
data_bus
data_socmed
data_tech
data_world
Kode
0
1
2
3
4
5
6
Transformation
Setelah dilakukan praproses data maka data ditransformasikan ke bentuk yang
sesuai untuk k-means. Data dikonversi formatnya menjadi file .txt untuk bisa
digunakan dan diolah dalam RStudio. Berdasarkan pengolahan data yang dilakukan
RStudio, berikut adalah hasil dari proses data menggunakan algoritme k-means dan
Tabel 2 merupakan hasil dari klustering:
1 data1