Laporan Hasil Analisis Data Mining pada
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Big Data and Clustering Analysis
Analisis Cluster Pola Kebiasaan Penghuni Rumah
Tangga dalam Pengonsumsian Energi Listrik
Dosen Pembimbing
: Muhammad Ihsan Zul, S.Pd., M.Eng [[email protected]]
Ketua Tim
: Okta Riveranda [[email protected]]
Anggota Tim 1
: Muhammad Mahrus Zain [[email protected]]
Anggota Tim 2
: Syahmia Gusriani [[email protected]]
1
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
1.
Latar Belakang
Manusia hidup di dunia dimana jumlah data meningkat setiap hari sebagai akibat
dari komputerisasi. Sejumlah besar data disimpan berdasarkan rangkaian waktu
(timeseries) dan terus terkumpul selama transaksi berlangsung. Dengan munculnya
teknologi penyimpanan data yang murah, memungkinkan untuk menyimpan data secara
rinci untuk dilakukan tindakan lebih lanjut. Datadata rinci yang terus bertambah inilah yang
melatarbelakangi penelitian Data Mining.
Data Mining digunakan untuk mencari pengetahuan dari basis data yang besar
besar sehingga sering disebut Knowledge Discovery in Databases (KDD). Data Mining
merupakan salah satu disiplin ilmu dalam Ilmu Komputer yang memadukan antara disiplin
ilmu statistika dengan Artificial Intelligence (AI). Konsep statistika diterapkan dengan
adanya pengambilan sampel dalam suatu data, yang dikenal dengan istilah sampling.
Sementara untuk AI, Data Mining menerapkan beberapa algoritma machine learning, baik
dalam analisis suatu data mentah yang ada maupun dalam proses pembentukan model
dalam proses klasifikasi data (Han, 2005).
Dalam Data Mining juga dikenal suatu istilah yang disebut dengan big data. Big
data merupakan sekumpulan data mentah yang telah disimpan dalam selang waktu tertentu
dan belum memiliki arti maupun informasi (Han, 2005). Big data telah menjadi salah satu
topik hangat yang sedang menjadi bahan perbincangan para profesional IT di dunia. Salah
satu topik utama seputar big data adalah ketersediaan data berbasis waktu (real time) atau
telemetry data (Rosario & Phil, 2013). Telemetry data dapat diartikan pengukuran jarak jauh
terhadap data untuk perekaman dan analisis data di masa yang akan datang. Data telemetri
tersebut merupakan kumpulan nilai yang diperoleh dari pengukuran berurutan dari waktu ke
waktu (timeseries).
Data pemakaian alatalat listrik merupakan salah satu big data. Datadata yang
terkumpul bertambah dari waktu ke waktu (timeseries). “Individual Household Electric
Power Consumption Data Set” adalah data yang diperoleh dari pengukuran konsumsi listrik
pada sebuah rumah tangga di Irlandia. Sebuah rumah tangga yang darinya mampu
dihasilkan sekumpulan data mentah yang berukuran sangat besar, setelah disimpan
selama hampir 4 tahun untuk tiap menit pemakaian alat listrik. Datadata tersebut berupa
hasil pencatatan dalam pemakaian alat listrik seharihari.
2
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Jenis alat listrik pada data rumah tangga ini dikelompokkan menjadi 3 yakni;
peralatan dapur, mesin laundry, serta alat pemanas air dan airconditioner. Meteran
(pengukur) untuk tiap jenis alat listrik pada rumah tangga tidak digabung menjadi satu
(paralel). Hal itu memberikan keuntungan dalam pengukuran pemakaian alat listrik, dimana,
jika salah satu meteran alat listrik terputus, maka hal itu tidak akan mempengaruhi meteran
jenis alat listrik lainnya.
Analisis terhadap big data merupakan hal yang perlu dilakukan untuk mendapatkan
suatu pola tertentu dari data set rumah tangga itu. Proses analisis yang melibatkan jenis
alat listrik menghasilkan 3 cluster sesuai dengan karakteristik atau pola yang akan
dihasilkan. Data Mining dapat diterapkan dalam pengolahan big data timeseries. Hasil dari
pemrosesan Data Mining dapat menggambarkan visualisasi bentuk pola data. Dengan
adanya visualisasi pola data, sangat mungkin untuk memperoleh suatu informasi berharga.
Ketepatan dalam memilih tools untuk data mining adalah hal yang tidak kalah
penting. Besarnya jumlah data harus dipertimbangkan sebelum memulai proses mining.
Jumlah data pada Data Set yang akan diproses mencapai 2.075.259 baris data. Kecepatan
pemrosesan data juga menjadi pertimbangan dalam memilih tools. Semakin banyak jumlah
data, maka lamanya waktu pemrosesan juga semakin besar. Mempertimbangkan jumlah
data yang ada, KNIME menjadi aplikasi yang tepat untuk pemrosesan big data.
KNIME adalah sebuah aplikasi multiplatform yang open source untuk analisis data,
menyediakan grafis area kerja yang userfriendly untuk seluruh proses analisis: data
access, data transformation, initial investigation, powerful predictive analytics, visualisasi,
dan laporan. Tersedia lebih dari 1000 modul (nodes) di dalamnya. (Rosario & Phil, 2013)
Berdasarkan uraian di atas, melalui makalah ini, dilakukan penelitian terhadap
“Individual Household Electric Power Consumption Data Set” dengan menerapkan konsep
Data Mining menggunakan software KNIME, serta visualisasi informasi yang dihasilkan
dari data dengan Microsoft Excel 2013. Sehingga, diperoleh informasi berupa pola
kebiasaan pemakaian alat listrik pada sebuah rumah tangga.
3
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
2.
Tujuan dan Manfaat
Tujuan dari penelitian yang dilakukan adalah sebagai berikut:
1. Mendapatkan pola pemakaian alat listrik pada suatu rumah tangga berdasarkan
periode musim, bulan, hari dan range waktu tertentu.
2. Dapat mengetahui jenis alat apa saja yang paling sering digunakan dalam periode
waktu tertentu.
3. Mengelompokkan pola penggunaan alat listrik menjadi beberapa kategori
berdasarkan lama pemakaiannya.
4. Memberikan label tingkat keborosan penggunaan alat listrik berdasarkan total
daya listrik yang dihasilkan dengan biaya yang dikeluarkan.
5. Visualisasi informasi dalam bentuk grafik (infographic) sehingga mudah dipahami.
Sementara itu, manfaat yang dihasilkan dari tujuan di atas ialah sebagai berikut:
1. Mengetahui kebiasaan anggota rumah tangga dalam menggunakan alat listrik
seharihari.
2. Dapat menghasilkan informasi yang akurat dari hasil analisis yang dilakukan.
3. Mengetahui pola penggunaan alat listrik untuk kemudian bisa dijadikan bahan
pertimbangan apabila suatu saat dilakukan analisis untuk data yang lain.
3.
Batasan Masalah
Batasan Masalah dari penelitian ini adalah:
1. Data set yang digunakan berasal dari satu rumah tangga dengan jumlah data
2.075.259 baris.
2. Data set yang dianalisis adalah data yang dikumpulkan dalam 47 bulan.
3. Menggunakan algoritma kmeans untuk cluster analysis dan beberapa algoritma
klasifikasi sebagai perbandingan akurasi tiap algoritma.
4. Cluster yang ditentukan berjumlah 3 cluster.
4
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
4.
Metode
4.1.
Software
4.1.1.
KNIME
KNIME atau Konstanz Information Miner merupakan
software analisis data yang bersifat open source. Beberapa tahun
terakhir, KNIME semakin banyak di gunakan untuk proses data
mining. KNIME memberi kemudahan dalam pengolahan data skala
besar. Bahkan untuk mengolah big data, KNIME mampu
memroses dengan cepat. Sehingga, sangat menghemat waktu
pengerjaan jika dibandingkan dengan software lain.
Gambar 4.1.1.1 Logo KNIME
5
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Pada pemrosesan data digunakan aplikasi KNIME
sebagai software pendukung utama. Prosesproses yang
dilakukan diantaranya transformasi data, filtering, fungsi operasi
matematika, pengondisian, cluster analysis hingga klasifikasi.
Gambar di bawah ini menjelaskan perbandingan antara
kecepatan analisis data dengan KNIME versi komunitas dengan
KNIME yang ditambah dengan ekstensi komersil berdasarkan
ukuran data yang diolah.
Gambar 4.1.1.2 Grafik Kelebihan KNIME 2.10
6
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Pada gambar di atas, ada tiga bagian pemrosesan
kecepatan dengan software KNIME. Bagian berwarna coklat
merupakan KNIME standar yang digunakan untuk skala komunitas
(community edition). RushAccelerator menempati urutan kedua
lebih cepat 210 kali dibanding versi standar. RushAnalytics
menjadi yang tercepat yakni, 10100 kali lipat dibanding versi
komunitas. RuschAccelerator dan RushAnalytics merupakan
ekstensi KNIME yang bersifat komersil.
4.1.2.
Microsoft Excel 2013
Bagian dari Microsoft Office ini memiliki berbagai fiturfitur
spreadsheet. Microsoft Excel 2013 merupakan applikasi dengan
kemudahan mengolah data berstruktur tabel. Mendukung operasi
perhitungan, pembuatan grafik, tabel pivot dan beberapa fungsi
kondisi.
Gambar 4.1.2.1 Logo Microsoft Excel 2013
7
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Microsoft Excel digunakan sebagai apikasi pendukung
setelah KNIME. Hal ini disebabkan oleh hasil data olahan KNIME
yang terdiri dari kolom dan baris data yang sangat banyak. Data
hasil tersebut dipindahkan dan divisualisasi dengan menggunakan
Microsoft Excel. Lalu, fitur pivot digunakan untuk membantu
menampilkan data yang ada dalam suatu tabel dengan cara yang
berbeda tanpa merubah data asli. Data yang diolah dapat
ditampilkan dalam tampilan grafik ataupun chart. Tampilan ini
mempermudah dalam analisis data dalam jumlah banyak yang
biasanya sulit dianalisis jika hanya tampil dalam bentuk tabel.
4.2.
Data Set
Data set yang digunakan adalah data yang diambil dari sebuah
rumah tangga dalam menggunakan alat listrik seharihari setiap menitnya
selama 47 bulan (dari Desember 2006 sampai November 2010).
Berikut informasi detil mengenai data set yang digunakan:
1) Data set ini mengandung 2.075.259 baris data dengan 6
atribut/kolom.
2) Atributatribut yang ada itu merepresentasikan penggunaan alat
listrik setiap menit (dalam watt hour).
3) Model perhitungan konsumsi alat listrik adalah sebagai berikut:
( GMP60∗100 )−(SM 1 + S M 2 + S M 3) (1)
Keterangan:
1) GMP: global_active_power.
2) SM1: sub_metering_1.
3) SM2: sub_metering_2.
4) SM3: sub_metering_3.
8
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Berikut adalah informasi detil mengenai atributatribut yang ada pada data
set yang akan dianalisis:
1) date: Tanggal pencatatan data (dd/mm/yyyy).
2) time: Waktu pencatatan data (hh:mm:ss).
3) global_active_power: Merupakan ratarata penggunaan daya aktif
untuk tiap alat listrik dalam satuan kilowatt (kw).
4) sub_metering_1: Meteran yang mengukur alatalat listrik dapur
seperti; kompor listrik, pencuci tangan, oven dan microwave.
5) sub_metering_2: Meteran yang mengukur alatalat listrik untuk
ruang cuci berupa; mesin cuci, pengering pakaian, kulkas, dan
lampu.
6) sub_metering_3: Meteran yang mengukur alatalat listrik yang
memakan daya besar berupa; penghangat air elektrik dan Air
Conditioner.
4.3.
Algoritma
4.3.1.
kMeans
KMeans adalah suatu algoritma unsupervised learning
untuk analisis cluster dengan tujuan mengelompokkan data
berdasarkan karakteristik tiap data dengan data yang lain tanpa
mengetahui target kelas/labelnya. Berbeda halnya dengan
supervised learning yang mengelompokkan data berdasarkan
model klasifikasi yang telah dibuat dari pengolahan data
sebelumnya, sehingga dapat diketahui kelas dari data yang baru.
Berikut ini adalah algoritma/langkahlangkah yang harus
ditempuh untuk melaksanakan clustering dengan kMeans:
1) Tentukan jumlah cluster (berapa buah k yang diinginkan).
2) Kelompokkan data sehingga terbentuk k buah cluster
dengan titik centroid untuk setiap cluster merupakan titik
centroid yang telah dipilih sebelumnya.
3) Perbaharui nilai titik centroid.
4) Ulangi langkah 2 dan 3 sampai nilai dari titik centroid tidak
lagi berubah.
9
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Dalam menentukan titik centroid menggunakan algoritma
dengan rumus sebagai berikut:
k
E = ∑ ∑ dist ( p, ci)2 (2)
i=1 pεCi
Keterangan:
E = Jumlah Error data
Ci = Cluster kei
p = Titik Objek
Kelebihan yang dimiliki oleh kMeans diantaranya ialah
sebagai berikut:
1) Mudah untuk diimplementasikan.
2) Waktu yang dibutuhkan untuk proses pembelajarannya
relatif lebih cepat.
3) Mudah untuk diadaptasi pada data yang dinamis.
4) Umum digunakan.
Sementara itu, kekurangan dari penggunaan kMeans
adalah sebagai berikut:
1) Inisialisasi k dilakukan secara random, sehingga
pengelompokkan
data
yang
dihasilkan
dapat
berbedabeda. Jika nilai random yang dilakukan kurang
baik, maka hasil yang didapatkan tidak maksimal.
2) Sangat tidak cocok untuk pengimplementasian pada data
dengan dimensi yang besar
10
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Gambar 4.3.1.1 Hasil Clustering dengan algoritma kMeans
11
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
4.3.2.
Naive Bayes
Naive Bayes merupakan algoritma klasifikasi yang
menerapkan Bayesion Theorem. Bayesion Theorem adalah suatu
rumusan matematika yang sederhana yang digunakan untuk
mencari peluang bersyarat. Dalam data mining, Bayesion Theorem
dipakai sebagai salah satu metode kalsifikasi yang dapat
menghitung probabilitas keanggotaan dari sekumpulan data
terhadap label yang ada tanpa memandang ketergantungan antara
satu atribut dengan atribut yang lain (independen).
Pada teorema Bayes, berlaku hukum probabilitas total
dengan rumus sebagai berikut:
n
P (A | B) = P (A) P (B|A) ÷ ∑ P (Ai|B) (3)
i=1
Keterangan:
P = Peluang Kejadian
A = Kejadian A
B = Kejadian B
4.3.3.
Neural Network
Neural Network merupakan algoritma klasifikasi dengan
meniru cara kerja sistem saraf pada neuron otak manusia. Cara
kerjanya ialah dengan mengubah struktur dalam memecahkan
masalah berdasarkan informasi yang diperoleh. Teknik jaringan
syaraf ini dapat digunakan untuk menentukan klasifikasi clustering,
prediksi dan pola pengenalan terhadap data. Neural Network
memodelkan hubungan yang kompleks antar datadata untuk
menemukan polapola pada data.
f (x) = K (Σi ωi gi (x))
12
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Keterangan:
f (x) = Fungsi Neuran Network
gi = Fungsi Komposisi Vektor
K = Nilai Ketentuan
4.3.4.
kNN
kNearest Neighbor (kNN) merupakan teknik klasifikasi
data berdasarkan kedekatan jarak (lokasi) suatu data terhadap
data lainnya. Jarak yang digunakan adalah Euclidean Distance.
Jarak Euclidean (Euclidean Distance) merupakan perhitungan
yang paling umum digunakan pada data numerik, selain
Manhattan. Rumus Eucledian Distance:
dist ( X 1, X 2) =
√
n
∑ (X 1i − X 2i) 2 (4)
i=1
Keterangan:
X 1 = Data Sampel
X 2 = Data Uji/ Testing
i = Variabel Data
dist = Jarak
13
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
4.3.5.
Decision Tree
Decision tree adalah salah satu algoritma kalsifikasi yang
sangat populer dan banyak digunakan secara praktis. Metode ini
merupakan metode yang berusaha menemukan fungsifungsi
pendekatan yang bernilai diskrit dan tahan terhadap datadata
yang memiliki kesalahan (noise). Metode ini merupakan algoritma
yang banyak digunakan untuk kasus klasifikasi data. Sebuah
decision tree terdiri dari sebuah node paling tinggi disebut root,
internal node dan leaf. Konsep entropy digunakan untuk
penentuan pada atribut mana sebuah tree akan terbagi (split).
Decision Tree menyeleksi data menjadi pohon keputusan (decision
tree) dan aturanaturan keputusan (rule). Adapun rumus Decision
Tree adalah sebagai berikut:
c
Entropy (S) = ∑ − pi log2 pi (5)
i=1
Keterangan:
S = Himpunan Kasus.
c = Jumlah Partisi
pi = Proporsi dari S
i ke S
14
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
5.
Desain dan Implementasi
Work Flow di bawah ini menggambarkan nodenode yang digunakan dalam
pengimplementasian Knowledge Discovery in Database (KDD). Rincian mengenai
tahaptahap KDD akan dijelaskan pada Work Flow dan gambargambar berikutnya.
Gambar 5.1 Work Flow secara keseluruhan
15
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
5.1.
Data Set
Berikut ini adalah gambar mengenai proses pembacaan file .txt yang berisi
data set:
1) Pilih File .txt yang akan diimpor.
2) Pilih ‘;’ (semicolon) sebagai column delimiternya.
Gambar 5.1.1 Read Data
Di bawah ini adalah hasil dari pembacaan data yang telah diimpor
sebelumnya.
Gambar 5.1.2 Atributatribut data set
16
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Berikut ini adalah gambar mengenai penambahan atribut/kolom ID sebagai
pembeda antara satu row data dengan data yang lain. Itu dikarenakan, data set
yang ada hanya diambil dari 1 rumah tangga (household) saja.
Gambar 5.1.3 Penambahan atribut/kolom ID
17
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
5.2.
Data Selection
Sebelum melakukan preprocessing, dilakukan seleksi data terlebih
dahulu. Penyeleksian dilakukan dengan menyeleksi atribut apa saja yang
diperlukan. Dalam data set terdapat tiga atribut yang tidak diperlukan yaitu,
Global_reactive_power, Voltage, dan Global_intensity. Ketiga atribut ini
memiliki nilai yang hampir sama dan tidak mempengaruhi proses
selanjutnya. Sementara, untuk atribut yang lain, dijadikan sebagai variabel
penentu proses data mining atau dikenal sebagai predictor variable.
Gambar di bawah ini menjelaskan mengenai penyeleksian data,
dimana, kolom sebelah kiri adalah atributatribut yang tidak digunakan, dan
di sebelah kanan adalah predictor variable.
Gambar 5.2.1 Seleksi Data
18
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
5.3.
Preprocessing
Tahap awal yang dilakukan sebelum proses data mining ialah
tahap preprocessing. Tujuannya adalah mentransformasi data ke suatu
format tertentu yang prosesnya lebih mudah dan efektif untuk kebutuhan
pemakai, dengan indikator sebagai berikut:
1) Mendapatkan hasil yang lebih akurat.
2) Pengurangan waktu komputasi untuk large scale problem.
3) Membuat nilai data menjadi lebih kecil tanpa mengubah informasi
yang dikandungnya.
Terdapat beberapa alat dan metode dalam tahap preprocessing.
Berikut adalah contoh penerapan metodenya:
1) Sampling, menyeleksi subset representatif dari populasi data yang
besar.
2) Transformation, memanipulasi data mentah untuk menghasilkan
input tunggal.
3) Denoising, menghilangkan noise pada data.
4) Normalization, mengorganisasi data untuk pengaksesan yang
lebih spesifik.
5) Feature Extraction, membuka spesifikasi data yang signifikan.
19
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Gambar di bawah ini menggambarkan nodenode yang digunakan untuk
menghitung jumlah watthour penggunaan alat listrik.
Gambar 5.3.1 Work Flow Menghitung W/h penggunaan alat listrik
Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk
mengubah data bertipe string menjadi date.
Gambar 5.3.2 Work Flow Konversi data dari string ke date
20
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk
mengekstraksi data bertipe string yang telah dikonversi pada tahap sebelumnya.
Gambar 5.3.3 Work Flow Ekstraksi tanggal
21
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk
menggabungkan kolom kW/h dengan tanggal dan waktu.
Gambar 5.3.4 Penggabungan kolom
22
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk
menjumlahkan kW/h per range waktu tertentu untuk tiap hari.
Gambar 5.3.5 Work Flow Penjumlahan kW/h per hari
23
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Work Flow di bawah menggambarkan nodenode yang digunakan untuk
mengekstraksi tanggal ke dalam bulan dan tahun.
Gambar 5.3.6 Work Flow Ekstraksi tanggal ke dalam bulan dan tahun
24
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk
menghitung ratarata kW/h per hari.
Gambar 5.3.7 Work Flow Hitung Ratarata
Work Flow
di bawah ini menggambarkan nodenode yang digunakan untuk
menggabungkan kW/h intradays dengan ratarata per hari.
Gambar 5.3.8 Work Flow Penggabungan kW/h dengan ratarata per hari
25
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk
menghitung persentase range waktu yang terdiri dari:
1) Dari pukul 13.00 sampai pukul 17.00.
2) Dari pukul 17.00 sampai pukul 21.00.
3) Dari pukul 21.00 sampai pukul 07.00.
4) Dari pukul 07.00 sampai pukul 09.00.
5) Dari pukul 09.00 sampai pukul 13.00.
Gambar 5.3.9 Work Flow Perhitungan Persentase dalam range waktu tertentu
Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk
normalisasi data. Ada 2 langkah yang dilakukan: Mengisi missing values dengan
nilai ratarata tiap atribut dan kemudian memilih atributatribut yang akan dianalisis
untuk tiap cluster.
Gambar 5.3.10 Normalisasi Data
26
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
5.4.
Data Mining
Tabel di bawah ini menjelaskan tentang proses penyeleksian
atributatribut yang akan digunakan pada analisis cluster. Jumlah cluster
yang ditentukan sebanyak 3 buah cluster. Iterasi maksimum yang
dilakukan sebanyak 400 kali iterasi (perulangan).
Gambar 5.4.1 Seleksi Data untuk Cluster Analysis
Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk
analisis cluster. Node Color Manager digunakan untuk memberikan warna
sebagai pembeda antar cluster.
Gambar 5.4.2 Work Flow Cluster Analysis dengan algoritma kmeans
27
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Tabel di bawah ini adalah hasil analisis cluster dari work flow di atas.
Terlihat bahwa, terdapat perbedaan warna antara satu cluster dengan
cluster lain berdasarkan warna dari pengaturan Color Manager di atas.
Gambar 5.4.3 Tabel Hasil Cluster Analysis
5.5.
Interpretation & Evaluation
Tabel di bawah ini tabel Confusion Matrix dari hasil klasifikasi dengan
menggunakan algoritma Naive Bayes. Informasi yang dapat diambil dari
tabel di bawah adalah:
1) Akurasi hasil klasifikasi: 93.267% atau 942 baris data.
2) Error Rate: 6.733% atau 68 baris data.
Gambar 5.5.1 Confusion Matrix hasil klasifikasi dengan Naive Bayes
28
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Tabel di bawah ini adalah tabel Confusion Matrix dari hasil klasifikasi
dengan menggunakan algoritma Neural Network. Informasi yang dapat
diambil dari tabel di bawah adalah:
1) Akurasi hasil klasifikasi: 88.614% atau 895 baris data.
2) Error rate: 11.386% atau 115 baris data.
Gambar 5.5.2 Confusion Matrix hasil klasifikasi dengan Neural Network
Tabel di bawah ini adalah tabel Confusion Matrix dari hasil klasifikasi
dengan menggunakan algoritma Neural Network. Informasi yang dapat
diambil dari tabel di bawah adalah:
Gambar 5.5.3 Confusion Matrix hasil klasifikasi dengan kNN
29
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Tabel di bawah ini adalah Confusion Matrix dari hasil klasifikasi dengan
menggunakan algoritma Decision Tree. Informasi yang dapat diambil dari
tabel di bawah adalah:
1) Akurasi hasil klasifikasi: 85.842% atau 867 baris data.
2) Error Rate: 14.158% atau 143 baris data.
Gambar 5.5.4 Confusion Matrix hasil klasifikasi dengan Decision Tree
30
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
6.
Analisis
6.1.
Analisis Cluster Pola Penggunaan Alat Listrik
dengan Normalisasi
Terdapat 2 metode normalisasi yang bisa digunakan untuk analisis cluster
pola penggunaan alat listrik, yaitu:
A. Normalisasi dengan metode ZScore.
Gambar 6.1.1 Normalisasi dengan metode ZScore
31
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Dari analisis yang telah dilakukan dengan metode normalisasi
ZScore, didapat informasi mengenai pola dari tiap cluster. Berikut
hasil analisisnya:
1) Cluster 0 menjelaskan karakteristik pengguna yang lebih
dominan dalam menggunakan alatalat listrik pada saat
sore hingga menuju malam. Puncak pemakaian alatalat
listrik ini berada di antara pukul 17.00 hingga 21.00.
Kemudian, dari pukul 07.00 hingga pukul 09.00
mengalami kenaikan penggunaan alatalat listrik. Lalu
akhirnya, mengalami penurunan mulai dari pukul 09.00
hingga pukul 13.00.
2) Cluster 1 menjelaskan karakteristik pengguna dimana,
dari pukul 13.00 hingga pukul 21.00 penggunaan alatalat
listrik sangat rendah. Terlepas dari faktor apapun, asumsi
yang bisa digunakan ialah bahwa, pada saat itu penghuni
rumah tidak sedang berada di rumah. Namun sebaliknya,
mulai dari pukul 21.00 hingga pukul 07.00 terjadi
peningkatan yang signifikan pada penggunaan alatalat
listrik. Asumsi yang bisa digunakan berikutnya ialah
bahwa penghuni rumah pada saat itu sedang begadang
(The Night Owl).
3) Cluster 2 menjelaskan karakteristik pengguna dimana, di
antara pukul 13.00 hingga pukul 17.00 terjadi puncak
pemakaian alatalat listrik. Sementara itu, dari pukul 17.00
hingga pukul 09.00, penghuni rumah hampir tidak aktif
sama sekali, karena penggunaan alatalat listrik yang jauh
lebih rendah daripada ratarata di cluster lain. Kemudian
kembali aktif mulai dari pukul 09.00 hingga pukul 13.00.
32
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
B. Normalisasi dengan metode MinMax.
Gambar 6.1.2 Normalisasi dengan metode MinMax
33
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Dari analisis yang telah dilakukan dengan metode normalisasi
MinMax, didapat informasi mengenai pola dari tiap cluster. Berikut
hasil analisisnya:
1) Cluster 0, sebagaimana dengan metode ZScore,
menggambarkan karakteristik pengguna paling banyak
menggunakan alatalat listrik pada pukul 17.00 hingga
pukul 21.00. Hal itu menunjukkan bahwa, aktivitas
pemakaian alat listrik mencapai puncaknya. Setelah pukul
21.00, pemakaian alat listrik mengalami penurunan sangat
signifikan sampai pukul 07.00. Dilanjutkan sampai pukul
09.00, konsumsi listrik masih sangat rendah. Lalu,
penggunaan alat listrik mulai mengalami sedikit kenaikan
pada pukul 13.00 dan menurun kembali hingga pukul
17.00.
2) Cluster 1 menunjukkan pemakaian puncaknya pada pukul
21.00 sampai 07.00 pagi. Hal itu juga menandakan bahwa
penghuni rumah tangga sedang sangat aktif pada malam
hari, sebagaimana hal ini juga bisa dilihat pada Analysis
Chart dengan metode ZScore.
3) Cluster 2 menggambarkan pola kebiasaan penghuni
rumah tangga yang relatif berbeda dari metode dengan
ZScore. Bahkan, bisa dikatakan berbanding terbalik.
Pada cluster ini, bisa diasumsikan bahwa, penghuni
rumah tangga aktif dari pukul 17.00 hingga pukul 09.00,
yang menunjukkan kalau penghuni rumah tangga sedang
berada di rumah pada saat itu.
34
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
6.2.
Analisis Cluster Pola Penggunaan Alat Listrik
berdasarkan total kW/h
Pada bagian ini, dijelaskan tentang analisis pola penggunaan alat
listrik berdasarkan total kW/h yang dihasilkan dari pemakaian alat listrik.
Ada 4 periode waktu yang menjadi dasar dalam penjumlahan kW/h, yakni
sebagai berikut:
A. Per Musim
Chart di bawah ini adalah hasil cluster analysis pola
penggunaan alat listrik untuk tiap tahun. Berikut informasi yang
dapat diambil dari hasil analisis yang dilakukan berdasarkan
musim tiap tahun:
1) Analisis pola didasarkan pada total kW/h untuk tiap
musim.
2) Pada tahun 2006, data yang didapat hanya untuk bulan
Desember, sehingga hanya musim dingin saja yang ada
pada tahun itu .
3) Dapat
disimpulkan
bahwa,
pada
musim dingin,
penggunaan alat listrik cukup besar untuk tiap tahunnya.
4) Di samping itu, pada musim panas, justru penggunaan
alat listrik tergolong paling kecil di antara musim lainnya
selama 3 tahun.
5) Sehingga, jika diurutkan dari yang paling besar
penggunaan alat listriknya, maka didapat informasi
sebagai berikut:
a) Musim Dingin (22 Desember21 Maret)
b) Musim Gugur (24 September21 Desember)
c)
Musim Semi (22 Maret21 Juni)
d) Musim Panas (22 Juni23 September)
35
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Gambar 6.2.1 Analysis Chart Pola Penggunaan Alat Listrik tiap musim pada tiap tahun
36
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
B. Per Bulan
Chart di bawah ini menjelaskan tentang penggunaan alat
listrik untuk tiap tahun. Berikut informasi yang dapat diambil dari
analysis chart di bawah ini:
1) Tahun 2006 hanya diisi pada bulan Desember, sehingga
informasi yang dihasilkan pun tergolong rendah dibanding
tahuntahun lainnya.
2) Secara keseluruhan, tiap bulan pada tiap tahun selalu
memiliki pola yang sama, yakni penggunaan alat listrik
yang bisa dikatakan monoton.
3) Namun, pada bulan Agustus 2008, bisa dilihat bahwa
terjadi perubahan/penurunan dalam pemakaian alat listrik
berdasarkan total kW/h pada bulan itu dibandingkan pada
bulan Agustus di tahuntahun lainnya.
Gambar 6.2.2 Analysis Chart Pola Penggunaan Alat Listrik tiap bulan pada tiap tahun
37
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
C. Per Hari
Chart di bawah ini menggunakan periode waktu tiap hari
(SeninMinggu) untuk tiap tahun. Berikut informasi yang dapat
diambil dari chart ini, yakni sebagai berikut:
1) Terlihat bahwa penggunaan alat listrik paling tinggi berada
pada hari Minggu, yang kemudian disusul pada hari
Sabtu. Kemungkinan besar pada saat itu (weekend),
penghuni rumah sedang berada di rumah, terlepas
apakah
penghuninya
masih
lajang
atau
sudah
berkeluarga.
2) Sebaliknya, pada harihari selain weekend, terlihat jelas
bahwa penggunaan alat listriknya di bawah dari ratarata
weekend. Sehingga bisa disimpulkan bahwa pada saat itu,
penghuni rumah sedang tidak berada di rumah, terlepas
dari faktorfaktor eksternal lainnya.
Gambar 6.2.3 Analysis Chart pola penggunaan alat listrik untuk tiap hari pada tiap tahun
38
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
D. Per range waktu tertentu
Chart di bawah ini menggambarkan penggunaan alat
listrik berdasarkan total kW/h dalam periode range waktu tertentu.
Berikut informasi yang dapat diambil dari hasil analisis ini:
1) Pola yang ditunjukkan setiap tahun selalu sama, jika
dilihat dari total pemakaian alat listrik dari total kW/h yang
dihasilkan.
2) Penghuni rumah sangat aktif (dalam penggunaan alat
listrik) pada pukul 21.00 hingga 07.00. Sehingga bisa
dikatakan bahwa penghuni rumah pada rumah tangga
yang data dianalisis ini tergolong “aktif pada malam hari”
(The Night Owl).
3) Jika melihat aktifitas penghuni rumah dalam penggunaan
alat listrik dari range waktu pukul 07.00 sampai 17.00,
maka bisa disimpulkan bahwa besar kemungkinan
penghuni rumah sedang berada di luar rumah pada saat
itu, terlepas dari apakah berada di luar rumah untuk
alasan kerja ataupun sekolah.
Gambar 6.2.4 Analysis Chart Pola Penggunaan Alat Listrik pada Range waktu tertentu
39
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
6.3.
Analisis Cluster Pola Penggunaan Alat Listrik
berdasarkan Biaya Penggunaan Listrik di
Indonesia
Tabel di bawah ini adalah referensi biaya untuk pemakaian listrik
per kW/h di Indonesia untuk tahun 20022010. Dengan asumsi, apabila
pemakaian alat listrik di rumah tangga ini “diindonesiakan”, maka kita bisa
melihat biaya yang dikeluarkan oleh penghuni rumah tangga dalam waktu
tertentu dalam satuan rupiah.
Gambar 6.3.1 Patokan Harga untuk rumah tangga di Indonesia
http://www.pln.co.id/dataweb/STAT/STAT2010IND.pdf
40
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Gambar 6.3.2 Analysis Chart Berdasarkan Biaya Pemakaian Listrik di Indonesia
Berdasarkan chart pola biaya pemakaian listrik di atas, dapat dinyatakan bahwa
penggunaan alatalat listriknya tidak jauh berbeda dari pola penggunaan alat listrik
berdasarkan bulan untuk tiap tahun. Dimana, tingginya tingkat pemakaian alat listrik
berbanding lurus dengan biaya yang harus dibayar. Grafik pada chart di atas menunjukkan
bulanbulan sepanjang musim dingin (DesemberMaret) yang membutuhkan biaya lebih
tinggi. Hal itu disebabkan oleh pemakaian pemanas ruangan, pemanas air, dan nyala
lampu yang lebih lama. Dibandingkan bulanbulan pada musim semi (MaretJuni), musim
panas (JuniSeptember) dan musim gugur (SeptemberDesember), biaya yang dikeluarkan
tidak begitu besar.
41
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
6.4.
Analisis Cluster Pola Penggunaan Alat Listrik
berdasarkan Jenis Alat Listrik
Pada bagian ini, dijelaskan tentang analisis cluster pola
penggunaan alat listrik berdasarkan lamanya pemakaian jenis alat listrik
yang
ada.
Informasi
didapat
secara
langsung
di
situs
https://archive.ics.uci.edu/ mengenai jenis alat listrik apa yang
dipergunakan dalam 1 rumah tangga ini. Berdasarkan informasi tersebut,
didapatlah pengetahuan bahwa atribut sub_metering_1 mewakili jenis alat
listrik untuk dapur, sub_metering_2 mewakili jenis alat listrik untuk ruang
laundry dan sub_metering_3 mewakili jenis alat listrik yang memiliki daya
yang cukup besar seperti, penghangat air elektrik dan AirConditioner.
Berikut ini adalah Analysis Chart yang memberikan hasil analisis atas
proses data mining yang telah dilakukan.
1) Pola Penggunaan Alat Listrik Berdasarkan Jenis Alat Listrik dan
Lamanya Pemakaian
Di bawah ini tampak sebuah analysis chart yang menggambarkan
bahwa penghuni rumah lebih sering menggunakan jenis alat
semacam penghangat air elektrik atau AirConditioner (AC).
Asumsi yang bisa digunakan ialah bahwa, AC lebih sering aktif
dibanding jenis alat listrik lainnya seperti alat dapur dan alatalat di
ruang laundry, sehingga tampak jelas perbedaan di antara
ketiganya dari lama penggunaan alat listrik berdasarkan total pukul
pemakaiannya untuk tiap hari dalam 1 minggu. Sementara itu,
untuk jenis alat listrik dapur, lebih rendah di antara yang lain,
karena penggunaannya yang memang terbilang jarang dan relatif
terhadap waktu penggunannya. Di samping itu, alat listrik tertinggi
ke2 ditempati oleh jenis alat listrik di ruang laundry, dimana bisa
diasumsikan bahwa penggunaan alatalat itu cukup rutin
digunakan, karena selain mesin cuci, mesin pengering dan kulkas,
juga terdapat lampu yang notabenenya sering digunakan
dibanding jenis alat dapur.
42
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
Gambar 6.4.1 Analysis Chart Pola Penggunaan Alat Listrik berdasarkan Jenis Alat Listrik
43
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
2) Pola Penggunaan Alat Listrik berdasarkan Jenis Alat Listrik dan
Total Pemakaiannya selama 47 bulan
Analysis chart di bawah ini menggambarkan total pemakaian
secara keseluruhan jenis alat listrik selama 47 bulan (informasi
didapat di situs resmi) atau dengan kata lain, total keseluruhan
data dari data set yang ada. Hasil analisis ini bisa dikatakan
serupa dengan chart sebelumnya yang menginformasikan bahwa,
jenis alat listrik terlama yang digunakan adalah jenis alat listrik
dengan daya yang besar seperti penghangat air elektrik dan AC,
kemudian disusul dengan jenis alat laundry dan lalu alatalat
dapur.
Gambar 6.4.2 Analysis Chart Pola Penggunaan Alat Listrik berdasarkan Jenis Alat Listrik
dan Total Jam Pemakaian
44
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
3) Pola Penggunaan Alat Listrik Berdasarkan Jenis Alat Listrik dan
Total Waktu Pemakaian
Gambar 6.4.3 Analysis Chart Pola Penggunaan Alat Listrik berdasarkan Jenis Alat Listrik
dan range waktu tertentu
1) Sub Metering 3 selalu berada pada titik teratas dengan waktu pemakaian paling
lama (6.912 jam), sekaligus jenis alat listrik yang paling sering aktif sepanjang hari.
Puncak pemakaiannya pada pukul 21.00 hingga 07.00, artinya alat listrik tersebut
aktif sepanjang malam. Sedangkan pada pukul 07.00 hingga 09.00 pemakaian
menurun secara signifikan. Kemudian, pemakaian kembali meningkat pada pukul
09.00 sampai 13.00.
2) Sub Metering 2 menempati pemakaian tertinggi kedua setelah Sub Metering 3.
Jenis alat listrik pada Sub Metering 2 mencapai puncak penggunaannya pada
pukul 21.00 hingga 07.00. Pola pemakaian jenis alat listrik Sub Metering 2 tidak
jauh berbeda dengan pola pemakaian jenis alat listrik Sub Metering 3.
3) Sub Metering 1 merupakan alatalat listrik dengan penggunaan paling rendah di
antara jenis alat listrik lainnya. Puncak pemakaian jenis alat listrik ini 6 kali lebih
rendah dibandingkan puncak pemakaian jenis alat listrik pada Sub Metering 3.
Dengan total waktu pemakaian hanya 1.045 jam dan waktu pemakaian paling
rendah 292 jam selama 47 bulan.
45
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
7.
Kesimpulan
Penelitian terhadap data set Individual Household Power Consumption
merupakan kegiatan yang melibatkan proses KDD. Jumlah data dari data set
tersebut sebanyak 2.075.259 baris data. Proses KDD yang dilakukan memakan
waktu yang cukup lama, mengingat jumlah data yang cukup besar (big data) dan
sifat data yang masih mentah. Aplikasi/tools yang digunakan adalah KNIME versi
2.10. Hasil KDD tersebut dianalisis untuk memperoleh “potensi” informasi
tersembunyi yang mungkin ada. Informasi didapat dari analisis terhadap polapola
data. Informasi tersebut menunjukkan bagaimana pola kebiasaan penggunaan
alatalat listrik dari penghuni suatu rumah tangga selama 47 bulan terakhir (dari
tahun 2006 hingga 2010). Polapola tersebut dikategorikan ke dalam beberapa
rentang waktu.
1) Berdasarkan musim, penggunaan alat listrik paling banyak berada pada
musim dingin dibanding musim lainnya. Pada musim dingin, penghuni lebih
banyak menggunakan alatalat listrik. Kondisi udara yang dingin
menyebabkan penghuni lebih banyak/sering menggunakan penghangat
ruangan, penghangat air, hingga pengering pakaian. Selain itu, karena
siang hari lebih pendek, maka pemakaian lampu untuk penerangan juga
lebih lama digunakan.
2) Berdasarkan bulan, pola pemakaian alat listrik pada bulanbulan sepanjang
musim dingin menunjukkan kecenderungan pemakaian lebih tinggi.
Sedangkan pada pertengahan tahun, yakni, sepanjang musim gugur dan
musim semi, penggunaan alatalat listrik cenderung menurun. Hingga
musim panas, pola pemakaian alatalat listrik tetap mengalami penurunan.
Pada bulan September, dimana musim panas mulai berakhir, pemakaian
alat listrik mengalami kenaikan hingga musim dingin berlangsung.
3) Berdasarkan hari, pola penggunaan alatalat listrik tidak terlalu tinggi pada
hari kerja (SeninJumat). Umumnya, penghuni yang bekerja hanya berada
di rumah setelah jam kerja. Sehingga, alatalat listrik yang digunakan
cukup terbatas. Sedangkan pada weekend (SabtuMinggu), pemakaian
listrik cenderung meningkat. Dimana pada hari itu, penghuni lebih banyak
menghabiskan waktu di rumah. Sehingga, alatalat listrik yang digunakan
juga lebih banyak.
46
Tim Revolusi Kopi Luwak Politeknik Caltex Riau
4) Berdasarkan range waktu, penggunaan alat listrik setiap tahun
menunjukkan pola yang hampir sama. Penghuni menunjukkan kebiasaan
menggunakan alat listrik paling banyak antara pukul 21.00 hingga pukul
07.00. Dengan kata lain, alatalat listrik yang digunakan memiliki
fungsionalitas yang lebih panjang di malam hari.
5) Pola pemakaian alat listrik berdasarkan jenis alat listrik dan lamanya
pemakaian, menunjukkan alat listrik dalam kategori Sub Metering 3
merupakan alatalat listrik yang selalu digunakan dalam waktu lama. Sub
Metering 3 mewakili alat listrik berupa; penghangat air e