Implementasi K Means Clustering pada lingkungan big data menggunakan model pemrograman MapReduce

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

IMPLEMENTASI K-MEANS CLUSTERING PADA LINGKUNGAN BIG
DATA MENGGUNAKAN MODEL PEMROGRAMAN MAPREDUCE

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana
Komputer Program Studi Teknik Informatika

Oleh :
Engelbertus Vione
125314112

PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2016

i

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

K-MEANS CLUSTERING IMPLEMENTATION IN BIG DATA
ENVIRONMENT WITH MAPREDUCE PROGRAMMING MODEL

A THESIS

Presented as Partial Fulfillment of Requirements to Obtain Sarjana
Komputer Degree in Informatics Engineering Department

By :
Engelbertus Vione
125314112

INFORMATICS ENGINEERING STUDY PROGRAM
INFORMATICS ENGINEERING DEPARTMENT
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY

YOGYAKARTA
2016

ii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

HALAMAN PERSETUJUAN PEMBIMBING

SKRIPSI

IMPLEMENTASI K-MEANS CLUSTERING PADA LINGKUNGAN
BIG DATA MENGGUNAKAN MODEL PEMROGRAMAN MAPREDUCE

Oleh:

Engelbertus Vione

125314112

Telah disetujui oleh :

Pembimbing,

J.B. Budi Darmawan, S.T., M.Sc.

Tanggal: …………………………….

iii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

HALAMAN PENGESAHAN

IMPLEMENTASI K-MEANS CLUSTERING PADA LINGKUNGAN
BIG DATA MENGGUNAKAN MODEL PEMROGRAMAN MAPREDUCE

Dipersiapkan dan ditulis oleh :
ENGELBERTUS VIONE
NIM : 125314112

Telah dipertahankan di depan panitia penguji
pada tanggal 9 Januari 2017
dan dinyatakan memenuhi syarat

Susunan Panitia Penguji
Nama Lengkap

Ketua

Tanda Tangan

: Puspaningtyas Sanjoyo Adi, S.T., M.T.

............................

Sekretaris : Drs. Haris Sriwindono, M.Kom

...........................

Anggota

............................

: J.B. Budi Darmawan, S.T., M.Sc.

Yogyakarta, ………………………….
Fakultas Sains dan Teknologi
Universitas Sanata Dharma

Dekan,

Sudi Mungkasi, S.Si.,M.Math.Sc.,Ph.D.

iv

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

MOTTO

I have no special talents. I am only passionately curious. – Albert Einstein

v

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PERNYATAAN KEASLIAN KARYA

Saya menyatakan dengan sesungguhnya bahwa di dalam skripsi yang saya tulis
ini tidak memuat karya atau bagian karya orang lain, kecuali yang telah
disebutkan dalam kutipan dan daftar pustaka, sebagaimana layaknya karya ilmiah.

Yogyakarta, ...................................
Penulis

Engelbertus Vione

vi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

LEMBARAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA
ILMIAH UNTUK KEPENTINGAN AKADEMIS

Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dharma:
Nama : Engelbertus Vione
NIM

: 125314112

Demi pengembangan ilmu pengetahuan, saya memberikan kepada
Perpustakaan Universitas Sanata Dharma karya ilmiah yang berjudul:
IMPLEMENTASI KMEANS CLUSTERING PADA LINGKUNGAN
BIG DATA MENGGUNAKAN MODEL PEMROGRAMAN MAPREDUCE
Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya
memberikan kepada perpustakaan Universitas Sanata Dharma hak untuk
menyimpan, mengalihkan dalam bentuk media lain, mengelolanya dalam bentuk
pangkalan data, mendistribusikan secara terbatas, dan mempublikasikannya di
internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari
saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama

saya sebagai penulis.
Demikian pernyataan ini saya buat dengan sebenarnya.

Dibuat di Yogyakarta
Pada tanggal........................................…

Yang Menyatakan

Engelbertus Vione

vii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ABSTRAK

Perkembangan data yang sangat pesat membuat teknologi big data menjadi
inovasi baru dalam menyimpan data. Apache Hadoop merupakan framework big
data yang mampu menyimpan data tanpa memperhatikan jenis data. Apache
Hadoop menggunakan model pemrograman MapReduce dalam menganalisa data.

Apache Mahout merupakan library analisa data yang mampu menjalankan
komputasi

berbasis

pemrograman

MapReduce.

Apache

Mahout

telah

menyediakan komputasi penambangan data yang dapat digunakan dalam
menganalisa data. K-Means merupakan metode penambangan data yang dapat
mengelompokkan data berdasarkan kemiripan sifat.
Penelitian ini menggunakan 4 komputer klaster yang berjalan pada
jaringan lokal. Apache Hadoop yang berjalan pada sistem Linux dibagi menjadi 1

master slave dan 3 slave node. Master node mengatur komputasi MapReduce.
Slave node bertugas sebagai media penyimpan data. Hasil K-Means dengan
menggunakan library Mahout diuji dengan hasil dari metode manual. Hasil
pengujian menunjukkan bahwa library Mahout mampu memberikan hasil analisa
dengan benar. Sedangkan pengujian unjuk kerja dilakukan dengan menjalankan
K-Means sebanyak 10 kali pada jumlah slave node yang berbeda. Kesimpulan
unjuk kerja sistem Hadoop dilakukan dengan mencari nilai rata-rata dari
percobaan-percobaan tersebut. Hasil unjuk kerja menunjukkan bahwa semakin
banyak jumlah slave node maka semakin cepat proses komputasi.

Kata Kunci: Big Data, Hadoop, MapReduce, Mahout, Data Mining, KMeans

viii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ABSTRACT

The growth of massive data makes big data technology as a new
innovation in storing data. Apache Hadoop is a big data framework that able to

stroing data without considering the variety of data. Apache Hadoop uses
MapReduce programming model to analyze data. Apache Mahout is a data
analyze library that able to analyze data in MapReduce programming model.
Apache Mahout has provided data mining method as analyze data algorithm. KMeans is a data mining algorithm that can group item data into specific cluster
based on similarity measure.
This research is developed in 4 computer cluster which is clustered in local
network. Apache Hadoop that is adopted in Linux system is divided into 1 master
node and 3 slave nodes. Master node handles MapReduce. Slave nodes roles as
storage system. The output of K-Means Mahout library is evaluated with manual
calculation. The evaluation result describe that Mahout library can analyze data
well. The performance of Hadoop system is evaluated by running 10 times of KMeans with Mahout library in difference quantity of slave node. The conclusion is
taken by calculate the mean value of each 10 trainings. The performance
evaluation result explained that increasing the number of slave node can make
time execution of computation to be faster.

Keyword : Big Data, Hadoop, MapReduce, Mahout, Data Mining, KMeans

ix

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

KATA PENGANTAR

Puji dan syukur penulis penjatkan kepada Tuhan Yang Maha Esa, telah
memberikan berkat dan karunia sehingga penulis mampu menyelesaikan tugas
akhir ini dengan baik.
Penulis

menyadari

selama

proses

pengerjaan

tugas

akhir

telah

mendapatkan banyak bantuan dari berbagai pihak, baik berupa dukungan, kritik,
saran, dan doa yang mampu menjadi semangat dan motivasi demi terselesainya
tugas akhir ini. Sehingga, pada kesempatan ini penulis akan menyampaikan
ucapan terima kasih kepada:
1. Tuhan Yang Maha Esa yang senantiasa memberikan limpahan berkat dan
karunia-Nya, serta menyertai penulis dalam mengerjakan tugas akhir ini.
2. Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku Dekan Fakultas Sains dan
Teknologi Universitas Sanata Dharma Yogyakarta.
3. JB. Budi Darmawan S.T., M.Sc. selaku dosen pembimbing tugas akhir
yang telah dengan sabar dan penuh perhatian membimbing penulis dalam
menyusun tugas akhir.
4. Dr. Anastasia Rita Widiarti M.Kom selaku Ketua Program Studi Teknik
Informatika yang selalu memberikan dukungan dan perhatian serta saran
kepada mahasiswa tugas akhir dalam pengerjaan tugas akhir.
5. Kedua orang tua tercinta Bapak Siprianus Madu dan Ibu Ni Made Partini
yang selalu mendoakan, memotivasi, menasihati, dan memberikan
dukungan baik moral maupun materi kepada penulis.
6. Seluruh dosen program pendidikan Teknik Informatika atas ajaran dan
didikan selama perkuliahan, serta pengalaman-pengalaman yang
memotivasi bagi penulis.
7. Teman-teman program pendidikan Teknik Informatika angkatan 2012
Universitas Sanata Dharma, terima kasih kebersamaan atas dukungan yang
kalian berikan.
x

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

8. Lorentina Elsi dan Yustina Rosa yang telah menjadi teman berbagi
pengalaman selama mengerjakan tugas akhir ini.
9. Terima kasih kepada semua pihak yang tidak dapat penulis sebutkan satu
persatu yang mendukung dan memotivasi penulis baik secara langsung
maupun secara tidak langsung.
Penulis menyadari bahwa masih adanya kekurangan dalam penulisan
laporan tugas akhir ini. Kritk dan saran sangat penulis harapkan untuk menjadi
motivasi dalam berkarya lagi. Akhir kata, penulis berharap laporan tugas akhir
bisa berguna bagi perkembangan ilmu pengetahun dan wawasan pembaca.

Yogyakarta, ……………………
Penulis

Engelbertus Vione

xi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR ISI

HALAMAN JUDUL.................................................................................................i
TITLE PAGE...........................................................................................................ii
HALAMAN PERSETUJUAN PEMBIMBING.....................................................iii
HALAMAN PENGESAHAN.................................................................................iv
MOTTO....................................................................................................................v
PERNYATAAN KEASLIAN KARYA.................................................................vi
LEMBARAN PERNYATAAN PERSETUJUAN PUBLIKASI
KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS................................vii
ABSTRAK............................................................................................................viii
ABSTRACT............................................................................................................ix
KATA PENGANTAR.............................................................................................x
DAFTAR ISI..........................................................................................................xii
DAFTAR TABEL..................................................................................................xv
DAFTAR GAMBAR............................................................................................xvi
DAFTAR LAMPIRAN.......................................................................................xviii
BAB 1 PENDAHULUAN......................................................................................1
1.1 Latar Belakang...................................................................................................1
1.2 Rumusan Masalah..............................................................................................2
1.3 Tujuan................................................................................................................2
1.4 Manfaat..............................................................................................................2
1.5 Batasan Masalah.................................................................................................3
1.6 Metodologi Penelitian........................................................................................3
1.7 Sistematika Penulisan.........................................................................................4
BAB 2 LANDASAN TEORI..................................................................................6
2.1 Penambangan Data.............................................................................................6
2.1.1 Definisi Penambangan Data.....................................................................6
2.1.2 Clustering.................................................................................................7
2.2 Big Data...........................................................................................................10

xii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.2.1 Definisi Big Data...................................................................................10
2.3 Hadoop.............................................................................................................11
2.3.1 Definisi Hadoop.....................................................................................11
2.3.2 Hadoop Distributed File System............................................................12
2.3.3 Yarn........................................................................................................14
2.4 MapReduce......................................................................................................15
2.4.1 Definisi MapReduce..............................................................................15
2.4.2 Proses MapReduce.................................................................................17
2.5 Apache Mahout................................................................................................19
2.5.1 Konsep MapReduce Pada Library Mahout Berdasarkan Algoritma KMeans....................................................................................................20
2.5.2 Metode Menjalankan Library Mahout...................................................22
BAB 3 ANALISA PERANCANGAN..................................................................24
3.1 Gambaran Penelitian........................................................................................24
3.1.1 Data........................................................................................................25
3.1.2 K-Means Mahout...................................................................................26
3.2 Kebutuhan Sistem............................................................................................27
3.3 Skema Sistem Big Data....................................................................................30
3.3.1 Skema Single Node Cluster...................................................................30
3.3.2 Skema Multi Node Cluster.....................................................................31
BAB 4 IMPLEMENTASI.....................................................................................33
4.1 Perancangan Sistem Big Data..........................................................................33
4.1.1 Konfigurasi Single Node Cluster...........................................................33
4.1.2 Konfigurasi Multi Node Cluster............................................................42
4.2 Implementasi Library Mahout Pada Sistem Hadoop.......................................45
4.2.1 Install Maven..........................................................................................45
4.2.2 Install Eclipse.........................................................................................46
4.2.3 Install Mahout........................................................................................46
4.3 Implementasi Metode K-Means Menggunakan Library Mahout.....................47
4.3.1 Preprocessing.........................................................................................47
4.3.2 Proses Menjalankan Komputasi K-Means.............................................50

xiii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB 5 ANALISA HASIL....................................................................................56
5.1 Analisa Implementasi K-Means Menggunakan Library Mahout Pada
Lingkungan Big Data......................................................................................56
5.2 Analisa Unjuk Kerja Implementasi K-Means Menggunakan Library Mahout
Pada Lingkungan Big Data.............................................................................58
BAB 6 PENUTUP.................................................................................................60
6.1 Kesimpulan......................................................................................................60
6.2 Saran.................................................................................................................60
DAFTAR PUSTAKA............................................................................................61
LAMPIRAN-LAMPIRAN.....................................................................................64

xiv

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR TABEL

Tabel 2.1: Metode Menjalankan Library Mahout berdasarkan algoritma
K-Means menggunakan Command Line (Mahout, 2016)..................23
Tabel 3.1: Informasi data liver disorder...............................................................26
Tabel 3.2: Spesifikasi Komputer Cluster..............................................................28
Tabel 5.1: Perbandingan hasil penghitungan manual dan library Mahout...........58
Tabel 5.2: Unjuk kerja implementasi K-Means menggunakan library
mahout pada lingkungan big data........................................................59

xv

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR GAMBAR

Gambar 2.1:

Visualisasi K-Means (The Glowing Python, 2012).........................9

Gambar 2.2:

Distribusi chunk data (Yahoo!, 2014)...........................................12

Gambar 2.3:

Yarn berfungsi sebagai ResourceManager pada sistem
Hadoop...........................................................................................15

Gambar 2.4:

Proses Task Mapper dan Task Reducer (Yahoo!, 2014)...............16

Gambar 2.5:

Proses Mapping (Yahoo!, 2014)....................................................18

Gambar 2.6:

Proses Reducing (Yahoo!, 2014)...................................................18

Gambar 2.7:

Proses Shuffle(Yahoo!, 2014).......................................................19

Gambar 2.8:

Konsep MapReduce pada library Mahout berdasarkan
algoritma K-Means (Vishnupriya N. et al., 2015).........................22

Gambar 3.1:

Flowchart pelitian..........................................................................24

Gambar 3.2:

Skema single node cluster.............................................................31

Gambar 3.3:

Skema multi node cluster...............................................................32

Gambar 4.1:

Menjalankan metode seqdumper pada command line...................48

Gambar 4.2:

Membuat direktori data dan direktori centroid pada hdfs.............49

Gambar 4.3:

Menyimpan sebuah file data trining dari sistem lokal
ke dalam HDFS..............................................................................49

Gambar 4.4:

Menyimpan sebuah file centroid pada sistem lokal
ke dalam HDFS..............................................................................50

Gambar 4.5:

Menjalankan K-Means menggunakan library Mahout..................51

Gambar 4.6:

Akhir dari iterasi K-Means............................................................51

Gambar 4.7:

Perintah $hdfs dfs -ls output..........................................................52

Gambar 4.8:

Hasil proses K-Means pada direktori /user/hduser/output.............52

Gambar 4.9:

Summary berisi ringkasan informasi DataNode............................53

Gambar 4.10: Informasi DataNode pada aplikasi NameNode Web Interface......54
Gambar 4.11: Informasi direktori /user/hduser pada HDFS.................................54
Gambar 4.12: Informasi direktori /user/hduser/data.............................................55
Gambar 4.13: Informasi file sampleseqfile..........................................................55

xvi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 5.1:

Analisa hasil K-Means menggunakan clusterdump......................57

Gambar 5.2:

Beberapa hasil analisa cluster data dengan identitas VL-27.........57

Gambar 5.3:

Beberapa hasil analisa cluster data dengan identitas VL-49.........57

Gambar 5.4:

Diagram hasil unjuk keja sistem Hadoop......................................59

xvii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR LAMPIRAN

Lampiran 1 :
Lampiran 2 :
Lampiran 3 :
Lampiran 4 :
Lampiran 5 :
Lampiran 6 :
Lampiran 7 :
Lampiran 8 :
Lampiran 9 :
Lampiran 10 :
Lampiran 11 :
Lampiran 12 :
Lampiran 13 :
Lampiran 14 :
Lampiran 15 :
Lampiran 16 :
Lampiran 17 :
Lampiran 18 :
Lampiran 19 :
Lampiran 20 :
Lampiran 21 :
Lampiran 22 :

Install Java.....................................................................................64
Konfigurasi Group Dan User Sistem Hadoop...............................66
Melakukan Disable IPv6................................................................68
Install Hadoop................................................................................68
Konfigurasi Environment Hadoop Single Node Cluster...............70
Konfigurasi Hostname, Hosts, & SSH..........................................74
Identifikasi Master Node & Slave Node........................................75
Konfigurasi Environment Hadoop Multi Node Cluster.................76
Install maven..................................................................................84
Install Mahout................................................................................85
Source code kelas KmeansDriver.java..........................................86
Source code kelas ClusterIterator.java..........................................93
Source code Kelas CIMapper.java................................................98
Source code Kelas CIReducer.java..............................................100
Source code Kelas VectorDataCreator.java................................102
Source code Kelas VectorCentroidCreator.java..........................104
Source code file core-site.xml.....................................................106
Source code file mapred-site.xml................................................107
Source code file hdfs-site.xml.....................................................108
Source code file yarn-site.xml.....................................................109
Hasil kalkulasi manual.................................................................110
Hasil K-Means dengan menggunakan library Mahout................118

xviii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB 1 PENDAHULUAN

1.1

Latar Belakang
Perkembangan data yang sangat pesat membuat organisasi mencari metode

untuk menyimpan dan mengolah data. Teknologi big data menjadi solusi untuk
menyimpan data dan juga mampu mengolah data tersebut. Hadoop merupakan
sebuah framework yang dapat menyimpan data dalam skala besar tanpa
memperhatikan struktur dari data.
Koleksi data yang besar dapat diolah dan dianalisis untuk mendapatkan
nilai atatu value pada data. Hasil analisa data tersebut berupa informasi yang dapat
dijadikan pengambilan kebijakan pada organisasi. Hadoop menggunakan konsep
pemrograman MapReduce untuk mengolah data menjadi informasi. MapReduce
mampu melakukan komputasi secara paralel dan terdistribusi pada sistem
Hadoop.
Mahout merupakan library yang menggunakan konsep pemrograman
MapReduce dan dapat beradaptasi pada sistem Hadoop. Sehingga, Mahout dapat
digunakan untuk menganalisa data dengan ukuran yang besar. Mahout
menyediakan komputasi data mining atau penambangan data untuk menganalisa
data. K-Means merupakan salah satu algoritma yang disediakan oleh Mahout. KMeans menganalisa data dengan mengelompokkan data berdasarkan kemiripan
sifat.

1

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2

1.2

Rumusan Masalah
Berikut beberapa rumusan masalah yang dapat dijadikan acuan dalam

melakukan penelititan :
1) Bagaimana mengimplementasikan K-Means clustering pada lingkungan
big data dengan menggunakan library Mahout berbasis model
pemrograman MapReduce?
2) Bagaimana unjuk kerja implementasi K-Means clustering pada lingkungan
big data?

1.3

Tujuan
Berdasarkan rumusan-rumusan masalah, maka tujuan dari penelitian dapat

dijabarkan sebagai berikut:
1) Mengimplementasikan K-Means clustering pada lingkungan big data
dengan menggunakan library Mahout berbasis model pemrograman
MapReduce.
2) Mengetahui

unjuk

kerja

implementasi

K-Means

clustering

pada

lingkungan big data.
1.4

Manfaat
Manfaat yang dapat diperoleh dari penelitian ini ialah sebagai berikut:
1) Sebagai referensi oleh instansi dan organisasi tertentu yang hendak
menyimpan dan menganalisa koleksi data yang besar.
2) Sebagai referensi bagi penelitian yang berkaitan dengan tema big data dan
penambangan data.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

3

1.5

Batasan Masalah
Batasan masalah dalam penelitian ini ialah sebagai berikut:
1) Koleksi data diperoleh dari repositori UCI Machine Learning dengan
alamat https://archive.ics.uci.edu/ml/data sets/liver+Disorders.
2) Format koleksi data ialah .CSV
3) Teknologi big data yang digunakan ialah Apache Hadoop versi 2.6.0.
4) Model pemrograman yang digunakan ialah MapReduce.
5) Library MapReduce yang digunakan ialah Apache Mahout yang berbasis
bahasa pemrograman Java.
6) Proses coding menggunakan Eclipse IDE.
7) Proses compile library Mahout menggunakan Apache Maven.
8) Proses Monitoring Hadoop Distributed File System dilakukan pada
browser Mozilla Firefox.
9) Sistem operasi yang digunakan ialah Ubuntu versi 14.04.

1.6

Metodologi Penelitian
Metodologi penelitian akan dijabarkan sebagai berikut:
1. Studi pustaka
Studi pustaka menjelaskan teori-teori yang digunakan dalam penelitian.
Adapun teori-teori yang digunakan ialah data mining, K-Means clustering,
big data, Hadoop, Hadoop Distributed File System (HDFS), Yarn,
MapReduce, dan Mahout.
2. Perancangan sistem
Perancangan sistem meliputi segala perangkat lunak dan perangkat keras
yang dibutuhkan dalam mengembangkan sistem.
3. Luaran sistem

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

4

Luaran sistem ini ialah sebuah sistem big data dengan menggunakan
menggunakan framework Hadoop. Sistem Hadoop ini berjalan pada
jaringan lokal. Library Mahout yang berjalan pada sistem Hadoop
digunakan untuk menganalisa koleksi data pada sistem Hadoop.
4. Evaluasi
Evaluasi sistem ini akan dibagi kedalam 2 bagian yakni:
a) Membandingkan hasil komputasi K-Means dengan menggunakan
library Mahout dengan menggunakan penghitungan manual. Hasil
pengujian memperlihatkan kecocokan centroid dari hasil komputasi
dengan menggunakan library Mahout berdasarkan hasil dari
penghitungan manual.
b) Menguji unjuk kerja implementasi K-Means

clustering pada

lingkungan big data. Pengujian dilakukan dengan menjalankan
komputasi K-Means menggunakan library Mahout sebanyak 10 kali
pada

jumlah

slave

node

yang

berbeda.

Hasil

pengujian

memperlihatkan rata-rata waktu eksekusi komputasi K-Means pada
jumlah slave node yang berbeda.
1.7

Sistematika Penulisan
Tugas akhir ini akan disusun ke dalam 6 bab dengan sistematika penulisan

sebagai berikut:
BAB I : PENDAHULUAN

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

5

Pendahuluan berisi tentang latar belakang, rumusan masalah, tujuan,
manfaat, batasan masalah, metode penelitian dan sistematika penulisan.
BAB II : LANDASAN TEORI
Tinjauan pustaka dan dasar teori menjelaskan teori-teori yang digunakan
dalam menyusun tugas akhir ini.
BAB III : ANALISA PERANCANGAN
Analisa perancangan menjelaskan skema perancangan implementasi KMeans pada lingkungan big data dengan menggunakan library Mahout berbasis
konsep pemrograman MapReduce. Bagian ini menjelaskan pula media-media
yang akan digunakan untuk mengembangkan sistem
BAB IV : IMPLEMENTASI
Implementasi menjelaskan tahap-tahap pengembangan sistem big data.
Bagian ini menjelaskan pula mengenai implementasi library Mahout pada sistem
Hadoop.
BAB V : ANALISA HASIL
Analisa hasil perancangan dan pengembangan sistem dibahas secara
lengkap.
BAB VI : KESIMPULAN DAN SARAN
Kesimpulan dari penelitian akan dijelaskan pada bab ini dan saran dari
peneliti untuk penelitian lebih lanjut.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB 2 LANDASAN TEORI

Bab ini membahas teori-teori yang berkaitan dengan penulisan tugas akhir
ini. Teori-teori tersebut yakni penambangan data, metode clustering, K-Means
sebagai salah satu algoritma clustering, big data, Hadoop, Hadoop Distributed
File System (HDFS), MapReduce, dan Apache Mahout.
2.1
2.1.1

Penambangan Data
Definisi Penambangan Data
Perkembangan data menjadi sebuah hal yang lumrah dewasa ini. Data pada

komputer yang terhubung melalui jaringan internet mampu mencapai ukuran
terabyte (TB) bahkan pentabyte (PB). Perkembangan data ini menghasilkan data
mentah. Sehingga organisasi tertentu berusaha untuk mencari informasi
tersembunyi pada data yang kemudian dapat digunakan untuk mengembangkan
organisasi mereka.
Penambangan data atau data mining sering disebut Knowledge Discovery
in Database (KDD) adalah kegiatan yang meliputi pengumpulan, pemakaian data
historis untuk menemukan keteraturan, pola atau hubungan dalam set data
berukuran besar. Hasil data mining ini bisa dipakai untuk memperbaiki
pengambilan keputusan di masa depan (Santosa, 2007).

6

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

7

2.1.2

Clustering
Clustering merupakan salah satu metode pada penambangan data. Tujuan

utama dari metode clustering ialah mengelompokkan sejumlah objek data ke
dalam sebuah cluster atau grup. Sebuah objek pada sebuah cluster memiliki
kemiripan yang sama dengan objek lain dan sebuah objek memiliki perbedaan
dengan objek pada cluster lain. Clustering menggunakan teknik unsupervised
learning yang digunakan untuk mengelompokkan data atau objek ke dalam
kelompok tertentu tanpa adanya label cluster sebelumnya. Teknik ini baik
digunakan pada koleksi data yang tidak memiliki label sebelumnya. Sedangkan
untuk data yang memiliki label, teknik ini dapat dijadikan sebagai pembanding
antara hasil clustering dengan label sebenarnya. Sehingga diketahui tingkat
akurasi pada metode clustering tersebut. Teknik yang membutuhkan data label
disebut supervised learning. Metode yang digunakan dalam menentukan
kemiripan antar objek ialah dengan menghitung jarak terpendek. Salah satu
metode untuk menghitung jarak terpendek ialah Euclidean Distance.
Dalam matematika, Euclidean Distance adalah jarak antara dua titik yang
dapat diukur menggunakan formula pythagoras. Euclidean Distance sering disebut
sebagai dengan vector geometri yang memiliki panjang (magnitude) dan arah
(direction). Sedangkan ruang vektor adalah sebuah struktur matematika yang
dibentuk oleh sekumpulan vektor. Vektor-vektor tersebut dapat ditambahkan
dikalikan dengan bilangan real dan lain-lain (Prasetya, 2013).
Jarak antar vektor atau panjang vektor dapat didefinisikan sebagai berikut

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

8

‖A‖=√ X 12 +Y 12 dan ‖B‖=√ X 22+Y 22

Sedangkan untuk menghitung kedua jarak antara kedua vektor tersebut
2
2
ialah sebagai berikut: d ( ¯A , ¯B)=√(X 1− X 2) +(Y 1−Y 2)

2.1.2.1 KMeans
K-Means merupakan salah satu algoritma penambangan data yang
menerapkan metode clustering. Jika diberikan sekumpulan data X = {x1, x2, ...,
xn} dimana xi = (xi1, xi2, ..., xin) adalah vector, maka algoritma K-Means akan
mempartisi x dalam k buah cluster (Prasetya, 2013). Sehingga proses awal dalam
menggunakan algoritma ini ialah dengan menentukan jumlah cluster atau K
terlebih dahulu. Pengelompokkan objek berdasarkan ukuran jarak terpendek
dengan pusat cluster atau centroid (Han J. et al., 2000).
Algoritma K-Means dapat diterangkan melalui pseudocode berikut
(Santosa, 2007):
1) Langkah pertama ialah memilih jumlah cluster atau K.
2) Inisialisasi K pusat kelompok atau pemilihan nilai awal centroid dilakukan
dengan cara random.
3) Penentuan kemiripan antar objek dilakukan dengan menghitung jarang
terdekat antara objek. Demikian untuk penentuan suatu objek dengan
centroid tertentu. Tahap ini menghitung jarak suatu objek dengan
centroid. Jika suatu objek memiliki jarak terpendek dengan centroid A
maka objek tersebut akan dikelompokkan pada kelompok centroid A.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

9

4) Penentuan centroid baru kembali dilakukan dengan cara menghitung nilai
rata-rata dari semua objek pada kelompok tertentu.
5) Objek pada setiap cluster dikelompokkan berdasarkan centroid baru.
Langkah 3 dan 4 kembali dilakukan sampai nilai centroid tidak mengalami
perubahan.
Gambar 2.1 memperlihatkan masing-masing objek dikelompokkan
berdasarkan kemiripan dengan centroid. Centroid ditandai dengan dengan objek
data berwarna ungu. Sedangkan kemiripan objek ditandai dengan warna yang
sama.

Gambar 2.1: Visualisasi K-Means (The Glowing Python, 2012).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

10

2.2

Big Data

2.2.1

Definisi Big Data
Big data dapat diartikan sebagai sebuah koleksi atau kumpulan data yang

besar dan kompleks. Berdasarkan perkembangannya, big data memiliki 3 dasar
definisi yakni volume, velocity, dan variety (Rathi R. et al., 2014).
1) Volume
Volume menjelaskan bahwa big data memiliki ukuran data yang besar.
Kumpulan data seperti data kesehatan merupakan jenis data yang sesuai
dengan konsep big data karena data tersebut terus berkembang (Rathi R. et
al., 2014). Teknologi big data hadir untuk menyimpan data-data yang
belum diketahui nilai bisnisnya dan dalam volume besar, platform berbasis
big data seperti Hadoop memberikan solusi (Data Science Indonesia,
2015).
2) Variety
Sebuah organisasi mampu menghasilkan data yang berbeda. Antar
departemen tertentu mungkin memiliki sistem basisdata yang berbeda
sehingga mampu menghasilkan jenis data yang berbeda. Data yang
dihasilkan dapat berupa data terstruktur, data semistruktur, dan data tidak
terstruktur. Data terstruktur merupakan data yang tersimpan dalam kolom
dan baris seperti data dengan format CSV (Comma Separated value). Data
semistruktur merupakan jenis data yang dapat dihasilkan dari sistem
database contohnya log data. Sedangkan data tidak terstruktur biasanya

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

11

berupa data teks lainnya, data gambar, data suara, dan data video (Ronk, J.
2014).
3) Velocity
Data velocity atau kecepatan data berbanding lurus dengan volume data.
Data tidak hanya datang dalam jumlah besar, tetapi juga dalam tempo
yang lebih singkat dan bahkan ada yang real-time. Hal ini menjadi
tantangan pada teknologi big data (Data Science Indonesia, 2015).
2.3

Hadoop

2.3.1

Definisi Hadoop
Apache Hadoop software library adalah sebuah framework yang sesuai

digunakan untuk proses terdistribusi dari kumpulan data yang besar pada
komputer cluster dengan model-model pemrograman yang sederhana (Apache,
2015). Hadoop merupakan open source framework yang dikembangkan oleh
Apache Software Foundation. Hadoop digunakan untuk memproses kumpulan
data yang besar dalam sebuah server paralel komputer (Rathi R. et al., 2014).
Hadoop dikembangkan untuk memproses skalabilitas data web atau web-scale
data yang mampu mendistribusikan data dengan kapasitas ukuran yang besar.
Hadoop menggunakan komputer server paralel atau multi-node cluster (Yahoo!,
2014).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

12

2.3.2

Hadoop Distributed File System
Pada cluster Hadoop, data didistribusikan ke seluruh node. Hadoop

Distributed File System (HDFS) akan membagi data yang besar ke dalam chunk
yang dikelola oleh setiap node pada cluster. Setiap chunk akan direplikasi pada
beberapa mesin komputer. Sehingga jika sebuah komputer atau node mengalami
kegagalan (failure) maka data masih dapat diakses pada komputer lain. Gambar
2.2 menunjukkan data didistribusikan pada seluruh node saat proses load (load
time). Meskipun file chunk direplikasi dan didistribusikan ke setiap mesin
komputer, namun chunk tersebut memiliki namespace yang tunggal.

Gambar 2.2: Distribusi chunk data (Yahoo!, 2014).

Data pada Hadoop programming framework menggunakan konsep recordoriented. Setiap input file akan dipecah dalam baris atau format lain yang spesifik
pada aplikasi. Setiap proses berjalan pada sebuah node dalam keseluruhan cluster

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

13

kemudian akan memproses subset dari record tersebut. Hadoop kemudian
menjadwalkan proses-proses tersebut di berdasarkan kedekatan lokasi data/
record menggunakan konsep kerja dari sistem file terdistribusi. Sejak file-file
tersebar pada sistem file terdistribusi sebagai chunk, setiap proses komputasi yang
berjalan pada sebuah node beroperasi pada sebuah subset dari data. Data yang
dioperasikan oleh sebuah node dipilih berdasarkan locality dari node: data paling
banyak dibaca dari disk lokal langsung ke CPU, untuk mengurangi ketegangan
bandwidth jaringan dan mencegah transfer jaringan yang tidak perlu. Locality
data yang tinggi ini menjadi sebuah keunggulan pada Hadoop (Yahoo!, 2014).
HDFS memiliki 2 tipe operasi node yakni service NameNode pada master
node dan service DataNode pada slave node. NameNode bertugas dalam
mengatur namespace sistem file. NameNode mengatur susunan sistem file dan
metadata untuk semua file dan direktori pada susunan tersebut. Informasi tersebut
disimpan pada local disk kedalam 2 bentuk file yakni namespase image dan edit
log. NameNode juga mengetahui proses kerja dari DataNode, seperti letak lokasi
dari block data (chunk). Namun NameNode tidak bertugas dalam menyimpan data
tersebut, DataNode berfungsi sebagai tempat kerja dari sistem file. DataNode
bertugas menyimpan dan menerima block data ketika mendapatkan perintah dari
pengguna atau NameNode. DataNode melaporkan kepada NameNode secara
periodik tentang daftar block data yang disimpan.
Tanpa NameNode, HDFS tidak dapat digunakan. Jika NameNode
dihilangkan, maka semua file pada HDFS akan hilang karena sistem tidak

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

14

membaca susunan block data pada DataNode. HDFS memiliki sebuah service
Secondary

NameNode. Tugas

utama

dari

secondary

NameNode

ialah

menggabungkan namespace image dengan edit log untuk mencegah edit log
berukuran sangat besar. Secondary NameNode membutuhkan memory yang
hampir sama besar dengan NameNode. Secondary NameNode membuat gabungan
file tersebut agar dapat digunakan ketika NameNode mengalami kegagalan
(White, 2015).
2.3.3

Yarn
Apache Yarn (Yet Another Resource Negotiator) merupakan sistem

manajemen sumber daya atau ResourceManager pada sistem Hadoop cluster.
Gambar 2.3 menjelaskan bahwa Yarn memegang peran yang sangat penting pada
sistem Hadoop. Komponen utama dari Yarn ialah service ResourceManager dan
NodeManager. ResourceManager bertugas mengatur semua sumber daya
pemrosesan data pada sistem Hadoop. ResourceManager bertugas menjadwalan
sumber daya dalam menjalankan aplikasi. Secara teknik, Yarn bertugas dalam
menangani permintaan sumber daya, penjadwalan permintaan, dan kemudian
menetapkan

sumber

daya

untuk

aplikasi

ResourceManager berjalan pada master node.

yang

meminta.

Adapun

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

15

Gambar 2.3: Yarn berfungsi sebagai ResourceManager pada sistem Hadoop

Sedangkan NodeManager berjalan pada slave node. NodeManager betugas
mencari sumber daya yang memungkinkan untuk memproses data pada slave
node

dan

mengirimkan

laporan

aktivitas

secara

periodik

kepada

ResourceManager. Sumber data proses pada sistem Hadoop membutuhkan
potongan bite-size yang disebut containers. Container adalah sebuah koleksi dari
semua sumber daya yang diperlukan untuk menjalankan aplikasi seperti CPU
cores, memory, network bandwidth, dan ruang pada disk. Container bersifat umum
atau generic sehingga dapat menjalankan berbagai jenis model komputasi, selama
sumber daya yang diperlukan cukup untuk menjalankan model komputasi
tersebut. Semua proses Container yang berjalan pada slave node dimonitor oleh
service NodeManager pada slave node (deRoos, D. et al., 2014).
2.4
2.4.1

MapReduce
Definisi MapReduce
Hadoop mengurangin komunikasi yang dapat dikerjakan oleh sebuah

proses. Setiap record diproses oleh sebuah task yang terisolasi dari task yang lain.
Model pemrograman yang digunakan untuk manajemen data disebut MapReduce.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

16

Pada MapReduce, record diproses dalam sebuah task yang disebut Mapping.
output dari Mapping task akan dibawa dan diproses pada task kedua yang disebut
sebagai Reducing, dimana hasil dari Mapping yang berbeda akan digabung
(Yahoo!, 2014).
Gambar 2.4 menunjukkan task Mapper dan task Reducer berjalan pada
node-node dimana record dari data telah tersedia. Node-node yang terpisah dalam
cluster Hadoop masih berkomunikasi antara satu dengan yang lain. Pecahan data
diberi tag atau tanda dengan sebuah key yang bertujuan menginformasikan
Hadoop bagaimana mengirim data (bit of information) ke node tujuan. Hadoop
secara internal mengelola semua transfer data dan masalah topologi cluster
(Yahoo!, 2014).

Gambar 2.4: Proses Task Mapper dan Task Reducer (Yahoo!, 2014).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

17

2.4.2

Proses MapReduce
Fase pertama dari program MapReduce disebut mapping. Sebuah list

elemen data melalui sebuah fungsi yang disebut Mapper yang akan
mentransformasikan setiap elemen individual ke elemen data output. Fungsi
Mapper tidak memodifikasi list input string tetapi menghasilkan sebuah string
baru yang menjadi bagian dari sebuah list output yang baru (Yahoo!, 2014).
Setiap element data output akan dipecah ke dalam sebuah pasangan data key dan
value (DeZyre, 2015). Key berfungsi sebagai identitas unik pada data, sedangkan
value merupakan nilai dari data itu sendiri.
Gambar 2.5 menunjukkan task Mapping membuat sebuah list output yang
baru pada seluruh list data elemen input. Reducing memungkinkan pengumpulan
value bersama. Fungsi Reducer menerima sebuah iterator dari value masukkan
(input value) dari sebuah list input. Kemudian Reducer task menggabungkan
nilai-nilai ini bersama. Reducer task mengembalikan nilai output tunggal.
Reducing sering digunakan untuk menghasilkan data summary atau mengubah
sebuah volume data yang besar menjadi sebuah summary yang lebih kecil. Salah
satu contoh dengan mengunakan operasi “+” sebagai sebuah fungsi reducing
untuk mengembalikan nilai jumlah list dari value input.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

18

Gambar 2.5: Proses Mapping (Yahoo!, 2014).

Gambar 2.6 menunjukkan Proses reducing sebuah iterasi list pada seluruh
value masukkan untuk menghasilkan sebuah kumpulan value sebagai output.

Gambar 2.6: Proses Reducing (Yahoo!, 2014).

Dalam MapReduce, tidak ada value yang berdiri sendiri. Setiap value
memiliki key yang berasosiasi. key bertugas untuk mengidentifikasi value. Fungsi
mapping dan reducing tidak hanya menerima value, tetapi pasangan key dan
value. Sebuah fungsi reducing berfungsi untuk mengubah sebuah list dari value
yang besar ke dalam sebuah (atau beberapa) value output. Semua output value
tidak mengalami proses reduce bersamaan. Tetapi semua value yang memiliki key

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

19

sama yang akan mendapatkan proses reduce bersama (Yahoo!, 2014). Proses ini
biasa disebut shuffle task. Hal ini dikarenakan semua value yang memiliki key
yang sama akan dikelompokkan sebelum melalui proses reduce (Voruganti, S.,
2014).
Gambar 2.7 memperlihatkan bahwa warna berbeda mereprentasikan key
berbeda. Semua value dengan key sama akan dipresentasikan ke dalam sebuah
task reduce tunggal.

Gambar 2.7: Proses Shuffle(Yahoo!, 2014).

2.5

Apache Mahout
Mahout memiliki tiga kualitas yang dapat dijelaskan sebagai berikut.

Pertama, Mahout merupakan library machine learning dari Apache. Mahout
memiliki dasar komputasi yakni recommender engine, clustering, dan
classification. Selain itu, Apache Mahout bersifat scalable. Apache Mahout dapat
digunakan sebagai pilihan alat machine learning ketika koleksi data yang akan
diproses sangat besar yang ukurannya tidak dapat disimpan dalam sebuah
komputer. Mahout ditulis dengan menggunakan bahasa Java dan beberapa dari

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

20

Mahout dikembangkan pada proyek komputasi Apache’s Hadoop Distributed.
Oleh karena Mahout merupakan sebuah library Java. Sehingga library ini tidak
menyediakan sebuah antarmuka pengguna atau user interface, prepackaged
server, dan sebuah installer. Mahout merupakan sebuah framework yang cocok
digunakan dan diadaptasikan oleh pengembang.
Mahout menempatkan skalabilitas pada prioritas yang paling tinggi.
Metode machine learning yang mutakhir diterapkan pada level skalabititas.
Library Mahout yang bersifat open source atau sumber terbuka digunakan pada
lingkungan Hadoop, sehingga Mahout mampu menggunakan konsep komputasi
MapReduce (Owen, S. et al., 2012).
2.5.1

Konsep MapReduce Pada Library Mahout Berdasarkan Algoritma
K-Means
Berdasarkan penelitian Vishnupriya, N. dan Francis, S. (2015), proses

algorima K-Means clustering pada library Mahout yang menggunakan konsep
pemrograman MapReduce dapat dijabarkan ke dalam beberapa fase:
1) Initial
Data yang diinputkan dapat dipecah ke dalam beberapa sub koleksi data.
Daftar sub koleksi data akan mengalami perubahan format .
Daftar sub koleksi data tersebut akan diinputkan ke dalam funsi map.
Proses selanjutnya ialah mengenali inisial centroid. Adapun dalam
penelitian ini data centroid yang diinput secara manual. Sedangkan dalam

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

21

penelitian Vishnupriya, N. et al. (2015), inisial centroid dipilih secara
random pada koleksi data.
2) Mapper
Pada fase Mapper, proses dilanjutkan dengan menghitung jarak antara
setiap item data dengan K centroid. Penghitungan jarak terdekat dilakukan
pada selutuh item data. Luaran dari penghitungan ialah item data dengan
format . ai merupakan pusat dari kelompok (cluster) data zj.
3) Reducer
Proses dilanjutkan pada pada fase Reducer. Proses pertama yang dilakukan
ialah membaca luaran item data dari fase Mapper. Selanjutnya,
setiap item data dikumpulkan menjadi sebuah record. Proses selanjutkan
menghitung nilai rata-rata dari setiap item data. Luaran dari proses akan
digunakan sebagai nilai centroid baru. Selanjutnya, sistem akan
menghitung nilai centroid baru dengan centroid sebelumnya pada cluster
atau kelompok yang sama. Jika nilai centroid tersebut lebih kecil daripada
nilai threshold maka dapat disimpulkan bahwa jumlah iterasi telah
mencaapi maksimal. Algoritma tersebut akan dihentikan. Sedangkan,
centroid klaster yang baru akan digunakan untuk memperbaharui nilai
centroid sebelumnya, Berdasarkan penelitian Esteves, M. R. et al. (2011),
nilai konvergen threshold akan menentukan kondisi berhentinya proses KMeans. Jika dalam iterasi tertentu, pusat kluster tidak berubah melebihi
threshold, maka proses iterasi dihentikan.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

22

Berdasarkan penelitian Vishnupriya, N. dan Francis, S. (2015), maka
konsep K-Means pada library Mahout dengan menggunakan model pemrograman
MapReduce dapat visualisasikan pada gambar 2.8.

Gambar 2.8: Konsep MapReduce pada library Mahout berdasarkan algoritma KMeans (Vishnupriya N. et al., 2015)

2.5.2

Metode Menjalankan Library Mahout
Berdasarkan website resmi Mahout (2016), library Mahout dapat berjalan

pada sistem lokal atau pun pada Hadoop Distributed File System (HDFS). Metode
yang digunakan dalam menjalankan library Mahout ialah melalui command line.
Metode yang digunakan untuk menjalankan perintah K-Means ialah dengan
menjalankan perintah $mahout kmeans pada command line lalu diikuti dengan
parameter pada yang tertera pada tabel 2.1.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

23

Tabel 2.1: Metode Menjalankan Library Mahout berdasarkan algoritma KMeans menggunakan Command Line (Mahout, 2016)
Perintah

Penjelasan

--input atau -i

Merupakan alamat file input yang harus berupa
Sequence File

--clusters atau -c

Merupakan alamat input file centroid yang harus berupa
sequence file

--output atau -o

Merupakan alamat file output yang harus berupa
Sequence File

--distanceMeasure atau Algoritma pengukuran jarak.
-dm
--convergenceDelta
atau -cd

Nilai konvergen merupakan nilai untuk menetukan
proses iterasi berhenti. Secara default, convergen delta
bernilai 0.5

--maxIter (-x) maxIter

Jumlah maksimal iterasi

--maxRed (-r) maxRed Jumlah Task Reducin. Secara default, bernilai 2
--k (-k) k

Nilai jumlah kelompok data atau cluster

--overwrite (-ow)

Jika direktori ada, maka perintah ini akan menghapus
direktori tersebut, sebelum menjalankan perintah atau
Job.

--help (-h)

Menampilkan informasi help

--clustering (-cl)

Jika job berjalan maka jalankan proses clustering
setelah iterasi berjalan.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB 3 ANALISA PERANCANGAN

Bab ini akan menjabarkan tentang mekanisme perancangan sistem yang
dibagi dalam gambaran penetilian, kebutuhan sistem, dan skema sistem big data.
3.1

Gambaran Penelitian

Gambar 3.1: Flowchart pelitian
Gambar 3.1 menunjukkan gambaran proses pada penelitian yang
divisualisasikan dalam diagram flowchart.

24

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

25

3.1.1

Data
Peneliti menggunakan sumber data atau dataset dari bank data UCI

Machine Learning mengenai liver Disorders Data Set. Berikut beberapa informasi
mengenai data Liver Disorders:
1. Judul data ialah Liver Diorders
2. Beberapa informasi dataset yakni:
a. Data diciptakan oleh BUPA Medical Research Ltd.
b. Penyumbang data ialah Richard S. Forsyth, 8 Grosvenor Avenue,
Mapperley Park, Nottingham NG3 5DX, 0602-621676.
c. Data dibuat pada tanggal 15 Mei 1990.
3. Lima variabel pertama ialah hasil tes darah yang dianggap sensitif untuk
penyakit liver disorder atau kelainan hati yang kemudian konsumsi
alkohol menjadi salah satu penyebab. Setiap baris pada file bupa.data
merupakan hasil uji coba pada seseorang pria.
4. Baris data berjumlah 345 baris.
5. Atribut data berjumlah 7.
6. Beberapa informasi dari atribut data:

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

26

Tabel 3.1: Informasi data liver disorder

No

Atribut

Keterangan

1.

mcv

mean corpuscular volume yaitu rata-rata volume
korpuskuler darah

2.

alkphos

alkaline phosphotase yaitu kadar alkali fosfat dalam
darah

3.

sgpt

alamine aminotransferase yaitu kadar alamin
aminotransferase dalam darah

4.

sgot

aspartate aminotransferase yaitu kadar aspartat
aminotrasferase dalam dar

Implementasi K Means Clustering pada lingkungan big data menggunakan model pemrograman MapReduce

Dokumen yang terkait

Implementasi K-Means Clustering pada lingkungan big data menggunakan model pemrograman MapReduce.

Analisis sentimen data twitter menggunakan K-Means Clustering.

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Optimasi K Means Clustering Menggunakan

Penerapan Metode K Means Clustering Data (1)

ANALISIS IMPLEMENTASI ALGORITMA MAPREDUCE K-MEANS CLUSTERING PADA HADOOP ANALYSIS THE IMPLEMENTATION OF MAPREDUCE K-MEANS CLUSTERING ALGORITHM IN HADOOP

SINKRONISASI DATA DENGAN PEMROSESAN PARALEL MENGGUNAKAN MODEL PEMROGRAMAN MAPREDUCE

ANALISIS JUDUL MAJALAH KAWANKU MENGGUNAKAN CLUSTERING K-MEANS DENGAN KONSEP SIMULASI BIG DATA PADA HADOOP MULTI NODE CLUSTER

Clustering Data Polutan Udara Kota Pekanbaru dengan Menggunakan Metode K-Means Clustering

Kata kunci : Data Mining, K-Means Clustering,

Dukungan

Links

Implementasi K Means Clustering pada lingkungan big data menggunakan model pemrograman MapReduce

Dokumen yang terkait

Implementasi K-Means Clustering pada lingkungan big data menggunakan model pemrograman MapReduce.

Analisis sentimen data twitter menggunakan K-Means Clustering.

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Optimasi K Means Clustering Menggunakan

Penerapan Metode K Means Clustering Data (1)

ANALISIS IMPLEMENTASI ALGORITMA MAPREDUCE K-MEANS CLUSTERING PADA HADOOP ANALYSIS THE IMPLEMENTATION OF MAPREDUCE K-MEANS CLUSTERING ALGORITHM IN HADOOP

SINKRONISASI DATA DENGAN PEMROSESAN PARALEL MENGGUNAKAN MODEL PEMROGRAMAN MAPREDUCE

ANALISIS JUDUL MAJALAH KAWANKU MENGGUNAKAN CLUSTERING K-MEANS DENGAN KONSEP SIMULASI BIG DATA PADA HADOOP MULTI NODE CLUSTER

Clustering Data Polutan Udara Kota Pekanbaru dengan Menggunakan Metode K-Means Clustering

Kata kunci : Data Mining, K-Means Clustering,

Dokumen yang Anda mencari sudah siap untuk unduhkan