Analisis Perbandingan Kinerja Algoritme Fair Share Scheduling Dengan Capacity Scheduling Terhadap Pengiriman Job Pada Hadoop Cluster Multinode
Vol. 2, No. 9, September 2018, hlm. 3086-3095 http://j-ptiik.ub.ac.id
Analisis Perbandingan Kinerja Algoritme Fair Share Scheduling Dengan
Capacity Scheduling Terhadap Pengiriman Job Pada Hadoop Cluster
1 Multinode 2 3 Friska Anggia Nurlita Sari , Adhitya Bhawiyuga , Achmad BasukiProgram Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya
1
2
3 Email: [email protected], [email protected], a [email protected]
Abstrak
Hadoop merupakan sebuah framework berbasis open-source digunakan untuk pengolahan data dengan skala besar dan tersimpan dalam sekelompok komputer yang saling terhubung dalam suatu jaringan secara terdistribusi. Hadoop terdapat beberapa algoritme penjadwalan untuk mengatur antrian job yang masuk, job yang telah dikirim oleh pengguna akan saling berkompetisi untuk merebutkan suatu resource yang tersedia. Sehingga perlu adanya algoritme penjadwalan yang bertugas mengatur jalannya job pada sebuah resource serta mengelola pemrosesan data agar hasil yang dikeluarkan sesuai dengan apa yang diharapkan. Penelitian ini dilakukan untuk mengetahui perbandingan dari kinerja algoritme Fair Share
Scheduling dan Capacity Scheduling pada pengiriman job pada Hadoop multinode untuk mengetahui
nilai dari parameter Job Fail Rate, Latency, dan Throughput. Capacity Scheduling mendukung antrian secara hirarki yaitu dapat membagi resource yang tersedia pada cluster ke beberapa antrian. Fair Share
Scheduling adalah metode alokasi pembagian resource pada antrian secara adil untuk seluruh job yang
masuk pada antrian. Berdasarkan hasil pengujian yang telah dilakukan, memiliki nilai minimal Job Fail
Rate yang lebih baik dibandingkan Fair Share Scheduling sebesar 0,99%. Fair Share Scheduling
memiliki nilai minimal Latency yang lebih baik sebesar 19,25 menit. Sedangkan nilai Throughput pada lebih cepat sebesar 0,47 Mbit/s.
Fair Share Scheduling
Kata kunci : Hadoop, Hadoop Multinode, Fair Share Scheduling, Capacity Scheduling, Job Fail Rate, Latency,
dan Throughput.
Abstract
Hadoop is a framework based on an open-source which is used for a data processing in a large scale
and stored in a group of interconnected computers that are connected in a network which are
distributed. Hadoop there are several scheduling algorithms to set the incoming job queue, jobs that
have been submitted by the user will compete for a resource available. So the need for a scheduling
algorithm in charge of managing the job on a resource and managing the data processing so that output
issued in accordance with what is expected. This research was conducted to find out the comparison of
performance of Fair Share Scheduling and Capacity Scheduling algorithm on job delivery on Hadoop
multinode to know the value of Job Fail Rate, Latency, and Throughput parameters. Capacity
Scheduling supports the queue in a hierarchy that is able to divide the available resources in the cluster
into multiple queues. Fair Share Scheduling is a fair allocation of resource allocation methods for
queues for all jobs that enter the queue. Based on the results of tests that have been done, has a minimum
value of Job Failed Rate is better than Fair Share Scheduling of 0.99%. Fair Share Scheduling has a
minimum value of better Latency of 19.25 minutes. While the value of Throughput on Fair Share
Scheduling faster by 0.47 Mbit/s.
Keywords : Hadoop, Hadoop Multinode, Fair Share Scheduling, Capacity Scheduling Job Fail Rate, Latency, dan
Throughput.peningkatan suatu data yang akan terus 1. bertambah. Besarnya suatu data inilah disebut
PENDAHULUAN
Dengan besarnya kebutuhan data yang dengan istilah Big Data justru tidak berjalan digunakan pada saat ini maka terjadi seimbang dengan bagaimana kecepatan data itu
Fakultas Ilmu Komputer Universitas Brawijaya
3086 diolah dan diproses. Dengan semakin rumitnya pengelolahan data dalam jumlah yang sangat besar tersebut, dapat diatasi dengan menggunakan Hadoop. Hadoop merupakan sebuah framework yang digunakan untuk pengolahan data dengan skala besar dan tersimpan dalam sekelompok komputer yang saling terhubung dalam suatu jaringan secara terdistribusi dan berjalan diatas cluster.
Big data merupakan sekumpulan data yang
sistem untuk mendapatkan hasil berupa grafik nilai yang dilakukan untuk perbandingan kinerja antara kedua algoritme tersebut.
HDFS sebagai direktori komputer dimana data Hadoop disimpan. HDFS umumnya diklasifikasikan menjadi dua bagian yang disebut dengan namenode dan datanode. Namenode terletak pada server induk yang digunakan untuk mengelola sistem file namespace seperti membuka, menutup, mengganti nama file atau direktori dan juga digunakan untuk mengatur akses file yang dilakukan oleh slave. Datanode digunakan untuk menyimpan data atau file. Pada datanode dalam satu file dibagi menjadi beberapa blok file biasanya setiap blok file berukuran 128 MB. Setiap blok file akan direplikasi di datanodes,
2.1.1 HDFS ( Hadoop Distributed File System)
(HDFS), MapReduce, dan Yet Another Resource Negotiator (YARN).
Distributed File System
yang digunakan seseorang untuk melakukan pembuatan penulisan perintah (write) dan menjalankan (run) aplikasi pemrosesan data dalam jumlah besar. Ada 3 komponen penyusun Hadoop yaitu Hadoop
analytic engine
e berbasis java dibawah lisensi Apache yang digunakan sebagai pengolah data yang berukuran besar dan desain sistem file secara terdistribusi. Hadoop ini berjalan diatas cluster yang saling terhubung dengan beberapa komputer lainnya. Hadoop disebut juga sebagai
sourc
Hadoop merupakan suatu framework open
2.1 Hadoop
2. TINJAUAN KEPUSTAKAAN
Throughput sebagai acuan perhitungan kinerja
kompleks dan berskala besar melebihi kapasitas pemrosesan sistem database sehingga sangat sulit untuk diproses dengan cara pemrosesan data secara konvesional (Edd Dumbill,2012). Pada Big Data dikenal istilah 3V yaitu Volume,
Pengujian ini dilakukan dengan 3 skenario pengujian yang berbeda berdasarkan pada variabel bebas dan variabel tetap. Untuk skenario pengujian pertama menggunakan variabel bebas yaitu variasi ukuran data dan variabel tetap yaitu jumlah job dan jenis job. Skenario pengujian kedua menggunakan variabel bebas yaitu variasi jumlah job dan variabel tetap yaitu ukuran data dan jenis job. Skenario pengujian ketiga menggunakan variabel bebas yaitu variasi jenis job dan variabel tetap yaitu ukuran data dan jumlah job. Pada pengujian ini akan menggunakan parameter pembanding yaitu Job Fail Rate, Latency, dan
mendukung antrian secara hirarki yaitu dapat membagi resource yang tersedia pada cluster ke beberapa antrian dan terdapat fitur prediksi job sehingga dapat meminimalkan nilai failed pada job yang akan dijalankan (Tom White, 2015). Dengan melakukan perbandingan tersebut bertujuan untuk mengetahui kinerja terbaik diantara kedua algoritme penjadawalan tersebut pada pengiriman job pada cluster Hadoop berdasarkan pada parameter pengujian yang telah digunakan.
resource pada antrian secara adil untuk seluruh job yang masuk pada antrian. Capacity Scheduling
adalah metode alokasi pembagian
Scheduling dan Capacity Scheduling. Fair Share Scheduling
Penelitian ini akan membandingan dua algoritme penjadwalan yaitu Fair Share
System (HDFS) dan Yet Another Resource Negotiator (YARN). MapReduce merupakan model pemrograman yang digunakan untuk melakukan pemrosesan data dengan skala besar. HDFS merupakan sistem file terdistribusi yang digunakan sebagai tempat penyimpanan dan pengolahan data berukuran besar. YARN digunakan untuk mengatur sumber daya komputasi dalam cluster dan scheduling Hadoop. Untuk melakukan pengolahan data yang besar diperlukan sebuah pemrosesan terhadap job. Jumlah job yang harus dieksekusi harus lebih besar dari jumlah mesin yang tersedia. Sehingga kondisi ini harus membutuhkan sebuah antrian. Untuk memilih salah satu job yang harus dieksekusi dalam sebuah antrian maka diperlukan scheduling.
Distributed File
Pada Hadoop terdapat tiga komponen utama didalamnya yaitu MapReduce, Hadoop
pada jumlah ukuran data, Variety yaitu jenis atau tipe data yang akan dikelola kompleksitasnya, sedangan pada Velocity yaitu kecepatan pada pemrosesan data (Azzeddine, 2015).
Variety, dan Velocity. Volume disini mengacu
replica ini diwakili oleh dua file dalam file sistem pada localhost.
2.1.2 MapReduce
keseluruhan resource yang ada pada cluster tersebut.
memungkinkan untuk job dijalankan secara default, tetapi juga memungkinkan untuk melakukan pembatasan pengguna yang sedang menjalankan job melalui
Share Scheduling
digunakan untuk membagi setiap job agar mendapatkan resource yang sama dengan job yang lainnya dari waktu ke waktu.. Dalam Fair
2.3 Algoritme Fair Share Scheduling Fair Share Scheduling merupakan metode yang
MapReduce merupakan model pemrograman untuk pemrosesan data berskala besar. MapReduce sebagai sistem yang mendasari untuk melakukan partisi input data, membuat jadwal eksekusi program di beberpa mesin,
Pada gambar tersebut terdapat satu jenis
pool atau queue. Fair Share Scheduling adalah
metode alokasi pembagian resource pada antrian secara adil untuk seluruh job yang masuk pada antrian. Ketika pengguna men-submit job 1, maka job tersebut akan menggunakan semua
resource yang tersedia karena tidak terdapat
permintaan pada job lain. Kemudian pengguna mensubmit job 2 pada antrian meskipun job 1 masih berjalan, maka setelah beberapa saat pada masing-masing job akan menggunakan setengah dari resource yang tersedia. Jadi setiap job pada
queue akan mendapat setengah dari total
disk , jaringan) dan melaporkan ke ResourceManager.
tersebut berguna jika pengguna yang mengirimkan job kedalam cluster dengan jumlah yang sangat banyak. Karena terlalu banyak data dan konteks-switching sehingga mengakibatkan kinerja dari Fair Share Scheduling semakin melambat. Dengan melakukan pembatasan job ini tidak menyebabkan job tersebut gagal, hanya saja harus menunggu dalam antrian sampai beberapa job dari pengguna sebelumnya telah selesai dilakukan (Apache,2016).
yang digunakan untuk mengalokasikan resource ke berbagai job yang sedang berjalan sesuai dengan batasan kapasitas antrian, batas pengguna. Pada node manager yang berjalan pada semua node yang terdapat pada cluster untuk memulai dan memantau container, memantau penggunaan resource (cpu, memori,
Resourcemanager dan Nodemanager. Pada resource manager mempunyai scheduler cluster
YARN merupakan salah satu komponen tambahan yang terdapat pada Hadoop versi 2. YARN merupakan sebuah platform pengolahan data yang secara umum disediakan oleh Hadoop untuk meningkatkan kemampuan MapReduce. Komponen dalam YARN adalah
2.1.3 YARN (Yet Another Resource Negotiator)
juga melakukan eksekusi tugas dan melaporkan status terbaru kepada Job Tracker dengan mengirimkan pesan heartbeat dan mengirimkan hasil terakhirnya (Ruchi, 2015).
job tersebut kedalam mapreduce task. TaskTracker
ke TaskTracker. TaskTracker untuk menerima job dari Job Tracker dan memutuskan
submit oleh slave dan juga menangani distribusi job
serta mengkoordinasi semua job yang telah di
Tracker dan TaskTracker. Job Tracker adalah master dari TaskTracker yang mengatur jadwal
Komponen utama dari MapReduce adalah Job
handling kegagalan mesin, dan mengatur komunikasi yang diperlukan antar mesin.
file yang telah dikonfigurasi. Pembatasan job
2.2 Hadoop Multinode
Sedangkan pada komputer slave menjalankan
SecondaryNameNode, dan ResourceManager.
pada Hadoop multinode ini dapat melakukan pengiriman job oleh beberapa pengguna secara bersama-sama. Pada HDFS, komputer master ini menjalankan namenode, jps,
slave menggunakan 5 buah komputer. Sehingga
. Pada Hadoop multi node ini, komputer
slave
Hadoop multinode menggunakan gabungan dari 2 mesin server single node, 1 mesin untuk komputer master dan 1 mesin untuk komputer
Gambar 1. Sistem kerja job Fair Share Scheduling Sumber : Tom White (2015)
2.4 Algoritme Capacity Scheduling Capacity Scheduling merupakan sebuah
algoritme penjadwalan pada YARN yang terdapat fitur queuing priority, sub-queue, dan dan prediksi kesalahan pada job. Pada suatu
queue
memiliki prioritas untuk mengakses
resource dalam cluster. Ketika slot dalam queue
dalam keadaan idle, maka job langsung dapat
datanode, jps, dan NodeManager. menggunakan queue tersebut meskipun queue tersebut tidak memiliki prioritas job. Kemudian ketika pengguna melakukan submit job dengan
queue priority, maka queue yang memiliki
Latency
2 merupakan bobot dari error dengan nilai 1.
Error
merupakan jumlah job yang gagal dan diulang kembali. Sedangkan sum merupakan jumlah keseluruhan dari job yang telah dimasukan dalam server Hadoop.
2.5.2 Latency
Pada parameter ini digunakan untuk mengukur rata-rata waktu yang dibutuhkan suatu
job
untuk dikerjakan dari client ke server dalam suatu antrian. Nilai yang dihasilkan untuk
ini diperoleh dari waktu awal suatu job dikerjakan sampai waktu job selesai dikerjakan dan dibagi oleh jumlah job yang telah ditentukan. Satuan yang digunakan dalam
timeout
Latency ini adalah menit.
2.5.3 Throughput
Pada parameter ini digunakan untuk mengukur kecepatan rata-rata data yang diterima oleh suatu node dalam selang waktu tertentu. Parameter ini akan diperoleh dari ukuran data yang dikirim dibagi dengan waktu pengiriman data secara keseluruhan. Satuan yang digunakan untuk menghitung nilai Througput adalah bit/sec.
Throughput
=
Ukuran data yang diterima (Bytes) Waktu pengiriman data (sec)
3 METODOLOGI
Pada penelitian ini akan dilakukan berdasarkan pada tahapan-tahapan yang ditunjukkan pada gambar 3 berupa diagram alir metode penelitian.
dengan nilai 0,5. Timeout merupakan jumlah waktu dimana job mengalami kegagalan.
merupakan bobot dari
prioritas tersebut akan langsung mendapatkan slot dari slot queue yang telah dipakai oleh job yang tidak memiliki prioritas dengan menghentikan layanan terhadap job tersebut (Jagmohan, 2012).
Gambar 2. Sistem kerja job Capacity Scheduling Sumber : Tom White (2015)
Capacity Scheduling mendukung antrian
secara hirarki untuk memastikan bahwa resource tersebut dibagi di antara sub-antrian sebelum antrian lain yang diperbolehkan untuk menggunakan resource yang kosong. Dalam mengatur cluster membutuhkan dukungan yang sangat kuat dalam multi-tenancy karena untuk menjamin kapasitas yang tersedia. Capacity
Scheduling
menyediakan batas slot untuk memastikan bahwa suatu antrian tidak dapat memakan jumlah resource yang tidak sesuai dalam sebuah cluster. Selain itu, Capacity
Scheduling dapat memberikan batas antrian yang
diinisialisasi pada pengguna untuk menjamin stabilitas cluster. Untuk memberikan control lebih lanjut, maka Capacity Scheduling ini mendukung konsep antrian secara hierarki untuk memastikan resource yang dibagi antara sub- antrian dari sebuah slot sebelum antrian lain dijalankan (Divya,2015).
Pada gambar 2 menunjukkan proses pengiriman job yang masuk dalam suatu antrian pada pada algoritme Capacity Scheduling .
2.5 Pengujian
Pengujian ini menggunakan parameter
1
Job Fail Rate, Latency, dan Throughput yang
dipakai untuk membandingkan kinerja dari algoritme Fair Share Scheduling dan Capacity
Scheduling .
Pada parameter Job Failed Rate ini digunakan untuk melakukan pengukuran jumlah
job
yang mengalami kegagalan. Job yang gagal tersebut akan terus diulang kembali prosesnya.
Berikut adalah rumus yang digunakan untuk menghitung nilai fail rate yaitu (Yang XIA, 2011) :
Fail rate = 1 + 2
Dimana
2.5.1 Job Fail Rate
Tambahkan parameter “yarn.resource manager.scheduler.class” kedalam file yarn-
Berikut langkah-langkah untuk melakukan konfigurasi pada Hadoop.
yarn-site.xml dan fair-scheduler.xml untuk menempatkan job yang diajukan kedalam antrian sesuai dengan pengujian yang dilakukan.
file
Untuk menerapkan Fair Share Scheduling, administrator perlu melakukan konfigurasi pada
4.2 Implementasi Fair Share Scheduling
8. Lakukan konfigurasi pada file Hadoop dengan merubah beberapa parameter yang terdapat dalam dokumen yaitu pada file hadoop-env.sh, core-site.xml, mapred- site.xml, hdfs-site.xml, dan yarn-site.xml.
”.
7. Download Hadoop dengan menggunakan Hadoop versi 2.7.3 “wget http:// mirror.wanxp.id/apache/hadoop/ common/ hadoop-2.7.3/hadoop-2.7.3.tar. gz
$HOME/.ssh/id_rsa.pub >> $HOME/.ssh/ authorized_keys”.
6. Lalu konfigurasi id rsa dengan perintah “ssh- keygen -t rsa - P "" “. Kemudian ketik “cat
5. Melakukan instalasi ssh dengan perintah “sudo apt-get install ssh”.
4. Membuat grup user dengan printah”sudo adduser
3. Melakukan instalasi java pada setiap node dengan printah “sudo apt-get install default- jdk”.
2. Melakukan konfigurasi alamat ip pada setiap node.
1. Siapkan virtual machine Ubuntu dengan menggunakan virtual box.
4.1 Implementasi Hadoop
Gambar 3. Diagram alir metode penelitian
Gambar 4. Arsitektur topologi jaringan Pada gambar 4 arsitektur perancangan sistem terdiri 1 komputer head master dan 5 komputer virtual yang digunakan sebagai komputer slave. Kemudian akan dilakukan konfigurasi Hadoop multi node cluster, dimana nantinya keenam komputer tersebut akan saling terhubung. Kelima komputer slave tersebut digunakan untum mengirim job ke komputer
multinode
Pada tahap implementasi, akan dijelaskan langkah-langah yang akan dilakukan dalam proses analisis kinerja algoritme fair scheduling dengan capacity scheduling pada Hadoop cluster
4 IMPLEMENTASI DAN PENGUJIAN
Tabel 1. Skenario Penujian
3.1 Topologi Jaringan
Pada pembangunan sistem Hadoop diperlukan infrastruktur jaringan yang dibutuhkan untuk membangun komunikasi antar
dengan melakukan konfigurasi pada kedua algoritme penjadwalan.
node yang bersifat multinode. Perancangan topologi jaringan dapat dilihat pada gambar 4.
- –ingroup Hadoop hduser”.
master. Jenis job yang digunakan untuk
distribusi data berupa job wordcount dan job wordmean.
3.2 Pengujian
job dari slave ke master Hadoop berdasarkan
skenario pengujian yang ditentukan. Pengujian ini dilakukan dengan 3 skenario pengujian yang berbeda berdasarkan pada variabel bebas dan variabel tetap. Untuk skenario pengujian pertama menggunakan variabel bebas berupa variasi ukuran data dan variabel tetap yaitu jumlah job dan jenis job. Skenario pengujian kedua menggunakan variabel bebas berupa variasi jumlah job dan variabel tetap yaitu ukuran data dan jenis job. Skenario pengujian ketiga menggunakan variabel bebas berupa variasi jenis job dan variabel tetap yaitu ukuran data dan jumlah job.
Tahap pengujian pada penelitian ini dilakukan pada Hadoop multinode yang terdiri dari 3 skenario pengujian yang berbeda pada masing-masing algoritme Fair Share Scheduling dan Capacity Scheduling. Pada masing-masing algortima scheduling akan dilakukan pengiriman site.xml konfigurasi untuk mengelola scheduling Hadoop pada resource manager.
<property> <name>yarn.resourcemanager.scheduler.class </name> <value>org.apache.hadoop.yarn.server.resourc
Pengujian pada algoritme penjadwalan
job yang digunakan adalah job wordcount dan
Pada skenario pengujian ini dilakukan dengan menggunakan variabel bebas berupa variasi jenis job, sedangkan variabel tetap berupa jumlah ukuran data dan jumlah job. Variasi jenis
4.4.3 Pengujian Variasi Jenis Job
Pada skenario pengujian ini dilakukan dengan menggunakan variabel bebas berupa variasi jumlah job, sedangkan variabel tetap berupa jumlah ukuran data dan jenis job. Variasi jumlah job yang digunakan adalah 5 job, 10 job, dan 15 job. Sedangkan jumlah ukuran data yang digunakan adalah 1,5 GB dan jenis job yang digunakan adalah job wordcount. Pada skenario pengujian ini menggunakan 5 buah node slave untuk melakukan pengiriman job pada masing- masing algoritme Fair Share Scheduling dan Capacity Scheduling.
4.4.2 Pengujian Variasi Jumlah Job
dan Capacity Scheduling.
job pada masing-masing algoritme Fair Share Scheduling
Pada skenario pengujian ini dilakukan dengan menggunakan variabel bebas berupa variasi ukuran data, sedangkan variabel tetap berupa jenis job dan jumlah job. Variasi ukuran data yang digunakan adalah 1,5 GB, 286,81 MB, dan 20 MB. Sedangkan jenis job yang digunakan adalah job wordcount dan jumlah job sebanyak 5 job. Pada skenario pengujian ini menggunakan 5 buah node slave untuk melakukan pengiriman
4.4.1 Pengujian Variasi Ukuran Data
dan Capacity Scheduling ini dilakukan untuk mengetahui perbandingan kinerja dari kedua algoritme tersebut berdasarkan pada pengiriman job yang diajukan pada cluster Hadoop. Pengujian ini dilakukan dengan 3 skenario pengujian yang berbeda.
Fair Share Scheduling
4.4 Pengujian
e
Gambar 6. Daftar antrian capacity scheduling pada Resource Manager
Pada Capacity Scheduling untuk melihat informasi pada daftar antrian bisa dilakukan dengan membuka antarmuka dari YARN resource manager.
Selain itu, administrator juga melakukan konfigurasi pada file capacity-scheduler.xml. Administrator perlu menentukan struktur antrian yang digunakan pada pengujian untuk pengiriman job.
<property> <name> yarn.resourcemanager.scheduler.class </name> <value>org.apache.hadoop.yarn.server.resource manager.scheduler.capacity.CapacityScheduler </value> </property>
, administrator perlu melakukan pengaturan konfigurasi pada file yarn-site.xml dan capacity-scheduler.xml. pada komputer master seorang administrator harus menambahkan parameter “yarn.resourcemanager.scheduler.class”.Namun secara default pada Hadoop versi 2 telah menggunakan Capacity Scheduling, jadi bisa langsung menentukan antrian pada cluster.
Scheduling
Dalam melakukan konfigurasi pada Capacity
Gambar 5. Daftar antrian fair share scheduling pada Resource Manager
resource manager.
Pada Fair Share Scheduling untuk melihat informasi pada daftar antrian bisa dilakukan dengan membuka antarmuka dari YARN
Selain melakukan konfigurasi pada file yarn- site.xml, administrator juga melakukan konfigurasi pada file fair-scheduler.xml.
manager.scheduler.fair.FairScheduler</value> </property>
4.3 Implementasi Capacity Scheduling
job
Untuk perbandingan kecepatan pengiriman data pada algoritme Capacity
69,9 menit. Pada Fair Share Scheduling dapat melakukan running job sebanyak 3 job pada waktu yang bersamaan dengan membagi
resource secara adil antara job satu dengan job
lainnya, sehingga proses pengerjaan job akan lebih cepat selesai jika dibandingkan dengan
Capacity Scheduling .
5.3 Skenario 1 pengujian pada response time
Gambar 9. Grafik Perbandingan Throughput pada skenario variasi ukuran data Pada variasi ukuran data dengan pengiriman job wordcount berdasarkan pengaruh pada jumlah ukuran dataset yang digunakan. Jika dilihat dari gambar tersebut grafik akan semakin menurun setiap berkurangnya jumlah ukuran data yang digunakan. Hal ini dikarenakan semakin kecil ukuran data yang digunakan, maka semakin kecil juga ukuran data yang diterima. Interval waktu selama job dikerjakan juga memengaruhi nilai throughput. Semakin besar jumlah ukuran data yang digunakan maka semakin lama waktu yang dibutuhkan job untuk menyelesaikannya.
Scheduling memiliki nilai maksimal sebesar
jumlah job yang telah dieksekusi kedalam antrian memiliki waktu pengerjaan yang lebih cepat dengan nilai maksimal sebesar 53,44 menit, sedangkan pada algoritme Capacity
0,36 Mbit/s, sedangkan pada algoritme Fair
Share Scheduling memiliki nilai maksimal
sebesar 0,47 Mbit/s. Hal ini dikarenakan nilai
timeout
pada Capacity Scheduling lebih rendah sehingga untuk melakukan pengiriman data akan semakin cepat jika dibandingkan dengan Fair Share Scheduling.
5.4 Nilai Job Failed Rate pada skenario variasi jumlah job
Scheduling memiliki nilai maksimal sebesar
Fair Share Scheduling dari masing-masing
wordmean. Sedangkan jumlah ukuran data yang digunakan sebesar 1,5 GB dan jumlah job yang digunakan sebanyak 5 job. Pada skenario pengujian ini menggunakan 5 buah node slave untuk melakukan pengiriman job pada masing- masing algoritme Fair Share Scheduling dan
Capacity Scheduling.
5. HASIL DAN ANALISIS
5.2 Nilai Latency pada skenario variasi ukuran data
3.45% pada pengiriman job dengan ukuran data 1,5 GB.
Scheduling memiliki nilai maksimal sebesar
memiliki nilai maksimal sebesar 2.95%, sedangkan pada algoritme Fair Share
Job Fail Rate pada algoritme Capacity Scheduling
sebesar 1,5 GB kemudian semakin menurun seiring dengan semakin kecilnya ukuran dataset yang digunakan. Semakin besar ukuran data set yang digunakan maka proses pembacaan maps akan semakin lama dan mengakibatkan nilai failed dan nilai timeout semakin besar. Untuk perbandingan besar nilai
Hasil nilai dari parameter Latency, dapat dilihat bahwa rata-rata waktu yang dibutuhkan
maksimum pada pengiriman job dengan ukuran
Capacity Scheduling memiliki nilai Fail rate
pada skenario variasi ukuran data Hasil nilai dari parameter Job Fail Rate terlihat bahwa pada Fair Share Scheduling dan
Rate
Gambar 7. Grafik Perbandingan Job Failed
5.1 Nilai Job Failed Rate pada skenario variasi ukuran data
Gambar 8. Grafik Perbandingan Latency pada Skenario 1
dataset
Gambar 10. Grafik Perbandingan Job Failed
suatu job sehingga akan memperkecil nilai throughput. Semakin besar nilai Throughput semakin besar kecepatan pengiriman data suatu jaringan, maka semakin baik jaringan tersebut. Algoritme Capacity Scheduling memiliki nilai maksimal sebesar 0,36 Mbit/s, sedangkan pada algoritme Fair Share Scheduling memiliki nilai maksimal sebesar 0,47 Mbit/s.
5.6 Nilai t hroughput pada skenario variasi jumlah job
Rate
Gambar 12. Grafik Perbandingan Throughput pada Variasi jumlah job Dari data tersebut semakin besar jumlah
job
yang digunakan dalam skenario ini maka semakin kecil kecepatan pengiriman data yang di dapat. Hal ini dikarenakan semakin besar jumlah job yang digunakan maka akan bertambah banyak antrian suatu job, sehingga akan menyebabkan timeout. Semakin besar nilai
timeout maka semakin lama waktu pengerjaan
Share Scheduling .
timeout yang diperoleh juga semakin lama
memiliki nilai fail rate yang lebih rendah jika dibandingkan dengan algoritme Fair
Scheduling
yang dapat menghambat waktu pengerjaan job. Pada algoritme Capacity Scheduling memiliki nilai minimal sebesar 2.05%, sedangkan pada algoritme Fair Share Scheduling memiliki nilai minimal sebesar 2.65%. Jadi algoritme Capacity
failed
manimum pada pengiriman job ke 5 pertama kemudian semakin meningkat seiring dengan bertambahnya jumlah job yang telah dieksekusi. Semakin banyak jumlah job yang dikerjakan maka antrian yang terjadi akan semakin banyak. Dengan semakin banyaknya antrian tersebut, job akan semakin lama menunggu hingga proses eksekusi dilakukan. Dengan semakin lama proses eksekusi job tersebut maka akan menimbulkan nilai
Capacity Scheduling memiliki nilai Fail rate
pada variasi jumlah job Hasil dari parameter Job Failed Rate terlihat bahwa pada Fair Share Scheduling dan
sehingga tidak dapat memaksimalkan waktu pengerjaan job.
5.5 Nilai Latency pada skenario variasi jumlah
dan Capacity Scheduling memiliki nilai Latency minimum pada pengiriman job ke 5 pertama kemudian semakin meningkat seiring dengan bertambahnya jumlah job yang telah dieksekusi. Hal ini disebabkan karena pengaruh nilai failed yang semakin banyak seiring dengan bertambahnya job yang dieksekusi maka akan menghambat proses pengerjaan job dan nilai
Scheduling
Share Scheduling memiliki nilai maksimal
118,69 menit, sedangkan pada algoritme Fair
Scheduling memiliki nilai maksimal sebesar
Gambar 11. Grafik perbandingan Latency pada variasi jumlah job Secara keseluruhan perbandingan besar nilai Latency pada algoritme Capacity
job
5.7 Nilai Job Failed Rate pada skenario variasi jenis job
Gambar 13. Grafik Perbandingan Job Failed
Rate pada Variasi jenis job
sebesar 99,89 menit. Pada Fair Share
Hasil dari parameter Job Fail Rate terlihat bahwa pada job wordmean memiliki perbedaan nilai Fail rate yang cukup kecil jika dibandingkan dengan job wordcount. Hal ini dikarenakan karena job wordmean melakukan proses pengerjaan job yang sederhana yaitu hanya melakukan proses perhitungan jumlah panjang kata dalam suatu file, sehingga pada eksekusi maps yang dijalankan akan semakin cepat dibandigkan dengan job wordcount yang akan menghitung kemiripan jumlah kata yang terdapat pada file. Dengan semakin cepat proses eksekusi maps tersebut maka akan meminimalisir munculnya failed pada saat dilakukannya proses pengiriman, sehingga akan berpengaruh pada nilai fail rate. Untuk perbandingan besar nilai Job Fail Rate pada algoritme Capacity Scheduling memiliki nilai minimal sebesar 1.81%, sedangkan pada algoritme Fair Share Scheduling memiliki nilai minimal sebesar 2.92% pada pengiriman job wordmean. Jadi algoritme Capacity Scheduling memiliki nilai fail rate yang lebih rendah jika dibandingkan dengan algoritme Fair Share
akan semakin tinggi, meskipun kedua jenis job tersebut menggunakan ukuran dataset yang sama.
dapat dilihat bahwa bahwa kecepatan pengiriman data yang dibutuhkan
pada job wordcount dari masing-masing
memiliki kecepatan pengiriman data yang lebih cepat jika dibandingkan dengan job wordmean. Dapat dibuktikan pada algoritme Fair Share
Scheduling
dengan Capacity Scheduling yang memiliki selisih nilai Throughput pada job
wordcount sebesar 0,11 Mbit/s sedangkan pada job
wordmean memiliki selisih nilai Throughput sebesar 0.000026 Mbit/s. Karena pada proses pengerjaan dengan menggunakan job wordcount lebih cepat jika dibandingkan dengan job
wordmean. Dengan menggunakan job wordmean maka kecepatan pengiriman data juga
6 PENUTUP
Secara keseluruhan hasil dari parameter
6.1 Kesimpulan
Berdasarkan dari pengujian, maka dapat ditarik kesimpulan sebagai berikut.
1. Algoritma Fair Share Scheduling dan
Capacity Scheduling dirancang dan
disimulasikan menggunakan framework Hadoop dengan versi 2.7.3. Pengujian sistem yang dilakukan pada penelitian ini dilakukan dengan tiga skenario berbeda yaitu berdasarkan pada variasi ukuran data, variasi jumlah job, dan variasi jenis job.
2. Nilai dari parameter Job Fail rate pada
Capacity Scheduling lebih baik jika
dibandingkan dengan Fair Share Scheduling dengan nilai minimal sebesar 0.99%.
Throughput
Throughput pada Variasi jenis job
Scheduling.
Gambar 15. Grafik Perbandingan
5.9 Nilai Throughput pada skenario variasi jenis job
Fair Share Scheduling
memiliki rata-rata nilai Latency yang lebih rendah jika dibandingkan dengan algoritme
Scheduling
Latency pada skenario variasi jenis job
5.8 Nilai
memiliki nilai minimal sebesar 65,3 menit, sedangkan pada algoritme
Capacity Scheduling
. Karena pada proses pengerjaan dengan menggunakan job wordmean memiliki nilai timeout yang lebih sedikit dibandingkan dengan job wordcount. Pada nilai timeout tersebut akan berpengaruh pada cepat dan lamanya job untuk dieksekusi. Pada algoritme
Fair Share Scheduling
lebih cepat jika dibandingkan dengan job
job wordmean memiliki perbedaan nilai Latency
. Pada
Capacity Scheduling
waktu yang dibutuhkan Fair Share Scheduling dari masing-masing jenis job memiliki waktu pengerjaan yang lebih cepat jika dibandingkan dengan
Latency dapat dilihat bahwa bahwa rata-rata
Secara keseluruhan hasil dari parameter
Gambar 14. Grafik Perbandingan Latency pada Variasi jenis job
memiliki nilai minimal sebesar 50,2 menit pada pengiriman job wordmean. Jadi algoritme Fair Share
wordcount
- – Hadoop ”, IOSR Journal of Komputer Engineering Vol.17, Ver. IV, pp.36-40.
Yang XIA, Lei WANG,et al, 2011, “Research on
Performance Analysis of Multi-Node Hadoop Clusters using Amazon EC2 Instances” International Journal of Science and Research (IJSR), Vol.4, Issue.10, pp.1646-1650.
. Journal International Conference, Xiangtan, China. Ruchi Mittal dan Ruhi Bagga, 2015, “
Scheduling Configuration Settings on MapReduce Jobs
2012, The Impact of Capacity
North, Sebastopol, CA 95472. Jagmohan, C., Dwight, M., dan Winfried, G.,
CIO’s Handbook to the Changing Data Landscape. 1005 Gravenstein Highway
Edd Dumbill, 2012, Planning for Big Data : A
Analysis and Its Scheduling Policy
Divya S, Kanya Rajesh, et al, 2015, “Big Data
. O’REILLY, E- Book 4
Karena Capacity Scheduling semakin bertambahnya job yang dijalankan maka semakin memperkecil nilai timeout sehingga dapat mengalami penurunan pada nilai failed rate. Nilai dari parameter Latency
th Edition, pp.1-805.
6.2 Saran
”, Journal of Computational Information System Vol.7, pp.5769-5775.
Job Scheduling Algorithm in Hadoop
Guide, Third Edition
4. Melakukan modifikasi pada parameter pengujian yang berbeda pada penelitian ini.
3. Menambahkan jumlah job sesuai kebutuhan.
2. Melakukan modifikasi pada jenis job yang berbeda dengan penelitian ini.
1. Mengganti algoritme job scheduling Hadoop lain pada server Hadoop.
Berikut ini saran untuk para peneliti yang ingin melakukan pengembangan pada penelitian ini yaitu.
memiliki kecepatan pengiriman data yang lebih baik jika dibandingkan dengan Capacity Scheduling dengan nilai maksimal sebesar 0,47Mbit/s.
Scheduling
parameter Throughput pada Fair Share
Scheduling dapat melakukan running job sebanyak 3 job pada waktu yang bersamaan dengan membagi resource secara adil antara job satu dengan job lainnya, sehingga proses pengerjaan job akan lebih cepat selesai. Nilai dari
dengan nilai minimal sebesar 19,25%. Karena pada Fair Share
Scheduling
pada Fair Share Scheduling lebih baik jika dibandingkan dengan Capacity
Tom White, 2015. Hadoop: The Definitive
DAFTAR PUSTAKA
5, Issue 8, pp.167-173.
Azzeddine and Sara, August 2015, “The Big
apache.org/docs/r2.7.2/Hadoop-yarn/ Hadoop-yarn-site/CapacityScheduler. html> [Diakses 21 Maret 2017]
Capacity Scheduling . ApacheHadoop, [online] Tersedia di : <https://Hadoop.
Apache Software Foundation, 2016. Hadoop :
Apache Software Foundation, 2016. Hadoop :Fair Scheduler. ApacheHadoop, [online] Tersedia di : <https://Hadoop. apache.org/docs/r2.7.3/Hadoop-yarn/ Hadoop-yarn-site/Fair Scheduler.html> [Diakses 21 Maret 2017]
Data Revolution, Issues and Applications”, International Journal of Advanced Research in Komputer Science and Software Enggineering Vol.