Analisis Perbandingan Kinerja Algoritme Fair Share Scheduling Dengan Capacity Scheduling Terhadap Pengiriman Job Pada Hadoop Cluster Multinode

  

Vol. 2, No. 9, September 2018, hlm. 3086-3095 http://j-ptiik.ub.ac.id

Analisis Perbandingan Kinerja Algoritme Fair Share Scheduling Dengan

  

Capacity Scheduling Terhadap Pengiriman Job Pada Hadoop Cluster

1 Multinode 2 3 Friska Anggia Nurlita Sari , Adhitya Bhawiyuga , Achmad Basuki

  Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya

  1

  2

  3 Email: [email protected], [email protected], a [email protected]

Abstrak

  Hadoop merupakan sebuah framework berbasis open-source digunakan untuk pengolahan data dengan skala besar dan tersimpan dalam sekelompok komputer yang saling terhubung dalam suatu jaringan secara terdistribusi. Hadoop terdapat beberapa algoritme penjadwalan untuk mengatur antrian job yang masuk, job yang telah dikirim oleh pengguna akan saling berkompetisi untuk merebutkan suatu resource yang tersedia. Sehingga perlu adanya algoritme penjadwalan yang bertugas mengatur jalannya job pada sebuah resource serta mengelola pemrosesan data agar hasil yang dikeluarkan sesuai dengan apa yang diharapkan. Penelitian ini dilakukan untuk mengetahui perbandingan dari kinerja algoritme Fair Share

  

Scheduling dan Capacity Scheduling pada pengiriman job pada Hadoop multinode untuk mengetahui

  nilai dari parameter Job Fail Rate, Latency, dan Throughput. Capacity Scheduling mendukung antrian secara hirarki yaitu dapat membagi resource yang tersedia pada cluster ke beberapa antrian. Fair Share

  

Scheduling adalah metode alokasi pembagian resource pada antrian secara adil untuk seluruh job yang

  masuk pada antrian. Berdasarkan hasil pengujian yang telah dilakukan, memiliki nilai minimal Job Fail

  

Rate yang lebih baik dibandingkan Fair Share Scheduling sebesar 0,99%. Fair Share Scheduling

  memiliki nilai minimal Latency yang lebih baik sebesar 19,25 menit. Sedangkan nilai Throughput pada lebih cepat sebesar 0,47 Mbit/s.

  Fair Share Scheduling

Kata kunci : Hadoop, Hadoop Multinode, Fair Share Scheduling, Capacity Scheduling, Job Fail Rate, Latency,

dan Throughput.

  

Abstract

Hadoop is a framework based on an open-source which is used for a data processing in a large scale

and stored in a group of interconnected computers that are connected in a network which are

distributed. Hadoop there are several scheduling algorithms to set the incoming job queue, jobs that

have been submitted by the user will compete for a resource available. So the need for a scheduling

algorithm in charge of managing the job on a resource and managing the data processing so that output

issued in accordance with what is expected. This research was conducted to find out the comparison of

performance of Fair Share Scheduling and Capacity Scheduling algorithm on job delivery on Hadoop

multinode to know the value of Job Fail Rate, Latency, and Throughput parameters. Capacity

Scheduling supports the queue in a hierarchy that is able to divide the available resources in the cluster

into multiple queues. Fair Share Scheduling is a fair allocation of resource allocation methods for

queues for all jobs that enter the queue. Based on the results of tests that have been done, has a minimum

value of Job Failed Rate is better than Fair Share Scheduling of 0.99%. Fair Share Scheduling has a

minimum value of better Latency of 19.25 minutes. While the value of Throughput on Fair Share

Scheduling faster by 0.47 Mbit/s.

  

Keywords : Hadoop, Hadoop Multinode, Fair Share Scheduling, Capacity Scheduling Job Fail Rate, Latency, dan

Throughput.

  peningkatan suatu data yang akan terus 1. bertambah. Besarnya suatu data inilah disebut

   PENDAHULUAN

  Dengan besarnya kebutuhan data yang dengan istilah Big Data justru tidak berjalan digunakan pada saat ini maka terjadi seimbang dengan bagaimana kecepatan data itu

  Fakultas Ilmu Komputer Universitas Brawijaya

3086 diolah dan diproses. Dengan semakin rumitnya pengelolahan data dalam jumlah yang sangat besar tersebut, dapat diatasi dengan menggunakan Hadoop. Hadoop merupakan sebuah framework yang digunakan untuk pengolahan data dengan skala besar dan tersimpan dalam sekelompok komputer yang saling terhubung dalam suatu jaringan secara terdistribusi dan berjalan diatas cluster.

  Big data merupakan sekumpulan data yang

  sistem untuk mendapatkan hasil berupa grafik nilai yang dilakukan untuk perbandingan kinerja antara kedua algoritme tersebut.

  HDFS sebagai direktori komputer dimana data Hadoop disimpan. HDFS umumnya diklasifikasikan menjadi dua bagian yang disebut dengan namenode dan datanode. Namenode terletak pada server induk yang digunakan untuk mengelola sistem file namespace seperti membuka, menutup, mengganti nama file atau direktori dan juga digunakan untuk mengatur akses file yang dilakukan oleh slave. Datanode digunakan untuk menyimpan data atau file. Pada datanode dalam satu file dibagi menjadi beberapa blok file biasanya setiap blok file berukuran 128 MB. Setiap blok file akan direplikasi di datanodes,

  2.1.1 HDFS ( Hadoop Distributed File System)

  (HDFS), MapReduce, dan Yet Another Resource Negotiator (YARN).

  Distributed File System

  yang digunakan seseorang untuk melakukan pembuatan penulisan perintah (write) dan menjalankan (run) aplikasi pemrosesan data dalam jumlah besar. Ada 3 komponen penyusun Hadoop yaitu Hadoop

  analytic engine

  e berbasis java dibawah lisensi Apache yang digunakan sebagai pengolah data yang berukuran besar dan desain sistem file secara terdistribusi. Hadoop ini berjalan diatas cluster yang saling terhubung dengan beberapa komputer lainnya. Hadoop disebut juga sebagai

  sourc

  Hadoop merupakan suatu framework open

  2.1 Hadoop

  2. TINJAUAN KEPUSTAKAAN

  Throughput sebagai acuan perhitungan kinerja

  kompleks dan berskala besar melebihi kapasitas pemrosesan sistem database sehingga sangat sulit untuk diproses dengan cara pemrosesan data secara konvesional (Edd Dumbill,2012). Pada Big Data dikenal istilah 3V yaitu Volume,

  Pengujian ini dilakukan dengan 3 skenario pengujian yang berbeda berdasarkan pada variabel bebas dan variabel tetap. Untuk skenario pengujian pertama menggunakan variabel bebas yaitu variasi ukuran data dan variabel tetap yaitu jumlah job dan jenis job. Skenario pengujian kedua menggunakan variabel bebas yaitu variasi jumlah job dan variabel tetap yaitu ukuran data dan jenis job. Skenario pengujian ketiga menggunakan variabel bebas yaitu variasi jenis job dan variabel tetap yaitu ukuran data dan jumlah job. Pada pengujian ini akan menggunakan parameter pembanding yaitu Job Fail Rate, Latency, dan

  mendukung antrian secara hirarki yaitu dapat membagi resource yang tersedia pada cluster ke beberapa antrian dan terdapat fitur prediksi job sehingga dapat meminimalkan nilai failed pada job yang akan dijalankan (Tom White, 2015). Dengan melakukan perbandingan tersebut bertujuan untuk mengetahui kinerja terbaik diantara kedua algoritme penjadawalan tersebut pada pengiriman job pada cluster Hadoop berdasarkan pada parameter pengujian yang telah digunakan.

  resource pada antrian secara adil untuk seluruh job yang masuk pada antrian. Capacity Scheduling

  adalah metode alokasi pembagian

  Scheduling dan Capacity Scheduling. Fair Share Scheduling

  Penelitian ini akan membandingan dua algoritme penjadwalan yaitu Fair Share

  System (HDFS) dan Yet Another Resource Negotiator (YARN). MapReduce merupakan model pemrograman yang digunakan untuk melakukan pemrosesan data dengan skala besar. HDFS merupakan sistem file terdistribusi yang digunakan sebagai tempat penyimpanan dan pengolahan data berukuran besar. YARN digunakan untuk mengatur sumber daya komputasi dalam cluster dan scheduling Hadoop. Untuk melakukan pengolahan data yang besar diperlukan sebuah pemrosesan terhadap job. Jumlah job yang harus dieksekusi harus lebih besar dari jumlah mesin yang tersedia. Sehingga kondisi ini harus membutuhkan sebuah antrian. Untuk memilih salah satu job yang harus dieksekusi dalam sebuah antrian maka diperlukan scheduling.

  Distributed File

  Pada Hadoop terdapat tiga komponen utama didalamnya yaitu MapReduce, Hadoop

  pada jumlah ukuran data, Variety yaitu jenis atau tipe data yang akan dikelola kompleksitasnya, sedangan pada Velocity yaitu kecepatan pada pemrosesan data (Azzeddine, 2015).

  Variety, dan Velocity. Volume disini mengacu

  replica ini diwakili oleh dua file dalam file sistem pada localhost.

  2.1.2 MapReduce

  keseluruhan resource yang ada pada cluster tersebut.

  memungkinkan untuk job dijalankan secara default, tetapi juga memungkinkan untuk melakukan pembatasan pengguna yang sedang menjalankan job melalui

  Share Scheduling

  digunakan untuk membagi setiap job agar mendapatkan resource yang sama dengan job yang lainnya dari waktu ke waktu.. Dalam Fair

  2.3 Algoritme Fair Share Scheduling Fair Share Scheduling merupakan metode yang

  MapReduce merupakan model pemrograman untuk pemrosesan data berskala besar. MapReduce sebagai sistem yang mendasari untuk melakukan partisi input data, membuat jadwal eksekusi program di beberpa mesin,

  Pada gambar tersebut terdapat satu jenis

  pool atau queue. Fair Share Scheduling adalah

  metode alokasi pembagian resource pada antrian secara adil untuk seluruh job yang masuk pada antrian. Ketika pengguna men-submit job 1, maka job tersebut akan menggunakan semua

  resource yang tersedia karena tidak terdapat

  permintaan pada job lain. Kemudian pengguna mensubmit job 2 pada antrian meskipun job 1 masih berjalan, maka setelah beberapa saat pada masing-masing job akan menggunakan setengah dari resource yang tersedia. Jadi setiap job pada

  queue akan mendapat setengah dari total

  disk , jaringan) dan melaporkan ke ResourceManager.

  tersebut berguna jika pengguna yang mengirimkan job kedalam cluster dengan jumlah yang sangat banyak. Karena terlalu banyak data dan konteks-switching sehingga mengakibatkan kinerja dari Fair Share Scheduling semakin melambat. Dengan melakukan pembatasan job ini tidak menyebabkan job tersebut gagal, hanya saja harus menunggu dalam antrian sampai beberapa job dari pengguna sebelumnya telah selesai dilakukan (Apache,2016).

  yang digunakan untuk mengalokasikan resource ke berbagai job yang sedang berjalan sesuai dengan batasan kapasitas antrian, batas pengguna. Pada node manager yang berjalan pada semua node yang terdapat pada cluster untuk memulai dan memantau container, memantau penggunaan resource (cpu, memori,

  Resourcemanager dan Nodemanager. Pada resource manager mempunyai scheduler cluster

  YARN merupakan salah satu komponen tambahan yang terdapat pada Hadoop versi 2. YARN merupakan sebuah platform pengolahan data yang secara umum disediakan oleh Hadoop untuk meningkatkan kemampuan MapReduce. Komponen dalam YARN adalah

  2.1.3 YARN (Yet Another Resource Negotiator)

  juga melakukan eksekusi tugas dan melaporkan status terbaru kepada Job Tracker dengan mengirimkan pesan heartbeat dan mengirimkan hasil terakhirnya (Ruchi, 2015).

  job tersebut kedalam mapreduce task. TaskTracker

  ke TaskTracker. TaskTracker untuk menerima job dari Job Tracker dan memutuskan

  submit oleh slave dan juga menangani distribusi job

  serta mengkoordinasi semua job yang telah di

  Tracker dan TaskTracker. Job Tracker adalah master dari TaskTracker yang mengatur jadwal

  Komponen utama dari MapReduce adalah Job

  handling kegagalan mesin, dan mengatur komunikasi yang diperlukan antar mesin.

  file yang telah dikonfigurasi. Pembatasan job

2.2 Hadoop Multinode

  Sedangkan pada komputer slave menjalankan

  SecondaryNameNode, dan ResourceManager.

  pada Hadoop multinode ini dapat melakukan pengiriman job oleh beberapa pengguna secara bersama-sama. Pada HDFS, komputer master ini menjalankan namenode, jps,

  slave menggunakan 5 buah komputer. Sehingga

  . Pada Hadoop multi node ini, komputer

  slave

  Hadoop multinode menggunakan gabungan dari 2 mesin server single node, 1 mesin untuk komputer master dan 1 mesin untuk komputer

  Gambar 1. Sistem kerja job Fair Share Scheduling Sumber : Tom White (2015)

  2.4 Algoritme Capacity Scheduling Capacity Scheduling merupakan sebuah

  algoritme penjadwalan pada YARN yang terdapat fitur queuing priority, sub-queue, dan dan prediksi kesalahan pada job. Pada suatu

  queue

  memiliki prioritas untuk mengakses

  resource dalam cluster. Ketika slot dalam queue

  dalam keadaan idle, maka job langsung dapat

  datanode, jps, dan NodeManager. menggunakan queue tersebut meskipun queue tersebut tidak memiliki prioritas job. Kemudian ketika pengguna melakukan submit job dengan

  queue priority, maka queue yang memiliki

  Latency

  2 merupakan bobot dari error dengan nilai 1.

  Error

  merupakan jumlah job yang gagal dan diulang kembali. Sedangkan sum merupakan jumlah keseluruhan dari job yang telah dimasukan dalam server Hadoop.

  2.5.2 Latency

  Pada parameter ini digunakan untuk mengukur rata-rata waktu yang dibutuhkan suatu

  job

  untuk dikerjakan dari client ke server dalam suatu antrian. Nilai yang dihasilkan untuk

  ini diperoleh dari waktu awal suatu job dikerjakan sampai waktu job selesai dikerjakan dan dibagi oleh jumlah job yang telah ditentukan. Satuan yang digunakan dalam

  timeout

  Latency ini adalah menit.

  2.5.3 Throughput

  Pada parameter ini digunakan untuk mengukur kecepatan rata-rata data yang diterima oleh suatu node dalam selang waktu tertentu. Parameter ini akan diperoleh dari ukuran data yang dikirim dibagi dengan waktu pengiriman data secara keseluruhan. Satuan yang digunakan untuk menghitung nilai Througput adalah bit/sec.

  Throughput

  =

  Ukuran data yang diterima (Bytes) Waktu pengiriman data (sec)

  3 METODOLOGI

  Pada penelitian ini akan dilakukan berdasarkan pada tahapan-tahapan yang ditunjukkan pada gambar 3 berupa diagram alir metode penelitian.

  dengan nilai 0,5. Timeout merupakan jumlah waktu dimana job mengalami kegagalan.

  merupakan bobot dari

  prioritas tersebut akan langsung mendapatkan slot dari slot queue yang telah dipakai oleh job yang tidak memiliki prioritas dengan menghentikan layanan terhadap job tersebut (Jagmohan, 2012).

  Gambar 2. Sistem kerja job Capacity Scheduling Sumber : Tom White (2015)

  Capacity Scheduling mendukung antrian

  secara hirarki untuk memastikan bahwa resource tersebut dibagi di antara sub-antrian sebelum antrian lain yang diperbolehkan untuk menggunakan resource yang kosong. Dalam mengatur cluster membutuhkan dukungan yang sangat kuat dalam multi-tenancy karena untuk menjamin kapasitas yang tersedia. Capacity

  Scheduling

  menyediakan batas slot untuk memastikan bahwa suatu antrian tidak dapat memakan jumlah resource yang tidak sesuai dalam sebuah cluster. Selain itu, Capacity

  Scheduling dapat memberikan batas antrian yang

  diinisialisasi pada pengguna untuk menjamin stabilitas cluster. Untuk memberikan control lebih lanjut, maka Capacity Scheduling ini mendukung konsep antrian secara hierarki untuk memastikan resource yang dibagi antara sub- antrian dari sebuah slot sebelum antrian lain dijalankan (Divya,2015).

  Pada gambar 2 menunjukkan proses pengiriman job yang masuk dalam suatu antrian pada pada algoritme Capacity Scheduling .

2.5 Pengujian

  Pengujian ini menggunakan parameter

  1

  Job Fail Rate, Latency, dan Throughput yang

  dipakai untuk membandingkan kinerja dari algoritme Fair Share Scheduling dan Capacity

  Scheduling .

  Pada parameter Job Failed Rate ini digunakan untuk melakukan pengukuran jumlah

  job

  yang mengalami kegagalan. Job yang gagal tersebut akan terus diulang kembali prosesnya.

  Berikut adalah rumus yang digunakan untuk menghitung nilai fail rate yaitu (Yang XIA, 2011) :

  Fail rate = 1 + 2

  Dimana

2.5.1 Job Fail Rate

  Tambahkan parameter “yarn.resource manager.scheduler.class” kedalam file yarn-

  Berikut langkah-langkah untuk melakukan konfigurasi pada Hadoop.

  yarn-site.xml dan fair-scheduler.xml untuk menempatkan job yang diajukan kedalam antrian sesuai dengan pengujian yang dilakukan.

  file

  Untuk menerapkan Fair Share Scheduling, administrator perlu melakukan konfigurasi pada

  4.2 Implementasi Fair Share Scheduling

  8. Lakukan konfigurasi pada file Hadoop dengan merubah beberapa parameter yang terdapat dalam dokumen yaitu pada file hadoop-env.sh, core-site.xml, mapred- site.xml, hdfs-site.xml, dan yarn-site.xml.

  ”.

  7. Download Hadoop dengan menggunakan Hadoop versi 2.7.3 “wget http:// mirror.wanxp.id/apache/hadoop/ common/ hadoop-2.7.3/hadoop-2.7.3.tar. gz

  $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/ authorized_keys”.

  6. Lalu konfigurasi id rsa dengan perintah “ssh- keygen -t rsa - P "" “. Kemudian ketik “cat

  5. Melakukan instalasi ssh dengan perintah “sudo apt-get install ssh”.

  4. Membuat grup user dengan printah”sudo adduser

  3. Melakukan instalasi java pada setiap node dengan printah “sudo apt-get install default- jdk”.

  2. Melakukan konfigurasi alamat ip pada setiap node.

  1. Siapkan virtual machine Ubuntu dengan menggunakan virtual box.

  4.1 Implementasi Hadoop

  Gambar 3. Diagram alir metode penelitian

  Gambar 4. Arsitektur topologi jaringan Pada gambar 4 arsitektur perancangan sistem terdiri 1 komputer head master dan 5 komputer virtual yang digunakan sebagai komputer slave. Kemudian akan dilakukan konfigurasi Hadoop multi node cluster, dimana nantinya keenam komputer tersebut akan saling terhubung. Kelima komputer slave tersebut digunakan untum mengirim job ke komputer

  multinode

  Pada tahap implementasi, akan dijelaskan langkah-langah yang akan dilakukan dalam proses analisis kinerja algoritme fair scheduling dengan capacity scheduling pada Hadoop cluster

  4 IMPLEMENTASI DAN PENGUJIAN

  Tabel 1. Skenario Penujian

  3.1 Topologi Jaringan

  Pada pembangunan sistem Hadoop diperlukan infrastruktur jaringan yang dibutuhkan untuk membangun komunikasi antar

  dengan melakukan konfigurasi pada kedua algoritme penjadwalan.

  node yang bersifat multinode. Perancangan topologi jaringan dapat dilihat pada gambar 4.

  • –ingroup Hadoop hduser”.

  master. Jenis job yang digunakan untuk

  distribusi data berupa job wordcount dan job wordmean.

  3.2 Pengujian

  job dari slave ke master Hadoop berdasarkan

  skenario pengujian yang ditentukan. Pengujian ini dilakukan dengan 3 skenario pengujian yang berbeda berdasarkan pada variabel bebas dan variabel tetap. Untuk skenario pengujian pertama menggunakan variabel bebas berupa variasi ukuran data dan variabel tetap yaitu jumlah job dan jenis job. Skenario pengujian kedua menggunakan variabel bebas berupa variasi jumlah job dan variabel tetap yaitu ukuran data dan jenis job. Skenario pengujian ketiga menggunakan variabel bebas berupa variasi jenis job dan variabel tetap yaitu ukuran data dan jumlah job.

  Tahap pengujian pada penelitian ini dilakukan pada Hadoop multinode yang terdiri dari 3 skenario pengujian yang berbeda pada masing-masing algoritme Fair Share Scheduling dan Capacity Scheduling. Pada masing-masing algortima scheduling akan dilakukan pengiriman site.xml konfigurasi untuk mengelola scheduling Hadoop pada resource manager.

  <property> <name>yarn.resourcemanager.scheduler.class </name> <value>org.apache.hadoop.yarn.server.resourc

  Pengujian pada algoritme penjadwalan

  job yang digunakan adalah job wordcount dan

  Pada skenario pengujian ini dilakukan dengan menggunakan variabel bebas berupa variasi jenis job, sedangkan variabel tetap berupa jumlah ukuran data dan jumlah job. Variasi jenis

  4.4.3 Pengujian Variasi Jenis Job

  Pada skenario pengujian ini dilakukan dengan menggunakan variabel bebas berupa variasi jumlah job, sedangkan variabel tetap berupa jumlah ukuran data dan jenis job. Variasi jumlah job yang digunakan adalah 5 job, 10 job, dan 15 job. Sedangkan jumlah ukuran data yang digunakan adalah 1,5 GB dan jenis job yang digunakan adalah job wordcount. Pada skenario pengujian ini menggunakan 5 buah node slave untuk melakukan pengiriman job pada masing- masing algoritme Fair Share Scheduling dan Capacity Scheduling.

  4.4.2 Pengujian Variasi Jumlah Job

  dan Capacity Scheduling.

  job pada masing-masing algoritme Fair Share Scheduling

  Pada skenario pengujian ini dilakukan dengan menggunakan variabel bebas berupa variasi ukuran data, sedangkan variabel tetap berupa jenis job dan jumlah job. Variasi ukuran data yang digunakan adalah 1,5 GB, 286,81 MB, dan 20 MB. Sedangkan jenis job yang digunakan adalah job wordcount dan jumlah job sebanyak 5 job. Pada skenario pengujian ini menggunakan 5 buah node slave untuk melakukan pengiriman

  4.4.1 Pengujian Variasi Ukuran Data

  dan Capacity Scheduling ini dilakukan untuk mengetahui perbandingan kinerja dari kedua algoritme tersebut berdasarkan pada pengiriman job yang diajukan pada cluster Hadoop. Pengujian ini dilakukan dengan 3 skenario pengujian yang berbeda.

  Fair Share Scheduling

  4.4 Pengujian

  e

  Gambar 6. Daftar antrian capacity scheduling pada Resource Manager

  Pada Capacity Scheduling untuk melihat informasi pada daftar antrian bisa dilakukan dengan membuka antarmuka dari YARN resource manager.

  Selain itu, administrator juga melakukan konfigurasi pada file capacity-scheduler.xml. Administrator perlu menentukan struktur antrian yang digunakan pada pengujian untuk pengiriman job.

  <property> <name> yarn.resourcemanager.scheduler.class </name> <value>org.apache.hadoop.yarn.server.resource manager.scheduler.capacity.CapacityScheduler </value> </property>

  , administrator perlu melakukan pengaturan konfigurasi pada file yarn-site.xml dan capacity-scheduler.xml. pada komputer master seorang administrator harus menambahkan parameter “yarn.resourcemanager.scheduler.class”.Namun secara default pada Hadoop versi 2 telah menggunakan Capacity Scheduling, jadi bisa langsung menentukan antrian pada cluster.

  Scheduling

  Dalam melakukan konfigurasi pada Capacity

  Gambar 5. Daftar antrian fair share scheduling pada Resource Manager

  resource manager.

  Pada Fair Share Scheduling untuk melihat informasi pada daftar antrian bisa dilakukan dengan membuka antarmuka dari YARN

  Selain melakukan konfigurasi pada file yarn- site.xml, administrator juga melakukan konfigurasi pada file fair-scheduler.xml.

  manager.scheduler.fair.FairScheduler</value> </property>

4.3 Implementasi Capacity Scheduling

  job

  Untuk perbandingan kecepatan pengiriman data pada algoritme Capacity

  69,9 menit. Pada Fair Share Scheduling dapat melakukan running job sebanyak 3 job pada waktu yang bersamaan dengan membagi

  resource secara adil antara job satu dengan job

  lainnya, sehingga proses pengerjaan job akan lebih cepat selesai jika dibandingkan dengan

  Capacity Scheduling .

  5.3 Skenario 1 pengujian pada response time

  Gambar 9. Grafik Perbandingan Throughput pada skenario variasi ukuran data Pada variasi ukuran data dengan pengiriman job wordcount berdasarkan pengaruh pada jumlah ukuran dataset yang digunakan. Jika dilihat dari gambar tersebut grafik akan semakin menurun setiap berkurangnya jumlah ukuran data yang digunakan. Hal ini dikarenakan semakin kecil ukuran data yang digunakan, maka semakin kecil juga ukuran data yang diterima. Interval waktu selama job dikerjakan juga memengaruhi nilai throughput. Semakin besar jumlah ukuran data yang digunakan maka semakin lama waktu yang dibutuhkan job untuk menyelesaikannya.

  Scheduling memiliki nilai maksimal sebesar

  jumlah job yang telah dieksekusi kedalam antrian memiliki waktu pengerjaan yang lebih cepat dengan nilai maksimal sebesar 53,44 menit, sedangkan pada algoritme Capacity

  0,36 Mbit/s, sedangkan pada algoritme Fair

  Share Scheduling memiliki nilai maksimal

  sebesar 0,47 Mbit/s. Hal ini dikarenakan nilai

  timeout

  pada Capacity Scheduling lebih rendah sehingga untuk melakukan pengiriman data akan semakin cepat jika dibandingkan dengan Fair Share Scheduling.

  5.4 Nilai Job Failed Rate pada skenario variasi jumlah job

  Scheduling memiliki nilai maksimal sebesar

  Fair Share Scheduling dari masing-masing

  wordmean. Sedangkan jumlah ukuran data yang digunakan sebesar 1,5 GB dan jumlah job yang digunakan sebanyak 5 job. Pada skenario pengujian ini menggunakan 5 buah node slave untuk melakukan pengiriman job pada masing- masing algoritme Fair Share Scheduling dan

  Capacity Scheduling.

5. HASIL DAN ANALISIS

  5.2 Nilai Latency pada skenario variasi ukuran data

  3.45% pada pengiriman job dengan ukuran data 1,5 GB.

  Scheduling memiliki nilai maksimal sebesar

  memiliki nilai maksimal sebesar 2.95%, sedangkan pada algoritme Fair Share

  Job Fail Rate pada algoritme Capacity Scheduling

  sebesar 1,5 GB kemudian semakin menurun seiring dengan semakin kecilnya ukuran dataset yang digunakan. Semakin besar ukuran data set yang digunakan maka proses pembacaan maps akan semakin lama dan mengakibatkan nilai failed dan nilai timeout semakin besar. Untuk perbandingan besar nilai

  Hasil nilai dari parameter Latency, dapat dilihat bahwa rata-rata waktu yang dibutuhkan

  maksimum pada pengiriman job dengan ukuran

  Capacity Scheduling memiliki nilai Fail rate

  pada skenario variasi ukuran data Hasil nilai dari parameter Job Fail Rate terlihat bahwa pada Fair Share Scheduling dan

  Rate

  Gambar 7. Grafik Perbandingan Job Failed

  5.1 Nilai Job Failed Rate pada skenario variasi ukuran data

  Gambar 8. Grafik Perbandingan Latency pada Skenario 1

  dataset

  Gambar 10. Grafik Perbandingan Job Failed

  suatu job sehingga akan memperkecil nilai throughput. Semakin besar nilai Throughput semakin besar kecepatan pengiriman data suatu jaringan, maka semakin baik jaringan tersebut. Algoritme Capacity Scheduling memiliki nilai maksimal sebesar 0,36 Mbit/s, sedangkan pada algoritme Fair Share Scheduling memiliki nilai maksimal sebesar 0,47 Mbit/s.

  5.6 Nilai t hroughput pada skenario variasi jumlah job

  Rate

  Gambar 12. Grafik Perbandingan Throughput pada Variasi jumlah job Dari data tersebut semakin besar jumlah

  job

  yang digunakan dalam skenario ini maka semakin kecil kecepatan pengiriman data yang di dapat. Hal ini dikarenakan semakin besar jumlah job yang digunakan maka akan bertambah banyak antrian suatu job, sehingga akan menyebabkan timeout. Semakin besar nilai

  timeout maka semakin lama waktu pengerjaan

  Share Scheduling .

  timeout yang diperoleh juga semakin lama

  memiliki nilai fail rate yang lebih rendah jika dibandingkan dengan algoritme Fair

  Scheduling

  yang dapat menghambat waktu pengerjaan job. Pada algoritme Capacity Scheduling memiliki nilai minimal sebesar 2.05%, sedangkan pada algoritme Fair Share Scheduling memiliki nilai minimal sebesar 2.65%. Jadi algoritme Capacity

  failed

  manimum pada pengiriman job ke 5 pertama kemudian semakin meningkat seiring dengan bertambahnya jumlah job yang telah dieksekusi. Semakin banyak jumlah job yang dikerjakan maka antrian yang terjadi akan semakin banyak. Dengan semakin banyaknya antrian tersebut, job akan semakin lama menunggu hingga proses eksekusi dilakukan. Dengan semakin lama proses eksekusi job tersebut maka akan menimbulkan nilai

  Capacity Scheduling memiliki nilai Fail rate

  pada variasi jumlah job Hasil dari parameter Job Failed Rate terlihat bahwa pada Fair Share Scheduling dan

  sehingga tidak dapat memaksimalkan waktu pengerjaan job.

5.5 Nilai Latency pada skenario variasi jumlah

  dan Capacity Scheduling memiliki nilai Latency minimum pada pengiriman job ke 5 pertama kemudian semakin meningkat seiring dengan bertambahnya jumlah job yang telah dieksekusi. Hal ini disebabkan karena pengaruh nilai failed yang semakin banyak seiring dengan bertambahnya job yang dieksekusi maka akan menghambat proses pengerjaan job dan nilai

  Scheduling

  Share Scheduling memiliki nilai maksimal

  118,69 menit, sedangkan pada algoritme Fair

  Scheduling memiliki nilai maksimal sebesar

  Gambar 11. Grafik perbandingan Latency pada variasi jumlah job Secara keseluruhan perbandingan besar nilai Latency pada algoritme Capacity

  job

  5.7 Nilai Job Failed Rate pada skenario variasi jenis job

  Gambar 13. Grafik Perbandingan Job Failed

  Rate pada Variasi jenis job

  sebesar 99,89 menit. Pada Fair Share

  Hasil dari parameter Job Fail Rate terlihat bahwa pada job wordmean memiliki perbedaan nilai Fail rate yang cukup kecil jika dibandingkan dengan job wordcount. Hal ini dikarenakan karena job wordmean melakukan proses pengerjaan job yang sederhana yaitu hanya melakukan proses perhitungan jumlah panjang kata dalam suatu file, sehingga pada eksekusi maps yang dijalankan akan semakin cepat dibandigkan dengan job wordcount yang akan menghitung kemiripan jumlah kata yang terdapat pada file. Dengan semakin cepat proses eksekusi maps tersebut maka akan meminimalisir munculnya failed pada saat dilakukannya proses pengiriman, sehingga akan berpengaruh pada nilai fail rate. Untuk perbandingan besar nilai Job Fail Rate pada algoritme Capacity Scheduling memiliki nilai minimal sebesar 1.81%, sedangkan pada algoritme Fair Share Scheduling memiliki nilai minimal sebesar 2.92% pada pengiriman job wordmean. Jadi algoritme Capacity Scheduling memiliki nilai fail rate yang lebih rendah jika dibandingkan dengan algoritme Fair Share

  akan semakin tinggi, meskipun kedua jenis job tersebut menggunakan ukuran dataset yang sama.

  dapat dilihat bahwa bahwa kecepatan pengiriman data yang dibutuhkan

  pada job wordcount dari masing-masing

  memiliki kecepatan pengiriman data yang lebih cepat jika dibandingkan dengan job wordmean. Dapat dibuktikan pada algoritme Fair Share

  Scheduling

  dengan Capacity Scheduling yang memiliki selisih nilai Throughput pada job

  wordcount sebesar 0,11 Mbit/s sedangkan pada job

  wordmean memiliki selisih nilai Throughput sebesar 0.000026 Mbit/s. Karena pada proses pengerjaan dengan menggunakan job wordcount lebih cepat jika dibandingkan dengan job

  wordmean. Dengan menggunakan job wordmean maka kecepatan pengiriman data juga

  6 PENUTUP

  Secara keseluruhan hasil dari parameter

  6.1 Kesimpulan

  Berdasarkan dari pengujian, maka dapat ditarik kesimpulan sebagai berikut.

  1. Algoritma Fair Share Scheduling dan

  Capacity Scheduling dirancang dan

  disimulasikan menggunakan framework Hadoop dengan versi 2.7.3. Pengujian sistem yang dilakukan pada penelitian ini dilakukan dengan tiga skenario berbeda yaitu berdasarkan pada variasi ukuran data, variasi jumlah job, dan variasi jenis job.

  2. Nilai dari parameter Job Fail rate pada

  Capacity Scheduling lebih baik jika

  dibandingkan dengan Fair Share Scheduling dengan nilai minimal sebesar 0.99%.

  Throughput

  Throughput pada Variasi jenis job

  Scheduling.

  Gambar 15. Grafik Perbandingan

  5.9 Nilai Throughput pada skenario variasi jenis job

  Fair Share Scheduling

  memiliki rata-rata nilai Latency yang lebih rendah jika dibandingkan dengan algoritme

  Scheduling

  Latency pada skenario variasi jenis job

5.8 Nilai

  memiliki nilai minimal sebesar 65,3 menit, sedangkan pada algoritme

  Capacity Scheduling

  . Karena pada proses pengerjaan dengan menggunakan job wordmean memiliki nilai timeout yang lebih sedikit dibandingkan dengan job wordcount. Pada nilai timeout tersebut akan berpengaruh pada cepat dan lamanya job untuk dieksekusi. Pada algoritme

  Fair Share Scheduling

  lebih cepat jika dibandingkan dengan job

  job wordmean memiliki perbedaan nilai Latency

  . Pada

  Capacity Scheduling

  waktu yang dibutuhkan Fair Share Scheduling dari masing-masing jenis job memiliki waktu pengerjaan yang lebih cepat jika dibandingkan dengan

  Latency dapat dilihat bahwa bahwa rata-rata

  Secara keseluruhan hasil dari parameter

  Gambar 14. Grafik Perbandingan Latency pada Variasi jenis job

  memiliki nilai minimal sebesar 50,2 menit pada pengiriman job wordmean. Jadi algoritme Fair Share

  wordcount

  • – Hadoop ”, IOSR Journal of Komputer Engineering Vol.17, Ver. IV, pp.36-40.

  Yang XIA, Lei WANG,et al, 2011, “Research on

  Performance Analysis of Multi-Node Hadoop Clusters using Amazon EC2 Instances” International Journal of Science and Research (IJSR), Vol.4, Issue.10, pp.1646-1650.

  . Journal International Conference, Xiangtan, China. Ruchi Mittal dan Ruhi Bagga, 2015, “

  Scheduling Configuration Settings on MapReduce Jobs

  2012, The Impact of Capacity

  North, Sebastopol, CA 95472. Jagmohan, C., Dwight, M., dan Winfried, G.,

  CIO’s Handbook to the Changing Data Landscape. 1005 Gravenstein Highway

  Edd Dumbill, 2012, Planning for Big Data : A

  Analysis and Its Scheduling Policy

  Divya S, Kanya Rajesh, et al, 2015, “Big Data

  . O’REILLY, E- Book 4

  Karena Capacity Scheduling semakin bertambahnya job yang dijalankan maka semakin memperkecil nilai timeout sehingga dapat mengalami penurunan pada nilai failed rate. Nilai dari parameter Latency

  th Edition, pp.1-805.

6.2 Saran

  ”, Journal of Computational Information System Vol.7, pp.5769-5775.

  Job Scheduling Algorithm in Hadoop

  Guide, Third Edition

  4. Melakukan modifikasi pada parameter pengujian yang berbeda pada penelitian ini.

  3. Menambahkan jumlah job sesuai kebutuhan.

  2. Melakukan modifikasi pada jenis job yang berbeda dengan penelitian ini.

  1. Mengganti algoritme job scheduling Hadoop lain pada server Hadoop.

  Berikut ini saran untuk para peneliti yang ingin melakukan pengembangan pada penelitian ini yaitu.

  memiliki kecepatan pengiriman data yang lebih baik jika dibandingkan dengan Capacity Scheduling dengan nilai maksimal sebesar 0,47Mbit/s.

  Scheduling

  parameter Throughput pada Fair Share

  Scheduling dapat melakukan running job sebanyak 3 job pada waktu yang bersamaan dengan membagi resource secara adil antara job satu dengan job lainnya, sehingga proses pengerjaan job akan lebih cepat selesai. Nilai dari

  dengan nilai minimal sebesar 19,25%. Karena pada Fair Share

  Scheduling

  pada Fair Share Scheduling lebih baik jika dibandingkan dengan Capacity

  Tom White, 2015. Hadoop: The Definitive

DAFTAR PUSTAKA

  5, Issue 8, pp.167-173.

  Azzeddine and Sara, August 2015, “The Big

  apache.org/docs/r2.7.2/Hadoop-yarn/ Hadoop-yarn-site/CapacityScheduler. html> [Diakses 21 Maret 2017]

  Capacity Scheduling . ApacheHadoop, [online] Tersedia di : <https://Hadoop.

  Apache Software Foundation, 2016. Hadoop :

  Apache Software Foundation, 2016. Hadoop :Fair Scheduler. ApacheHadoop, [online] Tersedia di : <https://Hadoop. apache.org/docs/r2.7.3/Hadoop-yarn/ Hadoop-yarn-site/Fair Scheduler.html> [Diakses 21 Maret 2017]

  Data Revolution, Issues and Applications”, International Journal of Advanced Research in Komputer Science and Software Enggineering Vol.