Karakteristik Hadoop Multi-Node pada Master Server terhadap Data Kecil.

(1)

Universitas Kristen Maranatha

ABSTRAK

Seiring dengan perkembangan data yang sangat pesat, cara – cara penyimpanan data dalam server telah banyak dikembangkan dan disediakan dalam media yang berbeda. Diantaranya ada Hadoop yang merupakan software framework untuk server. Demi menggali pengetahuan lebih dari server maka saya melakukan penelitian yang berjudul karakteristik Hadoop Multi node pada master server terhadap data Kecil. Hadoop sendiri merupakan project opensource dari apache yang sudah berjalan kurang lebih 9 tahun, yang dimana 2 tahun setelah Hadoop lahir dipakai google untuk prosesing data. Hasil yang didapat memuat karakteristik dari Hadoop, apakah HDFS menjadi tempat penyimpanan yang baik untuk data. Metode yang akan dipakai akan banyak mengambil dan menaruh data dalam 5 mesin yang sudah menggunakan Hadoop. Mesin yang terbagi dalam 1 master server dan 4 slave server akan diberikan data dan diukur dengan melihat waktu dari log masing – masing server. Data yang didapat diolah menjadi grafik agar bisa terlihat apakah terjadi anomali yang bisa dibilang unik untuk Hadoop?. Akhir dari pengukuran data diharapkan mendapat kesimpulan apa yang menjadi keunikan dari Hadoop dan bagaimana data diproses dalam HDFS?.

(2)

Universitas Kristen Maranatha

ABSTRACT

The growth of data over years increase very rapidly. Because of this growth, the data volume that stored in the server has been increase and in different media type. Hadoop is one of framework to handle big data on server. Hadoop itself is an open source project which developed by Apache and has been going for approximately nine years. This experiments have an objective to look at how Hadoop work to handle data less than 500MB. This experiment used five servers with Hadoop installed on each server (one as a master and the other as slave servers). Three experiment has been conducted, each experiment gave its own conclusion. Experiment one showed if a node on web UI gave 500 ms from last contact then the node declared to be dead. The second experiment showed the transfer rate 61.39 ms per MB. The last experiment showed if a new node is added as a slave,

the Hadoop server’s capacity increased size, but the new slave didn’t get any data from other slave.

(3)

vii

Universitas Kristen Maranatha

DAFTAR ISI

LEMBAR PENGESAHAN ... i

PERNYATAAN ORISINALISTAS LAPORAN PENELITIAN ... ii

PERNYATAAN PUBLIKASI LAPORAN PENELITIAN ... iii

PRAKATA ... iv

ABSTRAK ... v

ABSTRACT ... vi

DAFTAR ISI ... vii

DAFTAR GAMBAR ... ix

BAB 1 PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 2

1.3 Tujuan ... 2

1.4 Ruang Lingkup Penelitian ... 2

1.5 Sumber Data ... 2

1.6 Sistematika Penyajian ... 3

BAB 2 KAJIAN TEORI ... 4

2.1 Hadoop ... 4

2.2 Hadoop Single–Node ... 7

2.3 Hadoop Multi–Node ... 8

BAB 3 ANALISIS DAN RANCANGAN SISTEM ... 9

3.1 Pemodelan ... 9

3.2 Skenario ... 10

3.2.1 Skenario Pertama ... 10

3.2.2 Skenario Kedua ... 10

(4)

viii

Universitas Kristen Maranatha

BAB 4 KONFIGURASI PENGUJIAN ... 13

4.1 SSH ... 13

4.2 Host dan hostname ... 13

4.3 Hadoop ... 16

4.4 Hue ... 18

BAB 5 PENGUJIAN ... 19

5.1 Skenario Pertama ... 19

5.2 Skenario Kedua ... 20

5.3 Skenario Ketiga ... 26

BAB 6 SIMPULAN DAN SARAN ... 27

6.1 Simpulan ... 27

6.2 Saran ... 27

DAFTAR PUSTAKA ... 28 LAMPIRAN A INSTAL HADOOP ... A-1 LAMPIRAN B INSTAL HUE ... B-1 LAMPIRAN C DATA PERCOBAAN ... C-1

(5)

Universitas Kristen Maranatha

DAFTAR GAMBAR

Gambar 2.1 : Hadoop Core / Hadoop Common ... 4

Gambar 2.2 : Cara Kerja HDFS ... 5

Gambar 2.3 : Data Penelitian Terkait ... 7

Gambar 2.4 : Contoh HDFS Architectue Single Node ... 8

Gambar 2.5 : Contoh HDFS Architectue Multi Node... 8

Gambar 3.1 : Analysis Modeling Example ... 9

Gambar 3.2 : Skenario 1... 10

Gambar 3.3 : Skenario 2... 11

Gambar 3.4 : Skenario 3... 12

Gambar 4.1 : Hostname... 13

Gambar 4.2 : Hosts ... 14

Gambar 4.3 : Hadoop config folder ... 14

Gambar 4.4 : core-site.xml ... 14

Gambar 4.5 : yarn-site.xml ... 15

Gambar 4.6 : HDFS-site.xml ... 15

Gambar 4.7 : masters... 16

Gambar 4.8 : slaves ... 16

Gambar 4.9 : Masuk Ke File bashrc ... 16

Gambar 4.10 : File .bashrc ... 17

Gambar 4.11 : File hadoop-env.sh ... 17

Gambar 4.12 : File hue.ini ... 18

Gambar 5.1 : Hadoopslave2 Last Contact ... 19

Gambar 5.2 : Hadoopslave2 Setelah Last Contact melebihi 500 ... 19

Gambar 5.3 : Hasil Summry Menyatakan Jumlah Live dan Dead Node ... 19

Gambar 5.4 : Keadaan Node Setelah Mesin Kembali Di Nyalakan ... 20

Gambar 5.5 : Summary Node ... 20

Gambar 5.6 : File Information Dari Port 50070 ... 21

Gambar 5.7 : Namenode Log ... 21

Gambar 5.8 : Penyimpanan Data Di Master Server ... 22

Gambar 5.9 : File Information Dan Folder Tempat File Disimpan ... 22

(6)

Universitas Kristen Maranatha

Gambar 5.11 : Hasil Traffic Percobaan 1 [127.00 MB] ... 23

Gambar 5.12 : Grafik Durasi Percobaan 2 ... 24

Gambar 5.13 : Hasil Traffic Percobaan 2 [235.16 MB] ... 24

Gambar 5.14 : Grafik Durasi Percobaan 3 ... 25

Gambar 5.15 : Hasil Traffic Percobaan 3 [314.00 MB] ... 25

Gambar 5.16 : Edit File Hosts ... 26

(7)

Universitas Kristen Maranatha

BAB 1

PENDAHULUAN

1.1Latar Belakang

Jumlah data di dunia kita telah meledak, dan menganalisis data berukuran besar tersebut big data [1] menjadi kunci dasar persaingan, mendasari gelombang baru pertumbuhan produktivitas, inovasi, dan surplus konsumen. Belum banyak yang mendefinisikan istilah big data secara pasti. Meskipun demikian, istilah “Big Data” sering digunakan oleh perusahaan untuk menguraikan jumlah data yang besar. Hal ini tidak mengacu pada jumlah khusus data, tetapi menguraikan suatu set data yang tidak dapat disimpan atau diproses menggunakan perangkat lunak database tradisional. Contoh big data mencakup Google Search Index, database Facebook (user profile) [2].

Big data sering kali di distribusikan melalui banyak storage device, dapat dalam beberapa lokasi yang berbeda. Terdapat beberapa jenis berbeda dari solusi perangkat lunak big data yang berbeda, mencakup platform penyimpan data dan program analisa data. Produk yang paling umum dari perangkat lunak big data mencakup apache Hadoop, IBM’s Big Data Platform, Oracle NoSql database, Microsoft HDInsight dan EMC Pivotal One [3].

Hadoop banyak dipakai untuk mengolah data yang sangat besar (Petabyte) secara terdistribusi dan berjalan di atas cluster yang terdiri dari beberapa komputer yang saling terhubung. Hadoop menggunakan HDFS yang tidak sama dengan jenis file system dari sistem operasi misalnya NTFS atau FAT32.

Penyimpanan HDFS adalah metadata, merupakan struktur direktori HDFS dan file dalam bentuk tree. Hal ini juga mencakup berbagai atribut direktori dan file, seperti kepemilikan, perizinan, kuota, dan faktor replikasi [4].

Hadoop merupakan salah satu produk yang menyimpan big data dan tersukses sampai saat ini. Beberapa contoh dari perusahaan yang menggunakan program Hadoop ini seperti Amazon, Facebook, Google, IBM, Spotify, Twitter, Yahoo, dan beberapa Universitas menggunakan Hadoop sebagai pencarian dan analisis data [5].

(8)

Universitas Kristen Maranatha

1.2Rumusan Masalah

Berikut masalah–masalah yang mungkin akan terjadi dan perlu dijawab. Masalah–masalah yang ada sebagai berikut:

1. Apakah pengaruh ukuran file dibawah 500MB terhadap waktu saat perpindahan data ?

2. Bagaimana karakteristik penyebaran data dari master slave menuju client server ?

3. Bagaimana keterkaitan konfigurasi terhadap block data yang dikirim ke slave?

1.3Tujuan

Tujuan yang dapat dari rumusan masalah adalah sebagai berikut : 1. Mengamati karakteristik penyebaran file.

2. Mengamati pengaruh ukuran file dibawah 500MB terhadap waktu pengiriman ke client server.

3. Mengamati dan mengukur besar block data yang dikirim ke client server berdasar konfigurasi pada master.

1.4Ruang Lingkup Penelitian

Ruang lingkup penelitian memiliki batasan – batasan sebagai berikut : 1. Physical machine yang digunakan memiliki spesifikasi Intel i5-2320 3.00ghz

dengan RAM 4 GB.

2. Mesin Virtual yang digunakan untuk server akan memiliki spesifikasi, OS Linux Ubuntu 14.03.3 server, 15GB HDD dan RAM 1GB.

3. Koneksi antara mesin tidak menggunakan password, maka SSH key akan dihapus atau diubah menjadi non pass SSH.

4. Program Virtual yang digunakan adalah Oracle VM Virtual Box v5.0.2, dan 5. Data percobaan yang digunakan berukuran 314MB, 235MB, dan 127MB

dengan file format .mov, dengan block allocation 128MB.

1.5Sumber Data

Penelitian dimulai dengan mencari informasi tentang Hadoop dan HDFS. Informasi–informasi yang didapat melalui buku, e-book, atau internet mengenai

(9)

Universitas Kristen Maranatha Hadoop. menginstal dan mengkonfigurasikan Hadoop dengan beberapa server, menginstal traffic monitoring agar bisa memonitor jaringan antara server atau node yang ada dan dilakukan beberapa percobaan juga dibuat laporan.

1.6Sistematika Penyajian

Laporan yang berisi hasil dari Tugas Akhir yang telah selesai dikerjakan selama Tugas Akhir berlangsung, bersistematik seperti berikut :

BAB I – Pendahuluan

Berisi mengapa Hadoop dipakai dan sejarah singkat, rumusan masalah yang berisi pertanyaan – pertanyaan yang akan terjawab dan diberi kesimpulan, tujuan yang berisi singkatan dari hasil, batasan – batasan pada ruang lingkup penelitian dan sumber data yang berisi darimana isi laporan didapat.

BAB II – Kajian Teori

Berisi penjelasan dari teori–teori yang didapat dalam sumber–sumber yang berisikan mengenai Hadoop dan ekosistem yang ada dalam Hadoop.

BAB III – Analisis dan Rancangan

Berisi permodelan rancangan dari penelitian, rancangan skenario yang akan dilakukan untuk mendapat hasil atau kesimpulan.

BAB IV – Implementasi

Berisi konfigurasi dan lingkup dari rancangan penelitian, yang digunakan sebagai tempat pengerjaan skenario – skenario pada bab III.

BAB V – Pengujian

Berisi hasil dari skenario rancangan penelitian, hasil dari skenario dan hasil dari tujuan yang dapat ditarik kesimpulan.

BAB VI – Simpulan dan Saran

Berisi simpulan dan saran dari keseluruhan hasil penelitian, hasil yang didapat mengacu kepada tujuan penelitian dan hasil akhir pada bab V. Saran yang diajukan diharap bisa memberikan peluang pengerjaan lebih baik untuk penelitian selanjutnya.

(10)

Universitas Kristen Maranatha

BAB 6

SIMPULAN DAN SARAN

6.1Simpulan

1. Jika client server mati akan hal yang tidak diinginkan, maka master server tidak menunjukkan secara langsung node dari client server yang mati melainkan akan menunjukkan dead node pada web UI setelah last contact melebihi 500 Ping.

2. Nilai rata-rata waktu yang didapat pada penelitian mendapat waktu 61.39587214ms/MB dan pada penelitian terkait mendapat waktu 415.3710 ms/MB. Perbedaan waktu yang didapat adalah 353.97512786ms/MB. Kecepatan penelitian yang dilakukan lebih cepat dibandingkan dengan penelitian terkait, perbedaan yang besar ini bisa disebabkan perbedaan ekosistem, konfigurasi, dan jumlah client server yang dipakai.

3. Menambahkan server tidak membuat perpindahan data secara langsung dari client yang memiliki data. Client server yang baru dibuat tetap kosong hingga ada data yang masuk, data yang masuk tetap dimasukan secara acak oleh HDFS. Client server yang dibuat akan dilihat sebagai penambahan harddisk.

6.2Saran

1. Menggunakan program lain untuk memonitor traffic dari koneksi yang ada. 2. Menggunakan program pembuatan mesin yang berbeda selain Virtual Box,

seperti VM-ware atau server terpasang dalam satu mesin asli, tidak memakai program mesin virtual.

3. Percobaan selanjutnya disarankan untuk masuk bagian dari Data Access, yang mengandung aplikasi dari ekosistem Hadoop seperti hive, oozie, pig, sqoop dan mahout. Aplikasi hue yang ada dalam mesin ini dapat diintegrasikan dengan ekosistem Hadoop.

(11)

Universitas Kristen Maranatha

DAFTAR PUSTAKA

[1] J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh dan A.

H. Byers, “Big data: The next frontier for innovation, competition, and productivity,” May 2011. [Online]. Available:

http://www.mckinsey.com/insights/business_technology/big_data_the_next_ frontier_for_innovation.

[2] S. M. Sulistyo Heripracoyo, “Big Data,” 28 may 2014. [Online]. Available: http://sis.binus.ac.id/2014/04/29/big-data/.

[3] “Techterms.com,” 27 Agustus 2013. [Online]. Available: http://techterms.com/definition/big_data.

[4] C. Nauroth, “HDFS Metadata Directories Explained,” Hortonworks Inc, 22 October 2014. [Online]. Available: http://hortonworks.com/blog/hdfs-metadata-directories-explained/. [Diakses 30 july 2016].

[5] “Hadoop Wiki,” September 2015. [Online]. Available: http://wiki.apache.org/hadoop/PoweredBy.

[6] D. deRoos, P. C. Zikopoulos, B. Brown, R. Coss and R. B.Melnyk, Hadoop for dummies, Hoboken, New Jersey: John Wiley & Sons, Inc., 2014. [7] H. wiki, “Apache Pig,” 02 september 2011. [Online]. Available:

https://cwiki.apache.org/confluence/display/PIG/Index. [Diakses 23 june 2016].

[8] H. wiki, “Apache Hive,” 04 May 2016. [Online]. Available:

https://cwiki.apache.org/confluence/display/Hive/Home. [Diakses 23 june 2016].

[9] The Apache Software Foundation, “Apache Hbase,” 22 june 2016. [Online]. Available: https://hbase.apache.org/. [Diakses 23 june 2016].

[10] H. wiki, “Apache SQOOP,” 30 april 2015. [Online]. Available:

https://cwiki.apache.org/confluence/display/SQOOP/Home. [Diakses 23 june 2016].

(12)

Universitas Kristen Maranatha https://wiki.apache.org/hadoop/ZooKeeper. [Diakses 23 june 2016].

[12] wiki dan Hadoop, “Apache Ambari,” 17 febuary 2015. [Online]. Available: https://cwiki.apache.org/confluence/display/AMBARI/Ambari. [Diakses 23 june 2016].

[13] H. Team, “gethue,” hue, 11 September 2014. [Online]. Available:

http://gethue.com/how-to-build-hue-on-ubuntu-14-04-trusty/. [Diakses maret 2016].

[14] P. Khusumanegara, “Analisis Performa Kecepatan Mapreduce Pada Hadoop

Menggunakan TCP Packet Flow Analysis,” Universitas Indonesia, Depok,

(1)

BAB 1

PENDAHULUAN

1.1Latar Belakang

Jumlah data di dunia kita telah meledak, dan menganalisis data berukuran besar tersebut big data [1] menjadi kunci dasar persaingan, mendasari gelombang baru pertumbuhan produktivitas, inovasi, dan surplus konsumen. Belum banyak yang mendefinisikan istilah big data secara pasti. Meskipun demikian, istilah “Big Data” sering digunakan oleh perusahaan untuk menguraikan jumlah data yang besar. Hal ini tidak mengacu pada jumlah khusus data, tetapi menguraikan suatu set data yang tidak dapat disimpan atau diproses menggunakan perangkat lunak database tradisional. Contoh big data mencakup Google Search Index, database Facebook (user profile) [2].

(2)

1.2Rumusan Masalah

Berikut masalah–masalah yang mungkin akan terjadi dan perlu dijawab. Masalah–masalah yang ada sebagai berikut:

1. Apakah pengaruh ukuran file dibawah 500MB terhadap waktu saat perpindahan data ?

2. Bagaimana karakteristik penyebaran data dari master slave menuju client server ?

3. Bagaimana keterkaitan konfigurasi terhadap block data yang dikirim ke slave?

1.3Tujuan

Tujuan yang dapat dari rumusan masalah adalah sebagai berikut : 1. Mengamati karakteristik penyebaran file.

2. Mengamati pengaruh ukuran file dibawah 500MB terhadap waktu pengiriman ke client server.

3. Mengamati dan mengukur besar block data yang dikirim ke client server berdasar konfigurasi pada master.

1.4Ruang Lingkup Penelitian

Ruang lingkup penelitian memiliki batasan – batasan sebagai berikut : 1. Physical machine yang digunakan memiliki spesifikasi Intel i5-2320 3.00ghz

dengan RAM 4 GB.

2. Mesin Virtual yang digunakan untuk server akan memiliki spesifikasi, OS Linux Ubuntu 14.03.3 server, 15GB HDD dan RAM 1GB.

3. Koneksi antara mesin tidak menggunakan password, maka SSH key akan dihapus atau diubah menjadi non pass SSH.

4. Program Virtual yang digunakan adalah Oracle VM Virtual Box v5.0.2, dan 5. Data percobaan yang digunakan berukuran 314MB, 235MB, dan 127MB

dengan file format .mov, dengan block allocation 128MB.

1.5Sumber Data

Penelitian dimulai dengan mencari informasi tentang Hadoop dan HDFS. Informasi–informasi yang didapat melalui buku, e-book, atau internet mengenai

(3)

Hadoop. menginstal dan mengkonfigurasikan Hadoop dengan beberapa server, menginstal traffic monitoring agar bisa memonitor jaringan antara server atau node yang ada dan dilakukan beberapa percobaan juga dibuat laporan.

1.6Sistematika Penyajian

Laporan yang berisi hasil dari Tugas Akhir yang telah selesai dikerjakan selama Tugas Akhir berlangsung, bersistematik seperti berikut :

BAB I – Pendahuluan

BAB II – Kajian Teori

Berisi penjelasan dari teori–teori yang didapat dalam sumber–sumber yang berisikan mengenai Hadoop dan ekosistem yang ada dalam Hadoop.

BAB III – Analisis dan Rancangan

Berisi permodelan rancangan dari penelitian, rancangan skenario yang akan dilakukan untuk mendapat hasil atau kesimpulan.

BAB IV – Implementasi

Berisi konfigurasi dan lingkup dari rancangan penelitian, yang digunakan sebagai tempat pengerjaan skenario – skenario pada bab III.

BAB V – Pengujian

Berisi hasil dari skenario rancangan penelitian, hasil dari skenario dan hasil dari tujuan yang dapat ditarik kesimpulan.

BAB VI – Simpulan dan Saran

(4)

BAB 6

SIMPULAN DAN SARAN

6.1Simpulan

6.2Saran

1. Menggunakan program lain untuk memonitor traffic dari koneksi yang ada. 2. Menggunakan program pembuatan mesin yang berbeda selain Virtual Box,

seperti VM-ware atau server terpasang dalam satu mesin asli, tidak memakai program mesin virtual.

(5)

DAFTAR PUSTAKA

[1] J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh dan A. H. Byers, “Big data: The next frontier for innovation, competition, and productivity,” May 2011. [Online]. Available: