Editor + GUI untuk Spark Java/ Spark Scala/ PySpark

8.1 Editor + GUI untuk Spark Java/ Spark Scala/ PySpark

 Editor + GUI, dengan adanya 2 bagian ini maka harapannya akan memudahkan developer dalam membuat koding dari awal dalam lingkungan IDE atau mengembangkan implementasi algoritma untuk penyelesaian kasus apapun menjadi lebih cepat, nyaman dan lebih profesional.

Gambar 8.1 Get Eclipse OXYGEN  Java/ Scala/ Python/ R/ etc, ini hanya beberapa macam dari

bahasa pemrograman yang masing-masing memiliki kelebihan dan keterbatasan. Silahkan dipilih dengan bijak, manakah bahasa pemrograman untuk Analisis Big Data yang anda gunakan, sesuai dengan style anda sebagai developer.

Gambar 8.2 Bahasa Java/ Scala/ Python/ R

8.1.1 Install Sublime Text

- Ketikkan perintah berikut

sudo add-apt-repository ppa:webupd8team/sublime-text-3 sudo apt-get update sudo apt-get install sublime-text-installer sudo ln -s /usr/lib/sublime-text-3/sublime_text /usr/local/bin/sublime

8.1.2 Eclipse + Spark Standalone (Java EE)

- Link kode wordcount Spark Standalone: https://goo.gl/DNMsNG

Jika muncul “Exception in thread "main" org.apache.spark.SparkException: A master URL must be set in your configuration”

Ganti kode “SparkSession spark = SparkSession.builder().appName("JavaWordCount") .getOrCreate();” Dengan SparkSession spark = SparkSession.builder().appName("JavaWordCount").config("spar k.master", "local[*]")

.getOrCreate();

8.1.3 Eclipse + Spark + Scala IDE + Maven

- Install Scala IDE pada Eclipse, sebelum Buka Eclipse, ketikkan kode berikut:

nidos@Master:~$ su hduser hduser@Master:/home/nidos$ cd hduser@Master:~$ sudo chmod 777 -R /home/hduser/eclipse- workspace/ hduser@Master:~$ sudo chmod 777 -R /home/hduser/eclipse

Klik Help, pilih “Install New Software”:

Pada work with, masukkan “http://download.scala- ide.org/sdk/lithium/e47/scala212/stable/site”, klik Add

Masukkan name, misal “Scala IDE”, klik OK

klik Select All, klik Next klik Select All, klik Next

Pilih accept, klik Finish

Tunggu beberapa waktu sampai instalasi selesai

Klik install anyway

Klik Restart Now

Open Perspective Scala, klik Other

Scala IDE berhasil di-install

Setelah di Klik Open

Cek FileNew

- Latihan 1: “HelloScala.scala”. Cek FileNew  misal mencoba membuat “Scala Object” dengan nama “HelloScala”

package com.nidos.myscala

object HelloScala { def main(args:Array[String]){ println("Hello my Scala") } }

Cara menjalankannya degan menggunakan Run Configuration di atas.

- Latihan 2: Scala Spark Project dengan Maven

Klik Kanan di “Package Explorer”  New  Project

Pilih “Maven Project”, klik Next Pilih “Maven Project”, klik Next

klik Next

Isikan, misal seperti berikut, klik Finish

Tunggu beberapa waktu

Klik kanan “mysparkexample”, pilih Configure, klik “Add Scala Nature”

Hassil “Add Scala Nature”

Klik kanan “mysparkexample”, pilih Properties

Klik “Java Build Path”, klik Tab Source

Klik “Add Folder”, klik “main”, lalu klik “Create New Folder”

Isikan folder name, misal “scala”, klik Next

Klik Add

Isikan “**/*.scala”, lalu klik OK

Klik Finish

Klik OK

Klik “Apply and Close”

Pada “Package Explorer”, pada project “mysparkwxample”, “src/main/scala” sudah muncul

Pada project “mysparkwxample”, klik kanan pada “src/main/scala”, klik ”Package”

Isikan name dengan, misal “com.nidos.mysparkexample”, klik Finish

Package sudah muncul

Klik kanan pada package “com.nidos.mysparkexample”, klik “Scala Object”

Masukkan name, misal “WordCount”, klik Finish, link kode: https://goo.gl/ootdZN

Setelah diklik “Finish”, link kode: https://goo.gl/ootdZN

Buat main “ketik main”, lalu tekan Ctrl+Space

Konfigurasi file “pom.xml” untuk Spark, tambahkan dependencies dibawah ini, setelah line 17

<dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.10.4</version>

</dependency>

<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.4.1</version>

</dependency>

Tunggu beberapa waktu

Sampai Selesai

Cek Auto format Spark

Ketika running, jangan memilih pada “Java Application”

dan muncul error “Error: Could not find or load main class com.nidos.spark.mysparkexample.WordCount”

Ubah ke “Scala Application”

Jika masih ada error “Error: Could not find or load main class com.nidos.spark.mysparkexample.WordCount” maka coba tambahkan kode berikut “package com.nidos.mysparkexample”, langsung jalankan tanpa dengan “ Scala Application ”

Set Argument “hdfs://localhost:9000/user/hduser/wordcount/input/input3.tx t”, lalu klik Run

Project berhasil dijalankan :D

8.1.4 Eclipse + Spark + Scala IDE + SBT

- Setting up Spark Dev Environment using SBT and Eclipse. Ketikkan kode berikut (http://www.scala-sbt.org/download.html)

nidos@Master:~$ echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list

nidos@Master:~$ sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 2EE0EA64E40A89B84B2DF73499E82A75642AC823

Ketikkan kode berikut: nidos@Master:~$ sudo apt-get update nidos@Master:~$ sudo apt-get install sbt

Install sbt telah selesai

- Misal membuat project SBT, namanya “SparkSVM”. Ketikkan perintah berikut ( Link kodenya: https://goo.gl/omA1ks ):

nidos@Master:~$ cd ./eclipse-workspace nidos@Master:~/eclipse-workspace$ mkdir SparkSVM nidos@Master:~/eclipse-workspace$ cd ./SparkSVM/ nidos@Master:~/eclipse-workspace/SparkSVM$ mkdir -p src/{main,test}/{java,resources,scala} nidos@Master:~/eclipse-workspace/SparkSVM$ mkdir lib project target nidos@Master:~/eclipse-workspace/SparkSVM$

Cek struktur folder, misal dengan sublime. Ketikkan perintah berikut: nidos@Master:~/eclipse-workspace/SparkSVM$ subl .

Misal kita sudah download file project referensi “Spark_kernel_svm-master” dari link berikut: https://goo.gl/j3dWL4

Ketikkan berikut, lalu cek di sublime (jgn lupa mengganti name :=“SparkSVM”): nidos@Master:~/eclipse-workspace/SparkSVM$ cp /home/nidos/Downloads/Spark_kernel_svm-master/build.sbt ./

Jangan lupa mengganti namenya menjadi  name :=“SparkSVM”

Buat file plugins.sbt pada folder “SparkSVM/project”. Ketikkan perintah berikut, lalu cek di sublime: nidos@Master:~/eclipse-workspace/SparkSVM$ cd project/ nidos@Master:~/eclipse-workspace/SparkSVM/project$ touch plugins.sbt

Masukkan kode “addSbtPlugin("com.typesafe.sbteclipse" % "sbteclipse- plugin" % "5.2.4")” pada file plugins.sbt, lalu simpan

Cek Struktur foder lagi. Ketikkan perintah berikut: nidos@Master:~/eclipse-workspace/SparkSVM/project$ cd .. nidos@Master:~/eclipse-workspace/SparkSVM$ find

Jalankan SBT. Ketikkan perintah berikut: nidos@Master:~/eclipse-workspace/SparkSVM$ ls nidos@Master:~/eclipse-workspace/SparkSVM$ sbt

tunggu beberapa waktu

File Dependencies dari SBT sudah berhasil dicreate

Klik File, klik Open Tab

Ketikkan, untuk cek “.classpath” dan lainnya, berikut: nidos@Master:~$ cd ./eclipse-workspace/SparkSVM/ nidos@Master:~/eclipse-workspace/SparkSVM$ ls build.sbt lib project src target nidos@Master:~/eclipse-workspace/SparkSVM$ ls -a . .. build.sbt .classpath lib project .project .settings src target nidos@Master:~/eclipse-workspace/SparkSVM$

Buka Eclipse, klik File, klik Import

Pilih General, klik “Existing Projects into ....”, klik Next

Klik Browse

Cari pada folder “/home/nidos/eclipse-workspace” Pilih “SparkSVM”, klik OK

Klik Finish

Project “SparkSVM” siap untuk dicopykan kode program dari referensi

Copykan 3 code berikut, dari project referen ke Project

Siapkan dataset, misal “iris3.txt” difolder, misal “/home/nidos/eclipse-workspace/SparkSVM”

Run Project “SparkSVM”, dengan klik kanan file “main.scala”, pilih “Run As”, klik “2Scala Application”, jika belum muncul “result.txt”

Set Run Project “SparkSVM” by kode program, dengan mengisi langsung args(0)-nya

Pada file main.scala, ganti kode berikut:

if (args.length != 1 ) { println("Usage: /path/to/spark/bin/spark-submit --packages amplab:spark-indexedrdd:0.1" +

"target/scala-2.10/spark-kernel-svm_2.10-1.0.jar <data file>") }

sys.exit(1) val logFile = "README.md" // Should be some file on your system

//val conf = new SparkConf().setAppName("KernelSVM Test")

Dengan val args = Array.fill(1)("") val logFile = "README.md" // Should be some file on your system

val conf = new SparkConf() conf.setAppName("SparkSVM") conf.setMaster("local[*]")

val sc = new SparkContext(conf) args(0)="file:///home/nidos/eclipse-workspace/SparkSVM/iris3.txt"

Run lagi Project “SparkSVM”, dengan klik kanan file “main.scala”, pilih “Run As”, klik “2Scala Application”

Runing Project “SparkSVM” Sukses

Hasil Runing Project “SparkSVM” berupa file “result.txt”, juga sudah muncul

Isi dari file “result.txt”

8.1.5 Eclipse + PySpark + PyDev

- Setting up Eclipse + PySpark + PyDev. Ikuti langkah-langkah berikut:

Klik Help, pilih “ Install New Software ”:

Pada work with, masukkan “http://www.pydev.org/updates”, Tekan Enter

Select All, klik Next

Klik Next

Pilih “I accept ..”, Klik Finish

Tunggu beberapa waktu untuk “Installing Software..”

Klik Install Anyway

Klik Restart Now

Open Perspective PyDev, klik Other

PyDev berhasil di-install

Setelah di Klik Open, klik FileNew

Ketikkan, hduser@Master:~$ sudo gedit ~/.bashrc

Pastikan pada file “bashrc” anda sudah berisi:

.. export JAVA_HOME=/usr/lib/jvm/java-8-oracle export JRE_HOME=/usr/lib/jvm/java-8-oracle/jre export HADOOP_INSTALL=/usr/local/hadoop export PATH=$PATH:$HADOOP_INSTALL/bin export PATH=$PATH:$HADOOP_INSTALL/sbin export HADOOP_MAPRED_HOME=$HADOOP_INSTALL export HADOOP_COMMON_HOME=$HADOOP_INSTALL export HADOOP_HDFS_HOME=$HADOOP_INSTALL export YARN_HOME=$HADOOP_INSTALL export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib/native" export HADOOP_CLASSPATH=/usr/lib/jvm/java-8-oracle/lib/tools.jar

export SPARK_HOME=/home/hduser/spark-2.2.0-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin export PATH=$PATH:$SPARK_HOME/bin/pyspark export XDG_RUNTIME_DIR=""

# Add the PySpark classes to the Python path: export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH

export MAHOUT_HOME=/usr/local/mahout export PATH=$PATH:$MAHOUT_HOME/bin export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

# added by Anaconda2 4.4.0 installer export PATH="/home/hduser/anaconda/bin:$PATH“

- Latihan 1: “HelloPySparkOnEclipse”. Cek FileNew  misal mencoba membuat “PySpark On Eclipse” dengan nama “HelloPySpar- kOnEclipse”

klik “Click here to configure an interpreter not listed”

Klik “Quick Auto-Config”, lalu klik “Libraries”

Klik “New Folder”

Pilih folder Python pada Spark Home, misal di “ /home/hduser/spark-2.2.0-bin-hadoop2.7/python ”, lalu Klik “OK”

Pilih folder Python pada Spark Home, sudah berhasil dimasukkan, lalu klik “New Egg/Zip(s)”

Masuk ke directory “ /home/hduser/spark-2.2.0-bin- hadoop2.7/python/lib ”, ubah “*.egg” ke “*.zip”, lalu klik OK.

Pilih “ /home/hduser/spark-2.2.0-bin- hadoop2.7/python/lib/py4j-0.10.4-src.zip ”, lalu klik OK

File “ /home/hduser/spark-2.2.0-bin- hadoop2.7/python/lib/py4j-0.10.4-src.zip ”, berhasil ditambahkan

Klik Apply

Klik tab “Environment”, klik New

Masukkan Name “SPARK_HOME” dan Value “/home/hduser/spark- 2.2.0-bin- hadoop2.7”, klik OK