Klasifikasi Kualitas Udara Menggunakan Naïve Bayes Classifier Pada Sistem Terdistribusi Raspberry Pi Cluster Server

KLASIFIKASI KUALITAS UDARA MENGGUNAKAN NAÏVE BAYES
CLASSIFIER PADA SISTEM TERDISTRIBUSI
RASPBERRY PI CLUSTER SERVER

SKRIPSI

REZA TAQYUDDIN
101402020

PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017

Universitas Sumatera Utara

KLASIFIKASI KUALITAS UDARA MENGGUNAKAN NAÏVE BAYES
CLASSIFIER PADA SISTEM TERDISTRIBUSI
RASPBERRY PI CLUSTER SERVER


SKRIPSI

REZA TAQYUDDIN
101402020

PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017

Universitas Sumatera Utara

KLASIFIKASI KUALITAS UDARA MENGGUNAKAN NAÏVE BAYES
CLASSIFIER PADA SISTEM TERDISTRIBUSI
RASPBERRY PI CLUSTER SERVER

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah

Sarjana Teknologi Informasi

REZA TAQYUDDIN
101402020

PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017

Universitas Sumatera Utara

PERSETUJUAN

Judul

:

KLASIFIKASI

MENGGUNAKAN

KUALITAS
NAÏVE

BAYES

UDARA
CLASSIFIER

PADA SISTEM TERDISTRIBUSI RASPBERRY PI
CLUSTER SERVER
Kategori

: SKRIPSI

Nama

: REZA TAQYUDDIN


Nomor Induk Mahasiswa : 101402020
Program Studi

: SARJANA (S1) TEKNOLOGI INFORMASI

Departemen

: TEKNOLOGI INFORMASI

Fakultas

: ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITS SUMATERA UTARA

Komisi Pembimbing

:

Pembimbing 2


Pembimbing 1

Dr. Erna Budhiarti Nababan. M.IT

Romi Fadillah Rahmat, B.Comp.Sc., M.Sc

NIP. -

NIP. 19860303 201012 1 004

Diketahui/Disetujui Oleh
Program Studi Teknologi Informasi
Ketua

Muhammad Anggia Muchtar, ST., MM.IT

NIP. 198001102008011010

Universitas Sumatera Utara


PERNYATAAN

KLASIFIKASI KUALITAS UDARA MENGGUNAKAN NAÏVE BAYES
CLASSIFIER PADA SISTEM TERDISTRIBUSI RASPBERRY PI CLUSTER
SERVER

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa
kutipan dan ringkasan yang masing-masing disebutkan sumbernya.

Medan,

Januari 2017

Reza Taqyuddin
101402020

Universitas Sumatera Utara


UCAPAN TERIMA KASIH

Puji dan syukur kehadirat Allah SWT, karena rahmat dan izin-Nya penulis dapat
menyelesaikan penyusunan skripsi ini, sebagai syarat untuk memperoleh gelar Sarjana
Komputer, pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan
Teknologi Informasi Universitas Sumatera Utara.
Ucapan terima kasih penulis sampaikan kepada:
1.

Kedua Orang tua penulis, Efendi Zaimas S.E dan Ruminah, yang selalu
memberikan doa, kasih sayang dan dukungan kepada penulis dari mulai
mengikuti pendidikan hingga selesainya tugas akhir ini.

2.

Bapak Romi Fadillah Rahmat B.Comp.Sc., M.Sc selaku Dosen Pembimbing I
dan Ibunda Dr. Erna Budhiarti Nababan M.IT selaku Dosen Pembimbing II
yang telah dengan sabar memberikan bimbingan dan saran kepada penulis.

3.


Bapak Mohammad Fadly Syah Putra B.Sc., M.Sc.IT selaku Dosen Pembanding
I dan Bapak Ivan Jaya S.Si., M.Kom selaku Dosen Pembanding II yang telah
memberikan kritik dan saran dalam penyempurnaan skripsi ini.

4.

Wak Mukhtar Nurlan, Bu Nurasiah Zaimas, Bu Nuriah Zaimas selaku keluarga
yang selalu memberikan dukungan materi, doa dan semangat kepada penulis
untuk menyelesaikan skripsi.

5.

Mafazi Aditya, Shella Maulida dan Luthfan Aziz, Alm. Harry Fairuz, Syukri
Jundi, Silvia Atika S.E, dan Elza Alfatunnisa yang memberikan motivasi
kepada penulis.

6.

Kepada Sarah Purnamawati ST., M.Sc yang tidak kenal lelah terus menemani

dan memberikan semangat kepada penulis atas dukungan dan support yang
diberikan beliau, serta kesabaran beliau dalam menghadapi segala tingkah laku
penulis. Penulis ucapkan Terima Kasih yang sebesar besarnya sehingga akhirnya
dapat menyelesaikan penulisan skripsi ini.

7.

Sintong Siregar S.Kom, Nadya Amelia S.Kom, Siti Moriza Tania S.Kom, Dian
Fajar Prayoga S.Kom selaku rekan seperjuangan dalam kegiatan perkuliahan
dari awal hingga akhir.

Universitas Sumatera Utara

8. Semua dosen, staff dan pegawai di Jurusan Teknologi Informasi serta Fakultas
Ilmu Komputer dan Teknologi Informasi yang tidak dapat saya sebutkan satupersatu
9. Joko, Tri Annisa, Patricia, Atang, Wisnu, Fudin, Bang Zai, Andrew, Imah,
Novi, Amel dan rekan rekan angkatan 2010. Terima kasih sudah menjadi
keluarga penulis selama perkuliahan.
10. Indra, Atras, Imam, Maliki, Joko Kurnianto, Theresia, Grace, Rona, Harysa,
Tika, Siti Hasanah, Josef, Sammy, Fachrin, Victoria, Nova, Afza, Cindy, Aidiel,

Ibnu, Faris, Ezzay dan semua adik-adik junior dari penulis yang tidak dapat
disebutkan satu-persatu yang telah memberikan bantuan dan supportnya.

Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah
memberikan

bantuan,

perhatian,

serta

dukungan

kepada

penulis

dalam


menyelesaikan skripsi ini.

Universitas Sumatera Utara

ABSTRAK

Kondisi udara dipengaruhi oleh banyaknya polusi yang terjadi di suatu daerah seperti
materi partikel, ozon, nitrogen oksida dan karbon dioksida. Polutan - polutan tersebut
memiliki nilai standar yang telah dikategorikan disebut dengan AQI (Air Quality
Index). Nilai polutan yang bervariasi pada rentang waktu tertentu akan menyebabkan
kualitas udara menjadi sulit untuk diklasifikasikan ke dalam kategori AQI. Sistem
terdistribusi seperti cluster machine memiliki peforma yang baik dalam melakukan
pengelolaan data secara terdistribusi. Raspberry pi yang dibangun secara cluster
dapat meningkatkan peforma pemrosesan dan sumber daya yang dibutuhkan dalam
pengelolaan data yang besar dan bervariasi. Penelitian ini dilakukan dengan
menerapkan metode Naïve Bayes pada raspberry pi cluster server dimana data yang
telah dikumpulkan menggunakan metode web scraping akan dibagikan ke setiap
slave node cluster, kemudian master node mengirimkan sinyal untuk mengelola data.
Setelah melakukan penelitian dan pembangunan aplikasi ini, dapat diambil
kesimpulan dengan melakukan implementasi Naïve Bayes pada server cluster, dapat
dilakukan pembangunan sebuah model pengumpulan data dan klasifikasi pada
sistem terdistribusi serta memberikan hasil klasifikasi kualitas udara dengan akurasi
98%.

Kata kunci: Web Scraping, Naïve Bayes, Cluster Server, Klasifikasi, Air Quality.

Universitas Sumatera Utara

AIR QUALITY CLASSIFICATION USING NAÏVE BAYES
CLASSIFIER ON DISTRIBUTED SYSTEM RASPBERRY PI
CLUSTER SERVER

ABSTRACT

The air condition is influenced by the amount of pollution that occurred in a specific
area, there are particulate matter, ozone, nitrogen oxides, and carbon dioxide. These
pollutants has a standard categorized value called the AQI (Air Quality Index).
Values of pollutants varies in specified time span, causing the air quality is difficult
to be classified into categories of AQI. Distributed system such as cluster machine
has a good performance in order to manage big data in distributed ways. The
Raspberry pi that is being built as cluster can increase the performance of processing
and resources that is needed to manage varies big data. This study was completed by
implementing the Naïve Bayes method on raspberry pi cluster server where the
collected data using web scraping method will be distributed to each slave node
cluster, and then the master node will send the signal to process the data. After
conducting research and development of this application, it can be concluded that by
implementing the Naïve Bayes on cluster server, we can build a model of collecting
data and classification on distributed system and it also can give the result of air
quality classification with 98% accuracy.

Keywords : Web Scraping, Naïve Bayes, Cluster Server, Classification, Air Quality

Universitas Sumatera Utara

DAFTAR ISI

PERSETUJUAN

i

PERNYATAAN

ii

UCAPAN TERIMA KASIH

iii

ABSTRAK

v

ABSTRACT

vi

DAFTAR ISI

vii

DAFTAR TABEL

x

DAFTAR GAMBAR

xi

BAB 1

PENDAHULUAN

1

1.1

Latar Belakang

1

1.2

Rumusan Masalah

2

1.3

Tujuan Penelitian

3

1.4

Batasan Masalah

3

1.5

Manfaat Penelitian

3

1.6

Metode Penelitian

4

1.7

Sistematika Penulisan

4

BAB 2

LANDASAN TEORI

6

2.1

Pencemaran Lingkungan

6

2.1.1

Pencemaran udara

6

2.1.2

Kualitas udara dan kesehatan

8

2.1.3

Air Quality Index

9

2.2

Web Scraping

10

2.2.1

11

Struktur Semantik

Universitas Sumatera Utara

2.3

BAB 3

BAB 4

2.2.2

HTML Parser

12

2.2.3

Extracting and Saving Data

12

Sistem Terdistribusi

13

2.3.1

Raspberry Pi

14

2.3.2

Message Passing

15

2.3.3

Multithreading

16

2.4

Naïve Bayes Classifier

17

2.5

Penelitian Terdahulu

18

ANALISIS DAN PERANCANGAN

20

3.1

Data Yang Digunakan

20

3.2

Arsitektur Umum

21

3.2.1

Web Scraping

22

3.2.2

Data Cleaning

25

3.2.3

Data Selection

26

3.3

Perancangan Server Cluster Raspberry Pi

26

3.4

Naïve Bayes Classifier

27

3.5

Perancangan Antarmuka Sistem

31

3.5.1

Perancangan Halaman Utama Hasil Klasifikasi

31

3.5.2

Perancangan Halaman Informasi Health Concern

32

IMPLEMENTASI DAN PENGUJIAN

33

4.1

Implementasi Sistem

33

4.1.1

Konfigurasi Perangkat Keras

33

4.1.2

Konfigurasi Perangkat Lunak

34

4.2

Implementasi Perancangan Antar Muka

34

4.2.1

34

Tampilan Halaman Informasi Kualitas Udara

Universitas Sumatera Utara

4.2.2
4.3

BAB 5

Tampilan Halaman Informasi Health Concern

36

Pengujian Sistem

38

4.3.1

Pengujian Cluster Server

38

4.3.2

Pengujian Web Scraping Data Polusi

41

4.3.3

Pengujian Pengambilan Data Cuaca

44

4.3.4

Pengujian Klasifikasi Kualitas Udara

47

KESIMPULAN DAN SARAN

47

5.1

Kesimpulan

47

5.2

Saran

47

DAFTAR PUSTAKA

48

Universitas Sumatera Utara

DAFTAR TABEL

Tabel 2. 1 Bahan Yang Menghasilkan Pencemaran Udara

8

Tabel 2. 2 Level Pencemaran menurut AQI

9

Tabel 2. 3 Penelitian Terdahulu

19

Tabel 3. 1 Tabel Frekuensi AQI Level selama 24 Jam

29

Tabel 3. 2 Tabel Kemungkinan Berdasarkan tabel frekuensi

29

Tabel 4. 1 Konfigurasi perangkat keras yang digunakan

33

Tabel 4. 2 Konfigurasi perangkat lunak yang digunakan

34

Universitas Sumatera Utara

DAFTAR GAMBAR

Gambar 2. 1 Siklus pencemaran udara (Sumber : http://scienceunraveled.com/)

7

Gambar 2. 2 Object Tree Model (Sumber: www.w3schools.com)

12

Gambar 2. 3 Arsitektur Sistem Terdistribusi (Sumber : skullbox.net)

14

Gambar 2. 4 Raspbery Pi 2 (Sumber : raspberrypi.org )

15

Gambar 2. 5 Single Threaded dan Multi Threaded Process (Sumber : Silberchatz) 17
Gambar 3. 1 Halaman Website aqicn.org (Sumber : http://aqicn.org)

21

Gambar 3. 2 Arsitektur Umum

22

Gambar 3. 3 Pseudocode Web Scraping

23

Gambar 3. 4 Data yang akan diambil (sumber: http://aqicn.org/beijing)

24

Gambar 3. 5 Potongan code isi Wrapper

25

Gambar 3. 6 Raw data yang tidak valid

26

Gambar 3. 7 Arsitektur Raspberry Pi Server Grid

27

Gambar 3. 8 Data AQI selama 24 jam

28

Gambar 3. 9 Rancangan tampilan halaman utama

32

Gambar 3. 10 Rancangan tampilan halaman Health Concern

33

Gambar 4.1 Tampilan halaman utama Kualitas Udara

35

Gambar 4.2 Tampilan dialog indikator kualitas udara

36

Gambar 4.3 Tampilan halaman informasi Health Concern

37

Gambar 4.4 Form Untuk memilih Jenis Polutan dan Level Batas

37

Gambar 4.5 Tampilan hasil informasi pemilihan polutan

38

Gambar 4.6 Raspberry Pi Cluster Server

39

Gambar 4.7 Status Network File System pada Master Node

40

Gambar 4.8 Status mounting Network File System pada Slave Node

41

Gambar 4.9 Tampilan Halaman sebelum dilakukan scraping (jam 13.50)

42

Universitas Sumatera Utara

Gambar 4.10 Eksekusi command Curl untuk melakukan scraping

42

Gambar 4.11 Tampilan Halaman setelah dilakukan scraping (jam 14.05)

43

Gambar 4.12 Hasil Log web scraping

44

Gambar 4.13 Potongan File JSON hasil pengambilan Data Cuaca

46

Gambar 4.14 Hasil Klasifikasi Kualitas Udara

47

Universitas Sumatera Utara