Klasifikasi Kualitas Udara Menggunakan Naïve Bayes Classifier Pada Sistem Terdistribusi Raspberry Pi Cluster Server
KLASIFIKASI KUALITAS UDARA MENGGUNAKAN NAÏVE BAYES
CLASSIFIER PADA SISTEM TERDISTRIBUSI
RASPBERRY PI CLUSTER SERVER
SKRIPSI
REZA TAQYUDDIN
101402020
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
Universitas Sumatera Utara
KLASIFIKASI KUALITAS UDARA MENGGUNAKAN NAÏVE BAYES
CLASSIFIER PADA SISTEM TERDISTRIBUSI
RASPBERRY PI CLUSTER SERVER
SKRIPSI
REZA TAQYUDDIN
101402020
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
Universitas Sumatera Utara
KLASIFIKASI KUALITAS UDARA MENGGUNAKAN NAÏVE BAYES
CLASSIFIER PADA SISTEM TERDISTRIBUSI
RASPBERRY PI CLUSTER SERVER
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Sarjana Teknologi Informasi
REZA TAQYUDDIN
101402020
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
Universitas Sumatera Utara
PERSETUJUAN
Judul
:
KLASIFIKASI
MENGGUNAKAN
KUALITAS
NAÏVE
BAYES
UDARA
CLASSIFIER
PADA SISTEM TERDISTRIBUSI RASPBERRY PI
CLUSTER SERVER
Kategori
: SKRIPSI
Nama
: REZA TAQYUDDIN
Nomor Induk Mahasiswa : 101402020
Program Studi
: SARJANA (S1) TEKNOLOGI INFORMASI
Departemen
: TEKNOLOGI INFORMASI
Fakultas
: ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITS SUMATERA UTARA
Komisi Pembimbing
:
Pembimbing 2
Pembimbing 1
Dr. Erna Budhiarti Nababan. M.IT
Romi Fadillah Rahmat, B.Comp.Sc., M.Sc
NIP. -
NIP. 19860303 201012 1 004
Diketahui/Disetujui Oleh
Program Studi Teknologi Informasi
Ketua
Muhammad Anggia Muchtar, ST., MM.IT
NIP. 198001102008011010
Universitas Sumatera Utara
PERNYATAAN
KLASIFIKASI KUALITAS UDARA MENGGUNAKAN NAÏVE BAYES
CLASSIFIER PADA SISTEM TERDISTRIBUSI RASPBERRY PI CLUSTER
SERVER
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa
kutipan dan ringkasan yang masing-masing disebutkan sumbernya.
Medan,
Januari 2017
Reza Taqyuddin
101402020
Universitas Sumatera Utara
UCAPAN TERIMA KASIH
Puji dan syukur kehadirat Allah SWT, karena rahmat dan izin-Nya penulis dapat
menyelesaikan penyusunan skripsi ini, sebagai syarat untuk memperoleh gelar Sarjana
Komputer, pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan
Teknologi Informasi Universitas Sumatera Utara.
Ucapan terima kasih penulis sampaikan kepada:
1.
Kedua Orang tua penulis, Efendi Zaimas S.E dan Ruminah, yang selalu
memberikan doa, kasih sayang dan dukungan kepada penulis dari mulai
mengikuti pendidikan hingga selesainya tugas akhir ini.
2.
Bapak Romi Fadillah Rahmat B.Comp.Sc., M.Sc selaku Dosen Pembimbing I
dan Ibunda Dr. Erna Budhiarti Nababan M.IT selaku Dosen Pembimbing II
yang telah dengan sabar memberikan bimbingan dan saran kepada penulis.
3.
Bapak Mohammad Fadly Syah Putra B.Sc., M.Sc.IT selaku Dosen Pembanding
I dan Bapak Ivan Jaya S.Si., M.Kom selaku Dosen Pembanding II yang telah
memberikan kritik dan saran dalam penyempurnaan skripsi ini.
4.
Wak Mukhtar Nurlan, Bu Nurasiah Zaimas, Bu Nuriah Zaimas selaku keluarga
yang selalu memberikan dukungan materi, doa dan semangat kepada penulis
untuk menyelesaikan skripsi.
5.
Mafazi Aditya, Shella Maulida dan Luthfan Aziz, Alm. Harry Fairuz, Syukri
Jundi, Silvia Atika S.E, dan Elza Alfatunnisa yang memberikan motivasi
kepada penulis.
6.
Kepada Sarah Purnamawati ST., M.Sc yang tidak kenal lelah terus menemani
dan memberikan semangat kepada penulis atas dukungan dan support yang
diberikan beliau, serta kesabaran beliau dalam menghadapi segala tingkah laku
penulis. Penulis ucapkan Terima Kasih yang sebesar besarnya sehingga akhirnya
dapat menyelesaikan penulisan skripsi ini.
7.
Sintong Siregar S.Kom, Nadya Amelia S.Kom, Siti Moriza Tania S.Kom, Dian
Fajar Prayoga S.Kom selaku rekan seperjuangan dalam kegiatan perkuliahan
dari awal hingga akhir.
Universitas Sumatera Utara
8. Semua dosen, staff dan pegawai di Jurusan Teknologi Informasi serta Fakultas
Ilmu Komputer dan Teknologi Informasi yang tidak dapat saya sebutkan satupersatu
9. Joko, Tri Annisa, Patricia, Atang, Wisnu, Fudin, Bang Zai, Andrew, Imah,
Novi, Amel dan rekan rekan angkatan 2010. Terima kasih sudah menjadi
keluarga penulis selama perkuliahan.
10. Indra, Atras, Imam, Maliki, Joko Kurnianto, Theresia, Grace, Rona, Harysa,
Tika, Siti Hasanah, Josef, Sammy, Fachrin, Victoria, Nova, Afza, Cindy, Aidiel,
Ibnu, Faris, Ezzay dan semua adik-adik junior dari penulis yang tidak dapat
disebutkan satu-persatu yang telah memberikan bantuan dan supportnya.
Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah
memberikan
bantuan,
perhatian,
serta
dukungan
kepada
penulis
dalam
menyelesaikan skripsi ini.
Universitas Sumatera Utara
ABSTRAK
Kondisi udara dipengaruhi oleh banyaknya polusi yang terjadi di suatu daerah seperti
materi partikel, ozon, nitrogen oksida dan karbon dioksida. Polutan - polutan tersebut
memiliki nilai standar yang telah dikategorikan disebut dengan AQI (Air Quality
Index). Nilai polutan yang bervariasi pada rentang waktu tertentu akan menyebabkan
kualitas udara menjadi sulit untuk diklasifikasikan ke dalam kategori AQI. Sistem
terdistribusi seperti cluster machine memiliki peforma yang baik dalam melakukan
pengelolaan data secara terdistribusi. Raspberry pi yang dibangun secara cluster
dapat meningkatkan peforma pemrosesan dan sumber daya yang dibutuhkan dalam
pengelolaan data yang besar dan bervariasi. Penelitian ini dilakukan dengan
menerapkan metode Naïve Bayes pada raspberry pi cluster server dimana data yang
telah dikumpulkan menggunakan metode web scraping akan dibagikan ke setiap
slave node cluster, kemudian master node mengirimkan sinyal untuk mengelola data.
Setelah melakukan penelitian dan pembangunan aplikasi ini, dapat diambil
kesimpulan dengan melakukan implementasi Naïve Bayes pada server cluster, dapat
dilakukan pembangunan sebuah model pengumpulan data dan klasifikasi pada
sistem terdistribusi serta memberikan hasil klasifikasi kualitas udara dengan akurasi
98%.
Kata kunci: Web Scraping, Naïve Bayes, Cluster Server, Klasifikasi, Air Quality.
Universitas Sumatera Utara
AIR QUALITY CLASSIFICATION USING NAÏVE BAYES
CLASSIFIER ON DISTRIBUTED SYSTEM RASPBERRY PI
CLUSTER SERVER
ABSTRACT
The air condition is influenced by the amount of pollution that occurred in a specific
area, there are particulate matter, ozone, nitrogen oxides, and carbon dioxide. These
pollutants has a standard categorized value called the AQI (Air Quality Index).
Values of pollutants varies in specified time span, causing the air quality is difficult
to be classified into categories of AQI. Distributed system such as cluster machine
has a good performance in order to manage big data in distributed ways. The
Raspberry pi that is being built as cluster can increase the performance of processing
and resources that is needed to manage varies big data. This study was completed by
implementing the Naïve Bayes method on raspberry pi cluster server where the
collected data using web scraping method will be distributed to each slave node
cluster, and then the master node will send the signal to process the data. After
conducting research and development of this application, it can be concluded that by
implementing the Naïve Bayes on cluster server, we can build a model of collecting
data and classification on distributed system and it also can give the result of air
quality classification with 98% accuracy.
Keywords : Web Scraping, Naïve Bayes, Cluster Server, Classification, Air Quality
Universitas Sumatera Utara
DAFTAR ISI
PERSETUJUAN
i
PERNYATAAN
ii
UCAPAN TERIMA KASIH
iii
ABSTRAK
v
ABSTRACT
vi
DAFTAR ISI
vii
DAFTAR TABEL
x
DAFTAR GAMBAR
xi
BAB 1
PENDAHULUAN
1
1.1
Latar Belakang
1
1.2
Rumusan Masalah
2
1.3
Tujuan Penelitian
3
1.4
Batasan Masalah
3
1.5
Manfaat Penelitian
3
1.6
Metode Penelitian
4
1.7
Sistematika Penulisan
4
BAB 2
LANDASAN TEORI
6
2.1
Pencemaran Lingkungan
6
2.1.1
Pencemaran udara
6
2.1.2
Kualitas udara dan kesehatan
8
2.1.3
Air Quality Index
9
2.2
Web Scraping
10
2.2.1
11
Struktur Semantik
Universitas Sumatera Utara
2.3
BAB 3
BAB 4
2.2.2
HTML Parser
12
2.2.3
Extracting and Saving Data
12
Sistem Terdistribusi
13
2.3.1
Raspberry Pi
14
2.3.2
Message Passing
15
2.3.3
Multithreading
16
2.4
Naïve Bayes Classifier
17
2.5
Penelitian Terdahulu
18
ANALISIS DAN PERANCANGAN
20
3.1
Data Yang Digunakan
20
3.2
Arsitektur Umum
21
3.2.1
Web Scraping
22
3.2.2
Data Cleaning
25
3.2.3
Data Selection
26
3.3
Perancangan Server Cluster Raspberry Pi
26
3.4
Naïve Bayes Classifier
27
3.5
Perancangan Antarmuka Sistem
31
3.5.1
Perancangan Halaman Utama Hasil Klasifikasi
31
3.5.2
Perancangan Halaman Informasi Health Concern
32
IMPLEMENTASI DAN PENGUJIAN
33
4.1
Implementasi Sistem
33
4.1.1
Konfigurasi Perangkat Keras
33
4.1.2
Konfigurasi Perangkat Lunak
34
4.2
Implementasi Perancangan Antar Muka
34
4.2.1
34
Tampilan Halaman Informasi Kualitas Udara
Universitas Sumatera Utara
4.2.2
4.3
BAB 5
Tampilan Halaman Informasi Health Concern
36
Pengujian Sistem
38
4.3.1
Pengujian Cluster Server
38
4.3.2
Pengujian Web Scraping Data Polusi
41
4.3.3
Pengujian Pengambilan Data Cuaca
44
4.3.4
Pengujian Klasifikasi Kualitas Udara
47
KESIMPULAN DAN SARAN
47
5.1
Kesimpulan
47
5.2
Saran
47
DAFTAR PUSTAKA
48
Universitas Sumatera Utara
DAFTAR TABEL
Tabel 2. 1 Bahan Yang Menghasilkan Pencemaran Udara
8
Tabel 2. 2 Level Pencemaran menurut AQI
9
Tabel 2. 3 Penelitian Terdahulu
19
Tabel 3. 1 Tabel Frekuensi AQI Level selama 24 Jam
29
Tabel 3. 2 Tabel Kemungkinan Berdasarkan tabel frekuensi
29
Tabel 4. 1 Konfigurasi perangkat keras yang digunakan
33
Tabel 4. 2 Konfigurasi perangkat lunak yang digunakan
34
Universitas Sumatera Utara
DAFTAR GAMBAR
Gambar 2. 1 Siklus pencemaran udara (Sumber : http://scienceunraveled.com/)
7
Gambar 2. 2 Object Tree Model (Sumber: www.w3schools.com)
12
Gambar 2. 3 Arsitektur Sistem Terdistribusi (Sumber : skullbox.net)
14
Gambar 2. 4 Raspbery Pi 2 (Sumber : raspberrypi.org )
15
Gambar 2. 5 Single Threaded dan Multi Threaded Process (Sumber : Silberchatz) 17
Gambar 3. 1 Halaman Website aqicn.org (Sumber : http://aqicn.org)
21
Gambar 3. 2 Arsitektur Umum
22
Gambar 3. 3 Pseudocode Web Scraping
23
Gambar 3. 4 Data yang akan diambil (sumber: http://aqicn.org/beijing)
24
Gambar 3. 5 Potongan code isi Wrapper
25
Gambar 3. 6 Raw data yang tidak valid
26
Gambar 3. 7 Arsitektur Raspberry Pi Server Grid
27
Gambar 3. 8 Data AQI selama 24 jam
28
Gambar 3. 9 Rancangan tampilan halaman utama
32
Gambar 3. 10 Rancangan tampilan halaman Health Concern
33
Gambar 4.1 Tampilan halaman utama Kualitas Udara
35
Gambar 4.2 Tampilan dialog indikator kualitas udara
36
Gambar 4.3 Tampilan halaman informasi Health Concern
37
Gambar 4.4 Form Untuk memilih Jenis Polutan dan Level Batas
37
Gambar 4.5 Tampilan hasil informasi pemilihan polutan
38
Gambar 4.6 Raspberry Pi Cluster Server
39
Gambar 4.7 Status Network File System pada Master Node
40
Gambar 4.8 Status mounting Network File System pada Slave Node
41
Gambar 4.9 Tampilan Halaman sebelum dilakukan scraping (jam 13.50)
42
Universitas Sumatera Utara
Gambar 4.10 Eksekusi command Curl untuk melakukan scraping
42
Gambar 4.11 Tampilan Halaman setelah dilakukan scraping (jam 14.05)
43
Gambar 4.12 Hasil Log web scraping
44
Gambar 4.13 Potongan File JSON hasil pengambilan Data Cuaca
46
Gambar 4.14 Hasil Klasifikasi Kualitas Udara
47
Universitas Sumatera Utara
CLASSIFIER PADA SISTEM TERDISTRIBUSI
RASPBERRY PI CLUSTER SERVER
SKRIPSI
REZA TAQYUDDIN
101402020
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
Universitas Sumatera Utara
KLASIFIKASI KUALITAS UDARA MENGGUNAKAN NAÏVE BAYES
CLASSIFIER PADA SISTEM TERDISTRIBUSI
RASPBERRY PI CLUSTER SERVER
SKRIPSI
REZA TAQYUDDIN
101402020
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
Universitas Sumatera Utara
KLASIFIKASI KUALITAS UDARA MENGGUNAKAN NAÏVE BAYES
CLASSIFIER PADA SISTEM TERDISTRIBUSI
RASPBERRY PI CLUSTER SERVER
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Sarjana Teknologi Informasi
REZA TAQYUDDIN
101402020
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
Universitas Sumatera Utara
PERSETUJUAN
Judul
:
KLASIFIKASI
MENGGUNAKAN
KUALITAS
NAÏVE
BAYES
UDARA
CLASSIFIER
PADA SISTEM TERDISTRIBUSI RASPBERRY PI
CLUSTER SERVER
Kategori
: SKRIPSI
Nama
: REZA TAQYUDDIN
Nomor Induk Mahasiswa : 101402020
Program Studi
: SARJANA (S1) TEKNOLOGI INFORMASI
Departemen
: TEKNOLOGI INFORMASI
Fakultas
: ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITS SUMATERA UTARA
Komisi Pembimbing
:
Pembimbing 2
Pembimbing 1
Dr. Erna Budhiarti Nababan. M.IT
Romi Fadillah Rahmat, B.Comp.Sc., M.Sc
NIP. -
NIP. 19860303 201012 1 004
Diketahui/Disetujui Oleh
Program Studi Teknologi Informasi
Ketua
Muhammad Anggia Muchtar, ST., MM.IT
NIP. 198001102008011010
Universitas Sumatera Utara
PERNYATAAN
KLASIFIKASI KUALITAS UDARA MENGGUNAKAN NAÏVE BAYES
CLASSIFIER PADA SISTEM TERDISTRIBUSI RASPBERRY PI CLUSTER
SERVER
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa
kutipan dan ringkasan yang masing-masing disebutkan sumbernya.
Medan,
Januari 2017
Reza Taqyuddin
101402020
Universitas Sumatera Utara
UCAPAN TERIMA KASIH
Puji dan syukur kehadirat Allah SWT, karena rahmat dan izin-Nya penulis dapat
menyelesaikan penyusunan skripsi ini, sebagai syarat untuk memperoleh gelar Sarjana
Komputer, pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan
Teknologi Informasi Universitas Sumatera Utara.
Ucapan terima kasih penulis sampaikan kepada:
1.
Kedua Orang tua penulis, Efendi Zaimas S.E dan Ruminah, yang selalu
memberikan doa, kasih sayang dan dukungan kepada penulis dari mulai
mengikuti pendidikan hingga selesainya tugas akhir ini.
2.
Bapak Romi Fadillah Rahmat B.Comp.Sc., M.Sc selaku Dosen Pembimbing I
dan Ibunda Dr. Erna Budhiarti Nababan M.IT selaku Dosen Pembimbing II
yang telah dengan sabar memberikan bimbingan dan saran kepada penulis.
3.
Bapak Mohammad Fadly Syah Putra B.Sc., M.Sc.IT selaku Dosen Pembanding
I dan Bapak Ivan Jaya S.Si., M.Kom selaku Dosen Pembanding II yang telah
memberikan kritik dan saran dalam penyempurnaan skripsi ini.
4.
Wak Mukhtar Nurlan, Bu Nurasiah Zaimas, Bu Nuriah Zaimas selaku keluarga
yang selalu memberikan dukungan materi, doa dan semangat kepada penulis
untuk menyelesaikan skripsi.
5.
Mafazi Aditya, Shella Maulida dan Luthfan Aziz, Alm. Harry Fairuz, Syukri
Jundi, Silvia Atika S.E, dan Elza Alfatunnisa yang memberikan motivasi
kepada penulis.
6.
Kepada Sarah Purnamawati ST., M.Sc yang tidak kenal lelah terus menemani
dan memberikan semangat kepada penulis atas dukungan dan support yang
diberikan beliau, serta kesabaran beliau dalam menghadapi segala tingkah laku
penulis. Penulis ucapkan Terima Kasih yang sebesar besarnya sehingga akhirnya
dapat menyelesaikan penulisan skripsi ini.
7.
Sintong Siregar S.Kom, Nadya Amelia S.Kom, Siti Moriza Tania S.Kom, Dian
Fajar Prayoga S.Kom selaku rekan seperjuangan dalam kegiatan perkuliahan
dari awal hingga akhir.
Universitas Sumatera Utara
8. Semua dosen, staff dan pegawai di Jurusan Teknologi Informasi serta Fakultas
Ilmu Komputer dan Teknologi Informasi yang tidak dapat saya sebutkan satupersatu
9. Joko, Tri Annisa, Patricia, Atang, Wisnu, Fudin, Bang Zai, Andrew, Imah,
Novi, Amel dan rekan rekan angkatan 2010. Terima kasih sudah menjadi
keluarga penulis selama perkuliahan.
10. Indra, Atras, Imam, Maliki, Joko Kurnianto, Theresia, Grace, Rona, Harysa,
Tika, Siti Hasanah, Josef, Sammy, Fachrin, Victoria, Nova, Afza, Cindy, Aidiel,
Ibnu, Faris, Ezzay dan semua adik-adik junior dari penulis yang tidak dapat
disebutkan satu-persatu yang telah memberikan bantuan dan supportnya.
Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah
memberikan
bantuan,
perhatian,
serta
dukungan
kepada
penulis
dalam
menyelesaikan skripsi ini.
Universitas Sumatera Utara
ABSTRAK
Kondisi udara dipengaruhi oleh banyaknya polusi yang terjadi di suatu daerah seperti
materi partikel, ozon, nitrogen oksida dan karbon dioksida. Polutan - polutan tersebut
memiliki nilai standar yang telah dikategorikan disebut dengan AQI (Air Quality
Index). Nilai polutan yang bervariasi pada rentang waktu tertentu akan menyebabkan
kualitas udara menjadi sulit untuk diklasifikasikan ke dalam kategori AQI. Sistem
terdistribusi seperti cluster machine memiliki peforma yang baik dalam melakukan
pengelolaan data secara terdistribusi. Raspberry pi yang dibangun secara cluster
dapat meningkatkan peforma pemrosesan dan sumber daya yang dibutuhkan dalam
pengelolaan data yang besar dan bervariasi. Penelitian ini dilakukan dengan
menerapkan metode Naïve Bayes pada raspberry pi cluster server dimana data yang
telah dikumpulkan menggunakan metode web scraping akan dibagikan ke setiap
slave node cluster, kemudian master node mengirimkan sinyal untuk mengelola data.
Setelah melakukan penelitian dan pembangunan aplikasi ini, dapat diambil
kesimpulan dengan melakukan implementasi Naïve Bayes pada server cluster, dapat
dilakukan pembangunan sebuah model pengumpulan data dan klasifikasi pada
sistem terdistribusi serta memberikan hasil klasifikasi kualitas udara dengan akurasi
98%.
Kata kunci: Web Scraping, Naïve Bayes, Cluster Server, Klasifikasi, Air Quality.
Universitas Sumatera Utara
AIR QUALITY CLASSIFICATION USING NAÏVE BAYES
CLASSIFIER ON DISTRIBUTED SYSTEM RASPBERRY PI
CLUSTER SERVER
ABSTRACT
The air condition is influenced by the amount of pollution that occurred in a specific
area, there are particulate matter, ozone, nitrogen oxides, and carbon dioxide. These
pollutants has a standard categorized value called the AQI (Air Quality Index).
Values of pollutants varies in specified time span, causing the air quality is difficult
to be classified into categories of AQI. Distributed system such as cluster machine
has a good performance in order to manage big data in distributed ways. The
Raspberry pi that is being built as cluster can increase the performance of processing
and resources that is needed to manage varies big data. This study was completed by
implementing the Naïve Bayes method on raspberry pi cluster server where the
collected data using web scraping method will be distributed to each slave node
cluster, and then the master node will send the signal to process the data. After
conducting research and development of this application, it can be concluded that by
implementing the Naïve Bayes on cluster server, we can build a model of collecting
data and classification on distributed system and it also can give the result of air
quality classification with 98% accuracy.
Keywords : Web Scraping, Naïve Bayes, Cluster Server, Classification, Air Quality
Universitas Sumatera Utara
DAFTAR ISI
PERSETUJUAN
i
PERNYATAAN
ii
UCAPAN TERIMA KASIH
iii
ABSTRAK
v
ABSTRACT
vi
DAFTAR ISI
vii
DAFTAR TABEL
x
DAFTAR GAMBAR
xi
BAB 1
PENDAHULUAN
1
1.1
Latar Belakang
1
1.2
Rumusan Masalah
2
1.3
Tujuan Penelitian
3
1.4
Batasan Masalah
3
1.5
Manfaat Penelitian
3
1.6
Metode Penelitian
4
1.7
Sistematika Penulisan
4
BAB 2
LANDASAN TEORI
6
2.1
Pencemaran Lingkungan
6
2.1.1
Pencemaran udara
6
2.1.2
Kualitas udara dan kesehatan
8
2.1.3
Air Quality Index
9
2.2
Web Scraping
10
2.2.1
11
Struktur Semantik
Universitas Sumatera Utara
2.3
BAB 3
BAB 4
2.2.2
HTML Parser
12
2.2.3
Extracting and Saving Data
12
Sistem Terdistribusi
13
2.3.1
Raspberry Pi
14
2.3.2
Message Passing
15
2.3.3
Multithreading
16
2.4
Naïve Bayes Classifier
17
2.5
Penelitian Terdahulu
18
ANALISIS DAN PERANCANGAN
20
3.1
Data Yang Digunakan
20
3.2
Arsitektur Umum
21
3.2.1
Web Scraping
22
3.2.2
Data Cleaning
25
3.2.3
Data Selection
26
3.3
Perancangan Server Cluster Raspberry Pi
26
3.4
Naïve Bayes Classifier
27
3.5
Perancangan Antarmuka Sistem
31
3.5.1
Perancangan Halaman Utama Hasil Klasifikasi
31
3.5.2
Perancangan Halaman Informasi Health Concern
32
IMPLEMENTASI DAN PENGUJIAN
33
4.1
Implementasi Sistem
33
4.1.1
Konfigurasi Perangkat Keras
33
4.1.2
Konfigurasi Perangkat Lunak
34
4.2
Implementasi Perancangan Antar Muka
34
4.2.1
34
Tampilan Halaman Informasi Kualitas Udara
Universitas Sumatera Utara
4.2.2
4.3
BAB 5
Tampilan Halaman Informasi Health Concern
36
Pengujian Sistem
38
4.3.1
Pengujian Cluster Server
38
4.3.2
Pengujian Web Scraping Data Polusi
41
4.3.3
Pengujian Pengambilan Data Cuaca
44
4.3.4
Pengujian Klasifikasi Kualitas Udara
47
KESIMPULAN DAN SARAN
47
5.1
Kesimpulan
47
5.2
Saran
47
DAFTAR PUSTAKA
48
Universitas Sumatera Utara
DAFTAR TABEL
Tabel 2. 1 Bahan Yang Menghasilkan Pencemaran Udara
8
Tabel 2. 2 Level Pencemaran menurut AQI
9
Tabel 2. 3 Penelitian Terdahulu
19
Tabel 3. 1 Tabel Frekuensi AQI Level selama 24 Jam
29
Tabel 3. 2 Tabel Kemungkinan Berdasarkan tabel frekuensi
29
Tabel 4. 1 Konfigurasi perangkat keras yang digunakan
33
Tabel 4. 2 Konfigurasi perangkat lunak yang digunakan
34
Universitas Sumatera Utara
DAFTAR GAMBAR
Gambar 2. 1 Siklus pencemaran udara (Sumber : http://scienceunraveled.com/)
7
Gambar 2. 2 Object Tree Model (Sumber: www.w3schools.com)
12
Gambar 2. 3 Arsitektur Sistem Terdistribusi (Sumber : skullbox.net)
14
Gambar 2. 4 Raspbery Pi 2 (Sumber : raspberrypi.org )
15
Gambar 2. 5 Single Threaded dan Multi Threaded Process (Sumber : Silberchatz) 17
Gambar 3. 1 Halaman Website aqicn.org (Sumber : http://aqicn.org)
21
Gambar 3. 2 Arsitektur Umum
22
Gambar 3. 3 Pseudocode Web Scraping
23
Gambar 3. 4 Data yang akan diambil (sumber: http://aqicn.org/beijing)
24
Gambar 3. 5 Potongan code isi Wrapper
25
Gambar 3. 6 Raw data yang tidak valid
26
Gambar 3. 7 Arsitektur Raspberry Pi Server Grid
27
Gambar 3. 8 Data AQI selama 24 jam
28
Gambar 3. 9 Rancangan tampilan halaman utama
32
Gambar 3. 10 Rancangan tampilan halaman Health Concern
33
Gambar 4.1 Tampilan halaman utama Kualitas Udara
35
Gambar 4.2 Tampilan dialog indikator kualitas udara
36
Gambar 4.3 Tampilan halaman informasi Health Concern
37
Gambar 4.4 Form Untuk memilih Jenis Polutan dan Level Batas
37
Gambar 4.5 Tampilan hasil informasi pemilihan polutan
38
Gambar 4.6 Raspberry Pi Cluster Server
39
Gambar 4.7 Status Network File System pada Master Node
40
Gambar 4.8 Status mounting Network File System pada Slave Node
41
Gambar 4.9 Tampilan Halaman sebelum dilakukan scraping (jam 13.50)
42
Universitas Sumatera Utara
Gambar 4.10 Eksekusi command Curl untuk melakukan scraping
42
Gambar 4.11 Tampilan Halaman setelah dilakukan scraping (jam 14.05)
43
Gambar 4.12 Hasil Log web scraping
44
Gambar 4.13 Potongan File JSON hasil pengambilan Data Cuaca
46
Gambar 4.14 Hasil Klasifikasi Kualitas Udara
47
Universitas Sumatera Utara