Gambar 2. 5 Single Threaded dan Multi Threaded Process Sumber : Silberchatz, 2013
Thread didalam sistem operasi dapat diimplementasikan dengan menggunakan library tambahan dengan sebuah API untuk membuat dan mengelola
thread. Umumnya terdapat tiga library utama yang digunakan pada masa sekaran ini, yaitu : POSIX Pthreads,Windows, and Java. Seiring dengan berkembangnya bahasa
pemrograman, python code mempunyai library sendiri untuk mengelola dan membuat thread.
2.4 Naïve Bayes Classifier
Naïve Bayes merupakan sebuah teknik klasifikasi berdasarkan Teorema Bayes dengan asumsi bahwa setiap objek untuk melakukan prediksi tidak terikat atau bebas. Secara
singkat, Naive Bayes classifier mengasumsikan bahwa keberadaan fitur tertentu pada sebuah kelas tidak berhubungan dengan fitur yang lain. Sebagai contoh, sebuah buah
dikategorikan sebagai apel jika berwarna merah, berbentuk bundar dan mimiliki diameter 3 inchi. Bahkan jika fitur tersebut bergantung satu dengan yang lainnya,
setiap properti bersifat bebas untuk saling berkontribusi dan menyatakan bahwa buah tersebut adalah apel, oleh karena itu algoritma ini disebut dengan Naïve Koduvely,
2015. Misalkan sebuah masalah supervised learning yang mana ingin kita tentukan
fungsi target f : X Y, atau sama seperti PY|X. Diasumsikan Y merupakan sebuah variabel bernilai boolean random dan X merupakan vektor yang menyimpan atribut
boolean atau X = hX
1
;X
2
: : : ;X
ni
, dimana X
i
merupakan boolean. Dengan
2.2
Universitas Sumatera Utara
mengaplikasikan aturan Bayes dapat kita lihat bahwa PY = y
i
|X dapat digambarkan dengan rumus :
�� = �
�
| � = �
�
= �� = �
�
| � = �
�
�� = �
�
∑ ��� = �
�
�� = �
�
��� = �
� �
2.5 Penelitian Terdahulu
Beberapa penelitian terkait Web Scraping dan klasifikasi telah banyak dilakukan oleh beberapa peneliti, diantara peneliti tersebut penulis menggunakan beberapa penelitian
sebagai sumber referensi pada penelitian ini. Pereira pada penelitiannya menggunakan teknik web scraping untuk melakukan ekstraksi data pada media sosial.
Pada penelitian tersebut dijelaskan melalui web scraping, data yang tidak terstruktur dikonversikan menjadi data yang lebih terstruktur dan dapat disimpan serta
diverifikasi pada bank data yang tersentralisasi. Tujuannya untuk mengumpulkan, menyimpan dan menganalisis data dari social media dikarenakan social media
merupakan tempat data yang dibagikan secara bebas. Dengan demikian ekstraksi data web merupakan sebuah proses untuk mengubah konten yang bermanfaat pada website
menjadi aset bisnis yang sangat berharga Pereira, 2015. Sementara pada penelitian Abdillah Josi, teknik web scraping diimplementasikan pada mesin pencari artikel
ilmiah seperti portal garuda, Indonesian scientific journal databases ISJD, dan google scholar Josi, 2014.
Untuk data yang telah dikumpulkan menggunakan teknik web scraping, penelitian menggunakan hybrid model proses dengan mengaplikasikan Bayessian
Networks untuk menganalisis pengetahuan sehingga menghasilkan model yang dapat memberikan peramalan secara multi-class. Welter, 2013. Berdasarkan hasil tersebut,
algoritma naïve bayes dapat memberikan bentuk peramalan yang efektif dengan dikarenakan naïve bayes menggunakan teorema Bayes untuk mendapatkan tabel
ramalan pada model klasifikasinya. Dengan menggabungkan literatur penelitian yang dilakukan oleh Corani, kualitas udara dapat diklasifikasikan dengan membaginya
dalam beberapa class Corani, 2016. Setelah mengolah data kualitas udara dengan model tersebut, makan
selanjutnya visualisasi hasil data diperlukan. Penelitian Liao memberikan contoh teknik dalam visualisasi data kualitas udara dalam melakukan monitoring. Penelitian
Universitas Sumatera Utara
yang telah disebutkan mengenai data grabing dan klasifikasi naïve bayes yang dapat dilihat pada tabel 2.3.
Tabel 2. 3 Penelitian Terdahulu No. Peneliti
Tahun Keterangan
1. Pereira, R, C
Vanitha T 2015
Penelitian ini melakukan implementasi teknik Web Scraping untuk mendapatkan
data yang ditampilkan melalui jejaring sosial.
2. Josi, A., Abdillah,
A,L., Suryayusra 2014
Penelitian ini menjelaskan struktur dan pseudocode langkah penererapan teknik
Web Scraping 3.
Liu, A., Huang, M.,
Kim T.K., Yoo., C. 2012
Penelitian ini menjelaskan mengenai pengumpulan data udara menggunakan
sensor di beberapa titik.
Universitas Sumatera Utara
Tabel 2.3 Penelitian Terdahulu Lanjutan
No. Peneliti Tahun
Keterangan
4. Welter, S., Mayer,
J.H. Quick, R 2013
Melakukan klasifikasi multi-class dengan menerapkan teorema Bayes pada
Algoritma Naïve Bayes 5.
Corani, G
Scanagatta, S 2016
Tenik mengklasifikasi dengan menggunakan multi-label prediction pada
polusi udara untuk mendapatkan prediksi akhir hasil polusi.
6. Liao Z, Peng Y., Li
Y., Liang X. Zha Y.
2014 Visualisasi data dalam melakukan
monitoring kualitas udara
Universitas Sumatera Utara
BAB 1 PENDAHULUAN
1.1 Latar Belakang
Udara merupakan komponen penting yang dibutuhkan manusia dalam proses transpirasi. Meningkatnya pembangunan fisik kota dan pusat – pusat industri,
komponen udara tersebut telah mengalami perubahan. Perubahan komponen udara tersebut berpengaruh pada perubahan kualitas udara dan berakibat pada pencemaran.
Penurunan kualitas udara ini dapat mengganggu kesehatan masyarakat di sekitarnya Santi, 2012.
Polusi udara, merupakan salah satu masalah utama yang sering dialami oleh kota-kota besar di negara berkembang. Dengan berkembangnya standar hidup,
masyarakat cenderung memperhatikan bagaimana kesehatan tubuh dan lingkungan. Pengamatan terhadap kualitas udara dapat diukur berdasarkan Indeks Standar
Pencemaran Udara ISPU, apakah konsentrasinya lebih tinggi atau lebih rendah dari ISPU. Terdapat lima parameter pencemaran udara yang digunakan untuk pengamatan
berdasarkan ISPU, yaitu Karbon Monoksida CO, ozon permukaan O3, Tingkat Partikulat PM10, Oksida Nitrogen NOx, dan Sulfur Dioksida SO.
Internet memberikan jumlah data dan informasi yang sangat besar, yang dapat kita akses dan unduh menggunakan sebuah web browser. Data hasil sensor
sering dipublikasikan dalam halaman website khusus yang menampilkan data udara. Data di internet dapat diambil dengan melakukan ekstraksi elemen penyusun halaman
website menjadi data yang dapat disimpan ke dalam database. Untuk dapat mengambil informasi tersebut dibutuhkanlah sebuah metode untuk dapat melakukan
grabbing data Extracting and Saving yang disebut dengan Web Scraping. Web Scraping Turland, 2010 adalah proses pengambilan sebuah dokumen semi-
terstruktur dari internet, umumnya berupa halaman-halaman web dalam bahasa markup seperti HTML atau
Universitas Sumatera Utara