Naïve Bayes Classifier Penelitian Terdahulu

Gambar 2. 5 Single Threaded dan Multi Threaded Process Sumber : Silberchatz, 2013 Thread didalam sistem operasi dapat diimplementasikan dengan menggunakan library tambahan dengan sebuah API untuk membuat dan mengelola thread. Umumnya terdapat tiga library utama yang digunakan pada masa sekaran ini, yaitu : POSIX Pthreads,Windows, and Java. Seiring dengan berkembangnya bahasa pemrograman, python code mempunyai library sendiri untuk mengelola dan membuat thread.

2.4 Naïve Bayes Classifier

Naïve Bayes merupakan sebuah teknik klasifikasi berdasarkan Teorema Bayes dengan asumsi bahwa setiap objek untuk melakukan prediksi tidak terikat atau bebas. Secara singkat, Naive Bayes classifier mengasumsikan bahwa keberadaan fitur tertentu pada sebuah kelas tidak berhubungan dengan fitur yang lain. Sebagai contoh, sebuah buah dikategorikan sebagai apel jika berwarna merah, berbentuk bundar dan mimiliki diameter 3 inchi. Bahkan jika fitur tersebut bergantung satu dengan yang lainnya, setiap properti bersifat bebas untuk saling berkontribusi dan menyatakan bahwa buah tersebut adalah apel, oleh karena itu algoritma ini disebut dengan Naïve Koduvely, 2015. Misalkan sebuah masalah supervised learning yang mana ingin kita tentukan fungsi target f : X Y, atau sama seperti PY|X. Diasumsikan Y merupakan sebuah variabel bernilai boolean random dan X merupakan vektor yang menyimpan atribut boolean atau X = hX 1 ;X 2 : : : ;X ni , dimana X i merupakan boolean. Dengan 2.2 Universitas Sumatera Utara mengaplikasikan aturan Bayes dapat kita lihat bahwa PY = y i |X dapat digambarkan dengan rumus : �� = � � | � = � � = �� = � � | � = � � �� = � � ∑ ��� = � � �� = � � ��� = � � �

2.5 Penelitian Terdahulu

Beberapa penelitian terkait Web Scraping dan klasifikasi telah banyak dilakukan oleh beberapa peneliti, diantara peneliti tersebut penulis menggunakan beberapa penelitian sebagai sumber referensi pada penelitian ini. Pereira pada penelitiannya menggunakan teknik web scraping untuk melakukan ekstraksi data pada media sosial. Pada penelitian tersebut dijelaskan melalui web scraping, data yang tidak terstruktur dikonversikan menjadi data yang lebih terstruktur dan dapat disimpan serta diverifikasi pada bank data yang tersentralisasi. Tujuannya untuk mengumpulkan, menyimpan dan menganalisis data dari social media dikarenakan social media merupakan tempat data yang dibagikan secara bebas. Dengan demikian ekstraksi data web merupakan sebuah proses untuk mengubah konten yang bermanfaat pada website menjadi aset bisnis yang sangat berharga Pereira, 2015. Sementara pada penelitian Abdillah Josi, teknik web scraping diimplementasikan pada mesin pencari artikel ilmiah seperti portal garuda, Indonesian scientific journal databases ISJD, dan google scholar Josi, 2014. Untuk data yang telah dikumpulkan menggunakan teknik web scraping, penelitian menggunakan hybrid model proses dengan mengaplikasikan Bayessian Networks untuk menganalisis pengetahuan sehingga menghasilkan model yang dapat memberikan peramalan secara multi-class. Welter, 2013. Berdasarkan hasil tersebut, algoritma naïve bayes dapat memberikan bentuk peramalan yang efektif dengan dikarenakan naïve bayes menggunakan teorema Bayes untuk mendapatkan tabel ramalan pada model klasifikasinya. Dengan menggabungkan literatur penelitian yang dilakukan oleh Corani, kualitas udara dapat diklasifikasikan dengan membaginya dalam beberapa class Corani, 2016. Setelah mengolah data kualitas udara dengan model tersebut, makan selanjutnya visualisasi hasil data diperlukan. Penelitian Liao memberikan contoh teknik dalam visualisasi data kualitas udara dalam melakukan monitoring. Penelitian Universitas Sumatera Utara yang telah disebutkan mengenai data grabing dan klasifikasi naïve bayes yang dapat dilihat pada tabel 2.3. Tabel 2. 3 Penelitian Terdahulu No. Peneliti Tahun Keterangan 1. Pereira, R, C Vanitha T 2015 Penelitian ini melakukan implementasi teknik Web Scraping untuk mendapatkan data yang ditampilkan melalui jejaring sosial. 2. Josi, A., Abdillah, A,L., Suryayusra 2014 Penelitian ini menjelaskan struktur dan pseudocode langkah penererapan teknik Web Scraping 3. Liu, A., Huang, M., Kim T.K., Yoo., C. 2012 Penelitian ini menjelaskan mengenai pengumpulan data udara menggunakan sensor di beberapa titik. Universitas Sumatera Utara Tabel 2.3 Penelitian Terdahulu Lanjutan No. Peneliti Tahun Keterangan 4. Welter, S., Mayer, J.H. Quick, R 2013 Melakukan klasifikasi multi-class dengan menerapkan teorema Bayes pada Algoritma Naïve Bayes 5. Corani, G Scanagatta, S 2016 Tenik mengklasifikasi dengan menggunakan multi-label prediction pada polusi udara untuk mendapatkan prediksi akhir hasil polusi. 6. Liao Z, Peng Y., Li Y., Liang X. Zha Y. 2014 Visualisasi data dalam melakukan monitoring kualitas udara Universitas Sumatera Utara

BAB 1 PENDAHULUAN

1.1 Latar Belakang

Udara merupakan komponen penting yang dibutuhkan manusia dalam proses transpirasi. Meningkatnya pembangunan fisik kota dan pusat – pusat industri, komponen udara tersebut telah mengalami perubahan. Perubahan komponen udara tersebut berpengaruh pada perubahan kualitas udara dan berakibat pada pencemaran. Penurunan kualitas udara ini dapat mengganggu kesehatan masyarakat di sekitarnya Santi, 2012. Polusi udara, merupakan salah satu masalah utama yang sering dialami oleh kota-kota besar di negara berkembang. Dengan berkembangnya standar hidup, masyarakat cenderung memperhatikan bagaimana kesehatan tubuh dan lingkungan. Pengamatan terhadap kualitas udara dapat diukur berdasarkan Indeks Standar Pencemaran Udara ISPU, apakah konsentrasinya lebih tinggi atau lebih rendah dari ISPU. Terdapat lima parameter pencemaran udara yang digunakan untuk pengamatan berdasarkan ISPU, yaitu Karbon Monoksida CO, ozon permukaan O3, Tingkat Partikulat PM10, Oksida Nitrogen NOx, dan Sulfur Dioksida SO. Internet memberikan jumlah data dan informasi yang sangat besar, yang dapat kita akses dan unduh menggunakan sebuah web browser. Data hasil sensor sering dipublikasikan dalam halaman website khusus yang menampilkan data udara. Data di internet dapat diambil dengan melakukan ekstraksi elemen penyusun halaman website menjadi data yang dapat disimpan ke dalam database. Untuk dapat mengambil informasi tersebut dibutuhkanlah sebuah metode untuk dapat melakukan grabbing data Extracting and Saving yang disebut dengan Web Scraping. Web Scraping Turland, 2010 adalah proses pengambilan sebuah dokumen semi- terstruktur dari internet, umumnya berupa halaman-halaman web dalam bahasa markup seperti HTML atau Universitas Sumatera Utara