Act membutuhkan EPA untuk meninjau Standar Kualitas Air Ambient Nasional setiap lima tahun untuk mencerminkan berkembang informasi efek kesehatan. Indeks
Kualitas Udara disesuaikan secara berkala untuk mencerminkan perubahan ini. Rumus yang digunakan dalam melakukan kalkulasi nilai AQI adalah sebagai berikut :
� = �
ℎ��ℎ
− �
���
�
ℎ��ℎ
− �
���
� − �
���
+ �
���
dimana �
= ����� �������� U���� ,
� = Konsentrasi Polutan,
�
���
= ����� �����������≤�,
�
ℎ ��
ℎ
= ����� �����������≥�,
�
���
= ����� ����� ����������� ����,
�
ℎ ��
ℎ
= ����� ����� ����������� �
ℎ ��
ℎ ,
Jika beberapa pollutan diukur pada sistem monitoring, maka nilai AQI yang paling besar atau dominan yang akan dikirimkan untuk lokasi terntentu. Data
monitoring secara real time pada umumnya tersedia pada rata-rata waktu 1 jam. Namun, perhitungan AQI bagi beberapa pollutan membutuhkan nilai rata-rata dari
waktu yang cukup lama. Sebagai contoh untuk melakukan perhitungan AQI ozone membutuhkan perhitungan rata-rata selama 8 jam., sementara PM2.5 membutuhkan
rata-rata waktu 24 jam.
2.2 Web Scraping
Web scraping atau disebut juga dengan web harvesting atau web data extraction adalah sebuah teknik program komputer untuk melakukan ekstraksi informasi dari
sebuah halaman website. Web Scraping tidak dapat dimasukkan dalam bidang data mining karena data mining menyiratkan upaya untuk memahami pola semantik atau
tren dari sejumlah besar data yang telah diperoleh. Aplikasi web scraping juga
2.1
Universitas Sumatera Utara
disebut intelligent, automated, or autonomous agents hanya fokus pada cara memperoleh data melalui pengambilan dan ekstraksi data dengan ukuran data yang
bervariasi Josi et.al, 2014. Data dimanipulasi dengan menggunakan query. Kegiatan untuk melakukan
ekstraksi informasi terstruktur dari sebuah halaman website biasanya diimplementasikan pada program yang disebut wrapper Arasu Garcia-Molina,
2003. Web scraping memiliki sejumlah langkah, sebagai berikut: 1.
Create Scraping Template: Pembuat program mempelajari dokumen HTML dari website yang akan diambil informasinya untuk tag HTML
yang mengapit informasi yang akan diambil. 2.
Explore Site Navigation: Pembuat program mempelajari teknik navigasi pada website yang akan diambil informasinya untuk ditirukan pada
aplikasi web scraper yang akan dibuat. 3.
Automate Navigation and Extraction: Berdasarkan informasi yang didapat pada langkat 1 dan 2 di atas, aplikasi web scraper dibuat untuk
mengotomatisasi pengambilan informasi dari website yang ditentukan. 4.
Extracted Data and Package History: Informasi yang didapat dari langkah 3 disimpan dalam tabel di database.
2.2.1 Struktur Semantik
Semantic Web bertujuan untuk membangun sebuah framework yang memungkinkan data untuk dibagi dan digunakan kembali antar aplikasi, enterprise dan komunitas.
Dengan menggunakan RDF Resource Description Framework sebagai basis model data fleksibel dan menggunakan ontologi untuk merepresentasikan data semantik.
Banyak halaman website sekaran gmenggunakan model relasional dan XML tree model untuk merepresentasikan data terstruktur dan semi-terstruktur.
Sebuah XML Schema mendefinisikan sebuah dokumen yang memiliki sintaks yang valid dan tidak formal. Sementara halaman web HTML memiliki
struktur yang sama dengan XML namun sintak yang digunakan telah didefinisikan menurut standar W3C World Wide Web Consortium, sehingga halaman website
standar dapat direpresentasikan dengan tree model object yang menggambarkan data semantik yang terstruktur penyusun sebuah halaman website.
Universitas Sumatera Utara
Gambar 2. 2 Object Tree Model Sumber: www.w3schools.com
2.2.2 HTML Parser
Sebuah halaman website biasanya disusun menggunakan kode-kode standar berupa tag-tag html yang memiliki karakter karakter spesial dalam penyusunan halaman
website. Sebuah teknik untuk menganalisis dan membagi rangkarian string menjadi komponen-komponen dan menggambarkan aturan sintaksis disebut dengan parsing.
HTML parsing dapat diartikan dengan membaca kode kode html untuk membagi karakter sintaksis yang bertujuan untuk mengambil informasi yang relevan dari
sebuah halaman website. 2.2.3
Extracting and Saving Data Untuk dapat mengetahui data apa yang akan diambil dari metode web scraping,
terlebih dahulu diperlukan adanya pengenalan pola dari halaman website yang akan diambil datanya. Pengenalan pola template website dilakukan dengan memanfaatkan
struktur semantik dari alaman website tersebut. Setelah diperoleh template, kemudian dilakukan ekstraksi data dengan mengubah struktur semantik menjadi objek-objek
dokumen DOM dan menyimpannya ke dalam struktur array.
Data yang telah masuk ke dalam array kemudian disimpan ke dalam database dengan menggunakan query pada engine Mysql. Penyimpanan data dapat
dilakukan dengan melakukan eksekusi sintaks query untuk menyimpan data.
Universitas Sumatera Utara
2.3 Sistem Terdistribusi