Web Scraping LANDASAN TEORI

Act membutuhkan EPA untuk meninjau Standar Kualitas Air Ambient Nasional setiap lima tahun untuk mencerminkan berkembang informasi efek kesehatan. Indeks Kualitas Udara disesuaikan secara berkala untuk mencerminkan perubahan ini. Rumus yang digunakan dalam melakukan kalkulasi nilai AQI adalah sebagai berikut : � = � ℎ��ℎ − � ��� � ℎ��ℎ − � ��� � − � ��� + � ��� dimana � = ����� �������� U���� , � = Konsentrasi Polutan, � ��� = ����� �����������≤�, � ℎ �� ℎ = ����� �����������≥�, � ��� = ����� ����� ����������� ����, � ℎ �� ℎ = ����� ����� ����������� � ℎ �� ℎ , Jika beberapa pollutan diukur pada sistem monitoring, maka nilai AQI yang paling besar atau dominan yang akan dikirimkan untuk lokasi terntentu. Data monitoring secara real time pada umumnya tersedia pada rata-rata waktu 1 jam. Namun, perhitungan AQI bagi beberapa pollutan membutuhkan nilai rata-rata dari waktu yang cukup lama. Sebagai contoh untuk melakukan perhitungan AQI ozone membutuhkan perhitungan rata-rata selama 8 jam., sementara PM2.5 membutuhkan rata-rata waktu 24 jam.

2.2 Web Scraping

Web scraping atau disebut juga dengan web harvesting atau web data extraction adalah sebuah teknik program komputer untuk melakukan ekstraksi informasi dari sebuah halaman website. Web Scraping tidak dapat dimasukkan dalam bidang data mining karena data mining menyiratkan upaya untuk memahami pola semantik atau tren dari sejumlah besar data yang telah diperoleh. Aplikasi web scraping juga 2.1 Universitas Sumatera Utara disebut intelligent, automated, or autonomous agents hanya fokus pada cara memperoleh data melalui pengambilan dan ekstraksi data dengan ukuran data yang bervariasi Josi et.al, 2014. Data dimanipulasi dengan menggunakan query. Kegiatan untuk melakukan ekstraksi informasi terstruktur dari sebuah halaman website biasanya diimplementasikan pada program yang disebut wrapper Arasu Garcia-Molina, 2003. Web scraping memiliki sejumlah langkah, sebagai berikut: 1. Create Scraping Template: Pembuat program mempelajari dokumen HTML dari website yang akan diambil informasinya untuk tag HTML yang mengapit informasi yang akan diambil. 2. Explore Site Navigation: Pembuat program mempelajari teknik navigasi pada website yang akan diambil informasinya untuk ditirukan pada aplikasi web scraper yang akan dibuat. 3. Automate Navigation and Extraction: Berdasarkan informasi yang didapat pada langkat 1 dan 2 di atas, aplikasi web scraper dibuat untuk mengotomatisasi pengambilan informasi dari website yang ditentukan. 4. Extracted Data and Package History: Informasi yang didapat dari langkah 3 disimpan dalam tabel di database. 2.2.1 Struktur Semantik Semantic Web bertujuan untuk membangun sebuah framework yang memungkinkan data untuk dibagi dan digunakan kembali antar aplikasi, enterprise dan komunitas. Dengan menggunakan RDF Resource Description Framework sebagai basis model data fleksibel dan menggunakan ontologi untuk merepresentasikan data semantik. Banyak halaman website sekaran gmenggunakan model relasional dan XML tree model untuk merepresentasikan data terstruktur dan semi-terstruktur. Sebuah XML Schema mendefinisikan sebuah dokumen yang memiliki sintaks yang valid dan tidak formal. Sementara halaman web HTML memiliki struktur yang sama dengan XML namun sintak yang digunakan telah didefinisikan menurut standar W3C World Wide Web Consortium, sehingga halaman website standar dapat direpresentasikan dengan tree model object yang menggambarkan data semantik yang terstruktur penyusun sebuah halaman website. Universitas Sumatera Utara Gambar 2. 2 Object Tree Model Sumber: www.w3schools.com 2.2.2 HTML Parser Sebuah halaman website biasanya disusun menggunakan kode-kode standar berupa tag-tag html yang memiliki karakter karakter spesial dalam penyusunan halaman website. Sebuah teknik untuk menganalisis dan membagi rangkarian string menjadi komponen-komponen dan menggambarkan aturan sintaksis disebut dengan parsing. HTML parsing dapat diartikan dengan membaca kode kode html untuk membagi karakter sintaksis yang bertujuan untuk mengambil informasi yang relevan dari sebuah halaman website. 2.2.3 Extracting and Saving Data Untuk dapat mengetahui data apa yang akan diambil dari metode web scraping, terlebih dahulu diperlukan adanya pengenalan pola dari halaman website yang akan diambil datanya. Pengenalan pola template website dilakukan dengan memanfaatkan struktur semantik dari alaman website tersebut. Setelah diperoleh template, kemudian dilakukan ekstraksi data dengan mengubah struktur semantik menjadi objek-objek dokumen DOM dan menyimpannya ke dalam struktur array. Data yang telah masuk ke dalam array kemudian disimpan ke dalam database dengan menggunakan query pada engine Mysql. Penyimpanan data dapat dilakukan dengan melakukan eksekusi sintaks query untuk menyimpan data. Universitas Sumatera Utara

2.3 Sistem Terdistribusi