Preprocessing Data Mining Analisis Data

inisialisasi pada sistem informasi analisis data kecelakaan lalu lintas yang diterapkan pada web berbasis PHP dengan perhitungan manual yang telah dilakukan sebelumnya menggunakan microsoft excel. 4.3 Pembahasan

4.3.1 Preprocessing Data Mining

Data yang didapat sering kali masih bersifat “kotor”, kotor yang dimaksud adalah data masih bersifat incomplete, noisy, dan inconsistent. Incomplete merupakan tidak lengkapnya nilai suatu attribute, tidak lengkapnya atribut-atribut yang penting, atau hanya mempunyai data yang merupakan rekapitulasi. Noisy merupakan data masih mengandung error atau merupakan value yang tidak wajar. Inconsistent merupakan data masih mengandung nilai yang saling betentangan. Masalah ini muncul karena perbedaan sumber data, karena pada data mining data didapatkan dari banyak sumber dan sangat mungkin terdapat perbedaan persepsi pengolahan data. Selain itu permasalahan ini bisa muncul Karena pelangaran terhadap functional dependency misalnya melakukan perubahan pada data yang terhubung dengan data lain. Apabila data tidak dalam kualitas yang sama maka bisa jadi kualitas analisa data menjadi menurun sehingga hasilnya pun kurang bermakna, hal tersebut harus dihindarkan karena hasil analisa yang salah bisa berujung pada solusi yang salah. Untuk itu perlu dilakukan data preprocessing yang tujuannya membuat data menjadi lebih berkualitas. Data yang digunakan berjumlah 1.303 korban atau pelaku yang melibatkan kendaraan bermotor dan tercatat dalam laporan kecelakaan lalu lintas jalan raya tahun 2014. Dari data kecelakaan tersebut banyak mengandung banyak variabel atau informasi yang dapat digunakan dalam menentukan penyebab terjadinya kecelakaan, variabel tersebut adalah nama pengemudi, umur pengemudi, pekerjaan, tempat kejadian, penyebab, hari, tanggal, jam kejadian, jenis kendaraan, merek kendaraan, tipe kendaraan, dan jenis transmisi. Walaupun demikian tidak semua variabel dalam data kecelakaan tersebut dapat diikutsertakan dalam proses klasifikasi. Hal ini disebabkan oleh kekurangan kelengkapan data yang tercantum pada laporan kecelakaan yang ada. Hanya variabel yang berpengaruh dalam terjadinya kecelakaan saja yang dapat diikutsertakan dalam proses klasifikasi. Variabel pengelompokan data awal dibentuk atas tiga unsur dasar yang menentukan keamanan jalan raya, yaitu : kendaraan, pengemudi serta fisik jalan itu sendiri. Pengelompokan data tersebut juga diperkuat oleh peraturan perundang- undangan yang mengatur tentang syarat keamanan jalan. Anggota setiap variabel dikelompokkan berdasarkan usia pelaku atau korban yang bertujuan untuk mengetahui kelompok usia di mana angka kecelakaan lalu lintas dalam kategori berbahaya, waspada, atau hati-hati. Sehingga langkah pencegahan dapat dilakukan secara objektif dan terarah. Variabel pertama adalah untuk menentukan jenis kendaraan yang sering terlibat dalam kejadian kecelakaan, pada variabel ini dibagi menjadi 3 jenis kendaraan yaitu: kendaraan roda dua motor, kendaraan roda empat mobil, dan kendaraan lebih dari roda empat trukbus. Variabel kedua adalah penyebab kejadian kecelakaan, variabel ini merujuk pada Undang-undang Lalu Lintas dan Angkutan Jalan. Variabel ini dibagi atas 4 faktor penyebab kecelakaan lalu lintas, yaitu: faktor pengemudi, faktor jalan, faktor lingkungan, dan faktor kendaraan. Dalam laporan tahunan Polrestabes Semarang juga terdapat hari pada saat kecelakaan terjadi, hari-hari yang terdapat dalam satu minggu dapat dipetakan menjadi 3 jenis hari, yaitu: hari kerja, hari libur, dan akhir Minggu. Hal ini dapat membantu dalam menentukan jenis hari di mana angka kecelakaan paling tinggi.

4.3.2 Inisialisasi Centroid