Latar Belakang Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

BAB 1 PENDAHULUAN

1.1. Latar Belakang

Data cleaning merupakan salah satu tahap pada data mining. Data cleaning biasa disebut dengan data cleansing atau scrubbing. Proses data cleaning dilakukan untuk menghilangkan kesalahan informasi pada data Rahm Do, 2000. Sehingga proses data cleaning dapat digunakan untuk menentukan data yang tidak akurat, tidak lengkap atau tidak benar dan untuk memperbaiki kualitas data melalui pendeteksian kesalahan pada data Tamilselvi Saravan, 2010. Data cleaning dapat dilakukan dengan satu sumber atau beberapa sumber data. Pada satu atau beberapa sumber data juga terdapat permasalahan pada level skema ataupun level instance. Permasalahan pada level skema dapat diselesaikan dengan perbaikan desain, translation dan schema integration. Sedangkan pada tingkat instance terdapat kesalahan dan inkonsistensi pada data yang menjadi fokus permasalahan yang dapat diselesaikan dengan data cleaning Rahm Do, 2000. Salah satu permasalahan kesalahan pada data dari satu atau beberapa sumber data adalah data duplikat. Contoh permasalahan duplikat pada data yaitu terdapat beberapa data seseorang yang berisi nilai yang sama sehingga terjadi data duplikat. Oleh karena itu, dibutuhkan sebuah pendekatan untuk dapat mengoptimalkan proses data cleaning. Beberapa penelitian sebelumnya telah dilakukan untuk menyelesaikan permasalahan data cleaning pada data duplikat, diantaranya yaitu penelitian yang dilakukan oleh Riezka, 2010. Analisis kinerja metode multi-pass neighborhood dalam mendeteksi duplikasi record dapat dilakukan dengan baik pada data identitas mahasiswa dengan jumlah data 1987 record. Universitas Sumatera Utara Penelitian yang dilakukan oleh He et al, 2011 yaitu penggunaan multi-pass sorted-neighborhood MPN untuk melakukan efisiensi cleaning data duplikat yang dapat dilakukan dengan baik. Metode leveinsthein distance juga pernah digunakan untuk penelitian lain yaitu penelitian yang dilakukan oleh Primadani, 2014. Leveinsthein distance digunakan untuk pencarian judul buku pada katalog perpustakaan. Algoritma ini digunakan untuk menghasilkan layanan autocomplete dalam memprediksi judul buku yang diberikan oleh pengguna. Pada penelitian ini, metode leveinsthein distance digunakan untuk menyelesaikan pengambilan keputusan duplikat data pada data identitas costumer. Kelebihan dari metode leveinsthein distance ini adalah dapat mengetahui kemiripan string pada data dengan edit distance berupa jarak antara dua string Ugon et al, 2015. Perbedaan penelitian ini dengan yang lain adalah metode n-gram dan jaccard pada penentuan ukuran window dan data yang dapat diinputkan dalam excel. Sedangkan untuk pre-processing data pada penelitian ini menggunakan regular expression yang mengubah data menjadi lowercase dan memisahkan atribut nama menjadi last name dan first name Riezka, 2010. Selanjutnya proses menghubungkan duplikat data pada penelitian ini akan menggunakan metode transitive closure. Sebuah alternatif informasi tentang data cleaning pada duplikat record dapat dilakukan pada data identitas costumer. Untuk itu penulis mengusulkan sebuah pendekatan untuk mengidentifikasi data yang didalamnya terdapat duplikat record pada data identitas. Hasil penelitian ini diharapkan dapat memberikan manfaat dalam mengidentifikasi duplikat pada data. Sehingga dapat mempermudah dalam melakukan proses cleaning data duplikat.

1.2. Rumusan Masalah