Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

BAB 1
PENDAHULUAN

1.1. Latar Belakang
Data cleaning merupakan salah satu tahap pada data mining. Data cleaning biasa
disebut dengan data cleansing atau scrubbing. Proses data cleaning dilakukan untuk
menghilangkan kesalahan informasi pada data (Rahm & Do, 2000). Sehingga proses
data cleaning dapat digunakan untuk menentukan data yang tidak akurat, tidak
lengkap atau tidak benar dan untuk memperbaiki kualitas data melalui pendeteksian
kesalahan pada data (Tamilselvi & Saravan, 2010). Data cleaning dapat dilakukan
dengan satu sumber atau beberapa sumber data. Pada satu atau beberapa sumber data
juga terdapat permasalahan pada level skema ataupun level instance. Permasalahan
pada level skema dapat diselesaikan dengan perbaikan desain, translation dan schema
integration. Sedangkan pada tingkat instance terdapat kesalahan dan inkonsistensi

pada data yang menjadi fokus permasalahan yang dapat diselesaikan dengan data
cleaning (Rahm & Do, 2000). Salah satu permasalahan kesalahan pada data dari satu

atau beberapa sumber data adalah data duplikat. Contoh permasalahan duplikat pada
data yaitu terdapat beberapa data seseorang yang berisi nilai yang sama sehingga
terjadi data duplikat. Oleh karena itu, dibutuhkan sebuah pendekatan untuk dapat

mengoptimalkan proses data cleaning.
Beberapa penelitian sebelumnya telah dilakukan untuk menyelesaikan
permasalahan data cleaning pada data duplikat, diantaranya yaitu penelitian yang
dilakukan oleh (Riezka, 2010). Analisis kinerja metode multi-pass neighborhood
dalam mendeteksi duplikasi record dapat dilakukan dengan baik pada data identitas
mahasiswa dengan jumlah data 1987 record.

Universitas Sumatera Utara

2

Penelitian yang dilakukan oleh (He et al, 2011) yaitu penggunaan multi-pass
sorted-neighborhood (MPN) untuk melakukan efisiensi cleaning data duplikat yang

dapat dilakukan dengan baik.
Metode leveinsthein distance juga pernah digunakan untuk penelitian lain
yaitu penelitian yang dilakukan oleh (Primadani, 2014). Leveinsthein distance
digunakan untuk pencarian judul buku pada katalog perpustakaan. Algoritma ini
digunakan untuk menghasilkan layanan autocomplete dalam memprediksi judul buku
yang diberikan oleh pengguna.

Pada penelitian ini,

metode leveinsthein

distance

digunakan

untuk

menyelesaikan pengambilan keputusan duplikat data pada data identitas costumer .
Kelebihan dari metode leveinsthein distance ini adalah dapat mengetahui kemiripan
string pada data dengan edit distance berupa jarak antara dua string (Ugon et al,

2015). Perbedaan penelitian ini dengan yang lain adalah metode n-gram dan jaccard
pada penentuan ukuran window dan data yang dapat diinputkan dalam excel.
Sedangkan untuk pre-processing data pada penelitian ini menggunakan regular
expression yang mengubah data menjadi lowercase dan memisahkan atribut nama

menjadi last name dan first name (Riezka, 2010). Selanjutnya proses menghubungkan

duplikat data pada penelitian ini akan menggunakan metode transitive closure.
Sebuah alternatif informasi tentang data cleaning pada duplikat record dapat
dilakukan pada data identitas costumer . Untuk itu penulis mengusulkan sebuah
pendekatan untuk mengidentifikasi data yang didalamnya terdapat duplikat record
pada data identitas. Hasil penelitian ini diharapkan dapat memberikan manfaat dalam
mengidentifikasi duplikat pada data. Sehingga dapat mempermudah dalam melakukan
proses cleaning data duplikat.
1.2. Rumusan Masalah
Proses data cleaning dapat diterapkan pada raw data yang di dalamnya terdapat data
duplikat (redundant) yang dilakukan untuk mendapatkan data yang berkualitas baik.
Kualitas data yang baik dapat diketahui dengan adanya informasi yang benar pada
data. Namun pembersihan data yang dilakukan secara manual membutuhkan ketelitian

Universitas Sumatera Utara

3

dan menghabiskan banyak waktu karena jumlah data yang besar. Untuk itu
dibutuhkan sebuah pendekatan untuk dapat mengoptimalkan proses data cleaning.
1.3. Batasan Masalah

Dalam melakukan penelitian ini, peneliti membatasi ruang masalah yang akan diteliti.
Batasan-batasan masalah tersebut diantaranya yaitu :
1. Proses cleaning data yang akan dilakukan hanya pada data duplikat.
2. Tidak melakukan cleaning data inconsistence dan incorrect.
3. Hanya memproses data nama dengan maksimal dua kata yaitu first name dan
last name.

4. Tidak melakukan proses penggabungan data.
5. Output yang dihasilkan adalah identifikasi duplikat record pada data.

1.4. Tujuan Penelitian
Adapun tujuan dari penelitian ini yaitu untuk mengidentifikasi duplikat data dalam
proses cleaning data duplikat pada data identitas menggunakan leveinsthein distance.

1.5. Manfaat Penelitian
Manfaat dari penelitian ini yaitu :
1.

Dapat mengoptimalkan proses cleaning data yang memiliki duplikat record.


2.

Menambah pengetahuan penulis dalam penggunaan algoritma leveinsthein
distance.

3.

Sebagai referensi untuk penelitian selanjunya.

Universitas Sumatera Utara

4

1.6. Metodologi Penelitian
Tahapan-tahapan yang akan dilakukan dalam pelaksanaan penelitian ini adalah
sebagai berikut :
1. Studi Literatur
Tahap studi literatur ini dilaksanakan untuk mengumpulkan bahan-bahan
referensi yang berkaitan dengan penelitian tentang duplikasi record, data
mining, data cleaning, text processing, metode multi-pass neighborhood,

transitive closure, n-gram dan leveinsthein distance.

2. Analisis Permasalahan
Pada tahap ini dilakukan analisis terhadap bahan referensi yang telah diperoleh
yang terkait dengan penelitian agar didapatkan metode yang tepat untuk
menyelesaikan masalah dalam penelitian ini.
3. Perancangan Sistem
Pada

tahap

ini

dilakukan

perancangan

sistem

untuk


menyelesaikan

permasalahan yang terdapat di dalam tahap analisis. Kemudian dilanjutkan
dengan mengimplementasikan hasil analisis dan perancangan ke dalam sistem.
4. Implementasi
Pada tahap ini akan dilakukan proses implementasi program menggunakan
metode yang telah ditentukan dan dari data yang telah dikumpulkan.
5. Pengujian Sistem
Pada tahap ini dilakukan proses pengujian terhadap sistem untuk memastikan
sistem yang dibuat dapat berjalan seperti yang diharapkan.
6. Penyusunan Laporan
Pada tahap ini dilakukan dokumentasi dan penyusunan laporan terhadap analisis
dan implementasi leveinsthein distance untuk mengidentifikasi duplikat record
pada data identitas.
1.7. Sistematika Penulisan
Sistematika penulisan dari penelitian ini terdiri atas lima bab, yaitu :

Universitas Sumatera Utara


5

BAB I : Pendahuluan
Bab ini berisikan latar belakang, rumusan masalah, batasan masalah, tujuan
penelitian, manfaat penelitian, metodologi penelitian, dan sistematika
penulisan.
BAB II : Landasan Teori
Bab ini berisikan teori-teori yang digunakan untuk memahami permasalahan
yang dibahas pada penelitian ini. Pada bab ini dijelaskan tentang penerapan
metode yang digunakan pada penelitian.
BAB III : Analisis dan Perancangan
Bab ini berisikan analisis terhadap permasalahan dan perancangan sistem yang
akan dibangun berdasarkan metode yang akan diterapkan dalam sistem.
BAB IV : Implementasi dan Pengujian
Bab ini berisikan pembahasan tentang implementasi dari analisis dan
perancangan yang disusun pada Bab III. Selain itu akan dijabarkan hasil
implemetasi yang didapatkan.
BAB V : Kesimpulan dan Saran
Bab ini berisikan kesimpulan dari keseluruhan uraian pada bab-bab
sebelumnya dan. Bagian akhir bab ini akan berisi saran-saran yang diajukan

untuk pengembangan pada penelitian selanjutnya.

Universitas Sumatera Utara