Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

vi

ABSTRAK

Data cleaning merupakan salah satu tahap pada data mining. Data cleaning biasa
disebut dengan data cleansing atau scrubbing. Proses data cleaning dilakukan untuk
menghilangkan kesalahan informasi pada data. Data cleaning dapat dilakukan dengan
satu sumber atau beberapa sumber data. Salah satu permasalahan kesalahan pada data
dari satu sumber data adalah data duplikat. Data cleaning dapat dilakukan pada data
duplikat untuk mendapatkan data yang berkualitas baik. Kualitas data yang baik dapat
diketahui dengan adanya informasi yang benar pada data tanpa adanya data duplikat.
Namun pembersihan data yang dilakukan secara manual membutuhkan ketelitian dan
menghabiskan banyak waktu karena jumlah data yang besar. Penelitian ini
mengidentifikasi data duplikat dalam proses cleaning data duplikat pada data
identitas. Proses identifikasi data duplikat menggunakan metode leveinsthein distance
untuk mengidentifikasi kemiripan jarak antara dua string pada data. Dalam penelitian
ini menggunakan 3023 data dengan tingkat akurasi yang diperoleh mencapai 95%.

Kata Kunci : data duplikat, leveinsthein distance, data cleaning, data mining.

Universitas Sumatera Utara


vii

DATA CLEANING ON DUPLICATE DATA WITH
LEVEINSTHEIN DISTANCE METHOD

ABSTRACT

Data cleaning is one of the phases in data mining. Data cleaning is often called as data
cleansing or data scrubbing. The process of data cleaning is aimed at removing the
false information in the data. Data cleaning can be performed by one or several data
resources. One of the common problems in data is duplicate data. Data cleaning can
be used to remove duplicate data in order to get good quality of data. Quality of data
can be seen from the availability of the right information without the existence of
duplicate data. Unfortunately, data cleaning which is often performed manually needs
thoroughness and spends a lot of time due to the size of the data. This research is to
identify duplicate data existed in data cleaning from identity data. The identification
process of duplicate data using leveinsthein distance has the purpose to identify the
similarity of both string’s distance in data. This research was using 3023 data with
95% of accuracy rate.


Keywords: data mining, duplicate data, levenshtein distance, data cleaning.

Universitas Sumatera Utara