Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

DATA CLEANING PADA DATA DUPLIKAT MENGGUNAKAN
LEVEINSTHEIN DISTANCE

SKRIPSI

MARSHA AYUDIA
111402104

PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2016

Universitas Sumatera Utara

iv

PERSETUJUAN

Judul


: DATA CLEANING PADA DATA DUPLIKAT
MENGGUNAKAN LEVEINSTHEIN DISTANCE

Kategori

: SKRIPSI

Nama

: MARSHA AYUDIA

Nomor Induk Mahasiswa

: 111402104

Program Studi

: SARJANA (S1) TEKNOLOGI INFORMASI


Departemen

: TEKNOLOGI INFORMASI

Fakultas

:

ILMU

KOMPUTER

DAN

TEKNOLOGI

INFORMASI
Komisi Pembimbing

:


Pembimbing 2

Pembimbing 1

Romi Fadillah Rahmat, B.Comp.Sc., M.Sc

Dr. Erna Budhiarti Nababan, M.Sc, IT

NIP. 19860303 201012 1004

NIP. –

Diketahui/disetujui oleh
Program Studi S1 Teknologi Informasi
Ketua,

Muhammad Anggia Muchtar, ST., MM.IT
NIP. 198001102008011010


Universitas Sumatera Utara

iii

PERNYATAAN

DATA CLEANING PADA DATA DUPLIKAT MENGGUNAKAN
LEVEINSTHEIN DISTANCE

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa
kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, Oktober 2016

MARSHA AYUDIA
111402104

Universitas Sumatera Utara


iv

UCAPAN TERIMA KASIH

Puji dan syukur kehadirat Allah SWT, karena rahmat dan izin-Nya penulis dapat
menyelesaikan penyusunan skripsi ini, sebagai syarat untuk memperoleh gelar Sarjana
Komputer, pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan
Teknologi Informasi Universitas Sumatera Utara.

Ucapan terima kasih penulis sampaikan kepada:

1.

Bapak Prof. Dr. Runtung Sitepu, SH, M.Hum selaku Rektor Universitas
Sumatera Utara

2.

Bapak Prof. Dr. Opim Salim Sitompul, M.Sc selaku Dekan Fasilkom-TI USU


3.

Bapak Muhammad Anggia Muchtar, ST., MM.IT selaku Ketua Program Studi
S1 Teknologi Informasi Universitas Sumatera Utara.

4.

Ibu Dr. Erna Budhiarti Nababan, M.IT selaku Dosen Pembimbing I yang telah
memberikan bimbingan dan saran kepada penulis.

5.

Bapak Romi Fadhillah Rahmat, ST., M.Sc selaku Dosen Pembimbing II yang
telah memberikan bimbingan dan saran kepada penulis.

6.

Bapak Dani Gunawan ST., M.T selaku Dosen Pembanding I yang telah
memberikan kritik dan saran dalam penyempurnaan skripsi ini.


7.

Ibu Amalia ST., M.T selaku Dosen Pembanding II yang telah memberikan kritik
dan saran dalam penyempurnaan skripsi ini.

8.

Seluruh Dosen dan Pegawai Program Studi S1 Teknologi Informasi Universitas
Sumatera Utara

9.

Ayahanda Ir.Dasmen Nazar M.M dan Ibunda drg.Nelmi Jamali yang selalu
memberikan doa, kasih sayang dan dukungan kepada penulis.

10. Adik penulis Febbyola Ramanda, S.Ked., dan Sherly Fratista yang selalu
mendukung dan mendoakan penulis.

Universitas Sumatera Utara


v

11. Kerabat dekat Bapak Fajar, Ibu Liliana Sari, Ibu dr. Zarni Jamali, Ibu Cici Siska
Yani, Ibu Yunizam, drg.Vanazia Rizka Anggarini, Ayu Wahyuni dan Bapak
Sony yang selalu memberikan doa, dan dukungan kepada penulis
12. Teman – teman wacana skripsi, Ade Oktariani, Fahrunissa Khairani, Mewati
Panjaitan, Karina Ginting, Chairunnisaq, Rauva Chairani, Nabila Pindya dan
Abbas Munandar yang telah memberikan dukungan dan bantuan kepada penulis.
13. Teman seangkatan Wulandari Taringan, Anwar Pasaribu, Nurul Fatihah, Ruri
Dwi Pari, Tiffany Zatalini, Vanesa Felicia, Para senior Teknologi Informasi
Indra Aulia, Rini Jannati, Silvi Ou, Handra Akira Saito, dan Andean Arippa
yang telah memberikan nasehat dan pengetahuan kepada penulis.
14. Devina Monica, Jessica Putri, Nur Endah Safitri, Farah Nurul Huda yang selalu
memberikan semangat dan motivasi kepada penulis.
15. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat
penulis ucapkan satu per satu yang telah membantu penyelesaian skripsi ini.

Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah
memberikan


bantuan,

perhatian,

serta

dukungan

kepada

penulis

dalam

menyelesaikan skripsi ini.

Medan, Oktober 2016

Penulis


Universitas Sumatera Utara

vi

ABSTRAK

Data cleaning merupakan salah satu tahap pada data mining. Data cleaning biasa
disebut dengan data cleansing atau scrubbing. Proses data cleaning dilakukan untuk
menghilangkan kesalahan informasi pada data. Data cleaning dapat dilakukan dengan
satu sumber atau beberapa sumber data. Salah satu permasalahan kesalahan pada data
dari satu sumber data adalah data duplikat. Data cleaning dapat dilakukan pada data
duplikat untuk mendapatkan data yang berkualitas baik. Kualitas data yang baik dapat
diketahui dengan adanya informasi yang benar pada data tanpa adanya data duplikat.
Namun pembersihan data yang dilakukan secara manual membutuhkan ketelitian dan
menghabiskan banyak waktu karena jumlah data yang besar. Penelitian ini
mengidentifikasi data duplikat dalam proses cleaning data duplikat pada data
identitas. Proses identifikasi data duplikat menggunakan metode leveinsthein distance
untuk mengidentifikasi kemiripan jarak antara dua string pada data. Dalam penelitian
ini menggunakan 3023 data dengan tingkat akurasi yang diperoleh mencapai 95%.


Kata Kunci : data duplikat, leveinsthein distance, data cleaning, data mining.

Universitas Sumatera Utara

vii

DATA CLEANING ON DUPLICATE DATA WITH
LEVEINSTHEIN DISTANCE METHOD

ABSTRACT

Data cleaning is one of the phases in data mining. Data cleaning is often called as data
cleansing or data scrubbing. The process of data cleaning is aimed at removing the
false information in the data. Data cleaning can be performed by one or several data
resources. One of the common problems in data is duplicate data. Data cleaning can
be used to remove duplicate data in order to get good quality of data. Quality of data
can be seen from the availability of the right information without the existence of
duplicate data. Unfortunately, data cleaning which is often performed manually needs
thoroughness and spends a lot of time due to the size of the data. This research is to
identify duplicate data existed in data cleaning from identity data. The identification
process of duplicate data using leveinsthein distance has the purpose to identify the
similarity of both string’s distance in data. This research was using 3023 data with
95% of accuracy rate.

Keywords: data mining, duplicate data, levenshtein distance, data cleaning.

Universitas Sumatera Utara

viii

DAFTAR ISI

Hal.

PERSETUJUAN

ii

PERNYATAAN

iii

UCAPAN TERIMA KASIH

iv

ABSTRAK

vi

ABSTRACT

vii

DAFTAR ISI

viii

DAFTAR GAMBAR

xi

DAFTAR TABEL

xii

BAB 1 PENDAHULUAN
1.1

Latar Belakang

1

1.2

Rumusan Masalah

2

1.3

Batasan Masalah

3

1.4

Tujuan Penelitian

3

1.5

Manfaat Penelitian

3

1.6

Metodologi Penelitian

4

1.7

Sistematika Penulisan

5

BAB 2 LANDASAN TEORI
2.1

Data Mining

6

2.2

Data Cleaning

8

2.3

Data Duplikat

9

2.4

Pre-Processing

9

2.5

Multi-pass Neighborhood

10

2.6

N-gram

11

Universitas Sumatera Utara

2.7

Jaccard

11

2.8

Approximate String Matching

11

2.8. 1 Leveisthein Distance

12

Transitive Closure

13

2.9

2.10 Penelitian Terdahulu

13

BAB 3 ANALISI DAN PERANCANGAN
3.1

Data Yang Digunakan

17

3.2

Analisis Sistem

18

3.2.1

Input Data

19

3.2.2

Pre-Processing

20

3.2.3

Prmbentukan Key

20

3.2.4

Pengurutan Data pada Key

22

3.2.5

Pemisahan string pada Key

22

3.2.7

Pengukuran Kesamaan pada Key

23

3.2.8

Pengukuran Kesamaan Data Tiap Kolom pada Data

24

3.2.9

Pembacaan Data Duplikat pada Suatu Window

25

3.3

3.4

Perancangan Sistem

25

3.3.1

Analisis Pengguna

25

3.3.2

Diagram Use Case

25

3.3.3

Deskripsi Use Case

26

3.3.4

Activity Diagram

26

Perancangan Antarmuka

29

3.4.1

Rancangan Tampilan Halaman Utama

29

3.4.2

Rancangan Tampilan Halaman Proses

29

BAB 4 IMPLEMENTASI DAN PENGUJIAN
4.1

4.2

Kebutuhan Aplikasi

32

4.1.1

Perangkat Keras

32

4.1.2

Perangkat Lunak

32

Implementasi Perancangan Antarmuka

33

4.2.1

33

Halaman Utama

Universitas Sumatera Utara

33

4.2.2
4.3

Halaman Proses

Pengujian Sistem

33
37

BAB 5 KESIMPULAN DAN SARAN
5.1

Kesimpulan

41

5.2

Saran

42

DAFTAR PUSTAKA

43

Universitas Sumatera Utara

DAFTAR GAMBAR

Hal.
Gambar 2.1. Tahap pada Knowledge Discovery Database

6

Gambar 2.2. Gambar Tabel Data Yang Terdapat Duplikat

9

Gambar 2.3. Gambar Tabel Data Dan Key

10

Gambar 2.4. Window Pada Tahap Merge

11

Gambar 3.1. Penggunaan Data

17

Gambar 3.2. Arsitektur Umum

19

Gambar 3.3. Gambar Data Setelah Preprocessing

21

Gambar 3.4. Gambar Data Hasil Pembentukan Key 1, Key 2, Key 3

21

Gambar 3.5. Gambar Data Hasil Ascending

22

Gambar 3.6. Gambar Data Hasil N-Gram

22

Gambar 3.7. Gambar Data Hasil Jaccard

23

Gambar 3.8. Gambar Data Hasil Leveinsthein Distance

24

Gambar 3.9. Use Case sistem

26

Gambar 3.10. Activity Diagram Melihat Form Utama

27

Gambar 3.11. Activity Diagram Halaman Data Cleaning

27

Gambar 3.12. Activity Diagram Proses Data Cleaning

28

Gambar 3.14. Rancangan Tampilan Halaman Utama

29

Gambar 3.15. Rancangan Tampilan Proses

30

Gambar 4.1. Tampilan Halaman Utama

33

Gambar 4.2. Tampilan Halaman Proses

34

Gambar 4.3. Tampilan File Location

34

Gambar 4.4. Tampilan Pop-up pada saat tombol browse di klik

35

Gambar 4.5. Tampilan Setelah Tombol Proses Diklik

35

Gambar 4.6. Tampilan Proses Data Cleaning

36

Gambar 4.7. Tampilan Hasil Output Data Duplikat

36

Universitas Sumatera Utara

DAFTAR TABEL

Hal.
Tabel 2.1.

Peneliti Terdahulu

14

Tabel 3.1.

Deskripsi Use Case Data Cleaning

26

Tabel 4.1.

Tabel Data

37

Tabel 4.2.

Tabel Hasil Data duplikat

38

Tabel 4.3.

Tabel Pengujian

39

Tabel 4.4.

Tabel Hasil Pengujian

39

Universitas Sumatera Utara