Gambar 4.6. Tampilan Proses Data Cleaning
Setelah keseluruhan proses selesai akan ditampilkan hasil dari identifikasi duplikat data. Hasil identifikasi ini akan ditampilkan ke tabel data clean yang berisi
tampilan data duplikat yang telah ditemukan dan dapat dilihat pada Gambar 4.7
Gambar 4.7. Tampilan Hasil Output Data Duplikat
4.3. Pengujian Sistem
Pada proses pengujian sistem data digunakan 3023 data. Adapun data yang digunakan untuk proses cleaning pada data duplikat dapat dilihat pada Tabel 4.1 dan 4.2
Universitas Sumatera Utara
Tabel 4.1. Tabel Data
ID Nama
Jk Nama ibu
Alamat
1 ARI ADHY CIPTO
P L
ENDANG SUSILOWATI
PERUM GRIYA BAGASARI BLOK A5 NO
05 RT 0201 DS SUKARUKUN KEC
SUKATANI BEKASI
2 R HENDRA
SURYAKUSUMA L
JUMINAH JL MANDOR IREN NO 33
RT 0209 SUNTER JAYA TJ PRIOK
3 SUHENDI
DADANG L
LILIS JL JAWA BLOK II NO. 4
KAWASAN INDUSTRI MM 2100 CIKARANG
BARAT 17520
4 DARMANTO
MADYO PARMONO
L NGADINEM
VILLA MUTIARA WANASARI RT 0413
WANASARI CIBITUNG BEKASI
5 HERMAN
KAMBARUDIN L
JUITA KASMI PRUM BKKBN CII19 RT
04027 MUSTIKA JAYA BKSI TIMUR
6 ARI ADHY CIPTO
P L
ENDANG SUSILOWATI
PERUM GRIYA BAGASARI BLOK A5 NO
05 RT 0201 DS SUKARUKUN KEC
SUKATANI BEKASI
- -
- -
- -
- -
- -
3018 JORDY SUHARLY L
NANI S JL. CIPINANG LONTAR
NO. 80 RT 1406 CIPINANG MUARA,
JATINEGARA, JAKARTA TIMUR
3019 OBED UBAIDI L
ROSIH JL PINTU 2 MES SPBU NO
3 RT 1317 PEGANGSAAN DUA KELAPA GADING
3020 DIAN FITRIANI P
SUPIANAH JL RAJAWALI KEBON
NANAS RT 001 RW 001 CIKOKOL TANGERANG
3021 FITRI
DESTIAWANTI P
MULYANAH KP NEGLASARI RT 001
RW 002 KARYASARI LEUWILANG
3022 ABDUL AZIS L
CHALIMAH CIBANGKONG RT 005
RW 003 PEKUNCEN
Tabel 4.2. Tabel Hasil Data Duplikat
ID Nama
Jk Nama ibu Alamat
1954 hartati
P Titin
perintis kemerdekaan no 1 1955
hartati P
Titin perintis kemerdekaan no 1
1082 herlyna
P jie lie lian
janur elok 3 no 2 kelapa gading 1083
herlyna P
jie lie lian janur elok 3 no 2 kelapa gading
- -
- -
-
Universitas Sumatera Utara
- -
- -
- 1693 julius s
l Zubaedah
komp perkt pulomas bl ii no 14 p kemerdekaan 1694 julius s
l Zubaedah
komp perkt pulomas bl ii no 14 p kemerdekaan
Proses pengujian pada sistem ini menggunakan precision, recall dan akurasi. Precision merupakan tingkat kebenaran informasi pada sistem. Recall merupakan
tingkat kebenaran sistem menemukan informasi. Sedangkan akurasi merupakan tingkat kedekatan antara nilai prediksi dengan nilai aktual. Berdasarkan hasil uji yang
dilakukan pada sistem data cleaning pada data duplikat menggunakan leveinsthein distance tersebut, dapat diperoleh nilai akurasi dengan rata-rata . Hasil ini didapat
melalui persamaan 4.1, 4.2, 4.3 4.1
= = 37
4.2 =
= 93 4.3
= = 95
Secara umum precision, recall dan akurasi dapat dapat dilihat pada Tabel 4.1 dan 4.12 dan didapat melalui persamaan 4.4, 4.5, 4.6.
Universitas Sumatera Utara
Tabel 4.2. Tabel Pengujian
Nilai sebenarnya True
False
Nilai Prediksi True
TP True Positive Correct Result
FP False Positive Unexpected Result
False FN False Negative
Missing Result TNTrue Negative
Correct absence of result
Tabel 4.3. Tabel Hasil Pengujian
Nilai sebenarnya True
False
Nilai Prediksi True
93 154
False 7
2769
4.4 =
= 37 4.5
= = 93
4.6 =
=95
Universitas Sumatera Utara
BAB 5 KESIMPULAN DAN SARAN
Bab ini akan membahas kesimpulan dan saran yang diperoleh dalam merancang sistem data cleaning pada data duplikat dengan leveinsthein distance.
5.1 Kesimpulan