Pengujian Sistem Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

Gambar 4.6. Tampilan Proses Data Cleaning Setelah keseluruhan proses selesai akan ditampilkan hasil dari identifikasi duplikat data. Hasil identifikasi ini akan ditampilkan ke tabel data clean yang berisi tampilan data duplikat yang telah ditemukan dan dapat dilihat pada Gambar 4.7 Gambar 4.7. Tampilan Hasil Output Data Duplikat

4.3. Pengujian Sistem

Pada proses pengujian sistem data digunakan 3023 data. Adapun data yang digunakan untuk proses cleaning pada data duplikat dapat dilihat pada Tabel 4.1 dan 4.2 Universitas Sumatera Utara Tabel 4.1. Tabel Data ID Nama Jk Nama ibu Alamat 1 ARI ADHY CIPTO P L ENDANG SUSILOWATI PERUM GRIYA BAGASARI BLOK A5 NO 05 RT 0201 DS SUKARUKUN KEC SUKATANI BEKASI 2 R HENDRA SURYAKUSUMA L JUMINAH JL MANDOR IREN NO 33 RT 0209 SUNTER JAYA TJ PRIOK 3 SUHENDI DADANG L LILIS JL JAWA BLOK II NO. 4 KAWASAN INDUSTRI MM 2100 CIKARANG BARAT 17520 4 DARMANTO MADYO PARMONO L NGADINEM VILLA MUTIARA WANASARI RT 0413 WANASARI CIBITUNG BEKASI 5 HERMAN KAMBARUDIN L JUITA KASMI PRUM BKKBN CII19 RT 04027 MUSTIKA JAYA BKSI TIMUR 6 ARI ADHY CIPTO P L ENDANG SUSILOWATI PERUM GRIYA BAGASARI BLOK A5 NO 05 RT 0201 DS SUKARUKUN KEC SUKATANI BEKASI - - - - - - - - - - 3018 JORDY SUHARLY L NANI S JL. CIPINANG LONTAR NO. 80 RT 1406 CIPINANG MUARA, JATINEGARA, JAKARTA TIMUR 3019 OBED UBAIDI L ROSIH JL PINTU 2 MES SPBU NO 3 RT 1317 PEGANGSAAN DUA KELAPA GADING 3020 DIAN FITRIANI P SUPIANAH JL RAJAWALI KEBON NANAS RT 001 RW 001 CIKOKOL TANGERANG 3021 FITRI DESTIAWANTI P MULYANAH KP NEGLASARI RT 001 RW 002 KARYASARI LEUWILANG 3022 ABDUL AZIS L CHALIMAH CIBANGKONG RT 005 RW 003 PEKUNCEN Tabel 4.2. Tabel Hasil Data Duplikat ID Nama Jk Nama ibu Alamat 1954 hartati P Titin perintis kemerdekaan no 1 1955 hartati P Titin perintis kemerdekaan no 1 1082 herlyna P jie lie lian janur elok 3 no 2 kelapa gading 1083 herlyna P jie lie lian janur elok 3 no 2 kelapa gading - - - - - Universitas Sumatera Utara - - - - - 1693 julius s l Zubaedah komp perkt pulomas bl ii no 14 p kemerdekaan 1694 julius s l Zubaedah komp perkt pulomas bl ii no 14 p kemerdekaan Proses pengujian pada sistem ini menggunakan precision, recall dan akurasi. Precision merupakan tingkat kebenaran informasi pada sistem. Recall merupakan tingkat kebenaran sistem menemukan informasi. Sedangkan akurasi merupakan tingkat kedekatan antara nilai prediksi dengan nilai aktual. Berdasarkan hasil uji yang dilakukan pada sistem data cleaning pada data duplikat menggunakan leveinsthein distance tersebut, dapat diperoleh nilai akurasi dengan rata-rata . Hasil ini didapat melalui persamaan 4.1, 4.2, 4.3 4.1 = = 37 4.2 = = 93 4.3 = = 95 Secara umum precision, recall dan akurasi dapat dapat dilihat pada Tabel 4.1 dan 4.12 dan didapat melalui persamaan 4.4, 4.5, 4.6. Universitas Sumatera Utara Tabel 4.2. Tabel Pengujian Nilai sebenarnya True False Nilai Prediksi True TP True Positive Correct Result FP False Positive Unexpected Result False FN False Negative Missing Result TNTrue Negative Correct absence of result Tabel 4.3. Tabel Hasil Pengujian Nilai sebenarnya True False Nilai Prediksi True 93 154 False 7 2769 4.4 = = 37 4.5 = = 93 4.6 = =95 Universitas Sumatera Utara BAB 5 KESIMPULAN DAN SARAN Bab ini akan membahas kesimpulan dan saran yang diperoleh dalam merancang sistem data cleaning pada data duplikat dengan leveinsthein distance.

5.1 Kesimpulan