Rumusan Masalah Batasan Masalah Tujuan Penelitian Manfaat Penelitian Metodologi Penelitian

Penelitian yang dilakukan oleh He et al, 2011 yaitu penggunaan multi-pass sorted-neighborhood MPN untuk melakukan efisiensi cleaning data duplikat yang dapat dilakukan dengan baik. Metode leveinsthein distance juga pernah digunakan untuk penelitian lain yaitu penelitian yang dilakukan oleh Primadani, 2014. Leveinsthein distance digunakan untuk pencarian judul buku pada katalog perpustakaan. Algoritma ini digunakan untuk menghasilkan layanan autocomplete dalam memprediksi judul buku yang diberikan oleh pengguna. Pada penelitian ini, metode leveinsthein distance digunakan untuk menyelesaikan pengambilan keputusan duplikat data pada data identitas costumer. Kelebihan dari metode leveinsthein distance ini adalah dapat mengetahui kemiripan string pada data dengan edit distance berupa jarak antara dua string Ugon et al, 2015. Perbedaan penelitian ini dengan yang lain adalah metode n-gram dan jaccard pada penentuan ukuran window dan data yang dapat diinputkan dalam excel. Sedangkan untuk pre-processing data pada penelitian ini menggunakan regular expression yang mengubah data menjadi lowercase dan memisahkan atribut nama menjadi last name dan first name Riezka, 2010. Selanjutnya proses menghubungkan duplikat data pada penelitian ini akan menggunakan metode transitive closure. Sebuah alternatif informasi tentang data cleaning pada duplikat record dapat dilakukan pada data identitas costumer. Untuk itu penulis mengusulkan sebuah pendekatan untuk mengidentifikasi data yang didalamnya terdapat duplikat record pada data identitas. Hasil penelitian ini diharapkan dapat memberikan manfaat dalam mengidentifikasi duplikat pada data. Sehingga dapat mempermudah dalam melakukan proses cleaning data duplikat.

1.2. Rumusan Masalah

Proses data cleaning dapat diterapkan pada raw data yang di dalamnya terdapat data duplikat redundant yang dilakukan untuk mendapatkan data yang berkualitas baik. Kualitas data yang baik dapat diketahui dengan adanya informasi yang benar pada data. Namun pembersihan data yang dilakukan secara manual membutuhkan ketelitian Universitas Sumatera Utara dan menghabiskan banyak waktu karena jumlah data yang besar. Untuk itu dibutuhkan sebuah pendekatan untuk dapat mengoptimalkan proses data cleaning.

1.3. Batasan Masalah

Dalam melakukan penelitian ini, peneliti membatasi ruang masalah yang akan diteliti. Batasan-batasan masalah tersebut diantaranya yaitu : 1. Proses cleaning data yang akan dilakukan hanya pada data duplikat. 2. Tidak melakukan cleaning data inconsistence dan incorrect. 3. Hanya memproses data nama dengan maksimal dua kata yaitu first name dan last name. 4. Tidak melakukan proses penggabungan data. 5. Output yang dihasilkan adalah identifikasi duplikat record pada data.

1.4. Tujuan Penelitian

Adapun tujuan dari penelitian ini yaitu untuk mengidentifikasi duplikat data dalam proses cleaning data duplikat pada data identitas menggunakan leveinsthein distance.

1.5. Manfaat Penelitian

Manfaat dari penelitian ini yaitu : 1. Dapat mengoptimalkan proses cleaning data yang memiliki duplikat record. 2. Menambah pengetahuan penulis dalam penggunaan algoritma leveinsthein distance. 3. Sebagai referensi untuk penelitian selanjunya. Universitas Sumatera Utara

1.6. Metodologi Penelitian

Tahapan-tahapan yang akan dilakukan dalam pelaksanaan penelitian ini adalah sebagai berikut : 1. Studi Literatur Tahap studi literatur ini dilaksanakan untuk mengumpulkan bahan-bahan referensi yang berkaitan dengan penelitian tentang duplikasi record, data mining, data cleaning, text processing, metode multi-pass neighborhood, transitive closure, n-gram dan leveinsthein distance. 2. Analisis Permasalahan Pada tahap ini dilakukan analisis terhadap bahan referensi yang telah diperoleh yang terkait dengan penelitian agar didapatkan metode yang tepat untuk menyelesaikan masalah dalam penelitian ini. 3. Perancangan Sistem Pada tahap ini dilakukan perancangan sistem untuk menyelesaikan permasalahan yang terdapat di dalam tahap analisis. Kemudian dilanjutkan dengan mengimplementasikan hasil analisis dan perancangan ke dalam sistem. 4. Implementasi Pada tahap ini akan dilakukan proses implementasi program menggunakan metode yang telah ditentukan dan dari data yang telah dikumpulkan. 5. Pengujian Sistem Pada tahap ini dilakukan proses pengujian terhadap sistem untuk memastikan sistem yang dibuat dapat berjalan seperti yang diharapkan. 6. Penyusunan Laporan Pada tahap ini dilakukan dokumentasi dan penyusunan laporan terhadap analisis dan implementasi leveinsthein distance untuk mengidentifikasi duplikat record pada data identitas.

Rumusan Masalah Batasan Masalah Tujuan Penelitian Manfaat Penelitian Metodologi Penelitian

1.2. Rumusan Masalah

1.3. Batasan Masalah

1.4. Tujuan Penelitian

1.5. Manfaat Penelitian

1.6. Metodologi Penelitian

1.7. Sistematika Penulisan

Parts

Dokumen yang terkait

Penggunaan Analisis Diskrirlinan Metode MDP (Minimum Distance Probability) pada Data Biner (Studi Kasus pada Data Pemilikan Barang)

Big(ger) Data as Better Data in Open Distance Learning

Big(ger) Data as Better Data in Open Distance Learning

PENCOCOKAN NAMA SEKOLAH MENENGAH ATAS PADA DATA SEKOLAH MENGGUNAKAN ALGORITMA HAMMING DISTANCE DAN JARO-WINKLER DISTANCE.

Pencocokan Nama Sekolah Menengah Atas Pada Data Sekolah Menggunakan Algoritma Hamming Distance Dan Jaro-Winkler Distance Doc1

Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

Dukungan

Links

Rumusan Masalah Batasan Masalah Tujuan Penelitian Manfaat Penelitian Metodologi Penelitian

1.2. Rumusan Masalah

1.3. Batasan Masalah

1.4. Tujuan Penelitian

1.5. Manfaat Penelitian

1.6. Metodologi Penelitian

1.7. Sistematika Penulisan

Parts

Dokumen yang terkait

Penggunaan Analisis Diskrirlinan Metode MDP (Minimum Distance Probability) pada Data Biner (Studi Kasus pada Data Pemilikan Barang)

Big(ger) Data as Better Data in Open Distance Learning

Big(ger) Data as Better Data in Open Distance Learning

PENCOCOKAN NAMA SEKOLAH MENENGAH ATAS PADA DATA SEKOLAH MENGGUNAKAN ALGORITMA HAMMING DISTANCE DAN JARO-WINKLER DISTANCE.

Pencocokan Nama Sekolah Menengah Atas Pada Data Sekolah Menggunakan Algoritma Hamming Distance Dan Jaro-Winkler Distance Doc1

Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

Dokumen yang Anda mencari sudah siap untuk unduhkan