9
Bab 2 LANDASAN TEORI
Bab ini berisi penjelasan mengenai teori atau konsep yang terkait dengan rumusan masalah dalam penelitian ini. Konsep yang dijelaskan yaitu Knowledge
Discovery in Databases KDD dan Outlier Detection. Setiap konsep atau teori
akan berisi penjelasan mengenai definisi, bagian-bagian serta peran masing- masing bagian tersebut dalam penelitian ini. Hal-hal tersebut akan diuraikan
dalam dua sub bab di bawah ini.
2.1 Knowledge Discovery in Databases KDD
Knowledge Discovery in Databases KDD adalah proses mengambil
informasi penting yang tersembunyi dalam sekumpulan data. KDD membantu seseorang dalam mengambil keputusan berdasarkan informasi yang ditemukan
tersebut Baradwaj Pal, 2011. KDD terbagi menjadi lima tahap yaitu selection, preprocessing
, transformation, data mining, dan evaluation Fayyad et al
., 1996. Setiap tahap dalam KDD memiliki peranan penting dan saling berkaitan satu sama lain untuk mengekstrak knowledge dari data.
Gambar 2.1 Langkah-langkah dalam KDD Fayyad et al., 1996
Selection merupakan proses seleksi data yang relevan untuk dianalisis dari
sebuah basis data. Data yang relevan artinya data tersebut sesuai untuk digunakan dalam mencapai tujuan analisis data. Data yang telah diseleksi melalui proses ini
disebut sebagai target data. Target data selanjutnya masuk ke tahapan berikutnya yaitu preprocessing.
Preprocessing merupakan proses menyiapkan data agar siap untuk
ditambang. Langkah-langkah dalam preprocessing yaitu data cleaning, data integration, data transformation, data reduction
dan data discretization. Kelima langkah tersebut dilakukan secara berurutan. Langkah tertentu boleh dilewati saat
kondisi data telah memenuhi syarat yang ditentukan masing-masing langkah tersebut. Saat telah melewati tahap preprocessing, data siap untuk ditambang.
Data mining atau penambangan data adalah proses mengekstrak informasi
atau pengetahuan dari data dalam jumlah yang besar. Secara umum, penambangan data dapat diklasifikasikan dalam empat kategori yaitu deteksi
dependensi, identifikasi kelas, deskripsi kelas dan deteksi outlier. Tiga kategori
pertama berkaitan dengan pola yang dimiliki oleh banyak obyek atau pada obyek dengan persentase yang besar dalam dataset. Berbagai penelitian penambangan
data mengenai aturan asosiasi, klasifikasi, klastering dan generalisasi konsep termasuk dalam tiga kategori tersebut. Sebaliknya, kategori keempat berfokus
pada obyek dengan persentase yang kecil, yang umumnya sering diabaikan atau dihilangkan karena dianggap noise Knorr Ng, 1998.
Evaluation merupakan tahap pembuatan pola atau pemetaan berdasarkan
hasil penambangan data. Tujuan dilakukannya tahap ini untuk membantu pihak- pihak yang berkepentingan terhadap data yang dianalisis untuk memperoleh
gambaran tentang data tersebut. Pembuatan diagram atau pohon keputusan merupakan contoh visualisasi hasil penambangan data. Visualisasi dapat
memberikan gambaran yang lebih mudah dipahami dibandingkan hasil sebuah penambangan data. Setelah tahap visualisasi selesai maka akan diperoleh hasil
akhir analisis data yaitu knowledge.
2.2 Outlier Detection