10
BAB II LANDASAN TEORI
Pada bab ini akan dipaparkan pengertian penambangan data, pengertian tentang analisis outlier, hubungan outlier dengan penambangan data, teori-teori
yang digunakan untuk penentuan outlier dalam berbagai pendekatan. Dibahas pula serangkaian proses KDD Knowledge Discovery in Databases kaitannya
dengan penambangan data. Teori penentuan outlier yang dipaparkan akan secara khusus membahas algoritma pedeteksi outlier Distance-Based, khususnya
algoritma Naïve Nested Loop.
2.1 Penambangan Data 2.1.1 Definisi
Definisi umum dari penambangan data adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak
diketahui secara manual dari suatu kumpulan data Iko, 2007. Penambangan data mengekstraksi
pola
yang menarik dari
data
dalam jumlah besar. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui
sebelumnya, dan berguna.
2.1.2 Permasalahan dalam Penambangan Data
Istilah penambangan data sudah berkembang jauh dalam mengadaptasi setiap bentuk analisa. Pada dasarnya penambangan data berhubungan dengan
analisa data dan penggunaan teknik-teknik perangkat lunak untuk mencari pola dan keteraturan dalam himpunan data yang sifatnya tersembunyi.
Dengan diperolehnya informasi-informasi yang berguna dari data-data yang ada, hubungan antar item dalam transaksi maupun informasi potensial
lain yang ada di dalamnya dapat diekstrak dan dianalisa serta diteliti secara lebih lanjut dari berbagai sudut pandang.
Permasalahan dalam penambangan data dilatarbelakangi oleh kondisi dimana data ada pada jumlah yang sangat besar sehingga menimbulkan
ledakan informasi yang dialami oleh perusahaan, institusi atau organisasi. Kondisi data dalam jumlah yang besar tersebut merupakan salah satu
akumulasi dari data yang terekam bertahun-tahun dalam suatu transaksi. Peranan penambangan data dibutuhkan dalam menangani ledakan volume data,
dengan menggunakan teknik penambangan data yang dapat digunakan untuk menghasilkan informasi tertentu yang dibutuhkan dari kumpulan data tersebut.
2.1.3 Fungsionalitas Penambangan Data
Berikut fungsionalitas dan tipe pola yang dapat ditemukan dengan penambangan data Han Kamber,2006 :
a. Deskripsi konsep kelas : Karaterisasi dan diskriminasi
Data dapat diasosiasikan dengan suatu kelas atau konsep. Contoh : Sebuah toko elektronik dapat membuat kelas item seperti komputer,
printer, dan konsep untuk konsumen seperti bigspenders dan budgetspenders.
Hal ini bermanfaat untuk mendeskripsikan masing- masing kelas atau konsep tersebut dengan deskripsi kelas atau
konsep. Deskripsi ini didapat melalui karakterisasi data dengan meringkas data-data dari kelas dalam pembelajaran secara umum
atau diskriminasi data dengan membandingkan target kelas dengan satu atau lebih kelas lain.
b. Analisis Asosiasi Korelasi dan kausalitas
Analisis asosiasi adalah pencarian aturan-aturan asosiasi yang menunjukkan kondisi-kondisi nilai atribut yang sering terjadi
bersama-sama dalam sekumpulan data. Analisis asosiasi sering digunakan untuk menganalisa data transaksi.
c. Klasifikasi dan Prediksi
Klasifikasi adalah proses menemukan model atau fungsi yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan
tujuan agar model yang diperoleh dapat digunakan untuk memprediksi kelas atau objek yang memiliki label kelas yang tidak
diketahui. Model yang diturunkan didasarkan pada analisis dari data
training objek data yang memiliki label kelas yang diketahui. Model yang diturunkan dapat direpresentasikan dalam
berbagai bentuk seperti aturan IF-THEN klasifikasi, pohon keputusan, formula ,matematika atau jaringan syaraf tiruan.
d. Analisis Klaster
Tidak seperti klasifikasi dan prediksi, yang menganalisis objek data yang diberi label kelas, clustering menganalisis objek data dimana
label kelas tidak diketahui. Clustering dapat digunakan untuk menentukan label kelas yang tidak diketahui dengan cara
mengelompokkan data untuk membentuk kelas baru. Prinsip dalam
clustering adalah memaksimalkan kemiripan intra-class dan
meminimumkan kemiripan inter-class. Clustering sering disebut segmentasi data karena clustering mempartisi data yang besar ke
dalam grup sesuai dengan kesamaannya. Clustering dapat digunakan untuk deteksi outlier, dimana outlier adalah suatu nilai
yang jauh dari semua klaster lain. e.
Analisis Outlier Database
dapat mengandung objek data yang tidak sesuai dengan sifat umum atau model data. Objek data tersebut adalah outlier.
Outlier merupakan objek data yang tidak mengikuti perilaku umum
dari data. Outlier dapat dianggap sebagai pengecualian atau noise. Analisis data outlier dinamakan outlier mining. Teknik ini berguna
untuk fraud detection deteksi penipuan dan rare events analysis analisis kejadian langka. Outlier dapat dideteksi dengan
menggunakan tes statistik yang mengasumsikan distribusi atau probabilitas model data menggunakan distance measures, dimana
objek yang memiliki jarak yang jauh dari klaster-klaster lainnya dianggap outlier atau anomali.
f. Analisis Trend dan Evolusi
Analisis evolusi data menjelaskan dan memodelkan tren dari objek yang memiliki perilaku yang berubah setiap waktu. Teknik ini dapat
meliputi karateristik, diskriminasi, asosiasi, klasifikasi, atau clustering
dari data yang berkaitan dengan waktu.
2.2 Knowledge Discovery in Databases KDD 2.2.1 Kaitan Penambangan Data dengan KDD