Permasalahan dalam Penambangan Data Fungsionalitas Penambangan Data

10

BAB II LANDASAN TEORI

Pada bab ini akan dipaparkan pengertian penambangan data, pengertian tentang analisis outlier, hubungan outlier dengan penambangan data, teori-teori yang digunakan untuk penentuan outlier dalam berbagai pendekatan. Dibahas pula serangkaian proses KDD Knowledge Discovery in Databases kaitannya dengan penambangan data. Teori penentuan outlier yang dipaparkan akan secara khusus membahas algoritma pedeteksi outlier Distance-Based, khususnya algoritma Naïve Nested Loop. 2.1 Penambangan Data 2.1.1 Definisi Definisi umum dari penambangan data adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data Iko, 2007. Penambangan data mengekstraksi pola yang menarik dari data dalam jumlah besar. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna.

2.1.2 Permasalahan dalam Penambangan Data

Istilah penambangan data sudah berkembang jauh dalam mengadaptasi setiap bentuk analisa. Pada dasarnya penambangan data berhubungan dengan analisa data dan penggunaan teknik-teknik perangkat lunak untuk mencari pola dan keteraturan dalam himpunan data yang sifatnya tersembunyi. Dengan diperolehnya informasi-informasi yang berguna dari data-data yang ada, hubungan antar item dalam transaksi maupun informasi potensial lain yang ada di dalamnya dapat diekstrak dan dianalisa serta diteliti secara lebih lanjut dari berbagai sudut pandang. Permasalahan dalam penambangan data dilatarbelakangi oleh kondisi dimana data ada pada jumlah yang sangat besar sehingga menimbulkan ledakan informasi yang dialami oleh perusahaan, institusi atau organisasi. Kondisi data dalam jumlah yang besar tersebut merupakan salah satu akumulasi dari data yang terekam bertahun-tahun dalam suatu transaksi. Peranan penambangan data dibutuhkan dalam menangani ledakan volume data, dengan menggunakan teknik penambangan data yang dapat digunakan untuk menghasilkan informasi tertentu yang dibutuhkan dari kumpulan data tersebut.

2.1.3 Fungsionalitas Penambangan Data

Berikut fungsionalitas dan tipe pola yang dapat ditemukan dengan penambangan data Han Kamber,2006 : a. Deskripsi konsep kelas : Karaterisasi dan diskriminasi Data dapat diasosiasikan dengan suatu kelas atau konsep. Contoh : Sebuah toko elektronik dapat membuat kelas item seperti komputer, printer, dan konsep untuk konsumen seperti bigspenders dan budgetspenders. Hal ini bermanfaat untuk mendeskripsikan masing- masing kelas atau konsep tersebut dengan deskripsi kelas atau konsep. Deskripsi ini didapat melalui karakterisasi data dengan meringkas data-data dari kelas dalam pembelajaran secara umum atau diskriminasi data dengan membandingkan target kelas dengan satu atau lebih kelas lain. b. Analisis Asosiasi Korelasi dan kausalitas Analisis asosiasi adalah pencarian aturan-aturan asosiasi yang menunjukkan kondisi-kondisi nilai atribut yang sering terjadi bersama-sama dalam sekumpulan data. Analisis asosiasi sering digunakan untuk menganalisa data transaksi. c. Klasifikasi dan Prediksi Klasifikasi adalah proses menemukan model atau fungsi yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat digunakan untuk memprediksi kelas atau objek yang memiliki label kelas yang tidak diketahui. Model yang diturunkan didasarkan pada analisis dari data training objek data yang memiliki label kelas yang diketahui. Model yang diturunkan dapat direpresentasikan dalam berbagai bentuk seperti aturan IF-THEN klasifikasi, pohon keputusan, formula ,matematika atau jaringan syaraf tiruan. d. Analisis Klaster Tidak seperti klasifikasi dan prediksi, yang menganalisis objek data yang diberi label kelas, clustering menganalisis objek data dimana label kelas tidak diketahui. Clustering dapat digunakan untuk menentukan label kelas yang tidak diketahui dengan cara mengelompokkan data untuk membentuk kelas baru. Prinsip dalam clustering adalah memaksimalkan kemiripan intra-class dan meminimumkan kemiripan inter-class. Clustering sering disebut segmentasi data karena clustering mempartisi data yang besar ke dalam grup sesuai dengan kesamaannya. Clustering dapat digunakan untuk deteksi outlier, dimana outlier adalah suatu nilai yang jauh dari semua klaster lain. e. Analisis Outlier Database dapat mengandung objek data yang tidak sesuai dengan sifat umum atau model data. Objek data tersebut adalah outlier. Outlier merupakan objek data yang tidak mengikuti perilaku umum dari data. Outlier dapat dianggap sebagai pengecualian atau noise. Analisis data outlier dinamakan outlier mining. Teknik ini berguna untuk fraud detection deteksi penipuan dan rare events analysis analisis kejadian langka. Outlier dapat dideteksi dengan menggunakan tes statistik yang mengasumsikan distribusi atau probabilitas model data menggunakan distance measures, dimana objek yang memiliki jarak yang jauh dari klaster-klaster lainnya dianggap outlier atau anomali. f. Analisis Trend dan Evolusi Analisis evolusi data menjelaskan dan memodelkan tren dari objek yang memiliki perilaku yang berubah setiap waktu. Teknik ini dapat meliputi karateristik, diskriminasi, asosiasi, klasifikasi, atau clustering dari data yang berkaitan dengan waktu. 2.2 Knowledge Discovery in Databases KDD 2.2.1 Kaitan Penambangan Data dengan KDD

Dokumen yang terkait

Deteksi outlier menggunakan Algoritma Local Correlation Integral (LOCI) : studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma.

0 0 258

Deteksi outlier menggunakan Algoritma Local Outlier Probability : studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma.

0 5 265

Deteksi outlier menggunakan Algoritma Connectivity Based Outlier Factor : studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma.

0 4 252

Deteksi Outlier menggunakan algoritma Block-Based Nested-Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma.

0 2 202

Deteksi outlier menggunakan algoritma Naive Nested Loop (studi kasus : data akademik mahasiswa program studi PS Universitas XYZ).

0 0 4

Deteksi outlier menggunakan Algoritma Connectivity Based Outlier Factor studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma

1 8 250

Deteksi outlier menggunakan Algoritma Local Outlier Probability studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma

1 9 263

Deteksi Outlier menggunakan algoritma Block Based Nested Loop studi kasus data akademik mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma

0 1 200

Deteksi outlier menggunakan Algoritma Local Correlation Integral (LOCI) studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma

0 4 256

Deteksi Outlier menggunakan algoritma Naive Nested Loop : studi kasus data akademik mahasiswa Program Studi Teknik Informatika, Universitas Sanata Dharma, Yogyakarta - USD Repository

0 0 234