Pengertian Penambangan Data Asal Usul Penambangan Data Fungsi dalam Penambangan Data

11

2. BAB II

LANDASAN TEORI

2.1. PENAMBANGAN DATA

2.1.1. Pengertian Penambangan Data

Menurut Tan et.al 2006, penambangan data adalah teknologi yang memadukan metode analisis data tradisional dengan algoritma yang canggih untuk memproses volume data yang besar. Dalam bukunya disebutkan bahwa penambangan data adalah proses menemukan informasi yang berguna dari repositori data yang besar secara otomatis. Namun tidak semua tugas menemukan informasi dapat dicari menggunakan penambangan data. Meski tugas-tugas seperti yang penting dan mungkin melibatkan pengguanaan algoritma yang canggih dan struktur data, tetap harus mengandalkan teknik ilmu komputer tradisional dan fitur yang jelas dari data. Hal ini perlu dalam membuat struktur indeks untuk secara efisien mengatur dan mengambil informasi. Meskipun demikian, teknik penambangan data telah digunakan untuk meningkatkan sistem pencarian informasi.

2.1.2. Asal Usul Penambangan Data

Menurut Tan et al. 2004, penambangan data menarik ide dari pembelajaran mesin AI, pengenalan pola, statistik, dan sistem basis data. Teknik tradisional mungkin tidak cocok karena data yang sangat besar, data yang berdimensi tinggi, dan sifat heterogen, sifat data yang didistribusikan. Hal ini dapat digambarkan seperti gambar berikut ini : Gambar 2.1 Asal Usul Penambangan Data

2.1.3. Fungsi dalam Penambangan Data

Menurut Han et al. 2012, penambangan data memiliki beberapa fungsi yang menerapkan metode yang dapat dikategorikan menjadi 2 bagian besar, yaitu metode deskriptif dan metode prediktif. Metode deskriptif bertugas mengkarakterisasikan suatu sifat dari data target. Sedangkan metode prediktif bertugas membuat suatu prediksi masa depan yang dicari melalui data saat ini. Fungsi yang terdapat dalam penambangan data ada 4, yaitu : a. Asosiasi Asosiasi dalam penambangan data merupakan aturan dalam satu set transaksi yang akan memprediksi terjadinya item berdasarkan item lainnya dalam transaksi tersebut. Tan et al. 2004 b. Klasifikasi Menurut Tan et al. 2004, dalam koleksi catatan training set, setiap record berisi satu set atribut dimana salah satu atribut adalah suatu kelas. Saat ingin menentukan klasifikasi training set tersebut, dapat dengan mencari model untuk masing-masing atribut kelas sebagai fungsi dari nilai-nilai atribut yang lainnya. Tujuannya agar record yang sebelumnya tak terlihat dapat ditujukan dalam kelas tersebut seakurat mungkin. Satu set tes digunakan untuk menentukan akurasi dari suatu model. Biasanya, kumpulan data yang diberikan dibagi menjadi training set dan set test. Training set digunakan untuk membangun model dan set test digunakan untuk memvalidasinya. c. Klastering Klastering merupakan fungsi untuk menemukan suatu kelompok obyek sehingga obyek - obyek dalam kelompok akan mirip atau terkait satu sama lain dan berbeda dari atau tidak terkait dengan obyek - obyek di kelompok lainnya. Tan et al. 2004 d. Analisis Outlier Menurut Tan et al. 2004, outlier merupakan himpunan titik data yang jauh berbeda dari sisa data. Ada jauh lebih banyak pengamatan normal dibandingkan pengamatan normal outlier anomali dalam data. Tantangan dalam analisis outlier adalah metode yang digunakan tanpa pengawasan, dan seperti layaknya “mencari jarum dalam tumpukan jerami”.

2.1.4. Knowledge Discovery in Databases KDD

Dokumen yang terkait

PEMBANGUNAN SISTEM INFORMASI NILAI UNTUK SEKOLAH MENENGAH ATAS BERBASIS WEB PEMBANGUNAN SISTEM INFORMASI NILAI UNTUK SEKOLAH MENENGAH ATAS BERBASIS WEB.

0 2 12

Implementasi algoritma Partitioning Around Medoids (PAM) untuk pengelompokan Sekolah Menengah Atas di DIY berdasarkan nilai daya serap Ujian Nasional.

0 0 2

Pengelompokan Sekolah Menengah Atas di Provinsi Daerah Istimewa Yogyakarta berdasarkan nilai Ujian Nasional menggunakan algoritma K-Means Clustering.

1 1 87

Pengelompokan Sekolah Menengah Atas di Provinsi Daerah Istimewa Yogyakarta berdasarkan nilai Ujian Nasional menggunakan algoritma agglomerative hierarchical clustering.

11 55 123

Implementasi algoritma fuzzy c-means untuk pengelompokan sekolah menengah atas di diy berdasarkan nilai ujian nasional dan nilai sekolah.

2 16 145

Deteksi outlier menggunakan Algoritma Connectivity Based Outlier Factor : studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma.

0 4 252

Penerapan metode enhanced class outlier distance based untuk identifikasi outlier pada data hasil ujian nasional, indeks integritas dan akreditasi sekolah menengah atas

1 6 143

Implementasi algoritma Partitioning Around Medoids (PAM) untuk pengelompokan Sekolah Menengah Atas di DIY berdasarkan nilai daya serap Ujian Nasional

7 43 133

Pemahaman Nilai-Nilai Kewirausahaan Dalam Menulis Naskah Drama Untuk Sekolah Menengah Atas (SMA) Dengan Menggunakan Model Peralihan Konsep

0 4 8

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

0 0 6