Pengertian Penambangan Data Asal-usul Penambangan Data Tugas-tugas Penambangan Data

8 BAB II LANDASAN TEORI

2.1 Penambangan Data

2.1.1 Pengertian Penambangan Data

Menurut Tan et.al. 2006, penambangan data adalah proses menemukan suatu informasi yang berguna dari data yang besar. Teknik data mining dikerahkan untuk menjelajahi pada database yang berukuran besar untuk menemukan pola yang mungkin tetap tidak diketahui. Penambangan data juga menyediakan kemampuan untuk memprediksi hasil dari pengamatan masa depan, seperti memprediksi seorang pelanggan akan menghabiskan uang lebih dari 100 atau tidak di sebuah department store. Namun, tidak semua tugas menemukan informasi dapat dicari menggunakan penambangan data. Meskipun tugas-tugas memiliki sifat yang penting dan mungkin melibatkan penggunaan algoritma yang canggih dan struktur data, tetapi tetap mengandalkan teknik ilmu komputer tradisional dan fitur yang jelas dari data untuk membuat struktur indeks secara efisien dalam mengatur dan mengambil informasi. Meskipun demikian, teknik data mining telah digunakan untuk meningkatkan sistem pencarian informasi.

2.1.2 Asal-usul Penambangan Data

Menurut Tan et.al. 2006, penambangan data mengacu pada ide- ide seperti pengambilan sampel, estimasi, dan pengujian hipotesis dari statistik dan algoritma pencarian, teknik pemodelan, dan teori-teori Artificial Intelligence AI, pengenalan pola, dan machine learning . Penambangan data juga mempunyai peran pada bidnag lain, termasuk optimasi, evolutionary computing , information theory , pemrosesan sinyal, visualisasi, dan pemerolehan informasi information retrieval . PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 9 Relasi data mining dengan bidang area lainnya dapat digambarkan sebagai berikut : Gambar 2. 1 Asal-usul Penambangan Data Sumber : Han et.al, 2012

2.1.3 Tugas-tugas Penambangan Data

Menurut Tan et.al. 2006, penambangan data memiliki beberapa tugas yang menerapkan dua kategori besar yaitu metode prediktif dan metode deskriptif. Metode prediktif mempunyai tugas untuk memprediksi nilai atribut tertentu berdasarkan pada nilai-nilai atribut lainnya. Metode deskriptif mempunyai tugas untuk mendapatkan pola dari korelasi, klaster, lintasan, dan anomali yang didapatkan dari data target. Tugas penambangan data mempunyai empat tugas, yaitu : a. Analisis Prediktif Salah satu tugas penambangan data ini mengacu pada tugas yang membangun model pada variabel target sebagai fungsi dari variabel penjelas. Analisis prediktif dibagi menjadi dua tipe yaitu klasifikasi dan regresi. Klasifikasi merupakan tipe prediktif yang digunakan untuk variabel sasaran diskrit. Regresi merupakan tipe prediktif yang digunakan untuk variabel target yang bersifat terus-menerus kontinyu. Contoh klasifikasi yaitu memprediksi apakah pengguna Web akan melakukan pembelian di suatu toko online. Hal tersebut 10 termasuk klasifikasi karena variabel target bernilai biner, ya atau tidak. Contoh regresi yaitu prediksi harga masa depan suatu saham. Hal tersebut termasuk contoh regresi karena harga merupakan atribut bernilai kontinyu. Namun, pencapaian kedua tipe prediktif tersebut adalah untuk mempelajari model yang meminimalkan kesalahan anatara prediksi dengan nilai kebernarannya dari variabel target. b. Analisis Asosiasi Pada tugas penambangan data ini digunakan untuk menemukan hubungan yang terkait dari suatu transaksi yang terjadi pada item berdasarkan item lainnya. c. Analisis Klaster Pada tugas penambangan data ini digunakan untuk menemukan suatu kelompok obyek yang terkait erat satu sama lain sehingga termasuk ke dalam klaster yang sama. d. Deteksi Anomali Deteksi anomali merupakan tugas penambangan data yang digunakan untuk mengidentifikasi pengamatan yang karakteristiknya sangat berbeda dari sisa data. Pengamatan tersebut dikenal sebagai anomali atau outlier . Tujuan algoritma deteksi anomali outlier adalah untuk menemukan anomali yang nyata dan menghindari obyek yang normal tetapi diidentifikasi sebagai anomali. Oleh karena itu, deteksi anomali yang baik harus memiliki tingkat deteksi yang tinggi dan tingkat kesalahan yang rendah. Aplikasi deteksi anomali seperti deteksi penipuan, gangguan jaringan, gangguan ekosistem, dll. 2.1.4 Knowledge Discovery in Databases KDD Menurut Han et.al. 2012, istilah KDD Knowledge Discovery in Databases seringkali dianggap sinonim dengan penambangan data. KDD merupakan sebuah proses mengubah data mentah menjadi suatu 11 informasi pengetahuan yang berguna. KDD memiliki beberapa langkah yaitu data cleaning, data integration, data selection, data transformation, data mining, pattern evaluation , dan knowledge presentation . Gambar 2. 2 Proses KDD Sumber : Han et.al, 2012 12 1. Data Cleaning Langkah ini merupakan langkah untuk menghilangkan noise pengganggu dan data yang tidak konsisten. 2. Data Integration Langkah ini merupakan suatu proses dimana beberapa sumber data digabungkan menjadi satu kesatuan. 3. Data Selection Langkah ini merupakan proses untuk melakukan analisis, dimana data yang relevan diambil dari database . 4. Data Transformation Langkah ini merupakan proses dimana data diubah transformasi menjadi data yang tepat untuk ditambang sehingga dapat dilakukan proses operasi seperti penjumlahan atau penggabungan. 5. Data Mining Langkah ini merupakan proses penting di mana metode cerdas yang diterapkan untuk mengekstrak pola data. 6. Pattern Evaluation Langkah ini merupakan proses untuk mengidentifikasi pola- pola menarik yang menampilkan basis pengetahuan dalam suatu ukuran ketertarikan. 7. Knowledge Presentation Langkah ini merupakan proses dimana teknik untuk menampilkan suatu gambaran dan representasi pengetahuan hasil tambang kepada pengguna. 2.2 Outlier

2.2.1 Pengertian

Dokumen yang terkait

POBYE PENGARUH PENGALAMAN KERJA, INDEPENDENSI, OBYEKTIFITAS, INTEGRITAS, DAN KOMPETENSI TERHADAP KUALITAS HASIL PEMERIKSAAN DI INSPEKTORAT PROVINSI DAERAH ISTIMEWA YOGYAKARTA.

0 3 14

Penerapan algoritma MixCBLOF berbasis klaster untuk identifikasi outlier pada data hasil ujian nasional, indeks integritas, dan akreditasi SMA di Daerah Istimewa Yogyakarta.

1 5 140

Penerapan algoritma apriori untuk analisis daya serap hasil ujian nasional matematika SMA jurusan IPA di Yogyakarta.

0 1 13

Penerapan algoritma apriori untuk analisis daya serap hasil ujian nasional mata pelajaran Matematika SMA jurusan IPA di Daerah Istimewa Yogyakarta.

0 12 206

Penerapan algoritma fp-growth untuk analisis pola asosiasi daya serap hasil jian nasional mata pelajaran Bahasa Indonesia SMA di Yogyakarta.

1 11 122

Pengelompokan Sekolah Menengah Atas di Provinsi Daerah Istimewa Yogyakarta berdasarkan nilai Ujian Nasional menggunakan algoritma K-Means Clustering.

1 1 87

Pengelompokan Sekolah Menengah Atas di Provinsi Daerah Istimewa Yogyakarta berdasarkan nilai Ujian Nasional menggunakan algoritma agglomerative hierarchical clustering.

11 55 123

Deteksi outlier untuk nilai ujian Sekolah Menengah Atas (Sma) menggunakan Algoritma Influenced Outlierness (INFLO).

0 1 373

Penerapan metode enhanced class outlier distance based untuk identifikasi outlier pada data hasil ujian nasional, indeks integritas dan akreditasi sekolah menengah atas

1 6 143

Provinsi Daerah Istimewa Yogyakarta UU NO 13 2012

0 0 23