8
BAB II LANDASAN TEORI
2.1 Penambangan Data
2.1.1 Pengertian Penambangan Data
Menurut Tan et.al. 2006, penambangan data adalah proses menemukan suatu informasi yang berguna dari data yang besar.
Teknik data mining dikerahkan untuk menjelajahi pada database yang berukuran besar untuk menemukan pola yang mungkin tetap tidak
diketahui. Penambangan data juga menyediakan kemampuan untuk memprediksi hasil dari pengamatan masa depan, seperti memprediksi
seorang pelanggan akan menghabiskan uang lebih dari 100 atau tidak di sebuah department store.
Namun, tidak semua tugas menemukan informasi dapat dicari menggunakan penambangan data. Meskipun tugas-tugas memiliki sifat
yang penting dan mungkin melibatkan penggunaan algoritma yang canggih dan struktur data, tetapi tetap mengandalkan teknik ilmu
komputer tradisional dan fitur yang jelas dari data untuk membuat struktur indeks secara efisien dalam mengatur dan mengambil
informasi. Meskipun demikian, teknik data mining telah digunakan untuk meningkatkan sistem pencarian informasi.
2.1.2 Asal-usul Penambangan Data
Menurut Tan et.al. 2006, penambangan data mengacu pada ide- ide seperti pengambilan sampel, estimasi, dan pengujian hipotesis dari
statistik dan algoritma pencarian, teknik pemodelan, dan teori-teori Artificial Intelligence AI, pengenalan pola, dan machine learning.
Penambangan data juga mempunyai peran pada bidnag lain, termasuk optimasi, evolutionary computing, information theory, pemrosesan
sinyal, visualisasi, dan pemerolehan informasi information retrieval. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
Relasi data mining dengan bidang area lainnya dapat digambarkan sebagai berikut :
Gambar 2. 1 Asal-usul Penambangan Data
Sumber : Han et.al, 2012
2.1.3 Tugas-tugas Penambangan Data
Menurut Tan et.al. 2006, penambangan data memiliki beberapa tugas yang menerapkan dua kategori besar yaitu metode prediktif dan
metode deskriptif. Metode prediktif mempunyai tugas untuk memprediksi nilai atribut tertentu berdasarkan pada nilai-nilai atribut
lainnya. Metode deskriptif mempunyai tugas untuk mendapatkan pola dari korelasi, klaster, lintasan, dan anomali yang didapatkan dari data
target. Tugas penambangan data mempunyai empat tugas, yaitu :
a. Analisis Prediktif
Salah satu tugas penambangan data ini mengacu pada tugas yang membangun model pada variabel target sebagai fungsi dari variabel
penjelas. Analisis prediktif dibagi menjadi dua tipe yaitu klasifikasi dan regresi. Klasifikasi merupakan tipe prediktif yang digunakan
untuk variabel sasaran diskrit. Regresi merupakan tipe prediktif yang digunakan untuk variabel target yang bersifat terus-menerus
kontinyu. Contoh klasifikasi yaitu memprediksi apakah pengguna Web akan melakukan pembelian di suatu toko online. Hal tersebut
10
termasuk klasifikasi karena variabel target bernilai biner, ya atau tidak. Contoh regresi yaitu prediksi harga masa depan suatu saham.
Hal tersebut termasuk contoh regresi karena harga merupakan atribut bernilai kontinyu. Namun, pencapaian kedua tipe prediktif
tersebut adalah untuk mempelajari model yang meminimalkan kesalahan anatara prediksi dengan nilai kebernarannya dari variabel
target. b.
Analisis Asosiasi Pada tugas penambangan data ini digunakan untuk menemukan
hubungan yang terkait dari suatu transaksi yang terjadi pada item berdasarkan item lainnya.
c. Analisis Klaster
Pada tugas penambangan data ini digunakan untuk menemukan suatu kelompok obyek yang terkait erat satu sama lain sehingga
termasuk ke dalam klaster yang sama. d.
Deteksi Anomali Deteksi anomali merupakan tugas penambangan data yang
digunakan untuk
mengidentifikasi pengamatan
yang karakteristiknya sangat berbeda dari sisa data. Pengamatan tersebut
dikenal sebagai anomali atau outlier. Tujuan algoritma deteksi anomali outlier adalah untuk menemukan anomali yang nyata dan
menghindari obyek yang normal tetapi diidentifikasi sebagai anomali. Oleh karena itu, deteksi anomali yang baik harus memiliki
tingkat deteksi yang tinggi dan tingkat kesalahan yang rendah. Aplikasi deteksi anomali seperti deteksi penipuan, gangguan
jaringan, gangguan ekosistem, dll.
2.1.4 Knowledge Discovery in Databases KDD