8
BAB II LANDASAN TEORI
2.1 Penambangan Data
2.1.1 Pengertian Penambangan Data
Menurut Tan et.al. 2006, penambangan data adalah proses menemukan suatu informasi yang berguna dari data yang besar.
Teknik data mining dikerahkan untuk menjelajahi pada database yang berukuran besar untuk menemukan pola yang mungkin tetap tidak
diketahui. Penambangan data juga menyediakan kemampuan untuk memprediksi hasil dari pengamatan masa depan, seperti memprediksi
seorang pelanggan akan menghabiskan uang lebih dari 100 atau tidak di sebuah department store.
Namun, tidak semua tugas menemukan informasi dapat dicari menggunakan penambangan data. Meskipun tugas-tugas memiliki sifat
yang penting dan mungkin melibatkan penggunaan algoritma yang canggih dan struktur data, tetapi tetap mengandalkan teknik ilmu
komputer tradisional dan fitur yang jelas dari data untuk membuat struktur indeks secara efisien dalam mengatur dan mengambil
informasi. Meskipun demikian, teknik data mining telah digunakan untuk meningkatkan sistem pencarian informasi.
2.1.2 Asal-usul Penambangan Data
Menurut Tan et.al. 2006, penambangan data mengacu pada ide- ide seperti pengambilan sampel, estimasi, dan pengujian hipotesis dari
statistik dan algoritma pencarian, teknik pemodelan, dan teori-teori
Artificial Intelligence
AI, pengenalan pola, dan
machine learning
. Penambangan data juga mempunyai peran pada bidnag lain, termasuk
optimasi,
evolutionary computing
,
information theory
, pemrosesan sinyal, visualisasi, dan pemerolehan informasi
information retrieval
. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
Relasi data mining dengan bidang area lainnya dapat digambarkan sebagai berikut :
Gambar 2. 1 Asal-usul Penambangan Data
Sumber : Han et.al, 2012
2.1.3 Tugas-tugas Penambangan Data
Menurut Tan et.al. 2006, penambangan data memiliki beberapa tugas yang menerapkan dua kategori besar yaitu metode prediktif dan
metode deskriptif. Metode prediktif mempunyai tugas untuk memprediksi nilai atribut tertentu berdasarkan pada nilai-nilai atribut
lainnya. Metode deskriptif mempunyai tugas untuk mendapatkan pola dari korelasi, klaster, lintasan, dan anomali yang didapatkan dari data
target. Tugas penambangan data mempunyai empat tugas, yaitu :
a. Analisis Prediktif
Salah satu tugas penambangan data ini mengacu pada tugas yang membangun model pada variabel target sebagai fungsi dari variabel
penjelas. Analisis prediktif dibagi menjadi dua tipe yaitu klasifikasi dan regresi. Klasifikasi merupakan tipe prediktif yang digunakan
untuk variabel sasaran diskrit. Regresi merupakan tipe prediktif yang digunakan untuk variabel target yang bersifat terus-menerus
kontinyu. Contoh klasifikasi yaitu memprediksi apakah pengguna Web akan melakukan pembelian di suatu toko online. Hal tersebut
10
termasuk klasifikasi karena variabel target bernilai biner, ya atau tidak. Contoh regresi yaitu prediksi harga masa depan suatu saham.
Hal tersebut termasuk contoh regresi karena harga merupakan atribut bernilai kontinyu. Namun, pencapaian kedua tipe prediktif
tersebut adalah untuk mempelajari model yang meminimalkan kesalahan anatara prediksi dengan nilai kebernarannya dari variabel
target. b.
Analisis Asosiasi Pada tugas penambangan data ini digunakan untuk menemukan
hubungan yang terkait dari suatu transaksi yang terjadi pada item berdasarkan item lainnya.
c. Analisis Klaster
Pada tugas penambangan data ini digunakan untuk menemukan suatu kelompok obyek yang terkait erat satu sama lain sehingga
termasuk ke dalam klaster yang sama. d.
Deteksi Anomali Deteksi anomali merupakan tugas penambangan data yang
digunakan untuk
mengidentifikasi pengamatan
yang karakteristiknya sangat berbeda dari sisa data. Pengamatan tersebut
dikenal sebagai anomali atau
outlier
. Tujuan algoritma deteksi anomali
outlier
adalah untuk menemukan anomali yang nyata dan menghindari obyek yang normal tetapi diidentifikasi sebagai
anomali. Oleh karena itu, deteksi anomali yang baik harus memiliki tingkat deteksi yang tinggi dan tingkat kesalahan yang rendah.
Aplikasi deteksi anomali seperti deteksi penipuan, gangguan jaringan, gangguan ekosistem, dll.
2.1.4
Knowledge Discovery in Databases
KDD
Menurut Han et.al. 2012, istilah KDD
Knowledge Discovery in Databases
seringkali dianggap sinonim dengan penambangan data. KDD merupakan sebuah proses mengubah data mentah menjadi suatu
11
informasi pengetahuan yang berguna. KDD memiliki beberapa langkah yaitu
data cleaning, data integration, data selection, data transformation, data mining, pattern evaluation
, dan
knowledge presentation
.
Gambar 2. 2 Proses KDD
Sumber : Han et.al, 2012
12 1.
Data Cleaning
Langkah ini merupakan langkah untuk menghilangkan
noise
pengganggu dan data yang tidak konsisten.
2. Data Integration
Langkah ini merupakan suatu proses dimana beberapa sumber data digabungkan menjadi satu kesatuan.
3. Data Selection
Langkah ini merupakan proses untuk melakukan analisis, dimana data yang relevan diambil dari
database
.
4. Data Transformation
Langkah ini merupakan proses dimana data diubah transformasi menjadi data yang tepat untuk ditambang
sehingga dapat dilakukan proses operasi seperti penjumlahan atau penggabungan.
5. Data Mining
Langkah ini merupakan proses penting di mana metode cerdas yang diterapkan untuk mengekstrak pola data.
6. Pattern Evaluation
Langkah ini merupakan proses untuk mengidentifikasi pola- pola menarik yang menampilkan basis pengetahuan dalam
suatu ukuran ketertarikan.
7. Knowledge Presentation
Langkah ini merupakan proses dimana teknik untuk menampilkan suatu gambaran dan representasi pengetahuan
hasil tambang kepada pengguna.
2.2
Outlier
2.2.1 Pengertian