11
2. BAB II
LANDASAN TEORI
2.1. PENAMBANGAN DATA
2.1.1. Pengertian Penambangan Data
Menurut Tan et.al 2006, penambangan data adalah teknologi yang memadukan metode analisis data tradisional dengan
algoritma yang canggih untuk memproses volume data yang besar. Dalam bukunya disebutkan bahwa penambangan data adalah proses
menemukan informasi yang berguna dari repositori data yang besar secara otomatis.
Namun tidak semua tugas menemukan informasi dapat dicari menggunakan penambangan data. Meski tugas-tugas seperti
yang penting dan mungkin melibatkan pengguanaan algoritma yang canggih dan struktur data, tetap harus mengandalkan teknik ilmu
komputer tradisional dan fitur yang jelas dari data. Hal ini perlu dalam membuat struktur indeks untuk secara efisien mengatur dan
mengambil informasi. Meskipun demikian, teknik penambangan data telah digunakan untuk meningkatkan sistem pencarian
informasi.
2.1.2. Asal Usul Penambangan Data
Menurut Tan et al. 2004, penambangan data menarik ide dari pembelajaran mesin AI, pengenalan pola, statistik, dan sistem
basis data. Teknik tradisional mungkin tidak cocok karena data yang sangat besar, data yang berdimensi tinggi, dan sifat heterogen, sifat
data yang didistribusikan. Hal ini dapat digambarkan seperti gambar berikut ini :
Gambar 2.1 Asal Usul Penambangan Data
2.1.3. Fungsi dalam Penambangan Data
Menurut Han et al. 2012, penambangan data memiliki beberapa fungsi yang menerapkan metode yang dapat dikategorikan
menjadi 2 bagian besar, yaitu metode deskriptif dan metode prediktif. Metode deskriptif bertugas mengkarakterisasikan suatu
sifat dari data target. Sedangkan metode prediktif bertugas membuat suatu prediksi masa depan yang dicari melalui data saat ini.
Fungsi yang terdapat dalam penambangan data ada 4, yaitu : a.
Asosiasi Asosiasi dalam penambangan data merupakan aturan dalam
satu set transaksi yang akan memprediksi terjadinya item berdasarkan item lainnya dalam transaksi tersebut. Tan et al.
2004
b. Klasifikasi
Menurut Tan et al. 2004, dalam koleksi catatan training set, setiap record berisi satu set atribut dimana salah satu atribut
adalah suatu kelas. Saat ingin menentukan klasifikasi training set tersebut, dapat dengan mencari model untuk masing-masing
atribut kelas sebagai fungsi dari nilai-nilai atribut yang lainnya. Tujuannya agar record yang sebelumnya tak terlihat dapat
ditujukan dalam kelas tersebut seakurat mungkin. Satu set tes digunakan untuk menentukan akurasi dari suatu model.
Biasanya, kumpulan data yang diberikan dibagi menjadi training set dan set test. Training set digunakan untuk membangun model
dan set test digunakan untuk memvalidasinya. c.
Klastering Klastering merupakan fungsi untuk menemukan suatu kelompok
obyek sehingga obyek - obyek dalam kelompok akan mirip atau terkait satu sama lain dan berbeda dari atau tidak terkait
dengan obyek - obyek di kelompok lainnya. Tan et al. 2004 d.
Analisis Outlier Menurut Tan et al. 2004, outlier merupakan himpunan titik
data yang jauh berbeda dari sisa data. Ada jauh lebih banyak pengamatan normal dibandingkan pengamatan normal
outlier anomali dalam data. Tantangan dalam analisis outlier
adalah metode yang digunakan tanpa pengawasan, dan seperti layaknya “mencari jarum dalam tumpukan jerami”.
2.1.4. Knowledge Discovery in Databases KDD