6
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI
Pada bab ini akan menjelaskan landasan teori yang digunakan dalam penelitian ini. Agar sebuah penelitian dapat berhasil maka diperlukan refrensi
sebagai landasan teorinya. Landasan teori tersebut berisi tentang pengertian data mining, tahapan data mining atau tahapan dalam proses Knowledge Discovery In
Databases, hierarchical clustering sebagai algorima yang digunakan untuk pengelompokan obyek data dari variabel yang telah dipilih dan bagian terakhir
dalam bab ini akan dipaparkan tentang uji akurasi data.
2.1. Data Mining
Data mining adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual. Data mining
adalah proses yang menggunakan teknik statistik, perhitungan, kecerdasan buatan dan machine learning untuk mengekstrasi dan mengidentifikasi
informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai basis data besar Hanif, 2007.
Data mining sering juga disebut knowledge discovery in database KDD, adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk
menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan
keputusan di masa depan Santosa, 2007. Data mining adalah kegiatan PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7 menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan
dalam database, data warehouse, atau penyimpanan informasi lainnya. Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa
data mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu database yang sangat besar sehingga ditemukan suatu
pola yang menarik yang sebelumnya tidak diketahui. Beberapa metode yang sering disebut-sebut dalam literatur data mining antara lain clustering,
classification, association rules mining, neural network, genetic algorithm dan lain-lain Pramudiono, 2006. Data mining sering digunakan untuk membangun
model prediksiinferensi yang bertujuan untuk memprediksi tren masa depan atau perilaku berdasarkan analisis data terstruktur.
2.2. Tahapan Data Mining
Data tidak dapat langsung diolah dengan menggunakan sistem data mining. Data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh
dapat lebih maksimal. Dan tahapan dalam proses Knowledge Discovery In Databases KDD dapat dilihat pada Gambar 2.1 terdiri dari tahapan-tahapan
sebagai berikut J. Han Kamber, 2006: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
Gam bar 1
Gambar 2.1. Data Mining Sebagai Tahapan Dalam Proses KDD Sumber : J. Han Kamber 2006
1. Cleaning and Integration
Langkah pertama adalah dengan melakukan pembersihan terhadap data dan penggabungan data. Proses data cleaning bertujuan untuk menghilangkan
noise dan data yang tidak konsisten dan proses data integration bertujuan untuk menggabungkan sumber data dari berbagai tempat menjadi satu penyimpanan.
9 2.
Selection and Transformation Pada tahap selection dan transformation, data dan atribut yang akan
digunakan diambil dari database untuk dianalisis. Selanjutnya data tersebut diubah menjadi bentuk yang tepat untuk di-mining.
3. Data Mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode
atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara
keseluruhan 4.
Evaluation and Presentation Pada tahap ini, dilakukan identifikasi pola-pola yang benar-benar
menarik dari hasil data mining. Setelah didapatkan pola yang dihasilkan dari proses data mining perlu divisualisasikan atau ditampilkan dalam bentuk
yang mudah dimengerti oleh pihak yang berkepentingan.
2.3. Clustering