Data Mining Tahapan Data Mining

6

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

Pada bab ini akan menjelaskan landasan teori yang digunakan dalam penelitian ini. Agar sebuah penelitian dapat berhasil maka diperlukan refrensi sebagai landasan teorinya. Landasan teori tersebut berisi tentang pengertian data mining, tahapan data mining atau tahapan dalam proses Knowledge Discovery In Databases, hierarchical clustering sebagai algorima yang digunakan untuk pengelompokan obyek data dari variabel yang telah dipilih dan bagian terakhir dalam bab ini akan dipaparkan tentang uji akurasi data.

2.1. Data Mining

Data mining adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual. Data mining adalah proses yang menggunakan teknik statistik, perhitungan, kecerdasan buatan dan machine learning untuk mengekstrasi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai basis data besar Hanif, 2007. Data mining sering juga disebut knowledge discovery in database KDD, adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan Santosa, 2007. Data mining adalah kegiatan PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 7 menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse, atau penyimpanan informasi lainnya. Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu database yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Beberapa metode yang sering disebut-sebut dalam literatur data mining antara lain clustering, classification, association rules mining, neural network, genetic algorithm dan lain-lain Pramudiono, 2006. Data mining sering digunakan untuk membangun model prediksiinferensi yang bertujuan untuk memprediksi tren masa depan atau perilaku berdasarkan analisis data terstruktur.

2.2. Tahapan Data Mining

Data tidak dapat langsung diolah dengan menggunakan sistem data mining. Data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh dapat lebih maksimal. Dan tahapan dalam proses Knowledge Discovery In Databases KDD dapat dilihat pada Gambar 2.1 terdiri dari tahapan-tahapan sebagai berikut J. Han Kamber, 2006: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 8 Gam bar 1 Gambar 2.1. Data Mining Sebagai Tahapan Dalam Proses KDD Sumber : J. Han Kamber 2006 1. Cleaning and Integration Langkah pertama adalah dengan melakukan pembersihan terhadap data dan penggabungan data. Proses data cleaning bertujuan untuk menghilangkan noise dan data yang tidak konsisten dan proses data integration bertujuan untuk menggabungkan sumber data dari berbagai tempat menjadi satu penyimpanan. 9 2. Selection and Transformation Pada tahap selection dan transformation, data dan atribut yang akan digunakan diambil dari database untuk dianalisis. Selanjutnya data tersebut diubah menjadi bentuk yang tepat untuk di-mining. 3. Data Mining Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan 4. Evaluation and Presentation Pada tahap ini, dilakukan identifikasi pola-pola yang benar-benar menarik dari hasil data mining. Setelah didapatkan pola yang dihasilkan dari proses data mining perlu divisualisasikan atau ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan.

2.3. Clustering