BAB II TINJAUAN PUSTAKA
2.1 Penambangan Data Data Mining
Penambangan data Data Mining adalah serangkaian proses untuk menggali nilai tambah dari sekumpulan data berupa pengetahuan yang selama ini tersembunyi
dibalik data atau tidak diketahui secara manual Han, J dan Kamber, M, 2006. Proses untuk menggali nilai tambah dari sekumpulan data sering juga dikenal
sebagai penemuan pengetahuan dari pangkalan data Knowledge Discovery in Databases = KDD yaitu tahap-tahap yang dilakukan dalam menggali
pengetahuan dari sekumpulan data. Tahap-tahap yang dimaksud digambarkan seperti Gambar 2.1.
Universitas Sumatera Utara
Gambar 2.1 . Tahap-Tahap Menggali Pengetahuan Dari Pangkalan Data
Sumber : Fayyad 1996
Tahap-tahap data mining seperti yang diilustrasikan pada Gambar 2.1 dapat dijelaskan sebagai berikut:
1. Pembersihan Data Untuk membuang data yg tidak konsisten dan Noise 2. Integrasi data Penggabungan data dari berbagai sumber
3. Transformasi data Data diubah menjadi bentuk yang sesuai untuk teknik data mining
4. Aplikasi Teknik Data Mining 5. Evaluasi pola yang ditemukan untuk menemukan informasi dan
pengetahuan yang menarik 6. Presentasi pengetahuan dengan menggunakan teknik visualisasi
Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah suatu teknik menggali informasi berharga yang terpendam
atau tersembunyi pada suatu koleksi data database yang sangat besar sehingga ditemukan suatu pola yang menaik yang sebelumnya tidak diketahui. Data mining
sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang
panjang dari bidang ilmu seperti kecerdasan buatan artificial intelligent machine learning, statistik dan database. Beberapa metode yang sering disebut dalam
literatur data mining antara lain clustering, classification, association rules, neural network genetic algorithm dan lain-lain Pramudiono, 2006.
Universitas Sumatera Utara
Data mining sering digunakan untuk membangun model prediksiinferensi yang bertujuan untuk memprediksi tren masa depan atau prilaku berdasarkan
analisis data terstruktur. Dalam konteks ini, prediksi adalah pembangunan dan penggunaan model untuk menilai kelas dari contoh tanpa label, atau untuk menilai
jangkauan nilai atau contoh yang cenderung memiliki nilai atribut. Klasifikasi dan regresi adalah dua bagian utama dari masalah prediksi, dimana klasifikasi
digunakan untuk memprediksi nilai diskrit atau nominal sedangkan regresi digunakan untuk memprediksi nilai terus-menerus atau nilai yang ditentukan
Larose, 2005. Masalah-masalah yang sesuai untuk diselesaikan dengan teknik data mining dapat
dicirikan dengan Piatetsky dan Shapiro, 2006 : - Memerlukan keputusan yang bersifat knowledge-based
- Mempunyai lingkungan yang berubah - Metode yang ada sekarang bersifat sub-optimal
- Tersedia data yang bisa diakses, cukup dan relevan - Memberikan keuntungan yang tinggi jika keputusan yang diambil tepat
2.2. Penambangan Data Pada Pendidikan Tinggi