2.2.1. Klasifikasi dan Prediksi
Klasifikasi dan prediksi adalah dua bentuk analisis data yang bisa digunakan untuk mengekstrak model dari data yang berisi kelas-kelas atau untuk
memprediksi trend data yang akan datang. Klasifikasi memprediksi data dalam bentuk katagori, sedangkan prediksi memodelkan fungsi-fungsi dari nilai yang
kontinyu. Klasifikasi data dilakukan dengan dua tahapan. Pada tahap pertama, model dibentuk dengan menentukan kelas-kelas data. Model dibentuk dengan
menganalisa database tuples yang dinyatakan dengan atribut.Dalam konteks klasifikasi, data tuples disebut juga disebut Data sample. Data sample ini
membentuk training data set yang selanjutnya dianalisa untuk membangun model. Setiap sample yang membentuk training set disebut training sample dan
secara acak dipilih dari sample population. Karena label kelas dari setiap training sample telah diketahui, maka tahapan ini disebut juga supervised learning.
Supervised learning ini kebalikan dari unsupervised learning, dimana pada unsupervised learning label kelas dari setiap training sample tidak diketahui.
Pada tahap kedua, model digunakan untuk klasifikasi. Pertama, akurasi model prediksi atau classifier ditentukan menggunakan data test. Sample ini
secara acak dipilih, independent dengan training sample. Akurasi dari model pada test set adalah prosentase dari sample test set yang diklasifikasikan oleh model
dengan benar. Untuk setiap sample test, label kelas yang telah diketehui dibandingkan dengan model kelas prediksi yang telah dilatih untuk sample
tersebut. Jika akurasi dari model bisa diterima, maka model bisa digunakan untuk mengklasifikasikan data tuples dimana label kelasnya tidak diketahui. Misalnya,
classification rule yang telah dihasilkan dari analisis data dari pelanggan yang ada dapat digunakan untuk memprediksi credit rating dari pelanggan baru.
Prediksi bisa dipandang sebagai pembentukan dan penggunaan model untuk menguji kelas dari sample yang tidak berlabel, atau untuk menguji nilai atau
rentang nilai dari suatu atribut. Dalam pandangan ini, klasifikasi dan regresi adalah dua jenis masalah prediksi, dimana klasifikasi digunakan untuk
memprediksi nilai-nilai diskrit atau nominal, sedangkan regresi digunakan untuk memprediksi nilai-nilai yang kontinyu. Untuk selanjutnya penggunaan istilah
prediction untuk memprediksi kelas yang berlabel disebut classification, dan
pengggunaan istilah prediksi untuk memprediksi nilai-nilai yang kontinyu sebagai
prediction Han Kamber, 2001.
2.2.2 Metodologi Data mining