Teknik Data mining Fungsionalitas Data mining

dan datawarehouse atau struktur data, mengevaluasi pola yang telah di mining, dan memvisualisasikan pola dalam format yang diinginkan. Gambar 2.3 Arsitektur Sistem Data mining

2.1.8.1 Teknik Data mining

Teknik data mining berhubungan dengan penemuan dan pembelajaran informasi dari database yang besar, pembelajaran tersebut dapat dibagi menjadi dua metode utama, yaitu supervised dan unsupervised Berson dan Smith, 1997, p416: 1. Supervised Teknik ini melibatkan tahap pelatihan dimana data lama yang telah memiliki class label yang telah diketahui terlebih dahulu untuk diberikan pada algoritma data mining. Proses ini melatih algrotima yang digunakan untuk mengenali variabel dan nilai-nilai kunci, yang kemudian menjadi dasar untuk membuat prediksi ketika membaca data baru. 2. Unsupervised Teknik ini tidak melibatkan tahap pelatihan, tetapi bergantung pada penggunaan algoritma yang mendeteksi semua bentuk asosiasi dan rangkaian yang terjadi berdasarkan kriteria yang spesifik dalam data masukkan. Pendekatan ini membawa ke generasi yang menghasilkan peraturan-peraturan dalam data yang menggolongkan penemuan asosiasi, cluster , dan segment. Peraturan ini kemudian akan melakukan penganalisaan untuk menentukan mana yang memiliki ketertarikan secara universal.

2.1.8.2 Fungsionalitas Data mining

Fungsionalitas data mining digunakan untuk menspesifikasikan tipe pola patterns yang dapat ditemukan dalam tugas data mining. Secara umum, tugas data mining dapat diklasifikasikan menjadi 2Han dan Kamber,2006,pp21: 1. Descriptive mining: mengkarakterisisasikan properti umum pada data dalam database. 2. Predictive mining: membuat kesimpulan pada data yang telah ada dengan tujuan untuk dapat membuat prediksi. Berikut fungsionalitas dan tipe pola yang dapat ditemukan dengan data mining Han dan Kamber,2006,pp21-27 1. Deskripsi konsepkelas: Karakterisasi dan diskriminasi Data dapat diasosiasikan dengan suatu kelas atau konsep. Contoh: Sebuah toko elektronik dapat membuat kelasjenis item seperti komputer, printer, dan konsep untuk konsumen seperti bigspenders dan budgetspenders . M erupakan hal yang bermanfaat untuk mendeskripsikan masing-masing kelas dan konsep dalam bentuk yang ringkas tapi tepat. Deskripsi dari kelas atau konsep tersebut disebut dengan deskripsi kelaskonsep. Deskripsi ini dapat didapatkan melalui karakterisasi data dengan meringkas data-data dari kelas sering disebut target kelas dalam pemebelajaran seacara umum, atau data discrimintation dengan membandingkan target kelas dengan satu atau lebih kelas lain. Contoh Data Characterization dalam data mining adalah sistem data mining dapat menghasilkan deskripsi yang meringkas karakteristik dari konsumen yang membelanjakan uangnya lebih dari 1000 setiap tahun. Hasilnya dapat berupa profil umum dari konsumen seperti, konsumen berumur 40-50 tahun, memiliki pekerjaan, dan memiliki peringkat credit yang baik. 2. Mining frequent pattern, asosiasi dan korelasi Frequent Pattern sesuai namanya adalah pola yang sering muncul dalam data. Ada beberapa tipe dari frequent patterns, seperti itemsets, subsequences , dan substructures. Frequent itemset menunjukkan item yang sering muncul bersamaan dalam data set. Subsequence berarti suatu kejadian yang muncul berurutan. Contoh: konsumen cenderung membeli PC terlebih dahulu diikuti digital camera, kemudian kartu memori. Mining frequent pattern dapat membawa pada penemuan asosiasi dan korelasi yang menarik dalam data. 3. Classification and Prediction Classification adalah proses menemukan model atau fungsi yang mendeskrpisikan dan membedakan kelas dari data, dengan tujuan untuk dapat menggunakan model untuk memprediksikan kelas dari data input yang mana label kelasnya tidak diketahui. M odel yang didapat adalah berdasarkan analisis dari training data dimana pada training data label kelas telah diketahui. Dalam classification ada nilai atribut yang hendak diprediksi yaitu target atribut berupa class label. Target atribut ini merupakan atribut yang dependen terhadap attribute vector. Dalam beberapa literarur attribute vector disebut juga dengan feature, explanatory variables, atau atribut predictor . Gambar 2.4 Representasi M odel Classification M odel yang didapat dapat direpresentasikan dalam berbagai bentuk seperti aturan klasifikasi IF-THEN, decision tree, formula matematik, atau neural networks . Decision tree merupakan struktur yang menyerupai pohon, dimana setiap node menunjukkan suatu test tertentu pada nilai atribut, dan setiap percabangan merepresentasikan hasil dari tes, dan tree leaves daun merepresentasikan kelas atau distribusi kelas. Desicion tree dapat dengan mudah di ubah menjadi aturan klasifikasi IF-THEN. Neural Network , ketika digunakan untuk klasifikasi, biasanya merupakan koleksi dari unit proses yang menyerupai neuron dengan nilai koneksi antar unit. Ada banyak algoritma yang dapat digunakan untuk mengkonstruksi model klasifikasi seperti Naïve Bayes, Support Vector Machine SVM, Decision tree. Jika klasifiksasi memprediksikan nilai categorical discrete, dan tidak terurut label, maka Predictions memodelkan nilai continue. Predictions digunakan untuk memperikirakan nilai suatu data numerik.Regression merupakan metodologi statistikal yang sering digunakan untuk memperkirakan nilai numerik. Klasifikasi dan prediksi dapat didahului dengan relevance analysis. Relevance Analysis mengukur tingkat keterkaitan atribut-atribut yang digunakan terhadap label kelas yang hendak diprediksi. Hasil dariRelevance Analysis dapat digunakan untuk mengurangi atribut input dalam proses data mining dengan menghilangkan atribut-atribut yang tidak relevan. 4. Clustering Clustering termasuk dalam kategori unsupervised mining. Berbeda dengan classifications dan prediction yang memerlukan pelatihan terlebih dahulu dengan menganalisa objek data yang telah memiliki label kelas, clustering menganalisa objek data tanpa mengetahui label kelas. Clustering merupakan proses grouping sebuah set objek fisik atau abstrak dalam kelas- kelas. Algoritma yang sering digunakan untuk clustering adalah k-means dan k-medoids. Umumnya, label kelas tidak ada dalam data training karena memang tidak diketahui tetapi sebaliknya Clustering dapat digunakan untuk menghasilkan label. Objek di cluster dan di masukkan dalam grup berdasarkan prinsip “maximizing the intraclass similarity and minimizing the interclass similarity ”. Yang berarti objek cluster dibentuk sehingga objek yang berada dalam cluster yang sama memiliki tingkat kesamaan yang tinggi satu sama lain, tetapi sangat berbeda dengan objek di cluster lain. Clustering sering juga disebut segmentasi data karena clustering mempartisi data set yang besar ke dalam grup sesuai dengan kesamaannya. Clustering dapat digunakan untuk outlier detection, dimana outliers adalah suatu nilai yang jauh dari semua cluster lain. 5. Analisis Outlier Database dapat mengandung objek data yang tidak sesuai dengan sifat umum atau model data.Objek data tersebut disebut sebagai outlier. Kebanyakan metode data mining menghapus outlier karena diaggap noise atau perkecualian.Tetapi, beberapa aplikasi seperti fraud detection, kejadian seperti outlier tersebut dapat bermanfaat. Analisis data outlier disebut juga outlier mining . Outliers dapat dideteksi dengan menggunakan tes statistik yang mengasumsikan distribusi atau probabilitas model dari data, dengan menggunakan distance measures dimana objek yang memiliki jarak yang jauh dari cluster-cluster lainnya dianggap outlier atau anomali. 6. Analisis evolusi Data evolution analysis mendeskripsikan dan memodelkan tren untuk objek yang sifatnya berubah dari waktu ke waktu. Analisis evolusi dapat meliputi karakterisasi, dicriminasi, asosiasi dan korelasi, klasifikas i, prediksi, atau clustering data yang berhubungan dengan waktu.

2.1.9 Knowle dge Discovery from Data KDD dan Data mining