Knowledge Discovery in Database

12 2. Integrasi data data integration Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada. 3. Seleksi data data selection Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan saja. 4. Transformasi data data transformation Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi- bagi menjadi beberapa interval. Proses ini sering disebut transformasi data. 13 5. Penambangan data data mining Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data. 6. Evaluasi pola pattern evaluation Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba metode data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat. 7. Presentasi pengetahuan knowledge presentation Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mining. Tahap 1 sampai dengan tahap 4 merupakan berbagai bentuk dari data preprocessing , dimana data disiapkan untuk dilakukan penambangan mining . Data mining hanya salah satu langkah dari keseluruhan proses dalam Knowledge Discovery in Database KDD. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 14

2.2 Penambangan Data Data Mining

2.2.1 Definisi Penambangan Data Data Mining

Penambangan data Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database . Data mining adalah proses yang menggunakan teknik statistic, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar Turban, dkk, 2005. Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual Pramudiono, 2006. Data mining merupakan analisis dari peninjauan kumpulan data untuk menemukan hubungan tidak diduga dan meringkas data dengan cara yang berbeda dengan sebelumnya, yang dapat dipahami dengan bermanfaat bagi pemilik data Larose, 2005.

2.2.2 Teknik Penambangan Data Data Mining

Teknik dalam penambangan data adalah sebagai berikut Hermawati, 2013: 1. Classification klasifikasi Klasifikasi adalah menentukan sebuah record data baru ke salah satu dari beberapa kategori atau klas yang telah didefinisikan sebelumnya. Disebut juga dengan ‘ supervised learning’. 2. Clustering klasterisasi Klasterisasi adalah mempartisi data-set menjadi beberapa sub-set atau kelompok sedemikian rupa sehingga elemen-elemen dari suatu kelompok tertentu memiliki set property yang di share bersama, dengan tingkat similaritas yang tinggi dalam satu kelompok dan tingkat similaritas antar kelompok yang rendah. Disebut juga dengan ‘unsupervised learning’. 15 3. Association Rule Discovery kaidah asosiasi Mendeteksi kumpulan atribut-atribut yang muncul bersamaan co- occur dalam frekuensi yang sering, dan membentuk sejumlah kaidah dari kumpulan- kumpulan tersebut.

2.3 Clustering

2.3.1 Definisi Clustering

Clustering yaitu menemukan kumpulan obyek hingga obyek-obyek dalam satu kelompok sama atau punya hubungan dengan yang lain dan berbeda atau tidak berhubungan dengan obyek-obyek dalam kelompok lain. Tujuan dari clustering adalah untuk meminimalkan jarak di dalam cluster dan memaksimalkan jarak antar cluster . Dalam mengukur jarak dalam clustering dapat dilakukan dengan menggunakan Euclidean Distance . Euclidean distance merupakan pengukuran jarak obyek dan pusat cluster yang banyak digunakan secara luas dalam berbagai kasus pattern matching , termasuk clustering . Eucludean distance dinyatakan dengan persamaan : � = √∑ − = …………………………………….2.1 Dimana : n = jumlah fitur dalam suatu data. k = indeks data. p k = nilai atribut fitur ke-k dari p. q k = nilai atribut fitur ke-k dari q. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 16

2.3.2 Tipe Clustering

Clustering merupakan suatu kumpulan dari keseluruhan cluster . Beberapa tipe penting dari clustering adalah sebagai berikut Hermawati, 2013: 1. Partitional vs Hierarchical Partitional clustering adalah pembagian obyek data ke dalam subhimpunan cluster yang tidak overlap sedemikian hingga tiap obyek data berada dalam tepat satu sub-himpunan. Hierarchical clustering merupakan sebuah himpunan cluster bersarang yang diatur sebagai suatu pohon hirarki. Tiap simpul cluster dalam pohon kecuali simpul daun merupakan gabungan dari anaknya sub cluster dan simpul akar berisi semua obyek. 2. Exclusive vs non-exclusive Exclusive clustering adalah bila setiap obyek yang ada berada tepat di dalam satu cluster. Overlapping atau non-exclusive clustering adalah bila sebuah obyek dapat berada di lebih dari satu cluster secara bersamaan. 3. Fuzzy vs non-fuzzy Dalam fuzzy clustering , sebuah titik termasuk dalam setiap cluster dengan suatu nilai bobot antara 0 dan 1. Jumlah dari bobot-bobot tersebut sama dengan 1. Clustering probabilitas mempunyai karakteristik yang sama. 4. Partial vs complete Dalam complete clustering , setiap obyek ditempatkan dalam sebuah cluster . Tetapi dalam partial clustering , tidak semua obyek ditempatkan dalam sebuah cluster . Kemungkinan ada obyek yang tidak tepat untuk ditempatkan di salah satu cluster , misalkan berupa outlier atau noise . PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI