12 2.
Integrasi data
data integration
Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak
hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan
entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada
integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data
berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada.
3. Seleksi data
data selection
Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database.
Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analysis, tidak perlu mengambil nama
pelanggan, cukup dengan id pelanggan saja. 4.
Transformasi data
data transformation
Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Beberapa metode data mining membutuhkan format data yang
khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data
kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi- bagi menjadi beberapa interval. Proses ini sering disebut transformasi data.
13 5.
Penambangan data
data mining
Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data.
6. Evaluasi pola
pattern evaluation
Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang
khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada
beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba metode data mining lain yang lebih
sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.
7. Presentasi pengetahuan
knowledge presentation
Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap
terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan
orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu
tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mining.
Tahap 1 sampai dengan tahap 4 merupakan berbagai bentuk dari data
preprocessing
, dimana data disiapkan untuk dilakukan penambangan
mining
.
Data mining
hanya salah satu langkah dari keseluruhan proses dalam
Knowledge Discovery in Database
KDD. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
2.2 Penambangan Data Data Mining
2.2.1 Definisi Penambangan Data Data Mining
Penambangan data
Data mining
adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam
database
.
Data mining
adalah proses yang menggunakan teknik statistic, matematika, kecerdasan buatan, dan
machine learning
untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar Turban, dkk, 2005.
Data mining
adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual
Pramudiono, 2006.
Data mining
merupakan analisis dari peninjauan kumpulan data untuk menemukan hubungan tidak diduga dan meringkas data dengan cara yang berbeda
dengan sebelumnya, yang dapat dipahami dengan bermanfaat bagi pemilik data Larose, 2005.
2.2.2 Teknik Penambangan Data Data Mining
Teknik dalam penambangan data adalah sebagai berikut Hermawati, 2013: 1.
Classification
klasifikasi Klasifikasi adalah menentukan sebuah
record
data baru ke salah satu dari beberapa kategori atau klas yang telah didefinisikan sebelumnya. Disebut juga
dengan ‘
supervised
learning’. 2.
Clustering
klasterisasi Klasterisasi adalah mempartisi data-set menjadi beberapa sub-set atau
kelompok sedemikian rupa sehingga elemen-elemen dari suatu kelompok tertentu memiliki set property yang di
share
bersama, dengan tingkat
similaritas
yang tinggi dalam satu kelompok dan tingkat similaritas antar kelompok yang rendah. Disebut juga dengan ‘unsupervised learning’.
15 3.
Association Rule Discovery
kaidah asosiasi Mendeteksi kumpulan atribut-atribut yang muncul bersamaan co-
occur
dalam frekuensi yang sering, dan membentuk sejumlah kaidah dari kumpulan- kumpulan tersebut.
2.3 Clustering
2.3.1 Definisi Clustering
Clustering
yaitu menemukan kumpulan obyek hingga obyek-obyek dalam satu kelompok sama atau punya hubungan dengan yang lain dan berbeda atau tidak
berhubungan dengan obyek-obyek dalam kelompok lain. Tujuan dari
clustering
adalah untuk meminimalkan jarak di dalam
cluster
dan memaksimalkan jarak antar
cluster
. Dalam mengukur jarak dalam
clustering
dapat dilakukan dengan menggunakan
Euclidean Distance
.
Euclidean distance
merupakan pengukuran jarak obyek dan pusat
cluster
yang banyak digunakan secara luas dalam berbagai kasus
pattern matching
, termasuk
clustering
.
Eucludean distance
dinyatakan dengan persamaan : � = √∑
−
=
…………………………………….2.1 Dimana :
n = jumlah fitur dalam suatu data. k = indeks data.
p
k
= nilai atribut fitur ke-k dari p. q
k
= nilai atribut fitur ke-k dari q. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
2.3.2 Tipe Clustering
Clustering
merupakan suatu kumpulan dari keseluruhan
cluster
. Beberapa tipe penting dari
clustering
adalah sebagai berikut Hermawati, 2013: 1.
Partitional vs Hierarchical Partitional clustering
adalah pembagian obyek data ke dalam subhimpunan
cluster
yang tidak overlap sedemikian hingga tiap obyek data berada dalam tepat satu sub-himpunan.
Hierarchical clustering
merupakan sebuah himpunan
cluster
bersarang yang diatur sebagai suatu pohon hirarki. Tiap simpul
cluster
dalam pohon kecuali simpul daun merupakan gabungan dari anaknya sub
cluster
dan simpul akar berisi semua obyek.
2.
Exclusive vs non-exclusive Exclusive clustering
adalah bila setiap obyek yang ada berada tepat di dalam satu
cluster. Overlapping
atau
non-exclusive clustering
adalah bila sebuah obyek dapat berada di lebih dari satu
cluster
secara bersamaan. 3.
Fuzzy vs non-fuzzy
Dalam
fuzzy clustering
, sebuah titik termasuk dalam setiap
cluster
dengan suatu nilai bobot antara 0 dan 1. Jumlah dari bobot-bobot tersebut sama
dengan 1.
Clustering
probabilitas mempunyai karakteristik yang sama. 4.
Partial vs complete
Dalam
complete clustering
, setiap obyek ditempatkan dalam sebuah
cluster
. Tetapi dalam partial
clustering
, tidak semua obyek ditempatkan dalam sebuah
cluster
. Kemungkinan ada obyek yang tidak tepat untuk ditempatkan di salah satu
cluster
, misalkan berupa
outlier
atau
noise
. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI