2.3.1 Jenis Data Set
Ada tiga kerekteristik umum set data yang mempunyai pengaruh besar dalam data mining, yaitu dimensionalitas, sparsitas, dan resolusi.
Sedangkan jenis set data itu sendiri dapat dibedakan menjadi 3 kelompok, yaitu data record, data berbasis grafik, dan data terurut
ordered data. Mungkin ada kelompok lain selain tiga kelompok ini, tetapi di sini data set di bagi menjadi tiga kelompok tersebut.
1. Karakteristik Set Data Karakteristik pertama pada set data adalah dimensi.
Dimensi dapat di artikan sebagai jumblah fitur pada setiap baris data dalah set data. Data dengan jumblah dimensi yang sedikit tentu
secara kualitatif berbeda dengan data dalam kinteks yang sama,tetapi dengan jumlah dimensi yang lebih banyak atau tinggi. Meskipun
data dengan dimensi tinggi memberikan kualitas yang biasanya lebih baik dalam proses data mining, biaya komputasinya juga menjadi
mahal. dan tidak jarang ada sebagian dari fitur yang tidak berpengaruh besar dalam pekerjaan data mining sehingga
memerlukan proses
awal, yaitu
reduksi dimensionalitas.
Karakteristik yang kedua adalah sparsitas. Untuk set data dengan fitur asimetik jumblah fitur yang terisi nilai tidak sama antara satu
data dengan yang lain 2. Data Record
Kebanyakan metode data mining mengasumsikan bahwa set data yang di proses adalah kumpulan baris data, di mana setiap
barisnya terdiri atas sejumblah fitur yang tetap. Dalam set data berbentuk record., tidak ada hubungannya antara baris yag satu
dengan baris yang lainnya, dan juga dengan set data yang lain. Setiap baris data berdiri sendiri sebagai sebuah data individu. Dalam sistem
basis data, umumnya ada sebuah tabel yang saling berhubungan menggunakan suatu kunci, tetapi dalam set data berbentuk data
record, diasumsikan bahwa hanya ada satu tabel yang berisi sejumblah basis data. Oleh karena itu, biasanya set data yang di olah
dalam data mining adalah keluaran dari data warehouse yang menggunakan query untuk melakukan pengambilan data dari
sejumblah tabel dalam sistem basis data [3].
2.4 Pengolahan Awal Preprocessing