2.5 Normalisasi Data
Proses clustering dapat terdiri dari berbagai interval nilai yang menyebabkan perbedaan jarak antar satu nilai dengan nilai lainnya, diperlukannya
proses normaslisasi agar data memiliki nilai rata-rata 0 atau zero mean Putra, Darma 2010, h.310. Suatu data atau fitur dapat dinormalisasi dengan rumus
berikut. ̌ =
�−�̅ �
�
........................................................................................................... 2.1 Nilai
̌ dinyatakan sebagai data atau fitur X yang telah ternormalisasi , ̅ dinyatakan sebagai rata-rata dari X, dan
� menyatakan nilai standar deviasi dari X. Sebagai contoh, misalkan vektor data X = 2,3,5,10,15 maka ̅
= , � = . , sehingga vektor X yang telah ternormalisasi adalah sebagai berikut.
̌ = − . , − . , − . , . , . Setelah dinormalisasi, pada data dapat dilakukan proses scalling agar nilai
data berada pada suatu interval tertentu. Proses scalling berfungsi agar suatu fitur memiliki batas atas S dan batas bawah R dapat diperoleh dengan rumus berikut.
̌ =
�−� � max − �
∗ −
+ ...................................................................... 2.2 Data yang telah ternormalisasi di atas diskalakan dengan batas S = 1 dan
batas bawah R = 0 maka: ̌ =
− − . . − − .
∗ −
+
̌ = − . + . , − . + . , − . + . , . + . , . + . . − − .
∗
̌ = , . , . , . , . .
= , . , . , . , Dari hasil di atas terlihat nilai fitur data berada dalam interval [0,1].
2.6 Metode
Clustering
Proses dari pengelompokan objek fisik atau abstrak ke dalam kelas yang memiliki kemiripan disebut dengan proses clustering, sedangkan cluster adalah
koleksi data yang memiliki kemiripan satu sama lain dengan objek yang berada pada cluster yang sama dan memiliki perbedaan dengan objek yang berada pada
cluster yang lain Han, Kamber Pei 2007, h. 108. Menurut Kantardzic 2011, h. 250, analisis cluster didasari oleh pengelompokan secara natural, secara
pengukuran atau melihat dari segi kesamaan dan perbedaan objek tersebut. Metode K-Means merupakan salah satu jenis metode clustering yang digunakan untuk