Normalisasi Data Metode KAJIAN PUSTAKA

2.5 Normalisasi Data

Proses clustering dapat terdiri dari berbagai interval nilai yang menyebabkan perbedaan jarak antar satu nilai dengan nilai lainnya, diperlukannya proses normaslisasi agar data memiliki nilai rata-rata 0 atau zero mean Putra, Darma 2010, h.310. Suatu data atau fitur dapat dinormalisasi dengan rumus berikut. ̌ = �−�̅ � � ........................................................................................................... 2.1 Nilai ̌ dinyatakan sebagai data atau fitur X yang telah ternormalisasi , ̅ dinyatakan sebagai rata-rata dari X, dan � menyatakan nilai standar deviasi dari X. Sebagai contoh, misalkan vektor data X = 2,3,5,10,15 maka ̅ = , � = . , sehingga vektor X yang telah ternormalisasi adalah sebagai berikut. ̌ = − . , − . , − . , . , . Setelah dinormalisasi, pada data dapat dilakukan proses scalling agar nilai data berada pada suatu interval tertentu. Proses scalling berfungsi agar suatu fitur memiliki batas atas S dan batas bawah R dapat diperoleh dengan rumus berikut. ̌ = �−� � max − � ∗ − + ...................................................................... 2.2 Data yang telah ternormalisasi di atas diskalakan dengan batas S = 1 dan batas bawah R = 0 maka: ̌ = − − . . − − . ∗ − + ̌ = − . + . , − . + . , − . + . , . + . , . + . . − − . ∗ ̌ = , . , . , . , . . = , . , . , . , Dari hasil di atas terlihat nilai fitur data berada dalam interval [0,1].

2.6 Metode

Clustering Proses dari pengelompokan objek fisik atau abstrak ke dalam kelas yang memiliki kemiripan disebut dengan proses clustering, sedangkan cluster adalah koleksi data yang memiliki kemiripan satu sama lain dengan objek yang berada pada cluster yang sama dan memiliki perbedaan dengan objek yang berada pada cluster yang lain Han, Kamber Pei 2007, h. 108. Menurut Kantardzic 2011, h. 250, analisis cluster didasari oleh pengelompokan secara natural, secara pengukuran atau melihat dari segi kesamaan dan perbedaan objek tersebut. Metode K-Means merupakan salah satu jenis metode clustering yang digunakan untuk