Kompetensi Usaha Telematika di Indonesia

6  , = − ∑  , . = …. , ≠ 6 Berdasarkan definisi 1-3 dimungkinkan untuk menghitung jarak antara dua nilai diskrit yang sebelumnya telah mengalami diskretisasi untuk atribut numerik. Jarak tersebut memiliki kondisi berikut : 1 0  , 1 2  , =  y, x 3  , = Adapun signifikansi atribut dihitung dengan persamaan : = ∑ ∑ � [ ], [ ] − = 7 S adalah interval yang dipilih, disusun menjadi nilai kategorik u[1], u [2],…,u[S], kemudian dihitung � [ ], [ ] untuk setiap pasang nilai kategorik u[r] dan u[s]. Pada atribut numerik yang telah diubah dalam bentuk kategorik dilakukan dengan cara yang sama seperti pada atribut kategorik. Signifikansi pada atribut numerik, dihitung sebagai mean dari � [ ], [ ] untuk semua pasang [ ] ≠ [ ]. Jarak antar dua objek untuk atribut campuran kategorik dan numerik, dilakukan dengan asumsi D1 dan D2 sebagai dua objek pada data campuran dengan total atribut. Dua objek direpresentasikan sebagai = { , , … , } = { , , … , }dimana = + dengan pertama adalah atribut numerik dan berikutnya adalah atribut kategorik . Jarak antara D1 dan D2 dinotasikan dengan DistD1,D2, dihitung dengan persamaan : Dist , = ∑ − � = + ∑ � = � , ` 8 Penentuan titik pusat cluster untuk data campuran didefinisikan sebagai kondisi bahwa jika a bernilai r lebih dekat ke nilai s dibanding ke nilai t, dan seterusnya, maka � , � , , maka dapat diekpektasi bahwa clustering yang baik akan menghasilkan co-occurrence dari r dan s dalam cluster yang sama, dibanding co- occurrencer dan t. Nilai pusat untuk a th beratribut kategorik untuk clusterC direpresentasikan sebagai berikut : 〈 , , , , , , … , , , 〈 , , , , , , … , , , … , , , , , , … , , ,  9 Diketahui sebagai jumlah data objek pada cluster , , , dinotasikan sebagai jumlah elemen dalam clusterC yang memiliki k th nilai atribut dan i th atribut, dengan asumsi i th atribut memiliki nilai berbeda. Pusat cluster merepresentasikan distribusi proporsional antara masing-masing nilai kategorik pada cluster. Jarak antara objek dengan pusat cluster merupakan penjumlahan jarak antara nilai atribut numerik dan kategorik. Untuk atribut numerik menggunakan jarak Euclidean dan nilai mean. Untuk atribut kategorik dengan objek bernilai atribut r dihitung sebagai fungsi bobot � , dan adalah semua nilai kemungkinan dari . Misalkan , dinotasikan sebagai nilai k th untuk atribut kategorik , total nilai adalah . Maka jarak objek ke pusat clusteradalah :