Matrik partisi U
ik
mempunyai komponen i= banyaknya data, k = banyaknya cluster. Matrik ini random dengan kisaran nilai 0 sampai 1.
iii. Hitung pusat cluster dengan menggunakan rumus 2,2 :
iv. Hitung fungsi objektif pada iterasi ke –i dengan menggunakan rumus 2,3
d
ik
merupakan ukuran jarak untuk jarak Euclidean antara pusat cluster ke-i dengan data ke-k. untuk menghitung d
ik
digunakan rumus 2,4 :
v. Perbaiki drajat keanggotaan tiap data pada tiap cluster dengan menggunakan rumus 2,5
vi. Cek kondisi berhenti jika : a Jika: |Pi-Pi-1 |e atau tMaxIter maka berhenti.
b Jika tidak: t=t+1, ulangi langkah iii. Dari algoritma tersebut dapat disimpulkan bahwa langkah pertama yang dilakukan
adalah menentukan matriks derajat keanggotaan secara acak yang kemudian dijadikan acuan terhadap perhitungan pusat cluster. Pada kondisi awal pusat cluster masih belum akurat, yang
ditunjukkan dengan besarnya selisih nilai objektif, sehingga dilakukan langkah iteratif dengan cara memperbaiki pusat cluster. Dengan langkah iteratif ini dapat dilihat bahwa pusat
∑ ∑
∑ ∑
[∑ ]
2,2
2,3
2,4
2,5 [∑
]
cluster bergerak menuju lokasi yang tepat. Langkah ini dilakukan berdasarkan minimisasi fungsi objektif.
Output dari Fuzzy C-means merupakan matriks pusat cluster berukuran c x p dan matriks derajat keanggotaan untuk tiap
– tiap data berbentuk n x c. Pengelompokkan cluster dapat dilihat dari kedua output ini. Matriks pusat cluster menunjukkan pusat cluster untuk
tiap – tiap variabel yang diamati dalam setiap cluster-nya. Matriks derajat keanggotaan
menunjukkan kecenderungan suatu data untuk masuk kedalam cluster tertentu. Semakin besar nilai derajat keanggotaannya, maka semakin besar peluang data tersebut masuk
kedalamclustertertentu.
2.5 Confusion Matrix
Validasi merupakan proses untuk menilai hasil metode cluster. Oleh karena itu, proses ini bertujuan untuk menjamin bahwa solusi cluster yang di hasilkan dalam analisis
cluster dapat menggambarkan populasi sebenarnya. Confusion Matrix merupakan bagian dari uji validasi dengan metode external test.Uji
validasi external test ini digunakan untuk mengukur sejauh mana label pada cluster dengan label pada class yang disediakan.
Menurut Kohavi dan Provost Kohavi dan Provost,1998 confusion Matrix berisi informasi tentang actual faktadan predicted prediksi. Confusion matrix pada gambar 2.1
berbentuk matrix 2 x 2 yang digunakan untuk mendapatkan jumlah ketepatan yang didapat dengan menggunakan algoritma tertentu
Predicted Negative
Positif
Actual Negative
A B
Positive C
D
Gambar 2.1 KohaviProvost,1998 : Confusion Matrix
Keterangan : A, jikaactual dan predicted bernilai negative.
B, jika actual bernilai negative dan predicted bernilai positive. C, jika actual bernilai positive dan predicted bernilai negative
D, jika actual dan predicted bernilai positive. Rumus yang digunakan untuk menghitung akurasi dengan confusion
matrix,yaitu :
2.6 Data Preparation
Proses preparasi ini dilakukan sehingga data dapat lebih mudah untuk diolah. Terdapat 3 hal dalam data preparationyaitu :
1.
Data Selection: Memilih data yang akan digunakan dalam proses data mining. Dalam
proses ini dilakukan juga pemilihan atribut-atribut yang disesuaikan dengan proses data mining.
2.
Data Preprocessing: Memastikan kualitas data yang telah dipilih pada tahap
dataselection, pada tahap ini masalah yang harus dihadapi adalah noisy data dan missing values. Proses pembersihan data cleansing dilakukan dengan melakukan
metode-metode query sederhana untuk menemukan anomali-anomali data yang bisa saja masih terdapat pada sistem.
3. Data Transformation: Mengelompokkan atribut-atribut atau field-yang telah terpilih
menjadi 1 tabel dengan cara melakukan denormalisasi.
2,6
2.7 PCA Principal Component Analysis
Terdapat dua metode Dimensionality Reduction yang paling sering digunakan yaitu Feature Selection dan Feature Extraction.Feature selection merupakan sebuah proses
pemilihan subset feature dari feature asli, sedangkan feature extraction adalah proses mengekstrak feature baru dari feature asli melalui pemetaan fungsional.
Salah satu metode feature extraction adalah PCA Principal Component Analysis . Prosedur PCA pada dasarnya adalah bertujuan untuk menyederhanakan variabel dengan cara
menyusutkan mereduksi dimensinya. Hal ini dilakukan dengan cara menghilangkan korelasi diantara variabel bebas melalui transformasi variabel bebas asal ke variabel baru yang tidak
berkorelasi sama sekali atau yang biasa disebut dengan principal component Analisis Komponen Utama Principal Component Analysis atau PCA adalah suatu
metodeyang melibatkan prosedur matematika yangmengubah dan mentransformasikan sejumlah besarvariabel yang berkorelasi menjadi sejumlah kecilvariabel yang tidak
berkorelasi, tanpa menghilangkaninformasi penting di dalamnya
2.8 Hepatitis
Hepatitis telah menjadi masalah global. Saat ini diperkirakan 400 juta orang di dunia terinfeksi hepatitis B kronis, bahkan sekitar 1 juta orang meninggal setiap tahun karena
penyakit ini Wening,2008. Hepatitis adalah
istilah umum yang berarti radang hati.“Hepa” berarti kaitan dengan hati, sementara “itis” berarti radang.Hepatitis atau peradangan hati dapat diartikan sebagai
suatu proses peradangan yang menimpa sel-sel hati Cahyono,2008. Secara objektif, adanya hepatitis dibuktikan melalui biopsi jaringan hati pengambilan sedikit jaringan hati
menggunankan jarum.Namun, secara sederhana pemeriksaan dapat digantikan dengan pemeriksaan darah.
Hepatitismerupakan salah satu penyakit yang membayakan jika tidak segera ditangani.Penyakit yang menyerang hati atau liver ini semakin berbahaya karena gejalanya
yang tidak selalu tampak.