Large Applications berdasarkan Upon RANdomized Search dalam konteks clustering dalam database spatial.
2.6 Analisis Cluster
Analisis cluster adalah suatu analisis statistik yang bertujuan memisahkan obyek kedalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu
dengan yang lain. Dalam analisis ini tiap-tiap kelompok bersifat homogen antar anggota dalam kelompok atau variasi obyek dalam kelompok yang terbentuk sekecil
mungkin Prayudho, 2008
Tujuan Analisis Cluster : 1.
Untuk mengelompokkan objek-objek individu-individu menjadi kelompok- kelompok yang mempunyai sifat yang relatif sama homogen.
2. Untuk membedakan dengan jelas antara satu kelompok cluster dengan
kelompok lainnya. Adapun manfaat Analsis Cluster sebagai berikut:
1. Untuk menerapkan dasar-dasar pengelompokan dengan lebih konsisten.
2. Untuk mengembangkan suatu metode generalisasi secara induktif, yaitu
pengambilan kesimpulan secara umum dengan berdasarkan fakta-fakta khusus. 3.
Menemukan tipologi yang cocok dengan karakter obyek yang diteliti. 4.
Mendiskripsikan sifat-sifat karakteristik dari masing-masing kelompok.
Analisis cluster dilakukan dengan langkah-langkah berikut: 1. Merumuskan permasalahan.
2. Memilih ukuran jarak atau kesamaan. 3. Memilih prosedur pengklusteran.
4. Menetapkan jumlah cluster.
Universitas Sumatera Utara
5. Interpretasi dan profil dari cluster. 6. Menaksir reliabilitas dan validitas.
2.7 Metode Kernel Kernel Methods
2.7.1 Pendahuluan.
Machine learning untuk penelitian pengolah sinyal sangat dipengaruhi oleh metode yang populer kernel Mercer Cristianini Taylor, 2000. Point utama dalam metode
kernel adalah apa yang disebut kernel trick, yang memungkinkan penghitungan dalam beberapa inner product, kemungkinan dengan dimensi yang tidak terbatas,
ruang fitur. Anggaplah x
i
dan x
j
adalah dua point data ruang input. Jika fungsi kernel k .,. memenuhi kondisi Mercer maka
k x
:
i ,
x
j
= {Φx
i
,Φx
j
} 2.4
Dimana .,. menunjukkan inner product, dan Φ . menunjukkan pemetaan
non
-
linier dari ruang input ke ruang fitur kernel. Kernel trick memungkinkan pelaksanaan dari algoritma pembelajaran, yang dinyatakan dalam bentuk inner
product ruang fitur kernel Metode-metode Kernel
. adalah algoritma yang secara implisit melaksanakan,
melalui penggantian inner product dengan Kernel Mercer yang tepat, sebuah pemetaan
nonlinear dari data input ke ruang fitur berdimensi tinggi Vapnik, 1995. Metode- metode kernel yang sangat disupervisi
telah dikembangkan untuk menyelesaikan masalah-masalah klasifikasi dan regresi
K-means adalah algoritma unsupervised learning yang membagi kumpulan data ke dalam sejumlah cluster yang dipilih dibawah beberapa ukuran-ukuran
optimisasi. Sebagai contoh, kita sering ingin meminimalkan jumlah kuadrat dari jarak Euclidean antara sampel dan centroid. Asumsi di belakang ukuran ini adalah
keyakinan bahwa ruang data terdiri dari daerah elliptical yang terisolasi. Meskipun demikian, asumsi tersebut tidak selalu ada pada aplikasi spesifik. Untuk
.
Universitas Sumatera Utara
menyelesaikan masalah ini, sebuah gagasan meneliti ukuran-ukuran lain, misalnya kesamaan kosinus yang digunakan dalam pencarian informasi. Gagasan lain adalah
memetakan data pada ruang baru yang memenuhi persyaratan untuk ukuran optimisasi. Dalam hal ini, fungsi kernel merupakan pilihan yang baik.
2.7.2 Fungsi Kernel Kernel Function
Ada kalanya tidak cukup bagi machine learning untuk bekerja dalam ruang input karena asumsi di belakang mesin tidak menyesuaikan pola riil dari data. Sebagai
contoh, SVM support vector machine dan Perceptron memerlukan data yang tidak dapat dipisahkan secara linear, sedangkan K-means dengan jarak Euclidean
mengharapkan data terdistribusi ke dalam daerah elliptical. Ketika asumsi tersebut tidak digunakan, maka kita dapat menggunakan beberapa jenis transformasi pada data,
dengan memetakan mereka pada ruang baru di mana machine learning dapat digunakan. Fungsi Kernel memberikan kepada kita sebuah alat untuk mendefinisikan
transformasi.
Anggaplah kita diberikan sekumpulan sampel x
1
, x
2
, x
3
,…, x
N
, dimana x
i
ε R
D
, dan fungsi pemetaan
Φ yang memetakan x
i
dari ruang input R
D
pada ruang baru
Q . Fungsi kernel didefinisikan sebagai dot product dalam ruang baru
H x
Q :
i
, x
j
= Φx
i
. Φ x
j
Sebuah fakta 2.5
penting mengenai fungsi kernel adalah bahwa fungsi ini dibangun tanpa mengetahui bentuk konkrit dari
Φ, yaitu, transformasi yang didefinisikan secara implisit. Tiga fungsi kernel yang secara umum tercantum di bawah ini
PolynomialH x :
i
, x
j
= x
i
. x
j
+ 1
d
Radial H x 2.6
i
, x
j
= exp -r || X
i
– X
j
||
2
Neural H x 2.7
i
, x
j
= tanh ax
i
. x
j
Kelemahan utama dari fungsi Kernel meliputi, pertama, beberapa sifat dari ruang baru hilang, misalnya, dimensionalitas dan tingkatan nilainya, sehingga
+ b 2.8
Universitas Sumatera Utara
kekurangan bentuk eksplisit untuk Φ. Kedua, penentuan bentuk kernel yang tepat untuk kumpulan data tertentu harus diwujudkan melalui eksperimen-eksperimen.
Bahkan, biaya penghitungan dan penyimpanan meningkat menurut margin luas.
Universitas Sumatera Utara
2.7.3 Kernel Trick
Dot product sering dianggap sebagai ukuran kesamaan antara dua vektor input. Dot product
Φx
i
. Φx
j
dapat dianggap sebagai ukuran kesamaan antara dua jarak x
i
dan x
j
, dalam ruang Kernel trick adalah suatu metode untuk menghitung kesamaan dalam ruang
yang ditransformasikan dengan menggunakan kumpulan atribut
orisinal. Pertimbangkan pemetaan fungsi
Φ yang diberikan dalam persamaan 2.9. yang ditransformasikan.
Φ = x
1
, x
2
→ �
1, 2
�
2, 2
√2�
R
1,
√2�
R
2
, 1 2.9
Dot product antara dua vektor input u dan v dalam ruang yang ditransformasikan
dapat ditulis sebagai berikut
Φu . Φv = �
1 2
�
2, 2
√2�
R
1,
√2�
R
2
: , 1 .
�
1 2
�
2, 2
√2�
R
1,
√2�
R
2
= �
1 2
�
1, 2
+ �
2 2
�
2, 2
+ 2 u
, 1
1
v
1
+ 2 u
2
v
2
= u . v + 1 + 1
2
Analisa ini memperlihatkan bahwa dot product dalam ruang yang ditransformasikan dapat dinyatakan dalam bentuk fungsi kesamaan dalam ruang orisinal:
2.10
K u , v = Φu . Φ v = u . v + 1
2
Fungsi kesamaan, K, yang dihitung dalam ruang atribut orisinal, dikenal sebagai fungsi kernel. Kernel trick membantu mengatasi beberapa kecemasan tentang cara
mengimplementasikan pada Support Vector Machine SVM nonlinear. 2.11
Pertama, kita tidak harus mengetahui bentuk yang tepat dari pemetaan fungsi Φ karena fungsi-fungsi kernel yang digunakan dalam SVM nonlinier harus memenuhi
prinsip matematika yang dikenal sebagai Mercer’s Theorem. Prinsip ini memastikan bahwa fungsi kernel dapat selalu dinyatakan sebagai dot product antara dua vektor
input dalam beberapa ruang dengan dimensi tinggi. Ruang yang ditransformasikan dari kernel SVM disebut Reproducing kernel Hilbert space RKHS. Kedua,
penghitungan dot product yang menggunakan fungsi kernel adalah lebih mudah dengan menggunakan transformasi atribut
set Φ x. Ketiga, karena penghitungan
Universitas Sumatera Utara
merupakan hasil dalam ruang orisinal, maka isu-isu yang berhubungan dengan masalah dimensi dapat dihindari
.
2.7.4 Algoritma-algoritma Representatif 2.7.4.1 Pendahuluan
Sub Bab ini merupakan sebuah bagian metodologi dari penelitian ini. Dimulai dengan penjelasan-penjelasan menenai algoritma-algoritma representatif detail yang
akan digunakan dalam penelitian ini. Diberikan sebuah kajian singkat mengenai konsep dasar dari algoritma K-Means clustering dan memperluas pada algoritma
Kernel K-Means clustering.
2.7.4.2 Algoritma K-Means Clustering K-Means Clustering Algorithm
K-Means MacQueen, 1967 adalah salah satu dari algoritma unsupervised learning yang paling sederhana untuk menyelesaikan masalah clustering yang telah dikenal.
Prosedur ini mengikuti cara sederhana dan mudah untuk mengklasifikasikan kumpulan data tertentu melalui jumlah cluster tertentu menganggap k cluster yang telah
ditetapkan sebelumnya. Gagasan utama adalah mendefinisikan centroid k, satu untuk setiap cluster.
Centroid ini harus ditempatkan dengan cara yang cerdik karena lokasi yang berbeda menyebabkan hasil yang berbeda. Oleh karena itu, pilihan terbaik adalah
menempatkan mereka sejauh mungkin dari satu dengan yang lain. Langkah berikutnya adalah mengambil setiap point yang termasuk pada kumpulan data tertentu
dan menghubungkannya dengan centroid yang terdekat. Apabila tidak ada point yang menantikan, maka langkah pertama diselesaikan dan groupage secara dini
dilakukan. Pada point ini kita perlu mengkalkulasi kembali centroid baru k dari cluster yang berasal dari langkah sebelumnya. Setelah kita memiliki centroid baru k
ini, pengikatan baru harus dilakukan antara point-point kumpulan data yang sama dan centroid baru terdekat. Sebuah loop telah dihasilkan. Karena loop ini, maka kita
Universitas Sumatera Utara
dapat mengetahui bahwa centroid k mengubah lokasi mereka langkah demi langkah hingga tidak ada lagi perubahan yang dilakukan. Dengan kata lain, centroid tidak
bergerak lagi. Akhirnya, algoritma ini membantu meminimalkan fungsi objektif, dalam hal ini sebuah fungsi kesalahan kuadrat.
Sekumpulan vektor n x
j
, j = 1, … n, akan dibagi ke dalam kelompok- kelompok c G
i,
i=1,… c. Fungsi biaya didasarkan pada jarak Euclidean antara vektor- vektor x
k
dalam kelompok j dan pusat-pusat cluster c
i
� = ∑ �
� �
�=1
= ∑ ∑
||
�,�
�
∈ �
�
� �=1
�
�
− �
�
||
2
2.12 yang sesuai, dapat
didefinisikan melalui:
Dimana j
i
Kelompok-kelompok yang dibagi didefinisikan oleh matriks keanggotaan biner c x n, U, dimana elemen u
= ∑
||
�,�
�
∈ �
�
�
�
− �
�
||
2
adalah fungsi biaya dalam kelompok i.
ij
adalah 1 jika point data ke-j x
j
termasuk pada kelompok i dan 0 atau sebaliknya. Begitu pusat cluster c
i
ditetapkan, peminimalan u
ij
1, �� ||�
�
− �
�
||
2
≤ |��
�
− �
�
�|
2
, ��� ���ℎ � ≠ � 2.13
0, ��ℎ������
untuk Persamaan 2.11 dapat diperoleh sebagai berikut:
Yang berarti bahwa x
j
termasuk pada kelompok i jika c
i
adalah pusat terdekat diantara semua pusat. Sebaliknya, jika matriks keanggotaan ditetapkan, yakni jika u
ij
ditetapkan, maka pusat optimal c
i
yang meminimalkan persamaan 2.12 adalah
�
� �
| �
�
|
∑ �
� �,�
�
∈�
�
R
k
rata- rata dari semua vektor dalam kelompok i :
2.14
Dimana| G
i
| adalah ukuran dari G
i,
Algoritma dipresentasikan dengan kumpulan data x
or| �
�
| = ∑
�
� �=1
R
ij i
, i = 1,…, n ; kemudian menentukan pusat cluster c
i
dan matriks keanggotaan U secara iteratif dengan
menggunakan langkah berikut:
Universitas Sumatera Utara
Algoritma 2.1 Langkah 1 Menginisialisasikan pusat cluster, c
i
Ini biasanya dilakukan melalui pemilihan secara acak point- point c diantara semua point-point data.
, i=1,…,c.
Langkah 2 Menentukan matriks keanggotaan U melalui persamaan 2.11.
Langkah 3 Menghitung fungsi biaya menurut persamaan 2.10. Hentikan jika berada dibawah nilai toleransi tertentu atau
perbaikannya terhadap iterasi sebelumnya adalah dibawah batas ambang tertentu.
Langkah 4 Perbaharui pusat-pusat cluster menurut persamaan 6.12. Lanjutkan ke langkah 2.
Walaupun dapat dibuktikan bahwa prosedur tersebut akan selalu berakhir, algoritma k-means tidak perlu mencari konfigurasi yang paling optimal, yang sesuai
dengan minimum fungsi objektif global. Algoritma ini juga secara signifikan sensitif terhadap pusat-pusat cluster yang dipilih secara acak pada awalnya. Algoritma k-
means dapat dijalankan beberapa kali untuk mengurangi efek ini.
2.7.4.3 Kernel K-Means Clustering
Metode kernel pertama dan barangkali yang paling tepat adalah Support Vector Machine SVM Burges, 1998, yang mengopotimalkan kriteria margin
maksimum dalam ruang fitur kernel. Algoritma k-means barangkali telah menjadi teknik clustering populer sejak diperkenalkan dalam era 1960an. Ini memaksimalkan
jarak Euclidean kuadrat antara pusat-pusat cluster. Meskipun demikian, telah diketahui bahwa ini hanya optimal untuk yang dapat dipisahkan secara linear
cluster terdistribusi Gaussian. Metode yang berbeda untuk melaksanakan algoritma ini dalam ruang kernel yakni kernel k-means telah diperoleh. Dalam Zang
Alexander, 2006 teknik optimisasi stochastic dikembangkan dengan menggunakan
Universitas Sumatera Utara
kernel trick, sedangkan dalam Girolami, 2002 pemetaan data aktual diperkirakan melalui eigenvector dari apa yang disebut matriks kernel.
Secara eksperimental, penelitian-penelitian ini memperlihatkan bahwa keterbatasan k-means biasa telah teratasi, dan hasil yang baik dicapai juga untuk
kumpulan-kumpulan data yang memiliki batasan-batasan cluster nonlinear. Motivasi untuk keinginan melaksanakan K-means dalam ruang fitur kernel dinyatakan secara
longgar sebagai “masalah kemampuan memisahkan nonlinear yang dapat dielakkan oleh kelas melalui pemetaan data yang diamati pada ruang data berdimensi yang
lebih tinggi dengan cara nonlinear sehingga setiap cluster untuk setiap kelas membentang ke dalam bentuk sederhana”. Meskipun demikian, tidak jelas
bagaimana kernel K-means berhubungan dengan sebuah operasi pada kumpulan data ruang input. Juga tidak jelas cara menghubungkan lebar kernel dengan sifat-
sifat kumpulan data input. Beberapa pemikiran yang disebutkan pada point-point ini telah dibuat dalam Girolami, 2002; Cristianini Taylor, 2000.
Biasanya perluasan dari k
-
means ke kernel k
-
means direalisasi melalui pernyataan jarak dalam bentuk fungsi kernel Girolami, 2002; Muller et al 2003
Anggaplah kumpulan data memiliki N .
Meskipun demikian, implementasi tersebut mengalami masalah serius seperti biaya clustering tinggi karena kalkulasi yang berulang dari nilai-nilai kernel, atau memori
yang tidak cukup untuk menyimpan matriks kernel, yang membuatnya tidak dapat sesuai untuk corpora yang besar.
sampel x
1
, x
2
,… x
N
. Algoritma K
-
means bertujuan untuk membagi sampel N ke dalam cluster K, C
1
, C
2
, …, C
K,
dan kemudian mengembalikan pusat dari setiap cluster, m
1
, m
2
, …., m
K
sebagai representatif dari kumpulan data. Selanjutnya kumpulan data N-point dipadatkan ke
dalam “code book” point K. Algoritma K
-
means clustering mode batch yang menggunakan jarak Euclidean bekerja sebagai berikut:
Universitas Sumatera Utara
Algoritma 2.2
Langkah 1 Pilih awal pusat K: m
1
, m
2
, …., m Langkah 2 Menentukan setiap sample x
K i
1 ≤ i ≤ N pada pusat terdekat,
yang membentuk cluster K. Yaitu, menghitung nilai fungsi indikator
δ x
i
, C
k
, 1 ≤ k ≤ K .
�, � �
�
, �
�
���
�
, �
�
���� ��� � ≠ � �, ��ℎ������
Langkah 3 Hitunglah pusat baru m
k
untuk setiap cluster C
k
�
�
=
� |
�
�
|
∑ �
� �=�
�
�
, �
�
�
�
Dimana │C
k
│adalah jumlah sampel dalam C
│C
k
k
Langkah 4 Ulangi langkah 2 dan 3 hingga bertemu.
│= ∑ �
� �=�
�
�
, �
�
�
�
Langkah 5 Menghasilkan m
k
1 ≤ k ≤ K
Isu utama yang memperluas k
-
means tradisional ke kernel k-means adalah
adalah penghitungan jarak dalam ruang baru. Anggaplah u
i
= Φx
i
menunjukkan transformasi x
i
. Jarak Euclidean antara u
i
dan u
j
ditulis sebagai D
:
2
u
i
,u
j
=
║ Φx
i
–
Φx
j
║ =
Φ
2
2
x
i
-2 Φx
i
Φx
j
+ Φ
2
x
j
= H x
i
, x
i
- 2 H x
i
, x
i
+ Hx
j
, x
j
Anggaplah z
2.15
k
�
�
=
� |
�
�
|
∑ �
� �=�
�
�
, �
�
�
�
2.16 adalah pusat cluster dalam ruang yang ditransformasikan dimana,
Dimana ��
�
, �
�
adalah fungsi indikator. Jarak antara u
i
dan z
k
D dinyatakan sebagai
berikut:
2
u
i
,z
k
=
║ u
i
–
1 |
c
k
|
∑
δ
N
i=1
u
i
, C
k
u
i
║
2
Universitas Sumatera Utara
= H x
i
, x
i
+ f x
i
, C
k
+ g C
k
Dimana, 2.17
� �
�
, �
�
=
2 |
�
�
|
∑ � ��
�
, �
�
� ��
�
, �
� �
�=1
2.18
g C
k
=
2 |
�
�
|
2
∑ ∑
�
� �=�
� �=�
��
�
, �
�
���
�
, �
�
��
�
, �
�
2.19
Perbedaan utama antara kernel
k-means
dengan versi tradisional k-means ada di langkah 5, dalam algoritma Kernel K-means. Karena cluster dalam ruang yang
ditransformasikan tidak dapat dinyatakan secara eksplisit, maka harus memilih pseudo centre. Dengan menggunakan 2.15 pada tradisional k
-means
, diperoleh kernel berdasarkan algoritma K
-
Means sebagai berikut
Algoritma 2.3
:
Langkah 1 Tentupkan ��
�
, �
�
1 ≤ i ≤ N , 1 ≤ k ≤ K dengan nilai awal,
yang membentuk cluster initial K C
1
, C
2
, … , C Langkah 2 Untuk setiap cluster C
K. k
, hitunglah |C
k
| dan gC
k
Langkah 3 Untuk setiap sample latihan x .
i
dan cluster C
k
, hitunglah fx
i
, C
k
dan kemudian tentukan x
i
1, ��
�
, �
�
+ � �
�
� ��
�
, �
�
� + � ��
�
� ��� ��� � ≠ �
0, ��ℎ������
pada cluster terdekat.
��
�
, �
�
Langkah 4 Ulangi langkah 2 dan 3 hingga bertemu. Langkah 5 Untuk setiap cluster C
k,
, pilih sample yang terdekat dengan pusat sebagai representatif dari C
k
., m
k
= Arg min DΦ x
i
, z
k
. X
i
, dimana
δX
i
, C
k
= 1
Dalam Persamaan 2.5 faktor H x
i
, x
i
diabaikan karena tidak berkontribusi untuk menentukan cluster terdekat. Perbedaan utama antara kernel k-
means dan versi tradisionalnya ada dalam langkah 5.
Universitas Sumatera Utara
2.8 Riset-riset Terkait
Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti berkaitan dengan prestasi akademik mahasiswa seperti yang akan dijelaskan dibawah ini :
Yu et al. 2010 dalam risetnya menjelaskan mengenai sebuah pendekatan data mining dapat diaplikasikan untuk meneliti faktor-faktor yang mempengaruhi tingkat
daya ingat mahasiswa. Oyelade et al. 2010 dalam risetnya mengimplementasikan algoritma k-means
clustering dikombinasikan dengan deterministic model untuk menganalisa hasil prestasi mahasiswa pada perguruan tinggi swasta.
Paul Golding Opal Donaldson dalam risetnya Predicting Academic Performance menguji hubungan prestasi akademik dengan prestasi matrikulasi di
tahun pertama pada jurusan teknologi informasi. Yang mana prestasi pada tahun pertama memiliki hubungan yang signifikan dalam memprediksi prestasi mahasiswa.
2.9 Persamaan dengan Riset-riset lain