Analisis Cluster Riset-riset Terkait

Large Applications berdasarkan Upon RANdomized Search dalam konteks clustering dalam database spatial.

2.6 Analisis Cluster

Analisis cluster adalah suatu analisis statistik yang bertujuan memisahkan obyek kedalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu dengan yang lain. Dalam analisis ini tiap-tiap kelompok bersifat homogen antar anggota dalam kelompok atau variasi obyek dalam kelompok yang terbentuk sekecil mungkin Prayudho, 2008 Tujuan Analisis Cluster : 1. Untuk mengelompokkan objek-objek individu-individu menjadi kelompok- kelompok yang mempunyai sifat yang relatif sama homogen. 2. Untuk membedakan dengan jelas antara satu kelompok cluster dengan kelompok lainnya. Adapun manfaat Analsis Cluster sebagai berikut: 1. Untuk menerapkan dasar-dasar pengelompokan dengan lebih konsisten. 2. Untuk mengembangkan suatu metode generalisasi secara induktif, yaitu pengambilan kesimpulan secara umum dengan berdasarkan fakta-fakta khusus. 3. Menemukan tipologi yang cocok dengan karakter obyek yang diteliti. 4. Mendiskripsikan sifat-sifat karakteristik dari masing-masing kelompok. Analisis cluster dilakukan dengan langkah-langkah berikut: 1. Merumuskan permasalahan. 2. Memilih ukuran jarak atau kesamaan. 3. Memilih prosedur pengklusteran. 4. Menetapkan jumlah cluster. Universitas Sumatera Utara 5. Interpretasi dan profil dari cluster. 6. Menaksir reliabilitas dan validitas.

2.7 Metode Kernel Kernel Methods

2.7.1 Pendahuluan.

Machine learning untuk penelitian pengolah sinyal sangat dipengaruhi oleh metode yang populer kernel Mercer Cristianini Taylor, 2000. Point utama dalam metode kernel adalah apa yang disebut kernel trick, yang memungkinkan penghitungan dalam beberapa inner product, kemungkinan dengan dimensi yang tidak terbatas, ruang fitur. Anggaplah x i dan x j adalah dua point data ruang input. Jika fungsi kernel k .,. memenuhi kondisi Mercer maka k x : i , x j = {Φx i ,Φx j } 2.4 Dimana .,. menunjukkan inner product, dan Φ . menunjukkan pemetaan non - linier dari ruang input ke ruang fitur kernel. Kernel trick memungkinkan pelaksanaan dari algoritma pembelajaran, yang dinyatakan dalam bentuk inner product ruang fitur kernel Metode-metode Kernel . adalah algoritma yang secara implisit melaksanakan, melalui penggantian inner product dengan Kernel Mercer yang tepat, sebuah pemetaan nonlinear dari data input ke ruang fitur berdimensi tinggi Vapnik, 1995. Metode- metode kernel yang sangat disupervisi telah dikembangkan untuk menyelesaikan masalah-masalah klasifikasi dan regresi K-means adalah algoritma unsupervised learning yang membagi kumpulan data ke dalam sejumlah cluster yang dipilih dibawah beberapa ukuran-ukuran optimisasi. Sebagai contoh, kita sering ingin meminimalkan jumlah kuadrat dari jarak Euclidean antara sampel dan centroid. Asumsi di belakang ukuran ini adalah keyakinan bahwa ruang data terdiri dari daerah elliptical yang terisolasi. Meskipun demikian, asumsi tersebut tidak selalu ada pada aplikasi spesifik. Untuk . Universitas Sumatera Utara menyelesaikan masalah ini, sebuah gagasan meneliti ukuran-ukuran lain, misalnya kesamaan kosinus yang digunakan dalam pencarian informasi. Gagasan lain adalah memetakan data pada ruang baru yang memenuhi persyaratan untuk ukuran optimisasi. Dalam hal ini, fungsi kernel merupakan pilihan yang baik.

2.7.2 Fungsi Kernel Kernel Function

Ada kalanya tidak cukup bagi machine learning untuk bekerja dalam ruang input karena asumsi di belakang mesin tidak menyesuaikan pola riil dari data. Sebagai contoh, SVM support vector machine dan Perceptron memerlukan data yang tidak dapat dipisahkan secara linear, sedangkan K-means dengan jarak Euclidean mengharapkan data terdistribusi ke dalam daerah elliptical. Ketika asumsi tersebut tidak digunakan, maka kita dapat menggunakan beberapa jenis transformasi pada data, dengan memetakan mereka pada ruang baru di mana machine learning dapat digunakan. Fungsi Kernel memberikan kepada kita sebuah alat untuk mendefinisikan transformasi. Anggaplah kita diberikan sekumpulan sampel x 1 , x 2 , x 3 ,…, x N , dimana x i ε R D , dan fungsi pemetaan Φ yang memetakan x i dari ruang input R D pada ruang baru Q . Fungsi kernel didefinisikan sebagai dot product dalam ruang baru H x Q : i , x j = Φx i . Φ x j Sebuah fakta 2.5 penting mengenai fungsi kernel adalah bahwa fungsi ini dibangun tanpa mengetahui bentuk konkrit dari Φ, yaitu, transformasi yang didefinisikan secara implisit. Tiga fungsi kernel yang secara umum tercantum di bawah ini PolynomialH x : i , x j = x i . x j + 1 d Radial H x 2.6 i , x j = exp -r || X i – X j || 2 Neural H x 2.7 i , x j = tanh ax i . x j Kelemahan utama dari fungsi Kernel meliputi, pertama, beberapa sifat dari ruang baru hilang, misalnya, dimensionalitas dan tingkatan nilainya, sehingga + b 2.8 Universitas Sumatera Utara kekurangan bentuk eksplisit untuk Φ. Kedua, penentuan bentuk kernel yang tepat untuk kumpulan data tertentu harus diwujudkan melalui eksperimen-eksperimen. Bahkan, biaya penghitungan dan penyimpanan meningkat menurut margin luas. Universitas Sumatera Utara

2.7.3 Kernel Trick

Dot product sering dianggap sebagai ukuran kesamaan antara dua vektor input. Dot product Φx i . Φx j dapat dianggap sebagai ukuran kesamaan antara dua jarak x i dan x j , dalam ruang Kernel trick adalah suatu metode untuk menghitung kesamaan dalam ruang yang ditransformasikan dengan menggunakan kumpulan atribut orisinal. Pertimbangkan pemetaan fungsi Φ yang diberikan dalam persamaan 2.9. yang ditransformasikan. Φ = x 1 , x 2 → � 1, 2 � 2, 2 √2� R 1, √2� R 2 , 1 2.9 Dot product antara dua vektor input u dan v dalam ruang yang ditransformasikan dapat ditulis sebagai berikut Φu . Φv = � 1 2 � 2, 2 √2� R 1, √2� R 2 : , 1 . � 1 2 � 2, 2 √2� R 1, √2� R 2 = � 1 2 � 1, 2 + � 2 2 � 2, 2 + 2 u , 1 1 v 1 + 2 u 2 v 2 = u . v + 1 + 1 2 Analisa ini memperlihatkan bahwa dot product dalam ruang yang ditransformasikan dapat dinyatakan dalam bentuk fungsi kesamaan dalam ruang orisinal: 2.10 K u , v = Φu . Φ v = u . v + 1 2 Fungsi kesamaan, K, yang dihitung dalam ruang atribut orisinal, dikenal sebagai fungsi kernel. Kernel trick membantu mengatasi beberapa kecemasan tentang cara mengimplementasikan pada Support Vector Machine SVM nonlinear. 2.11 Pertama, kita tidak harus mengetahui bentuk yang tepat dari pemetaan fungsi Φ karena fungsi-fungsi kernel yang digunakan dalam SVM nonlinier harus memenuhi prinsip matematika yang dikenal sebagai Mercer’s Theorem. Prinsip ini memastikan bahwa fungsi kernel dapat selalu dinyatakan sebagai dot product antara dua vektor input dalam beberapa ruang dengan dimensi tinggi. Ruang yang ditransformasikan dari kernel SVM disebut Reproducing kernel Hilbert space RKHS. Kedua, penghitungan dot product yang menggunakan fungsi kernel adalah lebih mudah dengan menggunakan transformasi atribut set Φ x. Ketiga, karena penghitungan Universitas Sumatera Utara merupakan hasil dalam ruang orisinal, maka isu-isu yang berhubungan dengan masalah dimensi dapat dihindari . 2.7.4 Algoritma-algoritma Representatif 2.7.4.1 Pendahuluan Sub Bab ini merupakan sebuah bagian metodologi dari penelitian ini. Dimulai dengan penjelasan-penjelasan menenai algoritma-algoritma representatif detail yang akan digunakan dalam penelitian ini. Diberikan sebuah kajian singkat mengenai konsep dasar dari algoritma K-Means clustering dan memperluas pada algoritma Kernel K-Means clustering.

2.7.4.2 Algoritma K-Means Clustering K-Means Clustering Algorithm

K-Means MacQueen, 1967 adalah salah satu dari algoritma unsupervised learning yang paling sederhana untuk menyelesaikan masalah clustering yang telah dikenal. Prosedur ini mengikuti cara sederhana dan mudah untuk mengklasifikasikan kumpulan data tertentu melalui jumlah cluster tertentu menganggap k cluster yang telah ditetapkan sebelumnya. Gagasan utama adalah mendefinisikan centroid k, satu untuk setiap cluster. Centroid ini harus ditempatkan dengan cara yang cerdik karena lokasi yang berbeda menyebabkan hasil yang berbeda. Oleh karena itu, pilihan terbaik adalah menempatkan mereka sejauh mungkin dari satu dengan yang lain. Langkah berikutnya adalah mengambil setiap point yang termasuk pada kumpulan data tertentu dan menghubungkannya dengan centroid yang terdekat. Apabila tidak ada point yang menantikan, maka langkah pertama diselesaikan dan groupage secara dini dilakukan. Pada point ini kita perlu mengkalkulasi kembali centroid baru k dari cluster yang berasal dari langkah sebelumnya. Setelah kita memiliki centroid baru k ini, pengikatan baru harus dilakukan antara point-point kumpulan data yang sama dan centroid baru terdekat. Sebuah loop telah dihasilkan. Karena loop ini, maka kita Universitas Sumatera Utara dapat mengetahui bahwa centroid k mengubah lokasi mereka langkah demi langkah hingga tidak ada lagi perubahan yang dilakukan. Dengan kata lain, centroid tidak bergerak lagi. Akhirnya, algoritma ini membantu meminimalkan fungsi objektif, dalam hal ini sebuah fungsi kesalahan kuadrat. Sekumpulan vektor n x j , j = 1, … n, akan dibagi ke dalam kelompok- kelompok c G i, i=1,… c. Fungsi biaya didasarkan pada jarak Euclidean antara vektor- vektor x k dalam kelompok j dan pusat-pusat cluster c i � = ∑ � � � �=1 = ∑ ∑ || �,� � ∈ � � � �=1 � � − � � || 2 2.12 yang sesuai, dapat didefinisikan melalui: Dimana j i Kelompok-kelompok yang dibagi didefinisikan oleh matriks keanggotaan biner c x n, U, dimana elemen u = ∑ || �,� � ∈ � � � � − � � || 2 adalah fungsi biaya dalam kelompok i. ij adalah 1 jika point data ke-j x j termasuk pada kelompok i dan 0 atau sebaliknya. Begitu pusat cluster c i ditetapkan, peminimalan u ij 1, �� ||� � − � � || 2 ≤ |�� − � � �| 2 , �� ℎ � ≠ � 2.13 0, ��ℎ�� untuk Persamaan 2.11 dapat diperoleh sebagai berikut: Yang berarti bahwa x j termasuk pada kelompok i jika c i adalah pusat terdekat diantara semua pusat. Sebaliknya, jika matriks keanggotaan ditetapkan, yakni jika u ij ditetapkan, maka pusat optimal c i yang meminimalkan persamaan 2.12 adalah � � � | � � | ∑ � � �,� � ∈� � R k rata- rata dari semua vektor dalam kelompok i : 2.14 Dimana| G i | adalah ukuran dari G i, Algoritma dipresentasikan dengan kumpulan data x or| � � | = ∑ � � �=1 R ij i , i = 1,…, n ; kemudian menentukan pusat cluster c i dan matriks keanggotaan U secara iteratif dengan menggunakan langkah berikut: Universitas Sumatera Utara Algoritma 2.1 Langkah 1 Menginisialisasikan pusat cluster, c i Ini biasanya dilakukan melalui pemilihan secara acak point- point c diantara semua point-point data. , i=1,…,c. Langkah 2 Menentukan matriks keanggotaan U melalui persamaan 2.11. Langkah 3 Menghitung fungsi biaya menurut persamaan 2.10. Hentikan jika berada dibawah nilai toleransi tertentu atau perbaikannya terhadap iterasi sebelumnya adalah dibawah batas ambang tertentu. Langkah 4 Perbaharui pusat-pusat cluster menurut persamaan 6.12. Lanjutkan ke langkah 2. Walaupun dapat dibuktikan bahwa prosedur tersebut akan selalu berakhir, algoritma k-means tidak perlu mencari konfigurasi yang paling optimal, yang sesuai dengan minimum fungsi objektif global. Algoritma ini juga secara signifikan sensitif terhadap pusat-pusat cluster yang dipilih secara acak pada awalnya. Algoritma k- means dapat dijalankan beberapa kali untuk mengurangi efek ini.

2.7.4.3 Kernel K-Means Clustering

Metode kernel pertama dan barangkali yang paling tepat adalah Support Vector Machine SVM Burges, 1998, yang mengopotimalkan kriteria margin maksimum dalam ruang fitur kernel. Algoritma k-means barangkali telah menjadi teknik clustering populer sejak diperkenalkan dalam era 1960an. Ini memaksimalkan jarak Euclidean kuadrat antara pusat-pusat cluster. Meskipun demikian, telah diketahui bahwa ini hanya optimal untuk yang dapat dipisahkan secara linear cluster terdistribusi Gaussian. Metode yang berbeda untuk melaksanakan algoritma ini dalam ruang kernel yakni kernel k-means telah diperoleh. Dalam Zang Alexander, 2006 teknik optimisasi stochastic dikembangkan dengan menggunakan Universitas Sumatera Utara kernel trick, sedangkan dalam Girolami, 2002 pemetaan data aktual diperkirakan melalui eigenvector dari apa yang disebut matriks kernel. Secara eksperimental, penelitian-penelitian ini memperlihatkan bahwa keterbatasan k-means biasa telah teratasi, dan hasil yang baik dicapai juga untuk kumpulan-kumpulan data yang memiliki batasan-batasan cluster nonlinear. Motivasi untuk keinginan melaksanakan K-means dalam ruang fitur kernel dinyatakan secara longgar sebagai “masalah kemampuan memisahkan nonlinear yang dapat dielakkan oleh kelas melalui pemetaan data yang diamati pada ruang data berdimensi yang lebih tinggi dengan cara nonlinear sehingga setiap cluster untuk setiap kelas membentang ke dalam bentuk sederhana”. Meskipun demikian, tidak jelas bagaimana kernel K-means berhubungan dengan sebuah operasi pada kumpulan data ruang input. Juga tidak jelas cara menghubungkan lebar kernel dengan sifat- sifat kumpulan data input. Beberapa pemikiran yang disebutkan pada point-point ini telah dibuat dalam Girolami, 2002; Cristianini Taylor, 2000. Biasanya perluasan dari k - means ke kernel k - means direalisasi melalui pernyataan jarak dalam bentuk fungsi kernel Girolami, 2002; Muller et al 2003 Anggaplah kumpulan data memiliki N . Meskipun demikian, implementasi tersebut mengalami masalah serius seperti biaya clustering tinggi karena kalkulasi yang berulang dari nilai-nilai kernel, atau memori yang tidak cukup untuk menyimpan matriks kernel, yang membuatnya tidak dapat sesuai untuk corpora yang besar. sampel x 1 , x 2 ,… x N . Algoritma K - means bertujuan untuk membagi sampel N ke dalam cluster K, C 1 , C 2 , …, C K, dan kemudian mengembalikan pusat dari setiap cluster, m 1 , m 2 , …., m K sebagai representatif dari kumpulan data. Selanjutnya kumpulan data N-point dipadatkan ke dalam “code book” point K. Algoritma K - means clustering mode batch yang menggunakan jarak Euclidean bekerja sebagai berikut: Universitas Sumatera Utara Algoritma 2.2 Langkah 1 Pilih awal pusat K: m 1 , m 2 , …., m Langkah 2 Menentukan setiap sample x K i 1 ≤ i ≤ N pada pusat terdekat, yang membentuk cluster K. Yaitu, menghitung nilai fungsi indikator δ x i , C k , 1 ≤ k ≤ K . �, � � � , � � �� , � � �� ≠ � �, ��ℎ�� Langkah 3 Hitunglah pusat baru m k untuk setiap cluster C k � � = � | � � | ∑ � � �=� � � , � � � � Dimana │C k │adalah jumlah sampel dalam C │C k k Langkah 4 Ulangi langkah 2 dan 3 hingga bertemu. │= ∑ � � �=� � � , � � � � Langkah 5 Menghasilkan m k 1 ≤ k ≤ K Isu utama yang memperluas k - means tradisional ke kernel k-means adalah adalah penghitungan jarak dalam ruang baru. Anggaplah u i = Φx i menunjukkan transformasi x i . Jarak Euclidean antara u i dan u j ditulis sebagai D : 2 u i ,u j = ║ Φx i – Φx j ║ = Φ 2 2 x i -2 Φx i Φx j + Φ 2 x j = H x i , x i - 2 H x i , x i + Hx j , x j Anggaplah z 2.15 k � � = � | � � | ∑ � � �=� � � , � � � � 2.16 adalah pusat cluster dalam ruang yang ditransformasikan dimana, Dimana �� , � � adalah fungsi indikator. Jarak antara u i dan z k D dinyatakan sebagai berikut: 2 u i ,z k = ║ u i – 1 | c k | ∑ δ N i=1 u i , C k u i ║ 2 Universitas Sumatera Utara = H x i , x i + f x i , C k + g C k Dimana, 2.17 � � � , � � = 2 | � � | ∑ � �� , � � � �� , � � � �=1 2.18 g C k = 2 | � � | 2 ∑ ∑ � � �=� � �=� �� , � � �� , � � �� , � � 2.19 Perbedaan utama antara kernel k-means dengan versi tradisional k-means ada di langkah 5, dalam algoritma Kernel K-means. Karena cluster dalam ruang yang ditransformasikan tidak dapat dinyatakan secara eksplisit, maka harus memilih pseudo centre. Dengan menggunakan 2.15 pada tradisional k -means , diperoleh kernel berdasarkan algoritma K - Means sebagai berikut Algoritma 2.3 : Langkah 1 Tentupkan �� , � � 1 ≤ i ≤ N , 1 ≤ k ≤ K dengan nilai awal, yang membentuk cluster initial K C 1 , C 2 , … , C Langkah 2 Untuk setiap cluster C K. k , hitunglah |C k | dan gC k Langkah 3 Untuk setiap sample latihan x . i dan cluster C k , hitunglah fx i , C k dan kemudian tentukan x i 1, �� , � � + � � � � �� , � � � + � �� ≠ � 0, ��ℎ�� pada cluster terdekat. �� , � � Langkah 4 Ulangi langkah 2 dan 3 hingga bertemu. Langkah 5 Untuk setiap cluster C k, , pilih sample yang terdekat dengan pusat sebagai representatif dari C k ., m k = Arg min DΦ x i , z k . X i , dimana δX i , C k = 1 Dalam Persamaan 2.5 faktor H x i , x i diabaikan karena tidak berkontribusi untuk menentukan cluster terdekat. Perbedaan utama antara kernel k- means dan versi tradisionalnya ada dalam langkah 5. Universitas Sumatera Utara

2.8 Riset-riset Terkait

Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti berkaitan dengan prestasi akademik mahasiswa seperti yang akan dijelaskan dibawah ini : Yu et al. 2010 dalam risetnya menjelaskan mengenai sebuah pendekatan data mining dapat diaplikasikan untuk meneliti faktor-faktor yang mempengaruhi tingkat daya ingat mahasiswa. Oyelade et al. 2010 dalam risetnya mengimplementasikan algoritma k-means clustering dikombinasikan dengan deterministic model untuk menganalisa hasil prestasi mahasiswa pada perguruan tinggi swasta. Paul Golding Opal Donaldson dalam risetnya Predicting Academic Performance menguji hubungan prestasi akademik dengan prestasi matrikulasi di tahun pertama pada jurusan teknologi informasi. Yang mana prestasi pada tahun pertama memiliki hubungan yang signifikan dalam memprediksi prestasi mahasiswa.

Analisis Cluster Riset-riset Terkait

2.6 Analisis Cluster

2.7 Metode Kernel Kernel Methods

2.7.1 Pendahuluan.

2.7.2 Fungsi Kernel Kernel Function

2.7.3 Kernel Trick

2.7.4.2 Algoritma K-Means Clustering K-Means Clustering Algorithm

2.7.4.3 Kernel K-Means Clustering

2.8 Riset-riset Terkait

2.9 Persamaan dengan Riset-riset lain

Parts

Dokumen yang terkait

Model Segmentasi Pelanggan Dengan Kernel K-Means Clustering Berbasis Customer Relationship Management (CRM)

IDENTIFIKASI TINGKAT KELULUSAN MAHASISWA MENGGUNAKAN METODE CLUSTERING ALGORITMA K-MEANS.

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Optimasi K Means Clustering Menggunakan

Model Segmentasi Pelanggan Dengan Kernel K-Means Clustering Berbasis Customer Relationship Management

View of APLIKASI PEMILIHAN STRATEGI PROMOSI PENERIMAAN MAHASISWA BARU POLITEKNIK NEGERI TANAH LAUT MENGGUNAKAN METODE K-MEANS CLUSTERING

Model Segmentasi Pelanggan Dengan Kernel K-Means Clustering Berbasis Customer Relationship Management (CRM)

A Unified View of Kernel k-means, Spectral Clustering and Graph Cuts

Kernel k-means, Spectral Clustering and Normalized Cuts

Clustering pola batik Yogyakarta dengan algoritma k-means clustering - USD Repository

Dukungan

Links

Analisis Cluster Riset-riset Terkait

2.6 Analisis Cluster

2.7 Metode Kernel Kernel Methods

2.7.1 Pendahuluan.

2.7.2 Fungsi Kernel Kernel Function

2.7.3 Kernel Trick

2.7.4.2 Algoritma K-Means Clustering K-Means Clustering Algorithm

2.7.4.3 Kernel K-Means Clustering

2.8 Riset-riset Terkait

2.9 Persamaan dengan Riset-riset lain

Parts

Dokumen yang terkait

Model Segmentasi Pelanggan Dengan Kernel K-Means Clustering Berbasis Customer Relationship Management (CRM)

IDENTIFIKASI TINGKAT KELULUSAN MAHASISWA MENGGUNAKAN METODE CLUSTERING ALGORITMA K-MEANS.

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Optimasi K Means Clustering Menggunakan

Model Segmentasi Pelanggan Dengan Kernel K-Means Clustering Berbasis Customer Relationship Management

View of APLIKASI PEMILIHAN STRATEGI PROMOSI PENERIMAAN MAHASISWA BARU POLITEKNIK NEGERI TANAH LAUT MENGGUNAKAN METODE K-MEANS CLUSTERING

Model Segmentasi Pelanggan Dengan Kernel K-Means Clustering Berbasis Customer Relationship Management (CRM)

A Unified View of Kernel k-means, Spectral Clustering and Graph Cuts

Kernel k-means, Spectral Clustering and Normalized Cuts

Clustering pola batik Yogyakarta dengan algoritma k-means clustering - USD Repository

Dokumen yang Anda mencari sudah siap untuk unduhkan