Analisis Perbandingan Metode K-Means Dengan Improved Semi- Supervised K-Means Pada Data Indeks Pembangunan Manusia (IPM)

  Vol. 1, No. 9, Juni 2017, hlm. 813-824 http://j-ptiik.ub.ac.id

  

Analisis Perbandingan Metode K-Means Dengan Improved Semi-

Supervised K-Means Pada Data Indeks Pembangunan Manusia (IPM)

1 2 3 Gusti Ngurah Wisnu Paramartha , Dian Eka Ratnawati , Agus Wahyu Widodo

  Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya 1 2 3 Email: wisnuparamartha9@gmail.com, dian_ilkom@ub.ac.id, a_wahyu_w@ub.ac.id

  

Abstrak

  Saat ini dengan jumlah informasi yang semakin besar, konsep data mining semakin dikenal sebagai

  

sebuah tools yang penting dalam manajemen informasi. Mengacu pada konsep data mining, salah satu

  teknik yang terdapat dalam konsep ini adalah teknik clustering. Salah satu metode clustering data yang paling terkenal adalah k-means. Namun pada penerapannya metode k-means memiliki beberapa masalah seperti penentuan nilai K klaster dan penentuan pusat klaster awal yang dilakukan secara random yang membuat proses tidak konsisten dan hasil klaster menjadi buruk. Oleh karena itu terdapat sebuah metode untuk mengatasi masalah tersebut yaitu improved semi-supervised k-means clustering. Dengan metode

  

improved semi-supervised k-means clustering yang menggabungkan konsep supervised dan

unsupervised clustering , pengguna hanya perlu melabeli sedikit data yang belum berlabel, kemudian

  data berlabel tersebut dipakai untuk mencari nilai pusat klaster awal dan nilai K yang optimal yang akan mengoptimakan proses dan hasil. Pada bagian pengimplementasian, penelitian ini membandingkan dua algoritma yaitu k-means tradisional dan semi-supervised k-means untuk klastering data indeks pembangunan manusia (IPM). Data IPM dipilih karena memiliki karakteristik yang tepat untuk klastering seperti jumlah data yang banyak dan data yang terbagi menjadi beberapa klaster. Pengujian metode improved semi-supervised k-means memeberikan rata-rata akurasi sebesar 90.3%, lebih baik dari metode k-means yang memberikan nilai akurasi 73.7%. Pengujian kedua, metode improved semi-

  

supervised k-means menghasilkan nilai rata-rata waktu untuk satu kali konvergen 1222.9959 detik, lebih

  baik dari k-means dengan rata-rata 1504.75 detik. Pengujian ketiga, metode improved semi-supervised

  

k-means menghasilkan rata-rata jumlah iterasi untuk satu kali konvergen yang lebih efisien dari

  algoritma k-means dengan jumlah iterasi 7.11 berbanding 9.72. Terakhir pada pengujian kualitas klaster dengan metode silhouette coefficient, metode improved semi-supervised k-means memberikan rata-rata nilai 0.69880, lebih baik dari k-means tradisional dengan rata-rata nilai 0.62734.

  Kata kunci: indeks pembangunan manusia, ipm, data mining, klastering, k-means, semi-supervised k-means.

  

Abstract

At this time with the growing amount of information, the concept of data mining getting known as an

important tool in the management information. Refers to the concept of data mining, the most popular

concept in data mining is a clustering technique. One well known clustering method is k-means

traditional. But in its application, k-means method has some problems such as determining the value of

K cluster and determining the initial cluster centers were done randomly making process was

inconsistent and the results of the cluster becomes worse. Therefore, there is a method to overcome

these problems are improved semi-supervised k-means clustering. With improved semi-supervised

method that combines the supervised and unsupervised method, users only need to label a bit of data

that has not been labeled, then the labeled data is used to find the optimal value of initial cluster center

and K cluster that will optimizes the process and result of clustering process. On implementation, this

research combine k-means algorithm and improved semi-supervised k-means to clustering human

development index (HDI) data. HDI data chosen because it has the right characteristics for clustering

such amounts of data and the data is divided into several clusters. On the testing improved semi-

supervised k-means method giving out the average accuracy of 90.3%, better than k-means clustering

that giving 73.7% accuracy. In the second testing, improved semi-supervised k-means method produces

an average time for one convergent 1222.9959 seconds, better than k-means with 1504.75 seconds. The

third testing, improved semi-supervised k-means generates an average number of iterations for one

Fakultas Ilmu Komputer Universitas Brawijaya

  

813

  

convergent more efficient than k-means with the number of iterations of 7.11 compared 9.72. Last, on

the cluster quality testing using silhouette coefficient, improved semi-supervised k-means method giving

average value 0.69880, better than the traditional k-means with an average value of 0.62734.

  Keywords: human development index, hdi, data mining, clustering, k-means, semi-supervised k-means.

1. PENDAHULUAN

  data mining disebut sebagai knowledge

  means clustering tradisional adalah proses yang

  Pada penelitian lain yang dilakukan oleh (Zhenpeng, et al., 2014) yang melakukan perbandingan antara metode k-means

  pada k-means tradisional menyebutkan bahwa metode semi-supervised k-means clustering adalah metode yang menggabungkan pendekatan supervised dan unsupervised dalam mengelompokan data set yang memiliki label kelas ataupun tidak memiliki label kelas ke dalam beberapa klaster. Untuk permasalahan ini kita hanya perlu memberikan label sebagian kecil objek dari set untuk mengklaster banyak objek yang sebelumya tidak berlabel. Sedikit objek data set yang berlabel tersebut digunakan untuk menentukan nilai K klaster dan pusat klaster awal. Dengan nilai K klaster dan pusat klaster awal yang lebih rasional maka akan memberikan hasil cluster dengan akurasi yang lebih baik dan meningkatkan efisiensi dari komputasi. Hasil dari penelitian yang dilakukan oleh (Hanmin, 2016) menghasilkan bahwa metode semi-supervised k-means clustering menghasilkan pusat klaster yang lebih baik yang lebih baik dari metode k-means tradisional.

  clustering sebagai solusi permasalahan yang ada

  tradisional, terdapat sebuah pendekatan yang diharapkan mampu mengatasi permasalahan tersbut yaitu dengan metode semi- supervised k-means clustering (Agusta, 2007). Sesuai pada penelitian yang dilakukan oleh (Hanmin, 2016) yang membahas tentang penggunaan metode semi-supervised k-means

  means

  Dengan masalah yang ditemui pada klastering data set menggunakan metode k-

  tidak bisa dipastikan dan sulit diestimasi. Dalam hal ini pengguna tidak dapat menentukan parameter yang tepat untuk menghasilkan output yang maksimal. Dengan adanya ketidakpastian tersebut, menyebabkan data hasil pengelompokan dan akurasi menjadi buruk. Selain itu karena inisialisasi pusat klaster yang tidak konsisten terkadang menyebabkan masalah local optimum pada proses k-means tradisional.

  Menurut (Hanmin, 2016) dalam k-means tradisional terdapat banyak masalah seperti inisial K klaster dan pusat klaster awal yang dilakukan secara random terkadang membuat proses tidak konsisten sehingga terkadang membutuhkan waktu yang cukup lama dalam melakukan iterasi untuk menemukan output klaster akhir. Masalah lain yang timbul pada k-

  discovery in database (KDD), yaitu kegiatan yang meliputi pengumpulan dan pemakaian data historis yang bertujuan menemukan keteaturan dan pola hubungan pada data set yang memiliki ukutan besar. Output dari data mining ini dapat digunakan untuk pengambilan keputusan di masa yang akan datang. Mengacu pada konsep

  Dengan jumlah informasi yang semakin besar, pada saat ini konsep data mining semakin dikenal sebagai sebuah tools yang penting dalam manajemen informasi. Menurut (Santosa, 2007),

  data ke dalam cluster yang memiliki karakteristik yang hapir sama dan antar cluster mempunyai karakteristik yang berbeda-beda.

  clustering adalah mengelompokan sebuah set

  untuk memasukan data ke dalam sebuah kelompok atau grup yang memiliki kedekatan khusus pada masing-masing objek. Secara umum konsep clustering ini mengelompokan sekumpulan objek ke dalam beberapa grup dilakukan tanpa pengetahuan yang mendalam tentang group tersebut. Tujuan utama dari

  Clustering adalah sebuah teknik yang dipakai

  , salah satu teknik yang terdapat dalam konsep tersebut adalah teknik clustering.

  data mining

  Salah satu teknik dalam clustering adalah teknik k-means. K-means adalah sebuah metode pengklasteran memakai konsep partitioning yang nantinya dalam prosesnya algoritma akan memisahkan data-data dalam beberapa cluster/kelompok berbeda. Dengan partitioning yang dilakukan secara iteratif, k-means dapat menurunkan rata-rata nillai dari jarak/distance data ke masing-masing klasternya (MacQueen, 1967). Sifat dari k-means ini sendiri adalah metode yang menerapkan klastering tanpa adanya arahan (unsupervised). Hal tersebut didasarkan pada adanya dataset yang data itemnya sejak awal mempunyai label kelas dan dataset yang data itemnya tidak mempunyai label kelas (Agusta, 2007). tradisional, seed-k-means, dan improved semi-

  supervised k-means . Pada penelitian ini

  Menurut (Hanmin,2016), metode semi-

  Menetapkan xi ke klaster yang pusat klaster awalnya memiliki label sama; else

  K = K L ; do{ for each xi ∈ X if (xi ∈ X L )

  MULAI K L = Jumlah label yang berbeda (X L ); Pilih objek K L dengan label yang berbeda dari X L If(K L ≥ √ {

  metode tersebut layak digunakan atau tidak pada domain permasalahan indeks pembangunan manusia.

  clustering dapat dijadikan perbandingan apakah

  cocok dalam mengatasi permasalahan pada algoritma k-means traditional dengan memanfaatkan data eksternal yang berlabel untuk mencari nilai K dan pusat klaster awal yang optimal. Dalam hal ini kita hanya perlu melabeli sedikit data yang sudah ada sebelumnya. Sehingga dengan penelitian ini diharapkan metode semi-supervised k-means

  semi-supervised k-means clustering ini dianggap

  Sesuai dengan karakteristik data yang merupakan data berjenis klastering, metode

  K dan pusat klaster awal yang optimal maka akan meningkatkan akurasi dari hasil clustering dan mengefisienkan waktu dan proses komputasi.

  intial cluster center yang optimal. Dengan nilai

  mengatasi permasalahan tersebut dengan hanya perlu memberikan label pada sedikit objek pada dataset yang besar¬. Pelabelan sedikit objek tersebut berfungsi untuk mencari nilai K dan

  semi supervised k-means clustering untuk

  diciptakan untuk mengatasi masalah pada algoritma k-means tradisional dalam klasterisasi kelompok set data yang memiliki jumlah label data yang kecil. Sebelumnya k-means tradisional ini sendiri hanya dirancang sebagai klastering data unsupervised. Dengan itu muncul metode

  supervided k-means adalah metode yang

  2.2 Semi-Supervised K-means Clustering

  memberikan hasil akurasi dari improved semi-

  Algoritma k-means adalah algoritma yang memerlukan parameter masukan sebanyak k klaster, selanjutnya membagi sekumpulan n data obyek ke k klaster sampai tingkat kemiripan dari antar anggota yang ada dalam satu klaster menjaddi tinggi tinggi dan kemiripan dengan anggota klaster lain menjadi sangat rendah (Agusta, 2007). Kemiripan data pada suatu klaster diukur sesuai dengan kedekatan obyek terhadap nilai rata-rata pada klaster atau disebut sebagai centroid, pusat massa, atau pusat klaster.

  supervised k-means lebih baik 17% sampai 18%

  dari metode k-means tradisional dan seed-k-

  means . Serta jumlah iterasi berkurang sebanyak

  1/3 dari k-means tradisional dan 1/2 dari seed-k- means .

  Dalam penelitian dengan judul “Analisis

  Perbandingan Metode K-means dengan improved semi-supervised K-means pada Data Indeks Pembangunan Manusia (IPM)

  ” ini lebih menekankan pada penerapan metode semi-

  supervised k-means clustering dalam mengatasi

  permasalahan yang ada pada metode k-means tradisional dengan metode semi-supervised k-

  means clustering dengan mengukur tingkat

  akurasi yang dihasilkan dan membandingkan tingkat akurasi dari masing-masing metode menggunakan metode silhouette coefficient. Dengan adanya penelitian ini diharapkan akan mempermudah dalam klastering data pada indeks pengembangan manusia dan mengatasi masalah pada algoritma k-means tradisional. Untuk mengetahui perbandingan dari kedua algoritma akan dilakukan pengujian pada tingkat akurasi, waktu komputasi dan kualitas klaster dengan silhouette coefficient pada masing- masing algoritma. Sehingga dengan mengetahui perbedaan dari algoritma peneliti dapat mengetahui algoritma mana yang sesuai untuk diterapkan pada domain masalah indeks pengembangan manusia.

2. DASAR TEORI

2.1 K-means clustering

  K-means clustering adalah metode

  klastering yang dilakukan secara partisi (partitional clustering ). Pengelompokan menggunakan k-means bermaksud untuk mempartisi n objek ke dalam k kelompok dimana setiap objek dimasukan ke dalam mean k terdekat. Metode ini menghasilkan kelompok k dengan perbedaan yang memungkinkan. mengindikasikan derajat kepemilikan setiap objek yang ada di dalam klaster. Metode

  Jumlah terbaik dari kelompok k didasari pada jarak yang disebut apriori dan harus dihitung dari data yang ada dan sesuai dengan kebutuhan. (Taft, 2005).

  • 1; k≤ √ ;k++ ){ pilih objek terjauh dari KL objek baru sebagai inisialisasi titik tengah klaster; do{ for each xi ∈ X if (xi ∈ X L ) Menetapkan xi ke klaster yang pusat klaster awalnya memiliki label sama; else Menetapkan xi ke cluster terdekat; update clusters; }sampai converges;
  • J k = ∑ ∑ ( , )

      cohesion dan separation sebagai validasi dari hasil klastering.

      silhoutte coeffisien bernilai positif yaitu (ai < bi) dan ai mendekati 0. Dengan hal tersebut akan menghasilkan nilai silhoutte coeffisien yang maksimal adalah 1 ketika ai = 0. Jika si = 1 menandakan bahwa klaster i telah berada pada klaster yang tepat. Namun jika nilai si adalah 0 maka objek i berada di antara dua cluste, dengan itu dapat dikatakan bahwa objek tersebut memiliki struktur yang tidak jelas. Namun jika nilai si = -1 berarti struktur dari klaster memiliki nilai overlapping, dengan itu objek i lebih tepat dimasukan ke dalam klaster lain. Pada teorinya, nilai rata-rata silhoutte coeffisien dari tiap data objek dalam suatu klaster adalah suatu ukuran yang menunjukan seberapa ketat data

      clustering dapat dikatakan baik jikai nilai

      Hasil perhitungan nilai silhoutte coeffisien bervariasi dengan rentang -1 sampai 1. Nilai

      Si = (bi-ai)/max (ai,b) (2.3)

      Setelah itu maka untuk objek i memiliki nilai silhoutte coefisien:

      b (i) = min(D(i,C)) (2.2) 3.

      Untuk setiap objek data i, hitung nilai rata- rata jarak objek data i dengan semua objek yang ada di klaster lainnya. Dari semua jarak rata-rata yang dihasilkan tersebut, akan diambil rata-rata jarak yang memiliki nilai terkecil. Nilai terkecil ini disebut bi. Rumus dalam mencari nilai dari bi adalah sebagai berikut:

      (2.1) 2.

      a (i) = ∑ ( , ) | |−

      Pada setiap objek data i, hitung nilai rata-rata jarak objek data i dengan seluruh objek data yang berada pada satu klaster yang sama. Nilai rata-rata pada bagian ini dapat didefinisikan dengan a(i). Dalam hal ini rumus dari mencari nilai a(i) adalah:

      1987): 1.

      coeffisien adalah sebagai berikut (Rousseeuw,

      Untuk menghitung nilai silhoutte coefisient diperlukan jarak antar dokumen dengan menggunakan rumus euclidean distance. Setelah itu tahapan untuk menghitung nilai silhoutte

      silhouette coefficient menggabungkan konsep

      Menetapkan xi ke cluster terdekat; update clusters; }sampai convergen;

      silhouette coefficient adalah untuk

      kualitas pada sebuah klaster. Fungsi lain dari

      silhouette coefficient berfungsi untuk mengukur

      Metode silhouette coefficient pertama kali dikembangkan oleh (Rousseeuw, 1987) yang mana metode silhouette coefficient merujuk pada validasi dan penafsiran set data. Metode

      kondisi untuk data set. Kondisi yang pertama adalah dataset dengan jumlah labeled data yang banyak. Sedangkan kondisi yang kedua adalah dengan jumlah labeled data yang sedikit.

      supervised k-means clustering , terdapat dua

      Pada penelitian yang dilakukan (Hanmin, 2016) mengenai algoritma improved semi

      Untuk menentukan nilai K yang optimal, perlu untuk menentukan rentang pencarian terlebih dahulu (Hanmin, 2016).

      memerlukan data masukan berupa data set X={x1, x2,…,xN} yang mana N adalah jumlah dari data objek pada data set X. Selanjutnya ada variabel XL = {xL1, xL2,…,xLabel1} yang merupakan semua objek data yang berlabel dari data set X. KL adalah jumlah dari label XL yang berbeda. Jika p clustering telah ditentukan sebelumnya, ide utama dari penentuan pusat klastering selanjutnya adalah dengan memilih data objek yang terjauh dari p pusat klaster.

      improved semi supervised k-means clustering

      Sama seperti fungsi k-means tradisional,

      Output K klaster dan K inisial pusat klaster; END

      =1 =1 } Pilih minimum j k dan K=k; }

      } else{ for (k= K L

    2.3 Silhouette Coefficient

      dikelompokan dalam klaster tersebut. Berikut adalah nilai silhoutte berdasarkan (Rousseeuw, 1987): 1.

      3.1 K-means Clustering K-means clustering adalah metode

      3. Ulang langkah 4, 5 dan 6 hingga tidak ada lagi objek yang berubah di dalam suatu klaster.

      2. Sebanyak k data dipilih secara random dari suatu dataset yang kemudian ditentukan sebagai initial centroid.

      1. Algoritma k-means menerima inputan dari pengguna berupa nilai jumlah klaster sebanyak k klaster, dan suatu dataset yang ingin dikelompokkan.

      hasil iterasi yang stabil atau convergen. Berikut penjelasan dari Gambar 3.1:

      means akan terus dilakukan hingga menemukan

      Pengelompokkan data memakai algoritma k-

      clustering yang menggunakan algoritma k- means tradisional ditunjukkan pada Gambar 3.1.

      Flowchart dari langkah-langkah metode

      dihitung dari titik tengah klaster. Centroid yang baru ditentukan jika semua objek data sudah ditempatkan ke dalam klaster yang memiliki jarak paling dekat. Proses penentuan centroid dan penempatan data dalam klaster akan terus diulang hingga centroid dari semua klaster tidak ada yang berubah lagi atau nilai centroid konvergen. Selain itu perulangan dapat dihentikan jika sudah memenuhi kondisi perulangan yang telah ditentukan sebelumnya. Misalnya perulangan hanya dilakukan 100 kali, maka setelah sampai ke perulangan yang ke-100 maka proses akan berhenti walaupun tidak konvergen. Namun secara umum penggunaan metode k-means menghentikan iterasinya jika hasil klaster telah convergen (A. K. Jain, 2009).

      centroid (pusat klaster) yang paling dekat,

      memakai teknik lain. Data ditempatkan ke dalam

      euclidian distance atau dapat dilakukan dengan

      Pada tahapan awal, algoritma k-means memilih secara acak k titik data sebagai pusat atau centroid. Nilai k juga dapat diinisialisasikan pada tahapan awal. Selanjutnya, jarak antar data dengan pusat klaster (centroid) dihitung dengan

      klastering yang dilakukan secara partisi (partitional clustering ). Clustering data menggunakan metode k-means bertujuan untuk mempartisi/membagi n objek data ke dalam K kelompok data. Selanjutnya semua objek data dimasukan ke klaster yang memiliki jarak terdekat. Algoritma ini memberikan nilai akhir berupa K kelompok kluster dengan perbedaan yang tinggi (Taft, 2005).

      3. PERANCANGAN & IMPLEMENTASI

      0.7<SC<=1 Struktur yang kuat (strong

    2.4 IPM (Indeks Pembangunan Manusia)

      Menurut (BPS, 2015), IPM (Indeks Pembangunan Manusia) adalah sebuah indikator penting dalam mengukur kemajuan pembangunan suatu bangsa di masing-masing negara atau bahkan tiap-tiap daerah di suatu negara. IPM menjelaskan bagaimana penduduk dapat mengakses hasil pembangunan dalam memperoleh pendapatan, kesehatan, pendidikan, dan sebagainya. IPM diperkenalkan oleh UNDP pada tahun 1990 dan dipublikasikan secara berkala dalam laporan tahunan Human

      structure ) 2.

      0.5< SC <=0.7 Struktur yang standar (medium structure) 3. 0.25< SC <= 0.5 Struktur yang lemah

      (weak structure) 4. SC <=0.25

      Tidak memiliki struktur (no

      structure )

      Development Report (HDR). Dalam konsep IPM

      Beberapa feature yang digunakan dalam penelitian ini dibagi menjadi 4 bagian. Bagian pertama yaitu angka harapan hidup yang merupakan representasi dari dimensi kesehatan, rata-rata lama sekolah dan angka harapan lama sekolah yang merupakan representasi dimensi pendidikan, dan pengeluaran per kapita yang disesuaikan yang merupakan representasi dari dimensi pendidikan.

      yang terbaru dibentuk oleh 3 (tiga) dimensi dasar:

    1. Umur panjang hidup sehat (a long and

      healthy life ) 2.

      Pengetahuan (knowledge) 3. Standar hidup layak (decent standard of

      living )

      IPM memiliki berbagai manfaat antara lain

      IPM merupakan indikator penting untuk mengukur keberhasilan dalam upaya membangun kualitas hidup manusia (masyarakat/penduduk). Manfaat lain dari IPM adalah dapat menentukan peringkat atau level pembangunan suatu wilayah/negara. Bagi Indonesia sendiri, IPM merupakan data strategis karena selain sebagai ukuran kinerja Pemerintah,

      IPM juga digunakan sebagai salah satu alokator penentuan Dana Alokasi Umum (DAU) (BPS, 2015).

      4. Hitung jarak masing-masing titik objek data ke masing-masing intial centroid.

      5. Mengalokasikan masing-masing titik data ke dalam klaster dengan jarak paling minimum.

      6. Menghitung rata-rata dari semua data yang terdapat di dalam klaster tersebut sebagai pusat klaster baru. Ulangi langkah sebelumnya sampai terbentuk klaster yang stabil. Cluster yang stabil terbentuk saat hasil klastering data dari iterasi memberikan hasil yang sama dengan hasil iterasi sebelumnya. Saat klaster sudah stabil maka proses k-means selesai.

    Gambar 3.2 Perancangan sistem

      Dalam algoritma improved semisupervised

      k-means clustering yang dikemukakan oleh

      (Hanmin,2016), terdapat dua kondisi yaitu kondisi untuk dataset dengan jumlah labeled data yang banyak dan labeled data yang sedikit. Proses secara rinci dari algoritma adalah sebagai berikut:

      1. Inisialisasi data set awal. Dalam inisialisasi

    Gambar 3.1 Flowchart K-means

      dataset dilakukan pelabelan dari sedikit objek data yang ada. Hal tersebut berguna

    3.2 Semi-supervised k-means clustering

      untuk mendapatkan nilai K klaster dan Pada bagian implementasi sistem initial cluster center yang optimal.

      2. menjelaskan bagaimana alur sistem tersebut Setelah melakukan inisialisasi data, langkah menyelesaikan permasalahan yang telah selanjutnya adalah menentukan nilai K didefinisikan pada proses sebelumnya. Menurut klaster dan initial cluster center. Nilai K didapat dari nilai KL, dalam hal ini KL (Hanmin,2016), alur dari implementasi dari metode semi-supervised k-measns clustering adalah jumlah label yang berbeda. Initial adalah membagi proses ke dalam dua garis cluster center didapat dengan memilih sebanyak KL objek yang memiliki label besar.Pada proses pertama adalah untuk jumlah data set dengan banyak labeled data berbeda. yang berbeda dari XL.

      Sedangkan pada proses kedua adalah untuk 3.

      Langkah selanjutnya adalah menentukan dataset masuk ke kondisi pertama atau jumlah data set dengan sedikit labeled data berbeda. Data set akan masuk pada proses kedua. pertama j ika memenuhi kondisi KL≥√N. Jika

    • Kondisi pertama, kondisi pertama tidak maka akan ke proses dua.

      adalah saat nilai KL ≥ √N bernilai benar. Kondisi ini adalah untuk data training dengan banyak data yang brelabel. tiap proses pada masing-masing algoritma menggunakan 100, 200, 300, 400, dan 500 data

      means dan k-means tradisional. Pada bagian ini

      Berbeda dengan kondisi pertama, pada kondisi kedua terlebih dahulu akan melakukan pengecekan untuk kondisi perulangan for (k= KL+1; k≤√N;k++).

      Pengujian pertama digunakan untuk mengetahui perbandingkan rata-rata tingkat akurasi dari metode improved semi supervised k-

      a. Hasil pengujian tingkat akurasi terhadap jumlah varian data training pada metode improved semi supervised k-means dengan k-means

      terhadap jumlah varian data training, jumlah iterasi satu kali konvergen terhadap varian data training, dan silhouette coefficient terhadap varian data training.

      training , waktu komputasi satu kali konvergen

      Pada penelitian ini dilakukan empat kali skenario pengujian dari perbandingan kedua metode. Skenario pengujian tersebut antara lain tingkat akurasi terhadap jumlah varian data

      4. PENGUJIAN ANALISIS

      Setelah mendapatkan hasil akhir berupa centroid baru, langkah selanjutnya adalah ulangi langkah a dan b sampai objek data pada klaster sebelumnya dengan klaster yang baru menjadi konvergen.

      e.

      Langkah selanjutnya adalah mencari centroid baru untuk melakukan update cluster. Langkah yang dilakukan adalah dengan menghitung centroid pada setiap klaster. Perhitungannya adalah dengan mengambil nilai rata-rata semua nilai data pada setiap fiturnya.

      d.

      cluster selanjutnya.

      Selanjutnya adalah memilih objek yang memiliki jarak terjauh dari objek KL sebagai pusat klaster. Jarak terjauh tersebut nanti yang digunakan sebagai inisial pusat

      c.

      b.

      Langkah-langkahnya adalah sebagai berikut: a.

      Kondisi kedua adalah ketika konsisi bernilai xi ∈ XL salah. Maka objek xi akan masuk ke klaster dengan jarak terdekat.

      ∈ XL, maka objek xi akan masuk ke klaster awalnya. Dengan kata lain untuk objek data yang berlabel klasternya tidak akan berubah.

      Sesuai pada algoritma pada penelitian yang dilakukan (Hanmin,2016), terdapat dua kondisi untuk menentukan masing- masing objek masuk ke klaster mana. Kondisi pertama adalah jika xi

      improved semi-supervised k-means .

      Menghitung jarak objek ke titik pusat klaster lalu mengelompokannya ke klaster terkait sesuai dengan algoritma

      Setelah mendapatkan hasil akhir berupa centroid baru, langkah selanjutnya adalah ulangi langkah a dan b sampai objek data pada klaster sebelumnya dengan klaster yang baru menjadi konvergen.

      c.

      Langkah selanjutnya adalah mencari centroid baru untuk melakukan update klaster. Langkah yang dilakukan adalah dengan menghitung centroid pada setiap klaster. Perhitungannya adalah dengan mengambil nilai rata-rata semua nilai data pada setiap fiturnya.

      b.

      ∈ XL salah. Maka objek xi akan masuk ke klaster dengan jarak terdekat.

      ∈ XL, maka objek xi akan masuk ke klaster awalnya. Dengan kata lain untuk objek data yang berlabel klasternya tidak akan berubah. Kondisi kedua adalah ketika konsisi bernilai xi

      Sesuai pada algoritma pada penelitian yang dilakukan (Hanmin,2016), terdapat dua kondisi untuk menentukan masing- masing objek masuk ke klaster mana. Kondisi pertama adalah jika xi

      improved semi-supervised k-means .

      Menghitung jarak objek ke titik pusat klaster lalu mengelompokannya ke klaster terkait sesuai dengan algoritma

    • Kondisi kedua, kondisi kedua adalah saat nilai KL ≥ √N bernilai salah. Pada kondisi ini adalah untuk data training dengan sedikit data yang berlabel. Langkah-langkahnya adalah sebagai berikut: a.
    training. Untuk masing-masing data training pada algoritma k-means tradisional dilakukan percobaan sebanyak 5 kali, kemudian akan diambil rata-rata tingkat akurasi dari 5 kali percobaan tersebut. Sedangkan pada algoritma

      improved semi-supervised k-means akan

      generate nilai K yang optimal, sehingga memberikan hasil yang lebih baik dan lebih baik dan konsisten dari algoritma k-means tradisional. Namun dengan hal tersbut juga menyebabkan metode improved semi supervised

      means clustering nilai rata-rata waktu untuk satu

      Sama seperti pengujian pertama, data training yang digunakan sebanyak 500 data yang dibagi menjadi lima bagian pengujian yaitu pengujian untuk 100, 200, 300, 400, dan 500 data training. Pada algoritma improved semi supervised k-

      clustering dengan algoritma k-means tradisional.

      Pengujian kedua dilakukan untuk mengetahui perbandingkan rata-rata waktu untuk mencari satu kali konvergen pada algoritma improved semi supervised k-means

      b. Hasil pengujian waktu satu kali konvergen algoritma improved semi supervised k-means dengan k-means tradisional

      seberapa baiknya data yang berlabel. Semakin baik data yang berlabel akan semakin meningkatkan tingkat akurasi dari metode improved semi supervised k-means clustering.

      k-means clustering sangat bergantung dari

      semi-supervised k-means akan langsung meng-

      dilakukan perulangan untuk mencari konvergen sebanyak KL+1 sampai √N.

      klaster awal yang lebih rasional dari data yang berlabel. Selain itu dengan algoritma improved

      means clustering mendapatkan nilai pusat

      Dari grafik pada Gambar 4.1 dapat disimpulkan bahwa secara keseluruhan algoritma improved semi-supervised k-means menghasilkan tingkat akurasi yang lebih tinggi dan lebih konsisten dari algoritma k-means tradisional. Pada algoritma k-means tradisional akan cenderung menghasilkan tingkat akurasi yang meningkat jika data training yang digunakan semakin banyak. Sedangkan untuk algoritma semi-supervised k-means clustering cenderung menghasilkan tingkat akurasi yang tinggi dan stabil Hal tersebut disebabkan karena pada algoritma improved semi supervised k-

      k-means

    Gambar 4.1 Grafik pengujian tingkat akurasi terhadap jumlah varian data training pada metode improved semi-supervised k-means dengan

      Dari data pada tabel 4.1 dapat dibuat grafik hasil uji coba rata-rata tingkat akurasi yang dipengraruhi oleh variasi jumlah data training.

      k-means

    Tabel 4.1 Tabel hasil pengujian tingkat akurasi terhadap jumlah varian data training pada metode improved semi supervised k-means dengan

      kali konvergen didapatkan dari pembagian antara total waktu dalam satu kali proses dibagi jumlah iterasi untuk mencari konvergen. Sedangkan untuk algoritma k-means tradisional rata-rata satu kali konvergen didapatkan dari rata-rata waktu pada masing-masing bagian data training (100, 200, 300, 400, dan 500 data training) yang akan diuji sebanyak lima kali proses.

    Tabel 4.2 Tabel hasil pengujian waktu satu kali konvergen terhadap jumlah varian data training pada metode improved semi supervised k-means dengan k-means

      Dari data pada tabel 4.2 dapat dibuat grafik hasil uji coba rata-rata waktu untuk satu kali konvergen yang dipengraruhi oleh variasi jumlah data training.

    Gambar 6.2 Grafik pengujian waktu komputasi terhadap jumlah varian data training pada metode improved semi-supervised k-means dengan

      k-means

      Dari grafik pada Gambar 6.2 dapat disimpulkan bahwa semakin banyak data

      training yang digunakan akan membuat waktu

      komputasi untuk mencari satu kali konvergen pada masing-masing algoritma akan semakin banyak. Hal tersebut dikarenakan tiap sub proses pada masing-masing algoritma akan semakin memakan waktu untuk memproses jumlah data yang semakin besar. Dengan data training yang semakin beragam, juga akan memperlama suatu proses untuk mencari nilai konvergen. Jika dibandingkan, algoritma improved semi

      supervised k-means memberikan rata-rata waktu

      komputasi yang lebih baik dari pada metode k- means tradisional pada tiap varian data training. Hal tersebut dikarenakan pusat klaster awal yang dihasilkan pada metode k-means tradisional dipilih secara acak sehingga proses dari algoritma menjadi tidak stabil. Berbeda dengan algoritma improved semi supervised k-means yang menggunakan data training yang telah berlabel untuk mencari nilai pusat klaster awal yang lebih optimal. Dengan pusat klaster awal yang lebih optimal akan membuat waktu proses algoritma lebih baik dan lebih baik.

      c. Hasil jumlah iterasi dalam satu kali konvergen terhadap jumlah varian data training pada metode improved semi supervised k-means dengan k-means

      Pada pengujian ketiga dilakukan untuk menguji perbandingan nilai rata-rata jumlah iterasi dalam satu kali konvergen terhadap jumlah varian data training antara algoritma k- means tradisional dan improved semi-supervised k-means. Sama seperti pengujian pertama dan kedua, data training yang digunakan dibagi menjadi lima jumlah varian data yaitu 100, 200, 300, 400, dan 500 jumlah data. Pada masing- masing varian data dipilih secara acak dari total sekitar 2000 data training dalam rentang tahun 2012 sampai 2015. Pada pengujian algoritma improved semi-supervised k-means, nilai rata- rata waktu untuk satu kali konvergen didapatkan dari pembagian antara total iterasi untuk satu kali konvergen dibagi jumlah iterasi untuk mencari satu kali konvergen. Sedangkan untuk algoritma k-means tradisional rata-rata iterasi untuk satu kali konvergen didapatkan dari rata-rata iterasi pada masing-masing bagian data training (100, 200, 300, 400, dan 500 data training) yang akan diuji sebanyak lima kali proses.

    Tabel 4.3 Tabel hasil pengujian jumlah iterasi terhadap jumlah varian data training pada metode improved semi supervised k-means dengan

      k-means

      Dari data pada tabel 4.3 dapat dibuat grafik hasil uji coba jumlah iterasi yang dipengraruhi oleh variasi jumlah data training.

    Gambar 4.3 Grafik hasil uji coba silhouette coefficientGambar 4.4 Grafik hasil uji coba silhouette coefficient

      menghasilkan nilai silhouette coefficient dengan strong structure (nilai rentang 0.7 sampai 1). Hal tersebut dikarenakan algoritma improved semi-

      supervised k-means clustering rata-rata

      masing varian data training. Pada lima kali pengujian menggunakan aloritma improved semi

      supervised k-means juga terlihat pada masing-

      lebih baik pada algoritma improved semi-

      supervised k-means menghasilkan nilai silhouette coefficient yang lebih baik. Hasil yang

      Dari Gambar 4.4 dapat diketahui bahwa secara umum algoritma improved semi-

      Dari data pada tabel 4.4 dapat dibuat grafik hasil uji coba nilai rata-rata silhouette coefficient yang dipengraruhi oleh variasi jumlah data training .

      Dari Gambar 6.3 dapat diketahui bahwa semakin banyak data training yang digunakan akan membuat rata-rata iterasi untuk mencapai satu kali konvergen pada algoritma semi- supervised k-means memberikan hasil rata-rata yang lebih efisien dari algoritma k-means tradisional pada semua varian data training. Selain itu dalam pengujian ini algoritma improved semi-supervised k-means menghasilkan rata-rata iterasi yang cenderung meningkat jika data training yang digunakan semakin banyak. Sedangkan untuk algoritma k- means tradisional menghasilkan rata-rata iterasi yang tidak konsisten pada masing-masing jumlah varian data. Hal tersebut dikarenakan pusat klaster awal yang dihasilkan pada algoritma k-means tradisional dipilih secara acak sehingga proses dari algoritma menjadi tidak stabil. Berbeda dengan algoritma improved semi supervised kmeans clustering yang menggunakan data training yang telah berlabel untuk mencari nilai pusat klaster awal yang lebih optimal. Dengan pusat klaster awal yang lebih optimal akan membuat proses algoritma menjadi lebih efisien dalam melakukan banyak iterasi untuk satu kali konvergen.

    Tabel 4.4 Tabel hasil pengujian silhouette coefficient terhadap jumlah varian data training pada metode improved semi supervised k-means dengan k-means

      improved semi supervised k-means clustering.

      untuk mencari konvergen sebanyak KL+1 sampai √N. Selelah melalui beberapa proses konvergen akan dipilih nilai JK (objektif) yang terkecil. Nilai pusat klaster pada JK terkecil tersebutlah yang akan diuji pada algoritma

      supervised k-means akan dilakukan perulangan

    d. Hasil pengujian perbandingan silhouette coefficient terhadap jumlah varian data training pada metode improved semi

      tradisional dengan konsep pengujian yang sama dengan pengujian pertama dan kedua. Pengujian pada algoritma algoritma k-means tradisional dilakukan percobaan sebanyak lima kali pada lima set data training yang berbeda, kemudian akan diambil rata-rata nilai silhouette coefficient dari percobaan lima set data training. Sedangkan pengujian pada algoritma improved semi-

      supervised k-means clustering dan k-means

      Pada pengujian ketiga berguna untuk mengetahui perbandingan nilai kualitas klaster menggunakan metode evaluasi silhouette coefficient antara algoritma improved semi

      supervised k-means dengan k-means

      supervised k-means menghasilkan nilai klaster

      2. Dari pengujian yang dilakukan yang menggunakan data training dengan variasi data sebanyak 100, 200, 300, 400, dan 500 menggunakan algoritma semi-supervised k- means clustering dan algoritma k-means tradisional dengan 100 data uji yang diambil secara acak memberikan rata-rata tingkat akurasi yang lebih baik yaitu 90.3%. Sedangkan untuk rata-rata hasil k-means tradisional memberikan tingkat akurasi sebesar 73.7%. Selain itu untuk setiap variasi data pada metode semi-supervised k- means clustering memberikan hasil yang lebih konsisten dengan perbedaan presentase akurasi paling besar yaitu 2%, sedangkan untuk algoritma k-means tradisional perbedaan hasil akurasi terbesar adalah 13.6%.

      improved semi-supervised k-means lebih relevan

      dibanding algoritma k-means tradisional saat dilakukan pengujian menggunakan 25 data uji silhouette coefficient yang diambil secara acak.

    5. KESIMPULAN DAN SARAN

      Bab ini membahas kesimpulan dari hasil penelitian beserta saran yang dapat digunakan dalam pengembangan penelitian yang lebih lanjut tentang analisis perbandingan metode k-

      means dengan improved semi-supervised k- means clustering

      pada data indeks pembangunan manusia (IPM).

      3. Pada pengujian rata-rata jumlah iterasi untuk satu kali konvergen algoritma improved semi-supervised k-means menghasilkan rata-rata proses iterasi yang lebih efektif dibandingkan dengan algoritma k-means tradisional dengan nilai rata-rata iterasi yang dihailkan pada lima varian data bernilai 7.11 kali iterasi berbanding 9.72 kali iterasi. Selain itu untuk algoritma improved semi- supervised k-means menghasilkan hasil yang lebih konsisten pada bagian jumlah iterasi ketimbang algoritma k-means tradisional pada pengujian jumlah iterasi dalam satu kali konvergen terhadap jumlah varian data training.

      pusat awal yang lebih rasional daripada algoritama k-means tradisional. Lebih rasional dikarenakan pencarian pusat klaster awal pada algoritma improved semi-supervised k-means didapatkan melalui data yang telah dilabeli sebelumnya. Dengan menggunakan data yang berlabel untuk mencari nilai pusat klaster, akan memberikan pusat klaster awal yang lebih baik dibanding mencari pusat klaster awal secara random pada algoritma k-means tradisional. Dengan data yang didapatkan secara random akan membuat hasil tidak konsisten. Oleh karena itu hasil klaster yang dihasilkan pada algortma

    5.1 Kesimpulan

      1. Penggunaan algoritma semi-supervised k- means clustering pada data indeks pembangunan manusia (IPM) mampu mengatasi permasalahan yang ada pada algoritma k-means tradisional dengan memberikan hasil pusat klaster yang lebih optimal yang didapatkan dari data yang telah dilabeli sebelumnya. Dari data yang telah dilabeli tersebut memberikan pusat klaster awal yang lebih optimal dan nilai K klaster yang lebih optimal ketimbang algoritma k- means tradisional yang pada penerapannya terkadang memberikan hasil yang tidak konsisten. Dengan pusat klaster dan nilai K yang optimal memberikan hasil yang lebih baik dalam hal tingkat akurasi, rata-rata waktu komputasi per satu kali konvergen, dan validasi hasil pusat klaster menggunakan silhouette coefficient pada metode semi-supervised k-means clustering.

      semi-supervised k-means clustering pada data

      4. Metode improved semi-supervised k-means clustering memberikan rata-rata waktu komputasi untuk satu kali konvergen yang lebih baik dibandingkan dengan metode k- means tradisional. Hal tersebut dapat dilihat dari pengujian mengunakan lima variasi jumlah data yaitu 100, 200, 300, 400, dan 500 data training metode semi-supervised k- means clustering memberikan hasil yang lebih baik dengan rata-rata waktu komputasi sebesar 1222.9959 detik. Sedangkan untuk algoritma k-means tradisional memberikan rata-rata waktu komputasi sebesar 1504.75 detik. Dalam pengujian rata-rata waktu komputasi kedua metode memberikan nilai rata-rata waktu komputasi yang semakin meningkat jika data training yang digunakan semakin banyak, begitupun sebaliknya.