Penentuan Penerima Bantuan Ternak Menggunakan Algoritma K-Means Naïve Bayes
Vol. 2, No. 2, Februari 2018, hlm. 641-649 http://j-ptiik.ub.ac.id
Penentuan Penerima Bantuan Ternak Menggunakan Algoritma K-Means
1& Naïve Bayes
2 3 Moh. Fadel Asikin , Dian Eka Ratnawati , Mochammad Ali FauziProgram Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya
1
2
3 Email: [email protected], [email protected], [email protected]
Abstrak
Indonesia adalah negara yang luas yang memiliki banyak kepulauan yang cocok untuk dikembangkan bisnis peternakan. Pada kenyataannya sektor peternakan belum mampu mendorong partisipasi masyarakat dan swasta. Untuk mengatasi permasalahan tersebut, maka sebagian anggaran Kementerian Pertanian dialokasikan dalam bentuk belanja bantuan sosial, diantaranya untuk pemberdayaan masyarakat dan penanggulangan kemiskinan dalam bentuk barang kepada kelompok tani. Salah satu bentuk bantuan yang dialokasikan ke kelompok petani adalah pemberian ternak. Penentuan calon penerima masih belum efektif dan kadang menimbulkan pemberian bantuan ternak menjadi tidak tepat sasaran, sehingga setiap pembelanjaan uang negara tidak memberikan manfaat yang maksimal bagi masyarakat. Pada penelitian ini digunakan metode K-Means Naïve Bayes (KMNB) yang dianggap mampu memberikan hasil klasifikasi yang akurat pada penentuan penerima bantuan ternak. Pendekatan pembelajaran KMNB dibentuk dengan menggabungkan teknik clustering dan klasifikasi. K-Means digunakan sebagai komponen pra-klasifikasi untuk mengelompokkan data yang sama pada tahap awal. Selanjutnya di tahap kedua data akan diklasifikasikan berdasarkan kategori diterima atau tidaknya menggunakan Naïve Bayes. Dengan demikian, data dengan kelompok yang salah selama tahap pertama akan diklasifikasikan sesuai dengan kategori di tahap kedua. Berdasarkan hasil pengujian dengan membandingkan hasil pengelompokkan pada metode K-Means konvensional terbukti bahwa KMNB memberikan akurasi tertinggi sebesar 100% sedangkan K-Means konvensional memiliki akurasi sebesar 95.91.
Kata Kunci : Pengelompokkan, klasifikasi, penerima, bantuan ternak, K-Means, Naïve Bayes
Abstract
Indonesia is a vast country with many islands suitable for the development of livestock business. In
reality, the livestock sector has not been able to encourage public and private participation. To
overcome these problems, some of the budget of the Ministry of Agriculture is allocated in the form of
social assistance expenditures, such as for community empowerment and poverty alleviation in the form
of goods to farmer groups. One of the forms of assistance allocated to farmer groups is the provision of
livestock. Determination of potential recipients is still not effective and sometimes leads to the giving of
livestock assistance is not right on target, so that every expenditure of state money does not provide
maximum benefits for the community. In this research, K-Means Naïve Bayes (KMNB) method is
considered capable of giving accurate classification results on the determination of livestock recipients.
The KMNB learning approach is formed by combining clustering and classification techniques. K-
Means is used as a pre-classification component to group the same data at an early stage. Furthermore,
for the second grouping of data will be classified by category Accepted or not using Naïve Bayes. Thus,
the data with the wrong group during the first stage will be classified according to the category in the
second stage. Based on the test results by comparing the results of grouping on conventional K-Means
method it is proven that KMNB gives the highest accuracy of 100% while conventional K-Means has an
accuracy of 95.91% Keywords : Clustering, classification, recipients, livestock assistance, K-Means, Naïve Bayes Fakultas Ilmu Komputer Universitas Brawijaya
641
1. PENDAHULUAN
Indonesia adalah negara yang luas yang memiliki banyak kepulauan yang cocok untuk dikembangkan bisnis peternakan. Indonesia juga berada pada iklim tropis yang mendukung aktifitas usaha ternak itu sendiri. Pada kenyataannya sektor peternakan belum mampu mendorong partisipasi masyarakat dan swasta. Terkait dengan pemberdayaan masyarakat dan penanggulangan kemiskinan, penguatan ketahanan pangan dan untuk mendukung usaha tumbuh kembangnya usaha peternakan, maka Kementerian Pertanian telah menyalurkan belanja bantuan sosial dalam bentuk barang kepada kelompok tani. Salah satu bentuk bantuan yang dialokasikan ke kelompok petani adalah pemberian ternak. Kelompok petani yang ingin mendapatkan bantuan dibebani syarat atau kriteria, baik yang sifatnya umum maupun teknis. Penentuan calon penerima masih belum efektif dan kadang menimbulkan pemberian bantuan ternak menjadi tidak tepat sasaran, sehingga setiap pembelanjaan uang negara tidak memberikan manfaat yang maksimal bagi masyarakat.
Ada beberapa kasus bantuan ternak tidak tepat sasaran yang telah terjadi beberapa tahun belakangan ini. Tahun 2011, Trenggalek kembali terkait pada kasus bantuan ternak tak tepat sasaran. Progam Jalin Kesra Propinsi Jawa Timur di Trenggalek melalui Dinas Peternakan propinsi RTSM (Rumah Tangga Sangat Miskin), terancam tidak tepat sasaran. Bantuan yang akan diberikan berupa hewan ternak yaitu kambing, domba, ayam dan itik dengan total keseluruhan 12.000 ekor. (Surabayapagi, 2011). Contoh lain yaitu kasus di Muara Bungo, Program Pemerintah untuk meningkatkan kesejahteraan para peternak, berupa bantuan sapi, yang diberikan kepada Masyarakat dengan menggunakan dana Anggaran Pendapatan dan Belanja Daerah Perubahan (APBD P) Tahun 2015 diduga tidak berjalan sebagaimana mestinya. (Sidakpost, 2015).
Agar pemberian bantuan ternak tepat sasaran, efektif dan efisien, maka diperlukan suatu alat bantu untuk menyeleksi calon penerima berdasarkan kriteria umum dan teknis yang dibuat oleh masing-masing instansi sesuai dengan pedoman yang telah ditetapkan oleh Pemerintah Pusat. Teknologi Informasi dan Komputer (TIK) saat ini memiliki peran sebagai pendukung dalam mengolah data yang lebih efektif dan efisien, yang dapat membantu memecahkan masalah penentuan penerima bantuan ternak. Pengembangan perangkat lunak mulai bermunculan untuk melebarkan sayapnya ke berbagai macam bidang. Salah satu contohnya adalah bidang klasifikasi. Klasifikasi berguna untuk membedakan satu obyek dengan obyek lainnya.
Klasifikasi merupakan suatu pekerjaan menilai objek daya untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. (Prasetyo, 2012).
Analisis kelompok (cluster analysis) adalah pekerjaan mengelompokkan data (objek) yang didasarkan hanya pada informasi yang ditemukan dalam data yang menggambarkan objek tersebut dan hubungan di antaranya (Tan, 2006). Saat ini ada banyak metode pengelompokkan dan pengklasifikasian data, diantaranya K-Means dan Naïve Bayes
Classifier. K-Means merupakan salah satu
metode pengelompokkan data non hierarki yang berusaha untuk mempartisi data yang ada ke dalam bentuk dua atau lebih kelompok, sehingga data berkarakterisitik sama dimasukkan ke dalam satu kelompok yang sama dan data yang berkarakterisitik lain dimasukkan ke dalam kelompok lain (Prasetyo, 2012). Sedangkan
Naïve Bayes Classifier merupakan
penyederhanaan dari teorema Bayes (Kusumadewi, 2009). Algoritme dalam metode
Naïve Bayes didasarkan pada teknik klasifikasi
yang dapat dibuktikan bahwa saat kecepatan sangat tinggi dan bersamaan diaplikasikan dalam suatu database dengan jumlah data yang besar,
Naive Bayes mempunyai akurasi dan juga kecepatan yang tinggi (Nugroho, 2009).
Sebuah penelitian menggunakan algoritme K-Means dan Naïve Bayes dalam permasalahan implementasi metode klustering untuk klasifikasi kanker payudara telah dilakukan oleh Anggreyni et al. (2015). Pada K-Means dilakukan pengelompokkan data ke dalam 3 klaster (jinak, mungkin, ganas). Selanjutnya hasil mungkin akan dicari peluangnya dengan menggunakan Naïve Bayes. Penggunaan K- Means & Naïve Bayes pada dataset kanker payudara memberikan akurasi tinggi sebesar 97,72% dan akurasi terendah sebesar 96,02%.
Atas dasar tersebut, maka dalam hal penentuan atau penyeleksian calon penerima bantuan ternak, maka akan dicoba menggunakan dua pendekatan pembelajaran untuk penelitian ini yaitu metode K-Means dan Naive Bayes untuk klasifikasi. Nama kombinasi ini adalah K-
Means Naïve Bayes (KMNB). Pendekatan
1. Pilih Jumlah klaster k.
= (y1,y2,……………yj) adalah
= (x1,x2,…………..xj) adalah variable data. y
) ( | | ) , ( (2) Dimana : d(x,y) = Ukuran ketidakmiripan x
2
1
1
2
1
n i y x y x y x d
3. Tempatkan setiap data/obyek ke klaster terdekat. Kedekatan dua obyek berdasarkan jarak kedua obyek tersebut. Demikian juga kedekatan suatu data ke klaster tertentu ditentukan jarak antara data dengan pusat klaster. Dalam tahap ini perlu dihitung jarak tiap data dengan data ke tuap pusat klaster. Jarak paling deka tantara satu data dengan data satu klaster tertentu akan menentukan suatu data masuk dalam klaster yang mana. Menentukan ukuran kemiripan atau ketidakmiripan antar data dengan metode jarak Euclidean. Rumusnya adalah sebagai berikut:
2. Inisialisasi k pusat klaster ini bisa dilakukan dengan berbagai cara. Yang paling sering dilakukan dengan cara random. Pusat-pusat klaster diberi nilai dengan angka-angka random.
Langkah-langkah untuk melakukan pengelompokkan dengan tujuan menghasilkan suatu data yang terkelompok adalah sebagai berikut (Santosa, 2007):
KMNB dibentuk dengan menggabungkan teknik clustering dan klasifikasi. Teknik clustering K- Means digunakan sebagai komponen pra klasifikasi untuk mengelompokkan data yang sama pada tahap awal. Selanjutnya, untuk pengelompokan tahap kedua data akan diklasifikasikan menggunakan metode klasifikasi. Dengan demikian, data yang kesalahan klasifikasi selama tahap pertama akan diklasifikasikan sesuai dengan kategori di tahap kedua. Clustering memberikan keuntungan yang signifikan atas teknik klasifikasi yang membantu mengidentifikasi kelompok data yang berperilaku sama atau menunjukkan karakteristik serupa di awal (Muda, 2011).
Untuk menghitung centroid digunakan perhitungan dengan mencari nilai tengah dari kumpulan data dalam sebuah kelompok.
1,2,… k), µj adalah titik centroid atau rata-rata semua Xn poin dalam Si.
(1) Dimana k adalah jumlah kelompok Si (i=
X J
Sj m j n k i
) {
1
2
Pengelompokan menggunakan K-Means bermaksud untuk mempartisi n obyek ke dalam kelompok k didasari pada jarak yang disebut dengan apriori dan harus dihitung dari data yang ada. Tujuan dari metode ini adalah meminimalkan jumlah varian antar klaster. Dengan fungsi kesalahan kuadrat sebagai berikut:
K-Means merupakan sebuah algoritma clustering dimana membagi data berdasarkan jarak antara data ke jumlah kelompok yang telah ditetapkan (asalkan ada cukup banyak kasus yang berbeda). Algoritma berbasis jarak ini bergantung pada jarak metric (fungsi) untuk mengukur kesamaan antara titik data. Untuk menghitung jarak metric biasa digunakan jarak eucledian, consine atau jarak fast consine. Data dimasukkan ke kelompok terdekat sesuai dengan hasi jarak metric yang digunakan (Santosa, 2007).
K-Means
Analisa klaster yaitu menemukan kumpulan obyek hingga obyek-obyek dalam satu kelompok sama (atau punya hubungan) dengan yang lain dan berbeda (atau tidak saling berhubungan) dengan obyek-obyek dalam kelompok lain (Hermawati, 2013). Tujuan analisa klaster dapat dibedakan menjadi dua, yaitu pengelompokkan untuk pemahaman, kelompok yang terbentuk arus menangkap struktur alami data, biasanya proses pengelompokkan dalam tujuan ini hanya sebagai proses awal untuk kemudian dilanjutkan dengan pekerjaan inti atau summarization (rata-rata, standar deviasi), pelabelan kelas pada setiap kelompok untuk kemudian digunakan sebagai data latih klasifikasi, dan sebagainya. Sementara jika untuk penggunaan, tujuan utama pengelompokkan biasanya adalah mencari prototipe kelompok yang paling representatif terhadap data, memberikan abstraksi dari setiap obyek data dalam kelompok dimana sebuah data terletak di dalamnya (Prasetyo, 2012).
Berdasarkan uraian di atas, peneliti mengusulkan penelitian dengan menggunakan KMNB untuk melihat akurasi serta perbandingan akurasi dari KMNB dan K-Means konvensional dalam kasus penentuan penerima bantuan ternak.
2. CLUSTERING
3. KLASIFIKASI
q i i
1 ) | ( ) (
dengan memilih yang terbesar sebagai kelas yang dipilih sebagai hasil prediksi. Sementara probabilitas independen
q i i
Y
X P
1 ) | ( tersebut merupakan
pengaruh semua fitur dari data terhadap setiap kelas Y, yang dinotasikan dengan
Y y
Y
X P y Y
X P
1 ) | ( ) | (
(4) Setiap set fitur X = {X
1 ,X 2 ,X
3
,…,X
q } terdiri atas q atribut (q dimensi).
Terdapat perlakuan khusus pada yang berlaku pada data bertipe numerik (kontinu) dalam Naïve Bayes. Caranya adalah (Prasetyo, 2012):
X P Y P
q i i
variable pada titik pusat.
) ( ) | ( ) ( ) | (
4. Hitung kembali pusat klaster dengan keanggotaan klaster yang sekarang. Pusat klaster adalah rata-rata dari semua data/pbyek dalam klaster tertentu. Jika dikehendaki bisa juga memakai median dari klaster tersebut. Jadi rata-rata (mean) bukan satu-satunya ukuran yang bisa dipakai.
5. Tugaskan lagi setiap obyek dengan memakai pusat klaster yang baru. Jika pusat klaster sudah tidak berubah lagi, maka proses pengklasteran selesai. Atau, kembali lagi ke langkah nomor 3 sampai pusat klaster tidak berubah lagi.
Konsep klasifikasi yang dijelaskan oleh Prasetyo (2012) menerangkan bahwa klasifikasi adalah suatu pekerjaan menilai objek daya untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dia pekerkaan utama yang dilakukan, yaitu (1) pembangunan model sebagai prototipe untuk disimpan sebagai memori dan (2) penggunaan model tersebut untuk melakukan pengenalan / klasifikasi / prediksi pada suatu objek data lain agar diketahui di kelas mana objek data tersebut dalam model yang sudah disimpannya.
Klasifikasi dapat didefinisikan sebagai pekerjaan yang melakukan pelatihan / pembelajaran terhadap fungsi target f yang memetakan setiap set atribut (fitur) x ke satu dari sejumlah label kelas y yang tersedia. Pekerjaan pelatihan tersebut akan menghasilkan suatu model yang kemudian disimpan sebagai memori (Prasetyo, 2012).
Naïve Bayes
Kaitan antara Naïve Bayes dengan klasifikasi, korelasi hipotesis, dan bukti dengan klasifikasi adalah bahwa hipotesis dalam teorema bayes merupakan label kelas yang menjadi target pemetaan dalam klasifikasi, sedangkan bukti merupakan fitur-fitur yang menjadi masukkan dalam model klasifikasi. Jika X adalah vector masukan yang berisi fitur dan Y adalah label kelas, Naïve Bayes dituliskan dengan P(Y|X). Notasi tersebut berarti probabilitas label kelas Y didapatkan setelah fitur-fitur X diamati. Notasi ini disebut juga probabilitas akhir (posterior probability) untuk Y, sedangkan P(Y) disebut probabilitas awal (prior probability) Y.
Selama proses pelatihan harus dilakukan pembelajaran probabilitas akhir P(Y|X) pada model untuk setiap kombinasi X dan Y berdasarkan informasi yang didapat dari data latih. Dengan membangun model tersebut, suatu data uji X’ dapat diklasifikasikan dengan mencari Nilai Y’ dengan memaksimalkan nilai P(Y’|X’) yang didapat.
Formulasi Naïve Bayes untuk klasifikasi adalah
1 X P Y
independen kelas Y dari semua fitur dalam vector X. Nilai P(X) selalu tetap sehingga dalam perhitungan prediksi nantinya kita tinggal menghitung bagian
X P Y P
X Y P q i i
(3)
P(Y|X) adalah probabilitas data dengan vector X pada kelas Y. P(Y) adalah probabilitas awal kelas Y.
q i i
Y
X P
1 ) | ( adalah probabilitas
- Melakukan Diskritesasi pada setiap fitur kontinudan mengganti nilai fitur kontinutersebut dengan nilai interval diskret. Pendekatan ini dilakukan dengan mentransformasi fitur kontinu menjadi fitur ordinal.
- Mengasumsikan bentuk tertentu dari distribusi probabilits untuk fitur kontinu dan memperkirakan parameter distribusi dengan data pelatihan. Distribusi Gaussian biasanya dipilih untuk merepresentasikan probabilitas bersyarat dari fitur kontinu pada sebuah kelas P(X i| Y), sedangkan distribusi
2 Mulai parameter: mean, µ, dan varian σ .
Untuk setiap kelas yj, probabilitas bersyarat kelas yj untuk fitur X i adalah 2 Data
( x ) 2 Training,
1
2
(5)
P ( X x | Y y ) e i i i
Jumlah
2
ij Klaster
Gabungan K-Means dan Naïve Bayes
Pendekatan pembelajaran K-Means Naïve
Pengelompokkan Bayes (KMNB) dibentuk dengan
K-Means
menggabungkan teknik clustering dan klasifikasi. K-Means digunakan sebagai komponen pra-klasifikasi untuk mengelompokkan data yang sama pada tahap awal. Selanjutnya, untuk pengelompokan tahap kedua data akan diklasifikasikan berdasarkan
a
kategori Diterima atau tidaknya menggunakan
Naïve Bayes. Dengan demikian, data dengan
kelompok yang salah selama tahap pertama akan
a
diklasifikasikan sesuai dengan kelompoknya di tahap kedua.
Prosedur yang digunakan dalam pengklasifikasian data dapat dilihat pada
Data training terklaster,
langkah-langkah berikut:
Centroid 1.
Masukkan dataset 2. Kelompokkan data dengan K-Means dan kembali dengan hasil diterima, tidak diterima dan mungkin.
Training 3.
Data yang belum masuk klaster mungkin
Naive Bayes
akan diklasifikasikan dengan Naïve Bayes.
Rata-rata, 4.
DESAIN SISTEM
Standar
4.1. Struktur Sistem
Deviasi, Prior
Diagram alur sistem secara umum dibagi menjadi 2 tahap yaitu tahap pertama adalah tahap pelatihan dan tahap selanjutnya adalah tahap pengujian dijelaskan pada Gambar 1 dan
Selesai Gambar 2.
Gambar 1 Pelatihan KMNB
Gambar 2. Pengujian KMNB
Sistem ini memiliki 2 proses utama, yaitu proses pelatihan dan proses pengujian. Pada proses pelatihan dibutuhkan masukan berupa data latih. Pada proses pengujian dibutuhkan data uji yang akan diujikan. Proses pada sisten ini adalah sebagai berikut:
Selesai Data testing pada klaster mungkin terklasifikasi
2. Proses pengujian Pada proses pengujian ini akan mengambil nilai centroid, rata-rata, standar deviasi serta prior probility dari proses pelatihan lalu dilakukan pengklasteran dengan menggunakan K-Means.Data Uji akan diproses K-Means dengan menggunakan centroid yang telah dihasilkan pada saat pelatihan. Keluaran yang dihasilkan melalui proses ini sama halnya seperti fase pelatihan berupa 3 kluster dimana Kluster 1 atau K1 = Diterima, K2 = Tidak diterima, dan K3 = Mungkin. Selanjutnya algoritma Naïve Bayes akan mengolah data dari K3. Tahapan yang dilakukan Naïve bayes adalah melakukan perhitungan gaussian, likelihood serta probabilitas dari data uji yang ada. Naïve Bayes akan menghasilkan prediksi kelas (Diterima dan Tidak Diterima). Tujuan proses ini adalah untuk penentuan kelas dari data uji yang tidak diketahui kelasnya.
4.2. Basis Pengetahuan
Basis pengetahuan berisi tentang pengetahuan yang relevan, diperlukan untuk memahami, merumuskan, dan memecahkan persoalan. Basis pengetahuan merupakan inti program dari sistem dimana basis pengetahuan ini merupakan representasi pengetahuan dari hasil wawancara Petugas Dinas Peternakan dan buku pedoman calon penerima bantuan ternak. Terdapat 13 kriteria yang digunakan sebagai penetuan penerima yang akan mendapatkan bantuan ternak: 1.
Status Kelompok.
2. Struktor Organisasi.
3. Usaha yang sedang Dijalan Kelompok.
4. Pengalaman Berternak.
Deviasi, Prior Pengelompokkan K-Means Data testing terklaster Testing Naive Bayes
Mulai Data Uji, Centroid, Rata- rata, Standar
1. Proses pelatihan
7. Sumber Pakan dan Air.
9. Pelayanan Kesehatan.
10. Jenis Ternak.
11. Recording.
12. Pemberian Pakan.
13. Pengolahan Limbah.
5. PENGUJIAN DAN ANALISIS
5.1. Pengujian Akurasi
Berdasarkan hasil pengujian yang telah
6. Sistem Pemeliharaan.
5. Bantuan yang Pernah Diterima.
Tujuan dari proses ini adalah untuk memperoleh nilai centroid dari K-Means dan nilai rata-rata dari Naïve Bayes yang akan digunakan selanjutnya untuk data uji. Data latih pada proses K-Means digunakan untuk membentuk centroid. Keluaran yang dihasilkan melalui proses ini berupa 3 kluster. Dimana Kluster 1 atau K1 = Diterima, K2 = Tidak diterima, dan K3 = Mungkin. Selanjutnya algoritma Naïve Bayes akan mengolah dta dari K3. Tahapan yang dilakukan Naïve bayes adalah melakukan perhitungan nilai rata-rata tiap kelas. Naïve Bayes akan menghasilkan rata-rata dan standar deviasi tiap atribut kelas serta prior probability dari tiap kelas (Diterima dan Tidak Diterima).
8. Jenis Usaha yang Ingin Dilakukan Kelompok. dilakukan dengan menggunakan K-Means Naïve
Pengujian Pertama
Bayes (KMNB) dan K-Means Konvensional menunjukkan beragam hasil. Pada pengujian
105
pertama yaitu dengan skenario rasio data latih
100
dan data uji yang bervariasi yaitu dengan data latih (80%, 70%, 60%, 50%) dan data uji (20%,
95
30%, 40%, 50%) menunjukkan hasil akurasi dari
90
metode K-Means Naïve Bayes memiliki skor tertinggi yaitu 100% dan skor akurasi terendah
85
81.70%. Rata-rata akurasi dari 5 kali percobaan
80%-20% 70%-30% 60%-40% 50%-50% ini adalah 95%.
K-Means Konvensional KMNB
Sedangkan pada pengujian kedua dengan rasio data latih bervariasi (80%, 70%, 60%, 50%) dan data uji tetap yaitu 20% menunjukkan Gambar 1 Grafik Perbandingan Akurasi
Pengujian Pertama
skor akurasi tertinggi 100% dan skor akurasi terendah 84%. Penyebab penurunan akurasi dari setiap varasi data latih telah dibahas pada sub
Pengujian Kedua bab selanjutnya.
105
K-Means konvensional pada umumnya tidak menggunakan fase training dan testing
100
dikarenakan pada analisis kluster data pada K-
95 Means belum mempunyai “kelas” sehingga
90
proses pelatihan tidak dapat dilakukan. Pada
85
kasus ini K-Means dibagi menjadi 2 fase untuk
80
menyamakan bentuk pengujian dimana terdapat
80%-20% 70%-20% 60%-20% 50%-20%
data latih dan data uji. Pada tahap pelatihan, K- Means membangkitkan pusat kluster (centroid)
K-Means Konvensional KMNB
secara acak lalu melakukan proses K-Means selanjutnya seperti biasa hingga konvergen.
Gambar 2 Grafik Perbandingan Akurasi
Pada tahap pengujian, K-Means tidak
Pengujian Kedua
membangkitkan kembali pusat kluster secara acak namun menggunakan pusat kluster terakhir Membandingkan hasil akurasi dari kedua pada fase pelatihan. metode ini pada dua jenis pengujian yang
Hasil dari pengujian pertama dari K-Means dilakukan dapat disimpulkan bahwa KMNB konvensional menunjukkan skor akurasi dapat meningkatkan akurasi dari K-Means tertinggi 95.91% dan akurasi terendah 92.68%. dengan akurasi 100%. Hal ini terjadi Karena
Dari 5 kali percobaan untuk setiap variasi data adanya optimasi menggunakan Naïve Bayes latih dan data uji menunjukkan akurasi yang pada pengelompokkan K-Means. Pada Naïve tetap. Begitu juga yang terjadi pada pengujian
Bayes. Semua atribut dari data memberikan kedua dengan akurasi tertinggi 93.93% dan kontribusinya dengan bobot atribut yang sama akurasi terendah dengan skor 57.67%. Hasil dari penting dalam pengambilan keputusan. 5 kali percobaan pada pengujian kedua menunjukkan akurasi yang sama pada variasi
5.2. Pengaruh Jumlah Data Latih pada Data
data latih 80% dan data 70%. Namun pada
a Uji
variasi data 60% menunjukkan skor akurasi Berikut adalah tabel pengaruh jumlah data terendah 57% dan pada variasi data 50% latih terhadap data uji. Tabel 1 menampilkan menunjukkan akurasi terendah di angka 81%. pengaruh jumlah data latih terhadap data uji pada
Grafik perbandingan akurasi antara K-Means pengujian pertama. Tabel 2 menampilkan Naïve Bayes dan K-Means konvensional pengaruh pada pengujian kedua. ditampilkan pada Gambar 3 untuk pengujian pertama dan Gambar 4 untuk pengujian kedua.
Tabel 1 Hasil Percobaan Pengaruh Jumlah Data
ketika jumlah data latih diperbesar dengan skor
Latih terhadap Data Uji Pengujian Pertama
akurasi terendah yaitu 84% pada rasio data latih 60% meningkat hingga skor akurasi tertinggi
Jumlah Data
100%.
Rata-rata latih, Data Latih Data Uji
Pengaruh Naïve Bayes pada pelatihan
Akurasi Data uji
menjadi penyebab penurunan rata-rata akurasi
(%)
yang terjadi pada data latih data latih 70% hingga
80,20 132 33 95.7576
50%. Naïve Bayes membutuhkan data latih yang
70,30 116 49 93.0612 banyak untuk mencapai akurasi yang tinggi. 60,40
99 66 91.2121
Data latih yang digunakan oleh Naïve Bayes
50,50
83 82 88.2926
merupakan data pada kluster “Mungkin” yang
Tabel 2 Hasil Percobaan Pengaruh Jumlah Data berubah-ubah setiap kali percobaan dikarenakan
Latih terhadap Data Uji Pengujian Keduacentroid awal K-Means yang dibangkitkan secara acak.
Jumlah Data Rata-rata latih, Data Latih Data Uji
6. KESIMPULAN Akurasi Data uji
Kesimpulan yang dapat adalah bahwa
(%)
metode gabungan K-Means dan Naïve Bayes
80,20 132 33 95.7576
atau disingkat KMNB dapat diimplementasikan
70,20 116 33 92.7272 60,20 99 33 91.5151
pada kasus penentuan calon penerima bantuan
50,20
83 33 91.5151
ternak. Akurasi yang dihasilkan oleh KMNB di pengujian pertama adalah 92.68%, 93.93%, Berdasarkan tabel 1 dan tabel 2 dapat dilihat
100%, dan 100%. Sedangkan K-Means bahwa akurasi lebih tinggi dimiliki oleh data Konvensional menghasilkan akurasi 92.68%, latih dengan jumlah yang besar. Grafik pengaruh 93.93%, 95.91%, dan 93.93%. Pada pengujian jumlah data latih terhadap data uji dapat dilihat kedua KMNB memiliki akurasi sebesar 93.93%, pada Gambar 5. 93.93%, 93.93%, dan 100%. Pada K-Means konvensional memiliki akurasi sebesar 93.93%, 93.93%, 93.93%, dan 93.93%. Dari hasil akurasi
Pengaruh Jumlah Data Latih
yang diperoleh dari dua pengujian tersebut
Terhadap Data Uji
menunjukkan bahwa penggabungan K-Means
100
dengan Naïve Bayes lebih baik dari pada K- Means konvensional. Untuk pengembangan
95
selanjutnya yaitu, untuk menguji tingkat
90
keakuratan yang lebih tinggi pada data latih dan
85
data uji yang lebih rendah, maka tidak tertutup kemungkinan untuk melakukan penelitian lebih
80
lanjut mengenai penggabungan metode K-
80% 70% 60% 50% Means dengan metode-metode yang lain. Pengujian Pertama Pengujian Kedua
DAFTAR PUSTAKA Gambar 3 Grafik Pengaruh Jumlah Data Latih
Agusta, Y., 2007. K-Means
- – Penerapan,
Terhadap Data Uji Permasalahan dan Metode Terkait, Volume 3.
Pada tabel percobaan 1 dan 2 serta gambar 5 ditemukan bahwa penambahan jumlah data latih Dinakkeswan, 2014. Pedoman Umum berpengaruh terhadap peningkatan nilai akurasi.
Penetapan Kelompok APBD. s.l.:Dinas
Hal ini terlihat dengan peningkatan akurasi dari Peternakan & Kesehatan Hewan. rasio 50-50 dengan nilai rata-rata akurasi Hermawati, F. A., 2013. Data Mining. 81.70% pada pengujian pertama. Seiring Yogyakarta: Penerbit Andi. bertambahnya rasio data latih, nilai akurasi pada pengujian pertama menunjukkan kenaikan
Pramudiono, I., 2003. Pengantar Data Mining: hingga 100%. Pengujian kedua dimana rasio
Menambang Permata Pengetahuan di
data uji ditetapkan dengan rasio 20% juga Gunung Data. s.l.:s.n. membuktikan adanya peningkatan nilai akurasi
Prasetyo, E., 2012. Klasifikasi: Metode-Metode Pilihan. Yogyakarta: Penerbit ANDI. Santosa, B., 2007. Data Mining : Teknik
Pemanfaatan Data untuk Keperluan Bisnis, Teori dan Aplikasi. Yogyakarta.:
Graha Ilmu. Sidakpost, 2015. Sidakpost.com. [Online] Available at: https://sidakpost.com/berita-383- bantuan-sapi-dinilai-tidak-tepat- sasaran.html . [Diakses 8 Februari 2017].
Surabayapagi, 2011. surabayapagi.com.
[Online] Available at: http://www.surabayapagi.com/read/736
48/2011/11/14/Bantuan_Ternak_Rawan _Tak_Tepat__Sasaran.html. [Diakses 8 Februari 2017].
Susanto, S. & Suryadi, D., 2010. Pengantar
Data Mining. Yogyakarta: Penerbit ANDI.
Tan, P., 2006. Dalam: Introduction to Data Mining. Boston: Pearson Education. Z. Muda, W. Y. M. S. N. U., 2011. A K-Means
and Naive Bayes Learning Aproach for Better Intrusion Detection.
Zalik, K., 2008. An efficient k-means clustering algorithm.