Di sisi lain, keragaman karakteristik lahan, agroklimat serta sebaran wilayah yang luas memungkinkan wilayah Indonesia digunakan untuk pengembangan hortikultura tropis dan
sub tropis. Indonesia merupakan salah satu negara penghasil buah tropis yang memiliki
keanekaragaman dan keunggulan cita rasa yang cukup baik bila dibandingkan dengan buah- buahan dari negara-negara penghasil buah tropis lainnya. Produksi buah dalam negeri
diharapkan dapat memenuhi semua kebutuhan masyarakat. Karena dengan berhasilnya produksi buah berarti pemerintah tidak memerlukan tindakan untuk menimpor buah dari
negara lain. Akan tetapi dalam kenyataannya, Indonesia dalam pemenuhan kebutuhan akan buah masih tergantung pada impor dari Negara lain. Produksi buah dari tahun ke tahun
mengalami penurunan. Penurunan produksi buah tersebut antara lain disebabkan karena menipisnya stok di
beberapa daerah karena belum memasuki masa panen atau juga dikarenakan impor buah yag dilakukan oleh pemerintah untuk memenuhi kebutuhan belum teralisasi.
Produksi buah di Indonesia dari tahun ke tahun mengalami penurunan. Untuk itu dalam rangka memenuhi kebutuhan buah, peran dinas pertanian untuk mengelompokan daerah
yang menghasilkan produksi buah di daerah Indonesia khususnya Provinsi Daerah Istimewa Yogyakarta agar dapat mengoptimalkan produksi buah, tidak semata mengutamakan
keuntungan pribadi tetapi mendukung peningkatan nilai tambah produk dan peningkatan pendapatan petani.
Pengelompokan tersebut dapat menggunakan metode pengelompokan dengan algoritma K-Means. Dengan data yang sudah dikelompokkan menggunakan algoritma K-
Means diharapkan dapat mempermudah dinas pertanian dalam menghitung hasil pertanian di tiap daerahnya agar mengetahuni daerah mana yang menghasilkan buah terbanyak, sedang,
dan sedikit.
1.2 Rumusan Masalah
Berdasarkan latar belakang yang ada dapat dirumuskan masalah yaitu : untuk mengetahui daerah yang menghasilkan produksi buah yang banyak di Provinsi Daerah Istimewa
Yogyakarta dengan metode K-Means clustering
.
1.3 Tujuan Penelitian
Tujuan dari penelitian ini adalah mengetahui daerah potensial penghasil buah dan dapat mengetahui daerah tersebut cocok untuk tanaman padi. Pengelompokan tersebut dapat
menggunakan metode pengelompokan dengan algoritma K-Means.
1.4 Manfaat Penelitian
Berdasarkan tujuan penelitian diatas, manfaat yang dapat diberikan adalah diharapkan dapat membantu pihak Dinas Pertanian dalam memudahkan mengelompokan daerah
potensial untuk produksi buah di Provinsi Daerah Istimewa Yogyakarta.
1.5 Batasan Masalah
Dalam batasan masalah ini, penulis membatasi permasalah yang perlu yaitu : 1.
Data yang akan digunakan adalah data produksi buah - buahan dan jumlah pohon selama lima tahun dari tahun 2005 sampai 2009.
2. Data yang digunakan dalam proses pengelompokan adalah data data produksi buah -
buahan dan jumlah pohon menurut Kabupaten di Provinsi Daerah Istimewa Yogyakarta.
3. Data produksi buah meliputi alpokat, mangga, rambutan, duku, jeruk, sirsak, sukun,
belimbing, durian, jambu biji, manggis, sawo, pepaya, pisang, nenas, salak, nangka, dan semangka.
1.6 Metode Penelitian
Metode penelitian pada penyusunan penulisan ini, adalah : 1.
Studi literatur dengan tujuan : a.
Mempelajari dan memahami K-Means clustering dalam data mining. b.
Mengetahui data produksi buah beberapa kabupaten. 2.
Pengumpulan data melalui Dinas Pertanian Provinsi Daerah Istimewa Yogyakarta. 3.
Implementasi algoritma ke dalam sistem. 4.
Mengelompokan daerah produksi. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1.7 Sistematika Penulisan Bab I. Pendahuluan
Dalam bab ini tentang latar belakang masalah, rumusan masalah, tujuan penelitian, batasan masalah, dan sistematika penulisan.
Bab II. Landasan Teori
Dalam bab ini berisi tentang teori yang dapat menunjang peneitian, yaitu berupa pengertian data mining, proses data mining, dan algoritma K-Means.
Bab III. Analisa dan Perancangan Sistem
Dalam bab ini berisi tentang cara penerapan konsep dasar yang telah diuraikan pada Bab II untuk menganalisis dan merancang tentang system sesuai tahap
– tahap penyelesaian masalah tersebut dengan menggunakan algoritma K-Means.
Bab IV. Implementasi dan Analisa Sistem
Dalam bab ini berisi tentang implementasi ke program computer beradasarkan hasil perancangan yang dibuat, analisis perangkat lunak yang telah dibuat.
Bab V. Penutup
Dalam bab ini berisi tentang kesimpulan dan saran dari seluruh penulisan tugas akhir. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
BAB II LANDASAN TEORI
Pada Bab II ini akan dipaparkan mengenai landasan teori yang medukung penelitian yang dilakukan oleh penulis. Dalam Bab ini akan dijelaskan pengertian dan metode yang akan
digunakan oleh penulis.
2.1 Data mining 2.1.1 Pengertian Data mining Dalam Berbagai Disiplin Ilmu
Data mining adalah sebuah proses percarian secara otomatis informasi yang berguna dalam tempat penyimpanan data berukuran besar. Istilah lain yang sering
digunakan diantaranya knowledge discovery mining in databases KDD, knowledge extraction, data atau pattern analysis, data archeology, data dredging, information
harvesting, dan business intelligence. Teknik data mining digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna.
Tidak semua pekerjaan pencarian informasi dinyatakan sebagai data mining. Sebagai contoh, pencarian record individual menggunakan database management system atau
pencarian halaman we tertentu melalui kueri ke semua search engine adalah pekerjaan pencarian informasi yang erat kaitannya dengan information retrieval. Teknik-teknik
data mining dapat digunakan untuk meningkatkan kemampuan sistem-sistem information retrieval.
Data mining adalah adalah bagian integral dari knowledge discovery in databases KDD. sebuah langkah dalam proses mencari pola-pola yang terdapat dalam setiap
informasi. Langkah-langkah tersebut akan dijelaskan pada gambar 2.1 Han, 2011, p6. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Database Flat File
Data Warehouse
Patterns
Knowledge
Cleaning and Integration
Selection and
Transformation Data mining
Evaluation and
Presentation
Gambar 2. 1 Tahap penemuan Knowledge pada Data mining KDD Han, Jiawei 2011
Gambar 2.1 menggambarkan proses KDD dalam menghasilkan knowledge dan terdiri dari beberapa tahap:
a. Data Cleaning
Untuk menghapus data yang tidak dipakai dan data yang tidak konsisten. b.
Data Integration Berbagai sumber data dapat digabungkan.
c. Data Selection
Data yang bersangkutan pada tugas analisis diseleksi dan diambil kembali dari database.
d. Data Transformation
Data diubah atau diperkuat menjadi bentuk yang seharusnya untuk diolah dengan menganalisis ringkasan atau jumlah total agregasi.
e. Data mining
Sebuah proses penting di mana metode intelijen diterapkan dengan tujuan untuk megolah pola-pola data.
f. Pattern Evaluation
Untuk mengidentifikasi pola-pola menarik yang menjelaskan mengenai ukuran dasar pengetahunan yang ada.
g. Knowledge Presentation
Visualisasi dan teknik representasi knowledge digunakan untuk menyajikan knowledge yang telah diolah untuk pengguna.
2.1.2 Posisi Data mining Dalam Berbagai Disiplin Ilmu
Para ahli berusaha menetukan posisi bidang data mining di antara bidang-bidang yang lain. Hal dikarenakan ada kesamaan antara sebagian bahasan data mining dengan
bahasan di bidang lain. Memang tidak seratus persen sama, tetapi ada sejumlah kesamaan karakteristik dalam beberapa hal. Kesamaan bidang data mining dalam
bidang statistik adalah penyampelan, estimasi, dan pengujian hipotesis.
2.1.3 Data, Informasi, dan Pengetahunan Knowledge
Data adalah segala fakta, angka, atau teks yang dapat diproses oleh komputer. Saat ini, akumulasi pertumbuhan jumlah data berjalan dengan cepat dalam format dan basis
data yang berbeda. Data-data tersebut antara lain, adalah : a.
Data operasional atau transaksional. Contoh : penjualan, inventaris, penggajian, akuntansi, dll.
b. Data non operasional. Contoh : Indusri penjualan, inventaris, permalan, dan data
ekonomi makro. c.
Meta data adalah mengenai data itu sendiri, seperti desain logikabasis data.\
2.1.4 Pengelompokan Data mining
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu Larose, 2005 :
a. Deskripsi Description
Terkadang penelitian analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai
contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan
kemungkinan penjelasan untuk suatu pola atau kecenderungan.
b. Estimasi Estimation
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan record
lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat
berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis
kelamin, indeks berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan
menghasilan model estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya.
c. Prediksi Prediction
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa datang. Contoh prediksi dalam bisnis dan
penelitian adalah prediksi harga beras dalam tiga bulan yang akan datang, prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah kecepatan
dinaikkan. Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan untuk prediksi.
d. Klasifikasi Classification
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi,
pendapatan sedang
dan pendapatan
rendah. Contoh lain klasifikasi dalam bisnis dan penelitian adalah menentukan apakah suatu
transaksi kartu kredit merupakan transaksi yang curang atau bukan, memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik
atau buruk, dan mendiagnosis penyakit seorang pasien untuk mendapatkan kategori penyakit apa.
e. Pengklusteran Clustering
Pengklusteran merupakan
pengelompokan record
, pengamatan
atau memperhatikan dan membentuk kelas objek
– objek yang memiliki kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang
lainnya dan memiliki ketidakmiripan dengan record – record dalam cluster lain.
Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam Pengklusteran. Pengklusteran tidak mencoba untuk melakukan klasifikasi,
mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma Pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data
menjadi kelompok-kelompok yang memiliki kemiripan homogen, yang mana kemiripan record dalam satu kelompok akan bernilai maksimal, sedangkan
kemiripan dengan record dalam kelompok lain akan bernilai minimal. Contoh Pengklusteran dalam bisnis dan penelitian adalah melakukan Pengklusteran
terhadap ekspresi dari gen, untuk mendapatkan kemiripan perilaku dari gen dalam jumlah besar. Mendapatkan kelompok
– kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran
yang besar, dan untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap perilaku finansial dalam keadaan baik atau mencurigakan.
f. Asosiasi Assosiation
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.
Contoh asosiasi dalam bisnis dan penelitian adalah menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli
secara bersamaan, dan meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respons posistif terhadap penawaran
upgrade layanan yang diberikan. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2.1.5 Clustering
Clustering data dapat dibedakan menjadi dua tujuan Tan et al,2006, yaitu clustering untuk pemahaman dan clustering untuk penggunaan. Jika tujuan untuk
pemahaman maka cluster yang terbentuk harus menangkap struktur alami data. Biasanya proses clustering dalam tujuan ini hanya sebagai proses awal untuk kemudian
dilanjutkan dengan pekerjaan ini seperti summarization rata-rata, standar deviasi, pelabelan kelas pada setiap kelompok untuk kemudian digunakan sebagai data latih
klasifikasi, dan sebagainya. Sementara jika tujuannya untuk penggunaan, biasanya tujuan utama untuk mencari prototype cluster yang paling representative terhadap data
dan memberikan abstraksi dan setiap objek data dalam cluster di mana sebuah data terletak didalamnya.
Banyak metode clustering yang sudah dikembangkan oleh para ahli. Masing –
masing metode mempunyai karakter, kelebihan, dan kekurangan. Clustering dapat dibedakan menurut stuktur cluster, keanggotaan data dalam cluster dan kekompakan
data dalam cluster. Metode clustering menurut strukturnya dibagi menjadi dua yaitu pengelompokan
hirarki dan partitioning. Pengelompokan hirarki memiliki aturan satu data tunggal bisa dianggap sebagai sebuah kelompok, dua atau lebih kelompok kecil dapat bergabung
menjadi satu kelompok besar dan begitu seterusnya hingga semua data dapat bergabung menjadi satu kelompok. Metode clustering hirarki merupakan satu-satunya metode yang
masuk ke dalam kategori pengelompokan hirarki. Metode clustering partitioning membagi set data ke dalam sejumlah kelompok yang tidak tumpang tindih overlap
antara satu kelompok dengan kelompok yang lain artinya setiap data hanya menjadi anggota satu kelompok. Metode seperti K-Means dan DBSCAN masuk dalam kategori
pengelompokan partitioning. Metode clustering menurut keanggotaan dalam kelompok dibagi menjadi dua, yaitu
eksklusif dan tumpang-tindih. Metode tersebut termasuk kategori eksklusif jika sebuah data hanya menjadi anggota satu kelompok dan tidak menjadi anggota kelompok yang
lain. Metode clustering yang masuk dalam kategori ini adalah K-Means dan DBSCAN sedangkan yang masuk kategori tumpang
– tindih adalah Metode clustering yang PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
membolehkan sebuah data menjadi anggota di lebih dari satu kelompok, misalnya Fuzzy C-Means.
Metode clustering menurut kategori kekompakan terbagi menjadi dua yaitu komplet dan parsial. Semua data bisa dikatakan kompak menjadi satu kelompok jika
semua data bisa bergabung menjadi satu dalam konteks penyekatan namun jika ada sedikit data yang tidak ikut bergabung dalam kelompok mayoritas data tersebut
dikatakan mempunyai perilaku menyimpang. Data yang menyimpang ini dikenal dengan sebutan noise. Metode yang tangguh untuk mendeteksi noise ini adalah
DBSCAN Eko Prasetyo, 2014.
2.2 Teorema K-Means 2.2.1 Clustering K-Means