Di sisi lain, keragaman karakteristik lahan, agroklimat serta sebaran wilayah yang luas memungkinkan wilayah Indonesia digunakan untuk pengembangan hortikultura tropis dan
sub tropis. Indonesia merupakan salah satu negara penghasil buah tropis yang memiliki
keanekaragaman dan keunggulan cita rasa yang cukup baik bila dibandingkan dengan buah- buahan dari negara-negara penghasil buah tropis lainnya. Produksi buah dalam negeri
diharapkan dapat memenuhi semua kebutuhan masyarakat. Karena dengan berhasilnya produksi buah berarti pemerintah tidak memerlukan tindakan untuk menimpor buah dari
negara lain. Akan tetapi dalam kenyataannya, Indonesia dalam pemenuhan kebutuhan akan buah masih tergantung pada impor dari Negara lain. Produksi buah dari tahun ke tahun
mengalami penurunan. Penurunan produksi buah tersebut antara lain disebabkan karena menipisnya stok di
beberapa daerah karena belum memasuki masa panen atau juga dikarenakan impor buah yag dilakukan oleh pemerintah untuk memenuhi kebutuhan belum teralisasi.
Produksi buah di Indonesia dari tahun ke tahun mengalami penurunan. Untuk itu dalam rangka memenuhi kebutuhan buah, peran dinas pertanian untuk mengelompokan daerah
yang menghasilkan produksi buah di daerah Indonesia khususnya Provinsi Daerah Istimewa Yogyakarta agar dapat mengoptimalkan produksi buah, tidak semata mengutamakan
keuntungan pribadi tetapi mendukung peningkatan nilai tambah produk dan peningkatan pendapatan petani.
Pengelompokan
tersebut dapat menggunakan metode
pengelompokan
dengan algoritma
K-Means
. Dengan data yang sudah dikelompokkan menggunakan algoritma
K- Means
diharapkan dapat mempermudah dinas pertanian dalam menghitung hasil pertanian di tiap daerahnya agar mengetahuni daerah mana yang menghasilkan buah terbanyak, sedang,
dan sedikit.
1.2 Rumusan Masalah
Berdasarkan latar belakang yang ada dapat dirumuskan masalah yaitu : untuk mengetahui daerah yang menghasilkan produksi buah yang banyak di Provinsi Daerah Istimewa
Yogyakarta dengan metode
K-Means clustering
.
1.3 Tujuan Penelitian
Tujuan dari penelitian ini adalah mengetahui daerah potensial penghasil buah dan dapat mengetahui daerah tersebut cocok untuk tanaman padi.
Pengelompokan
tersebut dapat menggunakan metode
pengelompokan
dengan algoritma
K-Means
.
1.4 Manfaat Penelitian
Berdasarkan tujuan penelitian diatas, manfaat yang dapat diberikan adalah diharapkan dapat membantu pihak Dinas Pertanian dalam memudahkan mengelompokan daerah
potensial untuk produksi buah di Provinsi Daerah Istimewa Yogyakarta.
1.5 Batasan Masalah
Dalam batasan masalah ini, penulis membatasi permasalah yang perlu yaitu : 1.
Data yang akan digunakan adalah data produksi buah - buahan dan jumlah pohon selama lima tahun dari tahun 2005 sampai 2009.
2. Data yang digunakan dalam proses pengelompokan adalah data data produksi buah -
buahan dan jumlah pohon menurut Kabupaten di Provinsi Daerah Istimewa Yogyakarta.
3. Data produksi buah meliputi alpokat, mangga, rambutan, duku, jeruk, sirsak, sukun,
belimbing, durian, jambu biji, manggis, sawo, pepaya, pisang, nenas, salak, nangka, dan semangka.
1.6 Metode Penelitian
Metode penelitian pada penyusunan penulisan ini, adalah : 1.
Studi literatur dengan tujuan : a.
Mempelajari dan memahami
K-Means clustering
dalam
data mining
. b.
Mengetahui data produksi buah beberapa kabupaten. 2.
Pengumpulan data melalui Dinas Pertanian Provinsi Daerah Istimewa Yogyakarta. 3.
Implementasi algoritma ke dalam sistem. 4.
Mengelompokan daerah produksi. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1.7 Sistematika Penulisan Bab I. Pendahuluan
Dalam bab ini tentang latar belakang masalah, rumusan masalah, tujuan penelitian, batasan masalah, dan sistematika penulisan.
Bab II. Landasan Teori
Dalam bab ini berisi tentang teori yang dapat menunjang peneitian, yaitu berupa pengertian
data mining
, proses
data mining
, dan algoritma
K-Means.
Bab III. Analisa dan Perancangan Sistem
Dalam bab ini berisi tentang cara penerapan konsep dasar yang telah diuraikan pada Bab II untuk menganalisis dan merancang tentang system sesuai tahap
– tahap penyelesaian masalah tersebut dengan menggunakan algoritma
K-Means.
Bab IV. Implementasi dan Analisa Sistem
Dalam bab ini berisi tentang implementasi ke program computer beradasarkan hasil perancangan yang dibuat, analisis perangkat lunak yang telah dibuat.
Bab V. Penutup
Dalam bab ini berisi tentang kesimpulan dan saran dari seluruh penulisan tugas akhir. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
BAB II LANDASAN TEORI
Pada Bab II ini akan dipaparkan mengenai landasan teori yang medukung penelitian yang dilakukan oleh penulis. Dalam Bab ini akan dijelaskan pengertian dan metode yang akan
digunakan oleh penulis.
2.1 Data mining 2.1.1 Pengertian
Data mining
Dalam Berbagai Disiplin Ilmu
Data mining
adalah sebuah proses percarian secara otomatis informasi yang berguna dalam tempat penyimpanan data berukuran besar. Istilah lain yang sering
digunakan diantaranya
knowledge discovery mining in databases KDD, knowledge extraction, data
atau
pattern analysis, data archeology, data dredging, information harvesting,
dan
business intelligence
. Teknik
data mining
digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna.
Tidak semua pekerjaan pencarian informasi dinyatakan sebagai
data mining
. Sebagai contoh, pencarian
record
individual menggunakan
database management system
atau pencarian halaman we tertentu melalui kueri ke semua search engine adalah pekerjaan
pencarian informasi yang erat kaitannya dengan
information retrieval
. Teknik-teknik
data mining
dapat digunakan untuk meningkatkan kemampuan sistem-sistem
information retrieval
.
Data mining
adalah adalah bagian integral dari
knowledge discovery in databases
KDD. sebuah langkah dalam proses mencari pola-pola yang terdapat dalam setiap informasi. Langkah-langkah tersebut akan dijelaskan pada gambar 2.1 Han, 2011, p6.
Database Flat File
Data Warehouse
Patterns
Knowledge
Cleaning and Integration
Selection and
Transformation Data mining
Evaluation and
Presentation
Gambar 2. 1 Tahap penemuan
Knowledge
pada
Data mining
KDD Han, Jiawei 2011
Gambar 2.1 menggambarkan proses KDD dalam menghasilkan
knowledge
dan terdiri dari beberapa tahap:
a. Data Cleaning
Untuk menghapus data yang tidak dipakai dan data yang tidak konsisten.
b. Data Integration
Berbagai sumber data dapat digabungkan.
c. Data Selection
Data yang bersangkutan pada tugas analisis diseleksi dan diambil kembali dari
database
.
d. Data Transformation
Data diubah atau diperkuat menjadi bentuk yang seharusnya untuk diolah dengan menganalisis ringkasan atau jumlah total agregasi.
e. Data mining
Sebuah proses penting di mana metode intelijen diterapkan dengan tujuan untuk megolah pola-pola data.
f. Pattern Evaluation
Untuk mengidentifikasi pola-pola menarik yang menjelaskan mengenai ukuran dasar pengetahunan yang ada.
g. Knowledge Presentation
Visualisasi dan teknik representasi
knowledge
digunakan untuk menyajikan
knowledge
yang telah diolah untuk pengguna.
2.1.2 Posisi
Data mining
Dalam Berbagai Disiplin Ilmu
Para ahli berusaha menetukan posisi bidang
data mining
di antara bidang-bidang yang lain. Hal dikarenakan ada kesamaan antara sebagian bahasan
data mining
dengan bahasan di bidang lain. Memang tidak seratus persen sama, tetapi ada sejumlah
kesamaan karakteristik dalam beberapa hal. Kesamaan bidang
data mining
dalam bidang statistik adalah penyampelan, estimasi, dan pengujian hipotesis.
2.1.3 Data, Informasi, dan Pengetahunan
Knowledge
Data adalah segala fakta, angka, atau teks yang dapat diproses oleh komputer. Saat ini, akumulasi pertumbuhan jumlah data berjalan dengan cepat dalam format dan basis
data yang berbeda. Data-data tersebut antara lain, adalah : a.
Data operasional atau transaksional. Contoh : penjualan, inventaris, penggajian, akuntansi, dll.
b. Data non operasional. Contoh : Indusri penjualan, inventaris, permalan, dan data
ekonomi makro. c.
Meta data adalah mengenai data itu sendiri, seperti desain logikabasis data.\
2.1.4 Pengelompokan
Data mining
Data mining
dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu Larose, 2005 :
a. Deskripsi
Description
Terkadang penelitian analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai
contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan
kemungkinan penjelasan untuk suatu pola atau kecenderungan.
b. Estimasi
Estimation
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan
record
lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat
berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah
sistolik
pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah. Hubungan antara tekanan
darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilan model estimasi. Model estimasi yang dihasilkan dapat digunakan
untuk kasus baru lainnya.
c. Prediksi
Prediction
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa datang. Contoh prediksi dalam bisnis dan
penelitian adalah prediksi harga beras dalam tiga bulan yang akan datang, prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah kecepatan
dinaikkan. Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan untuk prediksi.
d. Klasifikasi
Classification
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi,
pendapatan sedang
dan pendapatan
rendah. Contoh lain klasifikasi dalam bisnis dan penelitian adalah menentukan apakah suatu
transaksi kartu kredit merupakan transaksi yang curang atau bukan, memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik
atau buruk, dan mendiagnosis penyakit seorang pasien untuk mendapatkan kategori penyakit apa.
e. Pengklusteran
Clustering
Pengklusteran merupakan
pengelompokan
record
, pengamatan
atau memperhatikan dan membentuk kelas objek
– objek yang memiliki kemiripan.
Cluster
adalah kumpulan
record
yang memiliki kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan dengan
record
–
record
dalam
cluster
lain. Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam
Pengklusteran. Pengklusteran tidak mencoba untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma
Pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan homogen, yang mana
kemiripan
record
dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan dengan
record
dalam kelompok lain akan bernilai minimal. Contoh Pengklusteran dalam bisnis dan penelitian adalah melakukan Pengklusteran
terhadap ekspresi dari gen, untuk mendapatkan kemiripan perilaku dari gen dalam jumlah besar. Mendapatkan kelompok
– kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran
yang besar, dan untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap perilaku finansial dalam keadaan baik atau mencurigakan.
f. Asosiasi
Assosiation
Tugas asosiasi dalam
data mining
adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.
Contoh asosiasi dalam bisnis dan penelitian adalah menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli
secara bersamaan, dan meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respons
posistif
terhadap penawaran
upgrade
layanan yang diberikan. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2.1.5 Clustering
Clustering
data dapat dibedakan menjadi dua tujuan Tan
et al,2006
, yaitu
clustering
untuk pemahaman dan
clustering
untuk penggunaan. Jika tujuan untuk pemahaman maka
cluster
yang terbentuk harus menangkap struktur alami data. Biasanya proses
clustering
dalam tujuan ini hanya sebagai proses awal untuk kemudian dilanjutkan dengan pekerjaan ini seperti
summarization
rata-rata, standar deviasi, pelabelan kelas pada setiap kelompok untuk kemudian digunakan sebagai data latih
klasifikasi, dan sebagainya. Sementara jika tujuannya untuk penggunaan, biasanya tujuan utama untuk mencari
prototype cluster
yang paling representative terhadap data dan memberikan abstraksi dan setiap objek data dalam
cluster
di mana sebuah data terletak didalamnya.
Banyak metode
clustering
yang sudah dikembangkan oleh para ahli. Masing –
masing metode mempunyai karakter, kelebihan, dan kekurangan.
Clustering
dapat dibedakan menurut stuktur
cluster
, keanggotaan data dalam
cluster
dan kekompakan data dalam
cluster
. Metode
clustering
menurut strukturnya dibagi menjadi dua yaitu pengelompokan hirarki dan
partitioning
. Pengelompokan hirarki memiliki aturan satu data tunggal bisa dianggap sebagai sebuah kelompok, dua atau lebih kelompok kecil dapat bergabung
menjadi satu kelompok besar dan begitu seterusnya hingga semua data dapat bergabung menjadi satu kelompok. Metode
clustering
hirarki merupakan satu-satunya metode yang masuk ke dalam kategori pengelompokan hirarki. Metode
clustering partitioning
membagi set data ke dalam sejumlah kelompok yang tidak tumpang tindih
overlap
antara satu kelompok dengan kelompok yang lain artinya setiap data hanya menjadi anggota satu kelompok. Metode seperti
K-Means
dan DBSCAN masuk dalam kategori pengelompokan
partitioning
. Metode
clustering
menurut keanggotaan dalam kelompok dibagi menjadi dua, yaitu eksklusif dan tumpang-tindih. Metode tersebut termasuk kategori eksklusif jika sebuah
data hanya menjadi anggota satu kelompok dan tidak menjadi anggota kelompok yang lain. Metode
clustering
yang masuk dalam kategori ini adalah
K-Means
dan DBSCAN sedangkan yang masuk kategori tumpang
– tindih adalah Metode c
lustering
yang PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
membolehkan sebuah data menjadi anggota di lebih dari satu kelompok, misalnya
F uzzy C-Means
. Metode
clustering
menurut kategori kekompakan terbagi menjadi dua yaitu komplet dan parsial. Semua data bisa dikatakan kompak menjadi satu kelompok jika
semua data bisa bergabung menjadi satu dalam konteks penyekatan namun jika ada sedikit data yang tidak ikut bergabung dalam kelompok mayoritas data tersebut
dikatakan mempunyai perilaku menyimpang. Data yang menyimpang ini dikenal dengan sebutan
noise
. Metode yang tangguh untuk mendeteksi
noise
ini adalah DBSCAN Eko Prasetyo, 2014.
2.2 Teorema