Rumusan Masalah Tujuan Penelitian Manfaat Penelitian Batasan Masalah Metode Penelitian Data mining .1 Pengertian Data mining Dalam Berbagai Disiplin Ilmu

Di sisi lain, keragaman karakteristik lahan, agroklimat serta sebaran wilayah yang luas memungkinkan wilayah Indonesia digunakan untuk pengembangan hortikultura tropis dan sub tropis. Indonesia merupakan salah satu negara penghasil buah tropis yang memiliki keanekaragaman dan keunggulan cita rasa yang cukup baik bila dibandingkan dengan buah- buahan dari negara-negara penghasil buah tropis lainnya. Produksi buah dalam negeri diharapkan dapat memenuhi semua kebutuhan masyarakat. Karena dengan berhasilnya produksi buah berarti pemerintah tidak memerlukan tindakan untuk menimpor buah dari negara lain. Akan tetapi dalam kenyataannya, Indonesia dalam pemenuhan kebutuhan akan buah masih tergantung pada impor dari Negara lain. Produksi buah dari tahun ke tahun mengalami penurunan. Penurunan produksi buah tersebut antara lain disebabkan karena menipisnya stok di beberapa daerah karena belum memasuki masa panen atau juga dikarenakan impor buah yag dilakukan oleh pemerintah untuk memenuhi kebutuhan belum teralisasi. Produksi buah di Indonesia dari tahun ke tahun mengalami penurunan. Untuk itu dalam rangka memenuhi kebutuhan buah, peran dinas pertanian untuk mengelompokan daerah yang menghasilkan produksi buah di daerah Indonesia khususnya Provinsi Daerah Istimewa Yogyakarta agar dapat mengoptimalkan produksi buah, tidak semata mengutamakan keuntungan pribadi tetapi mendukung peningkatan nilai tambah produk dan peningkatan pendapatan petani. Pengelompokan tersebut dapat menggunakan metode pengelompokan dengan algoritma K-Means. Dengan data yang sudah dikelompokkan menggunakan algoritma K- Means diharapkan dapat mempermudah dinas pertanian dalam menghitung hasil pertanian di tiap daerahnya agar mengetahuni daerah mana yang menghasilkan buah terbanyak, sedang, dan sedikit.

1.2 Rumusan Masalah

Berdasarkan latar belakang yang ada dapat dirumuskan masalah yaitu : untuk mengetahui daerah yang menghasilkan produksi buah yang banyak di Provinsi Daerah Istimewa Yogyakarta dengan metode K-Means clustering .

1.3 Tujuan Penelitian

Tujuan dari penelitian ini adalah mengetahui daerah potensial penghasil buah dan dapat mengetahui daerah tersebut cocok untuk tanaman padi. Pengelompokan tersebut dapat menggunakan metode pengelompokan dengan algoritma K-Means.

1.4 Manfaat Penelitian

Berdasarkan tujuan penelitian diatas, manfaat yang dapat diberikan adalah diharapkan dapat membantu pihak Dinas Pertanian dalam memudahkan mengelompokan daerah potensial untuk produksi buah di Provinsi Daerah Istimewa Yogyakarta.

1.5 Batasan Masalah

Dalam batasan masalah ini, penulis membatasi permasalah yang perlu yaitu : 1. Data yang akan digunakan adalah data produksi buah - buahan dan jumlah pohon selama lima tahun dari tahun 2005 sampai 2009. 2. Data yang digunakan dalam proses pengelompokan adalah data data produksi buah - buahan dan jumlah pohon menurut Kabupaten di Provinsi Daerah Istimewa Yogyakarta. 3. Data produksi buah meliputi alpokat, mangga, rambutan, duku, jeruk, sirsak, sukun, belimbing, durian, jambu biji, manggis, sawo, pepaya, pisang, nenas, salak, nangka, dan semangka.

1.6 Metode Penelitian

Metode penelitian pada penyusunan penulisan ini, adalah : 1. Studi literatur dengan tujuan : a. Mempelajari dan memahami K-Means clustering dalam data mining. b. Mengetahui data produksi buah beberapa kabupaten. 2. Pengumpulan data melalui Dinas Pertanian Provinsi Daerah Istimewa Yogyakarta. 3. Implementasi algoritma ke dalam sistem. 4. Mengelompokan daerah produksi. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

1.7 Sistematika Penulisan Bab I. Pendahuluan

Dalam bab ini tentang latar belakang masalah, rumusan masalah, tujuan penelitian, batasan masalah, dan sistematika penulisan.

Bab II. Landasan Teori

Dalam bab ini berisi tentang teori yang dapat menunjang peneitian, yaitu berupa pengertian data mining, proses data mining, dan algoritma K-Means.

Bab III. Analisa dan Perancangan Sistem

Dalam bab ini berisi tentang cara penerapan konsep dasar yang telah diuraikan pada Bab II untuk menganalisis dan merancang tentang system sesuai tahap – tahap penyelesaian masalah tersebut dengan menggunakan algoritma K-Means.

Bab IV. Implementasi dan Analisa Sistem

Dalam bab ini berisi tentang implementasi ke program computer beradasarkan hasil perancangan yang dibuat, analisis perangkat lunak yang telah dibuat.

Bab V. Penutup

Dalam bab ini berisi tentang kesimpulan dan saran dari seluruh penulisan tugas akhir. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 5 BAB II LANDASAN TEORI Pada Bab II ini akan dipaparkan mengenai landasan teori yang medukung penelitian yang dilakukan oleh penulis. Dalam Bab ini akan dijelaskan pengertian dan metode yang akan digunakan oleh penulis. 2.1 Data mining 2.1.1 Pengertian Data mining Dalam Berbagai Disiplin Ilmu Data mining adalah sebuah proses percarian secara otomatis informasi yang berguna dalam tempat penyimpanan data berukuran besar. Istilah lain yang sering digunakan diantaranya knowledge discovery mining in databases KDD, knowledge extraction, data atau pattern analysis, data archeology, data dredging, information harvesting, dan business intelligence. Teknik data mining digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna. Tidak semua pekerjaan pencarian informasi dinyatakan sebagai data mining. Sebagai contoh, pencarian record individual menggunakan database management system atau pencarian halaman we tertentu melalui kueri ke semua search engine adalah pekerjaan pencarian informasi yang erat kaitannya dengan information retrieval. Teknik-teknik data mining dapat digunakan untuk meningkatkan kemampuan sistem-sistem information retrieval. Data mining adalah adalah bagian integral dari knowledge discovery in databases KDD. sebuah langkah dalam proses mencari pola-pola yang terdapat dalam setiap informasi. Langkah-langkah tersebut akan dijelaskan pada gambar 2.1 Han, 2011, p6. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Database Flat File Data Warehouse Patterns Knowledge Cleaning and Integration Selection and Transformation Data mining Evaluation and Presentation Gambar 2. 1 Tahap penemuan Knowledge pada Data mining KDD Han, Jiawei 2011 Gambar 2.1 menggambarkan proses KDD dalam menghasilkan knowledge dan terdiri dari beberapa tahap: a. Data Cleaning Untuk menghapus data yang tidak dipakai dan data yang tidak konsisten. b. Data Integration Berbagai sumber data dapat digabungkan. c. Data Selection Data yang bersangkutan pada tugas analisis diseleksi dan diambil kembali dari database. d. Data Transformation Data diubah atau diperkuat menjadi bentuk yang seharusnya untuk diolah dengan menganalisis ringkasan atau jumlah total agregasi. e. Data mining Sebuah proses penting di mana metode intelijen diterapkan dengan tujuan untuk megolah pola-pola data. f. Pattern Evaluation Untuk mengidentifikasi pola-pola menarik yang menjelaskan mengenai ukuran dasar pengetahunan yang ada. g. Knowledge Presentation Visualisasi dan teknik representasi knowledge digunakan untuk menyajikan knowledge yang telah diolah untuk pengguna.

2.1.2 Posisi Data mining Dalam Berbagai Disiplin Ilmu

Para ahli berusaha menetukan posisi bidang data mining di antara bidang-bidang yang lain. Hal dikarenakan ada kesamaan antara sebagian bahasan data mining dengan bahasan di bidang lain. Memang tidak seratus persen sama, tetapi ada sejumlah kesamaan karakteristik dalam beberapa hal. Kesamaan bidang data mining dalam bidang statistik adalah penyampelan, estimasi, dan pengujian hipotesis.

2.1.3 Data, Informasi, dan Pengetahunan Knowledge

Data adalah segala fakta, angka, atau teks yang dapat diproses oleh komputer. Saat ini, akumulasi pertumbuhan jumlah data berjalan dengan cepat dalam format dan basis data yang berbeda. Data-data tersebut antara lain, adalah : a. Data operasional atau transaksional. Contoh : penjualan, inventaris, penggajian, akuntansi, dll. b. Data non operasional. Contoh : Indusri penjualan, inventaris, permalan, dan data ekonomi makro. c. Meta data adalah mengenai data itu sendiri, seperti desain logikabasis data.\

2.1.4 Pengelompokan Data mining

Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu Larose, 2005 : a. Deskripsi Description Terkadang penelitian analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan. b. Estimasi Estimation Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilan model estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya. c. Prediksi Prediction Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa datang. Contoh prediksi dalam bisnis dan penelitian adalah prediksi harga beras dalam tiga bulan yang akan datang, prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah kecepatan dinaikkan. Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan untuk prediksi. d. Klasifikasi Classification Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang dan pendapatan rendah. Contoh lain klasifikasi dalam bisnis dan penelitian adalah menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan, memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik atau buruk, dan mendiagnosis penyakit seorang pasien untuk mendapatkan kategori penyakit apa. e. Pengklusteran Clustering Pengklusteran merupakan pengelompokan record , pengamatan atau memperhatikan dan membentuk kelas objek – objek yang memiliki kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan dengan record – record dalam cluster lain. Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam Pengklusteran. Pengklusteran tidak mencoba untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma Pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan homogen, yang mana kemiripan record dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal. Contoh Pengklusteran dalam bisnis dan penelitian adalah melakukan Pengklusteran terhadap ekspresi dari gen, untuk mendapatkan kemiripan perilaku dari gen dalam jumlah besar. Mendapatkan kelompok – kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar, dan untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap perilaku finansial dalam keadaan baik atau mencurigakan. f. Asosiasi Assosiation Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja. Contoh asosiasi dalam bisnis dan penelitian adalah menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli secara bersamaan, dan meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respons posistif terhadap penawaran upgrade layanan yang diberikan. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.1.5 Clustering

Clustering data dapat dibedakan menjadi dua tujuan Tan et al,2006, yaitu clustering untuk pemahaman dan clustering untuk penggunaan. Jika tujuan untuk pemahaman maka cluster yang terbentuk harus menangkap struktur alami data. Biasanya proses clustering dalam tujuan ini hanya sebagai proses awal untuk kemudian dilanjutkan dengan pekerjaan ini seperti summarization rata-rata, standar deviasi, pelabelan kelas pada setiap kelompok untuk kemudian digunakan sebagai data latih klasifikasi, dan sebagainya. Sementara jika tujuannya untuk penggunaan, biasanya tujuan utama untuk mencari prototype cluster yang paling representative terhadap data dan memberikan abstraksi dan setiap objek data dalam cluster di mana sebuah data terletak didalamnya. Banyak metode clustering yang sudah dikembangkan oleh para ahli. Masing – masing metode mempunyai karakter, kelebihan, dan kekurangan. Clustering dapat dibedakan menurut stuktur cluster, keanggotaan data dalam cluster dan kekompakan data dalam cluster. Metode clustering menurut strukturnya dibagi menjadi dua yaitu pengelompokan hirarki dan partitioning. Pengelompokan hirarki memiliki aturan satu data tunggal bisa dianggap sebagai sebuah kelompok, dua atau lebih kelompok kecil dapat bergabung menjadi satu kelompok besar dan begitu seterusnya hingga semua data dapat bergabung menjadi satu kelompok. Metode clustering hirarki merupakan satu-satunya metode yang masuk ke dalam kategori pengelompokan hirarki. Metode clustering partitioning membagi set data ke dalam sejumlah kelompok yang tidak tumpang tindih overlap antara satu kelompok dengan kelompok yang lain artinya setiap data hanya menjadi anggota satu kelompok. Metode seperti K-Means dan DBSCAN masuk dalam kategori pengelompokan partitioning. Metode clustering menurut keanggotaan dalam kelompok dibagi menjadi dua, yaitu eksklusif dan tumpang-tindih. Metode tersebut termasuk kategori eksklusif jika sebuah data hanya menjadi anggota satu kelompok dan tidak menjadi anggota kelompok yang lain. Metode clustering yang masuk dalam kategori ini adalah K-Means dan DBSCAN sedangkan yang masuk kategori tumpang – tindih adalah Metode clustering yang PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI membolehkan sebuah data menjadi anggota di lebih dari satu kelompok, misalnya Fuzzy C-Means. Metode clustering menurut kategori kekompakan terbagi menjadi dua yaitu komplet dan parsial. Semua data bisa dikatakan kompak menjadi satu kelompok jika semua data bisa bergabung menjadi satu dalam konteks penyekatan namun jika ada sedikit data yang tidak ikut bergabung dalam kelompok mayoritas data tersebut dikatakan mempunyai perilaku menyimpang. Data yang menyimpang ini dikenal dengan sebutan noise. Metode yang tangguh untuk mendeteksi noise ini adalah DBSCAN Eko Prasetyo, 2014. 2.2 Teorema K-Means 2.2.1 Clustering K-Means