Data Mining LANDASAN TEORI

Beberapa faktor yang mempengaruhi produksi kelapa sawit menurut Septianita 2009 yaitu luas produksi, tenaga kerja, bibit, pupuk urea dan herbisida. Dari penelitian tersebut diketahui bahwa luas produksi berpengaruh secara signifikan terhadap produksi terlihat bahwa tingkat penggunaan lahan pada usaha tani kelapa sawit menunjukkan adanya penambahan faktor tersebut terhadap peningkatan faktor produksi. Faktor lain seperti tenaga kerja juga berpengaruh terhadap produksi namun tidak signifikan karena faktor produksi sudah maksimal jika ditambah satu persen maka hanya akan menurunkan tingkat produksi.

2.2. Data Mining

Data mining merupakan proses kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan pola atau hubungan dalam set data berukuran besar. Pengenalan pola merupakan bagian dari data mining. Pengenalan pola melakukan pengelompokkan objek ke berbagai kelas dan dari data tersebut dapat diketahui kecendrungan pola. Pengenalan pola mengacu kepada kasus klasifikasi dan regresi Santosa, 2007. Tugas utama dari data mining dibagi menjadi dua yaitu descriptive dan predictive. Descriptive merupakan kemampuan untuk mengidentifikasi keunikan data, pola, trend, hubungan dan anomaly pada data. Descriptive dibagi menjadi asosiasi, segmentasi dan clustering. Predictive merupakan pengembangan model dari beberapa fenomena yang memungkinkan dilakukan estimasi nilai dan prediksi untuk masa depan. Predictive dibagi menjadi klasifikasi dan regresi. Regresi termasuk kepada estimasi dan peramalan atau prediksi Myatt Johnson, 2009. Atribut dibutuhkan untuk proses data mining. Atribut disebut sebagai variabel dan ada juga yang menyebutnya dengan fitur. Variabel-variabel yang akan digunakan, akan dikelompokkan menjadi input dan output. Format data akan dinyatakan dalam bentuk matrik dimana baris menyatakan objek atau observasi dan kolom dinyatakan variabel Santosa, 2007. Metode dalam data mining untuk memproses data-data yang ada dibagi menjadi dua pendekatan yaitu supervised dan unsupervised. Supervised learning merupakan pembelajaran yang terawasi, sehingga membutuhkan data untuk pelatihan Universitas Sumatera Utara dan pengujian. Unsupervised learning merupakan pembelajaran yang tidak terawasi sehingga metode yang diterapkan tanpa ada proses pelatihan. 2.2.1 Data Cleaning Menurut Myatt dan Johnson 2009 sebelum memproses data diperlukan cleaning data pada data tabel untuk mengidentifikasi data. Tujuannya adalah untuk menghindari data error, tidak ada entri data dan data yang hilang. Nilai pada data sering hilang pada tabel data, tetapi pendekatan data mining tidak dapat diproses sampai kasus ini diselesaikan. Ada lima pilihan untuk melakukan cleaning data yaitu menghapus data yang memiliki nilai kosong pada tabel data, menghapus variabel yang memiliki data kosong pada tabel data, mengganti nilai data dengan nilai komputasi, mengganti nilai data dengan nilai secara prediksi pada model yang umum menggunakan field yang lain pada data tabel. Situasi yang sama jika terjadi hilang data ketika variabel yang dimaksudkan diperlakukan sebagai variabel angka berisi nilai teks, atau angka spesifik yang memiliki arti khusus. Teks atau angka spesifik kemungkinan akan dijadikan nilai angka untuk menggantikan teks dan angka spesifik. Masalah lain muncul ketika nilai dengan data tabel salah. Nilai mungkin menjadi salah sebagai hasil dari data entri yang error. Keluaran pada data mungkin error dan dapat ditemukan menggunakan metode yang berbeda berdasarkan variabel, sebagai contohnya menghitung nilai score a-z untuk nilai masing-masing yang merepresentasikan nilai standar deviasi dari nilai mean. Ploting data menggunakan box plot atau frekuensi histogram dapat mengidentifikasi nilai data yang signifikan dari nilai mean. Variabel noise yang berisi sudut error digantikan variabel dengan versi biner yang lebih merepresentasikan secara akurat variasi data yang mungkin dibutuhkan, proses ini disebut data smoothing. Metode yang lainnya, seperti visualisasi data, clustering, dan model regresi dapat juga digunakan untuk mengidentifikasi anomali data yang terlihat tidak sama dengan data lainnya atau yang tidak cocok dengan data trend untuk data mayoritas. Universitas Sumatera Utara 2.2.2 Data Selecting Data selecting dilakukan untuk memilih variabel data yang akan digunakan dan membagi data menjadi data latih dan data uji. Menurut Kaastra dan Boyd 1996 ada dua tipe pemilihan variabel yaitu teknikal input dan fundamental input. Teknikal input adalah penetapan nilai variabel yang berpengaruh atau indikator perhitungan dari nilai yang lalu, sedangkan fundamental input adalah penetapan variabel ekonomis yang dipercaya mempengaruhi variabel output dan mungkin membantu peningkatan prediksi. Pembagian data dalam data mining menurut Kaastra dan Boyd 1996 dibagi menjadi tiga yaitu a. Training data data latih Data latih terdiri dari data set yang banyak. Biasanya digunakan oleh jaringan saraf untuk melakukan pengenalan pola. b. Testing data data uji Data uji berjumlah 10-30 data dari training set. Data Uji digunakan untuk mengevaluasi kemampuan jaringan saraf setelah dilatih. c. Validation data data validasi Data validasi digunakan untuk pengecekan akhir kemampuan jaringan saraf yang telah dilatih. 2.2.3 Tranformasi Data Transformasi data dibutuhkan untuk membuat variabel baru dari kolom data yang sudah ada untuk merefleksikan lebih dekat tujuan dari projek atau pendekatan kualitas prediksi. Sebuah data ditransformasi agar dapat digunakan untuk beberapa analisis teknik terutama pada bidang analisis data. Transformasi data digunakan untuk mengatur nilai yang diukur pada suatu skala menjadi nilai yang lebih kecil sehingga seluruh atribut data memiliki jangkauan yang lebih kecil dalam jangkauan nilai 0 sampai 1 Siang, 2012. Ada beberapa rumusan transformasi data yang dapat digunakan menurut Siang 2012 seperti berikut ini. Universitas Sumatera Utara 1. Transformasi polinomial ′ = ln 2.1 Dengan, ′ = nilai data setelah transformasi polynomial = nilai data pada data aktual 2. Transformasi normal ′ = − �� − 2.2 Dengan, ′ = nilai data setelah transformasi normal = nilai data pada data aktual = nilai minimum pada data aktual = nilai maksimum pada data aktual 3. Transformasi linear Transformasi nilai data pada interval [0.1,0.9] ′ = . − − + . 2.3 Dengan, ′ = nilai data setelah transformasi linear = nilai data pada data aktual = nilai minimum data aktual = nilai maksimum data aktual 2.2.4 Peramalan Peramalan adalah suatu kegiatan bisnis yang memperkirakan penjualan, penggunaan suatu produk sehingga produk tersebut dapat dibuat dalam kuantitas yang tepat Gaspersz, 2010. Dugaan terhadap permintaan yang akan datang berdasarkan pada beberapa variabel peramalan berdasarkan data masa lalu. Universitas Sumatera Utara Menurut Gaspersz 2010, langkah-langkah yang harus dilakukan dalam menjamin efisiensi untuk melakukan peramalan. Langkah-langkah tersebut adalah sebagai berikut. 1. Menentukan tujuan peramalan 2. Memilih item yang akan diramalkan 3. Menentukan rentang waktu peramalan 4. Memilih model peramalan 5. Mengumpulkan dan menganalisis data 6. Validasi model peramalan 7. Membuat peramalan 8. Implementasi hasil peramalan 9. Memantau keandalan hasil peramalan Peramalan dilakukan berdasarkan jangka waktu yang diperlukan. Peramalan ini dilakukan untuk mengambil keputusan sehingga peramalan ini menghasilkan suatu kemungkinan keadaan yang akan terjadi. Berdasarkan horison waktu, peramalan dapat dikelompokkan dalam tiga bagian Herjanto, 2006, yaitu: 1. Peramalan jangka pendek, jangka waktu kurang dari tiga bulan. Misalnya, peramalan yang berhubungan dengan perencanaan pembelian material, penjadwalan kerja dan penugasan karyawan. 2. Peramalan jangka menengah, mencakup waktu antara 3 bulan sampai 18 bulan. Misalnya, peramalan perencanaan penjualan, perencanaan produksi dan perencanaan tenaga kerja tidak tetap. 3. Peramalan jangka panjang, mencakup waktu yang lebih besar dari 18 bulan. Misalnya peramalan yang diperlukan dalam kaitannya dengan penanaman modal, perencanaan fasilitas dan perencanaan kegiatan litbang. Pengumpulan data yang relevan berupa informasi yang dapat menghasilkan peramalan yang akurat. Pemilihan teknik peramalan yang tepat akan memanfaatkan informasi data yang diperoleh secara maksimal. Menurut Jumingan 2009 teknik peramalan berdasarkan sifatnya dapat dibedakan menjadi dua yaitu: Universitas Sumatera Utara 1. Teknik peramalan kualitatif Teknik kualitatif merupakan teknik peramalan yang bersifat subjektif berdasarkan pendapat dari suatu pihak atau berdasarkan hasil penelitian questioner yang telah dilakukan. Data pada teknik ini tidak dapat direpresentasikan secara tegas ke dalam suatu angka atau nilai. 2. Teknik peramalan kuantitatif Teknik kuantitatif merupakan teknik peramalan berdasarkan data masa lalu atau data historis dan dapat dibuat dalam bentuk angka. Dalam peramalan dikenal istilah prediksi. Prediksi merupakan suatu usaha untuk meramalkan keadaan di masa mendatang melalui pengujian keadaan di masa lalu Rambe, 2002. Data historis diolah secara sistematik dan digabungkan dengan suatu metode tertentu akan memperoleh prediksi keadaan pada masa datang. Prediksi ini menggunakan data kuantitatif sebagai pelengkap informasi melakukan peramalan Herjanto, 2006. Peramalan menurut Heizer 2005 dapat dikelompokkan berdasarkan sumber peramalannya sebagai berikut. 1. Model data time series atau runtun waktu Model data time series merupakan suatu jenis peramalan secara kuantitatif. Model ini sering disebut model kuantitatif intrinsik. Tujuannya adalah menemukan pola dalam deret data historis dan mengekstrapolasikan pola dalam deret data tersebut ke pola data masa depan. 2. Model data causal Model data causal merupakan suatu jenis peralaman yang menggunakan hubungan sebab-akibat sebagai asumsi dari apa yang terjadi di masa lalu akan terulang kembali. Model ini disebut dengan peramalan kuantitatif ekstrasik, sesuai digunakan untuk pengambilan keputusan dan kebijakan. 3. Model data judgemental Model data judgemental merupakan suatu jenis peramalan yang mencakup untuk memasukkan faktor-faktor kualitatif atau subjektif ke dalam metode peramalan. Universitas Sumatera Utara Model data time series dan causal digunakan sebagai metode peramalan kuantitatif. Pada umumnya metode peramalan causal meliputi faktor-faktor yang berhubungan dengan variabel yang diprediksi seperti analisi regresi sedangkan metode peramalan time series menggunakan data masa lalu yang telah dikumpulkan untuk dianalisis secara teratur dengan menggunakan teknik yang tepat Sani, 2013. Hasilnya dapat dijadikan acuan untuk peramalan nilai di masa yang akan datang. Peramalan harus mendasarkan analisisnya pada pola data yang ada. Empat pola data yang lazim ditemui dalam peramalannya adalah sebagai berikut Aryanto, 2012. 1. Pola data horizontal Pola ini terjadi bila data berfluktuasi di sekitar rata-ratanya. Produk yang penjualannya tidak meningkat atau menurun selama waktu tertentu termasuk jenis ini. Struktur datanya dapat digambarkan sebagai berikut ini. Gambar 2.1 Pola Data Horizontal 2. Pola data musiman Pola musiman terjadi bila nilai data dipengaruhi oleh faktor musiman misalnya kuartal tahun tertentu, bulanan atau hari-hari pada minggu tertentu. Struktur datanya dapat digambarkan sebagai berikut ini. Gambar 2.2 Pola Data Musiman Jumlah Data Waktu Jumlah Data Waktu Universitas Sumatera Utara 3. Pola data siklis Pola ini terjadi bila data dipengaruhi oleh fluktuasi ekonomi jangka panjang seperti yang berhubungan dengan siklus bisnis. Struktur datanya dapat digambarkan sebagai berikut. Gambar 2.3 Pola Data Siklis 4. Pola data trend Pola trend terjadi bila ada kenaikan atau penurunan sekuler jangka panjang dalam data. Struktur datanya dapat digambarkan sebagai berikut. Gambar 2.4 Pola Data Trend

2.3. Jaringan Saraf Tiruan