Kesimpulan Saran Data Mining

BAB 5 KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan hasil pengujian yang telah dilakukan maka dapat diperoleh kesimpulan sebagai berikut : 1. Apabila semakin kecil nilai nilai minimum support atau minimum confidence yang diberikan maka waktu proses yang dibutuhkan lebih lama, demikian sebaliknya apabila diberikan nilai yang lebih besar. 2. Dari hasil perbandingan pengujian antara algoritma apriori dan algoritma ct-pro dapat diperoleh kesimpulan bahwa algoritma ct-pro memiliki waktu proses yang lebih singkat dibandingkan algoritma apriori. 3. Berdasarkan pengujian yang telah dilakukan dan dimisalkan bila nilai support 5 dan nilai confidence 50 pada kegiatan ekspor maka dapat diperoleh kesimpulan bahwa komoditas Kayu Karet merupakan salah satu komoditas ekspor yang memiliki frekuensi tertinggi sebesar 70,58 dengan negara tujuan ekspor terbesarnya adalah Malaysia. Maka, berdasarkan hal tersebut dapat membantu instansi dalam mengetahui jenis-jenis komoditas unggulan dan juga dapat membantu instansi apabila ingin membuat laporan tahunan.

5.2 Saran

Penelitian yang dilakukan masih jauh dari kata sempurna, oleh karena itu penulis mengharapkan saran dari segala pihak untuk memperoleh kesempurnaan. Berdasarkan penelitian, saran yang dapat penulis sampaikan yaitu : 1. Dapat membuat sistem perbandingan yang lebih baik dan dapat membuat grafik secara langsung dari hasil yang diperoleh. 2. Dapat melakukan perbandingan metode assosiation rule yang lebih efisien dibandingkan sebelumnya. Universitas Sumatera Utara

BAB 2 TINJAUAN PUSTAKA

Pada tinjauan pustaka ini membahas tentang landasan teori yang medukung pembahasan yang berhubungan dengan sistem yang akan dibuat.

2.1 Data Mining

Data mining adalah kegiatan menemukan pola yang menarik dari data dalam jumlah besar dimana data tersebut dapat disimpan dalam bentuk database, data warehouse, atau penyimpanan informasi lainnya. Data mining berkaitan dengan bidang ilmu– ilmu lain, seperti database system, data warehousing, statistik, machine learning, information retrieval, dan komputasi tingkat tinggi. Selain itu, data mining didukung oleh ilmu lain seperti neural network, pengenalan pola, spatial data analysis, image database, signal processing Han,et al., 2006. Data mining adalah proses menganalisa data dari perspektif yang berbeda dan menyimpulkannya menjadi informasi-informasi penting yang dapat dipakai untuk meningkatkan keuntungan, memperkecil biaya pengeluaran, atau bahkan keduanya. Data mining dapat disebut sebagai proses untuk menemukan korelasi atau pola dari ratusan atau ribuan field dari sebuah relasional database yang besar dan menggunakan teknologi pengenalan pola seperti yang terdapat pada teknik-teknik di statistika dan matematika Larose,2005. Data mining juga disebut sebagai serangkaian proses untuk menemukan suatu pengetahuan atau informasi yang selama ini tidak diketahui dari data berskala besar dan sering juga disebut sebagai knowledge discovery in database KDD Santosa,2007. KDD adalah kegiatan yang meliputi pengumpulan, pemakaian data, historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Data mining bukanlah suatu bidang yang sama sekali baru, data mining mewarisi banyak aspek dan teknik dari bidang ilmu Universitas Sumatera Utara yang sudah mapan terlebih dahulu. Karakteristik data miningWirdasari Ahmad.2011 sebagai berikut: 1. Data miningberguna untuk menemukan penemuan sesuatu yang pola data tertentu yang tersembunyi dan tidak diketahui sebelumnya. 2. Data mining biasa menggunakan data yang berukuran besar yang tersimpan dalam suatu basis data. Biasanya data yang besar digunakan data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategi. Berikut ini merupakan beberapa tahapan dalam data mining sebagai berikut: Knowledge Evaluation Presentation Data Mining Selection Transformation patterns Cleaning Integration data warehouse database flat file Gambar 2.1 Tahapan Data MiningHan, et al., 2006 1. Pembersihan Data DataCleaning Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki. Data yang tidak relevan itu juga lebih baik dibuang karena Universitas Sumatera Utara keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining nantinya. Pembersihan data juga akan mempengaruhi proses kerja dari teknik data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya. 2. Integrasi Data DataIntegration Data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena apabila terjadi kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada. 3. Seleksi Data Data Selection Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan saja. 4. Transformasi Data Data Transformation Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam datamining. Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Transformasi juga dapat menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahapan ini. Universitas Sumatera Utara 5. Proses Mining Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data. 6. Evaluasi Pola Pattern Evaluation Hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa maka ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba metode data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat. 7. Presentasi Pengetahuan Knowledge Presentation, Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan dengan tahapan bagaimana memformulasikan keputusan atau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining.

2.2 Pengelompokan Data mining