PENERAPAN DATA MINING UNTUK PREDIKSI PENJUALAN PRODUK ELEKTRONIK TERLARIS MENGGUNAKAN METODE K-NEAREST NEIGHBOR (Studi Kasus : PT. Bintang Multi Sarana Palembang) - eprint UIN Raden Fatah Palembang
PENERAPAN DATA MINING UNTUK PREDIKSI
PENJUALAN PRODUK ELEKTRONIK TERLARIS
MENGGUNAKAN METODE K-NEAREST NEIGHBOR
(Studi Kasus : PT. Bintang Multi Sarana Palembang)
SKRIPSI Oleh YULIA RIZKI AMALIA 13540268PROGRAM STUDI SISTEM INFORMASI FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGERI RADEN FATAH PALEMBANG 2018
PENERAPAN DATA MINING UNTUK
PREDIKSI PENJUALAN PRODUK ELEKTRONIK TERLARIS
MENGGUNAKAN METODE K-NEAREST NEIGHBOR
(Studi Kasus : PT. Bintang Multi Sarana Palembang) SKRIPSI Diajukan Untuk Memenuhi Salah Satu Syarat Guna Memperoleh Gelar Sarjana Komputer (S.Kom)
Program Studi Sistem Informasi Oleh YULIA RIZKI AMALIA 13540268 PROGRAM STUDI SISTEM INFORMASI FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGERI RADEN FATAH PALEMBANG
2018
Motto :
“Man jadda wajada”
Siapa yang bersungguh-sungguh, pasti berhasil
“Man shabara zhafira”
Siapa yang sabar, pasti beruntung
”“Man sara ala darbi washala”
Siapa menapaki jalan-Nya akan sampai ke tujuan
“Sesungguhnya bersama kesukaran itu ada kemudahan. Karena itu bila kau
telah selesai (mengerjakan yang lain) dan kepada Tuhan berharplah”
(QS.Al-Insyirah:6-8)
Persembahan :
Skripsi ini adalah bagian dari ibadahku kepada Allah SWT, karena kepada-Nya
lah aku menyembah dan kepada-Nya lah aku memohon pertolongan.
Sekaligus sebagai ungkapan terima kasihku kepada :
Kedua orang tuaku tercinta, ayahanda M.Zen dan ibunda Rosmawarni yang
selalu mendoakan kebaikan-kebaikan untukku, yang selalu memberikan nasehat
dan motivasi dalam hidupku. Dan Mereka lah sebab aku ingin menyelesaikan
skripsi ini segera. Kupersembahkan skripsi ini untukmu Ayah & Ibu I love You.
Ayundaku tersayang Ratna Oktariyani, S.Pd yang tak henti-hentinya
memberikanku semangat, yang selalu memberi inspirasi dalam hidupku dan yang
selalu bawel nanyoin “kapan skripsiku kelar ?”. Pertanyaan itulah yang
memotivasiku untuk menyelesaikan skripsi ini. Dan ku persembahkan skripsi ini
untukmu “Bawel”
Terima kasih banyak ku ucapkan untuk kedua dosen pembimbingku yang cantik
dan baik hatinya yaitu Ibu Rusmala Santi, M.Kom dan Ibu Seva Novika,
M.Kom atas arahan dan bimbingan yang ibu berikan sehingga saya dapat
menyelesaikan skripsi ini.
Serta sahabat-sahabatku yang insyaallah cantik paras dan hatinya dan yang
kece beuts. Rapita Sari, Uci Suryani, Syahdat Afrianto, Sulasma Purnama,
Susanti, Syaulan Tsaqila, Yeni Erlika, dan semua teman seperjunganku di SI
angkatan 2013 Terkhusus SI.3
Almamaterku, Universitas Isalam Negeri Raden Fatah Palembang.
LEMBAR PERNYATAAN
Saya yang bertanda tangan di bawah ini : Nama : YULIA RIZKI AMALIA Tempat dan Tanggal Lahir : Palembang, 28 Juli 1995 Program Studi : Sistem Informasi NIM : 13540268 Menyatakan dengan sesungguhnya bahwa:
1. Seluruh data, informasi integrasi serta dalam pembahasan dan kesimpulan
yang disajikan dalam Skripsi ini, kecuali yang disebutkan sumbernya ditulis dalam daftar pustaka adalah merupakan hasil pengamatan, Penelitian, pengolahan, serta pemikiran saya dengan pengarahan dari para pemebimbing yang ditetapkan.
2. Skripsi yang saya tulis ini adalah asli, bukan jiplakan dan belum pernah
diajukan untuk mendapat gelar akademik, baik di UIN Raden Fatah maupun perguruan tinggi lainnya.
3. Apabila dikemudian hari ditemukan adanya bukti ketidak benaran dalam
pernyataan tersebut di atas, maka saya bersedia menerima sanksi akademis berupa pembatalan gelar yang saya peroleh melalui pengajuan karya ilmiah ini.Demikian Pernyataan ini dibuat dengan penuh kesadaran dan dapat
dipertangggung jawabkan.Palembang, 14 Agustus 2018 Yang membuat pernyataan, Yulia Rizki Amalia NIM.13540268
APPLICATION OF DATA MINING FOR SALES PREDICTION
ELECTRONIC PRODUCTS ALLOW USING
K-NEAREST NEIGHBOR (KNN) METHOD
ABSTRACT
PT. Bintang Multi Sarana Palembang is one of the largest electronics
companies in South Sumatra. The company has a wide range of electronic
products on offer. Judging from the number of consumer demand for
electronic products based on sales data during the last 3 years then it takes
prediction for sales of best-selling electronic products, in order to facilitate
the company in the planning of stock provision. To know sales of best-selling
electronic products used data mining classification techniques and K-Nearest
Neighbor algorithm. The result of this research is the prediction of best
selling electronic sales of 6 types of products from 22 types of products sold:
CTV, Refrigerator, DVD, Speaker, Washing Machine and LCD. Based on the
value of accuracy of the bestselling product sales classification of 92.51%.Keywords: Forcasting, Data Mining, K-Nearest Naighbor (KNN)
PENERAPAN DATA MINING UNTUK PREDIKSI PENJUALAN
PRODUK ELEKTRONIK TERLARIS MENGGUNAKAN
METODE K-NEAREST NEIGHBOR (KNN)
ABSTRAK
PT. Bintang Multi Sarana Palembang merupakan salah satu perusahaan elektronik
terbesar di Sumatera Selatan. Perusahaan ini memiliki berbagai macam jenis
produk elektronik yang ditawarkan. Dilihat dari banyaknya permintaan konsumen
akan produk elektronik berdasarkan data penjualan selama 3 tahun terakhir maka
dibutuhkan prediksi untuk penjualan produk elektronik terlaris, guna untuk
mempermudah pihak perusahaan dalam perencanaan penyediaan stok. Untuk
mengetahui penjualan produk elektonik terlaris digunakan teknik klasifikasi data
mining dan algoritma K-Nearest Neighbor. Hasil dari penelitian ini adalah
prediksi penjualan elektronik terlaris sebanyak 6 jenis produk dari 22 jenis produk
yang terjual yaitu CTV, Lemari Es, DVD, Speaker, Mesin Cuci dan LCD.
Berdasarkan nilai akurasi terhadap klasifikasi penjualan produk terlaris sebesar
92,51 %.Kata Kunci : Forcasting, Data Mining, K-Nearest Naighbor (KNN)
KATA PENGANTAR
ِ ِ ِ
َِِللّٱ ِِمي ِحَرلٱ ِِم ۡسِبِِن َٰ م ۡحَرلٱ Assalamu’alaikum, Wr. Wb.
Alhamdulillah, Segala puji kehadirat Allah Subhanahu Wa Ta‟ala karena atas
berkat rahmat dan hidayah-Nya sehingga laporan skripsi ini dapat terselesaikan
sebagai salah satu syarat untuk menyelesaikan studi Strata Satu (S-1) pada
Program Studi Sistem Informasi Fakultas Sains dan Teknologi Universitas Islam
Negeri Raden Fatah Palembang. Shalawat beserta salam semoga senantiasa
tercurah kepada junjungan kita Baginda Rasulullah Shalallahu Alaihi Wassalam
beserta para keluarga, sahabat, dan para pengikut Beliau hingga akhir zaman.Setelah melakukan kegiatan penelitian, akhirnya laporan skripsi yang
berjudul “Penerapan Data Mining Untuk Prediksi Penjualan Produk Elektronik
Terlaris Menggunakan Metode K-Nearest Neighbor (KNN) ”. Pembuatan skripsiini mendapatkan banyak bantuan dan bimbingan dari berbagai pihak dengan
memberikan banyak masukan dan nasehat, serta mendukung dan menjadi
motivasi tersendiri. Maka dari itu, ucapan terimakasih penulis haturkan kepada:
1. Bapak Prof. Drs. H.Muhammad Sirozi, Ph.D. selaku Rektor Universitas Islam
Negeri Raden Fatah Palembang.
2. Ibu Dr. Dian Erlina, S.Pd., M.Hum. selaku Dekan Fakultas Sains dan
Teknologi Universitas Islam Negeri Raden Fatah Palembang.
3. Bapak Ruliansyah, ST, M.Kom selaku Ketua Program Studi Sistem Informasi
Fakultas Sains dan Teknologi Universitas Islam Negeri Raden Fatah Palembang.
4. Ibu Rusmala Santi, M.Kom selaku Sekretaris Program Studi Sistem Informasi
Fakultas Sains dan Teknologi Universitas Islam Negeri Raden Fatah Palembang dan selaku Dosen Pembimbing I (Satu). .5. Ibu Seva Novika, M.Kom selaku Dosen Pembimbing II (Dua).
6. Bapak H.Komaruddin, M.SI selaku Dosen Pembimbing Akademik.
7. Ibu Nurmalina, M.Hum selaku Kepala Perpustakaan Pusat Universitas Islam
Negeri Raden Fatah Palembang.8. Kedua Orang Tua saya, Bapak M.Zen dan Ibu Rosmawarni.
9. Para Bapak/Ibu Dosen dan seluruh Civitas Akademika Universitas Islam
Negeri Raden Fatah Palembang.
10. Rekan Mahasiswa/i Program Studi Sistem Informasi Angkatan 2013,
khususnya kelas 1354-3, serta rekan bimbingan periode 2017-2018.Semoga Allah SWT senantiasa melimpahkan rahmat dan hidayah-Nya kepada kita semua, Amin Yaa Rabbal Alamin. Wassalamu‟alaikum, Wr. Wb.
Palembang, 14 Agustus 2018 Yulia Rizki Amalia NIM.13540268
DAFTAR ISI
Halaman HALAMAN JUDUL ........................................................................................... iHALAMAN PENGESAHAN ............................................................................ ii HALAMAN PERSETUJUAN ........................................................................... iii MOTTO DAN PERSEMBAHAN ...................................................................... iv HALAMAN PERNYATAAN ............................................................................ vi ABSTRACT .......................................................................................................... vii
ABSTRAK .......................................................................................................... viii
KATA PENGANTAR ........................................................................................ ix DAFTAR ISI ....................................................................................................... xiDAFTAR TABEL ............................................................................................... xiv
DAFTAR GAMBAR .......................................................................................... xvDAFTAR LAMPIRAN ....................................................................................... xvi
BAB I PENDAHULUAN
1.1 Latar Belakang...................................................................................... 1
1.2 Rumusan Masalah…………………...……………………………….. 3
1.3 Batasan Masalah ................................................................................... 3
1.4 Tujuan Penelitian ................................................................................. 3
1.5 Manfaat Pe nelitian ………………….………………. ......................... 4 BAB II LANDASAN TEORI
2.1 Ayat Al-Quran Berkenaan Dengan Penelitian ..................................... 5
2.2 Teori Yang Berhubungan Secara Umum ............................................. 6
2.2.1 Data .............................................................................................. 6
2.2.2 Basis Data ................................................................................... 7
2.2.3 Data Mining ................................................................................. 8
2.2.3.1 Operasi Data Mining ...................................................... 8
2.2.3.2 Teknik Data Mining ....................................................... 9
2.2.4 Prediksi/Forcasting ..................................................................... 9
2.2.5 Knowledge Discovery in Database (KDD) ................................. 10
2.2.6 Klasifikasi ................................................................................... 11
2.2.6.1 Teknik Klasifikasi .......................................................... 12
2.2.7 Konsep K-Nearest Neighbor (KNN) .......................................... 12
2.3 Teori-Teori yang Berkaitan Dengan Tools yang Digunakan ............... 14
4.1 Gambaran Umum Lokasi Penelitian .................................................... 27
4.4.1 Susunan Operator Algoritma K-Nearest Neighbor ..................... 38
4.4 Implementasi RapidMiner ................................................................... 36
4.3.4 Tahapan K-Nearest Neighbor ..................................................... 34
4.3.3 Tahapan Transformation ............................................................. 33
4.3.2 Tahapan Preprocessing ............................................................... 31
4.3.1 Tahapan Data Selection ............................................................... 30
4.3 Pembahasan .......................................................................................... 30
4.2 Hasil ..................................................................................................... 30
4.1.4 Struktur Organisasi PT. Bintang Multi Sarana Palembang ........ 28
4.1.3 Misi Perusahaan .......................................................................... 28
4.1.2 Visi Perusahaan ........................................................................... 28
4.1.1 Sejarah Singkat Perusahaan ........................................................ 27
BAB IV HASIL DAN PEMBAHASAN
2.3.1 RapidMiner ................................................................................. 14
3.6.5 Interpretation/Evaluasi .............................................................. 25
3.6.4 Data Mining ............................................................................... 24
3.6.3 Transformation .......................................................................... 24
3.6.2 Preprocessing ............................................................................. 23
3.6.1 Data Selection ............................................................................. 22
3.6 Pengolahan Data Mining ...................................................................... 22
3.5 Tahapan Penelitian ............................................................................... 21
3.4 Metode Pengumpulan Data .................................................................. 20
3.3 Bahan Penelitian ................................................................................. 20
3.2 Lokasi Penelitian .................................................................................. 20
3.1 Metode Penelitian................................................................................. 19
BAB III METODOLOGI PENELITIAN
2.4 Penelitian Terdahulu ............................................................................. 15
4.4.2 Hasil Algoritma K-Nearest Neighbor .......................................... 39
BAB V PENUTUP
5.1 Simpulan .............................................................................................. 42
5.2 Saran ..................................................................................................... 42
DAFTAR PUSTAKA ........................................................................................ 43
LAMPIRAN ....................................................................................................... 45
RIWAYAT HIDUP .......................................................................................... 90
DAFTAR TABEL
HalamanTabel 4.1 Data Selection ..................................................................................... 31Tabel 4.2 Sampel Data Penjualan LCD .............................................................. 31Tabel 4.3 Sampel Data Penjualan LED .............................................................. 32Tabel 4.4 Sampel Data Penjualan Mesin Cuci ................................................... 32Tabel 4.5 Data Training Penjualan LCD ............................................................ 33Tabel 4.6 Data Testing Penjualan LCD .............................................................. 34
DAFTAR GAMBAR
HalamanGambar 2.1 Tahapan Dalam KDD .................................................................. 10Gambar 2.2 Konsep Klasifikasi ....................................................................... 12Gambar 2.3 Rumus Perhitungan Jarak Euclidean .......................................... 13Gambar 3.1 Tahapan Penelitian....................................................................... 21Gambar 4.1 Struktur Organisasi PT. Bintang Multi Sarana Palembang ......... 29Gambar 4.2 Model Sub Proses Clasification KNN ......................................... 36Gambar 4.3 Hasil Perhitungan Nilai Akurasi ................................................. 37Gambar 4.4 Model Klasifikasi KNN ............................................................... 37Gambar 4.5 Importing Data Traning Pada Operator Read Excel ................... 38Gambar 4.6 Susunan Operator Algoritma KNN ............................................. 38Gambar 4.7 Hasil Prediksi Penjualan CTV ..................................................... 39Gambar 4.8 Hasil Prediksi Penjualan Lemari Es ............................................ 39Gambar 4.9 Hasil Prediksi Penjualan DVD .................................................... 40Gambar 4.10 Hasil Prediksi Penjualan Speaker ................................................ 40Gambar 4.11 Hasil Prediksi Penjualan Mesin Cuci .......................................... 41Gambar 4.12 Hasil Prediksi Penjualan LCD ..................................................... 41DAFTAR LAMPIRAN
Halaman
Lampiran .......................................................................................................... 45
BAB I PENDAHULUAN
1.1 Latar Belakang
Prediksi atau peramalan penjualan (forecasting) adalah suatu perhitungan
untuk meramalkan keadaan di masa mendatang melalui pengujian keadaan di
masa lalu. Meramalkan penjualan di masa mendatang berarti menentukan
perkiraan besarnya volume penjualan, bahkan menentukan potensi penjualan dan
luas pasar yang dikuasai di masa yang akan datang (Eriyanto, 2012). Salah satu
dari kegunaan prediksi adalah untuk membantu pemilik perusahaan dalam
pengambil keputusan dalam menentukan jumlah barang yang harus disediakan
oleh perusahaan. Selain itu prediksi dapat membantu pihak perusahaan dalam
perencanaan penyediaan stok, karena prediksi ini dapat memberikan output
terbaik sehingga diharapkan resiko kesalahan yang disebabkan oleh kesalahan
perencanaan dapat ditekan seminimal mungkin. Prediksi biasanya digunakan
untuk menemukan informasi dari sejumlah data yang besar sehingga diperlukan
data mining . merupakan bidang dari beberapa bidang keilmuan yangData mining
menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistic, database
dan visualisasi untuk penanganan permasalahan pengambilan informasi dari
penyimpanan database yang besar (Larose,2005). Data mining dapat digunakan
untuk menggali informasi dari data yang besar sehingga didapatkan informasi
yang dapat digunakan dalam memprediksi penjualan. Dalam data mining terdapat
banyak teknik dalam pengerjaannya, untuk menemukan pola atau informasi yang
tersembunyi diantaranya adalah Klasterisasi (clustering), Regresi (regression),
Asosiasi (association), dan Klasifikasi (classification) .Metode-metode yang terdapat dalam data mining untuk prediksi diantaranya
yaitu metode Naive bayes, merupakan metode yang membagi permasalahan
kedalam kelas-kelas berdasarkan ciri-ciri persamaan dan perbedaan dengan
menggunakan statistik yang bisa memprediksi probabilitas sebuah kelas, Naive
bayes mengasumsikan bahwa nilai dari sebuah input atribut pada kelas yang
diberikan tidak tergantung dengan nilai atribut yang lain (pratiwi, 2016:100),
selain itu juga terdapat metode K-Nearest Neighbor (KNN). Metode ini
merupakan metode yang digunakan untuk melakukan klasifikasi terhadap objek
berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut.
Keunggulan metode KNN dalam memprediksi yaitu tangguh terhadap traning
data yang noise dan efektif apabila training data-nya besar.PT. Bintang Multi Sarana Palembang merupakan perusahaan elektronik dan
furniture yang bergerak dibidang perdagangan yang menyediakan berbagai
macam produk elektronik dan funiture. PT. Bintang Multi Sarana Palembang saat
ini telah menggunakan sistem informasi penjualan untuk mendukung kinerja
pihak perusahaan maupun untuk layanan informasi penjualan. Perusahaan ini juga
telah menerapkan sistem penjualan secara online dalam mempromosikan
penjualanannya. Produk yang dijual diantaranya : Televisi (TV), Handphone
(HP), Air Condisioner (AC), Mesin cuci dan produk elektronik lainya. Dilihat dari
banyaknya permintaan konsumen akan produk elektronik, maka dibutuhkan
prediksi untuk penjualan elektronik yang paling banyak diminta oleh konsumen.
Prediksi ini bertujuan untuk mempermudah bagian peyedia stok barang pada PT.
Bintang Multi Sarana Palembang dalam melakukan perencanaan penyaediaan stok
barang serta memberitahu pihak perusahaan tentang produk-produk paling banyak
dibeli oleh konsumen. Berdasarkan uraian latar belakang, maka diusulkan sebuah
penelitian dengan judul“Penerapan Data Mining Untuk Prediksi Penjualan Produk Elektronik Terlaris Menggunakan Metode K-Nearest Neighbor ”.
1.2 Rumusan Masalah Adapun rumusan masalah dalam penelitian berdasarkan uraian latar
belakang adalah bagaimana melakukan prediksi penjualan produk elektronik
terlaris pada PT. Bintang Multi Sarana Palembang dengan menggunakan metode
K-Nearest Neighbor ?1.3 Batasan Masalah Agar pembahasan dalam penelitian ini dapat lebih jelas dan terarah maka
penulis memberikan batasan terhadap permasalahan yang akan di teliti yang
berfokus pada :1. Hanya membahas tentang prediksi penjualan produk elektronik terlaris berdasarkan data penjualan dari tahun 2015-2017.
2. Data yang diambil hanya data tentang penjualan produk elektronik.
3. Data yang diolah dalam penelitian ini menggunakan Metode K-Nearest .
Neighbor
4. Tools yang dipakai di dalam penerapan data mining ini adalah Rapidminer .
1.4 Tujuan Penelitian
Adapun tujuan yang ingin dicapai dari penelitian ini adalah untuk
mengetahui penjualan produk elektronik yang terlaris pada PT. Bintang Multi
Sarana Palembang.1.5 Manfaat Penelitian
Adapun manfaat penelitian yang dilakukan yaitu :
1. Dapat membantu dan mempermudah pihak perusahaan dalam perencanaan
penyediaan stok.2. Mempermudah pihak perusahaan dalam penjadwalan produksi.
3. Memberikan tambahan informasi bagi perusahaan mengenai potensi
penjualan produk elektronik.4. Mengetahui produk elektronik yang paling banyak dibeli pada perusahaan
BAB II LANDASAN TEORI Pada bab ini membahas tentang teori-teori ke ilmuan yang mendasari masalah yang diteliti, yang terdiri dari teori-teori umum dan teori-teori khusus.
2.1 Ayat Al- Qur’an Berkenaan Dengan Penelitian
Kemajuan suatu teknologi diera zaman sekarang ini bukanlah hal yang asing
lagi, kemajuan suatu teknologi diberbagai bidang ilmu mulai dari bisnis,
kesehatan maupun pendidikan. Pemanfaatan sains dan teknologi dalam kajian
Islam sebagaimana tertulis dalam Al-Quran dan Surat Al-Jaatsiyah ayat 17 :ِ ِ ِ ِ ِ ِ ِ ِ ِ ِ ِ ِ ِ ِ ِ ِ
ِ ِ ِ ِ ِ ِ ِ ِ ِ ِ
Artinya : Dan Kami berikan kepada mereka keterangan-keterangan yang nyata
tentang urusan (agama); Maka mereka tidak berselisih melainkan sesudah datang
kepada mereka pengetahuan karena kedengkian yang ada di antara mereka.
Sesungguhnya Tuhanmu akan memutuskan antara mereka pada hari kiamat
terhada p apa yang mereka selalu berselisih padanya.” (QS.Al-Jaatsiyah, 45:17).
Jual beli dalam kajian islam sebagaimana tertulis di dalam Al-Quran dan surat
An-Nisaa ayat 29 :ِ ِ ِ ِ ِ ِ ِ ِ ِ ِ ِ
ِِِِ ِ ِ ِ ِ ِ ِ ِ ِ ِ ِ ِ ِ ِ ِ
Artinya : “Hai orang-orang yang beriman, janganlah kamu saling memakan
harta sesamamu dengan jalan yang batil, kecuali dengan jalan perniagaan yang
berlaku dengan suka sama- suka di antara kamu.”. (QS. An-Nisaa : 29)Dari penjelasan ayat-ayat di atas dapat diketahui bahwa didalam kemajuan
dan pemanfaatan sains & teknologi saat ini sudah tertulis di dalam Al-Quran yaitu
surat Al-Jatsiyah ayat 17. Hal inilah yang menjadi alasan dalam penelitian ini,
betapa pentingnya suatu pemanfaatan sains & teknologi. Disini peneliti akan
memanfaatkan suatu data penjualan yang ada sehingga data-data itu dapat
dimanfaatkan sebagaimana mestinya. Serta tema yang diangkat pada penelitian ini
adalah tentang penjualan yang didalam al-quran pun telah dijelaskan tentang
penjualan/jual beli pada QS.An-Nisaa ayat 29. Disana dijelaskan tentang
diperbolehkannya jalan perniagaan yang berlaku suka sama suka. Sangat sesuai
dengan tema yang ada didalam penelitian ini yaitu tentang pemanfaatan data
penjualan yang ada di PT. Bintang Multi Sarana Palembang.2.2 Teori yang Berhubungan secara Umum
2.2.1 Data
Menurut (Al-Bahra 2005:20), Data merupakan komponen dasar dari
informasi yang akan diproses lebih lanjut untuk menghasilkan informasi.
Sedangkan, menurut Longkutoy dalam bukunya “Pengenalan komputer”, Data
adalah suatu istilah majemuk yang berarti fakta atau bagian dari fakta yang
mengandung arti yang digubungkan dengan kenyataan, simbol-simbol, gambar-
gambar, angka-angka, huruf-huruf, atau simbol-simbol yang menunjukkan suatu
ide, objek, kondisi, atau situasi dan lain-lain.Data adalah dapat berupa angka-angka, huruf-huruf, gambar-gambar atau
simbol-simbol apapun yang dapat dimasukan (input) ke komputer dan dikeluarkan
(output) dari komputer, karena komputer itu benda mati yang tidak memiliki
kemampuan apapun termasuk kemampuan untuk mengenali mana huruf, angka,
data dan informasi. (Wahyudi, 2008:16) Dari beberapa defenisi Data dari para ahli dapat disimpulkan bahwa Dataadalah suatu fakta yang bisa berupa simbol, gambar, angka, huruf dan lain-lain
yang dapat diproses lebih lanjut guna menghasilkan informasi.2.2.2 Basis Data
Menurut Fathansyah (2004:7), basis data adalah kumpulan data yang terorganisir, relasi antar data, dan objektifnya.
Menurut Indrajani (2015:70), basis data adalah kumpulan data yang saling
berhubungan secara logis dan didesain untuk mendapatkan data yang dibutuhkan
oleh suatu organisasi.Basis data (database) adalah sistem terkomputerisasi yang tujuan utamanya
adalah memelihara data yang sudah diolah atau informasi dan membuat informasi
tersedia saat dibutuhkan. Pada intinya basis data adalah media untuk menyimpan
data agar dapat diakses dengan mudah dapn cepat.(Sukamto dan Shalahuddin,
2013:43) Berdasarkan definisi basis data menurut para ahli maka dapat dirangkumdefinisi basis data adalah kumpulan data-data yang berada pada sebuah media
penyimpanan data yang saling terhubung dan berguna bagi pemakai ataupun
organisasi.2.2.3 Data Mining
Menurut Hermawati (2013:3), Data mining adalah proses yang
memperkerjakan satu atau lebih teknik pembelajaran komputer (machine
) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara learning otomatis.Data mining adalah serangkaian proses untuk menggali nilai tambah dari
suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara
manual (Pramudiono, 2006). adalah suatu istilah yang digunakan untuk menguraikanData mining
penemuan pengetahuan di dalam database. Data mining adalah proses yang
menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine
learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat
dan pengetahuan yang terkait dari berbagai database besar (Turban, dkk. 2005).Berdasarkan definisi-definisi di atas tentang Data mining dapat disimpulkan
bahwa data mining adalah sebuah proses pencarian secara otomatis untuk
menemukan pola atau model dari suatu database yang besar.2.2.3.1 Operasi Data Mining
Operasi data mining menurut sifatnya dibedakan menjadi 2, yaitu bersifat
(1) prediksi (prediction driven) untuk menjawab pertanyaan apa dan sesuatu yang
bersifat abstrak atau transparan. Operasi prediksi digunakan untuk validasi
hipotesis , querying dan pelaporan. (2) penemuan (discovery driven) bersifat
transparan dan untuk menjawab pertanyaan ”mengapa?”. Operasi penemuan
digunakan untuk analisis data eksplorasi, pemodelan prediktif, segmentasi
database , analisis keterkaitan (link analysis) dan deteksi deviasi. (Hermawati,
2013:5)2.2.3.2 Teknik Data Mining
Beberapa teknik dan sifat data mining adalah sebagai berikut :
1. Klasterisasi. Adalah mempartisi data-set menjadi beberapa sub-net atau
kelompok sedemikian rupa sehingga elemen-elemen dari suatu kelompok tertentu memiliki set property yang di share bersama, dengan tingkat similaritas yang tinggi dalam suatu kelompok yang rendah. Disebut juga dengan “unsupervised learning”.
2. Regresi. Adalah memprediksi nilai dari suatu variabel kontinyu yang
diberikan berdasarkan nilai adari variabel yang lain, dengan mengasumsikan sebuah model ketergantungan linier atau nonlinier.
3. Klasifikasi. Adalah menentukan sebuah record data baru ke salah satu dari
beberapa kategori (kelas) yang telah didefinisikan sebelumnya dan disebut juga dengan “supervised learning”.
4. Kaidah Asosiasi (association rule). Adalah mendeteksi kumpulan atribut-
atribut yang muncul bersamaan (co-occur) dalam frekuensi yang sering dan membentuk sejumlah kaidah dari kumpulan-kumpulan tersebut. (Hermawati, 2013:14)2.2.4 Prediksi/Forcasting
Prediksi/forcasting adalah menetukan jumlah kebutuhan bulan mendatang
terkait dengan dukungan data historis (historical data) atau serangkaian
waktu/periode yang dianalisis sehingga dapat diperhitungkan untuk memprediksi
jumlah kebutuhan pada bulan mendatang. Prediksi juga dapat digunakan dalam
pengklasifikasian, tidak hanya untuk memprediksi time series, karena sifatnya
yang bisa menghasilkan class berdasarkan atribut yang ada (Sutardi:2007,44).2.2.5 Knowledge Discovery in Database
(KDD) adalah proses menentukan Knowledge Discovery in Database
informasi yang berguna serta pola-pola yang ada dalam data. Informasi ini
terkandung dalam basis data yang berukuran besar yang sebelumnya tidak
diketahui dan potensial bermanfaat. Data Mining merupakan salah satu langkah
dari serangkaian proses iterative KDD ( Kusrini, dkk 2009:7). Berikut tahapan
proses KDD dapat dilihat pada gambar 2.1. Gambar 2.1 Tahapan Dalam KDDTahapan proses KDD terdiri dari:
1. Data Selection. Pada proses ini dilakukan pemilihan himpunan data,
menciptakan himpunan data target, atau memfokuskan pada subset variable (sampel data) dimana penemuan (discovery) akan dilakukan. Hasil seleksi disimpan dalam suatu berkas yang terpisah dari basis data operasional.
2. Pre-Processing dan Cleaning Data. Pre-Processing dan Cleaning Data dilakukan membuang data yang tidak konsisten dan noise, duplikasi data, memperbaiki kesalahan data, dan bisa diperkaya dengan data eksternal yang relevan.
3. Transformation. Proses ini mentransformasikan atau menggabungkan data ke
dalam yang lebih tepat untuk melakukan proses mining dengan cara melakukan peringkasan (agregasi).
4. Data Mining. Proses Data Mining yaitu proses mencari pola atau informasi
menarik dalam data terpilih dengan menggunakan teknik, metode ataualgoritma tertentu sesuai dengan tujuan dari proses KDD secara keseluruhan.
5. Interpretation / Evaluasi. Proses untuk menerjemahkan pola-pola yang
dihasilkan dari Data Mining. Mengevaluasi (menguji) apakah pola atau informasi yang ditemukan bersesuaian atau bertentangan dengan fakta atau hipotesa sebelumnya. Pengetahuan yang diperoleh dari pola-pola yang terbentuk dipresentasikan dalam bentuk visualisasi.2.2.6 Klasifikasi
Menurut Hermawati (2013:55), Klasifikasi merupakan proses pemberlajaran
suatu fungsi tujuan (target) f yang memetakan tiap himpunan atribut x ke satu
dari label kelas yang didefinisikan sebelumnya. Fungsi target disebut juga model
klasifikasi.Menurut Tan et all (2004:30), Klasifikasi adalah sebuah proses untuk
menemukan model yang menjelaskan atau membedakan konsep atau kelas data,
dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang kelasnya
tidak diketahui. Di dalam klasifikasi diberikan sejumlah record yang dinamakan
training set , yang terdiri dari beberapa atribut, atribut dapat berupa kontinyu
ataupun kategoris, salah satu atribut menunjukkan kelas untuk record.Berikut adalah konsep klasifikasi seperti yang ditunjukkan pada Gambar 2.2
Masukan Keluaran
ModelKlasifikasi Atribut Label Kelas (y) (Sumber: Tan et all, 2004)
Gambar 2.2 Konsep KlasifikasiAda dua jenis model klasifikasi, yaitu:
1. Pemodelan deskriptif (descriptive modelling), yaitu model klasifikasi yang
dapat berfungsi sebagai suatu alat penjelasan untuk membedakan objek-objek dalam kelas-kelas yang berbeda.2. Pemodelan prediktif (predictive modelling), yaitu klasifikasi yang dapat digunakan untuk memprediksi label kelas record yang tidak ketahui.
2.2.6.1 Teknik Klasifikasi
Klasifikasi merupakan tugas penambangan data yang memetakan data ke
dalam kelompok-kelompok kelas (Jain dkk, 2013). Teknik klasifikasi melakukan
pengklasifikasian item data ke label kelas yang telah ditetapkan, membangun
model klasifikasi dari kumpulan data input, membangun model yang digunakan
untuk memprediksi tren data masa depan (Shazmeen dkk, 2013). Algoritma yang
umum digunakan meliputi K-Nearest neighbor, Naïve Bayes Classification,
Pohon Keputusan (Decision Tree), Jaringan Saraf (Neural Network), dan Suport
Vector Machines (Sahu dkk, 2011).2.2.7 Konsep K-Nearest Neighbor
K-Nearest Neighbor (KNN) menjadi salah satu metode dalam top 10
metode data mining yang paling popular (Wu & Kumar 2009). Metode KNN
murni termasuk dalam klasifikasi yang lazy learner karena menunda proses
pelatihan (atau bahkan tidak melakukan pelatihan sama sekali) sampai ada data uji
yang ingin diketahui label kelasnya, maka metode baru akan menjalankan
algoritmanya. Algoritma KNN melakukan klasifikasi berdasarkan kemiripan suatu
data dengan data yang lain (Tan et all, 2004).2.2.8 K-Nearest Neighbor
Algoritma K-Nearest Neighbor (KNN) merupakan sebuah metode untuk
melakukan klasifikasi terhadap obyek baru berdasarkan (K) tetangga terdekatnya