Data Mining Tinjauan Pustaka

6 Tabel 2.2 Tinjauan Mutakhir State of the art Lanjutan N o Nama Penulis Judul Metode Klasifikasi Obyek Klasifikasi 2 Roughan , dkk200 4 Class of Service Mapping for QoS Pada penelitian ini menggunaka kn algoritma K-NN. Pada penelitian tersebut Pengklasifikasitidak memerlukanfasepelatihandanmembu at keputusanklasifikasi berdasarkansampelpelatihanterdekat dalam ruangfitur. 3 Tom dkk, 2001 Bayesian Neural Networks for InternetTraff ic Classificatio n Pada Penelitian ini penulis menggunakan Algoritma Neural Networksdala m klasifikasi trafik jaringan. Pada penelitian tersebut menggunakan datapelatihandengankategoriyang berasal dariisi paket, pelatihandan pengujianyangdilakukan dengan menggunakanfituryang berasal darialiran paketyang terdiridari satu atau lebihheader paket 4 Duda, dkk 2001 Pattern Classificatio n Buku referensi ini membahas tentang algoritma K- NN. Dalam bukunya menjelaskan bahwa klasifikasiK-NNdapatmencapai kinerja hampir sama denganpengklasifikasiparameter Support Vector Machine SVMdan JaringSaraf Tiruan JST.

2.2 Tinjauan Pustaka

2.2.1 Data Mining

Han dan Kamber 2006 dalam bukunya yang berjudul “ Data Mining Concepts and Techniques” mengatakan, secara singkat data mining dapat diartikan sebagai mengektraksi atau menggali pengetahuan dari data yang 7 berjumlah besar. Sedangkan menurut Daniel T. Laroes 2005 ada beberapa definisi dari Data Miring yang diambil dari beberapa sumber. Secara umum data mining dapat didefinisikan sebagai berikut: a. Data mining adalah proses menemukan sesuatu yang bermakna dari suatu korelasi baru, pola dan tren yang ada dengan cara memilah-memilah data berukuran besar yang disimpan dalam repository, menggunakan teknologi pengenalan pola serta teknik matematika dan statistic. b. Data mining adalah analisis pengamatan data set untuk menemukan hubungan yang tidak berduga dan untuk meringkas data dengan cara atau metode baru yang dapat dimengerti dan bermanfaat kepada pemilik data. c. Data mining merupakan bidang ilmu interdisipliner yang menyatakan teknik pembelajaran dari mesin machine learning, pengenalan pola pattern recognation, statistic, database, dan visualisasi untuk mengatasi masalah ekstraksi informasi dari basis data yang benar. d. Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara implicit dalam suatu basis data. Pada dasarnya data mining berhubungan erat dengan analisis data dan penggunaan perangkat lunak untuk mencari pola dan kesamaan dalam sekumpulan data. Ide dasarnya adalah menggali sumber yang berharga dari suatu tempat yang sama sekali tidak diduga, seperti perangkat lunak data mining mengekstrasi pola yang sebelumnya tidak terlihat atau tidak begitu jelas sehingga tidak seorang pun yang memperhatikan sebelumnya. Analisa data mining berjalan pada data yang cenderung terus membesar dan teknik terbaik yang digunakan kemudian berorientasi kepada data berukuran sangat besar untuk mendapatkan kesimpulan dan keputusan paling layak. Data mining memiliki beberapa sebutan atau nama lain yaitu : knowledge discovery in database KDD, ekstraksi pengetahuan knowledge extraction, analisa data pola data pattern analysis, kecerdasan bisnis business intelligence, data archaeology dan data dredging Daniel T.Larose, 2005 8 Terdapat perbedaan antara pengertian data mining dengan bukan data mining yang diilustrasikan terhadap beberapa situasi sehingga dapat menggambarkan perbedaan antara data mining dengan yang bukan data mining yaitu : Tabel 2.3 Perbedaan data mining dengan yang bukan data mining Bukan Data Mining Data Mining Mencari ip address dalam log server Menemukan pola ip address yang sering muncul dalamlog server pola waktu Melakukan Query pada database untuk mencari ip address yang sedang download Mengelompokkan keterhubungan antara penggunaan bandwidth dengan ip address Memberikan informasi jumlah bandwidth yang diperlukan dari sejumlah user Mengelompokkan kategori bandwidth Contoh : bandwidth SOHOenterprise, coorporate Mencari email yang bersifat spam Melakukan pengklasifikasian terhadap email apakah termasuk spam atau bukan Pada table 2.1 terlihat bahwa data mining tidak hanya melakukan proses query untuk mendapatkan suatu informasi, melainkan melakukan proses penggalian dari data yang ada untuk mendapatkan suatu informasi yang berguna dimana informasi ini sebelumnya tidak diketahui sebelumnya tersembunyi . Dalam teknik data mining terdapat beberapa tahapan dalam prosesnya. Tahapan-tahapan dalam data mining tersebut dapat digambarkan sebagai berikut. Gambar 2.1 Gambar Tahapan Data Mining 9 Tahapan yang di representasikan dalam gambar 2.1 mengilustrasikan bagaimana tiap proses bersifat interaktif dimana pemakaian terlibat langsung atau dengan perantara knowledge base. Tahapan-tahapan tersebut diantaranya : a. Pembersihan data selection Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu,ada juga atribut-atribut data yang tidak relevan dengan hipotesis data mining yang kita miliki. Data-data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining nantinya. Garbage in garbage out hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan data juga akan mempengaruhi performasi dari system data mining karena data yang ditangani akan berkurang jumlah dan kompleksituasinya. b. Pra pemrosesan Preproccessing Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Preproccessing data dilakukan pada atribut-atribut yang mengidentifikasikan entinitas-entinitas yang unik seperti atribut IP address source, IP address destination, Source Port, Destination Port, Protocol dsb. Preprocessing data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. c. Transformasi data Transformation Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi interval. Proses ini sering disebut binning. Disini juga dilakukan 10 pemilihan data yang diperlukan oleh teknik data mining yang dipakai. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahap ini. d. Aplikasi teknik data mining Data Mining Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai. Kita akan membahas lebih jauh mengenai teknik-teknik yang ada di seksi berikutnya. Perlu diperhatikan bahwa ada kalanya teknik-teknik data mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau untuk data tertentu. e. Evaluasi pola Interpretation Evaluation Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai dengan hipotesa ada beberapa alternatif yang dapat diambil seperti : menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfat.

2.2.2 Klasifikasi