6
Tabel 2.2 Tinjauan Mutakhir State of the art Lanjutan
N o
Nama Penulis
Judul Metode
Klasifikasi Obyek
Klasifikasi 2
Roughan ,
dkk200 4
Class of
Service Mapping
for QoS Pada
penelitian ini menggunaka
kn algoritma K-NN.
Pada penelitian
tersebut Pengklasifikasitidak
memerlukanfasepelatihandanmembu at
keputusanklasifikasi berdasarkansampelpelatihanterdekat
dalam ruangfitur.
3 Tom
dkk, 2001
Bayesian Neural
Networks for InternetTraff
ic Classificatio
n Pada
Penelitian ini penulis
menggunakan Algoritma
Neural Networksdala
m klasifikasi trafik
jaringan. Pada penelitian tersebut menggunakan
datapelatihandengankategoriyang berasal
dariisi paket,
pelatihandan pengujianyangdilakukan
dengan menggunakanfituryang
berasal darialiran paketyang terdiridari satu atau
lebihheader paket
4 Duda,
dkk 2001
Pattern Classificatio
n Buku
referensi ini
membahas tentang
algoritma K- NN.
Dalam bukunya menjelaskan bahwa klasifikasiK-NNdapatmencapai kinerja
hampir sama
denganpengklasifikasiparameter Support Vector Machine SVMdan JaringSaraf
Tiruan JST.
2.2 Tinjauan Pustaka
2.2.1 Data Mining
Han dan Kamber 2006 dalam bukunya yang berjudul “ Data Mining Concepts and Techniques” mengatakan, secara singkat data mining dapat
diartikan sebagai mengektraksi atau menggali pengetahuan dari data yang
7
berjumlah besar. Sedangkan menurut Daniel T. Laroes 2005 ada beberapa definisi dari Data Miring yang diambil dari beberapa sumber. Secara umum data
mining dapat didefinisikan sebagai berikut: a.
Data mining adalah proses menemukan sesuatu yang bermakna dari suatu korelasi baru, pola dan tren yang ada dengan cara memilah-memilah data
berukuran besar yang disimpan dalam repository, menggunakan teknologi pengenalan pola serta teknik matematika dan statistic.
b. Data mining adalah analisis pengamatan data set untuk menemukan
hubungan yang tidak berduga dan untuk meringkas data dengan cara atau metode baru yang dapat dimengerti dan bermanfaat kepada pemilik data.
c. Data mining merupakan bidang ilmu interdisipliner yang menyatakan teknik
pembelajaran dari mesin machine learning, pengenalan pola pattern recognation, statistic, database, dan visualisasi untuk mengatasi masalah
ekstraksi informasi dari basis data yang benar. d.
Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara implicit dalam suatu
basis data. Pada dasarnya data mining berhubungan erat dengan analisis data dan
penggunaan perangkat lunak untuk mencari pola dan kesamaan dalam sekumpulan data. Ide dasarnya adalah menggali sumber yang berharga dari suatu
tempat yang sama sekali tidak diduga, seperti perangkat lunak data mining mengekstrasi pola yang sebelumnya tidak terlihat atau tidak begitu jelas sehingga
tidak seorang pun yang memperhatikan sebelumnya. Analisa data mining berjalan pada data yang cenderung terus membesar dan teknik terbaik yang digunakan
kemudian berorientasi kepada data berukuran sangat besar untuk mendapatkan kesimpulan dan keputusan paling layak. Data mining memiliki beberapa sebutan
atau nama lain yaitu : knowledge discovery in database KDD, ekstraksi pengetahuan knowledge extraction, analisa data pola data pattern analysis,
kecerdasan bisnis business intelligence, data archaeology dan data dredging Daniel T.Larose, 2005
8
Terdapat perbedaan antara pengertian data mining dengan bukan data mining yang diilustrasikan terhadap beberapa situasi sehingga dapat
menggambarkan perbedaan antara data mining dengan yang bukan data mining yaitu :
Tabel 2.3 Perbedaan data mining dengan yang bukan data mining
Bukan Data Mining Data Mining
Mencari ip address dalam log server Menemukan pola ip address yang sering
muncul dalamlog server pola waktu Melakukan Query pada database untuk
mencari ip address yang sedang download Mengelompokkan keterhubungan antara
penggunaan bandwidth dengan ip address Memberikan informasi jumlah bandwidth
yang diperlukan dari sejumlah user Mengelompokkan kategori bandwidth
Contoh : bandwidth SOHOenterprise, coorporate
Mencari email yang bersifat spam Melakukan
pengklasifikasian terhadap
email apakah termasuk spam atau bukan
Pada table 2.1 terlihat bahwa data mining tidak hanya melakukan proses query untuk mendapatkan suatu informasi, melainkan melakukan proses
penggalian dari data yang ada untuk mendapatkan suatu informasi yang berguna dimana informasi ini sebelumnya tidak diketahui sebelumnya tersembunyi .
Dalam teknik data mining terdapat beberapa tahapan dalam prosesnya. Tahapan-tahapan dalam data mining tersebut dapat digambarkan sebagai berikut.
Gambar 2.1 Gambar Tahapan Data Mining
9
Tahapan yang di representasikan dalam gambar 2.1 mengilustrasikan bagaimana tiap proses bersifat interaktif dimana pemakaian terlibat langsung atau
dengan perantara knowledge base. Tahapan-tahapan tersebut diantaranya : a. Pembersihan data selection
Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti
data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu,ada juga atribut-atribut data yang tidak relevan dengan hipotesis
data mining yang kita miliki. Data-data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari
hasil data mining nantinya. Garbage in garbage out hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah merupakan istilah
yang sering dipakai untuk menggambarkan tahap ini. Pembersihan data juga akan mempengaruhi performasi dari system data mining karena data yang
ditangani akan berkurang jumlah dan kompleksituasinya. b. Pra pemrosesan Preproccessing
Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks.
Preproccessing data
dilakukan pada
atribut-atribut yang
mengidentifikasikan entinitas-entinitas yang unik seperti atribut IP address source, IP address destination, Source Port, Destination Port, Protocol dsb.
Preprocessing data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan
menyesatkan pengambilan aksi nantinya. c. Transformasi data Transformation
Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti
analisis asosiasi dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi
menjadi interval. Proses ini sering disebut binning. Disini juga dilakukan
10
pemilihan data yang diperlukan oleh teknik data mining yang dipakai. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil
data mining nantinya karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahap ini.
d. Aplikasi teknik data mining Data Mining Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari
proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai. Kita akan membahas lebih jauh mengenai teknik-teknik yang ada di
seksi berikutnya. Perlu diperhatikan bahwa ada kalanya teknik-teknik data mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan
data mining di bidang tertentu atau untuk data tertentu. e. Evaluasi pola Interpretation Evaluation
Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada
memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai dengan hipotesa ada beberapa alternatif yang dapat diambil seperti : menjadikannya
umpan balik untuk memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil
yang di luar dugaan yang mungkin bermanfat.
2.2.2 Klasifikasi