dalam pengklasteran data salah satu nya adalah dengan Data Mining DM. Data Mining adalah proses pencarian pola dan relasi-relasi yang tersembunyi di data
yang besar dengan tujuan untuk melakukan klasifikasi, estimasi, prediksi, klastering, deskripsi, dan visualisasi Han dkk, 2001 dan Baskoro,2010.
Dengan meningkatnya pertumbuhan teknologi, jumlah data yang dikumpulkan dan disimpan dalam database semakin meningkat secara drastis,
sehingga menimbulkan kesulitan dalam pengelompokkan data. Data-data tersebut, jika diolah dapat digunakan untuk menunjang pengambilan keputusan. Kita dapat
mempelajari pola-pola dari data-data tersebut yang sering dikenal dengan pengenalan pola pattern recognition, merupakan bagian dari data mining. Tujuan
utama dari data mining untuk mendapatkan informasi dari data dengan cara mempelajari pola tersebut. Mengacu dari skema di atas penelitian ini fokus pada
isu aplikasi metode data mining pada kasus pengelompokan data clustering. Dengan terdapatnya jumlah data yang berskala besar memungkinkan peranan data
mining, dalam hal proses segmentasi melalui klastering yang dapat mengelompokkan ke dalam beberapa kelompok cluster yang diinginkan. Untuk
menyelesaikan permasalahan ini, metode yang digunakan adalah Support Vector Clustering SVC dan algoritma K-Medoids akan dibandingkan untuk melihat
algoritma mana yang lebih cepat dalam mengklastering data sekaligus mengetahui jumlah hasil klasteringnya.
1.2 Perumusan Masalah
Permasalahan yang akan diselesaikan dalam penelitian ini adalah melakukan klastering dengan menggunakan metode Support Vector Clustering dan Algoritma
K-Medoids PAM kemudian dilakukan analisis perbandingan tersebut dengan kedua metode tersebut, untuk mengetahui metode terbaik dalam klastering data
judul tugas akhir mahasiswa berdasarkan database, jaringan dan web.
1.3 Ruang Lingkup Penulisan
Batasan yang digunakan dalam penelitian ini adalah sebagai berikut :
Universitas Sumatera Utara
1. Data yang digunakan di ambil dari judul tugas akhir mahasiswa Diploma
3 AMIK Tunas Bangsa Pematangsiantar berdasarkan Database, jaringan dan web.
2. Metode klastering yang digunakan metode Support Vector Clustering
SVC dan K-Medoids PAM untuk yang hasil akan dibandingkan metode mana yang terbaik dalam pengklasteran dokumen tersebut.
1.4 Tujuan Penelitian
Tujuan dalam penelitian ini adalah : 1.
Melakukan pengujian validitas metode yang akan digunakan untuk klastering.
2. Melakukan klastering dari data yang diperoleh dengan beberapa metode
yang diusulkan. 3.
Menghitung nilai variansi dalam klaster dan antar klaster pada tiap metode.
4. Membanding metode data mining yang digunakan sehingga didapatkan
metode yang terbaik berdasarkan nilai variansi yang dihasilkan.
1.5 Manfaat Penelitian Manfaat yang diperoleh dari penelitian ini adalah :
1. Diperoleh hasil klastering yang lebih optimal untuk data tugas akhir
mahasiswa AMIK Tunas Bangsa Pematangsiantar yang didasarkan atas database, jaringan dan web.
2. Diperoleh suatu metode klastering yang dapat membantu
pengelompokkan data dengan adanya perbandingan kedua metode tersebut.
Universitas Sumatera Utara
BAB II
TINJAUAN PUSTAKA
2.1. Penambangan Data Data Mining
Penambangan data Data Mining adalah serangkaian proses untuk menggali nilai tambah dari sekumpulan data berupa pengetahuan yang selama ini tersembunyi
dibalik data atau tidak diketahui secara manual Iko Pramudiono, 2006. Proses untuk menggali nilai tambah dari sekumpulan data sering juga dikenal sebagai
penemuan pengetahuan dari pangkalan data Knowledge Discovery in Databases = KDD yaitu tahap-tahap yang dilakukan dalam menggali pengetahuan dari
sekumpulan data. Tahap-tahap yang dimaksud digambarkan seperti Gambar 2.1. berikut ini:
Gambar 2.1 . Proses Menggali Pengetahuan Dari Pangkalan Data
Sumber; Han.J Kember, 2006 Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi
beberapa tahap yang diilustrasikan di Gambar 2.1. Tahap-tahap tersebut. bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge
base.
Universitas Sumatera Utara
1. Data Selection
Pada proses ini dilakukan pemilihan himpunan data, menciptakan himpunan data target, atau memfokuskan pada subset variabel sampel
data dimana penemuan akan melakukan. Hasil seleksi disimpan dalam satu berkas yang terpisah dari basis data operasional.
2. Pre-Processing
Pre-Processing dilakukan untuk membuang data yang tidak konsisten dan noise, duplikasi data,memperbaiki kesalahan data dan boleh juga
diperkaya dengan data eksternal yang relevan. 3.
Transformation Proses ini mentransformasikan atau menggabungkan ke dalam data yang
lebih tepat untuk melakukan proses mining dengan cara melakukan peringkasan.
4. Data Mining
Proses data mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik, metode atau algoritma
tertentu. 5.
Evaluasi Proses untuk menterjemahkan pola-pola yang dihasilkan dari data mining.
Mengevaluasi apakah pola atau informasi yang ditemukan bersesuaian atau bertentangan dengan fakta atau hipotesa sebelum nya.
Perkembangan teknologi informasi yang pesat ditambah dengan dukungan database mengakibatkan semakin banyaknya data yang ada baik itu di perusahaan
maupun di instansi-instansi bahkan di perguruan tinggi. Data-data yang sangat banyak ini bisa diolah lebih lanjut menjadi suatu informasi yang berguna misalnya
digunakan sebagai dasar dalam pengambilan keputusan pada perusahaan atau instansi-instansi bahkan di perguruan tinggi. Untuk mendapatkan informasi yang
berguna data-data tersebut harus diolah dengan metode yang tepat. Dengan metode penggalian data atau dikenal dengan data mining informasi tersebut untuk
didapatkan. Data mining juga dapat didefinisikan sebagai suatu teknik yang digunakan untuk menggali informasi yang berharga dan tersembunyi dalam suatu
Universitas Sumatera Utara
himpunan data yang berukuran besar, output dari data mining dapat dipakai untuk memperbaiki pengambilan keputusan.
Pada dasarkan data mining berhubungan dengan analisis data dan penggunaan perangkat lunak untuk mencari pola dan kesamaan dalam
sekelompok data. Ide dasarnya menggali sumber yang berharga dari tempat yang sama sekali tidak terduga, seperti perangkat lunak. Data mining mengekstrasi pola
yang sebelumnya tidak terlihat atau tidak begitu jelas sehingga tidak terperhatikan sebelumnya. Analisis data mining berjalan pada data yang cenderung terus
meningkat dan teknik terbaik yang digunakan kemudian berorientasi kepada data yang berukuran sangat besar untuk mendapatkan kesimpulan dan keputusan
paling layak. Data mining memiliki beberapa sebutan antara lain yaitu : Knowledge Discovery MiningI in Databases KDD, ekstraksi pengetahuan
knowledge extraction, analisis data pola , kecerdasan bisnis business intelligence.
Beberapa faktor yang mendukung perlunya data mining adalah : 1.
Data telah mencapai jumlah dan ukuran yang sangat besar. 2.
Telah dilakukan proses data warehousing. 3.
Kemampuan komputasi yang semakin terjangkau. 4.
Persaingan bisnis yang semakin ketat.
Secara sederhana data mining mengacu pada pengekstrakan suatu pengetahuan dari banyaknya data. Sehingga data mining dapat disebut secara tepat
dengan data pengetahuan yang diambil dari data sangat besar. Mining itu sendiri berkarakteristik pada proses yang menemukan sekumpulan data kecil yang
berharga dari sekian banyak data yang ada. Data mining mencari suatu yang baru yang bernilai tinggi dan informasi
yang sangat penting dalam jumlah data yang sangat besar. Dibutuhkan sebuah kerjasama yang baik antara manusia dengan komputer. Hasil terbaik merupakan
kombinasi yang seimbang antara kemampuan manusia dalam memecahkan masalah dan kemampuan sistem komputer yang digunakan untuk memecahkan
masalah tersebut.
Universitas Sumatera Utara
2.2 Klastering