MESIN PENCARI GAMBAR GEOMETRI BANGUN DATAR MENGGUNAKAN AGGLOMERATTIVE HIERARCHICAL CLUSTERING
MESIN PENCARI GAMBAR GEOMETRI BANGUN DATAR
MENGGUNAKAN AGGLOMERATTIVE HIERARCHICAL
CLUSTERING
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika Oleh :
Astriana Krisma Risky 095314005
PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2013
SEARCH ENGINE OF SHAPES GEOMETRY IMAGE BY USING AGGLOMERATTIVE HIERARCHICAL CLUSTERING A THESIS
Presented as Partial Fulfillment of The Requirements To Obtain The
Sarjana Komputer Degree
Informatics Engineering Study Program By :
Astriana Krisma Risky 095314005
INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 2013
Abstrak
Penelitian ini memiliki peranan dalam menampilkan nama, rumus, dan keterangan gambar bangun datar menggunakan
Agglomerative Hierarchical Clustering. Dengan melalui beberapa
proses preprocessing image sebelum dilakukan ekstrak fitur, kemudian dari matriks fitur yang ada dihitung jarak kedekatannya menggunakan
Euclidean Distance dalam metode single, average
dan complete linkage untuk 50 gambar bangun datar yang dibuat menggunakan aplikasi paint sebagai data training.
Hasil yang didapatkan dengan metode
complete dan average linkage menghasilkan cluster yang sedikit baik dengan
nilai akurasi 88,89% daripada
single linkage yang menghasilkan
nilai akurasi 86,67% dalam proses pengenalan model sebagai validasi cluster dan 75,56% sebagai hasil dari uji tunggal sebanyak 45 gambar bangun datar. Namun ketiganya dapat membedakan lingkaran dengan segitiga maupun lingkaran dengan segi empat dengan baik. Saran yang diberikan untuk penelitian lebih lanjut menggunakan Agglomerative Hierarchical Clustering adalah perlu pengembangan dalam ekstrak fitur untuk dapat membedakan detail dengan lebih baik agar mampu mengurangi batasan gambar
input.
Abstract
This research have a role to show the name, formula, and information about shapes image by using Agglomerative Hierarchical Clustering. Some preprocessing image process done before feature extraction, then the existing features of the matrix is computed the similarity with Euclidean Distance in single, average and complete linkage method to 50 shapes images are created using paint application as training data.
Results obtained using complete linkage method produces cluster with values slightly better accuracy 88,89% than a single linkage that produce accuracy value 86,67% in cluster validation as model recognition and 75,56% as a result from single test to 45 shapes images. But all three methods can distinguish circle with triangle or circle with square well. Suggestion for next research using
Agglomerative Hierarchical Clustering is necessary to
develop feature extraction to distinguish detail with better input image in order to reduce the limit.
KATA PENGANTAR
Puji syukur dan terima kasih kepada Tuhan Yang Maha Esa atas berkat yang diberikan kepada saya dalam proses penyusunan sampai dengan penyelesaian skripsi ini.
Skripsi ini disusun untuk memperoleh gelar sarjana komputer di Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, Universitas Sanata Dharma, Yogyakarta. Skripsi ini juga disusun sebagai sumbangan sedikit pengetahuan, sehingga saya dapat memberikan sedikitnya kontribusi pada perkembangan ilmu pengetahuan berikutnya.
Ucapan terima kasih saya atas dukungan dan doa yang ditujukan kepada : 1. Paulina Heruningsih Prima Rosa, S.Si, M.Sc., selaku Dekan Fakultas Sains dan Teknologi, Universitas Sanata Dharma.
2. Ridowati Gunawan, S.Kom, M.T., selaku Ketua Program Studi Teknik Informatika, Universitas Sanata Dharma dan dosen penguji skripsi.
3. Dr. C. Kuntoro Adi, S.J., M.A., M.Sc., selaku pembimbing skripsi.
4. Sri Hartati Wijono, S.Si, M.Kom., selaku dosen penguji skripsi dan Wakil Ketua Program Studi Teknik Informatika, Universitas Sanata Dharma.
5. Orang tua dan adik beserta keluarga tercinta yang selalu memberikan dukungan dan doa.
6. Retty, Ratna, Adhini, dan Wienda yang memberikan dukungan, menghibur dan teman suka duka yang selalu ada.
DAFTAR ISI
Halaman Judul ..................................................................................................... i Halaman Judul ..................................................................................................... ii Halaman Persetujuan .......................................................................................... iii Halaman Pengesahan .......................................................................................... iv PERNYATAAN KEASLIAN HASIL KARYA ................................................... v PERNYATAAN PERSETUJUAN PUBLIKASI ................................................. vi
DAFTAR GAMBAR
Gambar 2.1.Data Mining : Proses KDD ............................................................ 9
Gambar 2.2. Dendrogram Hierarchical Clustering : Agglomerative, Divisive .. 21Gambar 2.3. Hierarchical Clustering : Agglomerative, Single Linkage ............. 23Gambar 2.4. Hierarchical Clustering : Agglomerative, Complete Linkage ........ 24Gambar 2.5. Hierarchical Clustering : Agglomerative, Average Linkage .......... 24Gambar 2.6. Segitiga sama sisi ......................................................................... 29Gambar 2.7. Segitiga sama kaki ........................................................................ 29Gambar 2.8. Segitiga siku-siku ......................................................................... 29Gambar 2.9. Segitiga sembarang ...................................................................... 30Gambar 2.10. Segitiga tumpul .......................................................................... 30Gambar 2.11. Persegi ....................................................................................... 31Gambar 2.12. Persegi panjang .......................................................................... 31Gambar 2.13. Jajargenjang ............................................................................... 32Gambar 2.14. Belah katupat ............................................................................. 33Gambar 2.15. Layang-layang ............................................................................ 33Gambar 2.16. Trapesium sembarang ................................................................. 34Gambar 2.17. Trapesium siku-siku ................................................................... 34Gambar 2.18. Trapesium sama kaki .................................................................. 34Gambar 2.19. Lingkaran................................................................................... 35
Gambar 2.20. Elips ........................................................................................... 36 Gambar 2.21.Confussion Matrix ...................................................................... 38
Gambar 3.1. Diagram alur proses pemodelan .................................................... 40Gambar 3.2. Diagram alur proses ekstrak fitur .................................................. 40Gambar 3.3. Diagram alur proses Agglomerative Hierarchical Clustering ........ 40 Gambar 3.4.Flowchart Sistem Validasi Fitur ................................................... 41
Gambar 3.5. Gambar file training ..................................................................... 44Gambar 3.6. Contoh pemotongan gambar ......................................................... 45Gambar 3.7. Membagi menjadi 5x5 untuk ekstrak fitur .................................... 46Gambar 3.8. Grafik model segitiga ................................................................... 48Gambar 3.9. Grafik model segi empat............................................................... 49
Gambar 3.10. Grafik model lingkaran ............................................................... 49Gambar 3.11. Use Case Diagram ...................................................................... 51Gambar 3.12. Desain I nterface sistem .............................................................. 54Gambar 4.1. Hasil Pemotongan gambar segitiga siku-siku ................................ 57 Gambar 4.2.Dendrogram hirarki hasil clustering ............................................. 65
Gambar 4.3. Dendrogram masing-masing cluster dengan single linkage .......... 67Gambar 4.4. Dendrogram masing-masing cluster dengan complete linkage ...... 68 Gambar 4.5.Dendrogram masing-masing cluster dengan average linkage ....... 69
Gambar 4.6. Interface searching bangun datar untuk user ................................. 71Gambar 5.1. Gambar datafile testing atau pengujian ........................................ 73
Gambar 5.2 Hasil transformasi citra biner jajargenjang ..................................... 74Gambar 5.3. Hasil transformasi citra biner segitiga ........................................... 74Gambar 5.4. Hasil transformasi citra biner lingkaran........................................ 74
Gambar 5.5. Hasil pemotongan gambar layang-layang ..................................... 75Gambar 5.6. Hasil pemotongan gambar elips.................................................... 76
Gambar 5.7. Hasil rotasi gambar segitiga .......................................................... 76Gambar 5.8. Hasil rotasi gambar persegi .......................................................... 77Gambar 5.9. Data gambar pengujian grup 1...................................................... 80
Gambar 5.10. Data gambar pengujian grup 2 .................................................... 81Gambar 5.11. Data gambar pengujian grup 3 .................................................... 81
DAFTAR TABEL
Tabel 3.1.Confussion Matrix 3x3 ...................................................................... 50
Tabel 3.2. Definisi Use Case ............................................................................. 52Tabel 3.3. Ilustrasi sorting ................................................................................. 83Tabel 5.1. Akurasi hasil Agglomerative Hierarchical Clustering ....................... 79Tabel 5.2. Confussion matrix single linkage kelompok 1 ................................... 82 Tabel 5.3.Confussion matrix single linkage kelompok 2 ................................... 82
Tabel 5.4. Confussion matrix single linkage kelompok 3 ................................... 83Tabel 5.5. Confussion matrix complete linkage kelompok 1............................... 84 Tabel 5.6.Confussion matrix complete linkage kelompok 2............................... 84
Tabel 5.7. Confussion matrix complete linkage kelompok 3............................... 85 Tabel 5.8.Confussion matrix average linkage kelompok 1 ................................ 86
Tabel 5.9. Confussion matrix average linkage kelompok 2 ................................ 86Tabel 5.10. Confussion matrix average linkage kelompok 3 .............................. 87Tabel 5.11. Hasilclustering data training .......................................................... 96
Tabel 5.12. Hasil uji tunggal data testing ........................................................... 97BAB I PENDAHULUAN Bab ini menjelaskan mengenai desain atau gambaran aplikasi yang akan
dibuat dan dikembangkan mulai dari latar belakang penelitian, rumusan masalah, batasan-batasan masalah, tujuan penelitian, luaran, manfaat, metodologi penelitian dan sistematika penulisan.
1.1 Latar Belakang
Matematika merupakan salah satu cabang ilmu yang sangat penting dan
diajarkan mulai dari jenjang SD sampai dengan perguruan tinggi. Hingga
sekarang, matematika dikategorikan sebagai mata pelajaran yang selalu ikut serta
dalam daftar mata pelajaran yang diujikan secara nasional mulai jenjang SD
hingga SMA. Bagi banyak orang, matematika berguna sebagai penunjang dalam
mengembangkan ilmu-ilmu lainnya sehingga mampu berpikir logis, kritis, tekun,
bertanggung jawab dan mampu menyelesaikan persoalan (Kultsum, 2009). Namun
banyak yang menganggap matematika sulit dan bahkan menakutkan, maka
banyak orang lebih mengabaikan dan justru tidak mengetahui dasar-dasar
perhitungan matematika. Hal ini sangat memprihatinkan mengingat pengetahuan
dasar matematika menjadi dasar perhitungan untuk tingkat yang lebih tinggi
dalam berbagai bidang.Dapat diambil sebagai contoh adalah bangun datar atau lebih dikenal
dengan istilah Geometri. Geometri perlu dipelajari karena geometri dapat melatih
kita untuk berpikir logis, kerja yang sistematis, menghidupkan kreativitas serta
dapat mengembangkan kemampuan berinovasi (Aisah, 2012). Penerapan bangun
datar sangat banyak ditemukan dalam pembelajaran arsitektur suatu bangunan,
desain gambar baik satu dimensi maupun tiga dimensi, dan ilmu lainnya yang
membutuhkan dasar perhitungan mengenai bangun datar dan bangun ruang.
Pembelajaran geometri bidang datar dimulai dengan menyelidiki keseluruhan atau
garis besar atau bentuk bangunnya terlebih dahulu, kemudian baru ke unsur-unsur
yang makin kecil dan sederhana. Misalnya dimulai dari bangun datar, dilanjutkan
dengan sisi, sifat-sifat sejajar, tegak lurus, ukuran dan akhirnya titik sudut
(Suharjana, 2008).Geometri ruang telah diajarkan sejak SD, namun ternyata kemampuan
siswa dalam menyelesaikan soal-soal dimensi dua masih rendah hanya karena penyajian dalam gambar mengharuskan bentuk persegi menjadi bentuk jajargenjang. Hasil survey
Programme for International Student Assessment
(PISA) 2000/2001 menunjukkan bahwa siswa lemah dalam geometri, khususnya dalam pemahaman ruang dan bentuk (Suwaji, 2008).
Untuk membantu siswa memahami materi
geometri khususnya bangun
datar, diperlukan cara alternatif seperti membangun sebuah aplikasi untuk mempermudah siswa dalam membedakan bangun datar satu dengan yang lain.
Bangun datar sendiri terdiri dari 3 kelompok besar yaitu segitiga, segi empat, dan lingkaran. Masing-masing anggota kelompok mempunyai kemiripan yang besar dibanding anggota kelompok lain, maka digunakan
cluster untuk mengelompokan
bangun-bangun datar geometri yang berdasarkan pada similaritas atau tingkat kemiripan antar obyek menggunakan Agglomerative Hierarchical Clustering karena akan mudah diketahui kedekatannya menggunakan bentuk hirarki . Tetapi sejauh mana peran dari Agglomerative Hierarchical Clustering dalam menampilkan model dan hasil pencarian yang relevan akan dilihat melalui evaluasi akurasi.
1.2 Rumusan Masalah
Berdasarkan uraian latar belakang di atas, maka yang menjadi rumusan masalah dalam penelitian ini adalah : Sejauh mana Agglomerative Hierarchical Clustering dapat menampilkan hasil pencarian yang relevan berupa nama, rumus, dan keterangan dari gambar bangun datar yang diinputkan dalam sebuah aplikasi mesin pencari?
1.3 Batasan Masalah
Penelitian ini hanya membahas pada materi geometri bangun datar matematika tingkat SMP karena materi ini sangat relevan digunakan sebagai penelitian dengan menggunakan aplikasi
searching berdasarkan gambar sebuah
bangun datar sebagai input. Selain itu, materi bangun datar sendiri cukup memiliki banyak sub bab dan bagian-bagiannya masing-masing, sehingga sangat relevan untuk dikerjakan. Untuk pemanfaatannya juga sangat banyak yang menggunakan dasar perhitungan dari rumus sederhana bangun datar, sehingga akan dapat membantu siswa siswi tingkat SMP yang kurang paham.
Materi-materi tersebut meliputi bangun-bangun datar seperti segitiga, lingkaran, elips, persegi, persegi panjang, jajargenjang, belah ketupat,layang- layang, dan trapesium yang membahas berupa istilah, luas dan keliling, sifat-sifat bangun datar. Selain itu input gambar bangun datar dari gambar tangan manual atau buku materi pembelajaran baik diambil menggunakan kamera ataupun
scanner, diharapkan memiliki tingkat kontras yang cukup baik (sisi terang atau
gelap tidak mendominan terlalu banyak), sedikit noise, dan hanya terdiri dari 1 buah gambar dalam sekali input. Untuk hasil maksimal, digunakan gambar yang dibuat dengan aplikasi paint.
1.4 Tujuan Penelitian
Untuk menyelesaikan masalah dan mewujudkan apa yang menjadi manfaat, maka tujuan dari penelitian ini adalah :
1. Merancang suatu cara pengenalan bangun datar dalam pendekatan Agglomerative Hierarchical Clustering.
2. Merancang sebuah prototype yang relevan sebagai mesin pencari untuk siswa siswi SMP.
3. Membangun sebuah aplikasi mesin pencari berdasarkan input gambar
geometri bangun datar dengan hasil pencarian yang relevan menggunakan Agglomerative Hierarchical Clustering.
4. Menghitung akurasi dari sistem aplikasi yang dihasilkan sebagai evaluasi.
1.5 Luaran
Dari penelitian ini, luaran yang diharapkan adalah sebuah aplikasi mesin pencari berdasarkan input gambar geometri bangun datar dengan hasil pencarian yang relevan menggunakan Agglomerative Hierarchical Clustering.
1.6 Manfaat
Dalam penelitian ini, maanfaat yang ingin didapat antara lain : 1. Membantu siswa siswi tingkat SMP dalam pemahaman materi geometri yang cukup penting untuk terapan ilmu lain di jenjang yang lebih tinggi.
2. Membantu guru matematika dalam menyiapkan sebuah alat peraga pembahasan materi geometri.
3. Menampilkan hasil searching dari sebuah mesin pencari yang cukup relevan dengan gambar yang digunakan user sebagai input.
1.7 Metode Penelitian
Metodologi yang dipakai untuk penelitian ini adalah materi geometri bangun datar menggunakan algoritma
Agglomerative Hierarchical Clustering
untuk pemodelan dan mengenali gambar input user sebuah bangun datar yang divalidasi dengan mencari similaritas dengan data gambar yang tersimpan untuk dihasilkan output berupa istilah mengenai gambar input user, rumus, sifat-sifat dan keterangan.
1.8 Sistematika Penulisan
Sistematika penulisan yang digunakan dalam penelitian ini adalah :
- BAB I PENDAHULUAN
Bab ini menjelaskan latar belakang penelitian, rumusan masalah, batasan-batasan masalah, tujuan penelitian, luaran, manfaat, metodologi penelitian dan sistematika penulisan.
- BAB II LANDASAN TEORI
Bab ini menjelaskan dasar-dasar teori yang dipakai sebagai referensi dan acuan dalam penelitian dan pembuatan aplikasi sebagai implementasi.
- BAB III ANALISA DAN DESAIN
Bab ini menjelaskan mengenai metode yang dipakai dalam penelitian dan pembuatan aplikasi sebagai implementasi. Juga disebutkan pengertian dan hal-hal yang terkait dengan metode yang dipakai tersebut.
- BAB IV IMPLEMENTASI
Bab ini dapat berisi mengenai listing program dari hasil implementasi yang telah dibuat beserta penjelasan singkat dan output hasil dari implementasi tersebut.
- BAB V HASIL DAN PENGUJIAN
Bab ini berisi mengenai evaluasi dari hasil aplikasi yang telah diimplementasikan berupa nilai akurasi yang didapat dan analisanya.
- BAB VI PENUTUP Bab ini berisi kesimpulan dan saran dari penulis.
BAB II LANDASAN TEORI Bab ini menjelaskan mengenai dasar teori yang akan digunakan dalam
implementasi meliputi pengertian
data mining sebagai Knowledge Discovery
Database secara umum, tahapan dalam data mining, cara pengelompokan data
mining, pengertian algoritma clustering, teknik analisis dalam cluster hirarki,
pengertian fungsi jarak, geometri, sudut, dan jenis-jenis geometri bangun datar, serta validasi cluster dan alat ukur akurasi.
2.1 Data Mining : Knowledge Discovery Database (KDD)
Data mining sering juga disebut knowledge discovery in database (KDD)
yang berarti kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar.
Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan (Santoso, 2007). Data mining adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual (Pramudiono, 2003). Data mining juga dapat dikatakan bidang dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk penanganan permasalahan pengambilan informasi dari database yang besar (Larose, 2005). Selain itu,
data mining juga dapat dikatakan sebagai kegiatan untuk menemukan
pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam
database, data warehouse, atau penyimpanan informasi lainnya. Data mining
berkaitan dengan bidang ilmu-ilmu lain, seperti database system, data
warehousing, statistik, machine learning, information retrieval, dan komputasi
tingkat tinggi. Selain itu,
data mining didukung oleh ilmu lain seperti neural
network, pengenalan pola, spatial data analysis, image database, signal
processing (Han, 2006). Data mining adalah proses yang menggunakan teknik
statistik, matematika, kecerdasan buatan dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban, dkk. 2005).
Masalah-masalah yang dapat diselesaikan dengan teknik data mining dapat dicirikan dengan (Piatetsky & Shapiro, 2006) : memerlukan keputusan yang bersifat knowlegde-based,
- mempunyai lingkungan yang berubah,
- metode yang ada sekarang bersifat sub-optimal,
- tersedia data yang bisa diakses, cukup dan relevan,
- memberikan keuntungan yang tinggi jika keputusan yang diambil tepat.
- Berdasarkan beberapa pengertian di atas, dapat ditarik kesimpulan bahwa
data mining adalah suatu teknik untuk menggali informasi berharga yang
terpendam atau tersembunyi pada suatu koleksi data (
database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui.
Kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu
data mining sebenarnya memiliki akar
yang panjang dari bidang ilmu seperti kecerdasan buatan ( artificial intelligent),
machine learning, statistik dan database. Beberapa metode yang sering disebut-
sebut dalam literatur data mining antara lain clustering, classification, association
rules mining, neural network, genetic algorithm dan lain-lain (Pramudiono, 2003).
2.2 Tahapan Data Mining
Data yang ada tidak dapat langsung diolah menggunakan sistem data
mining. Data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh
dapat lebih maksimal, dan waktu komputasinya lebih minimal. Proses persiapan data ini sendiri dapat mencapai 60 % dari keseluruhan proses dalam
data mining.
Proses KDD secara garis besar dapat dijelaskan sebagai berikut (Fayyad, 1996) :
Gambar 2.1. Data Mining : Proses KDD (Fayyad, 1996)Menurut Kusrini (Kusrini & Emha, 2009), proses KDD dapat diuraikan sebagai berikut : Seleksi Data (Data Selection)
- Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses
data mining, disimpan dalam suatu berkas, terpisah dari database operasional.
Pra-pemrosesan / Pembersihan (Pre-processing / Cleaning)
- Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak ( tipografi). Juga dilakukan proses enrichment
, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal. Transformasi (
Transformation) - Coding adalah proses transformasi pada data yang telah dipilih,
sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam database.
Data mining - Data mining adalah proses mencari pola atau informasi menarik dalam
data yang terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam
data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
Interpretasi / Evaluasi ( Interpretation / Evaluation)
- Pola informasi yang dihasilkan dari proses
data mining perlu
ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut
interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi
yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.
2.3 Pengelompokan Data Mining
Menurut Larose , data mining dapat dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2005) :
1. Deskripsi (Description)
Terkadang peneliti dan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data.
Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan.
2. Estimasi (Estimation) Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan
record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi.
Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilkan model estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya.
3. Prediksi (Prediction) Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa datang. Contoh prediksi dalam bisnis dan penelitian adalah : prediksi harga beras dalam tiga bulan yang akan datang,
- prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas
- bawah kecepatan dinaikkan.
Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.
4. Klasifikasi (Classification) Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah. Contoh lain klasifikasi dalam bisnis dan penelitian adalah : memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan
- suatu kredit yang baik atau buruk, mendiagnosis penyakit seorang pasien untuk mendapatkan kategori penyakit
- apa.
5. Pengelompokan (Clustering)
Clustering merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.
Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang
lainnya dan memiliki ketidakmiripan dengan record-record dalam cluster lain.Pengelompokan berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam pengelompokan. Pengelompokan tidak mencoba untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma pengelompokan mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan
record dalam satu kelompok akan bernilai
maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal. Contoh pengelompokan dalam bisnis dan penelitian adalah : melakukan pengelompokan terhadap ekspresi dari gen, untuk mendapatkan
- kemiripan perilaku dari gen dalam jumlah besar,
- mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar,
- untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap perilaku finansial dalam baik dan mencurigakan.
6. Asosiasi (Assosiation)
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja. Contoh asosiasi dalam bisnis dan penelitian adalah :
- menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli secara bersamaan,
- meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respons positif terhadap penawaran
upgrade layanan yang diberikan.
2.4 Algoritma Clustering (Clustering Algorithm)
Clustering (pengelompokan data) mempertimbangkan sebuah pendekatan
penting untuk mencari kesamaan dalam data dan menempatkan data yang sama ke dalam kelompok-kelompok. Clustering membagi kumpulan data ke dalam beberapa kelompok dimana kesamaan dalam sebuah kelompok adalah lebih besar daripada diantara kelompok-kelompok (Rui Xu & Donald 2009).
Gagasan mengenai pengelompokan data, atau clustering, memiliki sifat yang sederhana dan dekat dengan cara berpikir manusia; kapanpun kepada kita dipresentasikan jumlah data yang besar, kita biasanya cenderung merangkumkan jumlah data yang besar ini ke dalam sejumlah kecil kelompok-kelompok atau kategori-kategori untuk memfasilitasi analisanya lebih lanjut. Selain itu, sebagian besar data yang dikumpulkan dalam banyak masalah terlihat memiliki beberapa sifat yang melekat yang mengalami pengelompokan-pengelompokan natural (Hammouda & Karray, 2003). Namun, penemuan pengelompokan- pengelompokan ini atau upaya untuk mengkategorikan data adalah bukan sebuah tugas yang sederhana bagi manusia kecuali data memiliki dimensionalitas rendah (dua atau tiga dimensi paling banyak). Inilah sebabnya mengapa beberapa metode dalam soft computing telah dikemukakan untuk menyelesaikan jenis masalah ini.
Metode ini disebut “Metode-metode Pengelompokan Data” (Hammouda & Karray, 2003).
Algoritma-algoritma clustering digunakan secara ekstensif tidak hanya untuk mengorganisasikan dan mengkategorikan data, akan tetapi juga sangat bermanfaat untuk kompresi data dan konstruksi model. Melalui pencarian kesamaan dalam data, seseorang dapat merepresentasikan data yang sama dengan lebih sedikit simbol. Selain itu, jika kita dapat menemukan kelompok-kelompok data, kita dapat membangun sebuah model masalah berdasarkan pengelompokan- pengelompokan ini (Dubes & Jain, 1988).
Clustering menunjuk pada pengelompokan record, observasi-observasi,
atau kasus-kasus ke dalam kelas-kelas objek yang sama. Cluster adalah sekumpulan record yang adalah sama dengan satu sama lain dan tidak sama dengan record dalam cluster lain. Clustering berbeda dari klasifikasi dimana tidak ada variabel target untuk clustering. Tugas clustering tidak mencoba untuk mengklasifikasikan, mengestimasi, atau memprediksi nilai variabel target (Larose, 2005). Bahkan, algoritma clustering berusaha mensegmentasikan seluruh kumpulan data ke dalam sub kelompok atau cluster-cluster homogen secara relatif. Dimana kesamaan record dalam cluster dimaksimalkan dan kesamaan dengan record diluar cluster ini diminimalkan.
Clustering sering dilaksanakan sebagai langkah pendahuluan dalam proses
pengumpulan data, dengan cluster-cluster yang dihasilkan digunakan sebagai input lebih lanjut ke dalam sebuah teknik yang berbeda, seperti neural network.
Karena ukuran yang besar dari banyak database yang dipresentasikan saat ini, maka sering sangat membantu untuk menggunakan analisa clustering terlebih dahulu, untuk mengurangi ruang pencarian untuk algoritma-algoritma
downstream. Aktivitas clustering pola khusus meliputi langkah-langkah berikut
(Dubes & Jain, 1988) : representasi pola (secara opsional termasuk ekstraksi dan/atau seleksi sifat),
- definisi ukuran kedekatan pola yang tepat untuk domain data,
- clustering pengelompokan,
penarikan data (jika dibutuhkan),
- pengkajian output (jika dibutuhkan).
- Representasi pola merujuk pada jumlah kelas, jumlah pola-pola yang ada, dan jumlah, tipe dan skala fitur yang tersedia untuk algoritma clustering.
Beberapa informasi ini dapat tidak bisa dikontrol oleh praktisioner. Seleksi sifat (fitur) adalah proses pengidentifikasian subset fitur original yang paling efektif untuk digunakan dalam clustering. Ekstraksi fitur adalah penggunaan satu atau lebih transformasi dari sifat-sifat input untuk menghasilkan sifat-sifat baru yang lebih baik.
Pertimbangkan dataset X yang terdiri dari point-point data (atau secara sinonim, objek-objek, hal-hal, kasus-kasus, pola, tuple, transaksi) x = (x ) , …, x
i i1 id
Є A dalam ruang atribut A, dimana i = 1, N, dan setiap komponen adalah sebuah atribut
A kategori numerik atau nominal. Sasaran akhir dari clustering adalah untuk menentukan point-point pada sebuah sistem terbatas dari subset k, cluster.
Biasanya subset tidak berpotongan (asumsi ini terkadang dilanggar), dan kesatuan mereka sama dengan dataset penuh dengan pengecualian yang memungkinkan
outlier. C adalah sekelompok point data dalam dataset X, dimana X = C .. C ..
i i k C , C .. C = 0. outliers j1 j2Menurut William (William, 2005), algoritma clustering terbagi ke dalam kelompok besar seperti berikut :
1. Partitioning algorithms: algoritma dalam kelompok ini membentuk bermacam partisi dan kemudian mengevaluasinya dengan berdasarkan beberapa kriteria.
2. Hierarchy algorithms: pembentukan dekomposisi hirarki dari sekumpulan data menggunakan beberapa kriteria.
3. Density-based: pembentukan cluster berdasarkan pada koneksi dan fungsi densitas.
4. Grid-based: pembentukan cluster berdasarkan pada struktur multiple-
level granularity 5.
Model-based: sebuah model dianggap sebagai hipotesa untuk masing- masing cluster dan model yang baik dipilih diantara model hipotesa tersebut.
2.4.1 K-Means Clustering
Algoritma K-Means adalah algoritma yang disusun atas dasar ide yang sederhana. Ada awalnya ditentukan berapa cluster yang akan dibentuk.
Sembarang obyek atau elemen pertama dalam cluster dapat dipilih untuk dijadikan sebagai titik tengah ( centroid point) cluster. Algoritma K-Means selanjutnya akan melakukan pengulangan langkah-langkah berikut sampai terjadi kestabilan (tidak ada obyek yang dapat dipindahkan) :
1. menentukan koordinat titik tengah setiap cluster, 2. menentukan jarak setiap obyek terhadap koordinat titik tengah, 3. mengelompokkan obyek-obyek tersebut berdasarkan pada jarak minimumnya.
Algoritma K-means dinilai cukup efisien, yang ditunjukkan dengan kompleksitasnya O(tkn), dimana n adalah banyaknya obyek data, k adalah jumlah
cluster yang dibentuk, dan t banyaknya iterasi. Nilai k dan t jauh lebih kecil
daripada nilai n. Selain itu, dalam iterasinya, algoritma ini akan berhenti dalam kondisi optimum lokal (William, 2005). Sedangkan kelemahan algoritma ini adalah adanya keharusan menetukan banyaknya
cluster yang akan dibentuk,
hanya dapat digunakan dalam data yang mean-nya dapat ditentukan, dan tidak mampu menangani data yang mempunyai penyimpangan-penyimpangan ( noisy
data dan outlier). Selai itu juga bergantung pada pemilihan nilai awal centroid,
tidak diketahui berapa banyak cluster k yang terbaik, dan hanya bekerja pada atribut numerik.
2.4.2 Clustering Hirarki (Hierarchical Clustering)
Clustering Hirarki membangun sebuah Hirarki cluster atau dengan kata
lain sebuah pohon cluster, yang juga dikenal sebagai dendrogram. Setiap node
cluster mengandung cluster anak; cluster-cluster saudara yang membagi point
yang ditutupi oleh induk mereka. Metode-metode clustering Hirarki dikategorikan ke dalam
agglomeratif (bawah-atas) dan divisive (atas-bawah) (Jain & Dubes,
1988; Kaufman & Rousseeuw, 1990). Clustering agglomeratif dimulai dengan cluster satu point
(singleton) dan secara berulang menggabungkan dua atau lebih
cluster yang paling tepat. Cluster divisive dimulai dengan satu cluster dari semua
point data dan secara berulang membagi cluster yang paling tepat. Proses tersebut berlanjut hingga kriteria penghentian (seringkali, jumlah k yang diperlukan dari
cluster) dicapai. Kelebihan cluster Hirarki meliputi:
fleksibilitas yang tertanam mengenai level granularitas,
- kemudahan menangani bentuk-bentuk kesamaan atau jarak,
- dapat digunakan pada tipe-tipe atribut apapun.
- Kelemahan dari
clustering Hirarki berhubungan dengan:
ketidakjelasan kriteria terminasi,
- terhadap perbaikan h
- clustering, sebagian besar algoritma Hirarki tidak mengunjungi kembali cluster-clusternya yang telah dikonstruksi.
Ukuran kedekatan yang diperoleh disebut matrik hubungan. Tipe matrik hubungan yang digunakan secara signifikan mempengaruhi algoritma Hirarki, karena merefleksikan konsep tertentu dari kedekatan dan konektivitas. Matrik hubungan antar cluster utama (Murtagh 1985, Olson 1995) termasuk hubungan tunggal, hubungan rata-rata, dan hubungan sempurna. Semua matrik hubungan diatas dapat diperoleh sebagai jarak dari pembaharuan formula Lance-Williams (Lance & Williams, 1967).
- –
D(C · · C , C = (C , C ) + (C , C ) + (C , C ) + | (C , C ) (C , C )|
i j k i k j k bd i j c d i k d j j
ɑ (i) d ɑ (k) dDimana a, b, c adalah koefisien-koefisien yang sesuai dengan hubungan tertentu. Formula ini menyatakan sebuah matrik hubungan antara kesatuan dari dua cluster dan cluster ketiga dalam bentuk komponen-komponen yang mendasari.
Clustering Hirarki berdasarkan matrik hubungan mengalami kompleksitas
waktu. Dibawah asumsi-asumsi yang tepat, seperti kondisi daya reduksi (metode- metode grafik memenuhi kondisi ini), metode-metode matrik hubungan memiliki
2 kompleksitas (N ) (Olson 1995).
2.5 Teknik Analisis Cluster Hirarki