MESIN PENCARI GAMBAR GEOMETRI BANGUN DATAR MENGGUNAKAN AGGLOMERATTIVE HIERARCHICAL CLUSTERING

  

MESIN PENCARI GAMBAR GEOMETRI BANGUN DATAR

MENGGUNAKAN AGGLOMERATTIVE HIERARCHICAL

CLUSTERING

SKRIPSI

  Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer

  Program Studi Teknik Informatika Oleh :

  Astriana Krisma Risky 095314005

  

PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2013

  SEARCH ENGINE OF SHAPES GEOMETRY IMAGE BY USING AGGLOMERATTIVE HIERARCHICAL CLUSTERING A THESIS

  Presented as Partial Fulfillment of The Requirements To Obtain The

  Sarjana Komputer Degree

  Informatics Engineering Study Program By :

  Astriana Krisma Risky 095314005

INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 2013

  Abstrak

  Penelitian ini memiliki peranan dalam menampilkan nama, rumus, dan keterangan gambar bangun datar menggunakan

  Agglomerative Hierarchical Clustering. Dengan melalui beberapa

  proses preprocessing image sebelum dilakukan ekstrak fitur, kemudian dari matriks fitur yang ada dihitung jarak kedekatannya menggunakan

  Euclidean Distance dalam metode single, average

  dan complete linkage untuk 50 gambar bangun datar yang dibuat menggunakan aplikasi paint sebagai data training.

  Hasil yang didapatkan dengan metode

  complete dan average linkage menghasilkan cluster yang sedikit baik dengan

  nilai akurasi 88,89% daripada

  single linkage yang menghasilkan

  nilai akurasi 86,67% dalam proses pengenalan model sebagai validasi cluster dan 75,56% sebagai hasil dari uji tunggal sebanyak 45 gambar bangun datar. Namun ketiganya dapat membedakan lingkaran dengan segitiga maupun lingkaran dengan segi empat dengan baik. Saran yang diberikan untuk penelitian lebih lanjut menggunakan Agglomerative Hierarchical Clustering adalah perlu pengembangan dalam ekstrak fitur untuk dapat membedakan detail dengan lebih baik agar mampu mengurangi batasan gambar

  input.

  Abstract

  This research have a role to show the name, formula, and information about shapes image by using Agglomerative Hierarchical Clustering. Some preprocessing image process done before feature extraction, then the existing features of the matrix is computed the similarity with Euclidean Distance in single, average and complete linkage method to 50 shapes images are created using paint application as training data.

  Results obtained using complete linkage method produces cluster with values slightly better accuracy 88,89% than a single linkage that produce accuracy value 86,67% in cluster validation as model recognition and 75,56% as a result from single test to 45 shapes images. But all three methods can distinguish circle with triangle or circle with square well. Suggestion for next research using

  Agglomerative Hierarchical Clustering is necessary to

  develop feature extraction to distinguish detail with better input image in order to reduce the limit.

KATA PENGANTAR

  Puji syukur dan terima kasih kepada Tuhan Yang Maha Esa atas berkat yang diberikan kepada saya dalam proses penyusunan sampai dengan penyelesaian skripsi ini.

  Skripsi ini disusun untuk memperoleh gelar sarjana komputer di Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, Universitas Sanata Dharma, Yogyakarta. Skripsi ini juga disusun sebagai sumbangan sedikit pengetahuan, sehingga saya dapat memberikan sedikitnya kontribusi pada perkembangan ilmu pengetahuan berikutnya.

  Ucapan terima kasih saya atas dukungan dan doa yang ditujukan kepada : 1. Paulina Heruningsih Prima Rosa, S.Si, M.Sc., selaku Dekan Fakultas Sains dan Teknologi, Universitas Sanata Dharma.

  2. Ridowati Gunawan, S.Kom, M.T., selaku Ketua Program Studi Teknik Informatika, Universitas Sanata Dharma dan dosen penguji skripsi.

  3. Dr. C. Kuntoro Adi, S.J., M.A., M.Sc., selaku pembimbing skripsi.

  4. Sri Hartati Wijono, S.Si, M.Kom., selaku dosen penguji skripsi dan Wakil Ketua Program Studi Teknik Informatika, Universitas Sanata Dharma.

  5. Orang tua dan adik beserta keluarga tercinta yang selalu memberikan dukungan dan doa.

  6. Retty, Ratna, Adhini, dan Wienda yang memberikan dukungan, menghibur dan teman suka duka yang selalu ada.

  

DAFTAR ISI

  Halaman Judul ..................................................................................................... i Halaman Judul ..................................................................................................... ii Halaman Persetujuan .......................................................................................... iii Halaman Pengesahan .......................................................................................... iv PERNYATAAN KEASLIAN HASIL KARYA ................................................... v PERNYATAAN PERSETUJUAN PUBLIKASI ................................................. vi

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

DAFTAR GAMBAR

Gambar 2.1.

  Data Mining : Proses KDD ............................................................ 9

Gambar 2.2. Dendrogram Hierarchical Clustering : Agglomerative, Divisive .. 21Gambar 2.3. Hierarchical Clustering : Agglomerative, Single Linkage ............. 23Gambar 2.4. Hierarchical Clustering : Agglomerative, Complete Linkage ........ 24Gambar 2.5. Hierarchical Clustering : Agglomerative, Average Linkage .......... 24Gambar 2.6. Segitiga sama sisi ......................................................................... 29Gambar 2.7. Segitiga sama kaki ........................................................................ 29Gambar 2.8. Segitiga siku-siku ......................................................................... 29Gambar 2.9. Segitiga sembarang ...................................................................... 30Gambar 2.10. Segitiga tumpul .......................................................................... 30Gambar 2.11. Persegi ....................................................................................... 31Gambar 2.12. Persegi panjang .......................................................................... 31Gambar 2.13. Jajargenjang ............................................................................... 32Gambar 2.14. Belah katupat ............................................................................. 33Gambar 2.15. Layang-layang ............................................................................ 33Gambar 2.16. Trapesium sembarang ................................................................. 34Gambar 2.17. Trapesium siku-siku ................................................................... 34Gambar 2.18. Trapesium sama kaki .................................................................. 34Gambar 2.19. Lingkaran

   ................................................................................... 35

Gambar 2.20. Elips ........................................................................................... 36 Gambar 2.21.

  Confussion Matrix ...................................................................... 38

Gambar 3.1. Diagram alur proses pemodelan .................................................... 40Gambar 3.2. Diagram alur proses ekstrak fitur .................................................. 40Gambar 3.3. Diagram alur proses Agglomerative Hierarchical Clustering ........ 40 Gambar 3.4.

  Flowchart Sistem Validasi Fitur ................................................... 41

Gambar 3.5. Gambar file training ..................................................................... 44Gambar 3.6. Contoh pemotongan gambar ......................................................... 45Gambar 3.7. Membagi menjadi 5x5 untuk ekstrak fitur .................................... 46Gambar 3.8. Grafik model segitiga ................................................................... 48Gambar 3.9. Grafik model segi empat

  ............................................................... 49

Gambar 3.10. Grafik model lingkaran ............................................................... 49Gambar 3.11. Use Case Diagram ...................................................................... 51Gambar 3.12. Desain I nterface sistem .............................................................. 54Gambar 4.1. Hasil Pemotongan gambar segitiga siku-siku ................................ 57 Gambar 4.2.

  Dendrogram hirarki hasil clustering ............................................. 65

Gambar 4.3. Dendrogram masing-masing cluster dengan single linkage .......... 67Gambar 4.4. Dendrogram masing-masing cluster dengan complete linkage ...... 68 Gambar 4.5.

  Dendrogram masing-masing cluster dengan average linkage ....... 69

Gambar 4.6. Interface searching bangun datar untuk user ................................. 71Gambar 5.1. Gambar data

  file testing atau pengujian ........................................ 73

Gambar 5.2 Hasil transformasi citra biner jajargenjang ..................................... 74Gambar 5.3. Hasil transformasi citra biner segitiga ........................................... 74Gambar 5.4. Hasil transformasi citra biner lingkaran

   ........................................ 74

Gambar 5.5. Hasil pemotongan gambar layang-layang ..................................... 75Gambar 5.6. Hasil pemotongan gambar elips

   .................................................... 76

Gambar 5.7. Hasil rotasi gambar segitiga .......................................................... 76Gambar 5.8. Hasil rotasi gambar persegi .......................................................... 77Gambar 5.9. Data gambar pengujian grup 1

   ...................................................... 80

Gambar 5.10. Data gambar pengujian grup 2 .................................................... 81Gambar 5.11. Data gambar pengujian grup 3 .................................................... 81

  

DAFTAR TABEL

Tabel 3.1.

  Confussion Matrix 3x3 ...................................................................... 50

Tabel 3.2. Definisi Use Case ............................................................................. 52Tabel 3.3. Ilustrasi sorting ................................................................................. 83Tabel 5.1. Akurasi hasil Agglomerative Hierarchical Clustering ....................... 79Tabel 5.2. Confussion matrix single linkage kelompok 1 ................................... 82 Tabel 5.3.

  Confussion matrix single linkage kelompok 2 ................................... 82

Tabel 5.4. Confussion matrix single linkage kelompok 3 ................................... 83Tabel 5.5. Confussion matrix complete linkage kelompok 1............................... 84 Tabel 5.6.

  Confussion matrix complete linkage kelompok 2............................... 84

Tabel 5.7. Confussion matrix complete linkage kelompok 3............................... 85 Tabel 5.8.

  Confussion matrix average linkage kelompok 1 ................................ 86

Tabel 5.9. Confussion matrix average linkage kelompok 2 ................................ 86Tabel 5.10. Confussion matrix average linkage kelompok 3 .............................. 87Tabel 5.11. Hasil

  clustering data training .......................................................... 96

Tabel 5.12. Hasil uji tunggal data testing ........................................................... 97

BAB I PENDAHULUAN Bab ini menjelaskan mengenai desain atau gambaran aplikasi yang akan

  dibuat dan dikembangkan mulai dari latar belakang penelitian, rumusan masalah, batasan-batasan masalah, tujuan penelitian, luaran, manfaat, metodologi penelitian dan sistematika penulisan.

1.1 Latar Belakang

  Matematika merupakan salah satu cabang ilmu yang sangat penting dan

  

diajarkan mulai dari jenjang SD sampai dengan perguruan tinggi. Hingga

sekarang, matematika dikategorikan sebagai mata pelajaran yang selalu ikut serta

dalam daftar mata pelajaran yang diujikan secara nasional mulai jenjang SD

hingga SMA. Bagi banyak orang, matematika berguna sebagai penunjang dalam

mengembangkan ilmu-ilmu lainnya sehingga mampu berpikir logis, kritis, tekun,

bertanggung jawab dan mampu menyelesaikan persoalan (Kultsum, 2009). Namun

banyak yang menganggap matematika sulit dan bahkan menakutkan, maka

banyak orang lebih mengabaikan dan justru tidak mengetahui dasar-dasar

perhitungan matematika. Hal ini sangat memprihatinkan mengingat pengetahuan

dasar matematika menjadi dasar perhitungan untuk tingkat yang lebih tinggi

dalam berbagai bidang.

  Dapat diambil sebagai contoh adalah bangun datar atau lebih dikenal

dengan istilah Geometri. Geometri perlu dipelajari karena geometri dapat melatih

  

kita untuk berpikir logis, kerja yang sistematis, menghidupkan kreativitas serta

dapat mengembangkan kemampuan berinovasi (Aisah, 2012). Penerapan bangun

datar sangat banyak ditemukan dalam pembelajaran arsitektur suatu bangunan,

desain gambar baik satu dimensi maupun tiga dimensi, dan ilmu lainnya yang

membutuhkan dasar perhitungan mengenai bangun datar dan bangun ruang.

Pembelajaran geometri bidang datar dimulai dengan menyelidiki keseluruhan atau

garis besar atau bentuk bangunnya terlebih dahulu, kemudian baru ke unsur-unsur

yang makin kecil dan sederhana. Misalnya dimulai dari bangun datar, dilanjutkan

dengan sisi, sifat-sifat sejajar, tegak lurus, ukuran dan akhirnya titik sudut

(Suharjana, 2008).

  Geometri ruang telah diajarkan sejak SD, namun ternyata kemampuan

  siswa dalam menyelesaikan soal-soal dimensi dua masih rendah hanya karena penyajian dalam gambar mengharuskan bentuk persegi menjadi bentuk jajargenjang. Hasil survey

  Programme for International Student Assessment

  (PISA) 2000/2001 menunjukkan bahwa siswa lemah dalam geometri, khususnya dalam pemahaman ruang dan bentuk (Suwaji, 2008).

  Untuk membantu siswa memahami materi

  geometri khususnya bangun

  datar, diperlukan cara alternatif seperti membangun sebuah aplikasi untuk mempermudah siswa dalam membedakan bangun datar satu dengan yang lain.

  Bangun datar sendiri terdiri dari 3 kelompok besar yaitu segitiga, segi empat, dan lingkaran. Masing-masing anggota kelompok mempunyai kemiripan yang besar dibanding anggota kelompok lain, maka digunakan

  cluster untuk mengelompokan

  bangun-bangun datar geometri yang berdasarkan pada similaritas atau tingkat kemiripan antar obyek menggunakan Agglomerative Hierarchical Clustering karena akan mudah diketahui kedekatannya menggunakan bentuk hirarki . Tetapi sejauh mana peran dari Agglomerative Hierarchical Clustering dalam menampilkan model dan hasil pencarian yang relevan akan dilihat melalui evaluasi akurasi.

  1.2 Rumusan Masalah

  Berdasarkan uraian latar belakang di atas, maka yang menjadi rumusan masalah dalam penelitian ini adalah : Sejauh mana Agglomerative Hierarchical Clustering dapat menampilkan hasil pencarian yang relevan berupa nama, rumus, dan keterangan dari gambar bangun datar yang diinputkan dalam sebuah aplikasi mesin pencari?

  1.3 Batasan Masalah

  Penelitian ini hanya membahas pada materi geometri bangun datar matematika tingkat SMP karena materi ini sangat relevan digunakan sebagai penelitian dengan menggunakan aplikasi

  searching berdasarkan gambar sebuah

  bangun datar sebagai input. Selain itu, materi bangun datar sendiri cukup memiliki banyak sub bab dan bagian-bagiannya masing-masing, sehingga sangat relevan untuk dikerjakan. Untuk pemanfaatannya juga sangat banyak yang menggunakan dasar perhitungan dari rumus sederhana bangun datar, sehingga akan dapat membantu siswa siswi tingkat SMP yang kurang paham.

  Materi-materi tersebut meliputi bangun-bangun datar seperti segitiga, lingkaran, elips, persegi, persegi panjang, jajargenjang, belah ketupat,layang- layang, dan trapesium yang membahas berupa istilah, luas dan keliling, sifat-sifat bangun datar. Selain itu input gambar bangun datar dari gambar tangan manual atau buku materi pembelajaran baik diambil menggunakan kamera ataupun

  

scanner, diharapkan memiliki tingkat kontras yang cukup baik (sisi terang atau

  gelap tidak mendominan terlalu banyak), sedikit noise, dan hanya terdiri dari 1 buah gambar dalam sekali input. Untuk hasil maksimal, digunakan gambar yang dibuat dengan aplikasi paint.

1.4 Tujuan Penelitian

  Untuk menyelesaikan masalah dan mewujudkan apa yang menjadi manfaat, maka tujuan dari penelitian ini adalah :

  1. Merancang suatu cara pengenalan bangun datar dalam pendekatan Agglomerative Hierarchical Clustering.

  2. Merancang sebuah prototype yang relevan sebagai mesin pencari untuk siswa siswi SMP.

  3. Membangun sebuah aplikasi mesin pencari berdasarkan input gambar

  geometri bangun datar dengan hasil pencarian yang relevan menggunakan Agglomerative Hierarchical Clustering.

  4. Menghitung akurasi dari sistem aplikasi yang dihasilkan sebagai evaluasi.

  1.5 Luaran

  Dari penelitian ini, luaran yang diharapkan adalah sebuah aplikasi mesin pencari berdasarkan input gambar geometri bangun datar dengan hasil pencarian yang relevan menggunakan Agglomerative Hierarchical Clustering.

  1.6 Manfaat

  Dalam penelitian ini, maanfaat yang ingin didapat antara lain : 1. Membantu siswa siswi tingkat SMP dalam pemahaman materi geometri yang cukup penting untuk terapan ilmu lain di jenjang yang lebih tinggi.

  2. Membantu guru matematika dalam menyiapkan sebuah alat peraga pembahasan materi geometri.

  3. Menampilkan hasil searching dari sebuah mesin pencari yang cukup relevan dengan gambar yang digunakan user sebagai input.

1.7 Metode Penelitian

  Metodologi yang dipakai untuk penelitian ini adalah materi geometri bangun datar menggunakan algoritma

  Agglomerative Hierarchical Clustering

  untuk pemodelan dan mengenali gambar input user sebuah bangun datar yang divalidasi dengan mencari similaritas dengan data gambar yang tersimpan untuk dihasilkan output berupa istilah mengenai gambar input user, rumus, sifat-sifat dan keterangan.

1.8 Sistematika Penulisan

  Sistematika penulisan yang digunakan dalam penelitian ini adalah :

  • BAB I PENDAHULUAN

  Bab ini menjelaskan latar belakang penelitian, rumusan masalah, batasan-batasan masalah, tujuan penelitian, luaran, manfaat, metodologi penelitian dan sistematika penulisan.

  • BAB II LANDASAN TEORI

  Bab ini menjelaskan dasar-dasar teori yang dipakai sebagai referensi dan acuan dalam penelitian dan pembuatan aplikasi sebagai implementasi.

  • BAB III ANALISA DAN DESAIN

  Bab ini menjelaskan mengenai metode yang dipakai dalam penelitian dan pembuatan aplikasi sebagai implementasi. Juga disebutkan pengertian dan hal-hal yang terkait dengan metode yang dipakai tersebut.

  • BAB IV IMPLEMENTASI

  Bab ini dapat berisi mengenai listing program dari hasil implementasi yang telah dibuat beserta penjelasan singkat dan output hasil dari implementasi tersebut.

  • BAB V HASIL DAN PENGUJIAN

  Bab ini berisi mengenai evaluasi dari hasil aplikasi yang telah diimplementasikan berupa nilai akurasi yang didapat dan analisanya.

  • BAB VI PENUTUP Bab ini berisi kesimpulan dan saran dari penulis.

BAB II LANDASAN TEORI Bab ini menjelaskan mengenai dasar teori yang akan digunakan dalam

  implementasi meliputi pengertian

  data mining sebagai Knowledge Discovery

Database secara umum, tahapan dalam data mining, cara pengelompokan data

mining, pengertian algoritma clustering, teknik analisis dalam cluster hirarki,

  pengertian fungsi jarak, geometri, sudut, dan jenis-jenis geometri bangun datar, serta validasi cluster dan alat ukur akurasi.

2.1 Data Mining : Knowledge Discovery Database (KDD)

  Data mining sering juga disebut knowledge discovery in database (KDD)

  yang berarti kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar.

  Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan (Santoso, 2007). Data mining adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual (Pramudiono, 2003). Data mining juga dapat dikatakan bidang dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk penanganan permasalahan pengambilan informasi dari database yang besar (Larose, 2005). Selain itu,

  data mining juga dapat dikatakan sebagai kegiatan untuk menemukan

  pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam

  

database, data warehouse, atau penyimpanan informasi lainnya. Data mining

  berkaitan dengan bidang ilmu-ilmu lain, seperti database system, data

  

warehousing, statistik, machine learning, information retrieval, dan komputasi

  tingkat tinggi. Selain itu,

  data mining didukung oleh ilmu lain seperti neural

network, pengenalan pola, spatial data analysis, image database, signal

processing (Han, 2006). Data mining adalah proses yang menggunakan teknik

  statistik, matematika, kecerdasan buatan dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban, dkk. 2005).

  Masalah-masalah yang dapat diselesaikan dengan teknik data mining dapat dicirikan dengan (Piatetsky & Shapiro, 2006) : memerlukan keputusan yang bersifat knowlegde-based,

  • mempunyai lingkungan yang berubah,
  • metode yang ada sekarang bersifat sub-optimal,
  • tersedia data yang bisa diakses, cukup dan relevan,
  • memberikan keuntungan yang tinggi jika keputusan yang diambil tepat.
  • Berdasarkan beberapa pengertian di atas, dapat ditarik kesimpulan bahwa

  

data mining adalah suatu teknik untuk menggali informasi berharga yang

  terpendam atau tersembunyi pada suatu koleksi data (

  database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui.

  Kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu

  data mining sebenarnya memiliki akar

  yang panjang dari bidang ilmu seperti kecerdasan buatan ( artificial intelligent),

  

machine learning, statistik dan database. Beberapa metode yang sering disebut-

  sebut dalam literatur data mining antara lain clustering, classification, association

rules mining, neural network, genetic algorithm dan lain-lain (Pramudiono, 2003).

2.2 Tahapan Data Mining

  Data yang ada tidak dapat langsung diolah menggunakan sistem data

  

mining. Data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh

  dapat lebih maksimal, dan waktu komputasinya lebih minimal. Proses persiapan data ini sendiri dapat mencapai 60 % dari keseluruhan proses dalam

  data mining.

  Proses KDD secara garis besar dapat dijelaskan sebagai berikut (Fayyad, 1996) :

Gambar 2.1. Data Mining : Proses KDD (Fayyad, 1996)

  Menurut Kusrini (Kusrini & Emha, 2009), proses KDD dapat diuraikan sebagai berikut : Seleksi Data (Data Selection)

  • Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses

  data mining, disimpan dalam suatu berkas, terpisah dari database operasional.

  Pra-pemrosesan / Pembersihan (Pre-processing / Cleaning)

  • Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak ( tipografi). Juga dilakukan proses enrichment

  , yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal. Transformasi (

  Transformation) - Coding adalah proses transformasi pada data yang telah dipilih,

  sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam database.

  Data mining - Data mining adalah proses mencari pola atau informasi menarik dalam

  data yang terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam

  data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

  Interpretasi / Evaluasi ( Interpretation / Evaluation)

  • Pola informasi yang dihasilkan dari proses

  data mining perlu

  ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut

  interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi

  yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

2.3 Pengelompokan Data Mining

  Menurut Larose , data mining dapat dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2005) :

1. Deskripsi (Description)

  Terkadang peneliti dan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data.

  Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan.

  2. Estimasi (Estimation) Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan

  

record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi.

  Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilkan model estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya.

  3. Prediksi (Prediction) Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa datang. Contoh prediksi dalam bisnis dan penelitian adalah : prediksi harga beras dalam tiga bulan yang akan datang,

  • prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas
  • bawah kecepatan dinaikkan.

  Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.

  4. Klasifikasi (Classification) Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah. Contoh lain klasifikasi dalam bisnis dan penelitian adalah : memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan

  • suatu kredit yang baik atau buruk, mendiagnosis penyakit seorang pasien untuk mendapatkan kategori penyakit
  • apa.

5. Pengelompokan (Clustering)

  Clustering merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.

  

Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang

lainnya dan memiliki ketidakmiripan dengan record-record dalam cluster lain.

  Pengelompokan berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam pengelompokan. Pengelompokan tidak mencoba untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma pengelompokan mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan

  record dalam satu kelompok akan bernilai

  maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal. Contoh pengelompokan dalam bisnis dan penelitian adalah : melakukan pengelompokan terhadap ekspresi dari gen, untuk mendapatkan

  • kemiripan perilaku dari gen dalam jumlah besar,
  • mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar,

  • untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap perilaku finansial dalam baik dan mencurigakan.

6. Asosiasi (Assosiation)

  Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja. Contoh asosiasi dalam bisnis dan penelitian adalah :

  • menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli secara bersamaan,
  • meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respons positif terhadap penawaran

  upgrade layanan yang diberikan.

2.4 Algoritma Clustering (Clustering Algorithm)

  Clustering (pengelompokan data) mempertimbangkan sebuah pendekatan

  penting untuk mencari kesamaan dalam data dan menempatkan data yang sama ke dalam kelompok-kelompok. Clustering membagi kumpulan data ke dalam beberapa kelompok dimana kesamaan dalam sebuah kelompok adalah lebih besar daripada diantara kelompok-kelompok (Rui Xu & Donald 2009).

  Gagasan mengenai pengelompokan data, atau clustering, memiliki sifat yang sederhana dan dekat dengan cara berpikir manusia; kapanpun kepada kita dipresentasikan jumlah data yang besar, kita biasanya cenderung merangkumkan jumlah data yang besar ini ke dalam sejumlah kecil kelompok-kelompok atau kategori-kategori untuk memfasilitasi analisanya lebih lanjut. Selain itu, sebagian besar data yang dikumpulkan dalam banyak masalah terlihat memiliki beberapa sifat yang melekat yang mengalami pengelompokan-pengelompokan natural (Hammouda & Karray, 2003). Namun, penemuan pengelompokan- pengelompokan ini atau upaya untuk mengkategorikan data adalah bukan sebuah tugas yang sederhana bagi manusia kecuali data memiliki dimensionalitas rendah (dua atau tiga dimensi paling banyak). Inilah sebabnya mengapa beberapa metode dalam soft computing telah dikemukakan untuk menyelesaikan jenis masalah ini.

  Metode ini disebut “Metode-metode Pengelompokan Data” (Hammouda & Karray, 2003).

  Algoritma-algoritma clustering digunakan secara ekstensif tidak hanya untuk mengorganisasikan dan mengkategorikan data, akan tetapi juga sangat bermanfaat untuk kompresi data dan konstruksi model. Melalui pencarian kesamaan dalam data, seseorang dapat merepresentasikan data yang sama dengan lebih sedikit simbol. Selain itu, jika kita dapat menemukan kelompok-kelompok data, kita dapat membangun sebuah model masalah berdasarkan pengelompokan- pengelompokan ini (Dubes & Jain, 1988).

  Clustering menunjuk pada pengelompokan record, observasi-observasi,

  atau kasus-kasus ke dalam kelas-kelas objek yang sama. Cluster adalah sekumpulan record yang adalah sama dengan satu sama lain dan tidak sama dengan record dalam cluster lain. Clustering berbeda dari klasifikasi dimana tidak ada variabel target untuk clustering. Tugas clustering tidak mencoba untuk mengklasifikasikan, mengestimasi, atau memprediksi nilai variabel target (Larose, 2005). Bahkan, algoritma clustering berusaha mensegmentasikan seluruh kumpulan data ke dalam sub kelompok atau cluster-cluster homogen secara relatif. Dimana kesamaan record dalam cluster dimaksimalkan dan kesamaan dengan record diluar cluster ini diminimalkan.

  Clustering sering dilaksanakan sebagai langkah pendahuluan dalam proses

  pengumpulan data, dengan cluster-cluster yang dihasilkan digunakan sebagai input lebih lanjut ke dalam sebuah teknik yang berbeda, seperti neural network.

  Karena ukuran yang besar dari banyak database yang dipresentasikan saat ini, maka sering sangat membantu untuk menggunakan analisa clustering terlebih dahulu, untuk mengurangi ruang pencarian untuk algoritma-algoritma

  

downstream. Aktivitas clustering pola khusus meliputi langkah-langkah berikut

  (Dubes & Jain, 1988) : representasi pola (secara opsional termasuk ekstraksi dan/atau seleksi sifat),

  • definisi ukuran kedekatan pola yang tepat untuk domain data,
  • clustering pengelompokan,

  penarikan data (jika dibutuhkan),

  • pengkajian output (jika dibutuhkan).
  • Representasi pola merujuk pada jumlah kelas, jumlah pola-pola yang ada, dan jumlah, tipe dan skala fitur yang tersedia untuk algoritma clustering.

  Beberapa informasi ini dapat tidak bisa dikontrol oleh praktisioner. Seleksi sifat (fitur) adalah proses pengidentifikasian subset fitur original yang paling efektif untuk digunakan dalam clustering. Ekstraksi fitur adalah penggunaan satu atau lebih transformasi dari sifat-sifat input untuk menghasilkan sifat-sifat baru yang lebih baik.

  Pertimbangkan dataset X yang terdiri dari point-point data (atau secara sinonim, objek-objek, hal-hal, kasus-kasus, pola, tuple, transaksi) x = (x ) , …, x

  i i1 id

  Є A dalam ruang atribut A, dimana i = 1, N, dan setiap komponen adalah sebuah atribut

  A kategori numerik atau nominal. Sasaran akhir dari clustering adalah untuk menentukan point-point pada sebuah sistem terbatas dari subset k, cluster.

  Biasanya subset tidak berpotongan (asumsi ini terkadang dilanggar), dan kesatuan mereka sama dengan dataset penuh dengan pengecualian yang memungkinkan

  

outlier. C adalah sekelompok point data dalam dataset X, dimana X = C .. C ..

i i k C , C .. C = 0. outliers j1 j2

  Menurut William (William, 2005), algoritma clustering terbagi ke dalam kelompok besar seperti berikut :

  1. Partitioning algorithms: algoritma dalam kelompok ini membentuk bermacam partisi dan kemudian mengevaluasinya dengan berdasarkan beberapa kriteria.

  2. Hierarchy algorithms: pembentukan dekomposisi hirarki dari sekumpulan data menggunakan beberapa kriteria.

  3. Density-based: pembentukan cluster berdasarkan pada koneksi dan fungsi densitas.

4. Grid-based: pembentukan cluster berdasarkan pada struktur multiple-

  level granularity 5.

  Model-based: sebuah model dianggap sebagai hipotesa untuk masing- masing cluster dan model yang baik dipilih diantara model hipotesa tersebut.

2.4.1 K-Means Clustering

  Algoritma K-Means adalah algoritma yang disusun atas dasar ide yang sederhana. Ada awalnya ditentukan berapa cluster yang akan dibentuk.

  Sembarang obyek atau elemen pertama dalam cluster dapat dipilih untuk dijadikan sebagai titik tengah ( centroid point) cluster. Algoritma K-Means selanjutnya akan melakukan pengulangan langkah-langkah berikut sampai terjadi kestabilan (tidak ada obyek yang dapat dipindahkan) :

  1. menentukan koordinat titik tengah setiap cluster, 2. menentukan jarak setiap obyek terhadap koordinat titik tengah, 3. mengelompokkan obyek-obyek tersebut berdasarkan pada jarak minimumnya.

  Algoritma K-means dinilai cukup efisien, yang ditunjukkan dengan kompleksitasnya O(tkn), dimana n adalah banyaknya obyek data, k adalah jumlah

  

cluster yang dibentuk, dan t banyaknya iterasi. Nilai k dan t jauh lebih kecil

  daripada nilai n. Selain itu, dalam iterasinya, algoritma ini akan berhenti dalam kondisi optimum lokal (William, 2005). Sedangkan kelemahan algoritma ini adalah adanya keharusan menetukan banyaknya

  cluster yang akan dibentuk,

  hanya dapat digunakan dalam data yang mean-nya dapat ditentukan, dan tidak mampu menangani data yang mempunyai penyimpangan-penyimpangan ( noisy

  

data dan outlier). Selai itu juga bergantung pada pemilihan nilai awal centroid,

  tidak diketahui berapa banyak cluster k yang terbaik, dan hanya bekerja pada atribut numerik.

2.4.2 Clustering Hirarki (Hierarchical Clustering)

  Clustering Hirarki membangun sebuah Hirarki cluster atau dengan kata

  lain sebuah pohon cluster, yang juga dikenal sebagai dendrogram. Setiap node

  

cluster mengandung cluster anak; cluster-cluster saudara yang membagi point

  yang ditutupi oleh induk mereka. Metode-metode clustering Hirarki dikategorikan ke dalam

  agglomeratif (bawah-atas) dan divisive (atas-bawah) (Jain & Dubes,

  1988; Kaufman & Rousseeuw, 1990). Clustering agglomeratif dimulai dengan cluster satu point

  (singleton) dan secara berulang menggabungkan dua atau lebih

cluster yang paling tepat. Cluster divisive dimulai dengan satu cluster dari semua

  point data dan secara berulang membagi cluster yang paling tepat. Proses tersebut berlanjut hingga kriteria penghentian (seringkali, jumlah k yang diperlukan dari

  cluster) dicapai. Kelebihan cluster Hirarki meliputi:

  fleksibilitas yang tertanam mengenai level granularitas,

  • kemudahan menangani bentuk-bentuk kesamaan atau jarak,
  • dapat digunakan pada tipe-tipe atribut apapun.
  • Kelemahan dari

  clustering Hirarki berhubungan dengan:

  ketidakjelasan kriteria terminasi,

  • terhadap perbaikan h
  • clustering, sebagian besar algoritma Hirarki tidak mengunjungi kembali cluster-clusternya yang telah dikonstruksi.
Untuk clustering Hirarki, menggabungkan atau memisahkan subset dari point- point dan bukan point-point individual, jarak antara point-point individu harus digeneralisasikan terhadap jarak antara subset.

  Ukuran kedekatan yang diperoleh disebut matrik hubungan. Tipe matrik hubungan yang digunakan secara signifikan mempengaruhi algoritma Hirarki, karena merefleksikan konsep tertentu dari kedekatan dan konektivitas. Matrik hubungan antar cluster utama (Murtagh 1985, Olson 1995) termasuk hubungan tunggal, hubungan rata-rata, dan hubungan sempurna. Semua matrik hubungan diatas dapat diperoleh sebagai jarak dari pembaharuan formula Lance-Williams (Lance & Williams, 1967).

  • D(C · · C , C = (C , C ) + (C , C ) + (C , C ) + | (C , C ) (C , C )|

  

i j k i k j k bd i j c d i k d j j

ɑ (i) d ɑ (k) d

  Dimana a, b, c adalah koefisien-koefisien yang sesuai dengan hubungan tertentu. Formula ini menyatakan sebuah matrik hubungan antara kesatuan dari dua cluster dan cluster ketiga dalam bentuk komponen-komponen yang mendasari.

  Clustering Hirarki berdasarkan matrik hubungan mengalami kompleksitas

  waktu. Dibawah asumsi-asumsi yang tepat, seperti kondisi daya reduksi (metode- metode grafik memenuhi kondisi ini), metode-metode matrik hubungan memiliki

  2 kompleksitas (N ) (Olson 1995).

2.5 Teknik Analisis Cluster Hirarki