DATA MINING-2 TIF.pptx

DATA MINING
Lestari Handayani, ST, M.Kom
Teknik Informatika FST

Referensi


Many books have relevant chapters for the unit:
◦ Berry J.A. & Linof G.; Data Mining Techniques: For
Marketing, Sales, and Customer Support ; John Wiley
& Sons, Inc.; 1997
◦ Cabena P., Hadjinian P., Stadler R., Verhees J., Zanasi
A.; Discovering Data Mining: From Concept to
Implementation; Prentice Hall PTR, 1998
◦ Fayyad U., Piatetsky-Shapiro G., Smyth P., and
Uhurusamy R. (eds); Advances in Knowledge
Discovery and Data Mining; AAAI Press, 1996
◦ Kennedy R.L., Lee Y., Van Roy B., Reed C.D., Lippman
R.P.; Solving Data Mining Problems Through Pattern
Recognition; Prentice Hall PTR, 1997
◦ Witten I. H. and Frank, E.; Data Mining: Practical

Machine Learning Tools and Techniques with Java
Implementations; Morgan Kaufmann, 1999

What is Data Mining ?


Many Defnitions








“Data mining is an interdisciplinary feld bringing togther
techniques from machine learning, pattern recognition,
statistics, databases, and visualization to address the issue
of information extraction from large data bases”
Evangelos Simoudis in Cabena et al.

“Data mining is the extraction of implicit, previously
unknown, and potentially useful information from data”
Witten & Frank
“Data mining… is the exploration and analysis, by
automatic or semiautomatic means, of large quantities of
data in order to discover meaningful patterns and rules”
Berry & Linof
“Data mining is a term usually applied to techniques that
can be used to fnd underlying structure and relationships
in large amounts of data”
Kennedy et al.

What is Data Mining ?


Use of analytical tools to discover knowledge in a
collection of data
◦ The knowledge takes the form of patterns, relationships
and facts which would not otherwise be immediately
apparent




These analytical tools may be drawn from a
number of disciplines, which include:








machine learning
pattern recognition
statistics
artifcial intelligence
human-computer interaction
information visualization
and many more...


What is Data Mining ?


Ekstraksi atau "menambang" pengetahuan dari
data dalam jumlah yang besar.(Jia Weihan, p. 5.)
◦ Data Mining: Concepts and Techniques,
Jiawei Han dan Micheline Kamber, Academic Press, USA, 2001.



Proses pencarian terhadap pengetahuan -- yang
sebelumnya tidak diketahui; valid; dan dapat
digunakan -- dari database yang besar dan
kemudian menggunakan pengetahuan tersebut
untuk membuat keputusan bisnis yang penting.
(Cabena, p. 12.)
◦ Discovering Data Mining: From Concept to Implementation,
Peter Cabena, Pablo Hadjinian, Rolf Stadler, Jaap Verhees, dan
Alesandro Zanasi, Prentice Hall, New Jersey, USA, 1998.


What is Data Mining ?

 Data

mining adalah proses yang memperkerjakan satu atau
lebih teknik-teknik pembelajaran komputer (machine learning)
untuk menganalisis dan mengekstraksi pengetahuan
(knowledge) secara otomatis.

 Data

mining merupakan proses iteratif dan interaktif untuk
menemukan pola atau model yang sahih, baru, bermanfaat, dan
dimengerti dalam suatu database yang sangat besar (massive
databases).

 Data

mining merupakan serangkaian proses untuk menggali nilai

tambah dari suatu kumpulan data berupa pengetahuan yang
selama ini tidak diketahui secara manual dari suatu kumpulan
data

 Data

mining menggunakan berbagai perangkat lunak analisis
data untuk menemukan pola dan relasi data agar dapat
digunakan untuk membuat prediksi dengan tepat

Mengapa Melakukan Data
Mining ?


Sudut Pandang Komersial :
• Meledaknya volume data yang dihimpun dan disimpan dalam data
warehouse
• Proses komputasi yang dapat diupayakan
• Kuatnya tekanan kompetitif
~

~



Dapat menyediakan yang lebih baik, layanan-layanan kastemisasi
Informasi menjadi produk yang berarti

Sudut Pandang Keilmuan :

• Kecepatan data yang dihimpun dan disimpan (Gbyte/hour)
~
~
~

Remote sensor yang ditempatkan pada suatu satelit
Telescope yang digunakan untuk men-scan langit
Simulasi saintifk yang membangkitkan data dalam ukuran terabytes

• Teknik-teknik tradisional tidak fsibel utnuk mengolah data mentah
• Data mining untuk reduksi data ;

~
~

Catalogging, klassifkasi, segmentasi data
Membantu ilmuwan dalam melakukan formulasi hipotesisi

7

Why Is Data Mining Hot?

“We are drowning in
information, but starving
for knowledge”
(John Naisbitt)

Why Is Data Mining
Hot?


Data mining (knowledge discovery in databases)

◦ Extraction of interesting knowledge or patterns
from data in large databases or other
information repositories



Necessity is the mother of invention
◦ Data is everywhere—data mining should be
everywhere, too!
◦ Understand and use data—an imminent task!

9

Data Is Everywhere!












Relational database—A commodity of every enterprise
POS (Point of Sales): Transactional DBs in terabytes
Object-relational databases, distributed,
heterogeneous, and legacy databases
Spatial databases (GIS), remote sensing database
(EOS), and scientifc/engineering databases
Time-series data (e.g., stock trading) and temporal
data
Text (documents, emails) and multimedia databases
WWW: A huge, hyper-linked, dynamic, global
information system
10

Data Mining Is Everywhere, too!—A
Multi-Dimensional View of Data Mining



Databases to be mined

◦ Relational, transactional, object-relational, active, spatial,
time-series, text, multi-media, heterogeneous, legacy,
WWW, etc.


Knowledge to be mined

◦ Characterization, discrimination, association, classifcation,
clustering, trend, deviation and outlier analysis, etc.


Techniques utilized

◦ Database-oriented, data warehouse (OLAP), machine
learning, statistics, visualization, neural network, etc.


Applications adapted
◦ Retail, telecommunication, banking, fraud analysis, DNA mining,
stock market analysis, Web mining, etc.
11

Data Mining: Confuence of Multiple
Disciplines
Database
Technology

Machine
Learning & AI

Information
Science

Statistics

Data Mining

High-Performance
Computing

Visualization

Other
Disciplines

12

Ilmu Berkaitan Data Mining
Bidang ilmu yang berkaitan :












Database
Information science (ilmu informasi)
High performance computing
Visualisasi
Machine learning
Statistik
Neural networks (jaringan saraf tiruan)
Pemodelan matematika
Information retrieval
Information extraction dan
Pengenalan pola

13

Penerapan Data Mining


Analisa Pasar dan Manajemen
Beberapa solusi dapat diselesaikan dengan data mining :
◦ Menebak target pasar
◦ Melihat pola beli pemakai dari waktu ke waktu
◦ Cross Market Analysis
◦ Profl Customer
◦ Identifkasi Kebutuhan Customer
◦ Menilai loyalitas customer
◦ Informasi summary



Analisa Perusahaan dan Manajemen Resiko
Beberapa solusi dapat diselesaikan dengan data
mining :
– Merencanakan Keuangan dan Evaluasi Aset
– Merencanakan Sumber Daya (Resource Planning)
– Memoniotr Persaingan (Competition)
14

 Telekomunikasi
Data mining digunakan untuk melihat jutaan transaksi
yang masuk dengan tujuan menambah layanan otomatis

 Keuangan
Data mining digunakan untuk mendeteksi
transaksi-transaksi keuangan yang
mencurigakan dimana akan susah dilakukan
jika menggunakan analisis standar.

 Asuransi
Australian Health Insurance Commision
menggunakan data mining untuk
mengidentifkasi layanan kesehatan dan berhasil
menghemat satu juta dollar pertahun
15

 Olah raga
IBM Advanced Scout menggunakan data mining
untuk menganalisis statistik permainan NBA dalam
rangka competitive advantage untuk tim New York
Knicks
 Astronomi
Jet Propulsion Laboratory (JPL) di Pasadena dan Pulomar
Observatory menemukan 22 quasar dengan bantuan
data mining.

 Internet Web Surf-Aid
IBM Surf-Aid menggunakan algoritma data mining untuk
mendata akses halaman Web khususnya berkaitan
dengan pemasaran melalui web.

16

Kebutuhan Bisnis
Terdapat tiga kebutuhan bisnis :






Penambahan maupun peningkatan
kapasitas produk
Pengurangan biaya operasi
perusahaan
Peningkatan efektiftas pemasaran
dan keuntungan
17

Permasalahan Bisnis secara umum
Permasalahan bisnis yang umum dihadapi :
1. Bagaimana menyajikan advertensi kepada target
yang tepat sasaran
2. Menyajikan halaman web yg khusus setiap
pelanggan
3. Menampilkan informasi produk lain yang biasa
dibeli bersamaan dengan produk tertentu.
4. Mengklasifkasikan artikel-artikel secara otomatis
5. Mengelompokkan pengunjung web yang memiliki
kesamaan karateristik tertentu
6. Mengestimasi data yang hilang
7. Memprediksi kelakuan di masa yang akan datang
18

Solusi Masalah
Konsep dasar yang perlu dipikirkan pelaku bisnis sebagai solusi
permasalahan, yaitu :
1.

Perumusan Target
Memilih target pemasaran untuk disuguhi advertensi tertentu bertujuan
untuk meningkatkan proft perusahaan, pengenalan produk secara luas
atau hasil-hasil terukur lainnya.

2.

Personalisasi
Memanfaatkan personalisasi untuk memilih advertensi yang paling
sesuai untuk orang tertentu dan personalisasi ini bertujuan agar
pengunjung yang sudah menjadi pelanggan membeli sebanyak
mungkin produk perusahaan.

3.

Asosiasi (analisis keranjang pasar)
Asosiasi ini mengidentifkasi item-item produk yang mungkin dibeli
bersamaan dengan produk lain atau dilihat secara bersamaan pada
saat mencari informasi mengenai produk tertentu.
19

5.

Manajemen Pengetahuan
Sistem ini mengidentifkasi dan memanfaatkan pola-pola di
dalam dokumen yang berbahasa alami atau berformat text.
Pendekatan ini digunakan untuk menyortir dokumen baru
dan mempersonalisasi publikasi online

6.

Pengelompokkan
Pengelompokkan digunakan untuk membuat laporan
mengenai karateristik umum dari grup-grup pengunjung
(kustomer) yang berbeda.

7.

Estimasi dan Prediksi
Estimasi menerka sebuah nilai yang belum diketahui dan
prediksi memperkirakan nilai untuk masa datang.

8.

Pohon Keputusan
Sebagai diagram alir dari titik-titik pertanyaan yang menuju
pada sebuah keputusan.
20

Kebutuhan dan Kesempatan untuk Data Mining
Kebutuhan akan data mining dikarenakan :
1.

Ketersediaan data yang melimpah, kebutuhan akan
informasi (atau pengetahuan) sebagai pendukung
pengambilan keputusan untuk membuat solusi bisnis dan
dukungan infrastruktur di bidang teknologi informasi

2.

Ketersediaan data transaksi dalam volume yang besar

3.

Informasi sebagai aset perusahaan yang penting sehingga
melahirkan gudang data yang mengintegrasikan informasi
dari sistem yang tersebar untuk mendukung pengambilan
keputusan

4.

Ketersediaan teknologi informasi dalam skala yang
terjangkau dan sudah dapat diadopsi secara luas.

21

Tools Data Mining


Karateristik-karateristik penting dari tool data mining meliputi
:
◦ Data preparation facilities
◦ Selection of data mining operation (algorithms)
◦ Product scalability and performance
◦ Facilities for visualization of result



Data mining tool, meliputi :
◦ Integral Solution Ltd’s Clementine
◦ DataMind Corp’s Data Crusher
◦ IBM’s Intelligent Miner
◦ Silicon Graphics Inc.’s MineSet
◦ Informations Discovery Inc.’s Data Mining Suite
◦ SAS Institute Inc.’s SAS System and Right Information
System’Thought.

22

Evolusi Database


Th 1960
◦ Pengumpulan data, pembuatan data, IMS dan network DBMS



Th 1970
◦ Model data relasional, Implementasi DBMS relasional



Th 1980
◦ RDBMS, Model data lanjutan (extended-relational, OO, deductive)



Th 1990
◦ Data mining, data warehouse, database multimedia, dan Web database.



Th 2000
◦ Stream data managemen dan mining
◦ Data mining dengan berbagai variasi aplikasi
◦ Teknologi web dan sistem informasi global

23

Recent Progress of R & D in Data Mining











Multi-dimensional data analysis: Data warehouse
and OLAP (on-line analytical processing)
Association, correlation, and causality analysis
Sequential patterns and time-series analysis
Classifcation: scalability, associative classifcation,
etc.
Clustering and outlier analysis
Similarity analysis: curves, trends, images, texts,
etc.
Text mining, Web mining and Weblog analysis
Spatial, multimedia, scientifc data mining
Data preprocessing and database compression
Visual data mining, invisible data mining, etc.
24

Association and Frequent Pattern Analysis







Efcient methods for mining frequent patterns and
association rules
◦ Apriori and its various extensions
◦ FP-growth algorithm: partition database
according to the patterns to be search for
◦ Multi-level, multi-dimensional, quantitative
association mining
From association to correlation, sequential
patterns, partial periodicity, cyclic rules, ratio
rules, etc.
Query and constraint-based association analysis
25

Sequential Patterns and TimeSeries Analysis








Trend analysis
◦ Trend movement vs. cyclic variations, seasonal
variations and random fuctuations
Similarity search in time-series database
◦ Handling gaps, scaling, etc.
◦ Indexing methods and query languages for timeseries
Sequential pattern mining
◦ Various kinds of sequences, various methods
◦ From GSP to PrefxSpan
Periodicity analysis
◦ Full periodicity, partial periodicity, cyclic
association rules
26

Classifcation: Scalable Methods and
Handling of Complex Types of Data






Classifcation has been an essential theme in
machine learning, and statistics research
◦ Decision trees, Bayesian classifcation, neural
networks, k-nearest neighbors, etc.
◦ Tree-pruning, boosting & bagging techniques
Efcient and scalable classifcation methods
◦ Exploration of attribute-class pairs, e.g., SLIQ,
SPRINT, RainForest, BOAT, etc.
◦ Association-based classifcation
Classifcation of semi-structured and nonstructured data
◦ Web document classifcation
27

Clustering and Outlier Analysis








Partitioning methods
◦ k-means, k-medoids, CLARANS
Hierarchical methods: micro-clusters
◦ Birch, Cure, Chameleon
Density-based methods
◦ DBSCAN and OPTICS, DENCLU
Grid-based methods
◦ STING, CLIQUE, WaveCluster
Outlier analysis
◦ statistics-based, distance-based, deviationbased
Constraint-based clustering
◦ COD (Clustering with Obstructed Distance)
◦ User-specifed constraints
28

Constraint-Based Clustering—Considering
Obstacles at Planning ATM Locations

C2
ge
d
i
r
B

C3

C1

River

Mountain

Spatial data with obstacles

C4

Clustering without taking
obstacles into consideration
29

Similarity Analysis: Curves,
Trends, Images, and Texts







Various kinds of data, various similarity mining
methods
Discovery of similar trends in time-series data
◦ Data transformation methods
◦ Multi-dimensional data/indexing structures
Finding similar images based on color, texture, etc.
◦ Content-based vs. keyword-based retrieval
◦ Color histogram-based signature
◦ Multi-feature composed signature
Finding documents with similar texts
◦ Similar keywords (synonymy & polysemy)
◦ Term frequency matrix
◦ Latent semantic indexing
30

Spatial, Multimedia,
Scientifc Data Analysis






Multi-dimensional analysis of spatial, multimedia
and scientifc data
◦ Geo-spatial data cube and spatial OLAP
◦ The curse of dimensionality problem
Association analysis
◦ A progressive refnement methodology
◦ Micro-clustering can be used for preprocessing in
the analysis of complex types of data
Classifcation
◦ Association-based for handling highdimensionality and sparse data
31

Web Mining: A Fast Expanding
Frontier in Data Mining


Mine what Web search engine fnds



Automatic classifcation of Web documents



Discovery of authoritative Web pages, Web
structures and Web communities



Meta-Web Warehousing: Web yellow page
service



Web usage mining
32

Visualization of data mining results in SAS
Enterprise Miner: Scattered Plots

Data Mining and Case Knowledge
Discovery

11/7/18

33

Visualization of Association
Rules in MineSet 3.0

Data Mining and Case Knowledge
Discovery

11/7/18

34

Visualization of a Decision Tree in MineSet 3.0

Data Mining and Case Knowledge
Discovery

11/7/18

35

Visualization of Data Mining
Processes by Clementine

Data Mining and Case Knowledge
Discovery

11/7/18

36

Interactive Visual Mining by PerceptionBased Classifcation (PBC)

Data Mining and Case Knowledge
Discovery

11/7/18

37