Pertemuan_8 Data Mining.pptx

Pertemuan ke-8

SQL Server Data Mining

Pendahuluan
• Hampir setiap perusahaan memiliki aplikasi
yang mencatat kegiatan transaksi harian ke
dalam database. Setelah beberapa waktu
berjalan, terkumpul ratusan ribu bahkan jutaan
data transaksi di dalam database.
• Data transaksi tersebut merupakan history
pasang surut perusahaan yang perlu diolah
menjadi sebuah informasi yang membantu
pihak manajemen mengambil keputusan
strategis secara lebih akurat.
• Bagaimana informasi tersebut bisa didapatkan
dari hasil analisa data?

• Kuncinya adalah penarikan pola data dengan
mempelajari sampel data yang diberikan untuk
menjawab kebutuhan informasi strategis

perusahaan.
• Bermodalkan pola tersebut, sebuah organisasi
dapat mengetahui probabilitas apakah suatu
tujuan akan tercapai dengan melihat parameterparameter input yang telah ditetapkan,

• misalnya seberapa besar kecenderungan
seorang customer memarkir kendaraannya
(kurang dari 1 jam, 2 jam, 3 jam, lebih dari 3
jam) bila seorang customer memiliki 2
kendaraan, memiliki 1 anak, berbelanja lebih
dari 10 jenis barang serta customer tersebut
tinggal lebih dari 10 kilometer. Sehingga
organisasi tersebut dapat memperkirakan
pemasukan dari jasa parkir kendaraan
bermotor.

Definisi
• Merupakan istilah yang digunakan untuk menguraikan
penemuan pengetahuan di dalam database.
• Penggunaan teknik-teknik analisa data, matematika,

kecerdasan tiruan dan machine learning untuk
mengekstrak informasi yang berkaitan dan pengetahuan
terkait dari berbagai database besar.
• Merupakan proses dari pola2 rancang bangun aturan,
korelasi atau tren atau model prediksi

Karakteristik Utama
• Berasal dari database yang sangat besar, merupakan
data beberapa tahun
• Berada dilingkungan arsitektur sistem client/server atau
arsitektur berbasis web
• Perlu piranti visualisasi data yang canggih
• Kadang-kadang perlu paralel processing
• Pengguna biasanya merupakan pengguna akhir yang
tidak mempunyai skill programming

Penemuan Pengetahuan

Penemuan Pengetahuan
Database

Database
Database
Database
Database
Database
Database
Database
Database
Database
DATA MINING
Datawarehouse/Datamarts

DATA MINING

STRATEGI
PERUSAHAAN

Bagaimana Data Mining Bekerja
• Data mining bekerja untuk menemukan pola-pola
tertentu dalam data.

• Data mining cerdas menghasilkan informasi dari
datawarehouse yang tidak dapat divisualisasikan oleh
laporan-laporan dan query.

Metode
• Tiga motode yang digunakan untuk mengidentifikasi
pola-pola data (Nemati dan Barko 2001)
 Model Sederhana (Query berbasis SQL, OLAP,
Pertimbangan Manusia)
 Model Sedang (Regresi, pohon keputusan,
clustering
 Model Kompleks(jaringan saraf, induksi aturan lain)

Jenis Tugas Dasar pada Data Mining
• Setelah mengetahui faedah data mining, kita perlu
mengenali bentuk tugas dasar data mining dalam
melakukan pengolahan data menjadi informasi. Pada
hakekatnya, tugas dasar yang bisa dilakukan oleh data
mining yaitu :
1. Klasifikasi

2. Regresi
3. Segmentasi
4. Asosiasi
5. Analisa urutan

Klasifikasi
• Bentuk tugas dasar ini adalah dengan menentukan
pengelompokan
informasi
akhir
yang
hendak
didapatkan. Misalnya klasifikasi customer yang
berpotensi memiliki kredit macet dan kredit lancar.
• Biasanya di dalam sumber data terdapat atribut yang
menjadi tujuan klasifikasi. Atribut tujuan biasanya
merupakan kolom dari sebuah tabel atau dimensi di
dalam
Analysis
Service.

Kemudian
klasifikasi
membutuhkan juga atribut-atribut lain yang memiliki
pengaruh signifikan terhadap atribut tujuan.

Klasifikasi (2)
• Saya sebut atribut demikian sebagai atribut pendukung.
Dalam contoh kredit macet/lancar, atribut-atribut
pendukung (yang tentu saja terdapat di dalam
database) adalah tanggal pelunasan setiap periode,
tanggal jatuh tempo tiap periode, lama kredit yang
diberikan, besar kredit yang diberikan, besar bunga
kredit, besar aset yang diagunkan dan indikatorindikator lainnya.
• Dengan data-data yang tersedia, data mining dapat
memberikan petunjuk kepada pengguna data mining
apakah sebaiknya mencucurkan kredit kepada seorang
customer.

Klasifikasi (3)
• Kelihatannya sederhana, namun dengan jumlah data

yang besar dan jumlah atribut pendukung yang banyak,
klasifikasi secara manual menjadi tidak mudah
dibandingkan pengolahan secara efisien dan akurat
oleh data mining SQL Server.

Regresi
• Jenis tugas dasar ini hampir sama dengan jenis tugas
dasar klasifikasi. Perbedaan antara keduanya adalah
regresi memberikan hasil yang tidak terbatas
sedangkan klasifikasi memberikan hasil yang diskrit
(terbatas kemungkinan yang ada –
ingat contoh
customer berpotensi kredit macet atau kredit lancar?
Berarti ada 2 jenis kemungkinan dari hasil probabilitas).

Regresi (2)
• Contoh dari regresi adalah kebutuhan perusahaan untuk
melakukan estimasi nilai sales pada tahun depan
berdasarkan
analisa

trend
sales
tahun-tahun
sebelumnya.
• Katakanlah nilai tahun lalu sebesar 100 juta rupiah,
tahun ini sebesar 120 juta rupiah, mungkin hasilnya bisa
naik atau bisa turun. Kemungkinan hasil probablitas
tidak terbatas hanya 100 juta ataupun 200 juta rupiah.

Segmentasi
• Segmentasi adalah bentuk tugas dasar data mining
yang memilah data-data ke dalam beberapa kelompok.
Masing-masing kelompok memiliki karakteristik atribut
yang sama.
• Contoh segmentasi adalah analisa pendekatan calon
klien oleh sebuah perusahaan jasa untuk aktivitas sales
dan marketing.
• Calon klien adalah dipilah berdasarkan 3 kelompok klien
yaitu klien kecil dengan jumlah karyawan kurang dari
100 orang, klien menengah dengan jumlah karyawan

101 sampai dengan 500 dan klien berskala besar
dengan jumlah karyawan di atas 500.

Segmentasi (2)
• Masing-masing kelompok memiliki rentang penghasilan
perusahaan yang serupa, cakupan kebutuhan yang
serupa, dan lain sebagainya.
• SQL Server 2008 akan membantu memilihkan atribut
yang menjadi segmentasi setelah menganalisa data
yang ada.

Asosiasi
• Asosiasi adalah bentuk tugas dasar yang mencari
keterkaitan antara satu item dengan item lainnya pada
atribut yang sama, sehingga asosiasi dapat juga disebut
keterkaitan.
• Item-item yang terkait satu sama lain dapat dipandang
sebagai satu kesatuan unit.

Asosiasi (2)

• Contoh asosiasi adalah apabila seorang customer
membeli buku SQL Server Analysis Service 2008
kemungkinan besar dia juga akan memerlukan buku
SQL Server Reporting Services 2008 sehingga dengan
mengetahui keterkaitan antara keduanya; seorang sales
dapat menawarkan buku Reporting Services tersebut
kepada customer.
• Keterkaitan tidak selalu melibatkan 2 item, sangat
mungkin keterkaitan melibatkan lebih dari 2 item,
sebagai contoh bila item A dan item B merupakan satu
kesatuan unit, probabilitas yang besar terjadi bila item C
juga masuk ke dalam kesatuan unit tersebut karena
item A, B dan C memiliki keterkaitan satu dengan
lainnya.

Sequence Analysis
• Sequence
analysis
akan
menampilkan

pola
persinggahan data dari satu node ke node lainnya.
Contoh yang paling menggambarkan teknik sequence
analysis adalah pola navigasi user pada sebuah website
dimana setelah user mengakses web page A, lebih
besar probabilitas user akan mengunjungi web page B
ketimbang web page C.
• Agar data mining dapat memprediksi pola akses
berbasis sequence analysis, diperlukan data-data
lampau untuk dipelajari pola akses untuk sequence
analysis.

Kelasifikasi: definisi
-Diberikan kumpulan rekod (training set)
setiap rekod mengandung sekumpulan atribut, salah
satu atribut adalah kelas
-Temukan model untuk kelas atribut sebagai fungsi
dari atribut lainnya
-Goal : rekod yang tak terlihat sebelumnya harus
menentukan suatu kelas seakurat mungkin untuk
- himpunan uji dipakai untuk menentukan
keakuratan model. Biasanya set data yang diketahui
dibagi menjadi training set dan test set, dengan
training set dipakai untuk membangun model dan
test set dipakai untuk menvalidasi model

Kelasifikasi : Aplikasi
- Pemasaran langsung
- Goal : mengurangi biaya pengiriman dengan mentargetkan himpunan
pelanggan yang
mungkin membei produk HP
- Pendekatan
- gunakan data untuk produk sama
yang
dikeluarkan sebelumnya
- dapat diperoleh pelanggan mana memutuskan
untuk
membeli dan mana yang tidak. Keputusan
{beli, tak beli} ini membentuk kelas atribut
- kumpulkan berbagai informasi terkait demografi,
cara
hidup dan interaksi perusahaan tentang
semua pelanggan
demikian
- tipe bisnis, dimana mereka tinggal,
penghasilan mereka, dll
- Pakai informasi ini sebagai atribut input untuk
mempelajari model
pengkelasifikasi

Pengelompokan : definisi
• Diberikan set data, setiaonya memiliki set atribut, dan
ukuran sama diantaranya, tentukan kelumpok (cluster)
sedemikian hingga
- Titik data dalam satu kelompok mirip satu dengan
yang lain
- Titik data dalam kelompok terpisah kurang mirip satu
dengan yang lain
Ukuran kemiripan
- Jarak Euclid jika atribut kontinu
- Persoalan lain – ukuran disesuaikan

Pengelompokan : Aplikasi
• Segmentasi pasar.
- Goal: partisi pasar menjadi subset pelanggan berbeda
di mana setiap subset dapat terpilih sebagai target pasar
yang dicapai dengan mix marketing berbeda.
- Pendekatan :
• Kumpulkan atribut berbeda pelanggan yang
didasarkan pada informasi geografis dan pola hidup
• Tentukan kelompok dari pelanggan yang sama
• Ukur kualitas pengelompokan dengan mengamati
pola beli pelanggan dalam kelompok sama versus yang
dari kelompok berbeda

Penemuan Aturan Asosiasi
• Diberikan set rekod yang
setiapnya mengandung
beberapa item dari suatu
kumpulan yang diketahui
• Hasilkan aturan
ketergantungan yang akan
memprediksi keterjadian suatu
item didasarkan pada
keterjadian item lainnya

No

Item

1

Roti, Coke, Susu

2
3

Beer, Roti
Beer, Coke, Diaper, Susu

4
5

Beer, Roti, Diaper, Susu
Coke, Diaper, Susu

Penemuan aturan
{Susu}  {Coke}
{Diaper,Susu} {Beer}

Penemuan aturan asosiasi : Aplikasi
• Pemasaran dan Promosi penjualan
- Andaikan aturan yang ditemukan
{Kacang,…}  {Chip Kentang}
- Chip Kentang sebagai konsekuen  dapat dipakai
untuk menentukan apa yang harus dilakukan untuk
meningkatkan penjualannya
- Kacang sebagai anteseden  dapat dipakai untuk
melihat produk mana terpengaruh jika toko
menghentikan penjualan kacang
- Kacang dalam anteseden dan Chip Kentang dalam
konsekuen  dapat dipakai untuk melihat produk apa
yang harus dijual dengan Kacang untuk meningkatkan
penjualan Chip Kentang.

Penemuan aturan asosiasi: aplikasi
• Supermarket shelf management
- Goal : Mengidentifikasi item yang dibeli bersama-sama
oleh cukup banyak pelanggan
- Pendekatan : Proses data penjualan yang dikumpulkan
dengan barcode scanner untuk menemukan
ketergantungan antara item
- Aturan klasik
• Jika seorang pelanggan membeli diaper dan susu,
maka ia sangat mungkin beli beer.
• Jadi jangan heran jika anda menemukan
sekumpulan beer di samping diaper di shelf .

Penemuan pola sekuensial: definisi
• Diberikan set objek, dengan setiap objek dikaitkan
dengan jalur kejadiannya, tentukan atyran yang
memprediksi ketergantungan sikuensial kuat antara
kejadian berbeda.

(A
(A B)
B)

(C)
(D E)
E)
(C)  (D

Penemuan pola sikuensial: aplikasi
• Dalam sikeun transaksi penjualan
- Toko buku Komputer
(Intro_to-Visual_C) (C++_Primer) 
(Perl_for_dummies,Object_Oriented)
- Toko Sport
(Sepatu)(Racket,Bola_Tenis) 
(Sport_Jacket)

Regresi
• Memprediksi suatu nilai variabel bernilai kontinu yang
diketahui berdasarkan pada nilai variabel lainnya,
dengan mengandaikan model ketergantungan linier atau
tak linier.
• Dipelajari di Statistika, Jaringan syaraf.
• Contoh :
- Memprediksi jumlah penjualan produk baru yang
didasarkan pada biaya pemasaran
- Memprediksi kecepatan angin sebagai fungsi dari
temperatur, kelembapan, tekanan udara,dll
- Prediksi time series indeks pasar saham

““

Terima kasih