Peran Komputasi Awan
Peran Komputasi Awan Pada
Sains Data-Intensive (SDI)
Achmad Benny Mutiara
Fakultas Ilmu Komputer dan Teknologi Informasi
Universitas Gunadarma
amutiara@staff.gunadarma.ac.id
Outline
1.
2.
3.
4.
Latar Belakang
Review Sains Data Intensive (SDI)
Review Komputasi Awan
Komputasi Awan pada Sains DataIntensive (SDI)
5. Masa Depan Komputasi Awan
ABM 13-03-13
2
1. Latar Belakang
Hidup di dunia yang eksponesial
• Data saintifik berlipat-lipat setiap tahun (data
deluge/big data)
– Dikarenakan generasi suksesif dari sensor murah +
komputasi yang secara eksponensial lebih cepat
• Adanya perubahan paradigma komputasi saintifik
• Lintas displin/interdisplin (e-Science)
• Semakin sulit utk mengekstraksi pengetahuan
• 20 % server di dunia terletak pada data center “the
big-five”: Google, Microsoft, Yahoo, e-Bay, Amazon
ABM 13-03-13
4
Pengumpulan Data
• Distribusi set data yang sangat luas (data pada
seluruh skala !! )
• Kebanyakan set data kecil, di maintain secara manual
(excel spreadsheet)
• Total jumlah data didominasi oleh yang lain di luar “the
big-five” (fasilitas arsip besar mutli-TB/PB)
• Kebanyakan byte-byte dikumpulkan melalui sensorsensor elektronik
ABM 13-03-13
5
Analisis Data Saintifik
• Data ada dimana saja, tidak pernah berada pada satu
lokasi
• Arsitektur ditekankan pada peningkatan kekuatan
CPU, sementara I/O -nya tidak ditekankan
• Diperlukan arsistektur “data-intensive scalable”
• Diperlukan algoritma2 “incremental” acak
(randomized)
• Kebanyakan analisis data saintifik dikerjakan pada
cluster2 kecil sampai ukuran menengah dari suatu
institusi riset/fakultas
– Jelas pemborosan listrik
– Tidak scalable, dan tidak di maintain
ABM 13-03-13
6
2. Review Sains Data Intensive (SDI)
Hukum Rekayasa Data Gray
•
Jim Gray:
– Scientific computing is becoming increasingly data
intensive.
– Need “scale-out” solution for analysis.
– Bring computations to the data, rather than data
to the computations.
– Start the design with the “20 queries.”
– Go from “working to working.”
• DISC: Data Intensive Scientific Computing
–
The Fourth Paradigm of Science
ABM 13-03-13
8
Evolusi Penemuan Saintifik
• Ribuan Tahun yang lalu:
– Sains Empiris (eksperimen/observasi)
• u/ mendeskripsikan fenoma alam
• Ratusan Tahun yang lalu:
– Sains Teoritis
• Mengembangkan model dan generalisasi
• Puluhan tahun yang lalu:
– Sains Komputasi
• Simulasi fenomena kompleks
• Saat ini:
– Sains Data-intensive
• Sintesis teori, eksperimen dan
komputasi dengan manajemen dan
statistik data “advanced” new algorithms
ABM 13-03-13
9
Metode Saintifik Abad 21
TEORI
Teori dikembangkan
dan dieksplore melalui
komputasi
Teori memunculkan
hipotesis yang
diverifikasi melalui
ekeperimen
Hipotesis2 ditemukan dari Data
dan mendorong Teori
Data dihasilkan
komputasi
Data
Data dihasilkan
eksperimen
Komputasi
Eksperimen
Komputasi menginformasikan desain Eksperimen
ABM 13-03-13
10
Sains Data Intensive (SDI)
Masalah-masalah dimana data menjadi faktor yang dominan
Laju Akuisisi
Volume
Kompleksitas
Ketidakpastian
Sains Komputasi Tradisional
• Komputasi memiliki lokalitas
spasial dan temporal
• Masalah dimuat ke memori
• Metode memerlukan aritmatika
presisi tinggi
• Datanya statis
Pemodelan dan Simulasi
Sains Data Intensive
• Komputasi tidak atau sedikit
memiliki lokalitas
• Masalah tidak dimuat ke memori
• Presisi atau pembulatan variabel
berbasis aritmatika
• Datanya dinamis
Analisis
ABM 13-03-13
11
Pemodelan & Simulasi Data Intensive
Hasil2 digali utk menemukan parameter2 bagi simlasi skala yg lebih tinggi
Kuantum
Molekular
Kontinum
Data Instrument menggerakan/mendorong simulasi
Sensor2 Ruang Angkasa
Simulasi Iklim
ABM 13-03-13
Sensor2 Bumi
12
Teknik dan Teknologi Pada SDI
• SDI memanfaatkan teknik ilmu
komputer dan teknologi IK
–
–
–
–
–
–
–
Sensor2 dan jaringan sensor
Jaringan Backbone
Databases
Data mining
Machine learning
Data visualization
Cluster/grid computing pada skala
besar
ABM 13-03-13
13
Tantangan Kunci Sains Data Intensive
Volume Besar dan
Througput Tinggi
Keterhubungan dan link
Heterogenitas Tinggi
Kompleksitas Tinggi
ABM 13-03-13
14
Issue Riset Sains Data Intensive
• Penemuan, Pengumpulan dan Pengelolaan Data
dengan Kualitas yg sudah diketahui
– Penemuan dan analisis
• Mis. Teknik ‘tagging’ “Smart Data” utk data ‘self-describing’ dan
metode analitik
– Distribusi beban kerja dan data reduksi
• Mis. Pemindahan pemrosesan dan pemfilteran data menjadi dekat ke
instrumen2 dan data
– Abstraksi data tingkat lebih tinggi
• Mis. Teknologi Semantik utk menghubungan obyek data berdasarkan
koleksi lintas kontennya utk membentuk obyek data tingkat yang
lebih tinggi
ABM 13-03-13
15
Issue Riset Sains Data Intensive
– Data korelasi-silang (Cross-correlation)
• Mis. Ontologi2 utk me-link data, domain knowledge, algoritma2, dan
hasil2 eksperimen
– Koleksi Asal-usul (Provenance)
• Mis. Tools utk mengotomatisasi koleksi asal-usul dari data mentah
dan olahan, mendukung dokumentasi bidang yg diandalkan,
kuantifikasi kualitas
• Analisis Informasi untuk penemuan dan kepastian
saintifik
– Teknik-teknik Aggregasi
• Mis. Representasi tingkat lebih tinggi (domain-driven) yang
memungkinkan menelusuri ke data mentah
ABM 13-03-13
16
Issue Riset Sains Data Intensive
– Propagasi dan kuantifikasi ketidakpastian
• Mis. Metode untuk mendukung penangkapan (capture) pengetahuan,
kolaborasi jarak jauh, berbagi dan penggunaan kembali
– Teknik Pendekatan (Approximation techniques)
• Mis. Algoritna progressif untuk menghasilkan hasil kasar dengan
cepat dan memperbaiki dari waktu ke waktu.
– Metafora dan interaksi visual
• Mis. Metafora Visual temporal-invariant dan skala-toleran baru.
Representasi visual dari ketidakpastian
– Keterlibatan interaktif (HCI)
• Mis. Interaktif antarmuka dan perangkat interaktif yang mengurangi
kesenjangan antara tampilan visual dari informasi dan kognisi
manusia
ABM 13-03-13
17
Tantangan metode, model, arsitektur dataintensive
Akses Terdistribusi/sistem heterogen
Akses tidak teratur (irregular)
Map Jalan Tol
Seamless scalability
ABM 13-03-13
18
3. Review Komputasi Awan
Definisi
• NIST
– A model for enabling convenient, on-demand network
access to a shared pool of configurable computing
resources (e.g., networks, servers, storage, applications
and services) that can be rapidly provisioned and released
with minimal management effort or service provider
interaction.
– In short, “computation as a…utility”
– Popularized by Eric Schmidt in 2006
ABM 13-03-13
20
Enam Paradigma Komputasi
Six Computing Paradigms – from Mainframe Computing to Internet Computing, to Grid Computing and Cloud
Computing (Adapted from Voas.J, & Zhang, J.(March/April 2009) Cloud Computing: New Wine or Just a New Bottle?
21
ABM 13-03-13
IEEE ITPro, pp.15–17.)
Evolusi Komputasi Awan pada IT
ABM 13-03-13
22
Teknologi Enabler-nya
• Data Deluge Enabling New Challenges Cloud Enabling
Technology
ABM 13-03-13
23
Virtualisasi
• Inti dari teknologi komputasi Awan : Virtualisasi
• Pada komputasi Awan: Mesin fisik mesin virtual; jaringan
fisik jaringan virtual; penyimpan fisik penyimpan
virtual
• Virtual Mesin: representasi mesin real menggunakan SW
yang menyediakan suatu lingkungan operasi yang dapat
berjalan atau meng-host sistem operasi lain (guest operating
system)
• Guest operating system: sistem operasi yang berjalan
pada lingkungan virtual yang berjalan langsung pada suatu
sistem fisik yang terpisah
ABM 13-03-13
24
Virtualisasi
Lapisan Virtualisasi merupakan “middleware” antara HW dan virtual
machines yang direpresentasikan pada sistem , dikenal sebagai virtual
machine monitor (VMM) atau hypervisor.
Perbedaan antara Komputer Tradisional dan Virtual Machines
ABM 13-03-13
25
Jenis Hypervisor
• Hypervisor atau VMM: landasan bagi virtualisasi atau SW
khusus yang menyebabkan berbagai SO dapat berjalan secara
simultan pada sebuah komputer
• Secara umum ada dua jenis Hypervisor:
– Hypervisor tipe-1 (bare-metal architecture)
• Berjalan secara langsung pd HW, artinya tidak memerlukan SO utk
menjalankan hypervisor
• Dpt diintall langsung pada disk
• Bekerja lebih baik dibanding tipe-2
• Contoh: CP/CMS (IBM 1960), XenServer, Xen Cloud Platform, VMware
ESX/ESXi, Microsoft Hyper-V
– Hypervisor tipe-2 (Hosted Architecture)
• Aplikasi yg diinstall di atas SO yg umum
• Fleksibilitas lebih baik dibanding tipe-1
• Contoh: VMware GSX server/workstation, VirtualBox, VirtualPC
ABM 13-03-13
26
Virtualisasi
ABM 13-03-13
27
Web service dan SOA, Web 2.0 dan
Mash-up
• Web Service and Service Oriented Architecture:
– Web services (WS) open standards telah memberikan kontribusi besar
untuk kemajuan dalam domain integrasi perangkat lunak.
– Web services dapat
• Mengikat menjadi satu aplikasi yang berjalan pada platform produk
messaging yang berbeda ,
• Mengaktifkan informasi dari satu aplikasi yang dibuat tersedia untuk
aplikasi lain, dan
• Mengaktifkan aplikasi internal yang dibuat tersedia melalui Internet.
– Dalam SOA, sumber daya perangkat lunak dikemas sebagai “services“,
yang menyediakan fungsionalitas bisnis standar dan independen dari
keadaan atau konteks dari layanan lainnya. Layanan dideskripsikan
dalam bahasa definisi standar (WSDL) dan memiliki antarmuka yang
dipublish (UDDI).
ABM 13-03-13
28
Web service and SOA, Web 2.0 and
Mash-up
• Munculnya Web 2.0, informasi dan layanan dapat diagregasi
secara pemrograman, bertindak sebagai blok bangunan
komposisi yang kompleks, yang disebut layanan mashup (Web
Service Composition).
– yaitu suatu aplikasi enterprise yang mengikuti paradigma SOA adalah
kumpulan layanan yang secara bersama-sama melakukan logika bisnis
yang kompleks
ABM 13-03-13
29
Komputasi Otonom
• Otonom, atau swa-kelola, sistem bergantung pada pemantauan
probe dan pengukur (sensor), pada mesin adaptasi (manajer
otonom) untuk optimasi komputasi berdasarkan data
pemantauan, dan efektor untuk melaksanakan perubahan pada
sistem.
– Inisiatif komputasi otonom IBM telah memberikan kontribusi untuk
mendefinisikan empat sifat sistem otonom: self-configuration, selfoptimization, self-healing, dan self-protection. IBM juga telah
mengusulkan model referensi untuk loop kontrol otonom manajer
otonom, disebut MAPE-K (Monitor Analyze Plan Execute-Knowledge
).
• Data Center yang besar penyedia komputasi awan harus
dikelola dengan cara yang efisien.
– Dalam pengertian ini, konsep komputasi otonom menginspirasi teknologi
perangkat lunak untuk otomatisasi data center, yang dapat melakukan
tugas-tugas seperti:
• management of service levels of running applications; management of
data center capacity; proactive disaster recovery; and automation of VM
provisioning.
ABM 13-03-13
30
Framework Definisi NIST
ABM 13-03-13
31
Arsitektur Referensi NIST
ABM 13-03-13
32
Karakteristik Awan
• On demand self-service
– Pengguna dapat menggunakan layanan awan sesuai kebutuhan, tanpa perlu
dilayani oleh pihak lain (Users do not need to understand the underlying
technology infrastructure)
• Measured service
– Service yang disediakan dapat diukur. Provider dapat mengendalikan dan
memonitor layanan awan.
• Rapid Elasticity
– Sumber daya yg disediakan dapat bertambah atau berkurang dgn cepat
– Pengguna dapat menyewa computing power sesuai kebutuhan
• Ubiquitous/Broad Network Access
– Semua kapabilitas tersedia melalui jaringan dan dapat diakses dengan metode
yang berlaku secara umum
• Resource Pooling
– Provider dapat melayani pengguna via multi-tenant model. Berbagai sumber daya
yang terdapat diberbagai lokasi dapat digunakan oleh banyak client secara
bersamaan.
ABM 13-03-13
33
Tiga Model Layanan Utama Awan
• Software as a Service
(SaaS)
– Pengguna dapat menggunakan
aplikasi namun tdk dpt membuat
aplikasi, tdk dpt mengontrol SO,
HW, Net.
– Contoh: GoogleDoc, SalesForce
• Platform as a Service
(PaaS)
– Dapat mengembangkan aplikasi
dgn menggunakan application
framework
– Dapat mengontrol aplikasi, tetapi
tidak SO, HW, NET
– Contoh: Force.Com, MS Azure
• Infrastructure as a
Service (IaaS)
– Dapat menggunakan sumber
komputasi dasar.
– Contoh: Amazon EC Cloud
ABM 13-03-13
34
Empat Model Deployment Utama
• Private Cloud
– Dimiliki atau disewa sebuah organisasi
• Community Cloud
– Infrastruktur di-share u/ komuntas tertentu
• Public Cloud
– Dijual ke publik
– Infrastruktur Skala Besar
• Hybrid Cloud
– Komposisi dari dua atau lebih dari model di atas
ABM 13-03-13
35
Empat Model Deployment Utama
ABM 13-03-13
36
Public Clouds vs. Private Clouds
Characteristics
Public clouds
Private clouds
Technology leverage
and ownership
Owned by service providers
Leverage existing IT infrastructure and
personnel; owned by individual
organization
Management of
provisioned resources
Creating and managing VM instances
within proprietary infrastructure;
promote standardization, preserves
capital investment, application flexibility
Client managed; achieve customization
and offer higher efficiency
Workload distribution
methods and loading
policies
Handle workload without
communication dependency; distribute
data and VM resources; surge workload is
off-loaded
Handle workload dynamically, but can
better balance workloads; distribute
data and VM resources
Security and data
privacy enforcement
Publicly accessible through remote
interface
Access is limited; provide pre-production
testing and enforce data privacy and
security policies
Example platforms
Google App Engine, Amazon AWS,
Microsoft Azure
IBM RC2
ABM 13-03-13
37
4. Komputasi Awan pada Sains DataIntensive (SDI)
• Interaksi diantara empat tantangan teknis : Data Deluge, Cloud Technology,
eScience, and Multicore/Parallel Computing
ABM 13-03-13
39
Kebutuhan Utama
• Kebutuhan utama utk memanfaatkan komputasi
awan pada SDI
– Lingkungan Pemrograman dan Komputasi
Parallel, antara lain
• Map Reduce
• Hadoop
• Amazon Web Services
– Arsitektur Intercloud/Multicloud Koneksi antar
data center lembaga riset
• Issue utama : Standar baku belum ada, Security
ABM 13-03-13
40
MapReduce
• Model pemrogaman data-paralel sederhana
• U/ pemrosesan data skala-besar
– Mengekspoiltasi sekumpulan komputer komoditas yang
besar
– Mengeksekusi proses secara terdistribusi
– Menyediakan ketersediaan yang tinggi
• Dipelopori oleh Google
– Memproses 20 petabytes data per hari
• Dipopulerkan melalui proyek open-source Hadoop
– digunakan oleh Yahoo!, Facebook, Amazon, …
ABM 13-03-13
41
Motivation: Large Scale Data Processing
• Tugas-tugas (tasks) terdiri dari banyak pengolahan
data untuk menghasilkan banyak data lainnya
• Ingin memanfaat ratusan atau ribuan CPU
... Namun kebutuhan ini harus mudah!
• MapReduce menyediakan
–
–
–
–
–
Fungsi-fungsi “user-defined”
Paralelisasi dan distribusi otomatis
Fault-tolerance
Penjadualan I/O
Status dan monitoring
ABM 13-03-13
42
What is MapReduce used for?
• At Google:
– Konstruksi Index u/ Google Search
– Clustering artikel u/ Google News
– Translasi mesin secara statistik
• At Yahoo!:
– “Web map” u/ memperkuat dan mendukung Yahoo! Search
– Deteksi Spam u/ Yahoo! Mail
• At Facebook:
– Data mining
– Optimisasi Ad
– Deteksi Spam
ABM 13-03-13
43
What is MapReduce used for?
• Pada penelitian:
–
–
–
–
–
–
–
Analisi citra astronomi
Bioinformatika
Analisis konflik pada Wikipedia
Natural language processing
Fisika partikel
Simulasi Iklim Lautan (Ocean climate simulation)
dll
ABM 13-03-13
44
Map+Reduce
Very
big
data
•
M
A
P
Map:
–
Accepts input key/value
pair
– Emits intermediate
key/value pair
Partitioning
Function
•
ABM 13-03-13
R
E
D
U
C
E
Result
Reduce :
–
Accepts intermediate
key/value* pair
– Emits output key/value
pair
45
Implementasi MapReduce
MapReduce
Cluster,
1, Google
2, Apache Hadoop
Multicore CPU,
Phoenix @ stanford
ABM 13-03-13
GPU,
Mars@HKUST
46
Hadoop
• Software platform originally developed by Yahoo
enabling users to write and run applications over vast
distributed data.
• Attractive Features in Hadoop :
– Scalable : can easily scale to store and process petabytes of
data in the Web space
– Economical : An open-source MapReduce minimizes the
overheads in task spawning and massive data
communication
– Efficient: Processing data with high-degree of parallelism
across a large number of commodity nodes
– Reliable : Automatically maintains multiple copies of data
to facilitate redeployment of computing tasks on failures
ABM 13-03-13
47
Typical Hadoop Cluster
Aggregation switch
Rack switch
• 40 nodes/rack, 1000-4000 nodes in cluster
• 1 Gbps bandwidth within rack, 8 Gbps out of rack
• Node specs (Yahoo terasort):
8 x 2GHz cores, 8 GB RAM, 4 disks (= 4 TB?)
ABM 13-03-13
48
Amazon Web Services
• Provides a web-based interface and command-line
tools for running Hadoop jobs on Amazon EC2
• Data stored in Amazon S3
• Monitors job and shuts down machines after use
• Small extra charge on top of EC2 pricing
• If you want more control over how you Hadoop runs,
you can launch a Hadoop cluster on EC2 manually
using the scripts in src/contrib/ec2
ABM 13-03-13
49
Model Kolaborasi pada Sistem
Multicloud
• Cloud-hosted Proxy
ABM 13-03-13
50
Model Kolaborasi pada Sistem
Multicloud
• Proxy as a
service
ABM 13-03-13
51
Model Kolaborasi pada Sistem
Multicloud
• Onpremises
Proxy
ABM 13-03-13
52
5. Masa Depan Komputasi Awan
Major Computing Technology Trends
ABM 13-03-13
54
Opportunities of IoT in 3 Dimensions
ABM 13-03-13
55
Architecture of The Internet of Things
Application
Layer
Merchandise
Tracking
Environment
Protection
Intelligent
Search
Telemedicine
Intelligent
Traffic
Smart
Home
Cloud Computing
Platform
Network
Layer
Mobile
Telecom
Network
The
Internet
Information
Network
RFID
Sensor
Network
GPS
RFID Label
Sensor Nodes
Road Mapper
Sensing
Layer
ABM 13-03-13
56
Clouds and Internet of Things
HPC: HighPerformance
Computing
HTC: HighThroughput
Computing
P2P:
Peer to Peer
MPP:
Massively
Parallel
Source: K. Hwang, G. Fox, and J. Dongarra, Distributed and Cloud Computing, Morgan
Kaufmann, 2012.
ABM 13-03-13
Processors
57
Computing Level Trend
Macro Level
1970 -80
Parallel and
Distributed
Computing
(cluster and
Grid Computing)
In 20 -30 years Transform
Micro Level
Quantum
Computing
2006-2009
Cloud
Computing
•Atomic Level
Computing
•Use nature
Phenomena:
Quantum
mechanics
Scientific Discovery:
1980 - 90
Network and
Internet
Computing
1998
Data-Intensive
Computing
•
•
•
•
ABM 13-03-13
Experiments/Observation (2000 year
ago)
Theory (15th -16th Century)
Computational Science (1930)
Data-Intensive Science/e-Science
(1998)
58
ABM 13-03-13
59
Sains Data-Intensive (SDI)
Achmad Benny Mutiara
Fakultas Ilmu Komputer dan Teknologi Informasi
Universitas Gunadarma
amutiara@staff.gunadarma.ac.id
Outline
1.
2.
3.
4.
Latar Belakang
Review Sains Data Intensive (SDI)
Review Komputasi Awan
Komputasi Awan pada Sains DataIntensive (SDI)
5. Masa Depan Komputasi Awan
ABM 13-03-13
2
1. Latar Belakang
Hidup di dunia yang eksponesial
• Data saintifik berlipat-lipat setiap tahun (data
deluge/big data)
– Dikarenakan generasi suksesif dari sensor murah +
komputasi yang secara eksponensial lebih cepat
• Adanya perubahan paradigma komputasi saintifik
• Lintas displin/interdisplin (e-Science)
• Semakin sulit utk mengekstraksi pengetahuan
• 20 % server di dunia terletak pada data center “the
big-five”: Google, Microsoft, Yahoo, e-Bay, Amazon
ABM 13-03-13
4
Pengumpulan Data
• Distribusi set data yang sangat luas (data pada
seluruh skala !! )
• Kebanyakan set data kecil, di maintain secara manual
(excel spreadsheet)
• Total jumlah data didominasi oleh yang lain di luar “the
big-five” (fasilitas arsip besar mutli-TB/PB)
• Kebanyakan byte-byte dikumpulkan melalui sensorsensor elektronik
ABM 13-03-13
5
Analisis Data Saintifik
• Data ada dimana saja, tidak pernah berada pada satu
lokasi
• Arsitektur ditekankan pada peningkatan kekuatan
CPU, sementara I/O -nya tidak ditekankan
• Diperlukan arsistektur “data-intensive scalable”
• Diperlukan algoritma2 “incremental” acak
(randomized)
• Kebanyakan analisis data saintifik dikerjakan pada
cluster2 kecil sampai ukuran menengah dari suatu
institusi riset/fakultas
– Jelas pemborosan listrik
– Tidak scalable, dan tidak di maintain
ABM 13-03-13
6
2. Review Sains Data Intensive (SDI)
Hukum Rekayasa Data Gray
•
Jim Gray:
– Scientific computing is becoming increasingly data
intensive.
– Need “scale-out” solution for analysis.
– Bring computations to the data, rather than data
to the computations.
– Start the design with the “20 queries.”
– Go from “working to working.”
• DISC: Data Intensive Scientific Computing
–
The Fourth Paradigm of Science
ABM 13-03-13
8
Evolusi Penemuan Saintifik
• Ribuan Tahun yang lalu:
– Sains Empiris (eksperimen/observasi)
• u/ mendeskripsikan fenoma alam
• Ratusan Tahun yang lalu:
– Sains Teoritis
• Mengembangkan model dan generalisasi
• Puluhan tahun yang lalu:
– Sains Komputasi
• Simulasi fenomena kompleks
• Saat ini:
– Sains Data-intensive
• Sintesis teori, eksperimen dan
komputasi dengan manajemen dan
statistik data “advanced” new algorithms
ABM 13-03-13
9
Metode Saintifik Abad 21
TEORI
Teori dikembangkan
dan dieksplore melalui
komputasi
Teori memunculkan
hipotesis yang
diverifikasi melalui
ekeperimen
Hipotesis2 ditemukan dari Data
dan mendorong Teori
Data dihasilkan
komputasi
Data
Data dihasilkan
eksperimen
Komputasi
Eksperimen
Komputasi menginformasikan desain Eksperimen
ABM 13-03-13
10
Sains Data Intensive (SDI)
Masalah-masalah dimana data menjadi faktor yang dominan
Laju Akuisisi
Volume
Kompleksitas
Ketidakpastian
Sains Komputasi Tradisional
• Komputasi memiliki lokalitas
spasial dan temporal
• Masalah dimuat ke memori
• Metode memerlukan aritmatika
presisi tinggi
• Datanya statis
Pemodelan dan Simulasi
Sains Data Intensive
• Komputasi tidak atau sedikit
memiliki lokalitas
• Masalah tidak dimuat ke memori
• Presisi atau pembulatan variabel
berbasis aritmatika
• Datanya dinamis
Analisis
ABM 13-03-13
11
Pemodelan & Simulasi Data Intensive
Hasil2 digali utk menemukan parameter2 bagi simlasi skala yg lebih tinggi
Kuantum
Molekular
Kontinum
Data Instrument menggerakan/mendorong simulasi
Sensor2 Ruang Angkasa
Simulasi Iklim
ABM 13-03-13
Sensor2 Bumi
12
Teknik dan Teknologi Pada SDI
• SDI memanfaatkan teknik ilmu
komputer dan teknologi IK
–
–
–
–
–
–
–
Sensor2 dan jaringan sensor
Jaringan Backbone
Databases
Data mining
Machine learning
Data visualization
Cluster/grid computing pada skala
besar
ABM 13-03-13
13
Tantangan Kunci Sains Data Intensive
Volume Besar dan
Througput Tinggi
Keterhubungan dan link
Heterogenitas Tinggi
Kompleksitas Tinggi
ABM 13-03-13
14
Issue Riset Sains Data Intensive
• Penemuan, Pengumpulan dan Pengelolaan Data
dengan Kualitas yg sudah diketahui
– Penemuan dan analisis
• Mis. Teknik ‘tagging’ “Smart Data” utk data ‘self-describing’ dan
metode analitik
– Distribusi beban kerja dan data reduksi
• Mis. Pemindahan pemrosesan dan pemfilteran data menjadi dekat ke
instrumen2 dan data
– Abstraksi data tingkat lebih tinggi
• Mis. Teknologi Semantik utk menghubungan obyek data berdasarkan
koleksi lintas kontennya utk membentuk obyek data tingkat yang
lebih tinggi
ABM 13-03-13
15
Issue Riset Sains Data Intensive
– Data korelasi-silang (Cross-correlation)
• Mis. Ontologi2 utk me-link data, domain knowledge, algoritma2, dan
hasil2 eksperimen
– Koleksi Asal-usul (Provenance)
• Mis. Tools utk mengotomatisasi koleksi asal-usul dari data mentah
dan olahan, mendukung dokumentasi bidang yg diandalkan,
kuantifikasi kualitas
• Analisis Informasi untuk penemuan dan kepastian
saintifik
– Teknik-teknik Aggregasi
• Mis. Representasi tingkat lebih tinggi (domain-driven) yang
memungkinkan menelusuri ke data mentah
ABM 13-03-13
16
Issue Riset Sains Data Intensive
– Propagasi dan kuantifikasi ketidakpastian
• Mis. Metode untuk mendukung penangkapan (capture) pengetahuan,
kolaborasi jarak jauh, berbagi dan penggunaan kembali
– Teknik Pendekatan (Approximation techniques)
• Mis. Algoritna progressif untuk menghasilkan hasil kasar dengan
cepat dan memperbaiki dari waktu ke waktu.
– Metafora dan interaksi visual
• Mis. Metafora Visual temporal-invariant dan skala-toleran baru.
Representasi visual dari ketidakpastian
– Keterlibatan interaktif (HCI)
• Mis. Interaktif antarmuka dan perangkat interaktif yang mengurangi
kesenjangan antara tampilan visual dari informasi dan kognisi
manusia
ABM 13-03-13
17
Tantangan metode, model, arsitektur dataintensive
Akses Terdistribusi/sistem heterogen
Akses tidak teratur (irregular)
Map Jalan Tol
Seamless scalability
ABM 13-03-13
18
3. Review Komputasi Awan
Definisi
• NIST
– A model for enabling convenient, on-demand network
access to a shared pool of configurable computing
resources (e.g., networks, servers, storage, applications
and services) that can be rapidly provisioned and released
with minimal management effort or service provider
interaction.
– In short, “computation as a…utility”
– Popularized by Eric Schmidt in 2006
ABM 13-03-13
20
Enam Paradigma Komputasi
Six Computing Paradigms – from Mainframe Computing to Internet Computing, to Grid Computing and Cloud
Computing (Adapted from Voas.J, & Zhang, J.(March/April 2009) Cloud Computing: New Wine or Just a New Bottle?
21
ABM 13-03-13
IEEE ITPro, pp.15–17.)
Evolusi Komputasi Awan pada IT
ABM 13-03-13
22
Teknologi Enabler-nya
• Data Deluge Enabling New Challenges Cloud Enabling
Technology
ABM 13-03-13
23
Virtualisasi
• Inti dari teknologi komputasi Awan : Virtualisasi
• Pada komputasi Awan: Mesin fisik mesin virtual; jaringan
fisik jaringan virtual; penyimpan fisik penyimpan
virtual
• Virtual Mesin: representasi mesin real menggunakan SW
yang menyediakan suatu lingkungan operasi yang dapat
berjalan atau meng-host sistem operasi lain (guest operating
system)
• Guest operating system: sistem operasi yang berjalan
pada lingkungan virtual yang berjalan langsung pada suatu
sistem fisik yang terpisah
ABM 13-03-13
24
Virtualisasi
Lapisan Virtualisasi merupakan “middleware” antara HW dan virtual
machines yang direpresentasikan pada sistem , dikenal sebagai virtual
machine monitor (VMM) atau hypervisor.
Perbedaan antara Komputer Tradisional dan Virtual Machines
ABM 13-03-13
25
Jenis Hypervisor
• Hypervisor atau VMM: landasan bagi virtualisasi atau SW
khusus yang menyebabkan berbagai SO dapat berjalan secara
simultan pada sebuah komputer
• Secara umum ada dua jenis Hypervisor:
– Hypervisor tipe-1 (bare-metal architecture)
• Berjalan secara langsung pd HW, artinya tidak memerlukan SO utk
menjalankan hypervisor
• Dpt diintall langsung pada disk
• Bekerja lebih baik dibanding tipe-2
• Contoh: CP/CMS (IBM 1960), XenServer, Xen Cloud Platform, VMware
ESX/ESXi, Microsoft Hyper-V
– Hypervisor tipe-2 (Hosted Architecture)
• Aplikasi yg diinstall di atas SO yg umum
• Fleksibilitas lebih baik dibanding tipe-1
• Contoh: VMware GSX server/workstation, VirtualBox, VirtualPC
ABM 13-03-13
26
Virtualisasi
ABM 13-03-13
27
Web service dan SOA, Web 2.0 dan
Mash-up
• Web Service and Service Oriented Architecture:
– Web services (WS) open standards telah memberikan kontribusi besar
untuk kemajuan dalam domain integrasi perangkat lunak.
– Web services dapat
• Mengikat menjadi satu aplikasi yang berjalan pada platform produk
messaging yang berbeda ,
• Mengaktifkan informasi dari satu aplikasi yang dibuat tersedia untuk
aplikasi lain, dan
• Mengaktifkan aplikasi internal yang dibuat tersedia melalui Internet.
– Dalam SOA, sumber daya perangkat lunak dikemas sebagai “services“,
yang menyediakan fungsionalitas bisnis standar dan independen dari
keadaan atau konteks dari layanan lainnya. Layanan dideskripsikan
dalam bahasa definisi standar (WSDL) dan memiliki antarmuka yang
dipublish (UDDI).
ABM 13-03-13
28
Web service and SOA, Web 2.0 and
Mash-up
• Munculnya Web 2.0, informasi dan layanan dapat diagregasi
secara pemrograman, bertindak sebagai blok bangunan
komposisi yang kompleks, yang disebut layanan mashup (Web
Service Composition).
– yaitu suatu aplikasi enterprise yang mengikuti paradigma SOA adalah
kumpulan layanan yang secara bersama-sama melakukan logika bisnis
yang kompleks
ABM 13-03-13
29
Komputasi Otonom
• Otonom, atau swa-kelola, sistem bergantung pada pemantauan
probe dan pengukur (sensor), pada mesin adaptasi (manajer
otonom) untuk optimasi komputasi berdasarkan data
pemantauan, dan efektor untuk melaksanakan perubahan pada
sistem.
– Inisiatif komputasi otonom IBM telah memberikan kontribusi untuk
mendefinisikan empat sifat sistem otonom: self-configuration, selfoptimization, self-healing, dan self-protection. IBM juga telah
mengusulkan model referensi untuk loop kontrol otonom manajer
otonom, disebut MAPE-K (Monitor Analyze Plan Execute-Knowledge
).
• Data Center yang besar penyedia komputasi awan harus
dikelola dengan cara yang efisien.
– Dalam pengertian ini, konsep komputasi otonom menginspirasi teknologi
perangkat lunak untuk otomatisasi data center, yang dapat melakukan
tugas-tugas seperti:
• management of service levels of running applications; management of
data center capacity; proactive disaster recovery; and automation of VM
provisioning.
ABM 13-03-13
30
Framework Definisi NIST
ABM 13-03-13
31
Arsitektur Referensi NIST
ABM 13-03-13
32
Karakteristik Awan
• On demand self-service
– Pengguna dapat menggunakan layanan awan sesuai kebutuhan, tanpa perlu
dilayani oleh pihak lain (Users do not need to understand the underlying
technology infrastructure)
• Measured service
– Service yang disediakan dapat diukur. Provider dapat mengendalikan dan
memonitor layanan awan.
• Rapid Elasticity
– Sumber daya yg disediakan dapat bertambah atau berkurang dgn cepat
– Pengguna dapat menyewa computing power sesuai kebutuhan
• Ubiquitous/Broad Network Access
– Semua kapabilitas tersedia melalui jaringan dan dapat diakses dengan metode
yang berlaku secara umum
• Resource Pooling
– Provider dapat melayani pengguna via multi-tenant model. Berbagai sumber daya
yang terdapat diberbagai lokasi dapat digunakan oleh banyak client secara
bersamaan.
ABM 13-03-13
33
Tiga Model Layanan Utama Awan
• Software as a Service
(SaaS)
– Pengguna dapat menggunakan
aplikasi namun tdk dpt membuat
aplikasi, tdk dpt mengontrol SO,
HW, Net.
– Contoh: GoogleDoc, SalesForce
• Platform as a Service
(PaaS)
– Dapat mengembangkan aplikasi
dgn menggunakan application
framework
– Dapat mengontrol aplikasi, tetapi
tidak SO, HW, NET
– Contoh: Force.Com, MS Azure
• Infrastructure as a
Service (IaaS)
– Dapat menggunakan sumber
komputasi dasar.
– Contoh: Amazon EC Cloud
ABM 13-03-13
34
Empat Model Deployment Utama
• Private Cloud
– Dimiliki atau disewa sebuah organisasi
• Community Cloud
– Infrastruktur di-share u/ komuntas tertentu
• Public Cloud
– Dijual ke publik
– Infrastruktur Skala Besar
• Hybrid Cloud
– Komposisi dari dua atau lebih dari model di atas
ABM 13-03-13
35
Empat Model Deployment Utama
ABM 13-03-13
36
Public Clouds vs. Private Clouds
Characteristics
Public clouds
Private clouds
Technology leverage
and ownership
Owned by service providers
Leverage existing IT infrastructure and
personnel; owned by individual
organization
Management of
provisioned resources
Creating and managing VM instances
within proprietary infrastructure;
promote standardization, preserves
capital investment, application flexibility
Client managed; achieve customization
and offer higher efficiency
Workload distribution
methods and loading
policies
Handle workload without
communication dependency; distribute
data and VM resources; surge workload is
off-loaded
Handle workload dynamically, but can
better balance workloads; distribute
data and VM resources
Security and data
privacy enforcement
Publicly accessible through remote
interface
Access is limited; provide pre-production
testing and enforce data privacy and
security policies
Example platforms
Google App Engine, Amazon AWS,
Microsoft Azure
IBM RC2
ABM 13-03-13
37
4. Komputasi Awan pada Sains DataIntensive (SDI)
• Interaksi diantara empat tantangan teknis : Data Deluge, Cloud Technology,
eScience, and Multicore/Parallel Computing
ABM 13-03-13
39
Kebutuhan Utama
• Kebutuhan utama utk memanfaatkan komputasi
awan pada SDI
– Lingkungan Pemrograman dan Komputasi
Parallel, antara lain
• Map Reduce
• Hadoop
• Amazon Web Services
– Arsitektur Intercloud/Multicloud Koneksi antar
data center lembaga riset
• Issue utama : Standar baku belum ada, Security
ABM 13-03-13
40
MapReduce
• Model pemrogaman data-paralel sederhana
• U/ pemrosesan data skala-besar
– Mengekspoiltasi sekumpulan komputer komoditas yang
besar
– Mengeksekusi proses secara terdistribusi
– Menyediakan ketersediaan yang tinggi
• Dipelopori oleh Google
– Memproses 20 petabytes data per hari
• Dipopulerkan melalui proyek open-source Hadoop
– digunakan oleh Yahoo!, Facebook, Amazon, …
ABM 13-03-13
41
Motivation: Large Scale Data Processing
• Tugas-tugas (tasks) terdiri dari banyak pengolahan
data untuk menghasilkan banyak data lainnya
• Ingin memanfaat ratusan atau ribuan CPU
... Namun kebutuhan ini harus mudah!
• MapReduce menyediakan
–
–
–
–
–
Fungsi-fungsi “user-defined”
Paralelisasi dan distribusi otomatis
Fault-tolerance
Penjadualan I/O
Status dan monitoring
ABM 13-03-13
42
What is MapReduce used for?
• At Google:
– Konstruksi Index u/ Google Search
– Clustering artikel u/ Google News
– Translasi mesin secara statistik
• At Yahoo!:
– “Web map” u/ memperkuat dan mendukung Yahoo! Search
– Deteksi Spam u/ Yahoo! Mail
• At Facebook:
– Data mining
– Optimisasi Ad
– Deteksi Spam
ABM 13-03-13
43
What is MapReduce used for?
• Pada penelitian:
–
–
–
–
–
–
–
Analisi citra astronomi
Bioinformatika
Analisis konflik pada Wikipedia
Natural language processing
Fisika partikel
Simulasi Iklim Lautan (Ocean climate simulation)
dll
ABM 13-03-13
44
Map+Reduce
Very
big
data
•
M
A
P
Map:
–
Accepts input key/value
pair
– Emits intermediate
key/value pair
Partitioning
Function
•
ABM 13-03-13
R
E
D
U
C
E
Result
Reduce :
–
Accepts intermediate
key/value* pair
– Emits output key/value
pair
45
Implementasi MapReduce
MapReduce
Cluster,
1, Google
2, Apache Hadoop
Multicore CPU,
Phoenix @ stanford
ABM 13-03-13
GPU,
Mars@HKUST
46
Hadoop
• Software platform originally developed by Yahoo
enabling users to write and run applications over vast
distributed data.
• Attractive Features in Hadoop :
– Scalable : can easily scale to store and process petabytes of
data in the Web space
– Economical : An open-source MapReduce minimizes the
overheads in task spawning and massive data
communication
– Efficient: Processing data with high-degree of parallelism
across a large number of commodity nodes
– Reliable : Automatically maintains multiple copies of data
to facilitate redeployment of computing tasks on failures
ABM 13-03-13
47
Typical Hadoop Cluster
Aggregation switch
Rack switch
• 40 nodes/rack, 1000-4000 nodes in cluster
• 1 Gbps bandwidth within rack, 8 Gbps out of rack
• Node specs (Yahoo terasort):
8 x 2GHz cores, 8 GB RAM, 4 disks (= 4 TB?)
ABM 13-03-13
48
Amazon Web Services
• Provides a web-based interface and command-line
tools for running Hadoop jobs on Amazon EC2
• Data stored in Amazon S3
• Monitors job and shuts down machines after use
• Small extra charge on top of EC2 pricing
• If you want more control over how you Hadoop runs,
you can launch a Hadoop cluster on EC2 manually
using the scripts in src/contrib/ec2
ABM 13-03-13
49
Model Kolaborasi pada Sistem
Multicloud
• Cloud-hosted Proxy
ABM 13-03-13
50
Model Kolaborasi pada Sistem
Multicloud
• Proxy as a
service
ABM 13-03-13
51
Model Kolaborasi pada Sistem
Multicloud
• Onpremises
Proxy
ABM 13-03-13
52
5. Masa Depan Komputasi Awan
Major Computing Technology Trends
ABM 13-03-13
54
Opportunities of IoT in 3 Dimensions
ABM 13-03-13
55
Architecture of The Internet of Things
Application
Layer
Merchandise
Tracking
Environment
Protection
Intelligent
Search
Telemedicine
Intelligent
Traffic
Smart
Home
Cloud Computing
Platform
Network
Layer
Mobile
Telecom
Network
The
Internet
Information
Network
RFID
Sensor
Network
GPS
RFID Label
Sensor Nodes
Road Mapper
Sensing
Layer
ABM 13-03-13
56
Clouds and Internet of Things
HPC: HighPerformance
Computing
HTC: HighThroughput
Computing
P2P:
Peer to Peer
MPP:
Massively
Parallel
Source: K. Hwang, G. Fox, and J. Dongarra, Distributed and Cloud Computing, Morgan
Kaufmann, 2012.
ABM 13-03-13
Processors
57
Computing Level Trend
Macro Level
1970 -80
Parallel and
Distributed
Computing
(cluster and
Grid Computing)
In 20 -30 years Transform
Micro Level
Quantum
Computing
2006-2009
Cloud
Computing
•Atomic Level
Computing
•Use nature
Phenomena:
Quantum
mechanics
Scientific Discovery:
1980 - 90
Network and
Internet
Computing
1998
Data-Intensive
Computing
•
•
•
•
ABM 13-03-13
Experiments/Observation (2000 year
ago)
Theory (15th -16th Century)
Computational Science (1930)
Data-Intensive Science/e-Science
(1998)
58
ABM 13-03-13
59