Peran Komputasi Awan

Peran Komputasi Awan Pada
Sains Data-Intensive (SDI)

Achmad Benny Mutiara
Fakultas Ilmu Komputer dan Teknologi Informasi
Universitas Gunadarma
amutiara@staff.gunadarma.ac.id

Outline
1.
2.
3.
4.

Latar Belakang
Review Sains Data Intensive (SDI)
Review Komputasi Awan
Komputasi Awan pada Sains DataIntensive (SDI)
5. Masa Depan Komputasi Awan

ABM 13-03-13


2

1. Latar Belakang

Hidup di dunia yang eksponesial
• Data saintifik berlipat-lipat setiap tahun (data
deluge/big data)
– Dikarenakan generasi suksesif dari sensor murah +
komputasi yang secara eksponensial lebih cepat
• Adanya perubahan paradigma komputasi saintifik
• Lintas displin/interdisplin (e-Science)
• Semakin sulit utk mengekstraksi pengetahuan
• 20 % server di dunia terletak pada data center “the
big-five”: Google, Microsoft, Yahoo, e-Bay, Amazon

ABM 13-03-13

4


Pengumpulan Data
• Distribusi set data yang sangat luas (data pada
seluruh skala !! )
• Kebanyakan set data kecil, di maintain secara manual
(excel spreadsheet)
• Total jumlah data didominasi oleh yang lain di luar “the
big-five” (fasilitas arsip besar mutli-TB/PB)
• Kebanyakan byte-byte dikumpulkan melalui sensorsensor elektronik

ABM 13-03-13

5

Analisis Data Saintifik
• Data ada dimana saja, tidak pernah berada pada satu
lokasi
• Arsitektur ditekankan pada peningkatan kekuatan
CPU, sementara I/O -nya tidak ditekankan
• Diperlukan arsistektur “data-intensive scalable”
• Diperlukan algoritma2 “incremental” acak

(randomized)
• Kebanyakan analisis data saintifik dikerjakan pada
cluster2 kecil sampai ukuran menengah dari suatu
institusi riset/fakultas
– Jelas pemborosan listrik
– Tidak scalable, dan tidak di maintain
ABM 13-03-13

6

2. Review Sains Data Intensive (SDI)

Hukum Rekayasa Data Gray


Jim Gray:
– Scientific computing is becoming increasingly data
intensive.
– Need “scale-out” solution for analysis.
– Bring computations to the data, rather than data

to the computations.
– Start the design with the “20 queries.”
– Go from “working to working.”
• DISC: Data Intensive Scientific Computing


The Fourth Paradigm of Science
ABM 13-03-13

8

Evolusi Penemuan Saintifik
• Ribuan Tahun yang lalu:

– Sains Empiris (eksperimen/observasi)
• u/ mendeskripsikan fenoma alam

• Ratusan Tahun yang lalu:
– Sains Teoritis


• Mengembangkan model dan generalisasi

• Puluhan tahun yang lalu:
– Sains Komputasi

• Simulasi fenomena kompleks

• Saat ini:

– Sains Data-intensive
• Sintesis teori, eksperimen dan
komputasi dengan manajemen dan
statistik data “advanced”  new algorithms
ABM 13-03-13

9

Metode Saintifik Abad 21
TEORI


Teori dikembangkan
dan dieksplore melalui
komputasi

Teori memunculkan
hipotesis yang
diverifikasi melalui
ekeperimen

Hipotesis2 ditemukan dari Data
dan mendorong Teori

Data dihasilkan
komputasi

Data

Data dihasilkan
eksperimen


Komputasi

Eksperimen
Komputasi menginformasikan desain Eksperimen
ABM 13-03-13

10

Sains Data Intensive (SDI)
Masalah-masalah dimana data menjadi faktor yang dominan
Laju Akuisisi
Volume
Kompleksitas
Ketidakpastian

Sains Komputasi Tradisional
• Komputasi memiliki lokalitas
spasial dan temporal
• Masalah dimuat ke memori
• Metode memerlukan aritmatika

presisi tinggi
• Datanya statis

Pemodelan dan Simulasi

Sains Data Intensive
• Komputasi tidak atau sedikit
memiliki lokalitas
• Masalah tidak dimuat ke memori
• Presisi atau pembulatan variabel
berbasis aritmatika
• Datanya dinamis

Analisis

ABM 13-03-13

11

Pemodelan & Simulasi Data Intensive

Hasil2 digali utk menemukan parameter2 bagi simlasi skala yg lebih tinggi

Kuantum

Molekular

Kontinum

Data Instrument menggerakan/mendorong simulasi

Sensor2 Ruang Angkasa

Simulasi Iklim
ABM 13-03-13

Sensor2 Bumi
12

Teknik dan Teknologi Pada SDI
• SDI memanfaatkan teknik ilmu

komputer dan teknologi IK








Sensor2 dan jaringan sensor
Jaringan Backbone
Databases
Data mining
Machine learning
Data visualization
Cluster/grid computing pada skala
besar

ABM 13-03-13


13

Tantangan Kunci Sains Data Intensive
Volume Besar dan
Througput Tinggi

Keterhubungan dan link

Heterogenitas Tinggi

Kompleksitas Tinggi
ABM 13-03-13

14

Issue Riset Sains Data Intensive
• Penemuan, Pengumpulan dan Pengelolaan Data
dengan Kualitas yg sudah diketahui
– Penemuan dan analisis

• Mis. Teknik ‘tagging’ “Smart Data” utk data ‘self-describing’ dan
metode analitik

– Distribusi beban kerja dan data reduksi

• Mis. Pemindahan pemrosesan dan pemfilteran data menjadi dekat ke
instrumen2 dan data

– Abstraksi data tingkat lebih tinggi

• Mis. Teknologi Semantik utk menghubungan obyek data berdasarkan
koleksi lintas kontennya utk membentuk obyek data tingkat yang
lebih tinggi

ABM 13-03-13

15

Issue Riset Sains Data Intensive
– Data korelasi-silang (Cross-correlation)
• Mis. Ontologi2 utk me-link data, domain knowledge, algoritma2, dan
hasil2 eksperimen

– Koleksi Asal-usul (Provenance)

• Mis. Tools utk mengotomatisasi koleksi asal-usul dari data mentah
dan olahan, mendukung dokumentasi bidang yg diandalkan,
kuantifikasi kualitas

• Analisis Informasi untuk penemuan dan kepastian
saintifik
– Teknik-teknik Aggregasi

• Mis. Representasi tingkat lebih tinggi (domain-driven) yang
memungkinkan menelusuri ke data mentah
ABM 13-03-13

16

Issue Riset Sains Data Intensive
– Propagasi dan kuantifikasi ketidakpastian
• Mis. Metode untuk mendukung penangkapan (capture) pengetahuan,
kolaborasi jarak jauh, berbagi dan penggunaan kembali

– Teknik Pendekatan (Approximation techniques)

• Mis. Algoritna progressif untuk menghasilkan hasil kasar dengan
cepat dan memperbaiki dari waktu ke waktu.

– Metafora dan interaksi visual

• Mis. Metafora Visual temporal-invariant dan skala-toleran baru.
Representasi visual dari ketidakpastian

– Keterlibatan interaktif (HCI)

• Mis. Interaktif antarmuka dan perangkat interaktif yang mengurangi
kesenjangan antara tampilan visual dari informasi dan kognisi
manusia

ABM 13-03-13

17

Tantangan metode, model, arsitektur dataintensive
Akses Terdistribusi/sistem heterogen
Akses tidak teratur (irregular)

Map Jalan Tol
Seamless scalability

ABM 13-03-13

18

3. Review Komputasi Awan

Definisi
• NIST

– A model for enabling convenient, on-demand network
access to a shared pool of configurable computing
resources (e.g., networks, servers, storage, applications
and services) that can be rapidly provisioned and released
with minimal management effort or service provider
interaction.
– In short, “computation as a…utility”
– Popularized by Eric Schmidt in 2006

ABM 13-03-13

20

Enam Paradigma Komputasi

Six Computing Paradigms – from Mainframe Computing to Internet Computing, to Grid Computing and Cloud
Computing (Adapted from Voas.J, & Zhang, J.(March/April 2009) Cloud Computing: New Wine or Just a New Bottle?
21
ABM 13-03-13
IEEE ITPro, pp.15–17.)

Evolusi Komputasi Awan pada IT

ABM 13-03-13

22

Teknologi Enabler-nya

• Data Deluge Enabling New Challenges  Cloud Enabling
Technology

ABM 13-03-13

23

Virtualisasi
• Inti dari teknologi komputasi Awan : Virtualisasi
• Pada komputasi Awan: Mesin fisik  mesin virtual; jaringan
fisik  jaringan virtual; penyimpan fisik  penyimpan
virtual
• Virtual Mesin: representasi mesin real menggunakan SW
yang menyediakan suatu lingkungan operasi yang dapat
berjalan atau meng-host sistem operasi lain (guest operating
system)
• Guest operating system: sistem operasi yang berjalan
pada lingkungan virtual yang berjalan langsung pada suatu
sistem fisik yang terpisah
ABM 13-03-13

24

Virtualisasi
Lapisan Virtualisasi merupakan “middleware” antara HW dan virtual
machines yang direpresentasikan pada sistem , dikenal sebagai virtual
machine monitor (VMM) atau hypervisor.
Perbedaan antara Komputer Tradisional dan Virtual Machines

ABM 13-03-13

25

Jenis Hypervisor
• Hypervisor atau VMM: landasan bagi virtualisasi atau SW
khusus yang menyebabkan berbagai SO dapat berjalan secara
simultan pada sebuah komputer
• Secara umum ada dua jenis Hypervisor:
– Hypervisor tipe-1 (bare-metal architecture)

• Berjalan secara langsung pd HW, artinya tidak memerlukan SO utk
menjalankan hypervisor
• Dpt diintall langsung pada disk
• Bekerja lebih baik dibanding tipe-2
• Contoh: CP/CMS (IBM 1960), XenServer, Xen Cloud Platform, VMware
ESX/ESXi, Microsoft Hyper-V

– Hypervisor tipe-2 (Hosted Architecture)

• Aplikasi yg diinstall di atas SO yg umum
• Fleksibilitas lebih baik dibanding tipe-1
• Contoh: VMware GSX server/workstation, VirtualBox, VirtualPC
ABM 13-03-13

26

Virtualisasi

ABM 13-03-13

27

Web service dan SOA, Web 2.0 dan
Mash-up
• Web Service and Service Oriented Architecture:

– Web services (WS) open standards telah memberikan kontribusi besar
untuk kemajuan dalam domain integrasi perangkat lunak.
– Web services dapat
• Mengikat menjadi satu aplikasi yang berjalan pada platform produk
messaging yang berbeda ,
• Mengaktifkan informasi dari satu aplikasi yang dibuat tersedia untuk
aplikasi lain, dan
• Mengaktifkan aplikasi internal yang dibuat tersedia melalui Internet.

– Dalam SOA, sumber daya perangkat lunak dikemas sebagai “services“,
yang menyediakan fungsionalitas bisnis standar dan independen dari
keadaan atau konteks dari layanan lainnya. Layanan dideskripsikan
dalam bahasa definisi standar (WSDL) dan memiliki antarmuka yang
dipublish (UDDI).

ABM 13-03-13

28

Web service and SOA, Web 2.0 and
Mash-up
• Munculnya Web 2.0, informasi dan layanan dapat diagregasi
secara pemrograman, bertindak sebagai blok bangunan
komposisi yang kompleks, yang disebut layanan mashup (Web
Service Composition).
– yaitu suatu aplikasi enterprise yang mengikuti paradigma SOA adalah
kumpulan layanan yang secara bersama-sama melakukan logika bisnis
yang kompleks

ABM 13-03-13

29

Komputasi Otonom
• Otonom, atau swa-kelola, sistem bergantung pada pemantauan
probe dan pengukur (sensor), pada mesin adaptasi (manajer
otonom) untuk optimasi komputasi berdasarkan data
pemantauan, dan efektor untuk melaksanakan perubahan pada
sistem.
– Inisiatif komputasi otonom IBM telah memberikan kontribusi untuk
mendefinisikan empat sifat sistem otonom: self-configuration, selfoptimization, self-healing, dan self-protection. IBM juga telah
mengusulkan model referensi untuk loop kontrol otonom manajer
otonom, disebut MAPE-K (Monitor Analyze Plan Execute-Knowledge
).

• Data Center yang besar penyedia komputasi awan harus
dikelola dengan cara yang efisien.

– Dalam pengertian ini, konsep komputasi otonom menginspirasi teknologi
perangkat lunak untuk otomatisasi data center, yang dapat melakukan
tugas-tugas seperti:
• management of service levels of running applications; management of
data center capacity; proactive disaster recovery; and automation of VM
provisioning.
ABM 13-03-13

30

Framework Definisi NIST

ABM 13-03-13

31

Arsitektur Referensi NIST

ABM 13-03-13

32

Karakteristik Awan
• On demand self-service

– Pengguna dapat menggunakan layanan awan sesuai kebutuhan, tanpa perlu
dilayani oleh pihak lain (Users do not need to understand the underlying
technology infrastructure)

• Measured service

– Service yang disediakan dapat diukur. Provider dapat mengendalikan dan
memonitor layanan awan.

• Rapid Elasticity

– Sumber daya yg disediakan dapat bertambah atau berkurang dgn cepat
– Pengguna dapat menyewa computing power sesuai kebutuhan

• Ubiquitous/Broad Network Access

– Semua kapabilitas tersedia melalui jaringan dan dapat diakses dengan metode
yang berlaku secara umum

• Resource Pooling

– Provider dapat melayani pengguna via multi-tenant model. Berbagai sumber daya
yang terdapat diberbagai lokasi dapat digunakan oleh banyak client secara
bersamaan.
ABM 13-03-13

33

Tiga Model Layanan Utama Awan
• Software as a Service
(SaaS)

– Pengguna dapat menggunakan
aplikasi namun tdk dpt membuat
aplikasi, tdk dpt mengontrol SO,
HW, Net.
– Contoh: GoogleDoc, SalesForce

• Platform as a Service
(PaaS)

– Dapat mengembangkan aplikasi
dgn menggunakan application
framework
– Dapat mengontrol aplikasi, tetapi
tidak SO, HW, NET
– Contoh: Force.Com, MS Azure

• Infrastructure as a
Service (IaaS)

– Dapat menggunakan sumber
komputasi dasar.
– Contoh: Amazon EC Cloud
ABM 13-03-13

34

Empat Model Deployment Utama
• Private Cloud

– Dimiliki atau disewa sebuah organisasi

• Community Cloud

– Infrastruktur di-share u/ komuntas tertentu

• Public Cloud

– Dijual ke publik
– Infrastruktur Skala Besar

• Hybrid Cloud

– Komposisi dari dua atau lebih dari model di atas

ABM 13-03-13

35

Empat Model Deployment Utama

ABM 13-03-13

36

Public Clouds vs. Private Clouds
Characteristics

Public clouds

Private clouds

Technology leverage
and ownership

Owned by service providers

Leverage existing IT infrastructure and
personnel; owned by individual
organization

Management of
provisioned resources

Creating and managing VM instances
within proprietary infrastructure;
promote standardization, preserves
capital investment, application flexibility

Client managed; achieve customization
and offer higher efficiency

Workload distribution
methods and loading
policies

Handle workload without
communication dependency; distribute
data and VM resources; surge workload is
off-loaded

Handle workload dynamically, but can
better balance workloads; distribute
data and VM resources

Security and data
privacy enforcement

Publicly accessible through remote
interface

Access is limited; provide pre-production
testing and enforce data privacy and
security policies

Example platforms

Google App Engine, Amazon AWS,
Microsoft Azure

IBM RC2

ABM 13-03-13

37

4. Komputasi Awan pada Sains DataIntensive (SDI)

• Interaksi diantara empat tantangan teknis : Data Deluge, Cloud Technology,
eScience, and Multicore/Parallel Computing

ABM 13-03-13

39

Kebutuhan Utama
• Kebutuhan utama utk memanfaatkan komputasi
awan pada SDI
– Lingkungan Pemrograman dan Komputasi
Parallel, antara lain
• Map Reduce
• Hadoop
• Amazon Web Services

– Arsitektur Intercloud/Multicloud  Koneksi antar
data center lembaga riset
• Issue utama : Standar baku belum ada, Security
ABM 13-03-13

40

MapReduce
• Model pemrogaman data-paralel sederhana
• U/ pemrosesan data skala-besar

– Mengekspoiltasi sekumpulan komputer komoditas yang
besar
– Mengeksekusi proses secara terdistribusi
– Menyediakan ketersediaan yang tinggi

• Dipelopori oleh Google

– Memproses 20 petabytes data per hari

• Dipopulerkan melalui proyek open-source Hadoop
– digunakan oleh Yahoo!, Facebook, Amazon, …

ABM 13-03-13

41

Motivation: Large Scale Data Processing
• Tugas-tugas (tasks) terdiri dari banyak pengolahan
data untuk menghasilkan banyak data lainnya
• Ingin memanfaat ratusan atau ribuan CPU
... Namun kebutuhan ini harus mudah!
• MapReduce menyediakan






Fungsi-fungsi “user-defined”
Paralelisasi dan distribusi otomatis
Fault-tolerance
Penjadualan I/O
Status dan monitoring

ABM 13-03-13

42

What is MapReduce used for?
• At Google:

– Konstruksi Index u/ Google Search
– Clustering artikel u/ Google News
– Translasi mesin secara statistik

• At Yahoo!:

– “Web map” u/ memperkuat dan mendukung Yahoo! Search
– Deteksi Spam u/ Yahoo! Mail

• At Facebook:

– Data mining
– Optimisasi Ad
– Deteksi Spam

ABM 13-03-13

43

What is MapReduce used for?
• Pada penelitian:








Analisi citra astronomi
Bioinformatika
Analisis konflik pada Wikipedia
Natural language processing
Fisika partikel
Simulasi Iklim Lautan (Ocean climate simulation)
dll

ABM 13-03-13

44

Map+Reduce

Very
big
data



M
A
P

Map:


Accepts input key/value
pair
– Emits intermediate
key/value pair

Partitioning
Function



ABM 13-03-13

R
E
D
U
C
E

Result

Reduce :


Accepts intermediate
key/value* pair
– Emits output key/value
pair
45

Implementasi MapReduce
MapReduce

Cluster,
1, Google
2, Apache Hadoop

Multicore CPU,
Phoenix @ stanford

ABM 13-03-13

GPU,
Mars@HKUST

46

Hadoop
• Software platform originally developed by Yahoo
enabling users to write and run applications over vast
distributed data.
• Attractive Features in Hadoop :

– Scalable : can easily scale to store and process petabytes of
data in the Web space
– Economical : An open-source MapReduce minimizes the
overheads in task spawning and massive data
communication
– Efficient: Processing data with high-degree of parallelism
across a large number of commodity nodes
– Reliable : Automatically maintains multiple copies of data
to facilitate redeployment of computing tasks on failures

ABM 13-03-13

47

Typical Hadoop Cluster
Aggregation switch
Rack switch

• 40 nodes/rack, 1000-4000 nodes in cluster
• 1 Gbps bandwidth within rack, 8 Gbps out of rack
• Node specs (Yahoo terasort):
8 x 2GHz cores, 8 GB RAM, 4 disks (= 4 TB?)
ABM 13-03-13

48

Amazon Web Services
• Provides a web-based interface and command-line
tools for running Hadoop jobs on Amazon EC2
• Data stored in Amazon S3
• Monitors job and shuts down machines after use
• Small extra charge on top of EC2 pricing
• If you want more control over how you Hadoop runs,
you can launch a Hadoop cluster on EC2 manually
using the scripts in src/contrib/ec2

ABM 13-03-13

49

Model Kolaborasi pada Sistem
Multicloud
• Cloud-hosted Proxy

ABM 13-03-13

50

Model Kolaborasi pada Sistem
Multicloud
• Proxy as a
service

ABM 13-03-13

51

Model Kolaborasi pada Sistem
Multicloud
• Onpremises
Proxy

ABM 13-03-13

52

5. Masa Depan Komputasi Awan

Major Computing Technology Trends

ABM 13-03-13

54

Opportunities of IoT in 3 Dimensions

ABM 13-03-13

55

Architecture of The Internet of Things
Application
Layer

Merchandise
Tracking

Environment
Protection

Intelligent
Search

Telemedicine

Intelligent
Traffic

Smart
Home

Cloud Computing
Platform
Network
Layer

Mobile
Telecom
Network

The
Internet

Information
Network

RFID

Sensor
Network

GPS

RFID Label

Sensor Nodes

Road Mapper

Sensing
Layer

ABM 13-03-13

56

Clouds and Internet of Things
HPC: HighPerformance
Computing

HTC: HighThroughput
Computing

P2P:
Peer to Peer

MPP:
Massively
Parallel
Source: K. Hwang, G. Fox, and J. Dongarra, Distributed and Cloud Computing, Morgan
Kaufmann, 2012.
ABM 13-03-13

Processors
57

Computing Level Trend
Macro Level
1970 -80
Parallel and
Distributed
Computing
(cluster and
Grid Computing)

In 20 -30 years Transform

Micro Level

Quantum
Computing

2006-2009
Cloud
Computing

•Atomic Level
Computing
•Use nature
Phenomena:
Quantum
mechanics

Scientific Discovery:
1980 - 90
Network and
Internet
Computing

1998
Data-Intensive
Computing






ABM 13-03-13

Experiments/Observation (2000 year
ago)
Theory (15th -16th Century)
Computational Science (1930)
Data-Intensive Science/e-Science
(1998)
58

ABM 13-03-13

59