Penyelesaian masalah manajerial dengan metode iterasi kebijakan pada discounted markov decision prosesses

PENYELESAIAN MASALAH MANAJERIAL DENGAN
METODE ITERASI KEBIJAKAN PADA DISCOUNTED
MARKOV DECISION PROCESSES

NURUL HIDAYAH

DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Penyelesaian Masalah
Manajerial dengan Metode Iterasi Kebijakan pada Discounted Markov Decision
Processes adalah benar karya saya dengan arahan dari dosen pembimbing dan
belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Mei 2013
Nurul Hidayah
NIM G54090023

ABSTRAK
NURUL HIDAYAH. Penyelesaian Masalah Manajerial dengan Metode Iterasi
Kebijakan pada Discounted Markov Decision Processes. Dibimbing oleh I
WAYAN MANGKU dan HADI SUMARNO.
Tujuan karya ilmiah ini adalah menyelesaikan suatu permasalahan
manajemen yakni di bidang periklanan dan produksi yang telah dirumuskan
menjadi suatu model stokastik dengan sistem pengambilan keputusan. Teknik
pengambilan keputusan yang digunakan adalah proses keputusan Markov dengan
metode iterasi kebijakan. Penentuan kebijakan optimal menggunakan algoritme
Discounted-Return Policy-Improvement sehingga pada perhitungan setiap
kasusnya menggunakan faktor diskon yaitu sebesar 0.9. Pada kasus periklanan,
produsen akan menggunakan RCTI sebagai media promosi saat penjualan
produknya berkurang dan saat penjualannya baik produsen menggunakan Indosiar.
Sementara saat penjualan produknya sangat memuaskan, produsen menggunakan

SCTV sebagai media promosi produknya. Pada kasus manajemen produksi, petani
harus menyisakan ikannya sebanyak 2 ton dalam kolam setiap masa panen, dan
jika belum memenuhi kriteria tersebut maka petani tidak akan memanen ikannya.

Kata kunci: model stokastik, proses keputusan Markov, algoritme discountedreturn policy-imrovement, faktor diskon

ABSTRACT
NURUL HIDAYAH. Solution of Managerial Problems Using the Policy Iteration
Method in Discounted Markov Decision Processes. Supervised by I WAYAN
MANGKU and HADI SUMARNO.
The aim of this paper is to solve a management problem in advertising and
production that have been formulated into a stochastic model of the decisionmaking system. The Decision-making technique used in this paper is the Markov
decision process with policy iteration method. To determine the optimal policy, it
is employed the discounted-return policy improvement algorithm that uses a
discount factor equal to 0.9 for each case. In the case of advertising, the
manufacturers will use RCTI as a promotion media when their product sales are
low and Indosiar when they have a good sales. When they have satisfied sales,
they use SCTV as media promotion. In the case of production management,
farmers must keep the fishes in the pond at least 2 tons when they harvest their
fishes.

Keywords: stochastic model, Markov decision process, discounted-return policyimprovement algorithm, discount factor

PENYELESAIAN MASALAH MANAJERIAL DENGAN
METODE ITERASI KEBIJAKAN PADA DISCOUNTED
MARKOV DECISION PROCESSES

NURUL HIDAYAH

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Sains
pada
Departemen Matematika

DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

Judul Skripsi : Penyelesaian Masalah Manajerial dengan Metode Iterasi
Kebijakan pada Discounted Markov Decision Processes.
Nama
: Nurul Hidayah
NIM
: G54090023

Disetujui oleh

Dr Ir I Wayan Mangku, MSc
Pembimbing I

Dr Ir Hadi Sumarno, MS
Pembimbing II

Diketahui oleh

Dr Berlian Setiawaty, MS
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah SWT atas segala karuniaNya sehingga skripsi dengan judul Penyelesaian Masalah Manajerial dengan
Metode Iterasi Kebijakan pada Discounted Markov Decision Processes berhasil
diselesaikan. Skripsi ini merupakan syarat bagi penulis untuk dapat meraih gelar
Sarjana Sains pada Mayor Matematika. Terima kasih penulis ucapkan kepada
Bapak Dr Ir I Wayan Mangku, MSc dan Bapak Dr Ir Hadi Sumarno, MS selaku
dosen pembimbing serta Bapak Dr Paian Sianturi selaku dosen penguji yang telah
memberi masukan dalam penulisan skripsi. Selain itu, penulis juga mengucapkan
terima kasih kepada bapak, ibu, adik-adik, Jemi atas doa dan kasih sayangnya
serta teman-teman matematika 46. Selain itu, ungkapan terima kasih juga
disampaikan kepada Syifa, Novi, Hani, dan teman-teman Andhika.
Penulis menyadari bahwa penulisan skripsi ini kurang sempurna. Oleh
karena itu, kritik dan saran yang membangun sangat penulis harapkan. Penulis
juga berharap skripsi ini dapat memberikan pengetahuan dan manfaat bagi semua.

Bogor, Mei 2013
Nurul Hidayah

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR LAMPIRAN

vi

PENDAHULUAN

1

Latar Belakang

1

Tujuan

2

METODE

2

PROSES KEPUTUSAN MARKOV

2

Unsur-unsur Pembangun Proses Keputusan Markov

2

Policy Improvement

5

APLIKASI PROSES KEPUTUSAN MARKOV
Aplikasi pada Manajemen Pemasaran
Aplikasi pada Manajemen Produksi

SIMPULAN DAN SARAN

7
7
10
14

Simpulan

14

Saran

14

DAFTAR PUSTAKA

14

LAMPIRAN

15

RIWAYAT HIDUP

23

DAFTAR TABEL
1 Sebaran peluang dan reward kasus manajemen pemasaran
2 Hasil perhitungan ys pada iterasi pertama (kasus manajemen
pemasaran)
3 Hasil perhitungan ys pada iterasi kedua (kasus manajemen pemasaran)
4 Sebaran peluang kasus manajemen produksi
5 Keuntungan hasil pemanenan ikan
6 Hasil perhitungan ys pada iterasi pertama (kasus manajemen produksi)

8
9
10
11

11
12

DAFTAR LAMPIRAN
1 Lema 2 (syarat optimal suatu kebijakan Markov)
2 Proses perhitungan pada aplikasi manajemen pemasaran
3 Proses perhitungan pada aplikasi manajemen produksi

15
16
20

PENDAHULUAN
Latar Belakang
Dalam kehidupan setiap harinya manusia dituntut untuk mengambil
keputusan atau tindakan, baik keputusan kecil maupun besar. Setiap pengambilan
keputusan akan ada risiko yang harus ditanggung. Risiko inilah yang menjadi
pertimbangan dalam pengambilan keputusan. Pertimbangan yang sederhana
mungkin hanya akan berpengaruh pada keputusan-keputusan yang sederhana pula,
sedangkan untuk keputusan besar akan berakibat besar pula, sehingga perlu

perhitungan yang matang. Dalam praktiknya, adanya banyak alternatif pilihan
keputusan, menyebabkan diperlukan teknik-teknik dalam pemilihannya agar
memperoleh hasil yang optimal. Alternatif keputusan tersebut memiliki unsur
probabilitas karena dalam pembuatan keputusan dihadapkan pada ketidakpastian.
Proses keputusan Markov (Markov Decision Process) menjelaskan model
dinamika dari pengambilan keputusan yang mengandung unsur ketidakpastian.
Pada proses keputusan Markov setiap langkah dipilih tindakan tertentu dan
tindakan tersebut akan menghasilkan keuntungan (reward) yang sesuai. Untuk
mendapatkan keuntungan yang optimal, diperlukan kebijakan yang optimal pula.
Kebijakan optimal dapat diperoleh dengan menggunakan tiga metode yaitu
metode iterasi nilai (value iteration method), metode iterasi kebijakan (policy
iteration method), dan metode solusi program linier (linear program solution
method).
Pembahasan utama dalam skripsi ini yakni metode iterasi kebijakan pada
Discounted Markov Decision Processes. Metode iterasi kebijakan ini diawali
dengan mengambil sebuah kebijakan dan menghitung nilainya yang dalam
perhitungannya terdapat faktor diskon. Setelah itu, memperbaiki kebijakan secara
iteratif sesuai algoritme yang ada hingga kebijakan tersebut tidak dapat diperbaiki,
dengan kata lain telah mencapai kondisi optimal. Dalam karya ilmiah ini
diberikan contoh aplikasinya pada bidang manajemen terutama manajemen
produksi dan pemasaran.
Manajemen produksi menjadi faktor utama dalam pencapaian keberhasilan
suatu usaha. Berbagai kebijakan dalam proses produksi diharuskan memiliki
pengaruh yang baik bagi perusahaan, dalam hal ini perolehan keuntungan yang
optimal. Proses keputusan Markov adalah salah satu konsep matematika yang
mampu menyelesaikan permasalahan optimalitas termasuk pada proses produksi.
Manajemen pemasaran pun tidak kalah pentingnya dalam suatu usaha.
Pemasaran sangat erat kaitannya dengan masalah periklanan. Iklan menjadi salah
satu faktor yang mempengaruhi keputusan pembelian oleh konsumen, selain
faktor kompetisi, teknologi, nilai ekonomi, kualitas produk, harga, dan distribusi.
Persaingan antar produk di pasaran mendorong produsen gencar berpromosi untuk
menarik perhatian konsumen. Promosi dapat dilakukan dengan berbagai cara,
antara lain melalui media iklan. Produsen harus dapat menentukan media iklan
yang tepat dalam memperkenalkan produknya agar tidak terjadi pemborosan dana.
Hal ini yang menjadi alasan bahwa proses keputusan Markov sangat cocok untuk
menyelesaikan masalah periklanan.

2
Tujuan
Tujuan karya ilmiah ini adalah menyelesaikan suatu permasalahan
manajemen yakni di bidang periklanan dan produksi yang telah dirumuskan
menjadi suatu model stokastik dengan sistem pengambilan keputusan dan
menunjukkan bagaimana menggunakan metode pengiterasian kebijakan untuk
mengambil keputusan optimal.

METODE
Penelitian ini berupa kajian teori yang disertai penerapannya, yang disusun
berdasarkan rujukan pustaka dengan langkah-langkah sebagai berikut:
1 Memaparkan tentang proses keputusan Markov berkenaan dengan definisi dan
unsur pembangun.
2 Memaparkan lema dan teorema yang merupakan konsep dasar dari algoritme
penentuan kebijakan optimal.
3 Menerapkan metode pengiterasian dengan algoritme Discounted-Return
Policy-Improvement pada permasalahan manajerial.

PROSES KEPUTUSAN MARKOV
Unsur-Unsur Pembangun Proses Keputusan Markov
Proses keputusan Markov (Markov Decision Process/ MDP) awalnya
diperkenalkan oleh Andrey Markov, seorang matematikawan Rusia pada awal
abad ke-20 (Tijms 1994). Proses keputusan Markov berguna untuk mempelajari
berbagai masalah optimasi yang dipecahkan melalui dynamic programming.
Proses keputusan Markov adalah sebuah sistem yang dapat memindahkan satu
keadaan yang khusus ke keadaan lainnya yang mungkin. Proses keputusan
Markov pada dasarnya merupakan perluasan dari rantai Markov sehingga harus
memenuhi syarat Markov. Menurut Grimmet dan Stirzaker (1992) suatu proses S
disebut sebagai rantai Markov jika memenuhi syarat Markov, yaitu
P St = s | S0 = s0 , S1 = s1 ,…, St-1 = st-1 = P St = s | St -1 = st-1 .
Dalam proses keputusan Markov memungkinkan adanya pilihan tindakan
(action) yang menghasilkan keuntungan. Oleh karena itu, dapat dikatakan proses
keputusan Markov merupakan kerangka matematika untuk memodelkan
pembuatan keputusan di situasi yang hasilnya bersifat acak dan berada di bawah
kontrol dari pembuat keputusan. Proses keputusan Markov memiliki unsur-unsur
pembangun sebagai berikut.
1 State
State adalah suatu keadaan, akibat, atau kejadian (alamiah) pada suatu
waktu dimana pengambil keputusan hanya mempunyai sedikit kontrol atau
bahkan tidak memiliki kontrol terhadapnya. State dilambangkan dengan s = 1,
2,…, N. Setiap s � S dengan S himpunan state (Rosadi 2000).

3
2 Tindakan
Tindakan adalah suatu bagian dari aksi atau strategi yang mungkin
dipilih oleh seorang pengambil keputusan di setiap state. Tindakan
dilambangkan a dengan a = 1, 2,..., N. Setiap a � As dengan As himpunan
tindakan (Rosadi 2000).
3 Fungsi transisi
Menurut Taylor dan Karlin (1998), fungsi transisi disebutkan sebagai
peluang n-step pij(n) , yaitu peluang bahwa suatu proses yang mula-mula berada
pada state i akan berada pada state j setelah n tambahan transisi.
Menurut Heymen dan Sobel (2004), fungsi transisi adalah suatu fungsi
yang menyatakan peluang perpindahan dari suatu state ke state lainnya,
notasinya sebagai berikut :
��,�+1 = P sn+1 ∈ J|Hn , an .
Notasi J melambangkan himpunan state dan Hn menyatakan kejadian
lampau hingga waktu pengambilan keputusan ke-n diambil. Bentuk notasinya
sebagai berikut Hn = s1 , a1 , s2 , a2 ,…, sn-1, an-1 , sn . Fungsi transisi pada proses
keputusan Markov harus memenuhi asumsi sifat Markov seperti yang
dijelaskan sebelumnya yakni ketika tindakan an diambil di state sn, maka state
sn+1 telah ditentukan dengan sebuah cara yang hanya bergantung pada sn dan an.
Sehingga berlaku persamaan berikut :
P sn+1 ∈ J|Hn , an = P sn+1 ∈J |sn = s, an = a .
Pengambilan keputusan masa yang akan datang biasanya didasarkan
pada keadaan sekarang, bukan berdasarkan pada keadaan di masa lalu. Hal ini
dikarenakan keadaan di masa lalu dianggap bebas dengan keadaan di masa
yang akan datang. Dalam prosesnya, pembuat keputusan harus mengambil
suatu tindakan dari alternatif-alternatif yang ditetapkan. Tindakan sekarang
mempengaruhi peluang transisi pada perpindahan yang akan datang dan
mendatangkan sebuah keuntungan atau kerugian setelah itu.
Nilai peluang adalah tak negatif dan karena proses tersebut harus
mengalami transisi ke suatu state maka
paij ≥ 0, untuk semua i, j ∈{1,2,…, N },
N
j=1

paij = 1 untuk semua i, j ∈{1,2,…, N }.

4 Fungsi single-stage reward
Fungsi single stage reward yaitu berkenaan dengan pendapatan yang
diperoleh sebagai implikasi terjadinya transisi antar state pada alternatif
keputusan. Bentuk fungsi single-stage reward adalah
r(s,a) = E(Xn |sn = s, an = a).
Domain dari r(. , .) dan p(J|. , .) adalah himpunan pasangan state dan tindakan
yang mungkin, disimbolkan dengan ϐ = s,a : a∈ As, s∈ S .

5 Single-stage decision rule
Single-stage decision rule (δ) adalah sebuah fungsi di S yang menentukan
setiap s ∈ S sebuah tindakan yang merupakan anggota dari As. Misalkan ∆
menyatakan himpunan semua single-stage decision rule / himpunan pemilihan

4
tindakan dari As . Jika δ∈ ∆ digunakan untuk memilih tindakan an untuk periode
ke-n, maka an = δ sn .
6 Kebijakan Markov
Kebijakan Markov adalah serangkaian dari single-stage decision
rule δ1 , δ2 ,… . Sebuah kebijakan Markov an = δ sn yakni tindakan dipilih
oleh suatu prosedur δn yang bergantung pada state sekarang berlaku untuk
semua periode. Namun demikian dimungkinkan adanya perbedaan prosedur
terjadi di setiap waktu karena δi ≠ δj untuk i ≠ j.
Pembahasan karya ilmiah ini berkenaan dengan Discounted Markov
Decision Processes, sehingga pada proses keputusan Markov ada algoritme
Discounted-Return Policy-Improvement sebagai algoritme mencapai kebijakan
optimal yang menggunakan faktor diskon � . Faktor diskon adalah pengali untuk
menghitung nilai uang yang akan datang bila dinilai dalam waktu sekarang.
Berikut gambaran sistem proses keputusan Markov :
Action n-1

State n-1

State n

reward n-1

Gambar 1 Sistem proses keputusan Markov
Langkah pertama yang perlu dilakukan sebelum membuktikan dan
mengarahkan pada pembahasan policy improvement, yakni membahas lema dan
teorema yang berhubungan dengan penggunaan relasi biner. Akan tetapi,
sebelumnya perlu dibahas makna dari penundaan suatu kebijakan Markov.
Misalkan π = (δ1 , δ2 , δ3 …)  Y dan ∈ ∆, T π = , δ1 , δ2 , δ3 ,… , T 1 π = T π ,
Tn+1 π = T Tn π , dengan T π menyatakan kebijakan Markov yang menunda
penggunaan π untuk 1 periode selama digunakan sebagai aturan keputusan, dan
Tn+1 π menyatakan kebijakan Markov yang menunda penggunaan π untuk n+1
digunakan sebagai aturan keputusan. Sedangkan T Tn π
periode selama
menyatakan kebijakan Markov yang menunda penggunaan Tn π untuk 1 periode
selama digunakan sebagai aturan keputusan.
Lema 1
Andaikan 0 ≤ < 1 dan S terdiri atas banyak state tercacah, maka
(i) ( , Y) adalah himpunan preordered.
(ii) Untuk setiap δ  ∆, Tδ adalah sebuah fungsi isoton di ( , Y).
(iii) Untuk π = (δ1 , δ2 , δ3 …)  Y
jika Tδ1 Tδ2 … Tδk+1 π' Tδ1 Tδ2 … Tδk π' untuk semua K  I, maka π

π'.

5
Materi pendukung dalam pembahasan lema di atas yakni relasi biner pada
Y. Misalkan D adalah himpunan tak kosong dan L  D×D. Maka (L,D) adalah
transitif jika (a,b)  L dan (b,c)  L menyebabkan (a,c)  L. Pasangan terurut
(L,D) adalah refleksif jika (b,b)  L untuk semua b  D. Himpunan L adalah
sebuah preorder dan (L,D) adalah himpunan preordered jika L adalah transitif dan
refleksif. Sebuah pemetaan f dari D ke D adalah isoton jika (a,b)  L
menyebabkan [f(a), f(b)]  L.
Teorema 1
Misalkan π  Y , δ  ∆ dan andaikan 0 ≤ < 1 serta S terdiri dari banyak state
tercacah. Jika Tδ π π, maka δ∞ π.
Bukti :
Andaikan π = 1 , 2 ,… dan untuk n ≥ 1, πn = Tnδ π ; misalkan π0 = π.
Hipotesisnya adalah π1 ≳ π0 .
Untuk beberapa n, andaikan πn ≳ πn-1 . Kemudian Lema 1 bagian (ii) berimplikasi
Tδ πn ≳ Tδ πn-1 atau πn+1 ≳ πn . Karena πn ≳ πn-1 untuk semua n maka
π0 π1 π2 ⋯. Kemudian Lema 1 bagian (iii) menghasilkan δ∞ ≳ π. Teorema 1
terbukti.
Policy Improvement
Policy improvement merupakan usaha memperbaiki keputusan yang
diambil dengan algoritme tertentu sehingga tercipta keputusan yang bersifat
“acceptable” atau optimal atau paling tidak mendekati optimal. Algoritme policyimprovement untuk MDPs terdiri dari uji optimalitas yang didasarkan pada
Teorema 2.
Teorema 2
Sebuah kebijakan stasioner ∞ optimal untuk MDP dengan banyak state tercacah
dan 0 ≤ < 1 jika
a
∞
vs ∞ ≥ r s,a +
untuk semua s,a  ϐ
j∈s psj vj
∞
dengan vs
menunjukkan nilai harapan sekarang saat ∞ digunakan dari state
awal s.
Bukti :
Langkah awal menunjukkan bahwa π ≳ π'  vw π ≥ vw π' untuk semua w
 W dengan W terdiri dari distribusi peluang di S.
(1)
π ≳ π' jika dan hanya jika 0 ≤ s∈S w(s) vs π - vs π'
Untuk semua w sedemikian sehingga i w i = 1 dan w(i) ≥ 0 untuk semua i.
Ambil w(s) = 1 dan w(i) = 0 jika i ≠ s berimplikasi vs π ≥ vs π' maka
π ≳ π' berimplikasi vs π ≥ vs π' untuk semua s.
Andaikan vs π ≥ vs π' untuk semua s sehingga w(s)[ vs π - vs π' ] ≥ 0 jika
w(s) ≥ 0, karena (1) bersifat valid untuk semua w  W maka π ≳ π' . Terbukti
π ≳ π'  vw π ≥ vw π' .

6
Berdasarkan Lema 2 (terdapat pada Lampiran 1), ∞ optimal jika ∞ ≳ Tδ ∞
untuk semua δ ϵ ∆. Pernyataan tersebut valid jika dan hanya
jika vs ∞ ≥ vs Tδ ∞ untuk semua δ  ∆ dan s  S. Misalkan π = (δ1 , δ2 , …) ,
sehingga
∞

vs Tδ π = E r s,δ s +

+

n=2

j ∈s

r sn ,δn-1 sn
∞

pδsj s E

= r s,δ s +
= r s,δ s

n-1

n-1

j∈s

|s2 = j

r sn ,δn-1 sn

n=2

pδsj s E

|s1 = s

∞

n-1

n=1

r sn+1 ,δn sn+1

|s2 = j

δ s
vj π .
= r s,δ s +
j∈S psj
∞
Misalkan π = sehingga diperoleh
δ s
vs Tδ ∞ = r s,δ s +
vj ∞ .
j∈S psj
∞
Oleh
karena
itu,
optimal
jika
dan
hanya
jika
δ s
∞
∞
≥ r s,δ s +
vj
untuk semua δ  ∆ dan s  S. Karena
vs
j∈S psj
a = δ(s) maka hasil di atas ekuivalen dengan
a
∞
vs ∞ ≥ r s,a +
a  As dan s S. Teorema 2 terbukti.
j∈S psj vj

Untuk  ∆ dan s  S, misalkan

G s, = a:a  As dan r(s,a)+

pasj vj

∞

j∈S

> vs

∞

dengan G s, adalah kumpulan tindakan yang digunakan di state untuk menunda
∞
satu periode karena lebih disukai daripada menggunakannya langsung.
Andaikan sebuah MDP memiliki banyak state tercacah dan 0 ≤ < 1 sehingga
= ∅ → ∞ optimal.
s∈S G s,
Teorema 3
Andaikan sebuah MDP mempunyai 0 ≤ < 1 dan banyak state tercacah. Untuk
setiap  ∆, ∞ optimal atau tidak sehingga terdapat δ  ∆ dengan
∞
δ∞ > .
Bukti :
Jika s∈S G s, = ∅ salah, maka
(2)
s∈S G s, ≠ ∅
Selanjutnya tentukan δ  ∆ dengan cara berikut :
s jika G s, = ∅
δ s =
(3)
∃ a  G s, jika G s, ≠ ∅
Dari (2) dan (3), serta (s) G(s, ), maka
δ ≠ .
Dari Teorema 1, a  G(s, ) berimplikasi
pasj vj

r(s,a) +
maka vs Tδ

∞

=
>

vs

∞

j∈S

jika G s,γ∞

=
≠

∅.

∞

> vs

∞

7
Akibatnya, berlaku Tδ ∞ > ∞ berdasarkan dari sifat isoton Tδ pada Lema 1
yang berimplikasi T2δ ∞ ≳ Tδ ∞ sehingga T2δ ∞ ≳ Tδ ∞ > ∞ . Teorema 1
memberikan Tδ π ≳ π yang berimplikasi δ∞ ≳ π . Misalkan π = Tδ ∞ maka
T2δ ∞ ≳ Tδ ∞ dipenuhi. Oleh karena δ∞ ≳ Tδ ∞ > ∞ maka δ∞ > ∞ . Teorema 3
terbukti.
Proses pencapaian keputusan atau kebijakan yang optimal dalam karya
ilmiah ini menggunakan algoritme Discounted-Return Policy-Improvement.
Berikut adalah langkah algoritme tersebut.
1 Misal i = 1 dan pilih δ1  ∆.
2 Hitung v1 = v δ∞1 . Misal v1s menunjukkan komponen ke-s dari v1 .
3 Untuk setiap s ∈ S hitung
pasj v1j :a  As - δ1 s

y1s = max r s,a +

- v1s .

j ∈S

Jika y1s > 0,,maka G(s, ) ≠ ∅ .
Jika y1s ≤ 0, maka G(s, ) = ∅ .
4 Jika s∈S G s, ≠ ∅ , maka kembali ke langkah 1 dengan mengganti i menjadi
i+1 dan memisalkan δ2 s menjadi beberapa a  As.
Jika s∈S G s, = ∅, maka berhenti artinya δ2 s = δ1 s dengan δ∞2 optimal.

APLIKASI PROSES KEPUTUSAN MARKOV
Aplikasi pada Manajemen Pemasaran
Salah satu masalah yang dapat diselesaikan dengan proses keputusan
Markov adalah permasalahan manajemen pemasaran yakni menentukan media
iklan yang tepat sehingga mampu memberikan keuntungan (reward) optimum
kepada produsen. Formulasi masalah di atas dibatasi dengan asumsi-asumsi
sebagai berikut.
1 Pemilihan media iklan didasarkan pada tingkat penjualan.
2 Produsen hanya menggunakan satu jenis media untuk setiap keadaan penjualan
produknya.
3 Alternatif media iklan pada setiap keadaan tidak harus sama.
Langkah awal yang harus dilakukan adalah memformulasikan masalah
periklanan dalam sebuah rantai Markov yang disesuaikan dengan jenis keputusan
yang ingin diambil. Misalkan keadaan atau state digolongkan menjadi tiga yakni
state 1 menunjukkan penjualan kurang, state 2 menunjukkan penjualan baik, dan
state 3 menunjukkan penjualan sangat memuaskan.
Pendefinisian tindakan untuk kasus ini adalah media iklan yang digunakan
di setiap state. Media iklan RCTI didefinisikan sebagai tindakan 1, SCTV sebagai
tindakan 2, Indosiar sebagai tindakan 3, dan Kompas sebagai tindakan 4.
Penentuan kebijakan optimal di bidang periklanan sebelumnya telah
dijelaskan dalam sumber lain (Rosadi 2000). Metode yang digunakan oleh Rosadi
adalah metode iterasi kebijakan dengan algoritme yang berbeda dengan yang
digunakan pada karya ilmiah ini. Metode tersebut diawali dengan pengambilan

8
tindakan di setiap state, kemudian mencari penyelesaian tunggal g(a), vi(a) pada
sistem persamaan linier vi = qi ai – g + j∈S pij(ai ) vj dengan q(a) menunjukkan
ekspektasi keuntungan, dan g(a) menunjukkan nilai ekspektasi keuntungan per
unit waktu jika sistem telah berjalan sampai dengan waktu tak berhingga. Setelah
itu,
menentukan
keputusan
yang
memberi
nilai
maksimum
{qi ai + j∈S pij (ai ) vj - g }. Nilai maksimum untuk setiap state inilah yang
digunakan untuk mendefinisikan kebijakan baru. Jika kebijakan baru sama dengan
kebijakan sebelumnya maka iterasi dihentikan atau dapat dikatakan telah
mencapai kebijakan yang optimal. Sedangkan pada karya ilmiah ini menggunakan
algoritme Discounted-Return Policy-Improvement. Berikut adalah penentuan
kebijakan optimal dengan algoritme Discounted-Return Policy-Improvement
berdasarkan data pada Tabel 1.
Tabel 1 Sebaran peluang dan reward kasus manajemen pemasaran

State (s)

Kurang (1)

Baik (2)

Sangat
Memuaskan
(3)

Alternatif
tindakan
(a)
RCTI

1

2

3

Reward r[s,a]
(Rp105/minggu)

0.2

0.3

0.5

1390

SCTV

0.2

0.4

0.4

1370

Indosiar

0.3

0.3

0.4

1270

Kompas

0.1

0.4

0.5

543.5

RCTI

0.1

0.3

0.6

1373

SCTV

0.15

0.3

0.55

1350

Indosiar

0.1

0.5

0.4

1300

Kompas

0.4

0.55

0.05

430.5

RCTI

0.05

0.2

0.75

1010

SCTV

0.01

0.1

0.89

1069.6

Indosiar

0.08

0.4

0.52

894.5

Kompas

0.07

0.33

0.6

539.5

Peluang transisi ( paij )

Misalkan nilai = 0.9, S ={1,2,3} , A1 = {1,2,3}, A2 = {1,3,4}, A3 = {2,4}.
Kemudian menentukan kebijakan awal misalkan b(1) = 1, b(2) = 4, dan b(3) = 4.
Iterasi pertama adalah sebagai berikut.
∞
= b∞
vs = vs b∞
∀ s∈ S
∞
b s
vj b∞ .
vs b = r s,b s +
j∈S psj
v1 = r 1,1 + 0.9 p111 v1 + p112v2 +p113 v3
= 1390 + 0.9 (0.2v1 + 0.3v2 + 0.5v3 )

9
v2 = r 2,4 + 0.9 p421 v1 + p422 v2 + p423 v3
= 430.5 + 0.9 (0.4v1 + 0.55v2 + 0.05v3 ).
v3 = r 3,4 + 0.9 p431 v1 + p432v2 + p433 v3
= 539.5 + 0.9 (0.07v1 + 0.33v2 + 0.6v3 ).
Hasil penyelesaian persamaan di atas yaitu v1 = 7602.51, v2 = 6864.304,
Langkah
berikutnya
adalah
menghitung
nilai
v3 = 6645.992.
b(s)
ys = r s,b(s) +
j∈S psj vj - vs sehingga dapat mengetahui ada tidaknya tindakan
lain yang menjadi anggota G(s,b(s)). Berikut adalah perhitungan nilai ys pada state
1 dengan menggunakan tindakan 2, hasil perhitungan lainnya disajikan pada
Tabel 2 (proses perhitungan terdapat pada Lampiran 2).
p21j vj - v1

y1 = r 1,2 +
j∈S

= 1370 + 0.9 p211 v1 + p212 v2 + p213 v3 - v1
= 1370 + 0.9 0.2v1 + 0.4 v2 + 0.4v3 - v1
= - 0.35164 < 0 2  G 1,b .
Tabel 2 Hasil perhitungan ys pada iterasi pertama
state
1

2

3

tindakan

ys

2
3
4
1
2
3
1
2
3

-0.35164
-33.9131
-41.6784
635.11966
655.16297
601.41582
427.74027
433.257542
377.36242

G(s,b(s))
-

{1, 2, 3}

{1, 2, 3}

Tindakan yang diuji adalah alternatif tindakan yang belum pernah
digunakan pada aturan keputusan. Berdasarkan tabel tersebut, dapat disimpulkan
bahwa G 1,b = ∅ , G(2,b)= {1,3} , G(3,b)= {2} sehingga b∞ tidak optimal.
Artinya ada aturan keputusan baru yakni a∞ yang dapat menyebabkan a∞ > b∞
dengan susunan kebijakan baru sebagai berikut : a(1) = 1, a(2) = 3, a(3) = 2.
Iterasi kedua adalah sebagai berikut.
vs a∞ = r s,a s

pasj s vj a∞

+
j∈S

v1 = r 1,1 + 0.9 p111 v1 + p112 v2 + p113 v3
= 1390 + 0.9 0.2v1 + 0.3v2 + 0.5v3 .

10
v2 = r 2,3 + 0.9 p321 v1 + p322v2 + p323v3
= 1300 + 0.9 (0.1v1 + 0.5v2 + 0.4v3 ).
v3 = r 3,2 + 0.9 p231 v1 + p232 v2 + p233 v3
= 1069.6 + 0.9 (0.01v1 + 0.1v2 + 0.89v3 ).
Penyelesaian persamaan di atas adalah v1 = 11595.21 , v2 = 11537.89 ,
v3 = 11117.42. Langkah selanjutnya adalah menghitung nilai ys untuk mengetahui
keanggotanaan G(s,a) pada state 2 dan state 3 karena tindakan pada state 1 telah
optimal.
Tabel 3 Hasil perhitungan ys pada iterasi kedua
state
2

3

tindakan

ys

1

-2.684

2

-4.183

1

-4.55685

3

-31.472

G(s,b(s))
-

-

Berdasarkan Tabel 3 diperoleh G(s,a) = ∅ ∀ s = 1, 2, 3 sehingga a∞
optimal. Pada state 1 menggunakan tindakan 1, state 2 menggunakan tindakan 3,
dan state 3 menggunakan tindakan 2, kesimpulannya produsen akan memilih
menggunakan RCTI sebagai media promosi saat penjualan produknya kurang dan
menggunakan Indosiar saat penjualannya baik. Sementara saat penjualan
produknya sangat memuaskan, produsen menggunakan SCTV sebagai media
promosi produknya.
Aplikasi pada Manajemen Produksi
Sebuah perusahaan baik skala kecil maupun besar pastinya memiliki tujuan
memperoleh keuntungan yang tinggi dari usahanya. Misalnya pada kasus berikut.
Sebuah perusahaan pembudidayaan ikan menginginkan keuntungan yang tinggi
dari penjualan ikan di setiap periode pemanenannya. Oleh karena itu, perusahaan
tersebut harus memiliki sistem manajemen pemanenan yang baik. Petani dapat
menduga secara akurat jumlah ikan di kolam dan kemudian memutuskan jumlah
ikan yang dipanen. Pendefinisian state s pada kasus ini yakni jumlah ikan (ton) di
kolam sebelum pemanenan, sedangkan yang disebut tindakan adalah jumlah ikan
(ton) sisa setelah pemanenan. Hal penting yang perlu dipikirkan oleh petani yakni
berapa jumlah ikan (ton) yang harus disisakan dalam kolam untuk pemanenan
periode berikutnya. Berdasarkan pengalaman petani dan data dari Departemen
Pertanian Amerika Serikat diperoleh peluang transisi yang disajikan pada Tabel 4.

11
Tabel 4 Sebaran peluang untuk kasus manajemen produksi
Jumlah ikan (ton) di waktu panen
periode n+1
a
Jumlah ikan
(ton) dalam
kolam setelah
dipanen di
periode n

j

1

2

3

4

5

1

0.9

0.1

0

0

0

2

0

0.8

0.1

0.1

0

3

0

0

0.7

0.2

0.1

4

0

0

0

0.6

0.4

5

0

0

0

0

1

Penyelesaian proses keputusan Markov pada kasus ini menggunakan faktor
diskon sebesar 0.9 dan keuntungannya diberikan pada Tabel 5.
Tabel 5 Keuntungan hasil pemanenan ikan (dalam ratusan dollar US/ton)
jumlah ikan (ton) dalam kolam
setelah dipanen di periode n

1

2

a
3

1

0

-

-

-

-

2

5

0

-

-

-

3

10

5

0

-

-

4

15

10

5

0

-

5

20

15

10

5

0

s
Jumlah ikan (ton)
dalam kolam
sebelum
pemanenan
periode n

4

5

Misalkan petani menggunakan sistem pemilihan tindakan sebagai berikut:
b(1) = b(3) = 1, b(2) = b(5) = 2, b(4) = 3.
Iterasi pertama adalah sebagai berikut.
∞
= b∞
vs = vs b∞ ∀ s∈ S
vs b∞ = r s,b s

+

pbsj s vj b∞

j∈S
1
p11 v1 +

p112 v2 + p113 v3 + p114 v4 + p115 v5
v1 = r 1,1 + 0.9
= 0 + 0.9(0.9v1 + 0.1v2 ).
v2 = r 2,2 + 0.9 p221 v1 + p222 v2 + p223 v3 + p224 v4 + p225 v5
= 0 + 0.9(0.8v2 + 0.1v3 + 0.1v4 ).

12
v3 = r 3,1 + 0.9 p131 v1 + p132 v2 + p133 v3 + p134 v4 + p135 v5
= 10 + 0.9(0.9v1 + 0.1v2 ).
v4 = r 4,3 + 0.9 p341 v1 + p342 v2 + p343 v3 + p344 v4 + p345 v5
= 5 + 0.9(0.7v3 + 0.2v4 + 0.1v5 ).
v5 = r 5,2 + 0.9 p251 v1 + p252 v2 + p253 v3 + p254 v4 + p255 v5
= 15 + 0.9(0.8v2 + 0.1v3 + 0.1v4 ).
Hasil penyelesaikan persamaan di atas adalah v1 = 5.566414, v2 = 11.75132,
v3 = 15.566411 , v4 = 20.99324 , v5 = 26.75132 . Langkah berikutnya adalah
b(s)
menghitung nilai ys = r s,b(s) +
j∈S psj vj - vs sehingga dapat mengetahui ada
tidaknya tindakan lain yang menjadi anggota G(s,b). Berikut adalah perhitungan
nilai ys pada state 2 dengan menggunakan tindakan 1. Hasil perhitungan lainnya
disajikan pada Tabel 6 (proses perhitungan terdapat pada Lampiran 3).
p12j vj - v2

y2 = r 2,1 +
j∈S

= 5 + 0.9 0.9v1 + 0.1 v2 - v2
= - 1.18490586 < 0 1  G 2,b .
Tabel 6 Hasil perhitungan ys pada iterasi pertama
state

tindakan

ys

G(s,b(s))

2

1

-1.18490586

-

2

1.1849089

3

0.4268303

1

-0.42682586

2

0.7580762

4

-0.0264152

1

-1.18490586

3

-0.7580797

4

-0.7844952

5

-2.675132

3

4

5

{2,3}

{2}

-

State 1 tidak diuji nilai ys karena state 1 tidak memiliki alternatif state lain,
sehingga state 1 telah optimal. Berdasarkan Tabel 6 diperoleh hasil
bahwa G(1,b) = G(2,b) = G(5,b) = ∅, G(3,b)={2,3}, G(4,b)= {2} sehingga b∞
tidak optimal. Artinya ada aturan keputusan baru yakni a∞ yang dapat

13
menyebabkan
a∞ > b∞
dengan
a(1) =1, a(2) = a(3) = a(4) = a(5) = 2.
Iterasi kedua adalah sebagai berikut.
vs a∞ = r s,a s

kebijakan

baru

yaitu

pasj s vj a∞

+
p111 v1

susunan

j∈S

v1 = r 1,1 + 0.9
+ p112 v2 + p113v3 + p114 v4 + p115 v5
= 0 + 0.9(0.9v1 + 0.1v2 ).
v2 = r 2,2 + 0.9 p221 v1 + p222 v2 + p223v3 + p224 v4 + p225 v5
= 0 + 0.9(0.8v2 + 0.1v3 + 0.1v4 ).
v3 = r 3,2 + 0.9 p231 v1 + p232 v2 + p233 v3 + p234 v4 + p235 v5
= 5 + 0.9(0.8v2 + 0.1v3 + 0.1v4 ).
v4 = r 4,2 + 0.9 p241 v1 + p242 v2 + p243 v3 + p244 v4 + p245 v5
= 10 + 0.9(0.8v2 + 0.1v3 + 0.1v4 ).
v5 = r 5,2 + 0.9 p251 v1 + p252 v2 + p253 v3 + p254 v4 + p255 v5
= 15 + 0.9(0.8v2 + 0.1v3 + 0.1v4 ).
Hasil penyelesaian persamaan di atas yaitu v1 = 6.394737 , v2 = 13.5 ,
v3 = 18.5, v4 = 23.5, v5 = 28.5. Kemudian langkah berikutnya adalah memeriksa
keanggotaan G(s,a(s)) pada state 3 dengan tindakan 3. Sedangkan untuk state 1,
state 2, dan state 5 telah optimal. Sementara state 4 tidak memiliki alternatif state
lain sehingga telah optimal pula.
p33j vj - v3

y3 = r 3,3 +
j∈S

= 0 + 0.9 0.7v3 + 0.2 v4 + 0.1 v5 - v3
= - 0.05 < 0
3 G 3,a .
Sehingga diperoleh G(s,a) = ∅ , ∀ s = 1, 2, 3, 4, 5 sehingga a∞ optimal.
Pada state 1 menggunakan tindakan 1, sedangkan state selainnya menggunakan
tindakan 2 sehingga kesimpulan yang dapat diambil adalah untuk menghasilkan
keuntungan yang optimal, petani harus menyisakan ikannya sebanyak 2 ton dalam
kolam setiap masa panen, dan jika belum memenuhi kriteria tersebut maka petani
tidak akan memanen ikannya.

14

SIMPULAN DAN SARAN
Simpulan
Hasil iterasi dengan menggunakan algoritme Discounted-Return PolicyImprovement dalam karya ilmiah ini menghasilkan suatu kesimpulan bahwa pada
kasus periklanan, produsen akan menggunakan RCTI sebagai media promosi saat
penjualan produknya berkurang dan saat penjualannya baik produsen
menggunakan Indosiar. Sementara saat penjualan produknya sangat memuaskan,
produsen menggunakan SCTV sebagai media promosi produknya.
Selain itu, pada kasus manajemen produksi disimpulkan bahwa petani harus
menyisakan ikannya sebanyak 2 ton dalam kolam setiap masa panen, dan jika
belum memenuhi kriteria tersebut maka petani tidak akan memanen ikannya.
Solusi dari kedua permasalahan tersebut memberikan keuntungan yang
optimal sehingga konsep proses keputusan Markov cocok digunakan untuk
menyelesaikan masalah pemillihan keputusan terutama pada permasalahan
manajerial.
Saran
Penulisan karya ilmiah ini menggunakan faktor diskon hipotetik dan data
yang digunakan pun telah dibuat menjadi sederhana maka karya ilmiah ini
mungkin dapat dikembangkan dengan menyesuaikan antara data dengan faktor
diskon yang berlaku pada saat tersebut. Selain itu, alternatif keputusan dapat lebih
bervariasi sehingga lebih dekat dalam menggambarkan permasalahan yang
sebenarnya.

DAFTAR PUSTAKA
Grimmet GR, Stirzaker DR.. 1992. Probability and Random Processes. Ed ke-2.
Oxford (GB): Clarendon Press.
Heymen DP, Sobel MJ. 2004. Stochastic Models in Operation Research. Volume
ke-2. New York (US): Publications.inc.Mineola.
Rosadi D. 2000. Pengambilan Keputusan Markov dan Aplikasinya di Bidang
Periklanan. Integral. 5(2): 75-82.
Taylor HM, Karlin S. 1998. An Introduction to Stochastic Modeling. Ed ke-3.
USA: Academic Press.
Tijms HC. 1994. Stochastic Models: An Algorithmic Approach. Amsterdam (NL):
John Wiley and Sons.

15
Lampiran 1 Lema 2 (syarat optimal suatu kebijakan Markov)
Andaikan 0 ≤ < 1 dan S terdiri atas banyak state tercacah. Jika � ∗ adalah sebuah
kebijakan Markov yang memenuhi
π*

Tδ π*

maka π* optimal.
Bukti : lihat Heymen dan Sobel (2004), halaman 139.

16
Lampiran 2 Proses perhitungan pada aplikasi manajemen pemasaran.
Iterasi pertama
v1 = r 1,1 + 0.9 p111 v1 + p112 v2 + p113 v3
v1 = 1390 + 0.9 0.2v1 + 0.3v2 + 0.5v3
0.82v1 - 0.27v2 - 0.45v3 = 1390

(4)

v2 = r 2,4 + 0.9 p421 v1 + p422 v2 + p423 v3
v2 = 430.5 + 0.9 0.4v1 + 0.55v2 + 0.05v3
-0.36v1 + 0.505v2 - 0.045v3 = 430.5

(5)

v3 = r 3,4 + 0.9 p431 v1 + p432 v2 + p433 v3
v3 = 539.5 + 0.9 0.07v1 + 0.33v2 + 0.6v3
-0.063v1 - 0.297v2 + 0.46v3 = 539.5

(6)

Eliminasi persamaan (4) dan (5)
0.82v1 - 0.27v2 - 0.45v3 = 1390
-0.36v1 + 0.505v2 - 0.045v3 = 430.5

×1
×10

0.82v1 - 0.27v2 - 0.45v3 = 1390
-3.6v1 + 5.05v2 - 0.45v3 = 4305
4.42v1 - 5.32v2 = -2915

-

Eliminasi persamaan (5) dan (6)
-0.36v1 + 0.505v2 - 0.045v3 = 430.5
-0.063v1 - 0.297v2 + 0.46v3 = 539.5

× 0.46
× 0.045

(7)

-0.1656v1 + 0.2323v2 - 0.0207v3 = 198.03
-0.002835v1 - 0.013365v2 + 0.0207v3 = 24.2775
-0.168435v1 + 0.218935v2 = 222.3075
Eliminasi persamaan (7) dan (8)
4.42v1 - 5.32v2 = -2915
-0.168435v1 + 0.218935v2 = 222.3075
0.9676927v1 – 1.1647342v2 = - 638.195525
-0.8960742v1 + 1.1647342v3 = 1182.6759
0.0716185v1 = 544.480375
v1 = 7602.51
sehingga dengan subtitusi diperoleh
v2 = 6864.304
v3 = 6645.992 .

+
(8)

× 0.218935
× 5.32

+

17
Kemudian periksa kondisi berikut.
p21j vj - v1

y1 = r 1,2 +
j∈S

= 1370 + 0.9 p211 v1 + p212 v2 + p213 v3 - v1
= 1370 + 0.9 0.2v1 + 0.4 v2 + 0.4v3 - v1
= - 0.35164 < 0 2  G 1,b .
p31j vj - v1

y1 = r 1,3 +
j∈S

= 1270 + 0.9 p311 v1 + p312 v2 + p313v3 - v1
= 1270 + 0.9 0.3v1 + 0.3v2 + 0.4v3 - v1
= - 33.9131 < 0 3  G(1,b).
p41j vj - v1

y1 = r 1,4 +
j∈S

= 1156.5 + 0.9 p411 v1 + p412 v2 + p413 v3 - v1
= 1156.5 + 0.9 0.4v1 + 0.4v2 + 0.2v3 - v1
= - 41.6784 < 0 4 G(1,b).
p12j vj - v2

y2 = r 2,1 +
j∈S

= 1373 + 0.9 p121 v1 + p122 v2 + p123 v3 - v2
= 1373 + 0.9 0.1v1 + 0.3v2 + 0.6v3 - v2
= 635.11966 > 0 1∈G 2,b .
p22j vj - v2

y2 = r 2,2 +
j∈S

= 1350 + 0.9 p221 v1 + p222 v2 + p223 v3 - v2
= 1350 + 0.9 0.15v1 + 0.3v2 + 0.55v3 - v2
= 655.16297 > 0 2∈G 2,b .
p32j vj - v2

y2 = r 2,3 +
j∈S

= 1300 + 0.9 p321 v1 + p322 v2 + p323v3 - v2
= 1300 + 0.9 0.1v1 +0.5v2 +0.4v3 - v2
= 601.41582 > 0 3∈G 2,b .

18
p13j vj - v3

y3 = r 3,1 +
j∈S

= 1010 + 0.9 p131 v1 + p132 v2 + p132 v3 - v3
= 1010 + 0.9 0.05v1 + 0.2v2 + 0.75v3 - v3
= 427.74027 > 0 1∈G 3,b .
p23j vj - v3

y3 = r 3,2 +
j∈S

= 1069.6 + 0.9 p231 v1 + p232 v2 + p233 v3 - v3
= 1069.6 + 0.9 0.01v1 + 0.1v2 + 0.89v3 - v3
= 433.257542 > 0 2∈G 3,b .
p33j vj - v3

y3 = r 3,3 +
j∈S

= 894.5 + 0.9 p331 v1 + p332 v2 + p333 v3 - v3
= 894,5 + 0.9 0.08v1 + 0.4v2 + 0.52v3 - v3
= 377.36242 > 0 3∈G 3,b .
Hasilnya diperoleh bahwa G 1,b = ∅, G(2,b) = {1,3}, G 3,b = 2 sehingga b∞
tidak optimal. Artinya ada aturan keputusan baru yakni a∞ yang dapat
menyebabkan a∞ > b∞ dengan susunan kebijakan baru sebagai berikut:
a(1) = 1, a(2) = 3, a(3) = 2.
Iterasi kedua
v1 = r 1,1 + 0.9 p111 v1 + p112 v2 + p113 v3
v1 = 1390 + 0.9 0.2v1 + 0.3v2 + 0.5v3
0.82v1 - 0.27v2 - 0.45v3 = 1390

(9)

v2 = r 2,3 + 0.9 p321 v1 + p322v2 + p323 v3
v2 = 1300 + 0.9 0.1v1 + 0.5v2 + 0.4v3
-0.09v1 + 0.55v2 - 0.36v3 = 1300

(10)

v3 = r 3,2 + 0.9 p231 v1 + p232 v2 + p233 v3
v3 = 1069.6 + 0.9 0.01v1 + 0.1v2 + 0.89v3
-0.009v1 - 0.09v2 + 0.199v3 =1069.6

(11)

Kemudian dengan cara eliminasi persamaan 9, persamaan 10, dan persamaan 11
diperoleh nilai v1 = 11595.21, v2 = 11537.89, v3 = 11117.42. Langkah selanjutnya
yaitu memeriksa keanggotaan G(s,a(s)) seperti berikut.

19
p12j vj - v2

y2 = r 2,1 +
j∈S

= 1373 + 0.9 p121 v1 + p122 v2 + p123 v3 - v2
= 1373 + 0.9 0.1v1 + 0.3v2 + 0.6v3 - v2
= -2.684 < 0
1 G(2,a).
p22j vj - v2

y2 = r 2,2 +
j∈S

= 1350 + 0.9 p221 v1 + p222 v2 + p223 v3 - v2
= 1350 + 0.9 0.15v1 + 0.3v2 + 0.55v3 - v2
= - 4.183 < 0
2  G 2,a .
p13j vj - v3

y3 = r 3,1 +
j∈S

= 1010 + 0.9 p131 v1 + p132 v2 + p133 v3 - v3
= 1010 + 0.9 0.05v1 + 0.2v2 + 0.75v3 - v3
= - 4.55685 < 0 1  G 3,a .
p33j vj - v3

y3 = r 3,3 +
j∈S

= 894.5 + 0.9 p331 v1 + p332 v2 + p333 v3 - v3
= 894.5 + 0.9 0.08v1 + 0.4v2 + 0.52v3 - v3
= -31.472 < 0 3  G 3,a .
G(s,a) = ∅, ∀ s = 1, 2, 3 sehingga a∞ optimal.

20
Lampiran 3 Proses perhitungan pada aplikasi manajemen produksi
Iterasi pertama
∞
= b∞
vs = vs b∞ ∀ s∈ S
vs b∞ = r s,b s

pbsj s vj b∞

+

j∈S
1
p11 v1 +

v1 = r 1,1 + 0.9
p112 v2 + p113 v3 + p114 v4 + p115 v5
= 0 + 0.9(0.9v1 + 0.1v2 ).
v2 = r 2,2 + 0.9 p221 v1 + p222 v2 + p223 v3 + p224 v4 + p225v5
= 0 + 0.9(0.8v2 + 0.1v3 + 0.1v4 ).
v3 = r 3,1 + 0.9 p131 v1 + p132 v2 + p133 v3 + p134 v4 + p135 v5
= 10 + 0.9(0.9v1 + 0.1v2 ).
v4 = r 4,3 + 0.9 p341 v1 + p342 v2 + p343 v3 + p344 v4 + p345 v5
= 5 + 0.9(0.7v3 + 0.2v4 + 0.1v5 ).
v5 = r 5,2 + 0.9 p251 v1 + p252 v2 + p253 v3 + p254 v4 + p255 v5
= 15 + 0.9(0.8v2 + 0.1v3 + 0.1v4 ).
Proses perhitungan nilai harapan untuk kelima persamaan di atas adalah
sama dengan perhitungan pada aplikasi manajemen pemasaran. Hasil
perhitungannya yaitu v1 = 5.566414, v2 = 11.75132, v3 = 15.566411, v4 =
20.99324, v5 = 26.75132. Kemudian langkah selanjutnya memeriksa kondisi
berikut.
p12j vj - v2

y2 = r 2,1 +
j∈S

= 5 + 0.9 0.9v1 + 0.1 v2 - v2
= -1.18490586 < 0 1  G 2,b .
p23j vj - v3

y3 = r 3,2 +
j∈S

= 5 + 0.9 0.8v2 + 0.1 v3 + 0.1 v4 - v3
= 1.1849089 > 0 2 ∈ G 3,b .
p33j vj - v3

y3 = r 3,3 +

j∈S

= 0 + 0.9 0.7v3 + 0.2 v4 + 0.1 v5 - v3
= 0.4268303 > 0 3 ∈ G 3,b .

21
p14j vj - v4

y4 = r 4,1 +
j∈S

= 15 + 0.9 0.9v1 + 0.1 v2 - v4
= -0.42682586 < 0 3  G 4,b .
p24j vj - v4

y4 = r 4,2 +
j∈S

= 10 + 0.9 0.8v2 + 0.1 v3 + 0.1 v4 - v4
= 0.7580762 > 0 2∈ G 4,b .
p44j vj - v4

y4 = r 4,4 +
j∈S

= 0 + 0.9 0.6v4 + 0.4v5 - v4
= - 0.0264152 < 0 2  G 4,b .
p15j vj - v5

y5 = r 5,1 +
j∈S

= 20 + 0.9 0.9v1 + 0.1 v2 - v5
= -1.18490586 < 0 1  G 2,b .
p35j vj - v5

y5 = r 5,3 +
j∈S

= 10 + 0.9 0.7v3 + 0.2 v4 + 0.1 v5 - v5
= -0.7580797 > 0 3  G 5,b .
p45j vj - v5

y5 = r 5,4 +
j∈S

= 5 + 0.9 0.6v4 + 0.4v5 - v5
= -0.7844952 < 0 4  G 5,b .
p55j vj - v5

y5 = r 5,5 +
j∈S

= 0 + 0.9v5 - v5
= - 2.675132 < 0

4  G 5,b .

Diperoleh bahwa G 1,b = G 2,b = G 5,b = ∅, G 3,b = 2 , G 4,b = 1
sehingga b∞ tidak optimal. Artinya ada aturan keputusan baru yaitu a∞ sehingga
dapat menyebabkan a∞ > b∞ dengan susunan kebijakan baru seperti berikut.
a(1)=1, a(2) = a(3) = a(4) = a(5) = 2.

22
Iterasi kedua
vs a∞ = r s,a s

pasj s vj a∞

+
j∈S
1
p11 v1 +

v1 = r 1,1 + 0.9
p112 v2 + p113 v3 + p114 v4 + p115 v5
= 0 + 0.9(0.9v1 + 0.1v2 ).
v2 = r 2,2 + 0.9 p221 v1 + p222 v2 + p223 v3 + p224 v4 + p225 v5
= 0 + 0.9(0.8v2 + 0.1v3 + 0.1v4 ).
v3 = r 3,2 + 0.9 p231 v1 + p232 v2 + p233 v3 + p234 v4 + p235 v5
= 5 + 0.9(0.8v2 + 0.1v3 + 0.1v4 ).
v4 = r 4,2 + 0.9 p241 v1 + p242 v2 + p243 v3 + p244 v4 + p245 v5
= 10+ 0.9(0.8v2 + 0.1v3 + 0.1v4 ).
v5 = r 5,2 + 0.9 p251 v1 + p252 v2 + p253 v3 + p254 v4 + p255 v5
= 15 + 0.9(0.8v2 + 0.1v3 + 0.1v4 ).
Kemudian dilakukan cara yang sama untuk mencari nilai harapan dari lima
persamaan di atas, sehingga diperoleh v1 = 6.394737, v2 = 13.5, v3 = 18.5, v4 = 23.5,
v5 = 28.5. Langkah selanjutnya hanya memeriksa G(s,a(s)) pada state 3 dengan
tindakan 3.
p33j vj - v3

y3 = r 3,3 +
j∈S

= 0 + 0.9 0.7v3 + 0.2 v4 + 0.1 v5 - v3
= - 0.05 < 0 3  G 3,a .
Diperoleh G(s,a) = ∅ , ∀ s = 1, 2, 3, 4, 5 sehingga a∞ optimal.

23

RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 4 Februari 1991 dari ayah Abdul
Mugeni dan ibu Wadiningsih. Penulis adalah putri pertama dari empat bersaudara.
Tahun 2009 penulis lulus dari SMA Negeri 1 Cilegon dan pada tahun yang sama
penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) melalui jalur Undangan
Seleksi Masuk IPB dan diterima di Departemen Matematika, Fakultas Matematika
dan Ilmu Pengetahuan Alam.
Selama mengikuti perkuliahan, penulis aktif mengajar mata kuliah Landasan
Matematika dan Kalkulus di bimbingan belajar dan privat mahasiswa
GUMATIKA. Penulis juga pernah aktif sebagai staf divisi keilmuan GUMATIKA
selama dua periode kepengurusan.

Penyelesaian masalah manajerial dengan metode iterasi kebijakan pada discounted markov decision prosesses

Dokumen yang terkait

Proses Keputusan Markov Dengan Metode Pengiterasian Kebijakan

PERBANDINGAN METODE ITERASI JACOBI DAN ITERASI GAUSS-SEIDEL DALAM PENYELESAIAN SISTEM PERSAMAAN LINIER DENGAN MENGGUNAKAN SIMULASI KOMPUTASI

Perbandingan Metode Analisis Homotopi dan Metode Iterasi Variasional pada Penyelesaian Masalah Gelombang Internal di Atmosfer

PENYELESAIAN MASALAH SUATU PENUGASAN DENGAN METODE HUNGARIAN.

PERBANDINGAN PENYELESAIAN SISTEM BRUSSELATOR DENGAN METODE ITERASI VARIASIONAL DAN METODE ITERASI VARIASIONAL TERMODIFIKASI.

METODE ITERASI VARIASIONAL PADA MASALAH STURM-LIOUVILLE.

PENYELESAIAN MASALAH PL DENGAN METODE SIMPLEKS

Penyelesaian Sistem Persamaan Linear Fully Fuzzy Menggunakan Metode Iterasi Jacobi

Metode Iterasi Orde Konvergensi Enam Untuk Penyelesaian Persamaan Nonlinear

Penyelesaian Persamaan Nonlinear Menggunakan Metode Iterasi Tiga Langkah

Dukungan

Links

Penyelesaian masalah manajerial dengan metode iterasi kebijakan pada discounted markov decision prosesses

Dokumen yang terkait

Proses Keputusan Markov Dengan Metode Pengiterasian Kebijakan

PERBANDINGAN METODE ITERASI JACOBI DAN ITERASI GAUSS-SEIDEL DALAM PENYELESAIAN SISTEM PERSAMAAN LINIER DENGAN MENGGUNAKAN SIMULASI KOMPUTASI

Perbandingan Metode Analisis Homotopi dan Metode Iterasi Variasional pada Penyelesaian Masalah Gelombang Internal di Atmosfer

PENYELESAIAN MASALAH SUATU PENUGASAN DENGAN METODE HUNGARIAN.

PERBANDINGAN PENYELESAIAN SISTEM BRUSSELATOR DENGAN METODE ITERASI VARIASIONAL DAN METODE ITERASI VARIASIONAL TERMODIFIKASI.

METODE ITERASI VARIASIONAL PADA MASALAH STURM-LIOUVILLE.

PENYELESAIAN MASALAH PL DENGAN METODE SIMPLEKS

Penyelesaian Sistem Persamaan Linear Fully Fuzzy Menggunakan Metode Iterasi Jacobi

Metode Iterasi Orde Konvergensi Enam Untuk Penyelesaian Persamaan Nonlinear

Penyelesaian Persamaan Nonlinear Menggunakan Metode Iterasi Tiga Langkah

Dokumen yang Anda mencari sudah siap untuk unduhkan