Aplikasi Teori Kendali Pada Permainan Dinamis Non-Kooperatif Waktu tak Berhingga
Aplikasi Teori Kendali Pada Permainan Dinamis
Non-Kooperatif Waktu tak Berhingga
Nilwan Andiraja
UIN Sultan Syarif Kasim Riau, Pekanbaru
Jl. H.R Soebrantas No 155 Km. 18 telp : 0761-8359937
e-mail: nilwanandiraja336@gmail.com
Abstrak
Pada tulisan ini dibahas mengenai aplikasi teori kendali untuk membentuk vektor kendali padapermainan dinamis linier kuadratik non-kooperatif dua pemain dengan strategi Nash untuk waktu tak
berhingga. Pembahasan diawali dari persamaan umum kendali optimal waktu kontinu, kemudian
dilanjutkan ke persamaan umum untuk permainan dinamis non-kooperatif N pemain untuk waktu
berhingga dengan beberapa asumsi. Kemudian, dengan asumsi yang sama dibentuk persamaan umum
untuk permainan dinamis non-kooperatif dua pemain untuk waktu tak berhingga, yang terdiri dari
persamaan diferensial sistem dinamik dan fungsi objektif yang sesuai. Kemudian dengan menggunakan
teori kendali dibentuk persamaan aljabar Riccatii yang sesuai dengan persamaan diferensial dan fungsi
objektif untuk masing-masing pemain. Berdasarkan persamaan aljabar Riccati yang dibentuk, diperoleh
solusi yang digunakan untuk membentuk vektor kendali yang sesuai untuk masing-masing pemain.
Akhirnya disimpulkan bahwa terdapat eksistensi vektor kendali pada permainan dinamis linier kuadratik
non-kooperatif dua pemain dengan strategi Nash untuk waktu tak berhingga.Kata kunci: Permainan dinamis non-kooperatif, aljabar Riccati, vektor kendali
Abstract
In this paper discuss about application the control theory to form control vector in linier quadraticnon-cooperative dynamic game two-player with Nash strategy for infinite time. Discuss was started from
general equation for optimal control of continuous time, then discuss to continue to general equation for
non-cooperative dynamic game N player for finite time with several assumption. Then, with the same
assumption to made general equation for non-cooperative dynamic game two-player for infinite time, which
consisting of differential equation dynamical system and objective function suitably. Moreover, with used
control theory to form algebraic Riccati equation suitably with differential equation and objective function
for each player. Based on algebraic Riccati equation was formed, gotten solution which used to form
control vector suitably for each player. Finally gets to be concluded there are exists control vector in linear
quadratic non-cooperative dynamic game two-player with Nash strategy for infinite time.Keywords: non-cooperative dynamic game, algebraic Riccati, control vector
1. Pendahuluan
Dalam kehidupan sehari-hari banyak persoalan yang dapat dihubungkan dengan matematika,
bukan hanya persoalan yang rumit tapi juga persoalan yang menarik seperti permainan. Permainan dapat
dibawa ke ranah matematika yang dikenal dengan teori permainan. Banyak orang telah mengetahui
bahwa teori permainan merupakan bagian dari persoalan program linier atau riset operasi. Hal ini
dikarenakan, didalam program linier atau riset operasi, persoalan permainan diasumsikan mencari
keputusan yang mengoptimalkan fungsi tujuan dengan data-data awal disajikan dalam bentuk tabel dan
tanpa memiliki pilihan strategi yang optimal.Asumsi yang sama namun pendekatan penyelesaian yang lebih berbeda diberikan oleh teori
kendali dalam persoalan teori permainan. Berdasarkan teori kendali, persoalan permainan dipandang
sebagai persoalan sebuah model sistem dinamis disertai fungsi tujuan. Sehingga, didalam model sistem
dinamis permainan tersebut, terdapat variabel state dan kendali. Sedangkan data-data awal disajikan
dalam bentuk matriks, sehingga dapat digunakan teori-teori matriks seperti pada aljabar linier.
Selanjutnya, untuk mencari keputusan yang akan mengoptimalkan fungsi tujuan, diperoleh dengan
mencari kendali sebagai solusi yang sesuai dengan strategi yang diinginkan. Salah satu strategi yang
menarik yaitu strategi Nash untuk waktu tak hingga. Masalah solusi strategi Nash, telah dijelaskan oleh
beberapa ahli diantaranya diberikan oleh Tamer Basar (1999) dan Jacob Engwerda (2000) yang telah
menjelaskan tentang eksistensi solusi strategi Nash untuk persoalan permainan dinamis non-kooperatif
dengan waktu tak hingga kasus non skalar. Hal yang sama juga diberikan oleh Weeren (1999) yang
menjelaskan mengenai eksistensi solusi strategi Nash untuk persoalan permainan dinamis non-kooperatif
dengan waktu tak hingga kasus non skalar dan skalar.Oleh karena itu, penelitian ini akan membahas mengenai teori permainan dipandang dari teori
kendali. Termasuk mencari eksistensi keputusan sebagai solusi yang akan mengoptimalkan fungsi tujuan,
yang sesuai dengan solusi strategi Nash, yang akan memberikan alternatif untuk menyelesaikan
persoalan teori permainan disamping menggunakan pendekatan program linier serta akan memberi
kemudahan menentukan keputusan bagi permainan dinamis non-kooperatif untuk berbagai kondisi sistem
dinamik dan fungsi tujuan dua pemain waktu kontinu.2. Metode Penelitian Penelitian ini menggunakan studi literatur dan langkah-langkah yang dilakukan pada penelitian ini adalah sebagai berikut :
1. Membentukan model sistem dinamis kasus permainan non-kooperatif dua pemain beserta fungsi
tujuan untuk waktu tak hingga berdasarkan masalah kendali optimal.
2. Membentuk persamaan aljabar Riccati yang bersesuaian berdasarkan persamaan diferensial Riccati,
T
1 T , t
S A S SA SBR B S Q T f
3. Mencari eksistensi keputusan strategi Nash yang akan mengoptimalkan fungsi tujuan permainan
dinamis.3. Hasil dan Pembahasan 3.1. Masalah Umum Kendali Optimal Waktu Kontinu.
Persamaan diferensial untuk permasalahan umum kendali optimal waktu kontinu untuk sistem dinamis diberikan sebagai berikut x x u
, (3.1.1) ( ) t ( ( ), ( ), ) t t t f dengan adalah vektor state internal dan adalah vektor kendali input. Fungsi tujuan yang akan dicapai yaitu meminimalkan fungsi objektif, dengan persamaan
T f x x u
, (3.1.2) J t ( ) ( ( T ), T ) L ( ( ), ( ), ) t t t dt f f
t dengan adalah waktu awal dan adalah waktu akhir. t
T f 3.2. Kendali Optimal Lingkar Tertutup Linier Kuadratik.
Pada persoalan sistem dinamik lingkar tertutup, diasumsikan terdapat sebuah persamaan
diferensial sistem dinamik, dengan tujuan meminimalkan fungsi objektif berbentuk kuadratik. Selanjutnya
akan dicari vektor kendali yang akan meminimalkan fungsi tujuan berdasarkan input yang diberikan
kepada persamaan diferensial sistem dinamiknya.Adapun bentuk model matematika persoalan masalah kendali optimal lingkar tertutup linier kuadratik, dapat didefinisikan pada persamaan diferensial sistem dinamik berikut x x u
, (3.2.1)
( ) t A t ( ) B ( ) t
dengan , dan kendali input ,dan meminimalkan fungsi
objektif yaituT f
1
1 T T T x x x x u u
, (3.2.2)
J t ( ) ( T S T ) ( ) ( T ) ( Q R ) dt
f f f
2
2 t
dengan t waktu awal dan waktu akhir, matriks , matriks dan matriks , ketiganya
T R Q S T ( ) f f merupakan matriks simetri yang mempengaruhi fungsi objektif.
Diasumsikan dan semi definit positif , selanjutnya dan Q S T ( ) ( Q 0, S T ( ) 0) Q f f
T T x x x x memiliki nilai eigen nonnegatif sehingga Q dan ( T S T ) ( ) ( T ) bernilai nonnegatif
S T ( ) f f f f x
untuk setiap . Diasumsikan juga adalah definit positif dengan sehingga memiliki nilai
( ) t R R R
T u u ueigen positif sehingga untuk setiap . Selanjutnya diberikan persamaan-persamaan
R ( ) t berikut :
1 T T T
x x u u Persamaan Hamilton : . (3.2.3)
H t ( ) ( Q R ) ( A B ) λ x u
2 H x x u
Persamaan state yaitu . (3.2.4) A B
λ
H T
Persamaan kostate yaitu . (3.2.5) Q A
λ x λ x H T u
Persamaan kondisi stasionary yaitu . (3.2.6)
R B
λ u
1 T u
Berdasarkan persamaan (3.2.6) diperoleh . (3.2.7)
( ) t R B ( ) t
λ Selanjutnya persamaan (3.2.7) disubstitusikan ke persamaan (3.2.4), maka diperoleh
1 T x x
. (3.2.8) A BR B λ
Dengan mengambil persamaan (3.2.8) dan persamaan (3.2.5) maka dapat dibuat sistem homogen Hamilton yaitu
1 T x x
A BR B , (3.2.9)
T λ Q A λ
x
dengan matriks koefisien disebut matriks Hamiltonian. Diketahui dan , waktu akhir diketahui,
t ( ) tT f x x state akhir bergantung kepada sehingga tidak nol, maka kondisi akhir yaitu
( T ) T d T ( ) f f f
, (3.2.10)
( T ) S T ( ) ( T )
λ f f x f Maka untuk mencari kendali optimal, maka akan diselesaikan masalah dua titik batas. x
Diasumsikan dan memenuhi persamaan (3.2.10) untuk setiap interval
( ) t ( ) tλ [ , t T ] f sehingga
, (3.2.11)
( ) t S t ( ) ( ) t
λ x dengan adalah matriks . Selanjutnya diferensialkan persamaan (3.2.11) didapat
S T ( ) n n f
. Kemudian dari persamaan (3.2.8) diperoleh S S
λ x x
1 T . (3.2.12)
S S S S A ( BR B S )
λ x x x x x
T T Berdasarkan persamaan (3.2.5) didapat ,
Q A Q A λ x λ λ x λ
T selanjutnya, disubstitusikan persamaan (3.2.12) ke , diperoleh
Q A λ x λ
T
1 T x
Q A S S A ( BR B S ) λ x x x
1 T T x x x x x
S SA SBR B S Q A S
T
1 T x x
S ( A S SA SBR B S Q ) , (3.2.13) karena persamaan (3.2.13) memenuhi untuk setiap waktu ,maka diperoleh t
T
1 T , t , (3.2.14)
S A S SA SBR B S Q
T fpersamaan (3.2.14) disebut persamaan diferensial Riccati. Jika adalah solusi dengan kondisi akhir
S t ( ) , maka persamaan (3.2.12) berlaku untuk setiap , maka asumsi benar. S T ( ) t T f f
Karena solusi persamaan diferensial Riccati adalah , maka vektor kendali S t ( ) dan x S
1 T
u
optimal yang diberikan dari persamaan (3.2.7) yaitu menjadi( ) t R B ( ) t λ
1 T
u x( ) t R B S t ( ) ( ) t , (3.2.15)
1 T selanjutnya disimbolkan , (3.2.16)
K t ( ) R B S t ( ) sehingga vektor kendali optimal menjadi u x
. (3.2.17)
( ) t K t ( ) ( ) t
3.3. Permainan Dinamis Non-Kooperatif dua Pemain.Masalah umum permainan dinamis non-kooperatif didefinisikan dalam bentuk persamaan diferensial sistem dinamik permainan untuk pemain N N x x u x x
( ) t A t ( ) B ( ), t (0) (3.3.1)
i i
i
1
dengan matriks dan , . Setiap pemain memiliki sebuah
fungsi objektif yang akan diminimalkanT f
N
T T T
u u x x x x u u(3.3.2) J ( , , ) ( T K T ) ( ) ( T ) { ( ) t Q ( ) t ( ) t R ( )} t dt i
1 N f i f f i j ij j
j 1
dengan serta semua matriks pada fungsi tujuan diasumsikan merupakan matriks
i 1, 2, , N J
i
simetri, dan keduanya merupakan matriks definit positif untuk , serta
Q i 1, 2, , N R
ij i didefinisikan
1 T
1
1 T dan untuk
S B R B i j S B R R R B i i ii i ij i ii ji ii i
Selanjutnya akan dibentuk persamaan diferensial sistem dinamik permainan non-kooperatif untuk dua pemain waktu tak berhingga
x x u u x x
(3.3.3)
( ) t A t ( ) B ( ) t B ( ), t (0)
1
1
2
2 Pada bagian waktu tak berhingga, fungsi objektif memenuhi kriteria
u u u u , sehingga para pemain meminimalkan fungsi objektif J ( , ) lim J ( , ) i
1 2 i
1
2 T f
2 T T T
u u x x x x u u
(3.3.4)J ( , ) ( T K T ) ( ) ( T ) { ( ) t Q ( ) t ( ) t R ( )} t dt i
1 2 f i f f i j ij j
j
1
untuk i j i , 1, 2.
Fungsi tujuan permainan dua pemain waktu tak berhingga memenuhi asumsi dan matriks serta
R ij u x
matriks keduanya definit positif. Selanjutnya akan dibentuk vektor kendali dengan
Q F i i i
1 T , merupakan ekuilibrium linier umpan balik Nash.
- F t ( ) R B K i=1,2, dan
i ii i i F = adalah anggota , yang memenuhi definisi
1
2
1
2 1 1
2
( , F F ) { F ( , F F ) A B F B F stabil }
2 berikut.
Defenisi 3.3.1 Ekuilibrium linier disebut ekuilibrium linier umpan balik Nash jika F
F F ,
1
2
x x x x memenuhi pertidaksamaan dan
J ( , F F , ) J ( , F F , ) J ( , F F , ) J ( , F F , )
1
1
2
1
1
2
2
1
2
2
1
2
x
untuk setiap dan untuk setiap matriks state umpan balik sedemikian sehingga
F i , 1, 2 i
- .
( , F F ) dan F F ( , ) F
1
2
1
2 3.4. Eksistensi solusi Permainan Dinamis Non-Kooperatif dua Pemain.
Dipandang kembali sistem persamaan diferensial sistem dinamik permainan non-kooperatif
untuk dua pemain waktu tak berhingga, berturut-turut persamaan (3.3.3) dan (3.3.4). Akan ditunjukkan ada
* 1 T
- 1
yang memenuhi dengan asumsi adalah K t K t ( ), ( ) F
- F t ( ) R B K ( F F , )
2 i ii i i
1
2
ekuilibrium umpan balik Nash, yang memenuhi
x x x x
dan .1
1
2
1
1
2
2
1
2
2
1
2
J ( , F F , ) J ( , F F , ) J ( , F F , ) J ( , F F , )
u x Sehingga dapat dibentuk F .
i i
Pada kasus pemain pertama, diketahui dengan u x , maka sistem dinamik
F ( ) t F ( ) t
2
2
2
- x x x
u pemain pertama menjadi dengan fungsi objektif
A B B F
1 1
2
2
T
- T T T
x x x x u u ,
J ( T K T ) ( ) ( T ) { ( Q F R F ) R } dt
1 f 1 f f
1
2
12
2 1 11 1
berdasarkan sistem dinamik dan fungsi objektif pemain pertama, dapat dibentuk persamaan aljabar
RiccatiT T
, (3.4.1) ( A B F ) K K A B F ( ) K S K ( Q F R F )
2
2
1
1
2 2 1 1
1
1
2
12
2
1 * T
dengan mensubstitusikan kepersamaan (3.4.1), maka diperoleh
F R B K
2
22
2
2 T
. (3.4.2) ( A S K ) K K A S K ( ) K S K Q K S K
2
2
1
1
2 2 1 1
1
1
2
21
2
- 1 T
Persamaan (3.4.2) akan memiliki solusi . Sehingga dapat dibentuk , maka pemain
K F R B K
1
11
1
1
1
- u x pertama dapat membentuk fungsi kendali .
F
1
1 Secara sama untuk pemain kedua, maka sistem dinamik pemain pertama menjadi
- x x x u
dengan fungsi objektif
A B F B
1 1
2
2
T T T T * *
x x x x u u
J ( T K T ) ( ) ( T ) { ( Q F R F ) R } dt
2 f 2 f f
2
1
21
1
2
22
2
Maka dapat dibentuk persamaan aljabar Riccati
T T
( A B F ) K K A B F ( ) K S K ( Q F R F )
(3.4.3)
1 1
2 2 1 1
2
2
2
2 1 21 1
- 1 T
Dengan mensubstitusikan kepersamaan (3.4.3), maka diperoleh F R B K
1
11
1
1 T
(3.4.4) ( A S K ) K K A S K ( ) K S K Q K S K
1
1
2
2
1
1
2
2
2 2 1 12
1 *
1 T
Maka dapat diperoleh sebagai solusi dari persamaan (3.4.4) sehingga maka
K F R B K
2
2
22
2
2
- u x pemain pertama dapat membentuk fungsi kendali .
F
2
2
u x u x Berdasarkan persamaan (3.4.2) dan (3.4.4) diperoleh F dan F , kemudian
1
1
2
2
disubsitusikan ke persamaan diferensial sistem dinamik, maka diperoleh
x x u u x x x x
. A B B A B F B F A B F B F
1
1
2
2
1
1
2 2
1
1
2 2
Selanjutnya karena ekuilibrium Nash yang memenuhi F F ,
1
2
- x x dan x x
J ( , F F , ) J ( , F F , ) J ( , F F , ) J ( , F F , )
1
1
2
1
1
2
2
1
2
2
1
2
x x
maka diasumsikan F F dan F F sehingga diperoleh dengan
A B F B F
1
1
2
2
1
1
2
2
nilai eigen real bernilai negatif untuk , maka stabil.
A B F B F A B F B F
1
1
2
2
1
1
2
2
u x u x
Sehingga solusi dan , dapat menstabilkan persamaan diferensial sistem dinamik
F F
1
1
2
2 permainan non-kooperatif.
4. Kesimpulan
Berdasarkan uraian pada hasil dan pembahasan yang telah diberikan, maka diperoleh
kesimpulan bahwa berdasarkan permainan dinamis non-kooperatif untuk N pemain, dapat dibentuk
persamaan diferensial sistem dinamik permainan non-kooperatif untuk dua pemain waktu tak berhingga
yaitux x u u x x
( ) t A t ( ) B ( ) t B ( ), t (0)
1
1
2
2
dengan para pemain meminimalkan fungsi objektif
2 T T T
u u x x x x u u .
J ( , ) ( T K T ) ( ) ( T ) { ( ) t Q ( ) t ( ) t R ( )} t dt
i1 2 f i f f i j ij j
j
1 Selanjutnya berdasarkan persoalan kendali optimal waktu kontinu, maka masing-masing pemain
pada permasalahan permainan dinamis non-kooperatif dua pemain dapat dibentuk persamaan aljabar
* 1 * T
u x
Riccati, yang digunakan untuk membentuk vektor kendali dengan untuk
F F t ( ) R B K i ii i i i i yang merupakan ekuilibrium umpan balik Nash untuk masing-masing pemain. i 1, 2
Untuk penelitian selanjutnya, dapat dilakukan penelitian dua pemain untuk kasus waktu tak
berhingga dengan asumsi matriks-matriks menjadi skalar atau dengan meneliti untuk kasus N pemain
dengan asumsi yang sama dengan kasus dua pemain untuk kasus waktu tak berhingga.Daftar Pustaka Jurnal :
[1] Engwerda J. Feedback Nash equilibria in the scalar infinite horizon LQ-game. Automatica. 2000; 36 :
135-139.[2] Weeren AJTM, Schumacher JM, Engwerda J. Asymptotic analysis of linear feedback Nash equilibria
in nonzero-sum linear-quadratic differential games. Journal of Optimization Theory andApplications.1999: 101: p693 –723.
Buku : [1] Basar T. Dynamic noncooperative game theory. Philadelphia: SIAM. 1999.
[2] Bellman R. Introduction to Matrix Analysis. Philadelphia: SIAM. 1997
[3] Engwerda J. LQ Dynamic Optimization and Differential Games. Chichester: John Wiley & Sons. 2005.
[4] Lewis FL. Applied Optimal Control and Estimation. New Jersey: Prentice-Hall, Inc. 1992. [5] Olsder GJ. Mathematical System Theory. Delft: University of Technology. 1994. [6] Perko L. Differential Equations and Dynamical System. New York: Springer-Verlag. 1991.