Aplikasi Teori Kendali Pada Permainan Dinamis Non-Kooperatif Waktu tak Berhingga

  

Aplikasi Teori Kendali Pada Permainan Dinamis

Non-Kooperatif Waktu tak Berhingga

Nilwan Andiraja

  

UIN Sultan Syarif Kasim Riau, Pekanbaru

Jl. H.R Soebrantas No 155 Km. 18 telp : 0761-8359937

e-mail: nilwanandiraja336@gmail.com

  

Abstrak

Pada tulisan ini dibahas mengenai aplikasi teori kendali untuk membentuk vektor kendali pada

permainan dinamis linier kuadratik non-kooperatif dua pemain dengan strategi Nash untuk waktu tak

berhingga. Pembahasan diawali dari persamaan umum kendali optimal waktu kontinu, kemudian

dilanjutkan ke persamaan umum untuk permainan dinamis non-kooperatif N pemain untuk waktu

berhingga dengan beberapa asumsi. Kemudian, dengan asumsi yang sama dibentuk persamaan umum

untuk permainan dinamis non-kooperatif dua pemain untuk waktu tak berhingga, yang terdiri dari

persamaan diferensial sistem dinamik dan fungsi objektif yang sesuai. Kemudian dengan menggunakan

teori kendali dibentuk persamaan aljabar Riccatii yang sesuai dengan persamaan diferensial dan fungsi

objektif untuk masing-masing pemain. Berdasarkan persamaan aljabar Riccati yang dibentuk, diperoleh

solusi yang digunakan untuk membentuk vektor kendali yang sesuai untuk masing-masing pemain.

  

Akhirnya disimpulkan bahwa terdapat eksistensi vektor kendali pada permainan dinamis linier kuadratik

non-kooperatif dua pemain dengan strategi Nash untuk waktu tak berhingga.

  Kata kunci: Permainan dinamis non-kooperatif, aljabar Riccati, vektor kendali

Abstract

In this paper discuss about application the control theory to form control vector in linier quadratic

non-cooperative dynamic game two-player with Nash strategy for infinite time. Discuss was started from

general equation for optimal control of continuous time, then discuss to continue to general equation for

non-cooperative dynamic game N player for finite time with several assumption. Then, with the same

assumption to made general equation for non-cooperative dynamic game two-player for infinite time, which

consisting of differential equation dynamical system and objective function suitably. Moreover, with used

control theory to form algebraic Riccati equation suitably with differential equation and objective function

for each player. Based on algebraic Riccati equation was formed, gotten solution which used to form

control vector suitably for each player. Finally gets to be concluded there are exists control vector in linear

quadratic non-cooperative dynamic game two-player with Nash strategy for infinite time.

  Keywords: non-cooperative dynamic game, algebraic Riccati, control vector

1. Pendahuluan

  Dalam kehidupan sehari-hari banyak persoalan yang dapat dihubungkan dengan matematika,

bukan hanya persoalan yang rumit tapi juga persoalan yang menarik seperti permainan. Permainan dapat

dibawa ke ranah matematika yang dikenal dengan teori permainan. Banyak orang telah mengetahui

bahwa teori permainan merupakan bagian dari persoalan program linier atau riset operasi. Hal ini

dikarenakan, didalam program linier atau riset operasi, persoalan permainan diasumsikan mencari

keputusan yang mengoptimalkan fungsi tujuan dengan data-data awal disajikan dalam bentuk tabel dan

tanpa memiliki pilihan strategi yang optimal.

  Asumsi yang sama namun pendekatan penyelesaian yang lebih berbeda diberikan oleh teori

kendali dalam persoalan teori permainan. Berdasarkan teori kendali, persoalan permainan dipandang

sebagai persoalan sebuah model sistem dinamis disertai fungsi tujuan. Sehingga, didalam model sistem

dinamis permainan tersebut, terdapat variabel state dan kendali. Sedangkan data-data awal disajikan

dalam bentuk matriks, sehingga dapat digunakan teori-teori matriks seperti pada aljabar linier.

Selanjutnya, untuk mencari keputusan yang akan mengoptimalkan fungsi tujuan, diperoleh dengan

mencari kendali sebagai solusi yang sesuai dengan strategi yang diinginkan. Salah satu strategi yang

menarik yaitu strategi Nash untuk waktu tak hingga. Masalah solusi strategi Nash, telah dijelaskan oleh

beberapa ahli diantaranya diberikan oleh Tamer Basar (1999) dan Jacob Engwerda (2000) yang telah

menjelaskan tentang eksistensi solusi strategi Nash untuk persoalan permainan dinamis non-kooperatif

dengan waktu tak hingga kasus non skalar. Hal yang sama juga diberikan oleh Weeren (1999) yang

menjelaskan mengenai eksistensi solusi strategi Nash untuk persoalan permainan dinamis non-kooperatif

dengan waktu tak hingga kasus non skalar dan skalar.

  Oleh karena itu, penelitian ini akan membahas mengenai teori permainan dipandang dari teori

kendali. Termasuk mencari eksistensi keputusan sebagai solusi yang akan mengoptimalkan fungsi tujuan,

yang sesuai dengan solusi strategi Nash, yang akan memberikan alternatif untuk menyelesaikan

persoalan teori permainan disamping menggunakan pendekatan program linier serta akan memberi

kemudahan menentukan keputusan bagi permainan dinamis non-kooperatif untuk berbagai kondisi sistem

dinamik dan fungsi tujuan dua pemain waktu kontinu.

  2. Metode Penelitian Penelitian ini menggunakan studi literatur dan langkah-langkah yang dilakukan pada penelitian ini adalah sebagai berikut :

  

1. Membentukan model sistem dinamis kasus permainan non-kooperatif dua pemain beserta fungsi

tujuan untuk waktu tak hingga berdasarkan masalah kendali optimal.

  

2. Membentuk persamaan aljabar Riccati yang bersesuaian berdasarkan persamaan diferensial Riccati,

  T

  1 T , t

    S A SSA SBR B S Q    T f

  

3. Mencari eksistensi keputusan strategi Nash yang akan mengoptimalkan fungsi tujuan permainan

dinamis.

  3. Hasil dan Pembahasan 3.1. Masalah Umum Kendali Optimal Waktu Kontinu.

  Persamaan diferensial untuk permasalahan umum kendali optimal waktu kontinu untuk sistem dinamis diberikan sebagai berikut x x u

  , (3.1.1) ( ) t  ( ( ), ( ), ) t t t f dengan adalah vektor state internal dan adalah vektor kendali input. Fungsi tujuan yang akan dicapai yaitu meminimalkan fungsi objektif, dengan persamaan

  T f x x u

  , (3.1.2) J t ( )   ( ( T ), T )  L ( ( ), ( ), ) t t t dt f f

   t dengan adalah waktu awal dan adalah waktu akhir. t

  T f 3.2. Kendali Optimal Lingkar Tertutup Linier Kuadratik.

  Pada persoalan sistem dinamik lingkar tertutup, diasumsikan terdapat sebuah persamaan

diferensial sistem dinamik, dengan tujuan meminimalkan fungsi objektif berbentuk kuadratik. Selanjutnya

akan dicari vektor kendali yang akan meminimalkan fungsi tujuan berdasarkan input yang diberikan

kepada persamaan diferensial sistem dinamiknya.

  Adapun bentuk model matematika persoalan masalah kendali optimal lingkar tertutup linier kuadratik, dapat didefinisikan pada persamaan diferensial sistem dinamik berikut x x u

  , (3.2.1)

( ) tA t ( )  B ( ) t

dengan , dan kendali input ,dan meminimalkan fungsi

objektif yaitu

  T f

  1

  1 T T T x x x x u u

  , (3.2.2)

J t ( ) ( T S T ) ( ) ( T ) ( Q R ) dt

     f f f

  

  2

  2 t

dengan t waktu awal dan waktu akhir, matriks , matriks dan matriks , ketiganya

  T R Q S T ( ) f f merupakan matriks simetri yang mempengaruhi fungsi objektif.

  Diasumsikan dan semi definit positif , selanjutnya dan Q S T ( ) ( Q  0, S T ( )  0) Q f f

  T T x x x x memiliki nilai eigen nonnegatif sehingga Q dan ( T S T ) ( ) ( T ) bernilai nonnegatif

  S T ( ) f f f f x

untuk setiap . Diasumsikan juga adalah definit positif dengan sehingga memiliki nilai

  

( ) t R RR

T u u u

eigen positif sehingga untuk setiap . Selanjutnya diberikan persamaan-persamaan

  R  ( ) t  berikut :

1 T T T

  x x u u Persamaan Hamilton : . (3.2.3)

  H t ( )  ( QR )  ( AB ) λ x u

  2 Hx x u

  Persamaan state yaitu . (3.2.4)   AB

  λ

   H T

  Persamaan kostate yaitu . (3.2.5)    QA

  λ x λ x   H T u

  

Persamaan kondisi stasionary yaitu . (3.2.6)

R B

     λ u

  

  1 T u

  Berdasarkan persamaan (3.2.6) diperoleh . (3.2.7)

( ) t   R B ( ) t

  λ Selanjutnya persamaan (3.2.7) disubstitusikan ke persamaan (3.2.4), maka diperoleh

  

  1 T x x

  . (3.2.8)  ABR B λ

  Dengan mengambil persamaan (3.2.8) dan persamaan (3.2.5) maka dapat dibuat sistem homogen Hamilton yaitu 

  1 T x x

   A BR B       , (3.2.9)

      T    λQA λ

        x

dengan matriks koefisien disebut matriks Hamiltonian. Diketahui dan , waktu akhir diketahui,

t ( ) t

  T f x x state akhir bergantung kepada sehingga tidak nol, maka kondisi akhir yaitu

  ( T ) T d T ( ) f f f

  , (3.2.10) 

( T ) S T ( ) ( T )

  λ f f x f Maka untuk mencari kendali optimal, maka akan diselesaikan masalah dua titik batas. x

  

Diasumsikan dan memenuhi persamaan (3.2.10) untuk setiap interval

( ) t ( ) t

  λ [ , t T ] f sehingga

  , (3.2.11)

( ) tS t ( ) ( ) t

  λ x dengan adalah matriks . Selanjutnya diferensialkan persamaan (3.2.11) didapat

  S T ( ) n nf

  . Kemudian dari persamaan (3.2.8) diperoleh  SS

  λ x x

  1 T . (3.2.12)

  

SSSS A (  BR B S )

λ x x x x x

  T T Berdasarkan persamaan (3.2.5) didapat ,

    QA    QA λ x λ λ x λ

  T selanjutnya, disubstitusikan persamaan (3.2.12) ke , diperoleh

    QA λ x λ

  T

  1 T x

   QASS A (  BR B S ) λ x x x

  

  1 T T x x x x x

    S SASBR B SQA S

T

  1 T x x

  S ( A S SA SBR B S Q ) , (3.2.13) karena      persamaan (3.2.13) memenuhi untuk setiap waktu ,maka diperoleh t

  T

  1 T , t , (3.2.14)

  

  S A SSA SBR B S Q   

T f

persamaan (3.2.14) disebut persamaan diferensial Riccati. Jika adalah solusi dengan kondisi akhir

  S t ( ) , maka persamaan (3.2.12) berlaku untuk setiap , maka asumsi benar. S T ( ) tT f f

  Karena solusi persamaan diferensial Riccati adalah , maka vektor kendali S t ( ) dan  x S

   

  1 T

u

optimal yang diberikan dari persamaan (3.2.7) yaitu menjadi

  ( ) t   R B ( ) t λ

  

  

1 T

u x

  ( ) t R B S t ( ) ( ) t , (3.2.15)   

  1 T selanjutnya disimbolkan , (3.2.16)

  K t ( )  R B S t ( ) sehingga vektor kendali optimal menjadi u x

  . (3.2.17)

( ) t   K t ( ) ( ) t

3.3. Permainan Dinamis Non-Kooperatif dua Pemain.

  Masalah umum permainan dinamis non-kooperatif didefinisikan dalam bentuk persamaan diferensial sistem dinamik permainan untuk pemain N N x x u x x

  ( ) tA t ( )  B ( ), t (0)  (3.3.1)

i i

   i

  1

  

dengan matriks dan , . Setiap pemain memiliki sebuah

fungsi objektif yang akan diminimalkan

T f

N

  

T T T

u u x x x x u u

  (3.3.2) J ( , , )  ( T K T ) ( ) ( T )  { ( ) t Q ( ) t  ( ) t R ( )} t dt i

  1 N f i f f i j ij j

  

j

  1

  

dengan serta semua matriks pada fungsi tujuan diasumsikan merupakan matriks

i 1, 2, , N J

   i

simetri, dan keduanya merupakan matriks definit positif untuk , serta

  Q i 1, 2, , N R

   ij i didefinisikan

  

  1 T

  1 

  1 T dan untuk

  SB R Bij S B R R R B i i ii i ij i ii ji ii i

  Selanjutnya akan dibentuk persamaan diferensial sistem dinamik permainan non-kooperatif untuk dua pemain waktu tak berhingga

x x u u x x

  (3.3.3)

( ) tA t ( )  B ( ) tB ( ), t (0) 

  1

  1

  2

  2 Pada bagian waktu tak berhingga, fungsi objektif memenuhi kriteria

  u u u u , sehingga para pemain meminimalkan fungsi objektif J ( , )  lim J ( , ) i

  1 2 i

  1

  2  T f

  

  2 T T T

  

u u x x x x u u

(3.3.4)

  J ( , )  ( T K T ) ( ) ( T )  { ( ) t Q ( ) t  ( ) t R ( )} t dt i

  1 2 f i f f i j ij j

   

  

  j

  1

  untuk ij i ,  1, 2.

Fungsi tujuan permainan dua pemain waktu tak berhingga memenuhi asumsi dan matriks serta

  R ij u x

matriks keduanya definit positif. Selanjutnya akan dibentuk vektor kendali dengan

  QF i i i

  

1 T , merupakan ekuilibrium linier umpan balik Nash.

  • F t ( ) R B K i=1,2, dan

   

  i ii i i F = adalah anggota , yang memenuhi definisi

  1

  2

  1

2 1 1

  2

  ( , F F ) { F ( , F F ) A B F B F stabil }   

  2 berikut.

  Defenisi 3.3.1 Ekuilibrium linier disebut ekuilibrium linier umpan balik Nash jika F

  F F ,

  1

  2

   

  x x x x memenuhi pertidaksamaan dan

  J ( , F F , ) J ( , F F , ) J ( , F F , ) J ( , F F , )

  1

  1

  2

  1

  1

  2

  2

  1

  2

  2

  1

  2

  x

untuk setiap dan untuk setiap matriks state umpan balik sedemikian sehingga

  F i ,  1, 2 i

  • .

  ( , F F ) dan F F ( , ) F

  1

  2

  1

  2 3.4. Eksistensi solusi Permainan Dinamis Non-Kooperatif dua Pemain.

   Dipandang kembali sistem persamaan diferensial sistem dinamik permainan non-kooperatif

untuk dua pemain waktu tak berhingga, berturut-turut persamaan (3.3.3) dan (3.3.4). Akan ditunjukkan ada

   * 1 T

  • 1

  yang memenuhi dengan asumsi adalah K t K t ( ), ( )   F

  • F t ( ) R B K ( F F , )

  

  2  i ii i i

  1

  2

  ekuilibrium umpan balik Nash, yang memenuhi

  

x x x x

dan .

  1

  1

  2

  1

  1

  2

  2

  1

  2

  2

  1

  2

  J ( , F F , ) J ( , F F , ) J ( , F F , ) J ( , F F , )  

  u x Sehingga dapat dibentuk F .

   i i

  Pada kasus pemain pertama, diketahui dengan u x , maka sistem dinamik 

  F ( ) t F ( ) t

  2

  2

  2

  • x x x

  u pemain pertama menjadi dengan fungsi objektif

     A B B F

  1 1

  2

  2 

  T

  • T T T

  x x x x u u ,

  

  J ( T K T ) ( ) ( T ) { ( Q F R F ) R } dt

  1 f 1 f f

  1

  2

  12

  2 1 11 1

  

berdasarkan sistem dinamik dan fungsi objektif pemain pertama, dapat dibentuk persamaan aljabar

Riccati

  T T

  , (3.4.1)    ( A B F ) KK A B F (  )  K S K  ( QF R F )

  2

  2

  1

  1

  2 2 1 1

  1

  1

  2

  12

  2

   1 * T

  dengan mensubstitusikan kepersamaan (3.4.1), maka diperoleh  

  F R B K

  2

  22

  2

  2 T

  . (3.4.2)   ( A S K ) KK A S K (  )  K S KQK S K

  2

  2

  1

  1

  2 2 1 1

  1

  1

  2

  21

  2 

  • 1 T

  

Persamaan (3.4.2) akan memiliki solusi . Sehingga dapat dibentuk , maka pemain

K  

  F R B K

  1

  11

  1

  1

  1

  • u x pertama dapat membentuk fungsi kendali .

   F

  1

1 Secara sama untuk pemain kedua, maka sistem dinamik pemain pertama menjadi

  • x x x u

  dengan fungsi objektif   

  A B F B

  1 1

  2

  2 

  T T T T * *

x x x x u u

  J  ( T K T ) ( ) ( T ) { ( QF R F )  R } dt

  2 f 2 f f

  2

  1

  21

  1

  2

  22

  2

   Maka dapat dibentuk persamaan aljabar Riccati

  T T

  • ( A B F ) K K A B F ( ) K S K ( Q F R F )

  (3.4.3)        

  1 1

  2 2 1 1

  2

  2

  2

  2 1 21 1 

  • 1 T

  Dengan mensubstitusikan kepersamaan (3.4.3), maka diperoleh F   R B K

  1

  11

  1

  1 T

          (3.4.4) ( A S K ) K K A S K ( ) K S K Q K S K

  1

  1

  2

  2

  1

  1

  2

  2

  2 2 1 12

  1  *

  1 T

  

Maka dapat diperoleh sebagai solusi dari persamaan (3.4.4) sehingga maka

K

    F R B K

  2

  2

  22

  2

  2

  • u x pemain pertama dapat membentuk fungsi kendali .

   F

  2

  2

  u x u x Berdasarkan persamaan (3.4.2) dan (3.4.4) diperoleh  F dan  F , kemudian

  1

  1

  2

  2

  disubsitusikan ke persamaan diferensial sistem dinamik, maka diperoleh

  

x x u u x x x x

.

   ABBAB FB FA B F   B F

  1

  1

  2

  2

  1

  1

  2 2 

  1

  1

  2 2 

  Selanjutnya karena ekuilibrium Nash yang memenuhi F F ,

  1

  2

   

  • x x dan x x

  

 

  

J ( , F F , ) J ( , F F , ) J ( , F F , ) J ( , F F , )

  1

  1

  2

  1

  1

  2

  2

  1

  2

  2

  1

  2

  x x

maka diasumsikan F F dan F F sehingga diperoleh dengan

     A B F   B F

  1

  1

  2

  2

  1

  1

  2

  2

    nilai eigen real bernilai negatif untuk , maka stabil.

  A B F   B F A B F   B F

  1

  1

  2

  2

  1

  1

  2

  2

  u x u x

Sehingga solusi dan , dapat menstabilkan persamaan diferensial sistem dinamik

   FF

  1

  1

  2

  2 permainan non-kooperatif.

4. Kesimpulan

  Berdasarkan uraian pada hasil dan pembahasan yang telah diberikan, maka diperoleh

kesimpulan bahwa berdasarkan permainan dinamis non-kooperatif untuk N pemain, dapat dibentuk

persamaan diferensial sistem dinamik permainan non-kooperatif untuk dua pemain waktu tak berhingga

yaitu

x x u u x x

  

( ) tA t ( )  B ( ) tB ( ), t (0) 

  1

  1

  2

  2

  dengan para pemain meminimalkan fungsi objektif

  

  2 T T T

  u u x x x x u u .

  

J ( , )  ( T K T ) ( ) ( T )  { ( ) t Q ( ) t  ( ) t R ( )} t dt

i

  1 2 f i f f i j ij j

  

  

  j

  1 Selanjutnya berdasarkan persoalan kendali optimal waktu kontinu, maka masing-masing pemain

  

pada permasalahan permainan dinamis non-kooperatif dua pemain dapat dibentuk persamaan aljabar

   * 1 * T

  u x

Riccati, yang digunakan untuk membentuk vektor kendali dengan untuk

   F   F t ( ) R B K i ii i i i i yang merupakan ekuilibrium umpan balik Nash untuk masing-masing pemain. i  1, 2

  Untuk penelitian selanjutnya, dapat dilakukan penelitian dua pemain untuk kasus waktu tak

berhingga dengan asumsi matriks-matriks menjadi skalar atau dengan meneliti untuk kasus N pemain

dengan asumsi yang sama dengan kasus dua pemain untuk kasus waktu tak berhingga.

  Daftar Pustaka Jurnal :

[1] Engwerda J. Feedback Nash equilibria in the scalar infinite horizon LQ-game. Automatica. 2000; 36 :

135-139.

[2] Weeren AJTM, Schumacher JM, Engwerda J. Asymptotic analysis of linear feedback Nash equilibria

in nonzero-sum linear-quadratic differential games. Journal of Optimization Theory and

  Applications.1999: 101: p693 –723.

  Buku : [1] Basar T. Dynamic noncooperative game theory. Philadelphia: SIAM. 1999.

  [2] Bellman R. Introduction to Matrix Analysis. Philadelphia: SIAM. 1997

[3] Engwerda J. LQ Dynamic Optimization and Differential Games. Chichester: John Wiley & Sons. 2005.

[4] Lewis FL. Applied Optimal Control and Estimation. New Jersey: Prentice-Hall, Inc. 1992. [5] Olsder GJ. Mathematical System Theory. Delft: University of Technology. 1994. [6] Perko L. Differential Equations and Dynamical System. New York: Springer-Verlag. 1991.