Proses Keputusan Markov Metode Pengiterasian Kebijakan

c. Yang diketahui hanyalah kemungkinan hasil dari suatu tindakan, tetapi tidak dapat diprediksi berapa besar probabilitas setiap hasil tersebut. d. Pengambil keputusan tidak mempunyai pengetahuan atau informasi lengkap mengenai peluang terjadinya bermaca-macam keadaan tersebut. e. Hal yang akan diputuskan biasanya relatif belum pernah terjadi. f. Tingkat ketidakpastiaan kaputusan semacam ini dapat dikurangi dengan beberapa cara, antara lain mencari informasi lebih banyak, melalui riset atau penelitian, penggunaan probabilitas subyektif. g. Teknik pemecahannya adalah menggunakan beberapa metode, yaitu metode maximin, metode maximax, metode Laplace, metode minimax regret, metode realisme dan dibantu dengan tabel hasil Pay Off Table 4. Pengambilan keputusan dalam kondisi konflik Pengambilan keputusan dalam kondisi konflik adalah pengambilan keputusan di mana: a. Kepentingan dua atau lebih pengambil keputusan saling bertentangan dalam situasi persaingan. b. Pengambil keputusan saling bersaing dengan pengambil keputusan lainnya yang rasional, tanggap dan bertujuan untuk memenangkan persaingan tersebut. c. Pengambil keputusan bertindak sebagai pemain dalam suatu permainan. d. Teknik pemecahannya adalah menggunakan teori permainan.

3.2 Proses Keputusan Markov

Proses keputusan Markov memodelkan masalah keputusan, di mana sebuah sistem di dalam waktu yang berturut dan dikontrol. Sistem dinamis ini ditentukan oleh fungsi probabilitas transisi yang memetakan keadaan dengan tindakan setiap waktu, ada pendapatan yang bergantung pada keadaan dan mempergunakan tindakan-tindakan. Sehingga, permasalahan utamanya menemukan sebuah strategi atau kebijakan yang memaksimalkan ekspektasi pendapatan. Secara formal, proses keputusan Markov adalah sebuah tuple   R P A I M , , ,  , di mana I adalah himpunan keadaan tertentu   n ., . . , 1 . A menyatakan himpunan tindakan yang bisa diambil pada sistem dalam keadaan i , I i  dalam hal ini, i dan A berhingga. P adalah probabilitas pada tindakan a , A a  di keadaan i . R merupakan pendapatan yang diperoleh sebagai implikasi terjadinya transisi antar keadaan. Pengambilan suatu tindakan diatur oleh suatu kebijakan stasioner S . Kebijakan stasioner S merupakan suatu peraturan yang menyatakan tindakan apa yang harus dilakukan seandainya pada waktu pemeriksaan sistem berada dalam keadaan tertentu. Jika tindakan a diambil pada keadaan i , maka akan dimiliki aturan   a S i  , A a  , artinya jika sistem berada dalam keadaan i sehingga tindakan a harus dilakukan. Sebagai konsekuensi dari pengambilan tindakan tersebut adalah munculnya biaya atau pendapatan, yaitu a i q yang merupakan ekspektasi biaya atau pendapatan yang diperlukan apabila tindakan a dilakukan pada keadaan i . Pada pengambilan keputusan berikutnya, sistem akan berada dalam keadaan j dengan peluang a ij p di mana    i j a ij p 1 , I i  Sistem yang dikontrol ini dinamakan model keputusan markov bila sifat markov terpenuhi.

3.3 Metode Pengiterasian Kebijakan

Sebagai dasar untuk mengembangkan metode pengiterasian kebijakan, diperlukan persamaan rekursif berikut:         j v p q i v n ij i n 1 , m i ., . . 1, ,  3.1 Bentuk persamaan di atas harus dimodifikasi lebih dahulu untuk memungkinkan mempelajari perilaku asimptotik dari prosesnya. Definisikan  sebagai banyaknya langkah yang akan diamati. Ini berbeda dari n pada persamaan 3.1 karena n menyatakan langkah ke n . Sehingga persamaan rekursifnya ditulis sebagai berikut:          m j ij i j v p q i v 1 1   , m i ., . . 1, ,  3.2   i v  adalah ekspektasi pendapatan kumulatif dengan  adalah banyaknya langkah yang diamati. Dengan definisi yang baru ini, perilaku asimptotik dari prosesnya dapat dipelajari dengan menetapkan    . Diketahui bahwa   n     ., . . , , 2 1  adalah vektor probabilitas pada keadaan steady state dari matriks transisi ij p P  dan m m q q q g    . . . 2 2 1 1     adalah ekspektasi pendapatan per langkah. Untuk  yang sangat besar, sehingga   i v g v     Karena   i v  adalah pendapatan optimum kumulatif untuk  langkah berdasarkan keadaan i , dan g adalah ekspektasi pendapatan per langkah, sehingga secara intuitif dapat diperlihatkan mengapa   i v  sama dengan  g ditambah suatu faktor koreksi   i v yang dihitung untuk keadaan i tertentu. Hasil ini tentu saja berasumsi bahwa  sangat besar. Dengan menggunakan informasi di atas, persamaan rekursifnya dapat ditulis sebagai berikut:            m j ij i j v g p q i v g 1 1   , m i ., . . 1, ,  3.3 atau          m j ij i i v j v p q g 1 , m i ., . . 1, ,  3.4 yang menghasilkan m buah persamaan dengan m+1 faktor yang tidak diketahui, yaitu       m v v v , . . . , 2 , 1 dan g . Tujuan metode ini adalah menentukan kebijakan optimum yang menghasilkan nilai g maksimum. Karena ada m persamaan dengan 1  m faktor yang tidak diketahui, maka nilai g optimum tidak dapat ditentukan dalam satu langkah. Oleh karena itu, harus digunakan pendekatan iterasi yang dimulai pada suatu kebijakan mana saja dan pada akhirnya akan menentukan suatu kebijakan baru yang memberikan nilai g yang lebih baik. Proses iterasi ini berakhir apabila dua kebijakan yang berturut-turut bersifat identik. Proses iterasi ini terdiri atas dua komponen dasar yang disebut langkah penentuan nilai dan langkah perbaikan kebijakan. 1. Langkah penentuan nilai Pilih suatu kebijakan S secara sebarang. Gunakan matriks S P dan S R -nya dan secara sebarang asumsikan   m v S =0. Selesaikan persamaan berikut:     i v j v p q g S S m j S ij S i S     1 , m i ., . . 1, ,  3.5 dengan faktor yang tidak diketahui adalah S g ,   1 S v , . . .,   1  m v S 2. Langkah perbaikan kebijakan Untuk setiap keadaan i , tentukan alternatif a yang menghasilkan:            j v p q maks S m j a ij a i a 1 , m i ., . . 1, ,  3.6 Nilai-nilai dari   j v S , m j ., . . 1, ,  adalah nilai yang sudah ditentukan pada langkah penentuan nilai di atas. Keputusan-keputusan optimum a yang dihasilkan untuk keadaan 1, 2, . . ., m menyatakan kebijakan baru S . Jika S dan S identik, maka proses dihentikan dan S adalah kebijakan optimum. Jika S dan S tidak identik, maka ulangi perhitungan. Tujuan dari langkah perbaikan kebijakan adalah memperoleh g maksimal seperti yang telah dirumuskan di atas. Karena   i v tidak bergantung pada altenatif a , maka memaksimalkan g untuk seluruh alternatif a sama dengan memaksimalkan persoalan pada langkah perbaikan kebijakan.

3.4 Peroses Keputusan Markov dengan Metode Pengiterasian Kebijakan