Markov karar süreci

Vikipedi, özgür ansiklopedi

Markov karar süreci (MDP), ayrık zamanlı stokastik bir kontrol sürecidir. Sonuçların bazen rastgele bazen de karar verenin kontrolünde olan durumlarda karar vermeyi matematiksel olarak inceler. Dinamik programlama ve pekiştirmeli öğrenme ile çözülen optimizasyon problemlerinde kullanılır. Markov karar süreci araştırmalarının temellerinin büyük bir kısmı Ronald Howard'ın 1960 yılında basılan Dinamik Programlama ve Markov Süreçleri (Dynamic Programming and Markov Processes) adlı kitabında atılmıştır.[1] Robotik, ekonomi, üretim gibi farklı alanlarda kullanılır. İsmini Markov zincirinin mucidi Rus Matematikçi Andrey Markov'dan alır.

Kaynakça[değiştir | kaynağı değiştir]

  1. ^ Howard, Ronald A. "Dynamic Programming and Markov Processes" (PDF). The M.I.T. Press. 9 Ekim 2011 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 2 Mayıs 2020.